МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Обработка и анализ больших данных

рабочая программа дисциплины
Закреплена за кафедройКафедра информатики
Направление подготовки02.04.01. Математика и компьютерные науки
ПрофильИнформационные технологии в анализе и геометрии
Форма обученияОчная
Общая трудоемкость3 ЗЕТ
Учебный план02_04_01_ИТАГ-2-2019
Часов по учебному плану 108
в том числе:
аудиторные занятия 36
самостоятельная работа 72
Виды контроля по семестрам
зачеты: 4

Распределение часов по семестрам

Курс (семестр) 2 (4) Итого
Недель 10
Вид занятий УПРПДУПРПД
Лекции 18 18 18 18
Практические 18 18 18 18
Сам. работа 72 72 72 72
Итого 108 108 108 108

Программу составил(и):
к.т.н., доцент, Михеева Т.В.

Рецензент(ы):
к.ф.-м.н., доцент, Пономарев И.В.

Рабочая программа дисциплины
Обработка и анализ больших данных

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования по направлению подготовки 02.04.01 Математика и компьютерные науки (уровень магистратуры) (приказ Минобрнауки России от 17.08.2015г. №829)

составлена на основании учебного плана:
02.04.01 Математика и компьютерные науки
утвержденного учёным советом вуза от 25.06.2019 протокол № 9.

Рабочая программа одобрена на заседании кафедры
Кафедра информатики

Протокол от 22.06.2019 г. № 8
Срок действия программы: 2019-2020 уч. г.

Заведующий кафедрой
Жариков А.В., доцент, к.ф.-м.н.


Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2019-2020 учебном году на заседании кафедры

Кафедра информатики

Протокол от 22.06.2019 г. № 8
Заведующий кафедрой Жариков А.В., доцент, к.ф.-м.н.


1. Цели освоения дисциплины

1.1.Формирование у студентов необходимой теоретической базы и практических навыков, которые позволят всесторонне и системно понимать современные проблемы прикладной математики и информатики, проблемы обработки и анализа информации, а также разрабатывать и анализировать концептуальные и теоретические модели при решении научных и прикладных задач в области информационных технологий. Одна из главных проблем современной обработки и анализа данных - рост объемов данных, поэтому вопросам обработки большого объема данных посвящена данная дисциплина. Главная задача курса - сформировать целостное представление о современных проблемах анализа и обработки больших данных, помочь овладеть навыками научно-исследовательской работы для решения практических задач анализа и обработки большого объема данных с применением моделей Data Mining.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.В.ДВ.04

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ПК-1 способность к интенсивной научно-исследовательской работе
ПК-2 способность к организации научно-исследовательских и научно-производственных работ, к управлению научным коллективом
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.• методы решения задач обработки и анализа больших данных, возможности высокопроизводительных вычислительных систем, технологии распределенных вычислений, методы и модели Data Mining.
3.2.Уметь:
3.2.1.• оценивать время и необходимые аппаратные ресурсы для решения задач анализа и обработки данных;
• создавать алгоритмы анализа и обработки большого объема данных с применением моделей Data Mining;
• организовывать научно-исследовательские и научно-производственные работы при решении научных и прикладных задач анализа и обработки большого объема данных.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.• навыками применения программных систем, предназначенных для анализа больших данных;
• навыками научно-исследовательской работы для решения практических задач анализа и обработки большого объема данных.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Технологии анализа данных
1.1. Большие данные (Big Data): современные подходы к обработке и хранению. Проблема множественного сравнения данных. Лекции 4 1 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
1.2. Процесс анализа. Общая схема анализа. Извлечение и визуализация данных. Этапы моделирования. Процесс построения моделей. Формы представления данных, типы и виды данных. Представления наборов данных. Лекции 4 1 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
1.3. Технологии KDD и Data Mining. Подготовка данных к анализу. Методика извлечения знаний. Data Mining. Мультидисциплинарный характер Data Mining. Причины распространения KDD и Data Mining. Актуальность технологий Data Mining как средств обработки больших объемов информации. Лекции 4 1 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
1.4. Программное обеспечение в области анализа данных. Аналитические платформы: классификация и особенности применения. Языки визуального моделирования. Лекции 4 1 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
1.5. Начало работы. Понятие сценария и узла обработки. Консолидация данных. Трансформация данных. Визуализация данных. Практические 4 4 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
1.6. Проработка необходимых вопросов для подготовки к лекциям и практическим занятиям. Сам. работа 4 32 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
Раздел 2. Интеллектуальный анализ данных
2.1. Ассоциативные правила. Аффинитивный анализ, предметный набор. Поддержка и достоверность ассоциативного правила. Значимость ассоциативных правил, лифт и левередж. Поиск ассоциативных правил. Частые предметные наборы и их обнаружение. Алгоритм генерации ассоциативных правил. Иерархические ассоциативные правила. Методы поиска иерархических ассоциативных правил. Лекции 4 4 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.2. Определение кластеризации. Постановка задачи кластеризации. Цели кластеризации в Data Mining. Примеры кластеризации в различных областях. Виды метрик. Шаги алгоритма. Меры расстояний. Пример работы алгоритма k-means. Проблемы алгоритмов кластеризации. Лекции 4 4 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.3. Применение классификации и регрессии. Обзор методов классификации и регрессии. Статистические методы. Методы, основанные на обучении, разнообразие подходов. Лекции 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.4. Основные понятия теории нейронных сетей. Основные парадигмы нейронных сетей. Многослойный персептрон: класс решаемых задач, архитектура. Лекции 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.5. Определение дерева решений. Причины популярности и условия применимости. Структура дерева решений. Выбор атрибута разбиения в узле. Алгоритм ID3, критерий выбора атрибута разбиения ID3, пример работы алгоритма. Проблема переобучения, Неизвестные значения атрибутов, алгоритм С4.5. Лекции 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.6. Ассоциативные правила. Поиск ассоциативных правил. Практические 4 4 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.7. Кластеризация. Алгоритм кластеризации k-means. Практические 4 4 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.8. Прогнозирование с помощью линейной регрессии. Практические 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.9. Классификация с помощью нейросети. Практические 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.10. Классификация с помощью деревьев решений. Практические 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.11. Проработка необходимых вопросов для подготовки к лекциям и практическим занятиям. Сам. работа 4 40 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
См. приложение.
5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрено.
5.3. Фонд оценочных средств для проведения промежуточной аттестации
См. приложение.

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Боровков А.А. Математическая статистика: учебник СПб.: Лань, 2010 e.lanbook.com
Л1.2 Мхитарян В.С. - Отв. ред. Анализ данных: Учебник для академического бакалавриата М.:Издательство Юрайт, 2018 urait.ru
Л1.3 Жуковский, О.И. Информационные технологии и анализ данных : учебное пособие Томск : Эль Контент, 2014 http://biblioclub.ru/index.php?page=book&id=480500
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Симчера В. М. Методы многомерного анализа статистических данных: учебное пособие Финансы и статистика, 2008 biblioclub.ru
Л2.2 Вирт Н. Алгоритмы и структуры данных. Новая версия для Оберона: Учебные пособия Издательство "ДМК Пресс", 2010 e.lanbook.com
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 ЭБС «Университетская библиотека online» biblioclub.ru
Э2 ЭБС «Лань» e.lanbook.com
Э3 ЭБС "Юрайт" biblio-online.ru
Э4 Курс в Moodle "Обработка и анализ больших данных" portal.edu.asu.ru
6.3. Перечень программного обеспечения
Microsoft Windows
Microsoft Office
7-Zip
AcrobatReader
6.4. Перечень информационных справочных систем
Информационная справочная система:
СПС КонсультантПлюс (инсталлированный ресурс АлтГУ или http://www.consultant.ru/).
Профессиональные базы данных:
1. Электронная база данных «Scopus» (http://www.scopus.com);
2. Электронная библиотечная система Алтайского государственного университета (http://elibrary.asu.ru/);
3. Научная электронная библиотека elibrary (http://elibrary.ru)
4. Электронная база данных ZBMATH: https://zbmath.org/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
106Л помещение для хранения и профилактического обслуживания учебного оборудования Стеллажи – 3 шт. осциллограф, паяльная станция, источник тока, переносные ноутбуки
202Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 14 посадочных мест; компьютеры: марка HP - 14 единиц; мониторы: марка ASUS модель VS197DE - 14 единиц
107Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 18 посадочных мест; компьютеры: марка HP, модель ProOne 400 - 18 единиц; проектор: марка SMART, модель UF70 - 1 единица; интерактивная доска: марка SMART Board модель SMB680 - 1 единица
Помещение для самостоятельной работы помещение для самостоятельной работы обучающихся Компьютеры, ноутбуки с подключением к информационно-телекоммуникационной сети «Интернет», доступом в электронную информационно-образовательную среду АлтГУ
Учебная аудитория для проведения занятий лекционного типа, занятий семинарского типа (лабораторных и(или) практических), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проектирования (выполнения курсовых работ), проведения практик Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)

8. Методические указания для обучающихся по освоению дисциплины

Методические указания для студентов
Главная задача курса - сформировать целостное представление о современных проблемах анализа и обработки больших данных, помочь овладеть навыками научно-исследовательской работы для решения практических задач анализа и обработки большого объема данных с применением моделей Data Mining.
Для эффективного изучения теоретической части дисциплины необходимо:
- построить работу по освоению дисциплины в порядке, отвечающим изучению основных этапов, согласно приведенным темам лекционного материала;
- усвоить содержание ключевых понятий;
- работать с основной и дополнительной литературой по соответствующим темам.
Для эффективного изучения практической части дисциплины настоятельно рекомендуется
- систематически осуществлять подготовку к практическим занятиям по предложенным преподавателем темам;
- своевременно выполнять практические задания (выполнение заданий является основой практических занятий).