МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Обработка и анализ больших данных

рабочая программа дисциплины
Закреплена за кафедройКафедра информатики
Направление подготовки02.04.01. Математика и компьютерные науки
ПрофильИнформационные технологии в анализе и геометрии
Форма обученияОчная
Общая трудоемкость3 ЗЕТ
Учебный план02_04_01_ИТАГ-2-2019
Часов по учебному плану 108
в том числе:
аудиторные занятия 36
самостоятельная работа 72
Виды контроля по семестрам
зачеты: 4

Распределение часов по семестрам

Курс (семестр) 2 (4) Итого
Недель 10
Вид занятий УПРПДУПРПД
Лекции 18 18 18 18
Практические 18 18 18 18
Сам. работа 72 72 72 72
Итого 108 108 108 108

Программу составил(и):
к.т.н., доцент, Михеева Т.В.

Рецензент(ы):
к.ф.-м.н., доцент, Пономарев И.В.

Рабочая программа дисциплины
Обработка и анализ больших данных

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования по направлению подготовки 02.04.01 Математика и компьютерные науки (уровень магистратуры) (приказ Минобрнауки России от 17.08.2015г. №829)

составлена на основании учебного плана:
02.04.01 Математика и компьютерные науки
утвержденного учёным советом вуза от 25.06.2019 протокол № 9.

Рабочая программа одобрена на заседании кафедры
Кафедра информатики

Протокол от 22.06.2019 г. № 8
Срок действия программы: 2019-2020 уч. г.

Заведующий кафедрой
Жариков А.В., доцент, к.ф.-м.н.


Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2019-2020 учебном году на заседании кафедры

Кафедра информатики

Протокол от 22.06.2019 г. № 8
Заведующий кафедрой Жариков А.В., доцент, к.ф.-м.н.


1. Цели освоения дисциплины

1.1.Формирование у студентов необходимой теоретической базы и практических навыков, которые позволят всесторонне и системно понимать современные проблемы прикладной математики и информатики, проблемы обработки и анализа информации, а также разрабатывать и анализировать концептуальные и теоретические модели при решении научных и прикладных задач в области информационных технологий. Одна из главных проблем современной обработки и анализа данных - рост объемов данных, поэтому вопросам обработки большого объема данных посвящена данная дисциплина. Главная задача курса - сформировать целостное представление о современных проблемах анализа и обработки больших данных, помочь овладеть навыками научно-исследовательской работы для решения практических задач анализа и обработки большого объема данных с применением моделей Data Mining.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.В.ДВ.04

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ПК-1 способность к интенсивной научно-исследовательской работе
ПК-2 способность к организации научно-исследовательских и научно-производственных работ, к управлению научным коллективом
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.• методы решения задач обработки и анализа больших данных, возможности высокопроизводительных вычислительных систем, технологии распределенных вычислений, методы и модели Data Mining.
3.2.Уметь:
3.2.1.• оценивать время и необходимые аппаратные ресурсы для решения задач анализа и обработки данных;
• создавать алгоритмы анализа и обработки большого объема данных с применением моделей Data Mining;
• организовывать научно-исследовательские и научно-производственные работы при решении научных и прикладных задач анализа и обработки большого объема данных.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.• навыками применения программных систем, предназначенных для анализа больших данных;
• навыками научно-исследовательской работы для решения практических задач анализа и обработки большого объема данных.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Технологии анализа данных
1.1. Большие данные (Big Data): современные подходы к обработке и хранению. Проблема множественного сравнения данных. Лекции 4 1 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
1.2. Процесс анализа. Общая схема анализа. Извлечение и визуализация данных. Этапы моделирования. Процесс построения моделей. Формы представления данных, типы и виды данных. Представления наборов данных. Лекции 4 1 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
1.3. Технологии KDD и Data Mining. Подготовка данных к анализу. Методика извлечения знаний. Data Mining. Мультидисциплинарный характер Data Mining. Причины распространения KDD и Data Mining. Актуальность технологий Data Mining как средств обработки больших объемов информации. Лекции 4 1 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
1.4. Программное обеспечение в области анализа данных. Аналитические платформы: классификация и особенности применения. Языки визуального моделирования. Лекции 4 1 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
1.5. Начало работы. Понятие сценария и узла обработки. Консолидация данных. Трансформация данных. Визуализация данных. Практические 4 4 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
1.6. Проработка необходимых вопросов для подготовки к лекциям и практическим занятиям. Сам. работа 4 32 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
Раздел 2. Интеллектуальный анализ данных
2.1. Ассоциативные правила. Аффинитивный анализ, предметный набор. Поддержка и достоверность ассоциативного правила. Значимость ассоциативных правил, лифт и левередж. Поиск ассоциативных правил. Частые предметные наборы и их обнаружение. Алгоритм генерации ассоциативных правил. Иерархические ассоциативные правила. Методы поиска иерархических ассоциативных правил. Лекции 4 4 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.2. Определение кластеризации. Постановка задачи кластеризации. Цели кластеризации в Data Mining. Примеры кластеризации в различных областях. Виды метрик. Шаги алгоритма. Меры расстояний. Пример работы алгоритма k-means. Проблемы алгоритмов кластеризации. Лекции 4 4 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.3. Применение классификации и регрессии. Обзор методов классификации и регрессии. Статистические методы. Методы, основанные на обучении, разнообразие подходов. Лекции 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.4. Основные понятия теории нейронных сетей. Основные парадигмы нейронных сетей. Многослойный персептрон: класс решаемых задач, архитектура. Лекции 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.5. Определение дерева решений. Причины популярности и условия применимости. Структура дерева решений. Выбор атрибута разбиения в узле. Алгоритм ID3, критерий выбора атрибута разбиения ID3, пример работы алгоритма. Проблема переобучения, Неизвестные значения атрибутов, алгоритм С4.5. Лекции 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.6. Ассоциативные правила. Поиск ассоциативных правил. Практические 4 4 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.7. Кластеризация. Алгоритм кластеризации k-means. Практические 4 4 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.8. Прогнозирование с помощью линейной регрессии. Практические 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.9. Классификация с помощью нейросети. Практические 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.10. Классификация с помощью деревьев решений. Практические 4 2 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2
2.11. Проработка необходимых вопросов для подготовки к лекциям и практическим занятиям. Сам. работа 4 40 ПК-1, ПК-2 Л1.1, Л2.1, Л1.3, Л1.2, Л2.2

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
См. приложение.
5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрено.
5.3. Фонд оценочных средств для проведения промежуточной аттестации
См. приложение.

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Боровков А.А. Математическая статистика: учебник СПб.: Лань, 2010 e.lanbook.com
Л1.2 Мхитарян В.С. - Отв. ред. Анализ данных: Учебник для академического бакалавриата М.:Издательство Юрайт, 2018 urait.ru
Л1.3 Жуковский, О.И. Информационные технологии и анализ данных : учебное пособие Томск : Эль Контент, 2014 http://biblioclub.ru/index.php?page=book&id=480500
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Симчера В. М. Методы многомерного анализа статистических данных: учебное пособие Финансы и статистика, 2008 biblioclub.ru
Л2.2 Вирт Н. Алгоритмы и структуры данных. Новая версия для Оберона: Учебные пособия Издательство "ДМК Пресс", 2010 e.lanbook.com
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 ЭБС «Университетская библиотека online» biblioclub.ru
Э2 ЭБС «Лань» e.lanbook.com
Э3 ЭБС "Юрайт" biblio-online.ru
Э4 Курс в Moodle "Обработка и анализ больших данных" portal.edu.asu.ru
6.3. Перечень программного обеспечения
Microsoft Windows
Microsoft Office
7-Zip
AcrobatReader
6.4. Перечень информационных справочных систем
Информационная справочная система:
СПС КонсультантПлюс (инсталлированный ресурс АлтГУ или http://www.consultant.ru/).
Профессиональные базы данных:
1. Электронная база данных «Scopus» (http://www.scopus.com);
2. Электронная библиотечная система Алтайского государственного университета (http://elibrary.asu.ru/);
3. Научная электронная библиотека elibrary (http://elibrary.ru)
4. Электронная база данных ZBMATH: https://zbmath.org/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
Учебная аудитория для проведения занятий лекционного типа, занятий семинарского типа (лабораторных и(или) практических), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проектирования (выполнения курсовых работ), проведения практик Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
Помещение для самостоятельной работы помещение для самостоятельной работы обучающихся Компьютеры, ноутбуки с подключением к информационно-телекоммуникационной сети «Интернет», доступом в электронную информационно-образовательную среду АлтГУ
107Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 18 посадочных мест; компьютеры: марка HP, модель ProOne 400 - 18 единиц; проектор: марка SMART, модель UF70 - 1 единица; интерактивная доска: марка SMART Board модель SMB680 - 1 единица
202Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 14 посадочных мест; компьютеры: марка HP - 14 единиц; мониторы: марка ASUS модель VS197DE - 14 единиц
106Л помещение для хранения и профилактического обслуживания учебного оборудования Стеллажи – 3 шт. осциллограф, паяльная станция, источник тока, переносные ноутбуки

8. Методические указания для обучающихся по освоению дисциплины

Методические указания для студентов
Главная задача курса - сформировать целостное представление о современных проблемах анализа и обработки больших данных, помочь овладеть навыками научно-исследовательской работы для решения практических задач анализа и обработки большого объема данных с применением моделей Data Mining.
Для эффективного изучения теоретической части дисциплины необходимо:
- построить работу по освоению дисциплины в порядке, отвечающим изучению основных этапов, согласно приведенным темам лекционного материала;
- усвоить содержание ключевых понятий;
- работать с основной и дополнительной литературой по соответствующим темам.
Для эффективного изучения практической части дисциплины настоятельно рекомендуется
- систематически осуществлять подготовку к практическим занятиям по предложенным преподавателем темам;
- своевременно выполнять практические задания (выполнение заданий является основой практических занятий).