МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Обработка и анализ больших данных
рабочая программа дисциплины

Закреплена за кафедройКафедра информатики
Направление подготовки01.04.02. Прикладная математика и информатика
ПрофильБиокибернетика, биоинформатика и программная инженерия. ФГОС 3++
Форма обученияОчная
Общая трудоемкость5 ЗЕТ
Учебный план01_04_02_ББиПИ-1-2020-1
Часов по учебному плану 180
в том числе:
аудиторные занятия 36
самостоятельная работа 117
контроль 27
Виды контроля по семестрам
экзамены: 4

Распределение часов по семестрам

Курс (семестр) 2 (4) Итого
Недель 12
Вид занятий УПРПДУПРПД
Лекции 18 18 18 18
Практические 18 18 18 18
Сам. работа 117 117 117 117
Часы на контроль 27 27 27 27
Итого 180 180 180 180

Программу составил(и):
к.т.н., доцент, Михеева Т.В.

Рецензент(ы):
к.ф.-м.н., доцент, Пономарев И.В.

Рабочая программа дисциплины
Обработка и анализ больших данных

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования по направлению подготовки 01.04.02 Прикладная математика и информатика (уровень магистратуры) (приказ Минобрнауки России от 10.01.2018г. №13)

составлена на основании учебного плана:
01.04.02 Прикладная математика и информатика
утвержденного учёным советом вуза от 30.06.2020 протокол № 6.

Рабочая программа одобрена на заседании кафедры
Кафедра информатики

Протокол от 30.06.2020 г. № 6
Срок действия программы: 2020-2021 уч. г.

Заведующий кафедрой
Козлов Д.Ю., доцент, к.ф.-м.н.

Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2020-2021 учебном году на заседании кафедры

Кафедра информатики

Протокол от 30.06.2020 г. № 6
Заведующий кафедрой Козлов Д.Ю., доцент, к.ф.-м.н.

1. Цели освоения дисциплины

1.1.Формирование у студентов необходимой теоретической базы и практических навыков, которые позволят всесторонне и системно понимать современные проблемы прикладной математики и информатики, проблемы обработки и анализа информации, а также разрабатывать и анализировать концептуальные и теоретические модели при решении научных и прикладных задач в области информационных технологий. Одна из главных проблем современной обработки и анализа данных - рост объемов данных, поэтому вопросам обработки большого объема данных посвящена данная дисциплина. Главная задача курса - сформировать целостное представление о современных проблемах анализа и обработки больших данных, помочь овладеть опытом разработки и анализа концептуальных и теоретических моделей прикладных задач анализа больших данных с применением моделей Data Mining.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.О.01.03

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ОПК-1: Способен решать актуальные задачи фундаментальной и прикладной математики
ПК-3: способность разрабатывать и применять математические методы, системное и прикладное программное обеспечение, автоматизированные системы вычислительных комплексов, сервисы, операционные системы и распределенные базы данных для решения задач производственно-технологической деятельности
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.• методы решения задач обработки и анализа больших данных, возможности высокопроизводительных вычислительных систем, технологии распределенных вычислений, методы и модели Data Mining.
3.2.Уметь:
3.2.1.• разрабатывать и анализировать концептуальные и теоретические модели прикладных задач анализа больших данных;
• использовать и применять углубленные знания в области обработки и анализа больших данных;
• оценивать время и необходимые аппаратные ресурсы для решения задач анализа и обработки данных;
• создавать алгоритмы анализа и обработки большого объема данных с применением моделей Data Mining.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.• навыками применения программных систем, предназначенных для анализа больших данных.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Технологии анализа данных
1.1. Большие данные (Big Data): современные подходы к обработке и хранению. Проблема множественного сравнения данных. Лекции 4 1 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
1.2. Процесс анализа. Общая схема анализа. Извлечение и визуализация данных. Этапы моделирования. Процесс построения моделей. Формы представления данных, типы и виды данных. Представления наборов данных. Лекции 4 1 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
1.3. Технологии KDD и Data Mining. Подготовка данных к анализу. Методика извлечения знаний. Data Mining. Мультидисциплинарный характер Data Mining. Причины распространения KDD и Data Mining. Актуальность технологий Data Mining как средств обработки больших объемов информации. Лекции 4 1 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
1.4. Программное обеспечение в области анализа данных. Аналитические платформы: классификация и особенности применения. Языки визуального моделирования. Лекции 4 1 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
1.5. Начало работы. Понятие сценария и узла обработки. Консолидация данных. Трансформация данных. Визуализация данных. Практические 4 4 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
1.6. Проработка необходимых вопросов для подготовки к лекциям и практическим занятиям. Сам. работа 4 57 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
Раздел 2. Интеллектуальный анализ данных
2.1. Ассоциативные правила. Аффинитивный анализ, предметный набор. Поддержка и достоверность ассоциативного правила. Значимость ассоциативных правил, лифт и левередж. Поиск ассоциативных правил. Частые предметные наборы и их обнаружение. Алгоритм генерации ассоциативных правил. Иерархические ассоциативные правила. Методы поиска иерархических ассоциативных правил. Лекции 4 4 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.2. Определение кластеризации. Постановка задачи кластеризации. Цели кластеризации в Data Mining. Примеры кластеризации в различных областях. Виды метрик. Шаги алгоритма. Меры расстояний. Пример работы алгоритма k-means. Проблемы алгоритмов кластеризации. Лекции 4 4 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.3. Применение классификации и регрессии. Обзор методов классификации и регрессии. Статистические методы. Методы, основанные на обучении, разнообразие подходов. Лекции 4 2 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.4. Основные понятия теории нейронных сетей. Основные парадигмы нейронных сетей. Многослойный персептрон: класс решаемых задач, архитектура. Лекции 4 2 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.5. Определение дерева решений. Причины популярности и условия применимости. Структура дерева решений. Выбор атрибута разбиения в узле. Алгоритм ID3, критерий выбора атрибута разбиения ID3, пример работы алгоритма. Проблема переобучения, Неизвестные значения атрибутов, алгоритм С4.5. Лекции 4 2 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.6. Ассоциативные правила. Поиск ассоциативных правил. Практические 4 4 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.7. Кластеризация. Алгоритм кластеризации k-means. Практические 4 4 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.8. Прогнозирование с помощью линейной регрессии. Практические 4 2 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.9. Классификация с помощью нейросети. Практические 4 2 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.10. Классификация с помощью деревьев решений. Практические 4 2 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.11. Проработка необходимых вопросов для подготовки к лекциям и практическим занятиям. Сам. работа 4 60 ОПК-1, ПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания
См. приложение.
5.2. Темы письменных работ (эссе, рефераты, курсовые работы и др.)
Не предусмотрено.
5.3. Фонд оценочных средств
См. приложение.
Приложения

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Боровков А.А. Математическая статистика: учебник СПб.: Лань, 2010 https://e.lanbook.com/book/3810
Л1.2 Жуковский, О.И. Информационные технологии и анализ данных : учебное пособие Томск : Эль Контент, 2014 http://biblioclub.ru/index.php?page=book&id=480500
Л1.3 Мхитарян В.С. - Отв. ред. АНАЛИЗ ДАННЫХ. Учебник для академического бакалавриата: Гриф УМО ВО М.:Издательство Юрайт, 2018 https://biblio-online.ru/book/CC38E97A-CCE5-4470-90F1-3B6D35ACC0B4
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Симчера В. М. Методы многомерного анализа статистических данных: учебное пособие Финансы и статистика, 2008 http://biblioclub.ru/index.php?page=book&id=59559&sr=1
Л2.2 Вирт Н. Алгоритмы и структуры данных. Новая версия для Оберона: Учебные пособия Издательство "ДМК Пресс", 2010 https://e.lanbook.com/book/1261
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 Курс в Moodle "Обработка и анализ больших данных" https://portal.edu.asu.ru/course/view.php?id=2925
6.3. Перечень программного обеспечения
Microsoft Windows
Microsoft Office
7-Zip
AcrobatReader
6.4. Перечень информационных справочных систем
Информационная справочная система:
СПС КонсультантПлюс (инсталлированный ресурс АлтГУ или http://www.consultant.ru/).
Профессиональные базы данных:
1. Электронная база данных «Scopus» (http://www.scopus.com);
2. Электронная библиотечная система Алтайского государственного университета (http://elibrary.asu.ru/);
3. Научная электронная библиотека elibrary (http://elibrary.ru).
4. Электронная база данных «ZBMATH – The database Zentralblatt MATH» https://zbmath.org/
5. 7. Электронная база данных ZBMATH: https://zbmath.org/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
106Л помещение для хранения и профилактического обслуживания учебного оборудования Стеллажи – 3 шт. осциллограф, паяльная станция, источник тока, переносные ноутбуки
320Л медиатека, читальный зал – помещение для самостоятельной работы Учебная мебель на 15 посадочных мест; персональные компьютеры с выходом в информационно-телекоммуникационную сеть Интернет и электронную информационно-образовательную среду;
Учебная аудитория для проведения занятий лекционного типа, занятий семинарского типа (лабораторных и(или) практических), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проектирования (выполнения курсовых работ), проведения практик Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
107Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 18 посадочных мест; компьютеры: марка HP, модель ProOne 400 - 18 единиц; проектор: марка SMART, модель UF70 - 1 единица; интерактивная доска: марка SMART Board модель SMB680 - 1 единица

8. Методические указания для обучающихся по освоению дисциплины

Методические указания для студентов
Главная задача курса - сформировать целостное представление о современных проблемах анализа и обработки больших данных, помочь овладеть опытом разработки и анализа концептуальных и теоретических моделей прикладных задач анализа больших данных с применением моделей Data Mining.
Для эффективного изучения теоретической части дисциплины необходимо:
- построить работу по освоению дисциплины в порядке, отвечающим изучению основных этапов, согласно приведенным темам лекционного материала;
- усвоить содержание ключевых понятий;
- работать с основной и дополнительной литературой по соответствующим темам.
Для эффективного изучения практической части дисциплины настоятельно рекомендуется
- систематически осуществлять подготовку к практическим занятиям по предложенным преподавателем темам;
- своевременно выполнять практические задания (выполнение заданий является основой практических занятий).