МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Обработка и анализ больших данных
рабочая программа дисциплины

Закреплена за кафедройКафедра информатики
Направление подготовки02.04.01. Математика и компьютерные науки
ПрофильМатематическая кибернетика и прикладной анализ
Форма обученияОчная
Общая трудоемкость4 ЗЕТ
Учебный план02_04_01_МКиПА-1-2020
Часов по учебному плану 144
в том числе:
аудиторные занятия 36
самостоятельная работа 108
Виды контроля по семестрам
зачеты: 4

Распределение часов по семестрам

Курс (семестр) 2 (4) Итого
Недель 11
Вид занятий УПРПДУПРПД
Лекции 18 18 18 18
Практические 18 18 18 18
Сам. работа 108 108 108 108
Итого 144 144 144 144

Программу составил(и):
к.т.н., доцент, Михеева Т.В.

Рецензент(ы):
к.ф.-м.н., доцент, Пономарев И.В.

Рабочая программа дисциплины
Обработка и анализ больших данных

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования по направлению подготовки 02.04.01 Математика и компьютерные науки (уровень магистратуры) (приказ Минобрнауки России от 23.08.2017 г. № 810)

составлена на основании учебного плана:
02.04.01 Математика и компьютерные науки
утвержденного учёным советом вуза от 30.06.2020 протокол № 6.

Рабочая программа одобрена на заседании кафедры
Кафедра информатики

Протокол от 30.06.2020 г. № 6
Срок действия программы: 2020-2021 уч. г.

Заведующий кафедрой
Козлов Д.Ю., доцент, к.ф.-м.н.

Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2020-2021 учебном году на заседании кафедры

Кафедра информатики

Протокол от 30.06.2020 г. № 6
Заведующий кафедрой Козлов Д.Ю., доцент, к.ф.-м.н.

1. Цели освоения дисциплины

1.1.Формирование у студентов необходимой теоретической базы и практических навыков, которые позволят всесторонне и системно понимать современные проблемы прикладной математики и информатики, проблемы обработки и анализа информации, а также разрабатывать и анализировать концептуальные и теоретические модели при решении научных и прикладных задач в области информационных технологий. Одна из главных проблем современной обработки и анализа данных - рост объемов данных, поэтому вопросам обработки большого объема данных посвящена данная дисциплина. Главная задача курса - сформировать целостное представление о современных проблемах анализа и обработки больших данных, помочь овладеть опытом разработки и анализа концептуальных и теоретических моделей прикладных задач анализа больших данных с применением моделей Data Mining.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.О.04

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

УК-6: Способен определять и реализовывать приоритеты собственной деятельности и способы ее совершенствования на основе самооценки
ОПК-3: Способен самостоятельно создавать прикладные программные средства на основе современных информационных технологий и сетевых ресурсов, в том числе отечественного производства
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.• методы решения задач обработки и анализа больших данных, возможности высокопроизводительных вычислительных систем, технологии распределенных вычислений, методы и модели Data Mining.
3.2.Уметь:
3.2.1.• разрабатывать и анализировать концептуальные и теоретические модели прикладных задач анализа больших данных;
• использовать и применять углубленные знания в области обработки и анализа больших данных;
• оценивать время и необходимые аппаратные ресурсы для решения задач анализа и обработки данных;
• создавать алгоритмы анализа и обработки большого объема данных с применением моделей Data Mining.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.• навыками применения программных систем, предназначенных для анализа больших данных.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Технологии анализа данных
1.1. Большие данные (Big Data): современные подходы к обработке и хранению. Проблема множественного сравнения данных. Лекции 4 1 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
1.2. Процесс анализа. Общая схема анализа. Извлечение и визуализация данных. Этапы моделирования. Процесс построения моделей. Формы представления данных, типы и виды данных. Представления наборов данных. Лекции 4 1 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
1.3. Технологии KDD и Data Mining. Подготовка данных к анализу. Методика извлечения знаний. Data Mining. Мультидисциплинарный характер Data Mining. Причины распространения KDD и Data Mining. Актуальность технологий Data Mining как средств обработки больших объемов информации. Лекции 4 1 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
1.4. Программное обеспечение в области анализа данных. Аналитические платформы: классификация и особенности применения. Языки визуального моделирования. Лекции 4 1 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
1.5. Начало работы. Понятие сценария и узла обработки. Консолидация данных. Трансформация данных. Визуализация данных. Практические 4 4 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
1.6. Проработка необходимых вопросов для подготовки к лекциям и практическим занятиям. Сам. работа 4 54 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
Раздел 2. Интеллектуальный анализ данных
2.1. Ассоциативные правила. Аффинитивный анализ, предметный набор. Поддержка и достоверность ассоциативного правила. Значимость ассоциативных правил, лифт и левередж. Поиск ассоциативных правил. Частые предметные наборы и их обнаружение. Алгоритм генерации ассоциативных правил. Иерархические ассоциативные правила. Методы поиска иерархических ассоциативных правил. Лекции 4 4 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.2. Определение кластеризации. Постановка задачи кластеризации. Цели кластеризации в Data Mining. Примеры кластеризации в различных областях. Виды метрик. Шаги алгоритма. Меры расстояний. Пример работы алгоритма k-means. Проблемы алгоритмов кластеризации. Лекции 4 4 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.3. Применение классификации и регрессии. Обзор методов классификации и регрессии. Статистические методы. Методы, основанные на обучении, разнообразие подходов. Лекции 4 2 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.4. Основные понятия теории нейронных сетей. Основные парадигмы нейронных сетей. Многослойный персептрон: класс решаемых задач, архитектура. Лекции 4 2 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.5. Определение дерева решений. Причины популярности и условия применимости. Структура дерева решений. Выбор атрибута разбиения в узле. Алгоритм ID3, критерий выбора атрибута разбиения ID3, пример работы алгоритма. Проблема переобучения, Неизвестные значения атрибутов, алгоритм С4.5. Лекции 4 2 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.6. Ассоциативные правила. Поиск ассоциативных правил. Практические 4 4 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.7. Кластеризация. Алгоритм кластеризации k-means. Практические 4 4 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.8. Прогнозирование с помощью линейной регрессии. Практические 4 2 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.9. Классификация с помощью нейросети. Практические 4 2 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.10. Классификация с помощью деревьев решений. Практические 4 2 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2
2.11. Проработка необходимых вопросов для подготовки к лекциям и практическим занятиям. Сам. работа 4 54 УК-6, ОПК-3 Л1.1, Л2.1, Л1.2, Л1.3, Л2.2

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания
См. приложение.
5.2. Темы письменных работ (эссе, рефераты, курсовые работы и др.)
Не предусмотрено.
5.3. Фонд оценочных средств
См. приложение.
Приложения

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Боровков А.А. Математическая статистика: учебник СПб.: Лань, 2010 https://e.lanbook.com/book/3810
Л1.2 Жуковский, О.И. Информационные технологии и анализ данных : учебное пособие Томск : Эль Контент, 2014 http://biblioclub.ru/index.php?page=book&id=480500
Л1.3 Мхитарян В.С. - Отв. ред. АНАЛИЗ ДАННЫХ. Учебник для академического бакалавриата: Гриф УМО ВО М.:Издательство Юрайт, 2018 https://biblio-online.ru/book/CC38E97A-CCE5-4470-90F1-3B6D35ACC0B4
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Симчера В. М. Методы многомерного анализа статистических данных: учебное пособие Финансы и статистика, 2008 http://biblioclub.ru/index.php?page=book&id=59559&sr=1
Л2.2 Вирт Н. Алгоритмы и структуры данных. Новая версия для Оберона: Учебные пособия Издательство "ДМК Пресс", 2010 https://e.lanbook.com/book/1261
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 Курс в Moodle "Обработка и анализ больших данных" https://portal.edu.asu.ru/course/view.php?id=2925
6.3. Перечень программного обеспечения
Microsoft Windows
Microsoft Office
7-Zip
AcrobatReader
6.4. Перечень информационных справочных систем
Информационная справочная система:
СПС КонсультантПлюс (инсталлированный ресурс АлтГУ или http://www.consultant.ru/).
Профессиональные базы данных:
1. Электронная база данных «Scopus» (http://www.scopus.com);
2. Электронная библиотечная система Алтайского государственного университета (http://elibrary.asu.ru/);
3. Научная электронная библиотека elibrary (http://elibrary.ru).
4. Электронная база данных «ZBMATH – The database Zentralblatt MATH» https://zbmath.org/
5. 7. Электронная база данных ZBMATH: https://zbmath.org/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
106Л помещение для хранения и профилактического обслуживания учебного оборудования Стеллажи – 3 шт. осциллограф, паяльная станция, источник тока, переносные ноутбуки
320Л медиатека, читальный зал – помещение для самостоятельной работы Учебная мебель на 15 посадочных мест; персональные компьютеры с выходом в информационно-телекоммуникационную сеть Интернет и электронную информационно-образовательную среду;
Учебная аудитория для проведения занятий лекционного типа, занятий семинарского типа (лабораторных и(или) практических), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проектирования (выполнения курсовых работ), проведения практик Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
107Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 18 посадочных мест; компьютеры: марка HP, модель ProOne 400 - 18 единиц; проектор: марка SMART, модель UF70 - 1 единица; интерактивная доска: марка SMART Board модель SMB680 - 1 единица

8. Методические указания для обучающихся по освоению дисциплины

Методические указания для студентов
Главная задача курса - сформировать целостное представление о современных проблемах анализа и обработки больших данных, помочь овладеть опытом разработки и анализа концептуальных и теоретических моделей прикладных задач анализа больших данных с применением моделей Data Mining.
Для эффективного изучения теоретической части дисциплины необходимо:
- построить работу по освоению дисциплины в порядке, отвечающим изучению основных этапов, согласно приведенным темам лекционного материала;
- усвоить содержание ключевых понятий;
- работать с основной и дополнительной литературой по соответствующим темам.
Для эффективного изучения практической части дисциплины настоятельно рекомендуется
- систематически осуществлять подготовку к практическим занятиям по предложенным преподавателем темам;
- своевременно выполнять практические задания (выполнение заданий является основой практических занятий).