МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Методы анализа и обработки данных
рабочая программа дисциплины

Закреплена за кафедройКафедра теоретической кибернетики и прикладной математики
Направление подготовки01.03.02. Прикладная математика и информатика
ПрофильМатематическое моделирование и информационные технологии. ФГОС 3++
Форма обученияОчная
Общая трудоемкость3 ЗЕТ
Учебный план01_03_02_ПМиИ-1-2020
Часов по учебному плану 108
в том числе:
аудиторные занятия 54
самостоятельная работа 54
Виды контроля по семестрам
зачеты: 6

Распределение часов по семестрам

Курс (семестр) 3 (6) Итого
Недель 19
Вид занятий УПРПДУПРПД
Лекции 18 18 18 18
Лабораторные 36 36 36 36
Сам. работа 54 54 54 54
Итого 108 108 108 108

Программу составил(и):
Препод., Кротова О.С.

Рецензент(ы):
к.ф.-м.н., Доцент, Пономарев И.В.

Рабочая программа дисциплины
Методы анализа и обработки данных

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования по направлению подготовки 01.03.02 Прикладная математика и информатика (уровень бакалавриата) (приказ Минобрнауки России от 10.01.2018 г. № 9)

составлена на основании учебного плана:
01.03.02 Прикладная математика и информатика
утвержденного учёным советом вуза от 30.06.2020 протокол № 6.

Рабочая программа одобрена на заседании кафедры
Кафедра теоретической кибернетики и прикладной математики

Протокол от 30.06.2020 г. № 6
Срок действия программы: 2020-2021 уч. г.

Заведующий кафедрой
к.т.н., доцент Хворова Л.А.

Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2020-2021 учебном году на заседании кафедры

Кафедра теоретической кибернетики и прикладной математики

Протокол от 30.06.2020 г. № 6
Заведующий кафедрой к.т.н., доцент Хворова Л.А.

1. Цели освоения дисциплины

1.1.Целями изучения дисциплины являются изучение методов и подходов к анализу данных различного объема, включая предварительную обработку данных и статистический анализ, освоение различных моделей машинного обучения, предназначенных для решения задач кластеризации, классификации и регрессии и применение их для решения прикладных задач из различных сфер человеческой деятельности.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.В.ДВ.01.02

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ПК-3: Способность разрабатывать и применять математические методы, системное и прикладное программное обеспечение, автоматизированные системы вычислительных комплексов, сервисы, операционные системы и распределенные базы данных для решения задач производственно-технологической деятельности
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.Основные технологии анализа данных.
3.2.Уметь:
3.2.1.Строить автоматизированные модели анализа данных.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.Навыками анализа данных на примере решения задач кластеризации,
классификации, прогнозирования.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Введение в анализ данных
1.1. Введение в интеллектуальный анализ данных: основные понятия, области применения современных технологий обработки и интеллектуального анализа больших данных. Лекции 6 2 ПК-3 Л1.1, Л1.2, Л2.2
1.2. Этапы анализа данных. Структурированные и неструктурированные данные. Сбор и подготовка данных. Лекции 6 2 ПК-3 Л1.1, Л1.2, Л2.2
1.3. Большие данные. Организация сбора и хранения больших наборов данных. Hadoop. Лабораторные 6 4 ПК-3 Л1.1, Л1.2, Л2.2
1.4. Восстановление пропущенных значений в массивах данных. Лабораторные 6 2 ПК-3 Л1.2
1.5. Этапы анализа данных. Структурированные и неструктурированные данные. Сбор и подготовка данных. Сам. работа 6 5 ПК-3 Л1.1, Л1.2, Л2.2
1.6. Большие данные. Организация сбора и хранения больших наборов данных.Hadoop. Сам. работа 6 6 ПК-3 Л1.1, Л1.2, Л2.2
Раздел 2. Очистка, интеграция и преобразование данных
2.1. Библиотека pandas. Структуры данных в pandas, работа со структурами данных. Операции над данными. Комбинирование данных из разных источников. Обработка пропущенных значений. Лекции 6 2 ПК-3 Л1.1, Л1.2, Л2.2
2.2. Работа с данными в pandas. Лабораторные 6 4 ПК-3 Л1.1, Л1.2, Л2.2
2.3. Работа с данными в pandas. Сам. работа 6 6 ПК-3 Л1.1, Л1.2, Л2.2
2.4. Восстановление пропущенных значений в массивах данных. Сам. работа 6 5 ПК-3 Л1.1, Л1.2, Л2.2
Раздел 3. Программные модули и пакеты для работы с многомерными массивами данных. Визуализация данных
3.1. Библиотеки NumPy, SciPy: основные функции. Визуализация данных с matplotlib и pandas. Лекции 6 2 ПК-3 Л1.2, Л2.4
3.2. Работа с библиотеками NumPy и SciPy. Лабораторные 6 2 ПК-3 Л1.2, Л2.4
3.3. Работа с библиотеками NumPy и SciPy. Сам. работа 6 4 ПК-3 Л1.2, Л2.4
3.4. Визуализация данных. Лабораторные 6 4 ПК-3 Л1.2, Л2.4
3.5. Визуализация данных. Сам. работа 6 4 ПК-3 Л1.2, Л2.4
Раздел 4. Теория вероятностей и математическая статистика
4.1. Теория вероятностей: условная вероятность, случайные величины, теорема Байеса, распределение вероятностей. Лекции 6 2 ПК-3 Л2.1, Л1.2
4.2. Статистика: описание одиночного набора данных, показатели центра распределения, показатели вариации, корреляция и причинная зависимость. Проверка статистических гипотез. Лекции 6 2 ПК-3 Л2.1, Л1.2
4.3. Теория вероятностей и статистика. Лабораторные 6 6 ПК-3 Л2.1, Л1.2
4.4. Теория вероятностей и статистика. Сам. работа 6 8 ПК-3 Л2.1, Л1.2
Раздел 5. Методы машинного обучения
5.1. Задачи машинного обучения. Применение машинного обучения в Data Science. Алгоритмы машинного обучения. Библиотека Scikit-Learn. Лекции 6 4 ПК-3 Л1.3, Л2.3, Л2.4
5.2. Алгоритмы машинного обучения.Способы и типы машинного обучения.Библиотека Scikit-Learn. Лабораторные 6 6 ПК-3 Л2.2, Л1.3, Л2.3
5.3. Алгоритмы машинного обучения. Способы и типы машинного обучения. Сам. работа 6 8 ПК-3 Л2.2, Л1.3, Л2.3
5.4. Оценка и улучшение качества моделей машинного обучения: перекрестная проверка, поиск по сетке, метрики качества моделей и их вычисление. Лекции 6 2 ПК-3 Л2.2, Л1.3, Л2.3
5.5. Оценка и улучшение качества моделей машинного обучения: перекрестная проверка, поиск по сетке, метрики качества моделей и их вычисление. Лабораторные 6 6 ПК-3 Л2.2, Л1.3, Л2.3
5.6. Оценка и улучшение качества моделей машинного обучения: перекрестная проверка, поиск по сетке, метрики качества моделей и их вычисление. Сам. работа 6 8 ПК-3 Л2.2, Л1.3, Л2.3
5.7. Защита индивидуальных проектов. Лабораторные 6 2 ПК-3 Л2.2, Л1.3, Л2.3

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания
См. приложение
5.2. Темы письменных работ (эссе, рефераты, курсовые работы и др.)
Не предусмотрено
5.3. Фонд оценочных средств
См. приложение
Приложения
Приложение 1.   ФОС_МАОД_ПМИ_1.docx

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. Анализ данных и процессов: учеб. пособие: Учебная литература для вузов СПб.: БХВ-Петербург, 2009 http://kist.ntu.edu.ua/textPhD/AnalizDannyhIProcessov.pdf
Л1.2 У. Маккинли Python и анализ данных: ДМК Пресс, 2015//ЭБС издательства «Лань» http://e.lanbook.com/books/element.php?pl1_id=73074
Л1.3 Рашка С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения: Самоучители и руководства Издательство "ДМК Пресс", 2017 https://e.lanbook.com/book/100905
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Энатская Н.Ю. Математическая статистика и случайные процессы: учебное пособие для прикладного бакалавриата М. : Издательство Юрайт // ЭБС «Юрайт», 2018 www.biblio-online.ru/book/E7144E93-751A-44FD-A63F-B50F18195681
Л2.2 Лучано Рамальо Python. К вершинам мастерства: Самоучители и руководства Издательство "ДМК Пресс", 2016 https://e.lanbook.com/book/93273
Л2.3 Шарден Б., Массарон Л., Боскетти А. Крупномасштабное машинное обучение вместе с Python: Учебные пособия Издательство "ДМК Пресс", 2018 //ЭБС издательства «Лань» https://e.lanbook.com/book/105836
Л2.4 Бонцанини М. Анализ социальных медиа на Python. Извлекайте и анализируйте данные из всех уголков социальной паутины на Python: Другое Издательство "ДМК Пресс", 2018 https://e.lanbook.com/book/108129
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 Методы анализа и обработки данных https://portal.edu.asu.ru/course/view.php?id=3884
6.3. Перечень программного обеспечения
Microsoft Windows
Microsoft Office
Дистрибутив Anaconda
7-Zip
AcrobatReader
6.4. Перечень информационных справочных систем
1. Основы алгоритмизации и программирования на языке Python [Электронный ресурс]: https://portal.edu.asu.ru/course/view.php?id=3237
2. Издательство «Лань» - электронно-библиотечная система [Электронный
ресурс]: http://e.lanbook.com
3. Издательство МЦНМО. Свободно распространяемые книги издательства
Московского центра непрерывного математического образования
[Электронный ресурс]: www.mccme.ru/free-books
4. Электронная библиотечная система Алтайского государственного
университета [Электронный ресурс]: http://elibrary.asu.ru
5. Электронная база данных ZBMATH: https://zbmath.org/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
408Л лаборатория математического моделирования - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 15 посадочных мест; рабочее место преподавателя; доска меловая 1 шт.; компьютер Depo - 10 шт., 5 шт. с мониторами LG и 5 шт. с мониторами Philips; мультимедиа-проектор Sony - 1 шт.; МФУ Canon - 1 шт.; стационарный экран: марка Digis Optima C - 1 шт.
Учебная аудитория для проведения занятий всех видов (дисциплинарной, междисциплинарной и модульной подготовки), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проекта (работы), проведения практики Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
203Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 14 посадочных мест; компьютеры: марка ASUS модель i5-6500 - 14 единиц

8. Методические указания для обучающихся по освоению дисциплины

Для успешного освоения дисциплины студент должен посещать лекции и лабораторные занятия, вовремя выполять все задания и тесты, пользоваться основной и полнительноцй литературой, рекомендованной настоящей программой. Во время лекции рекомендуется вести краткий конспект.
Навыки анализа данных студент преобретает на лабораторных занятиях. Для выполнения лабораторных заданий каждому студенту необходимо:
- получить вариант задания у преподавателя;
- скачать документ с описанием задания с образовательного портала;
- внимательно прочитать задание. Вопросы, возникающие в процессе выполненпия лабораторных работ, необходимо грамотно сформулировать и обратиться за помощью к преподавателю на консультации или ближайшем занятии;
- разработать, отладить и оттестировать программы, решающие поставленные задачи.
Для каждого лабораторного задания предусмотрена процедура защиты, в ходе которой преподаватель проводит устный опрос студентов для контроля понимания выполненных ими заданий.
Тестовые задания на образовательном портале предназначены для контроля усвоения теоретического материала, а также умения читать и понимать программный код. Тесты выполняются только в присутсвии преподавателя на практическом занятии или на консультации. Количесвто попыток ограничено тремя. Готовясь к тестированию, студент должен изучить конспекты лекций и учебно-методические материалы, рекомендуемые преподавателем.
При подготовке к экзамену в дополнение к изучению конспектов лекций и учебной литературы, рекомендуется посещать консультации и пользоваться свободными интернет-ресурсами.