МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Методы анализа и обработки данных

рабочая программа дисциплины
Закреплена за кафедройКафедра теоретической кибернетики и прикладной математики
Направление подготовки02.03.02. Фундаментальная информатика и информационные технологии
ПрофильПрограммирование и информационные технологии
Форма обученияОчная
Общая трудоемкость3 ЗЕТ
Учебный план02_03_02_ФИиИТ-1-2020
Часов по учебному плану 108
в том числе:
аудиторные занятия 42
самостоятельная работа 66
Виды контроля по семестрам
зачеты: 6

Распределение часов по семестрам

Курс (семестр) 3 (6) Итого
Недель 19
Вид занятий УПРПДУПРПД
Лекции 18 18 18 18
Практические 24 24 24 24
Сам. работа 66 66 66 66
Итого 108 108 108 108

Программу составил(и):
Препод., Кротова О.С.

Рецензент(ы):
к.ф.-м.н., Доцент, Пономарев И.В.

Рабочая программа дисциплины
Методы анализа и обработки данных

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования по направлению подготовки 02.03.02 Фундаментальная информатика и информационные технологии (уровень бакалавриата) (приказ Минобрнауки России от 23.08.2017 г. № 808)

составлена на основании учебного плана:
02.03.02 Фундаментальная информатика и информационные технологии
утвержденного учёным советом вуза от 30.06.2020 протокол № 6.

Рабочая программа одобрена на заседании кафедры
Кафедра теоретической кибернетики и прикладной математики

Протокол от 30.06.2020 г. № 6
Срок действия программы: 2020-2021 уч. г.

Заведующий кафедрой
к.т.н., доцент Хворова Л.А.


Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2020-2021 учебном году на заседании кафедры

Кафедра теоретической кибернетики и прикладной математики

Протокол от 30.06.2020 г. № 6
Заведующий кафедрой к.т.н., доцент Хворова Л.А.


1. Цели освоения дисциплины

1.1.Целями изучения дисциплины являются изучение методов и подходов к анализу данных различного объема, включая предварительную обработку данных и статистический анализ, освоение различных моделей машинного обучения, предназначенных для решения задач кластеризации, классификации и регрессии и применение их для решения прикладных задач из различных сфер человеческой деятельности.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.В.01

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

УК-1 Способен осуществлять поиск, критический анализ и синтез информации, применять системный подход для решения поставленных задач
ОПК-1 Способен применять фундаментальные знания, полученные в области математических и (или) естественных наук, и использовать их в профессиональной деятельности
ПК-1 Способность демонстрации общенаучных базовых знаний математических и естественных наук, фундаментальной информатики и информационных технологий
ПК-3 Способность понимать и применять в научно-исследовательской и прикладной деятельности современный математический аппарат; основные законы естествознания, современные языки программирования и программное обеспечение; операционные системы и сетевые технологии
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.Основные технологии анализа данных.
3.2.Уметь:
3.2.1.Строить автоматизированные модели анализа данных.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.Навыками анализа данных на примере решения задач кластеризации,
классификации, прогнозирования.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Введение в анализ данных
1.1. Введение в интеллектуальный анализ данных: основные понятия, области применения современных технологий обработки и интеллектуального анализа больших данных. Лекции 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л1.2, Л1.1, Л2.2
1.2. Этапы анализа данных. Структурированные и неструктурированные данные. Сбор и подготовка данных. Лекции 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л1.2, Л1.1, Л2.2
1.3. Большие данные. Организация сбора и хранения больших наборов данных. Hadoop. Практические 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л1.2, Л1.1, Л2.2
1.4. Восстановление пропущенных значений в массивах данных. Практические 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л1.1
1.5. Этапы анализа данных. Структурированные и неструктурированные данные. Сбор и подготовка данных. Сам. работа 6 4 УК-1, ОПК-1, ПК-1, ПК-3 Л1.2, Л1.1, Л2.2
1.6. Большие данные. Организация сбора и хранения больших наборов данных.Hadoop. Сам. работа 6 4 УК-1, ОПК-1, ПК-1, ПК-3 Л1.2, Л1.1, Л2.2
Раздел 2. Очистка, интеграция и преобразование данных
2.1. Библиотека pandas. Структуры данных в pandas, работа со структурами данных. Операции над данными. Комбинирование данных из разных источников. Обработка пропущенных значений. Лекции 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л1.2, Л1.1, Л2.2
2.2. Работа с данными в pandas. Практические 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л1.2, Л1.1, Л2.2
2.3. Работа с данными в pandas. Сам. работа 6 6 УК-1, ОПК-1, ПК-1, ПК-3 Л1.2, Л1.1, Л2.2
2.4. Восстановление пропущенных значений в массивах данных. Сам. работа 6 6 УК-1, ОПК-1, ПК-1, ПК-3 Л1.2, Л1.1, Л2.2
Раздел 3. Программные модули и пакеты для работы с многомерными массивами данных. Визуализация данных
3.1. Библиотеки NumPy, SciPy: основные функции. Визуализация данных с matplotlib и pandas. Лекции 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л1.1, Л2.3
3.2. Работа с библиотеками NumPy и SciPy. Практические 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л1.1, Л2.3
3.3. Работа с библиотеками NumPy и SciPy. Сам. работа 6 4 УК-1, ОПК-1, ПК-1, ПК-3 Л1.1, Л2.3
3.4. Визуализация данных. Практические 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л1.1, Л2.3
3.5. Визуализация данных. Сам. работа 6 6 УК-1, ОПК-1, ПК-1, ПК-3 Л1.1, Л2.3
Раздел 4. Теория вероятностей и математическая статистика
4.1. Теория вероятностей: условная вероятность, случайные величины, теорема Байеса, распределение вероятностей. Лекции 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л2.1, Л1.1
4.2. Статистика: описание одиночного набора данных, показатели центра распределения, показатели вариации, корреляция и причинная зависимость. Проверка статистических гипотез. Лекции 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л2.1, Л1.1
4.3. Теория вероятностей и статистика. Практические 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л2.1, Л1.1
4.4. Теория вероятностей и статистика. Сам. работа 6 12 УК-1, ОПК-1, ПК-1, ПК-3 Л2.1, Л1.1
Раздел 5. Методы машинного обучения
5.1. Задачи машинного обучения. Применение машинного обучения в Data Science. Алгоритмы машинного обучения. Библиотека Scikit-Learn. Лекции 6 4 УК-1, ОПК-1, ПК-1, ПК-3 Л1.3, Л2.4, Л2.3
5.2. Алгоритмы машинного обучения.Способы и типы машинного обучения.Библиотека Scikit-Learn. Практические 6 4 УК-1, ОПК-1, ПК-1, ПК-3 Л2.2, Л1.3, Л2.4
5.3. Алгоритмы машинного обучения. Способы и типы машинного обучения. Сам. работа 6 12 УК-1, ОПК-1, ПК-1, ПК-3 Л2.2, Л1.3, Л2.4
5.4. Оценка и улучшение качества моделей машинного обучения: перекрестная проверка, поиск по сетке, метрики качества моделей и их вычисление. Лекции 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л2.2, Л1.3, Л2.4
5.5. Оценка и улучшение качества моделей машинного обучения: перекрестная проверка, поиск по сетке, метрики качества моделей и их вычисление. Практические 6 6 УК-1, ОПК-1, ПК-1, ПК-3 Л2.2, Л1.3, Л2.4
5.6. Оценка и улучшение качества моделей машинного обучения: перекрестная проверка, поиск по сетке, метрики качества моделей и их вычисление. Сам. работа 6 12 УК-1, ОПК-1, ПК-1, ПК-3 Л2.2, Л1.3, Л2.4
5.7. Защита индивидуальных проектов. Практические 6 2 УК-1, ОПК-1, ПК-1, ПК-3 Л2.2, Л1.3, Л2.4

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
См. приложение
5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрено
5.3. Фонд оценочных средств для проведения промежуточной аттестации
См. приложение

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Маккинни У. Python и анализ данных: Москва: ДМК Пресс, 2020 https://e.lanbook.com/book/131721
Л1.2 А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. Анализ данных и процессов: учеб. пособие: Учебная литература для вузов СПб.: БХВ-Петербург, 2009 kist.ntu.edu.ua
Л1.3 Рашка С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения: Самоучители и руководства Издательство "ДМК Пресс", 2017 e.lanbook.com
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Энатская Н.Ю. Математическая статистика и случайные процессы: учебное пособие для прикладного бакалавриата М. : Издательство Юрайт // ЭБС «Юрайт», 2018 www.biblio-online.ru/book/E7144E93-751A-44FD-A63F-B50F18195681
Л2.2 Лучано Рамальо Python. К вершинам мастерства: Самоучители и руководства Издательство "ДМК Пресс", 2016 e.lanbook.com
Л2.3 Бонцанини М. Анализ социальных медиа на Python. Извлекайте и анализируйте данные из всех уголков социальной паутины на Python: Другое Издательство "ДМК Пресс", 2018 e.lanbook.com
Л2.4 Шарден Б., Массарон Л., Боскетти А. Крупномасштабное машинное обучение вместе с Python: Учебные пособия Издательство "ДМК Пресс", 2018 //ЭБС издательства «Лань» e.lanbook.com
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 Методы анализа и обработки данных portal.edu.asu.ru
6.3. Перечень программного обеспечения
Microsoft Windows
Microsoft Office
Дистрибутив Anaconda
7-Zip
AcrobatReader
6.4. Перечень информационных справочных систем
1. Основы алгоритмизации и программирования на языке Python [Электронный ресурс]: https://portal.edu.asu.ru/course/view.php?id=3237
2. Издательство «Лань» - электронно-библиотечная система [Электронный
ресурс]: http://e.lanbook.com
3. Издательство МЦНМО. Свободно распространяемые книги издательства
Московского центра непрерывного математического образования
[Электронный ресурс]: www.mccme.ru/free-books
4. Электронная библиотечная система Алтайского государственного
университета [Электронный ресурс]: http://elibrary.asu.ru
5. Электронная база данных ZBMATH: https://zbmath.org/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
203Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 14 посадочных мест; компьютеры: марка ASUS модель i5-6500 - 14 единиц
Учебная аудитория для проведения занятий всех видов (дисциплинарной, междисциплинарной и модульной подготовки), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проекта (работы), проведения практики Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
408Л лаборатория математического моделирования - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 15 посадочных мест; рабочее место преподавателя; доска меловая 1 шт.; компьютер Depo - 10 шт., 5 шт. с мониторами LG и 5 шт. с мониторами Philips; мультимедиа-проектор Sony - 1 шт.; МФУ Canon - 1 шт.; стационарный экран: марка Digis Optima C - 1 шт.

8. Методические указания для обучающихся по освоению дисциплины

Для успешного освоения дисциплины студент должен посещать лекции и лабораторные занятия, вовремя выполять все задания и тесты, пользоваться основной и полнительноцй литературой, рекомендованной настоящей программой. Во время лекции рекомендуется вести краткий конспект.
Навыки по анализу данных студент преобретает на лабораторных занятиях. Для выполнения лабораторных заданий каждому студенту необходимо:
- получить вариант задания у преподавателя;
- скачать документ с описанием задания с образовательного портала;
- внимательно прочитать задание. Вопросы, возникающие в процессе выполненпия лабораторных работ, необходимо грамотно сформулировать и обратиться за помощью к преподавателю на консультации или ближайшем занятии;
- разработать, отладить и оттестировать программы, решающие поставленные задачи.
Для каждого лабораторного задания предусмотрена процедура защиты, в ходе которой преподаватель проводит устный опрос студентов для контроля понимания выполненных ими заданий.
Тестовые задания на образовательном портале предназначены для контроля усвоения теоретического материала, а также умения читать и понимать программный код. Тесты выполняются только в присутсвии преподавателя на практическом занятии или на консультации. Количесвто попыток ограничено тремя. Готовясь к тестированию, студент должен изучить конспекты лекций и учебно-методические материалы, рекомендуемые преподавателем.
При подготовке к экзамену в дополнение к изучению конспектов лекций и учебной литературы, рекомендуется посещать консультации и пользоваться свободными интернет-ресурсами.