МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Машинное обучение и большие данные

рабочая программа дисциплины
Закреплена за кафедройКафедра информатики
Направление подготовки02.03.02. Фундаментальная информатика и информационные технологии
ПрофильПрограммирование и информационные технологии
Форма обученияОчная
Общая трудоемкость3 ЗЕТ
Учебный план02_03_02_Фундаментальная информатика и информационные технологии_ПиИТ-2021
Часов по учебному плану 108
в том числе:
аудиторные занятия 51
самостоятельная работа 30
контроль 27
Виды контроля по семестрам
экзамены: 5

Распределение часов по семестрам

Курс (семестр) 3 (5) Итого
Недель 15,5
Вид занятий УПРПДУПРПД
Лекции 17 17 17 17
Лабораторные 34 34 34 34
Сам. работа 30 30 30 30
Часы на контроль 27 27 27 27
Итого 108 108 108 108

Программу составил(и):
к.ф-м.н., доцент, Козлов Д.Ю.

Рецензент(ы):
к.ф-м.н., доцент, Пономарев И.В.

Рабочая программа дисциплины
Машинное обучение и большие данные

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования - бакалавриат по направлению подготовки 02.03.02 Фундаментальная информатика и информационные технологии (приказ Минобрнауки России от 23.08.2017 г. № 808)

составлена на основании учебного плана:
02.03.02 Фундаментальная информатика и информационные технологии
утвержденного учёным советом вуза от 27.09.2022 протокол № 1.

Рабочая программа одобрена на заседании кафедры
Кафедра информатики

Протокол от 26.06.2023 г. № 4
Срок действия программы: 20232025 уч. г.

Заведующий кафедрой
Козлов Денис Юрьевич


Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2023-2024 учебном году на заседании кафедры

Кафедра информатики

Протокол от 26.06.2023 г. № 4
Заведующий кафедрой Козлов Денис Юрьевич


1. Цели освоения дисциплины

1.1.Теоретическое изучение и практическое усвоение наиболее эффективных алгоритмов Машинного обучения в рамках стандартов WorldSkills по компетенции "Машинное обучение и большие данные"

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.В.01

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ПК-7Машинное обучение и большие данные
ПК-7.1 Знает: стандарты Ворлдскиллс и спецификацию стандартов Ворлдскиллс по компетенции; требования охраны труда и техники безопасности; тенденции и разработки в отрасли, включая новые технологии, методы, языки, условные обозначения и технические навыки; статистические методы обработки данных; регрессионный анализ; методы и алгоритмымашинногообучения; дискриминантный анализ; кластерный анализ; нейронные сети(топология); основы программирования на Python и R; основыработысбазами данных; BigData Visualization, LargeData Visualization, научную и информационную визуализацию; современные аппаратные средства и архитектуры для анализа и визуализации данных; важность тщательного документирования разработанных решений.
ПК-7.2 Умеет: ? соблюдать требованияохраны труда и техник ибезопасности; ? планировать производственный график на каждый день в соответствии с доступным временем и принимать во внимание временные ограничения и крайние сроки; ? применятьисследовательские технологиии навыки, чтобыи меть представление о самых последних отраслевых рекомендациях; ? использовать коммуникационные навыки при работе в команде для сотрудничества с другими специалистами для получения желаемых результатов, успешной работы над групповым решением проблем;? использовать навыки управления проектами в расстановке приоритетов и графика выполнения задач, распределении ресурсов между задачами; ? использовать аналитические навыки для анализа и синтезас ложной или неоднородной информации, определять тривиальные и нетривиальные зависимости данных; ? использовать современные программные продукты для построения математических моделей; ? использовать программное обеспечение для проектирования имоделирования; ? работать в операционной системе Linux; ? обрабатывать информацию и данные; ? выявлять аномалии в данных; ? масштабировать модели;? строить деревья решений;? производить компонентный анализ; ? применять математические методы в решении практических задач; ? разрабатывать алгоритмы машинного обучения и анализа данных; ? применять методы анализа данных и машинного обучения; ? выполнять распознавание изображений; ? реализовывать нейронные сети; ? реализовывать ботов; ? разрабатывать алгоритмы и математические модели; ? осуществлять оценку разработанных решений; ? представлять сложные структуры, а также объекты особого интереса, особые точки, аттракторы, сингулярности; ? выполнять верификацию и валидацию визуализации; ? интерпретировать результаты решения; ? интерпретироватьбольшиеданные и изображения; ? проявлять профессионализм в подготовке документации;? разрабатывать документацию пользователей;? работать с технической документацией на английском языке.
ПК-7.3 Владеет: ? языком программирования Python; ? инструментами datas cience – jupyter notebook, jupyterlab, PyCharm; ? Python-фреймворками и библиотеками анализа данных, их визуализации и машинного обучения – Pandas, Numpy, Sklearn.
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.стандарты Ворлдскиллс и спецификацию стандартов Ворлдскиллс по компетенции; требования охраны труда и техники безопасности; тенденции и разработки в отрасли, включая новые технологии, методы, языки, условные обозначения и технические навыки; статистические методы обработки данных; регрессионный анализ; методы и алгоритмы машинного обучения; дискриминантный анализ; кластерный анализ; нейронные сети(топология); основы программирования на Python и R; основы работы с базами данных; BigData Visualization, LargeData Visualization, научную и информационную визуализацию; современные аппаратные средства и архитектуры для анализа и визуализации данных; важность тщательного документирования разработанных решений.
3.2.Уметь:
3.2.1.соблюдать требования охраны труда и техники безопасности; планировать производственный график на каждый день в соответствии с доступным временем и принимать во внимание временные ограничения и крайние сроки; применять исследовательские технологии и навыки, чтобы иметь представление о самых последних отраслевых рекомендациях; использовать коммуникационные навыки при работе в команде для сотрудничества с другими специалистами для получения желаемых результатов, успешной работы над групповым решением проблем; использовать навыки управления проектами в расстановке приоритетов и графика выполнения задач, распределении ресурсов между задачами; использовать аналитические навыки для анализа и синтеза с ложной или неоднородной информации, определять тривиальные и нетривиальные зависимости данных; использовать современные программные продукты для построения математических моделей; использовать программное обеспечение для проектирования и моделирования; работать в операционной системе Linux; обрабатывать информацию и данные; выявлять аномалии в данных; масштабировать модели; строить деревья решений; производить компонентный анализ; применять математические методы в решении практических задач; разрабатывать алгоритмы машинного обучения и анализа данных; применять методы анализа данных и машинного обучения; выполнять распознавание изображений; реализовывать нейронные сети; реализовывать ботов; разрабатывать алгоритмы и математические модели; осуществлять оценку разработанных решений; представлять сложные структуры, а также объекты особого интереса, особые точки, аттракторы, сингулярности; выполнять верификацию и валидацию визуализации; интерпретировать результаты решения; интерпретировать большие данные и изображения; проявлять профессионализм в подготовке документации; разрабатывать документацию пользователей; работать с технической документацией на английском языке.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.владения языком программирования Python; инструментами datas science – jupyter notebook, jupyterlab, PyCharm; Python-фреймворками и библиотеками анализа данных, их визуализации и машинного обучения – Pandas, Numpy, Sklearn

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Стандарт WorldSkills и спецификация стандартов WorldSkills по компетенции "Машинное обучение и большие данные"
1.1. Стандарт WorldSkills и спецификация стандартов WorldSkills Лекции 5 1 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
Раздел 2. Подготовка данных к анализу
2.1. Предварительная обработка и очистка данных. Разведочный анализ данных. Pandas Лекции 5 2 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
2.2. Предварительная обработка и очистка данных. Разведочный анализ данных. Pandas Лабораторные 5 4 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
2.3. Предварительная обработка и очистка данных. Разведочный анализ данных. Pandas Сам. работа 5 4 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
Раздел 3. Алгоритмы и модели машинного обучения
3.1. Машинное обучение без учителя Лекции 5 4 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
3.2. Машинное обучение без учителя Лабораторные 5 10 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
3.3. Машинное обучение без учителя Сам. работа 5 8 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
3.4. Машинное обучение с учителем Лекции 5 6 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
3.5. Машинное обучение с учителем Лабораторные 5 14 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
3.6. Машинное обучение с учителем Сам. работа 5 10 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
3.7. Подбор и оптимизация параметров моделей Лекции 5 2 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
3.8. Подбор и оптимизация параметров моделей Лабораторные 5 2 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
3.9. Подбор и оптимизация параметров моделей Сам. работа 5 3 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
Раздел 4. Разработка прикладного решения
4.1. Графический интерфейс. Виджеты. Документирование Лекции 5 2 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
4.2. Разработка графического интерфейса и документирование Лабораторные 5 4 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2
4.3. Разработка графического интерфейса и документирование Сам. работа 5 5 ПК-7.1, ПК-7.2, ПК-7.3 Л1.1, Л2.1, Л2.2, Л1.2

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
ОЦЕНКА СФОРМИРОВАННОСТИ КОМПЕТЕНЦИИ ПК-7


ПРИМЕРЫ ЗАДАНИЙ ЗАКРЫТОГО ТИПА


КРИТЕРИИ ОЦЕНИВАНИЯ: Каждое задание оценивается 1 баллом. Оценивание КИМ теоретического характера в целом:
• «зачтено» – верно выполнено более 50% заданий; «не зачтено» – верно выполнено 50% и менее 50% заданий;
• «отлично» – верно выполнено 85-100% заданий; «хорошо» – верно выполнено 70-84% заданий; «удовлетворительно» – верно выполнено 51-69% заданий; «неудовлетворительно» – верно выполнено 50% или менее 50% заданий.

ПРИМЕРЫ ЗАДАНИЙ ОТКРЫТОГО ТИПА

1.Что такое машинное обучение?
Машинное обучение - это процесс обучения компьютера на основе данных, чтобы он мог принимать решения или выполнять задачи без явного программирования.
2.Какие виды машинного обучения существуют?
Существует три основных вида машинного обучения: обучение с учителем, обучение без учителя и обучение с подкреплением.
3.Что такое обучение с учителем?
Обучение с учителем - это метод машинного обучения, при котором компьютеру предоставляются примеры данных с известными результатами, и он должен научиться распознавать закономерности в этих данных, чтобы делать предсказания.
4.Что такое обучение без учителя?
Обучение без учителя - это метод, при котором компьютер сам обнаруживает паттерны в данных без явного указания на то, какие паттерны искать.
5.Что такое обучение с подкреплением?
Обучение с подкреплением - это метод обучения, в котором компьютер учится выполнять задачи, получая положительное или отрицательное подкрепление за свои действия.
6.Какие алгоритмы машинного обучения вы знаете?
Некоторые популярные алгоритмы машинного обучения включают в себя: линейную регрессию, деревья решений, случайный лес, SVM, K-means, PCA, LDA и др.
7.Что такое большие данные?
Большие данные - это огромные объемы данных, которые слишком велики или сложны для традиционной обработки. Это может включать данные из интернета, социальных сетей, датчиков, научных экспериментов и т.д.
8.Какие типы больших данных существуют?
Существует несколько типов больших данных, включая структурированные, полуструктурированные и неструктурированные данные.
9. Какие виды алгоритмов машинного обучения используются в ИИ? В ИИ используются различные виды алгоритмов машинного обучения, такие как алгоритмы классификации, регрессии, кластеризации, обнаружения аномалий и др.
10. Как работает алгоритм машинного обучения? Алгоритм машинного обучения работает путем обучения на наборах данных и затем использования полученных знаний для предсказания или классификации новых данных.
11. Что такое глубокое обучение и как оно используется в ИИ? Глубокое обучение - это подвид машинного обучения, который использует нейронные сети с множеством слоев для обработки данных. Оно используется в ИИ для решения сложных задач, таких как распознавание речи, изображений и текста.
12. Что такое обработка естественного языка и как она связана с ИИ? Обработка естественного языка (NLP) - это область ИИ, которая занимается анализом и пониманием человеческого языка. Она включает в себя такие задачи, как анализ текста, машинный перевод, ответы на вопросы и т.д.
13. Какие еще применения ИИ вы знаете? ИИ также используется в медицине, финансах, транспорте, производстве и многих других областях.
Он может помочь улучшить качество жизни людей, повысить эффективность работы и снизить затраты. 

КРИТЕРИИ ОЦЕНИВАНИЯ ОТКРЫТЫХ ВОПРОСОВ.
«Отлично» (зачтено): Ответ полный, развернутый. Вопрос точно и исчерпывающе передан, терминология сохранена, студент превосходно владеет основной и дополнительной литературой, ошибок нет.
«Хорошо» (зачтено): Ответ полный, хотя краток, терминологически правильный, нет существенных недочетов. Студент хорошо владеет пройденным программным материалом; владеет основной литературой, суждения правильны.
«Удовлетворительно» (зачтено): Ответ неполный. В терминологии имеются недостатки. Студент владеет программным материалом, но имеются недочеты. Суждения фрагментарны.
«Неудовлетворительно» (не зачтено): Не использована специальная терминология. Ответ в сущности неверен. Переданы лишь отдельные фрагменты соответствующего материала вопроса. Ответ не соответствует вопросу или вовсе не дан.
5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрено
5.3. Фонд оценочных средств для проведения промежуточной аттестации
Промежуточная аттестация проводится в формате демонстрационного экзамена по стандартам WorldSkills

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 П. Флах Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных: Учебник ДМК Пресс, 2015//ЭБС издательства «Лань» e.lanbook.com
Л1.2 Шарден Б., Массарон Л., Боскетти А. Крупномасштабное машинное обучение вместе с Python: Учебные пособия Издательство "ДМК Пресс", 2018 //ЭБС издательства «Лань» e.lanbook.com
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python: Издательство "ДМК Пресс", 2016 e.lanbook.com
Л2.2 Рашка С. Python и машинное обучение: крайне необходимое пособие по новейшей предсказательной аналитике, обязательное для более глубокого понимания методологии машинного обучения: Самоучители и руководства Издательство "ДМК Пресс", 2017 e.lanbook.com
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 Машинное обучение и большие данные portal.edu.asu.ru
Э2 Первичный анализ данных с Pandas habrahabr.ru
Э3 Визуальный анализ данных c Python habrahabr.ru
Э4 Классификация, деревья решений и метод ближайших соседей habrahabr.ru
Э5 Линейные модели классификации и регрессии habrahabr.ru
Э6 Композиции: бэггинг, случайный лес. Кривые валидации и обучения habrahabr.ru
Э7 Построение и отбор признаков habrahabr.ru
Э8 Обучение без учителя: PCA, кластеризация habrahabr.ru
Э9 Обучение на гигабайтах c Vowpal Wabbit habrahabr.ru
Э10 Анализ временных рядов с помощью Python habrahabr.ru
Э11 Градиентный бустинг habrahabr.ru
6.3. Перечень программного обеспечения
Браузер (Google Chrome,
Яндекс.Браузер)
Microsoft Office 2010 (Office 2010 Professional, № 4065231 от 08.12.2010), (бессрочно);
Microsoft Windows 7 (Windows 7 Professional, № 61834699 от 22.04.2013), (бессрочно);
Chrome (http://www.chromium.org/chromium-os/licenses), (бессрочно); 7-Zip (http://www.7-zip.org/license.txt), (бессрочно);
AcrobatReader (http://wwwimages.adobe.com/content/dam/Adobe/en/legal/servicetou/Acrobat_com_Additional_TOU-en_US-20140618_1200.pdf), (бессрочно);
ASTRA LINUX SPECIAL EDITION (https://astralinux.ru/products/astra-linux-special-edition/), (бессрочно);
LibreOffice (https://ru.libreoffice.org/), (бессрочно);
Веб-браузер Chromium (https://www.chromium.org/Home/), (бессрочно);
Антивирус Касперский (https://www.kaspersky.ru/), (до 23 июня 2024);
Архиватор Ark (https://apps.kde.org/ark/), (бессрочно);
Okular (https://okular.kde.org/ru/download/), (бессрочно);
Редактор изображений Gimp (https://www.gimp.org/), (бессрочно)
6.4. Перечень информационных справочных систем
Профессиональные базы данных, информационно-справочные системы
1. Цифровая библиотека научно-технических изданий Института инженеров по
электротехнике и радиоэлектронике (Institute of Electrical and Electronic Engineers (IEEE)) на
английском языке – http://www.ieee.org/ieeexplore
2. Oxford University Press – http://www.oxfordjournals.org/en/
3. Архив препринтов с открытым доступом – https://arxiv.org/
Материалы для лиц с ОВЗ
Весь контент ЭБС представлен в виде файлов специального формата для воспроизведения
синтезатором речи, а также в тестовом виде, пригодном для прочтения с использованием
экранной лупы и настройкой контрастности.
Базы данных, информационно-справочные и поисковые системы
1. Academic Search Ultimate EBSCO publishing – http://search.ebscohost.com
2. eBook Collections Springer Nature – https://link.springer.com/
3. Гугл Академия – https://scholar.google.ru/
4. СПС КонсультантПлюс (инсталлированный ресурс АлтГУ или
http://www.consultant.ru/).
5. Электронная база данных «Scopus» (http://www.scopus.com);
6. Электронная библиотечная система Алтайского государственного университета
(http://elibrary.asu.ru/);
7. Электронный научный архив УрФУ – https://elar.urfu.ru/
8. Зональная научная библиотека (УрФУ) – http://lib2.urfu.ru/
9. Портал информационно-образовательных ресурсов УрФУ – study.urfu.ru
10. Электронно-библиотечная система «Лань» – e.lanbook.com
11. Университетская библиотека ONLINE – biblioclub.ru
12. Электронно-библиотечная система "Библиокомплектатор" (IPRbooks) –
bibliocomplectator.ru/available
13. Электронные информационные ресурсы Российской государственной библиотеки –
www.rsl.ru
14. Научная электронная библиотека – http://elibrary.ru/
15. Научная электронная библиотека «КиберЛенинка» – https://cyberleninka.ru/
16. Web of Science Core Collection – http://apps.webofknowledge.com/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
205Л кабинет информатики (компьютерный класс) - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 9 посадочных мест; компьютеры: марка КламаС Офис, мониторы: марка ACER модель V223HQL - 8 единиц; доска интерактивная Triumph MULTI TOUCH 78 + проектор NEC UM280X в комплекте
202Л кабинет информатики (компьютерный класс) - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 14 посадочных мест; компьютеры: марка HP - 14 единиц; мониторы: марка ASUS модель VS197DE - 14 единиц
107Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 18 посадочных мест; компьютеры: марка HP, модель ProOne 400 - 18 единиц; проектор: марка SMART, модель UF70 - 1 единица; интерактивная доска: марка SMART Board модель SMB680 - 1 единица

8. Методические указания для обучающихся по освоению дисциплины

Изучение дисциплины завершается экзаменом. Успешное изучение дисциплины требует посещения лекций, активной работы на лабораторных работах, выполнения всех практических заданий преподавателя, ознакомления с основной и дополнительной литературой. Во время лекции студент должен вести краткий конспект. При этом обучающийся должен стараться найти ответы на затруднительные вопросы, используя рекомендуемую литературу или общедоступные ресурсы. Если ему самостоятельно не удалось разобраться в материале, необходимо сформулировать вопросы и обратится за помощью к преподавателю на консультации или ближайшей лекции. Выполнение студентами практических заданий направлено на:
- обобщение, систематизацию, углубление, закрепление полученных теоретических знаний по конкретным темам дисциплин;
- формирование необходимых профессиональных умений и навыков.
Помимо собственно выполнения практических заданий для каждого задания предусмотрена процедура защиты, в ходе которой преподаватель проводит устный или письменный опрос студентов для контроля понимания выполненных ими действий по теме занятия.
Самостоятельная работа.
- При изучении дисциплины не все вопросы рассматриваются на занятиях, часть вопросов рекомендуется преподавателем для самостоятельного изучения.
- Поиск ответов на вопросы и выполнение заданий для самостоятельной работы позволит вам расширить и углубить свои знания по курсу, применить теоретические знания в решении задач практического содержания, закрепить изученное ранее.
- Эти задания следует выполнять не «наскоком», а постепенно, планомерно, следуя порядку изучения тем курса.
- При возникновении вопросов обратитесь к преподавателю в день консультаций на кафедру.
- Выполнив их, проанализируйте качество их выполнения. Это поможет вам развивать умения самоконтроля и оценочные компетенции.
При подготовке к экзамену в дополнение к изучению конспектов лекций, учебно-методических материалов и слайдов, необходимо пользоваться учебной литературой, рекомендованной настоящей программой. При подготовке к экзамену нужно изучить определения всех понятий и теоретические подходы до состояния понимания материала, а также выполнить все практические задания в курсе.