МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Введение в машинное обучение и Data mining

рабочая программа дисциплины
Закреплена за кафедройКафедра радиофизики и теоретической физики
Направление подготовки03.03.03. Радиофизика
ПрофильКомпьютерная электроника и телекоммуникации
Форма обученияОчная
Общая трудоемкость3 ЗЕТ
Учебный план03_03_03_Радиофизика_КЭТ-2023
Часов по учебному плану 108
в том числе:
аудиторные занятия 36
самостоятельная работа 72
Виды контроля по семестрам
зачеты: 2

Распределение часов по семестрам

Курс (семестр) 1 (2) Итого
Недель 22
Вид занятий УПРПДУПРПД
Практические 36 36 36 36
Сам. работа 72 72 72 72
Итого 108 108 108 108

Программу составил(и):

Рецензент(ы):

Рабочая программа дисциплины
Введение в машинное обучение и Data mining

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования - бакалавриат по направлению подготовки 03.03.03 Радиофизика (приказ Минобрнауки России от 07.08.2020 г. № 912)

составлена на основании учебного плана:
03.03.03 Радиофизика
утвержденного учёным советом вуза от 26.06.2023 протокол № 4.

Рабочая программа одобрена на заседании кафедры
Кафедра радиофизики и теоретической физики

Протокол от г. №
Срок действия программы: 20232027 уч. г.

Заведующий кафедрой
Лагутин Анатолий Алексеевич


Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2023-2024 учебном году на заседании кафедры

Кафедра радиофизики и теоретической физики

Протокол от г. №
Заведующий кафедрой Лагутин Анатолий Алексеевич


1. Цели освоения дисциплины

1.1.Знакомство слушателя с технологиями анализа больших данных и способами реализации методов машинного обучения для решения прикладных задач.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.О.1.01.ДВ.01

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ОПК-3Способен понимать принципы работы современных информационных технологий и использовать их для решения задач профессиональной деятельности.
ОПК-3.1 Владеет методами использования информационных технологий и программных средств при решении задач профессиональной деятельности.
ОПК-3.2 Знает принципы работы современных информационных технологий.
ОПК-3.3 Владеет основными навыками применения информационных систем и программных средств для решения задач профессиональной деятельности.
УК-1Способен осуществлять поиск, критический анализ и синтез информации, применять системный подход для решения поставленных задач
УК-1.1 Знает основные теоретико-методологические положения системного подхода как научной и философской категории
УК-1.2 Осуществляет поиск информации для решения поставленной задачи по различным типам запросов
УК-1.3 Сопоставляет разные источники информации с целью выявления их противоречий и поиска достоверных суждений
УК-1.4 Анализирует информацию и предлагает возможные варианты решения поставленной задачи, оценивая их достоинства и недостатки
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.Классические задачи, решаемые с помощью машинного обучения (классификация, кластеризация, регрессия и др.).
3.2.Уметь:
3.2.1.ориентироваться в сферах применения методов машинного обучения (распознавание речи, жестов, изображений, прогнозирование временных рядов, обнаружение мошенничества, спама и др.).
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.работы с современными средствами разработки и библиотеками языков программирования для решения задач машинного обучения.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Введение в машинное обучение
1.1. Введение в машинное обучение. Обучение с учителем и без учителя. Примеры прикладных задач. Введение в библиотеку Scikit-Learn. Практические 2 4 ОПК-3.1, ОПК-3.2, УК-1.1, УК-1.2, УК-1.3, УК-1.4 Л1.2, Л1.1, Л2.1
1.2. Введение в машинное обучение. Обучение с учителем и без учителя. Примеры прикладных задач. Введение в библиотеку Scikit-Learn. Сам. работа 2 8 ОПК-3.1, ОПК-3.2, УК-1.1, УК-1.2, УК-1.3, УК-1.4 Л1.2, Л1.1, Л2.1
Раздел 2. Задачи регрессии
2.1. Понятие регрессии. Простая линейная регрессия. Регрессия по комбинации базисных функций. Регуляризация. Практические 2 8 ОПК-3.1, ОПК-3.2, УК-1.1, УК-1.2, УК-1.3, УК-1.4 Л1.2, Л1.1, Л2.1
2.2. Понятие регрессии. Простая линейная регрессия. Регрессия по комбинации базисных функций. Регуляризация. Сам. работа 2 16 ОПК-3.1, ОПК-3.2, УК-1.1, УК-1.2, УК-1.3, УК-1.4 Л1.2, Л1.1, Л2.1
Раздел 3. Классификация данных
3.1. Наивная байесовская классификация. Полиномиальный байесовский классификатор. Метод опорных векторов. Деревья решений и случайные леса. Практические 2 8 ОПК-3.1, ОПК-3.2, УК-1.1, УК-1.2, УК-1.3, УК-1.4 Л1.2, Л1.1, Л2.1
3.2. Наивная байесовская классификация. Полиномиальный байесовский классификатор. Метод опорных векторов. Деревья решений и случайные леса. Сам. работа 2 16 ОПК-3.1, ОПК-3.2, УК-1.1, УК-1.2, УК-1.3, УК-1.4 Л1.2, Л1.1, Л2.1
Раздел 4. Кластеризация данных
4.1. Понятие кластеризации. Метод k-средних. Смеси Гауссовых распределений. Ядерная оценка плотности распределений. Практические 2 8 ОПК-3.1, ОПК-3.2, УК-1.1, УК-1.2, УК-1.3, УК-1.4 Л1.2, Л1.1, Л2.1
4.2. Понятие кластеризации. Метод k-средних. Смеси Гауссовых распределений. Ядерная оценка плотности распределений. Сам. работа 2 16 ОПК-3.1, ОПК-3.2, УК-1.1, УК-1.2, УК-1.3, УК-1.4 Л1.2, Л1.1, Л2.1
Раздел 5. Методы понижения размерности
5.1. Понятие понижения размерности. Метод главных компонент. Метод Eigenfaces. Обучение на базе многообразий. Практические 2 8 ОПК-3.1, ОПК-3.2, УК-1.1, УК-1.2, УК-1.3, УК-1.4 Л1.2, Л1.1, Л2.1
5.2. Понятие понижения размерности. Метод главных компонент. Метод Eigenfaces. Обучение на базе многообразий. Сам. работа 2 16 ОПК-3.1, ОПК-3.2, УК-1.1, УК-1.2, УК-1.3, УК-1.4 Л1.2, Л1.1, Л2.1

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
ПРИМЕРЫ ЗАДАНИЙ ЗАКРЫТОГО ТИПА.

Впрос 1. Допустим у вас есть файл с данными, который называется ‘iris.csv’. Этот файл находится в папке ‘/data/’. Вы открываете его в текстовом редакторе и видите следующие первые строки

sepal length in cm; sepal width in cm; petal length in cm; petal width in cm; class 5.1; 3.5; 1.4; 0.2; 0

Какая из приведенных ниже команд корректно загрузит этот файл в датафрейм Pandas?

а) pd.read_csv('/content/iris.csv', delimiter = ',')
б) pd.read_csv('/content/iris.csv', delimiter = ';')
в) pd.read_csv('/data /iris.csv', delimiter = ',')
г) pd.read_csv('/data/iris.csv', delimiter = ';')

Ответ: г)

Впрос 2. Каков тип данных категориальных столбцов в Pandas?

а) int64
б) object
в) string
г) float64

Ответ: б)

Впрос 3. Какие утверждения справедливы для ошибок модели?

а) С ростом количества параметров модели как правило увеличивается ошибка смещения.

б) С ростом количества параметров модели как правило уменьшается ошибка дисперсии.

в) С ростом количества параметров модели как правило увеличивается ошибка дисперсии.

г) С ростом количества параметров модели как правило уменьшается ошибка смещения.

Ответ: в) г)

Впрос 4. Какие утверждения справедливы для функции потерь?

а) Если предсказания модели не совпадают с реальным значением целевой переменной, то функция потерь должна принимать большие значения.

б) Если предсказания модели не совпадают с реальным значением целевой переменной, то функция потерь должна принимать маленькие значения.

в) Если предсказания модели совпадают с реальным значением целевой переменной, то функция потерь должна принимать большие значения.

г) Если предсказания модели совпадают с реальным значением целевой переменной, то функция потерь должна принимать маленькие значения.

Ответ: а) г)

Впрос 5. Представьте, что вам поставили задачу отличать кошек от собак по фотографии. Какая эта задача машинного обучения?

а) Кластеризация
б) Регрессия
в) Классификация
г) Обучение с подкреплением

Ответ: в)

Впрос 6. У вас есть три матрицы A, B, C: A имеет размеры 5 × 4, B имеет размеры 4 × 6, C имеет размеры 3 × 5. Укажите все возможные матрицы, которые можно перемножить между собой.

а) A*B
б) C*A
в) B*C
г) B*A

Ответ: а) б)

Впрос 7. Укажите правильные утверждения о предварительной обработке данных.

а) После нормализации среднее значение параметра как правило выше, чем после стандартизации.

б) После нормализации среднее значение параметра как правило ниже, чем после стандартизации.

в) После нормализации максимальное значение параметра как правило выше, чем после стандартизации.

г) После нормализации максимальное значение параметра как правило ниже, чем после стандартизации.

Ответ: а) г)

Впрос 8. Выберите возможные гиперпараметры модели линейной регрессии.

а) веса признаков
б) константа регуляризации
в) тип регуляризации
г) степень полиномов признаков
д) смещение

Ответ: б) в) г)

Впрос 9. Вы решаете задачу регрессии. Целевая переменная изменяется в диапазоне [0,1]. Предсказания модели не выходят за диапазон [0,1]. Какое утверждение о метриках регрессии наиболее верно?

а) MAE для модели будет выше, чем MSE.
б) MAE для модели будет ниже, чем MSE.

Ответ: а)

Впрос 10. Может ли коэффициент детерминации быть отрицательным числом?

а) Да.
б) Нет.

Ответ: а)

ПРИМЕРЫ ЗАДАНИЙ ОТКРЫТОГО ТИПА.

Впрос 1. Вы выполнили One-hot кодирование категориальной переменной со следующими возможными значениями {red, blue, pink, yellow, green}. Сколько новых столбцов данных вам для этого потребовалось - укажите числом?

Ответ: 5

Впрос 2. Оцените MSE для следующих данных: реальные значения {1,2,3,4}, предсказания модели {2,1,4,6}. Ответ откруглите до сотых.

Ответ: 1.75

Впрос 3. Предположим, что у вас есть вектор весов. Вы посчитали градиент функции потерь который равен {20,-10,40}. Посчитайте
обновленный вектор весов при условии, что скорость обучения составляет 0.1. Укажите целые числа.

Ответ: {8,6,2}

Впрос 4. Дополните правильно утверждение о регуляризации.

Использование слишком больших значений константы регуляризации может ... качество предсказания моделей

Ответ: ухудшить.

Впрос 5. Вы получили веса модели {3,-2,2}. В модели не используется смещение. Оцените предсказание модели для следующих значений параметров {1,3,1}. Укажите целое число.

Ответ: -1

Впрос 6. Оцените коэффициент детерминации для следующих данных: реальные значения {1,2,3,4}, предсказания модели {2,1,4,4}. Ответ округлите до десятых.

Ответ: 0.4

Впрос 7. Дополните правильно утверждение

С ростом количества параметров модели как правило ... ошибка дисперсии, но ... ошибка смещения.

Ответ: увеличивается, уменьшается.

Впрос 8. Допустим, есть два классификатора: первый классификатор имеет точность 95%, чувствительность 99%, специфичность 50%; второй
классификатор имеет точность 87%, чувствительность 84%, специфичность 94%. Какой из этих классификаторов надежнее (при условии, что нам важно определение обоих классов)?

Ответ: Второй классификатор надежнее.

Впрос 9. Вы решаете задачу классификации с использованием логистической регрессии. Целевая переменная состоит из 4 классов. Для какой
стратегии вам потребуется использовать меньше бинарных классификаторов?

Ответ: Один против всех.

Впрос 10. Оцените значение функции сигмоиды для z = 0.25. Ответ округлите до сотых.

Ответ: 0.56

КРИТЕРИИ ОЦЕНИВАНИЯ ОТКРЫТЫХ ВОПРОСОВ.
"Отлично" (зачтено): Ответ полный, развернутый. Вопрос точно и исчерпывающе передан, терминология сохранена, студент превосходно владеет основной и дополнительной литературой, ошибок нет.
"Хорошо" (зачтено): Ответ полный, хотя краток, терминологически правильный, нет существенных недочетов. Студент хорошо владеет пройденным программным материалом, владеет основной литературой, суждения правильны.
"Удовлетворительно" (зачтено): Ответ неполный. В терминологии имеются недостатки. Студент владеет программным материалом, но имеются недочеты.
5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрены.
5.3. Фонд оценочных средств для проведения промежуточной аттестации
Промежуточная аттестация заключается в проведении в конце семестра зачета (для обучающихся, не получивших зачет по результатам текущей успеваемости) по всему изученному курсу. Зачет проводится по итогам выполнения практических заданий. Методические указания к выполнению заданий расположены на платформе Цифровой университет АлтГУ по адресу https://portal.edu.asu.ru/course/view.php?id=11272

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Флах П. Машинное обучение. Наука и искусство построения алгоритмов, которые извлекают знания из данных: Москва : ДМК Пресс, Лань : электронно-библиотечная система, 2015 e.lanbook.com
Л1.2 Маккинни У. Python и анализ данных: Москва : ДМК Пресс, Лань : электронно-библиотечная система., 2020 e.lanbook.com
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python: Москва : ДМК Пресс, Лань : электронно-библиотечная система, 2016 e.lanbook.com
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 Электронная библиотечная система Алтайского государственного университета elibrary.asu.ru
Э2 Электронно-библиотечная система издательства «Лань» e.lanbook.com
Э3 Электронно-библиотечная система «Университетская библиотека онлайн» biblioclub.ru
Э4 Национальный Открытый Университет «ИНТУИТ» www.intuit.ru
Э5 Курс на платформе "Цифровой университет АлтГУ" portal.edu.asu.ru
6.3. Перечень программного обеспечения
Интерпретатор и библиотеки Python из дистрибутива Anaconda. Лицензия - cтандартная общественная лицензия the GNU General Public License (https://www.gnu.org/licenses/gpl-3.0.ru.html), the 3-clause BSD license (https://opensource.org/license/bsd-3-clause/)Microsoft Office 2010 (Office 2010 Professional, № 4065231 от 08.12.2010), (бессрочно);
Microsoft Windows 7 (Windows 7 Professional, № 61834699 от 22.04.2013), (бессрочно);
Chrome (http://www.chromium.org/chromium-os/licenses), (бессрочно); 7-Zip (http://www.7-zip.org/license.txt), (бессрочно);
AcrobatReader (http://wwwimages.adobe.com/content/dam/Adobe/en/legal/servicetou/Acrobat_com_Additional_TOU-en_US-20140618_1200.pdf), (бессрочно);
ASTRA LINUX SPECIAL EDITION (https://astralinux.ru/products/astra-linux-special-edition/), (бессрочно);
LibreOffice (https://ru.libreoffice.org/), (бессрочно);
Веб-браузер Chromium (https://www.chromium.org/Home/), (бессрочно);
Антивирус Касперский (https://www.kaspersky.ru/), (до 23 июня 2024);
Архиватор Ark (https://apps.kde.org/ark/), (бессрочно);
Okular (https://okular.kde.org/ru/download/), (бессрочно);
Редактор изображений Gimp (https://www.gimp.org/), (бессрочно)
6.4. Перечень информационных справочных систем

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
001вК склад экспериментальной мастерской - помещение для хранения и профилактического обслуживания учебного оборудования Акустический прибор 01021; виброизмеритель 00032; вольтметр Q1202 Э-500; вольтметр универсальный В7-34А; камера ВФУ -1; компьютер Турбо 86М; масспектрометр МРС -1; осциллограф ЕО -213- 2 ед.; осциллограф С1-91; осциллограф С7-19; программатор С-815; самописец 02060 – 2 ед.; стабилизатор 3218; терц-октавный фильтр 01023; шкаф вытяжной; шумомер 00026; анализатор АС-817; блок 23 Г-51; блок питания "Статрон" – 2 ед.; блок питания Ф 5075; вакуумный агрегат; весы; вольтметр VM -70; вольтметр В7-15; вольтметр В7-16; вольтметр ВУ-15; генератор Г-5-6А; генератор Г4-76А; генератор Г4-79; генератор Г5-48; датчик колебаний КВ -11/01; датчик колебаний КР -45/01; делитель Ф5093; измеритель ИМП -2; измеритель параметров Л2-12; интерферометр ИТ 51-30; источник "Агат" – 3 ед.; источник питания; источник питания 3222; источник питания ЭСВ -4; лабораторная установка для настройки газовых лазеров; лазер ЛГИ -21; М-кальк-р МК-44; М-калькул-р "Электроника"; магазин сопротивления Р4075; магазин сопротивления Р4077; микроскоп МБС -9; модулятор МДЕ; монохроматор СДМС -97; мост переменного тока Р5066; набор цветных стекол; насос вакумный; насос вакуумный ВН-01; осциллограф С1-31; осциллограф С1-67; осциллограф С1-70; осциллограф С1-81; осциллоскоп ЕО -174В – 2 ед.; пентакта L-100; пирометр "Промень"; пистонфон 05001; преобразователь В9-1; прибор УЗДН -2Т; скамья оптическая СО 1м; спектограф ДФС -452; спектограф ИСП -51; стабилизатор 1202; стабилизатор 3217 – 4 ед.; стабилизатор 3218; стабилизатор 3222 – 3 ед.; станок токарный ТВ-4; усилитель мощности ЛВ -103 – 4 ед.; усилитель У5-9; центрифуга ВЛ-15; частотомер Ч3-54А; шкаф металлический; эл.двигатель; электродинамический калибратор 11032
308К лаборатория компьютерных технологий - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 15 посадочных мест; рабочее место преподавателя; доска маркерная; компьютеры Aquarius STd MS_SC140, монитор BENQ 17'' (5шт.), компьютеры Парус 945 MSI, монитор LG 17'' (5 шт.) Fast Ethernet Swich Allied Telesyn 1; методические рекомендации по выполнению лабораторных работ по курсам "Алгоритмы и языки программирования", "Численные методы и математическое моделирование", "Вычислительная физика", "Компьютерная радиофизика".

8. Методические указания для обучающихся по освоению дисциплины

При выполнении лабораторных работ по каждой из тем рекомендуется разобрать примеры программ, демонстрировавшихся на лекции, откомпилировать и запустить их. Все лекционные материалы и практические задания расположены на Едином образовательном портале Алтайского госудаственного университета по адресу https://portal.edu.asu.ru/course/view.php?id=11272 (для доступа к материалам необходима регистрация в домене STUD или MC).