МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Сбор и верификация данных

рабочая программа дисциплины
Закреплена за кафедройКафедра вычислительной техники и электроники
Направление подготовки09.03.01. Информатика и вычислительная техника
ПрофильАлгоритмы искусственного интеллекта
Форма обученияОчная
Общая трудоемкость4 ЗЕТ
Учебный план09_03_01_Информатика и вычислительная техника_АИИ-2025
Часов по учебному плану 144
в том числе:
аудиторные занятия 54
самостоятельная работа 90
Виды контроля по семестрам
диф. зачеты: 5

Распределение часов по семестрам

Курс (семестр) 3 (5) Итого
Недель 16
Вид занятий УПРПДУПРПД
Лекции 18 18 18 18
Лабораторные 36 36 36 36
Сам. работа 90 90 90 90
Итого 144 144 144 144

Программу составил(и):
Старший преподаватель, Белозерских Василий Вениаминович

Рецензент(ы):
к.т.н., доцент, Мансуров Александр Валерьевич

Рабочая программа дисциплины
Сбор и верификация данных

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования - бакалавриат по направлению подготовки 09.03.01 Информатика и вычислительная техника (приказ Минобрнауки России от 19.09.2017 г. № 929)

составлена на основании учебного плана:
09.03.01 Информатика и вычислительная техника
утвержденного учёным советом вуза от 26.06.2023 протокол № 4.

Рабочая программа одобрена на заседании кафедры
Кафедра вычислительной техники и электроники

Протокол от 27.06.2025 г. № 135/24-25
Срок действия программы: 2025-2026 уч. г.

Заведующий кафедрой
Макаров С.В.


1. Цели освоения дисциплины

1.1.Целями изучения дисциплины являются изучение методов и подходов к анализу данных различного объема, включая предварительную обработку данных и статистический анализ, освоение различных моделей машинного обучения, предназначенных для решения задач кластеризации, классификации и регрессии и применение их для решения прикладных задач из различных сфер человеческой деятельности.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.В.01

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ПК-1Способен классифицировать и идентифицировать задачи искусственного интеллекта, выбирать адекватные методы и инструментальные средства решения задач искусственного интеллекта
ПК-1.1 Знать: основные определения искусственного интеллекта и систем искусственного интеллекта, историю развития науки об искусственном интеллекте, эволюцию и главные тренды систем искусственного интеллекта; классы решаемых задач с помощью систем искусственного интеллекта; основные параметры идентификации задач искусственного интеллекта: назначение, сфера применения, виды используемых знаний, временные аспекты решения задач.
ПК-1.2 Уметь: определять принадлежность проблемной и предметной областей к классу решаемых задач с помощью систем искусственное интеллекта и основные параметры идентификации задач систем искусственного интеллекта.
ПК-1.3 Владеть: Классифицирует и идентифицирует задачи систем искусственного интеллекта в зависимости от особенностей проблемной и предметной областей:
ПК-1.4 Знать: методы и инструментальные средства решения задач с использованием систем искусственного интеллекта в зависимости от особенностей проблемной области, критерии выбора методов и инструментальных средств решения интеллектуальных задач, подходы к выбору методов и инструментальных средств систем искусственного интеллекта, процесс, стадии и методологии разработки решений на основе искусственного интеллекта.
ПК-1.5 Уметь: осуществлять оценку критериев выбора методов и инструментальных средств решения задач с помощью систем искусственного интеллекта н выбор методов и инструментальных средств в зависимости от особенностей проблемной и предметной областей.
ПК-1.6 Владеть: Выбирает методы и инструментальные средства искусственного интеллекта для решения задач в зависимости от особенностей проблемной и предметной областей.
ПК-1.7 Знать: методы сбора и обобщения информации о проблемной области путем опроса экспертов, исходных данных о функционировании проблемной и предметной областей, документированных источников знании, а также формирования требований к системе искусственного интеллекта.
ПК-1.8 Уметь: осуществлять сбор и обобщение информации о проблемной области путем опроса экспертов, исходных данных о функционировании проблемной области, документированных источников знаний, а также формировать требования к системе искусственного интеллекта.
ПК-1.9 Умеет: осуществлять сбор исходной информации с использованием платформ данных (облачных и внутрикорпоративных).
ПК-1.10 Владеть: . Собирает исходную информацию и формирует требования к решению задач с использованием методов искусственного интеллекта.
ПК-3Способен разрабатывать и применять методы машинного обучения для решения задач
ПК-3.1 Знать: принципы и методы машинного обучения, типы и классы задач машинного обучения, методологию ML Ops
ПК-3.2 Знать: статистические методы анализа данных.
ПК-3.3 Уметь: сопоставить задачам предметной области классы задач машинного обучения
ПК-3.4 Уметь: использовать статистические методы анализа данных при решении задач машинного обучения.
ПК-3.5 Владеть: Проводит анализ требований и определяет необходимые классы задач машинного обучения.
ПК-3.6 Знать: методы и критерии оценки качества моделей машинного обучения.
ПК-3.7 Уметь: определять критерии и метрики оценки результатов моделирования при построении системы искусственного интеллекта в исследуемой области.
ПК-3.8 Владеть: Определяет метрики оценки результатов моделирования и критерии качества построенных моделей.
ПК-3.9 Знать: классические методы и алгоритмы машинного обучения: предиктивные — обучение с учителем, дескриптивные — обучение без учителя.
ПК-3.10 Уметь: проводить сравнительный анализ и осуществлять выбор, настройку при необходимости разработку методов и алгоритмов для решения задач машинного обучения.
ПК-3.11 Владеть: Принимает участие в оценке, выборе и при необходимости разработке методов машинного обучения.
ПК-6Способен осуществлять сбор и подготовку данных для систем искусственного интеллекта
ПК-6.1 Знать: методы редукции размерности элементов набора данных и их предварительной статистической обработки, разметки структурированных и неструктурированных данных.
ПК-6.2 Знать: методы планирования вычислительного эксперимента, формирования обучающей и контрольной выборок.
ПК-6.3 Уметь: выявлять и исключать из массива данных ошибочные данные и выбросы.
ПК-6.4 Уметь: выделять входные и выходные переменные с целью использования предиктивных моделей.
ПК-6.5 Уметь: осуществлять разметку структурированных и неструктурированных данных.
ПК-6.6 Владеть: инструментами, библиотеками и технологиями Data Science для подготовки и разметки структурированных и неструктурированных данных для машинного обучения.
ПК-6.7 Владеть: методами и технологиями массово параллельной обработки и анализа данных.
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.Основные технологии анализа данных.
3.2.Уметь:
3.2.1.Строить автоматизированные модели анализа данных.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.Навыками анализа данных на примере решения задач кластеризации,
классификации, прогнозирования.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Введение в анализ данных
1.1. Введение в интеллектуальный анализ данных: основные понятия, области применения современных технологий обработки и интеллектуального анализа больших данных. Лекции 5 4 Л1.1, Л1.2, Л2.1
1.2. Этапы анализа данных. Структурированные и неструктурированные данные. Сбор и подготовка данных. Лекции 5 6 Л1.1, Л1.2, Л2.1
1.3. Большие данные. Организация сбора и хранения больших наборов данных. Лабораторные 5 12 Л1.1, Л1.2, Л2.1
1.4. Этапы анализа данных. Структурированные и неструктурированные данные. Сбор и подготовка данных. Сам. работа 5 16 Л1.1, Л1.2, Л2.1
1.5. Большие данные. Организация сбора и хранения больших наборов данных.Hadoop. Сам. работа 5 16 Л1.1, Л1.2, Л2.1
Раздел 2. Очистка, интеграция и преобразование данных
2.1. Библиотека pandas. Структуры данных в pandas, работа со структурами данных. Операции над данными. Комбинирование данных из разных источников. Обработка пропущенных значений. Лекции 5 8 Л1.1, Л1.2, Л2.1
2.2. Работа с данными в pandas. Лабораторные 5 8 Л1.1, Л1.2, Л2.1
2.3. Работа с данными в pandas. Сам. работа 5 10 Л1.1, Л1.2, Л2.1
2.4. Восстановление пропущенных значений в массивах данных. Сам. работа 5 16 Л1.1, Л1.2, Л2.1
Раздел 3. Программные модули и пакеты для работы с многомерными массивами данных. Визуализация данных
3.1. Библиотеки NumPy, SciPy: основные функции. Визуализация данных с matplotlib и pandas. Лабораторные 5 8 Л1.2, Л2.2
3.2. Работа с библиотеками NumPy и SciPy. Сам. работа 5 16 Л1.2, Л2.2
3.3. Визуализация данных. Лабораторные 5 8 Л1.2, Л2.2
3.4. Визуализация данных. Сам. работа 5 16 Л1.2, Л2.2

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
Перечень вопросов:
1. Основные понятия: большие данные, наука о данных, анализ данных, машинное обучение. Основные этапы извлечения знаний из данных. Примеры задач анализа данных.
2. Структурированные и неструктурированные данные. Категориальные и непрерывные переменные. Методы отбора признаков (переменных). Библиотека pandas: объекты Series и DataFrame.
3. Обработка данных: поиск пропущенных значений, основные методы обработки пропущенных значений, обработка пропущенных значений с помощью pandas, поиск и удаление дублирующихся значений в pandas.
4. Обработка данных: описательные статистики, поиск аномалий (включая гистограммы, ящиковые диаграммы, ядерные оценки плотности), анализ выбросов и шумов. Нормализация и стандартизация данных.
5. Визуализация данных: виды графиков и диаграмм. Основные инструменты визуализации данных в Python.
6. Кластерный анализ: иерархический кластерный анализ, построение дендрограмм, методы k-средних. Кластерный анализ в Python.
7. Машинное обучение: основные понятия, задачи, которые можно решить с помощью машинного обучения. Алгоритмы машинного обучения с учителем и без учителя (перечислить). Инструменты Python, используемые в машинном обучении.
8. Машинное обучение: этапы моделирования. Отбор признаков на основе модели. Оценка качества построенных моделей.
9. Задача классификации: постановка задачи, пример моделей, понятие переобучения, оценка качества классификации, тонкая настройка модели.
10. Задача регрессии: постановка задачи, пример моделей, понятие переобучения, оценка качества классификации, тонкая настройка модели.

5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрено
5.3. Фонд оценочных средств для проведения промежуточной аттестации
См. приложение

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. Анализ данных и процессов: учеб. пособие: Учебная литература для вузов СПб.: БХВ-Петербург, 2009 kist.ntu.edu.ua
Л1.2 Маккинни У. Python и анализ данных: Москва: ДМК Пресс, 2020 https://e.lanbook.com/book/131721
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Лучано Рамальо Python. К вершинам мастерства: Самоучители и руководства Издательство "ДМК Пресс", 2016 e.lanbook.com
Л2.2 Бонцанини М. Анализ социальных медиа на Python. Извлекайте и анализируйте данные из всех уголков социальной паутины на Python: Другое Издательство "ДМК Пресс", 2018 e.lanbook.com
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
6.3. Перечень программного обеспечения
Microsoft Windows
Microsoft Office
Дистрибутив Anaconda
7-Zip
AcrobatReaderMicrosoft Office 2010 (Office 2010 Professional, № 4065231 от 08.12.2010), (бессрочно);
Microsoft Windows 7 (Windows 7 Professional, № 61834699 от 22.04.2013), (бессрочно);
Chrome (http://www.chromium.org/chromium-os/licenses), (бессрочно); 7-Zip (http://www.7-zip.org/license.txt), (бессрочно);
AcrobatReader (http://wwwimages.adobe.com/content/dam/Adobe/en/legal/servicetou/Acrobat_com_Additional_TOU-en_US-20140618_1200.pdf), (бессрочно);
ASTRA LINUX SPECIAL EDITION (https://astralinux.ru/products/astra-linux-special-edition/), (бессрочно);
LibreOffice (https://ru.libreoffice.org/), (бессрочно);
Веб-браузер Chromium (https://www.chromium.org/Home/), (бессрочно);
Антивирус Касперский (https://www.kaspersky.ru/), (до 23 июня 2024);
Архиватор Ark (https://apps.kde.org/ark/), (бессрочно);
Okular (https://okular.kde.org/ru/download/), (бессрочно);
Редактор изображений Gimp (https://www.gimp.org/), (бессрочно)
6.4. Перечень информационных справочных систем
1. Основы алгоритмизации и программирования на языке Python [Электронный ресурс]: https://portal.edu.asu.ru/course/view.php?id=3237
2. Издательство «Лань» - электронно-библиотечная система [Электронный
ресурс]: http://e.lanbook.com
3. Издательство МЦНМО. Свободно распространяемые книги издательства
Московского центра непрерывного математического образования
[Электронный ресурс]: www.mccme.ru/free-books
4. Электронная библиотечная система Алтайского государственного
университета [Электронный ресурс]: http://elibrary.asu.ru
5. Электронная база данных ZBMATH: https://zbmath.org/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
Учебная аудитория для проведения занятий всех видов (дисциплинарной, междисциплинарной и модульной подготовки), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проекта (работы), проведения практики Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
203К лаборатория цифровой обработки сигналов - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 12 посадочных мест; рабочее место преподавателя; доска меловая 2 шт.; компьютеры: марка компьютер Парус модель 945 MSI - 12 единиц; коммутатор D-LINK; методические указания по выполнению лабораторной работы по дисциплине "Нейроинформационные технологии": алгоритм обратного рассеяния; обучение без учителя; персептрон; Сети Хопфилда и Хемминга.
202К лаборатория цифровой техники - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 18 посадочных мест; рабочее место преподавателя; доска меловая 1шт.; компьютеры: марка Aqarius; Парус - 12 единиц; вольтметр В7-34А; генератор Г5-56; генератор сигналов Г6-36; коммутатор SWITCH; компьютер Парус 945 MSI; осциллограф АСК- 1052 - 7шт.; осциллограф ЕО- 213 - 4шт.; осциллограф С1-64; осциллограф С1-91; паяльная станция АТР-1121; системный блок Aquarius Cel - 2400 – 10 шт.; стабилизатор 1202; методические указания по выполнению лабораторных работ: работа на учебной микроэвм; методы проектирования на микросхемах средней степени интеграции; последовательностные схемы; комбинационные логические схемы.
209К лаборатория схемотехники и микропроцессорных систем - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 15 посадочных мест; рабочее место преподавателя; доски меловые 1шт. компьютеры: марка Aquarius модель Cel-2533 - 2 единицы; внутрисхемный программатор-отладчик PICkit 3 - 5шт.; компьютер Парус 945 - 13шт.; монитор 15"LG Flatron; монитор 17"Samsung 793 MB; набор PICkit 3; паяльная станция -5шт.; плата оценочная DEO-Nano - 8шт.;системный блок Celeron 2400$/ методические указания по выполнению лабораторных работ: Разработка микропроцессорных систем на базе микроконтроллера PIC16F84; Микроконтроллеры семейства MCS; Методы кодирования и сжатия информации

8. Методические указания для обучающихся по освоению дисциплины

Для успешного освоения дисциплины студент должен посещать лекции и лабораторные занятия, вовремя выполять все задания и тесты, пользоваться основной и полнительноцй литературой, рекомендованной настоящей программой. Во время лекции рекомендуется вести краткий конспект.
Навыки программирования на языке Python студент преобретает на лабораторных занятиях. Для выполнения лабораторных заданий каждому студенту необходимо:
- получить вариант задания у преподавателя;
- скачать документ с описанием задания с образовательного портала;
- внимательно прочитать задание. Вопросы, возникающие в процессе выполненпия лабораторных работ, необходимо грамотно сформулировать и обратиться за помощью к преподавателю на консультации или ближайшем занятии;
- разработать, отладить и оттестировать программы, решающие поставленные задачи.
Для каждого лабораторного задания предусмотрена процедура защиты, в ходе которой преподаватель проводит устный опрос студентов для контроля понимания выполненных ими заданий.
Тестовые задания на образовательном портале предназначены для контроля усвоения теоретического материала, а также умения читать и понимать программный код. Тесты выполняются только в присутсвии преподавателя на занятии или на консультации. Количесвто попыток ограничено тремя. Готовясь к тестированию, студент должен изучить конспекты лекций и учебно-методические материалы, рекомендуемые преподавателем.
При подготовке к экзамену в дополнение к изучению конспектов лекций и учебной литературы, рекомендуется посещать консультации и пользоваться свободными интернет-ресурсами.