МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Инжиниринг данных

рабочая программа дисциплины
Закреплена за кафедройКафедра информатики
Направление подготовки09.04.01. Информатика и вычислительная техника
ПрофильИнженерия искусственного интеллекта
Форма обученияОчная
Общая трудоемкость3 ЗЕТ
Учебный план09_04_01_Информатика и вычислительная техника_ИИИ-2024
Часов по учебному плану 108
в том числе:
аудиторные занятия 36
самостоятельная работа 72
Виды контроля по семестрам
зачеты: 1

Распределение часов по семестрам

Курс (семестр) 1 (1) Итого
Недель 18
Вид занятий УПРПДУПРПД
Лекции 18 18 18 18
Практические 18 18 18 18
Сам. работа 72 72 72 72
Итого 108 108 108 108

Программу составил(и):
к.т.н., доцент, Михеева Т.В.

Рецензент(ы):
к.ф.-м.н., доцент, Пономарев И.В.

Рабочая программа дисциплины
Инжиниринг данных

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования - магистратура по направлению подготовки 09.04.01 Информатика и вычислительная техника (приказ Минобрнауки России от 19.09.2017 г. № 918)

составлена на основании учебного плана:
09.04.01 Информатика и вычислительная техника
утвержденного учёным советом вуза от 26.06.2023 протокол № 4.

Рабочая программа одобрена на заседании кафедры
Кафедра информатики

Протокол от 03.05.2024 г. № 7
Срок действия программы: 20242025 уч. г.

Заведующий кафедрой
Козлов Денис Юрьевич, к.ф.-м.н., доцент


1. Цели освоения дисциплины

1.1.Цель освоения дисциплины - формирование у студентов необходимой теоретической базы и практических навыков подготовки данных для моделей машинного обучения. В процессе обучения рассматриваются особенности работы с данными в различных форматах на языке Python. Уделяется внимание инструментам и технологиям загрузки данных из интернета и социальных сетей. Подробно изучаются методы очистки данных и соответствующие библиотеки на Python.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.О.7

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ОПК-3Способен анализировать профессиональную информацию, выделять в ней главное, структурировать, оформлять и представлять в виде аналитических обзоров с обоснованными выводами и рекомендациями;
ОПК-3.1 Знать: принципы, методы и средства анализа и структурирования профессиональной информации.
ОПК-3.2 Уметь: анализировать профессиональную информацию, выделять в ней главное, структурировать, оформлять и представлять в виде аналитических обзоров.
ОПК-3.3 Владеть: методами подготовки научных докладов, публикаций и аналитических обзоров с обоснованными выводами и рекомендациями.
ПК-3Способен разрабатывать и применять методы и алгоритмы машинного обучения для решения задач
ПК-3.1 Ставит задачи по разработке или совершенствованию методов и алгоритмов для решения комплекса задач предметной области.
ПК-3.2 Руководит исследовательской группой по разработке или совершенствованию методов и алгоритмов для решения комплекса задач предметной области.
ПК-3.3 Разрабатывает унифицированные и обновляемые методологии описания, сбора иразметки данных, а также механизмы контроля за соблюдением указанных методологий.
ПК-8Способен разрабатывать и модернизировать программное и аппаратное обеспечение технологий и систем искусственного интеллекта с учетом требований информационной безопасности в различных предметных областях
ПК-8.1 Разрабатывает программное и аппаратное обеспечение технологий и систем искусственного интеллекта для решения профессиональных задач с учетом требований информационной безопасности в различных предметных областях.
ПК-8.2 Модернизирует программное и аппаратное обеспечение технологий и систем искусственного интеллекта для решения профессиональных задач с учетом требований информационной безопасности в различных предметных областях.
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.принципы, методы и средства анализа и структурирования профессиональной информации.
3.2.Уметь:
3.2.1.анализировать профессиональную информацию, выделять в ней главное, структурировать, оформлять и представлять в виде аналитических обзоров.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.владеть методами подготовки научных докладов, публикаций и аналитических обзоров с обоснованными выводами и рекомендациями.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Работа с данными в Python
1.1. Библиотеки для работы с данными в различных форматах в Python: файлы CSV, JSON, HTML. Работа с базами данных в Python. Работа с изображениями, видео и звуковыми файлами. Форматы хранения больших данных и работа с ними: Parquet, Avro. Графы знаний. Лекции 1 6 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
1.2. Библиотеки для работы с данными в Python: numpy, pandas. Практические 1 2 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
1.3. Работа с текстовыми файлами разных форматов в Python: CSV, JSON, HTML. Практические 1 2 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
1.4. Работа с базами данных в Python. Практические 1 2 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
1.5. Работа с изображениями, видео и звуковыми файлами в Python. Практические 1 2 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
Раздел 2. Подготовка данных для систем машинного обучения
2.1. Сбор данных и формирование набора данных для систем машинного обучения. Загрузка данных из интернет и социальных сетей. Методы очистки и подготовки данных. Очистка и подготовка данных на Python. Разметка данных. Общедоступные платформы для хранения данных. Подход Data-Centric AI. Лекции 1 6 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
2.2. Работа с файлами для хранения больших данных в Python. Практические 1 2 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
2.3. Работа с графами знаний в Python. Практические 1 2 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
2.4. Создание собственных наборов данных в Python. Очистка и подготовка данных. Практические 1 2 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
Раздел 3. Параллельная и распределенная обработка данных
3.1. Архитектура центров обработки данных, кластеры для параллельных и распределенных вычислений. Экосистема для распределенного хранения и обработки больших объемов данных: Apache Hadoop, HDFS. Распределенная обработка данных в Apache Spark. Архитектура Apache Spark: Resilient Distributed Dataset (RDD), действия трансформации. Работа с данными с использованием Spark DataFrame. Источники данных для Spark DataFrame. Обработка данных в Spark DataFrame. Использование SQL в Spark DataFrame. Лекции 1 6 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
3.2. Работа с данными в Apache Spark. Практические 1 2 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
3.3. Использование SQL в Apache Spark. Практические 1 2 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2
3.4. Подготовка к аудиторным занятиям и мероприятиям текущего контроля: лекционным, практическим занятиям. Самостоятельное изучение материала. Подготовка к экзамену. Сам. работа 1 72 ПК-8.1, ПК-8.2, ОПК-3.1, ОПК-3.2, ОПК-3.3, ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л1.1, Л1.2, Л2.2

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
Оценочные материалы для текущего контроля по разделам и темам дисциплины в полном объеме размещены в онлайн-курсе на образовательном портале «Цифровой университет АлтГУ» - https://portal.edu.asu.ru/course/view.php?id=10540

Примеры заданий - https://disk.yandex.ru/i/hcHYgN1D64NQ1A

Критерии оценивания: Каждое задание оценивается 1 баллом. Оценивание КИМ в целом: «отлично» – верно выполнено 85-100% заданий; «хорошо» – верно выполнено 70-84% заданий; «удовлетворительно» – верно выполнено 51-69% заданий; «неудовлетворительно» – верно выполнено 50% или менее 50% заданий.

5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрено.
5.3. Фонд оценочных средств для проведения промежуточной аттестации
Промежуточная аттестация заключается в проведении зачета по всему изученному курсу. Зачет проводится в устной форме по билетам. В билет входит 2 вопроса: 1 вопрос теоретического характера и 1 вопрос практико-ориентированного характера.
Перечень теоретических вопросов для промежуточной аттестации:
1. Библиотека pandas в Python.
2. Работа с данными в формате CSV в Python.
3. Работа с данными в формате JSON в Python.
4. Работа с данными в формате HTML в Python.
5. Работа с изображениями в Python.
6. Работа с видео в Python.
7. Работа с аудио в Python.
8. Работа с Parquet в Python.
9. Работа с графами знаний в Python.
10. Этапы и инструменты создания наборов данных для машинного обучения.
11. Загрузка данных с Web-сайтов.
12. Загрузка данных из социальных сетей.
13. Методы и инструменты подготовки данных.
14. Методы и инструменты очистки данных.
15. Разметка данных.
16. Общедоступные платформы для хранения данных.
17. Архитектура центров обработки данных.
18. Кластеры для параллельных и распределенных вычислений.
19. Экосистема для распределенного хранения и обработки больших объемов данных: Apache Hadoop.
20. Распределенная файловая система HDFS.
21. Распределенная обработка данных в Apache Spark.
22. Работа с данными с использованием Apache Spark DataFrame.
23. Источники данных для Apache Spark DataFrame.
24. Обработка данных в Apache Spark DataFrame.
25. Использование SQL в Apache Spark DataFrame.
Перечень практико-ориентированных вопросов для промежуточной аттестации:
1. Библиотеки для работы с данными в Python: numpy, pandas.
2. Работа с текстовыми файлами разных форматов в Python: CSV, JSON, HTML.
3. Работа с базами данных в Python.
4. Работа с изображениями, видео и звуковыми файлами в Python.
5. Работа с файлами для хранения больших данных в Python.
6. Работа с графами знаний в Python.
7. Создание собственных наборов данных в Python. Очистка и подготовка данных.
8. Работа с данными в Apache Spark.
9. Использование SQL в Apache Spark.
Критерии оценивания:
«Отлично» (зачтено): студентом дан полный, в логической последовательности развернутый ответ на поставленные вопросы, где он продемонстрировал знания предмета в полном объеме учебной программы, достаточно глубоко осмысливает дисциплину, самостоятельно, и исчерпывающе отвечает на дополнительные вопросы, приводит собственные примеры по проблематике поставленного вопроса, решил предложенные практические задания без ошибок.
«Хорошо» (зачтено): студентом дан развернутый ответ на поставленный вопрос, где студент демонстрирует знания, приобретенные на лекционных и семинарских занятиях, а также полученные посредством изучения обязательных учебных материалов по курсу, дает аргументированные ответы, приводит примеры, в ответе присутствует свободное владение монологической речью, логичность и последовательность ответа. Однако допускаются неточности в ответе. Решил предложенные практические задания с небольшими неточностями.
«Удовлетворительно» (зачтено): студентом дан ответ, свидетельствующий в основном о знании процессов изучаемой дисциплины, отличающийся недостаточной глубиной и полнотой раскрытия темы, знанием основных вопросов теории, слабо сформированными навыками анализа явлений, процессов, недостаточным умением давать аргументированные ответы и приводить примеры, недостаточно свободным владением монологической речью, логичностью и последовательностью ответа. Допускается несколько ошибок в содержании ответа и решении практических заданий.
«Неудовлетворительно» (не зачтено): студентом дан ответ, который содержит ряд серьезных неточностей, обнаруживающий незнание процессов изучаемой предметной области, отличающийся неглубоким раскрытием темы, незнанием основных вопросов теории, неумением давать аргументированные ответы. Выводы поверхностны. Решение практических заданий не выполнено. Студент не способен ответить на вопросы даже при дополнительных наводящих вопросах преподавателя.

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Чернышев С. А. Основы программирования на Python: Учебное пособие для вузов Москва: Издательство Юрайт, 2024 urait.ru
Л1.2 Маккинни У. Python и анализ данных. Первичная обработка данных с применением pandas, NumPy и Jupiter: Москва : ДМК Пресс, 2023 e.lanbook.com
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Маккинни У. Python и анализ данных: Москва: ДМК Пресс, 2020 https://e.lanbook.com/book/131721
Л2.2 Демидова Л.А. Интеллектуальный анализ данных на языке Python: Учебно-методическое пособие Москва : РТУ МИРЭА, 2021 e.lanbook.com
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 Онлайн-курс «Инжиниринг данных» на образовательном портале «Цифровой университет АлтГУ» portal.edu.asu.ru
6.3. Перечень программного обеспечения
1. Microsoft Office 2010 (Office 2010 Professional, № 4065231 от 08.12.2010), (бессрочно);
2. Microsoft Windows 7 (Windows 7 Professional, № 61834699 от 22.04.2013), (бессрочно);
3. Chrome (http://www.chromium.org/chromium-os/licenses ), (бессрочно);
4. 7-Zip (http://www.7-zip.org/license.txt ), (бессрочно);
5. AcrobatReader (http://wwwimages.adobe.com/content/dam/Adobe/en/legal/servicetou/Acrobat_com_Additional_TOU-en_US-20140618_1200.pdf), (бессрочно);
6. ASTRA LINUX SPECIAL EDITION (https://astralinux.ru/products/astra-linux-special-edition/), (бессрочно);
7. LibreOffice (https://ru.libreoffice.org/), (бессрочно);
8. Веб-браузер Chromium (https://www.chromium.org/Home/), (бессрочно);
9. Антивирус Касперский (https://www.kaspersky.ru/), (до 23 июня 2024);
10. Архиватор Ark (https://apps.kde.org/ark/), (бессрочно);
11. Okular (https://okular.kde.org/ru/download/), (бессрочно);
12. Редактор изображений Gimp (https://www.gimp.org/), (бессрочно)
6.4. Перечень информационных справочных систем
Информационная справочная система:
СПС КонсультантПлюс (инсталлированный ресурс АлтГУ или http://www.consultant.ru/).
Профессиональные базы данных:
1. Электронная база данных «Scopus» (http://www.scopus.com);
2. Электронная библиотечная система Алтайского государственного университета (http://elibrary.asu.ru/);
3. Научная электронная библиотека elibrary (http://elibrary.ru).

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
110М лаборатория информационных технологий - компьютерный класс – учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 14 посадочных мест; рабочее место преподавателя; доска магнитно-маркерная 1 шт.; компьютеры: марка NAIO Corp Z520 - 14 ед.
109М лаборатория информационных технологий - компьютерный класс – учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 13 посадочных мест; рабочее место преподавателя; доска магнитно-маркерная 1 шт.; компьютеры: марка NAIO Corp Z520 - 13 ед.
106Л помещение для хранения и профилактического обслуживания учебного оборудования Стеллажи – 3 шт. осциллограф, паяльная станция, источник тока, переносные ноутбуки
205Л кабинет информатики (компьютерный класс) - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 9 посадочных мест; компьютеры: марка КламаС Офис, мониторы: марка ACER модель V223HQL - 8 единиц; доска интерактивная Triumph MULTI TOUCH 78 + проектор NEC UM280X в комплекте
Учебная аудитория для проведения занятий лекционного типа, занятий семинарского типа (лабораторных и(или) практических), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проектирования (выполнения курсовых работ), проведения практик Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
107Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 18 посадочных мест; компьютеры: марка HP, модель ProOne 400 - 18 единиц; проектор: марка SMART, модель UF70 - 1 единица; интерактивная доска: марка SMART Board модель SMB680 - 1 единица

8. Методические указания для обучающихся по освоению дисциплины

На лекционных занятиях необходимо конспектировать изучаемый материал.
- Для систематизации лекционного материала, который будет полезен при подготовке к итоговому контролю знаний, записывайте на каждой лекции тему, вопросы для изучения, рекомендуемую литературу.
- В каждом вопросе выделяйте главное, обязательно запишите ключевые моменты (определение, факты, законы, правила и т.д.), подчеркните их.
- Если по содержанию материала возникают вопросы, не нужно выкрикивать, запишите их и задайте по окончании лекции или на семинарском занятии.
- Перед следующей лекцией обязательно прочитайте предыдущую, чтобы актуализировать знания и осознанно приступить к освоению нового содержания

Практическое занятие – это форма работы, где студенты максимально активно участвуют в обсуждении темы.
- Самостоятельную подготовку к занятию необходимо начинать с изучения понятийного аппарата темы. Рекомендуем использовать справочную литературу (словари, справочники, энциклопедии), целесообразно создать и вести свой словарь терминов.
- Важно запомнить, что любой источник должен нести достоверную информацию, особенно это относится к Internet-ресурсам. При использовании Internet - ресурсов в процессе подготовки не нужно их автоматически «скачивать», они должны быть проанализированы. Не нужно «скачивать» готовые рефераты, так как их однообразие преподаватель сразу выявляет, кроме того, они могут быть сомнительного качества.
- В процессе изучения темы анализируйте несколько источников. Используйте периодическую печать - специальные журналы.
- Полезным будет работа с электронными учебниками и учебными пособиями в Internet-библиотеках. Зарегистрируйтесь в них: университетская библиотека Онлайн (http://www.biblioclub.ru/) и электронно-библиотечная система «Лань» (http://e.lanbook.com/).
- В процессе подготовки и построения ответов при выступлении не просто пересказывайте текст учебника, но и выражайте свою личностно-профессиональную оценку прочитанного.
- Если к занятиям предлагаются задания практического характера, продумайте план их выполнения или решения при подготовке к семинару.
- При возникновении трудностей в процессе подготовки взаимодействуйте с преподавателем, консультируйтесь по самостоятельному изучению темы.

Самостоятельная работа.
- При изучении дисциплины не все вопросы рассматриваются на занятиях, часть вопросов рекомендуется преподавателем для самостоятельного изучения.
- Поиск ответов на вопросы и выполнение заданий для самостоятельной работы позволит вам расширить и углубить свои знания по курсу, применить теоретические знания в решении задач практического содержания, закрепить изученное ранее.
- Эти задания следует выполнять не «наскоком», а постепенно, планомерно, следуя порядку изучения тем курса.
- При возникновении вопросов обратитесь к преподавателю в день консультаций на кафедру.
- Выполнив их, проанализируйте качество их выполнения. Это поможет вам развивать умения самоконтроля и оценочные компетенции.

Итоговый контроль.
- Для подготовки к зачету/экзамену возьмите перечень примерных вопросов у преподавателя.
- В списке вопросов выделите те, которые были рассмотрены на занятиях. Обратитесь к своим записям, выделите существенное. Для более детального изучения изучите рекомендуемую литературу.
- Если в списке вопросов есть те, которые не рассматривались на занятии, изучите их самостоятельно.