МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Big Data и ETL-системы

рабочая программа дисциплины
Закреплена за кафедройКафедра цифровых технологий и бизнес-аналитики
Направление подготовки09.03.03. Прикладная информатика
ПрофильУправление IT-проектами; ERP-системы и прикладное программирование
Форма обученияОчная
Общая трудоемкость4 ЗЕТ
Учебный план09_03_03_Прикладная информатика_Профили-2022
Часов по учебному плану 144
в том числе:
аудиторные занятия 56
самостоятельная работа 61
контроль 27
Виды контроля по семестрам
экзамены: 6

Распределение часов по семестрам

Курс (семестр) 3 (6) Итого
Недель 19
Вид занятий УПРПДУПРПД
Лекции 20 20 20 20
Лабораторные 36 36 36 36
Сам. работа 61 61 61 61
Часы на контроль 27 27 27 27
Итого 144 144 144 144

Программу составил(и):
канд. физ.-мат. наук, доцент, Журенков О. В.

Рецензент(ы):
канд.техн.наук, доцент, Стерлягов С. П.

Рабочая программа дисциплины
Big Data и ETL-системы

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования - бакалавриат по направлению подготовки 09.03.03 Прикладная информатика (приказ Минобрнауки России от 19.09.2017 г. № 922)

составлена на основании учебного плана:
09.03.03 Прикладная информатика
утвержденного учёным советом вуза от 29.10.2021 протокол № 1/1.

Рабочая программа одобрена на заседании кафедры
Кафедра цифровых технологий и бизнес-аналитики

Протокол от 22.03.2022 г. № 8
Срок действия программы: 20222026 уч. г.

Заведующий кафедрой
Трошкина Галина Николаевна


Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2023-2024 учебном году на заседании кафедры

Кафедра цифровых технологий и бизнес-аналитики

Протокол от 22.03.2022 г. № 8
Заведующий кафедрой Трошкина Галина Николаевна


1. Цели освоения дисциплины

1.1.формирование у будущих специалистов базовых знаний в области Big Data, практических навыков по основам Data Science, применения современных информационных технологий для организации процессов ETL, проектирования и создания хранилищ данных, разработки и внедрения систем OLAP и BI для решения экономических, управленческих и других прикладных задач, развитие умения работы с современными программными средствами, библиотеками и средами проектирования и разработки. Задачи изучения дисциплины - реализация требований, установленных в квалификационной характеристике в области архитектуры ПО, создания, внедрения ПО для решения прикладных задач.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.В.01

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ПК-3Способен разрабатывать и применять программное обеспечение для процессов ETL, построения баз данных, хранилищ данных и аналитических решений на основе машинного обучения и искусственного интеллекта
ПК-3.1 Знает концепции баз данных, хранилищ данных, ETL, базовые технологии машинного обучения и искусственного интеллекта; готовые решения для ETL и анализа данных, интеллектуальные информационные системы
ПК-3.2 Умеет разрабатывать базы данных, хранилища данных, приложения ETL; применять готовые решения для ETL, анализа данных, машинного обучения и искусственного интеллекта
ПК-3.3 Владеет технологиями создания аналитических решений на основе машинного обучения и искусственного интеллекта
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.основы организации хранилищ данных (ХД), OLAP-технологии, архитектуру ХД и OLAP-систем;
назначение и методы процессов ETL/ELT.
3.2.Уметь:
3.2.1.проектировать хранилища данных для решения поставленных задач анализа данных в предметной области; применять на практике программные средства и прикладные библиотеки для консолидации и подготовки данных, для решения задач методами Data Mining;
выполнять визуализацию данных в процессе поиска, извлечения, преобразования и загрузки данных в хранилище;
применять на практике программные средства и прикладные библиотеки для работы с большими данными в процессах ETL.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.технологиями построения хранилищ данных, организации процесса ETL, работы с OLAP-технологиями;
опытом применения алгоритмов автоматизации процессов ETL/ELT;
навыками применения технологий SQL и NoSQL;
навыками визуализации данных в средах интеллектуального анализа данных и ELT-платформ.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Введение в дисциплину
1.1. Введение. Базовые понятия. Лекции 6 1 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л2.3, Л2.1
1.2. Чтение лекции и учебной литературы. Сам. работа 6 1 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л2.1
1.3. Хранилища данных. Лекции 6 3 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
1.4. Чтение лекции и учебной литературы. Сам. работа 6 3 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
1.5. Открытые данные и разведочный анализ. Лабораторные 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.1
1.6. Доработка лабораторной работы. Сам. работа 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.1
1.7. Big Data. Основные понятия. Хранение и обработка больших данных. NoSQL. Лекции 6 2 ПК-3.1, ПК-3.2, ПК-3.3 Л1.1, Л2.1, Л2.4
1.8. Чтение лекции и учебной литературы. Сам. работа 6 2 ПК-3.1, ПК-3.2, ПК-3.3 Л1.1, Л2.1, Л2.4
1.9. Примеры использования BigData. Лабораторные 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л2.4
1.10. Доработка лабораторной работы. Сам. работа 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.1, Л2.4
1.11. NoSQL. Работа с CouchDB. Лабораторные 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л2.4
1.12. Доработка лабораторной работы. Сам. работа 6 6 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л2.4
Раздел 2. Консолидация данных
2.1. Консолидация данных. ETL-процесс. Извлечение данных. Лекции 6 3 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
2.2. Чтение лекции и учебной литературы. Сам. работа 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
2.3. Преобразование данных. Загрузка данных. Лекции 6 3 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
2.4. Чтение лекции и учебной литературы. Сам. работа 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
2.5. Инструменты ETL/ELT. Лекции 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
2.6. Чтение лекции и учебной литературы. Сам. работа 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
2.7. Процесс ETL в Loginom Лабораторные 6 8 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
2.8. Доработка лабораторной работы. Сам. работа 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
2.9. Процесс ETL в Python Лабораторные 6 8 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
2.10. Доработка лабораторной работы. Сам. работа 6 5 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
Раздел 3. OLAP-системы
3.1. Многомерная модель данных. Концепция ОLАР. Лекции 6 2 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
3.2. Чтение лекции и учебной литературы. Сам. работа 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
3.3. OLAP на платформе Deductor (Loginom). Лабораторные 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
3.4. Доработка лабораторной работы. Сам. работа 6 6 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
3.5. Архитектура OLAP-систем. Лекции 6 2 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
3.6. Чтение лекции и учебной литературы. Сам. работа 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2, Л1.1
3.7. Проектирование ROLAP-системы в среде IBM Rational Data Architect. Лабораторные 6 4 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2
3.8. Доработка лабораторной работы. Сам. работа 6 6 ПК-3.1, ПК-3.2, ПК-3.3 Л2.2

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
Оценочные материалы для текущего контроля (контрольные вопросы, практические задания) размещены в онлайн-курсе на образовательном портале https://portal.edu.asu.ru/course/view.php?id=3027.
Контрольные вопросы и задания для проведения промежуточной аттестации по итогам освоения дисциплины.

Проверяемая компетенция: ПК-3: Способен разрабатывать и применять программное обеспечение для процессов ETL, построения баз данных, хранилищ данных и аналитических решений на основе машинного обучения и искусственного интеллекта.

Тестовые задания (выбор одного из вариантов):
1. Аналитические приложения, как правило, содержат развитые средства ввода и редактирования данных.
Выберите один ответ:
• Верно
• Неверно
2. Кого принято считать создателем концепции ХД?
Выберите один ответ:
• Алан Тьюринг
• Рэй Бойс
• Эдгар Франк Кодд
• Билл Инмон
• Кристофер Дейт
3. ETL-процесс должен разрабатываться без учёта всех особенностей, используемых в ХД.
Выберите один ответ:
• Верно
• Неверно
4. NoSQL означает не SQL.
Выберите один ответ:
• Верно
• Неверно
5. Выберите объём данных, соответствующий сегодняшнему представлению Big Data.
Выберите один ответ:
• Гигабайт
• Зеттабайт
• Эксабайт
• Петабайт
• Терабайт
6. Операции обобщения и декомпозиции возможны всегда.
Выберите один ответ:
• Верно
• Неверно
7. Отметьте правило, не входящее в набор, известный как дополнительные правила Кодда для OLAP.
Выберите один или несколько ответов:
• использование многопроцессорности
• поддержка всех моделей OLAP-анализа
• обработка отсутствующих значений
• пакетное извлечение против интерпретации
• обработка ненормализованных данных
• сохранение результатов OLAP отдельно от исходных данных
• исключение отсутствующих значений
8. В хранилище данных загруженные данные не должны подвергаться каким-либо изменениям.
Выберите один ответ:
• Верно
• Неверно
9. Преобразование данных может быть выполнено на любом этапе ETL-процесса.
Выберите один ответ:
• Верно
• Неверно
10. Укажите, какие операции могут производиться над измерениями гиперкуба.
Выберите один или несколько ответов:
• проекция
• декартово произведение
• свёртка
• пересечение
• вращение
• сечение
• детализация
• объединение

Правильные ответы:
1. Неверно
2. Билл Инмон
3. Неверно
4. Неверно
5. Петабайт
6. Неверно
7. использование многопроцессорности
8. Верно
9. Верно
10. (вращение, детализация, свёртка, сечение)

Тестовые задания открытой формы (с кратким свободным ответом)
1. Как называется предметно-ориентированный, интегрированный, неизменчивый, поддерживающий хронологию набор данных, организованный с целью поддержки принятия решений? (Хранилище данных)
2. Напишите общепринятое название системы оперативной обработки информации. (OLTP)
3. Ряд подходов, направленных на реализацию хранилищ данных, имеющих существенные отличия от моделей, используемых в реляционных СУБД, называется ... (NoSQL)
4. Как называется технология оперативной аналитической обработки данных, использующая методы и средства для сбора, хранения и анализа многомерных данных в целях поддержки процессов принятия решений? (OLAP)
5. Как называется время, которое занимает выгрузка данных из ОИД? (окно выгрузки)
6. Как называется раздел кибернетики, развивающий теоретические основы и методы классификации и идентификации предметов, явлений, процессов, сигналов, ситуаций и других объектов, которые характеризуются конечным набором некоторых свойств и признаков? (распознавание образов)
7. Как называется класс информационных систем, ориентированных на аналитическую обработку данных с целью получения знаний, необходимых для разработки решений в области управления? (СППР)
8. Как называется разновидность систем хранения, ориентированная на поддержку процесса анализа данных, обеспечивающая целостность, непротиворечивость и хронологию данных, а также высокую скорость выполнения аналитических запросов? (хранилище данных)
9. Как называются компьютерные методы и инструменты для менеджмента организаций, которые обеспечивают перевод транзакционной деловой информации в форму, пригодную для бизнес-анализа? (BI) (Business Intelligence)
10. Как называется комплекс методов, реализующих процесс переноса исходных данных из различных источников в хранилище данных? (ETL)
11. Как называется технология автоматизированного быстрого 3D-сканирования печатной продукции и сохранения в файл (с распознаванием текста)? (flipping)
12. Как называется наука о методах сбора данных, их обработки и анализа для выявления закономерностей, присущих изучаемому явлению? (статистика)
13. Как называется процесс взаимодействия и аналитических рассуждений с одним или несколькими визуальными представлениями абстрактных данных? (VDM)
14. Как называется простейшая логическая схема реализации многомерногo представления данных с помощью реляционных таблиц? (звезда)
15. Как называется логическая схема реализации многомерногo представления данных с иерархическими измерениями с помощью реляционных таблиц? (снежинка)
16. Как называется некоторый набор операций с данными, который рассматривается как единое логически завершённое действие над некоторой информацией? (транзакция)
17. Как называется наука о разработке интеллектуальных машин, систем, компьютерных программ, основанных на изучении человеческого интеллекта? (искусственный интеллект)
18. Как называется способность системы создавать (в ходе самообучения алгоритмы) для решения задач определённого класса сложности и решать эти задачи с помощью разработанных алгоритмов? (интеллект)
19. Как называется выявление скрытых закономерностей или взаимосвязей между переменными в больших массивах сырых данных? (Data Mining)
20. Как называется область ИИ, изучающая методы построения алгоритмов, способных обучаться? (машинное обучение)
21. Сколько нейроэлементов может содержать элементарный перцептрон? (1)
22. Каким термином называют нейроны, которые окружают нейрон-победитель? (Окрестность)
23. Как называется компонент ХД, позволяющий аналитику оперировать данными посредством бизнес-терминов предметной области? (семантический слой)
24. Сколько классов может различать элементарный перцептрон? (2)
25. Как называется процесс переноса данных, включающий в себя этапы извлечения, преобразования и загрузки? (ETL-процесс)
26. Как называются соревновательные нейронные сети с обучением без учителя, выполняющие задачу визуализации и кластеризации? (самоорганизующиеся карты Кохонена)
27. Как называются нейронные сети с прямыми связями, в которых имеется несколько слоёв с настраиваемыми весами связей? (многослойный перцептрон)
28. Какой тип нейронных сетей может осуществлять любое преобразование «вход-выход», аппроксимировать любую решающую (распознающую) функцию с любой наперёд заданной точностью? (Многослойный перцептрон)
29. Как называются нейронные сети двухуровневой структуры, в каждом слое которой расположены нейроны с насыщением? (нейросети Хемминга)
30. Как называются нейронные сети из одинаковых нейронов, у которых выход связан настраиваемыми связями с входами всех других нейронов? (нейросети Хопфилда)

Критерии оценки открытых вопросов.
Отлично (зачтено) Ответ полный, развернутый. Вопрос точно и исчерпывающе передан, терминология сохранена, студент превосходно владеет основной и дополнительной литературой, ошибок нет.
Хорошо (зачтено) Ответ полный, хотя краток, терминологически правильный, нет существенных недочетов. Студент хорошо владеет пройденным программным материалом; владеет основной литературой, суждения правильны.
Удовлетворительно (зачтено) Ответ неполный. В терминологии имеются недостатки. Студент владеет программным материалом, но имеются недочеты. Суждения фрагментарны.
Неудовлетворительно (не зачтено) Не использована специальная терминология. Ответ в сущности неверен. Переданы лишь отдельные фрагменты соответствующего материала вопроса. Ответ не соответствует вопросу или вовсе не дан.
5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрены.
5.3. Фонд оценочных средств для проведения промежуточной аттестации
Процедура проведения:
- по результатам работы в семестре и итогам текущей аттестации – итоговая оценка за промежуточную аттестацию складывается по результатам выполнения всех лабораторных работ в течение семестра, итогового теста и (возможно) сертификата курса на Интуит.
Пример оценочного средства итогового теста в виде тестовых заданий представлен в 5.1

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Туманов, В .Е. Проектирование хранилищ данных для систем бизнес-аналитики: учебное пособие Интернет-Университет Информационных Технологий, 2010 biblioclub.ru
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Келлехер, Д. Наука о данных: базовый курс: Альпина Паблишер, 2020 https://biblioclub.ru/index.php?page=book&id=598235
Л2.2 Барсегян А.А., Куприянов М.С., Степаненко В.В., Холод И.И. Технологии анализа данных. Data Mining, Visual Mining, Text Mining, OLAP : Учебное пособие БХВ-Петербург, 2007
Л2.3 Уэс Маккинли Python и анализ данных: Издательство "ДМК Пресс", 2015 e.lanbook.com
Л2.4 авт.-сост. Е. И. Николаев Базы данных в высокопроизводительных информационных системах: учебное пособие Северо-Кавказский Федеральный университет , 2016 https://biblioclub.ru/index.php?page=book&id=466799
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 ЕМИСС fedstat.ru
Э2 Аналитическая платформа Loginom loginom.ru
Э3 Курс в Moodle " Big Data и ETL-системы" portal.edu.asu.ru
Э4 Портал открытых данных Российской Федерации data.gov.ru
Э5 NYC Open Data opendata.cityofnewyork.us
Э6 Официальный сайт языка программирования Python www.python.org
Э7 Yandex Cloud cloud.yandex.ru
Э8 Yandex DataLens datalens.yandex.ru
Э9 CouchDB — Краткое руководство https://coderlessons.com/tutorials/bazy-dannykh/uchitsia-couchdb/couchdb-kratkoe- rukovodstvo
Э10 Учебник CouchDB ru.it-brain.online
6.3. Перечень программного обеспечения
Аналитическая платформа Loginom
IBM Rational Data Architect.
Python
Google Colab
Yandex DataLens
Libre Office
Yandex Browser/Mozilla Firefox/Chrome/Chromium/Opera/Edge
CouchDB
FAR
7-ZipMicrosoft Office 2010 (Office 2010 Professional, № 4065231 от 08.12.2010), (бессрочно);
Microsoft Windows 7 (Windows 7 Professional, № 61834699 от 22.04.2013), (бессрочно);
Chrome (http://www.chromium.org/chromium-os/licenses), (бессрочно); 7-Zip (http://www.7-zip.org/license.txt), (бессрочно);
AcrobatReader (http://wwwimages.adobe.com/content/dam/Adobe/en/legal/servicetou/Acrobat_com_Additional_TOU-en_US-20140618_1200.pdf), (бессрочно);
ASTRA LINUX SPECIAL EDITION (https://astralinux.ru/products/astra-linux-special-edition/), (бессрочно);
LibreOffice (https://ru.libreoffice.org/), (бессрочно);
Веб-браузер Chromium (https://www.chromium.org/Home/), (бессрочно);
Антивирус Касперский (https://www.kaspersky.ru/), (до 23 июня 2024);
Архиватор Ark (https://apps.kde.org/ark/), (бессрочно);
Okular (https://okular.kde.org/ru/download/), (бессрочно);
Редактор изображений Gimp (https://www.gimp.org/), (бессрочно)
6.4. Перечень информационных справочных систем
https://data.gov.ru/
https://opendata.cityofnewyork.us/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
103С лаборатория информационных технологий - компьютерный класс – учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации; помещение для саостоятельной работы Учебная мебель на 16 посадочных мест; рабочее место преподавателя; доска маркерная; марка ASUSTeK Computer INC модель P8B75-M - 15 единиц; мониторы: марка Asus модель VW224 - 15 единиц
103С лаборатория информационных технологий - компьютерный класс – учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации; помещение для саостоятельной работы Учебная мебель на 16 посадочных мест; рабочее место преподавателя; доска маркерная; марка ASUSTeK Computer INC модель P8B75-M - 15 единиц; мониторы: марка Asus модель VW224 - 15 единиц
Учебная аудитория для проведения занятий лекционного типа, занятий семинарского типа (лабораторных и(или) практических), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проектирования (выполнения курсовых работ), проведения практик Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
Помещение для самостоятельной работы помещение для самостоятельной работы обучающихся Компьютеры, ноутбуки с подключением к информационно-телекоммуникационной сети «Интернет», доступом в электронную информационно-образовательную среду АлтГУ

8. Методические указания для обучающихся по освоению дисциплины

На лекциях преподаватель знакомит слушателей с основными понятиями и положениями по текущей теме. На лекциях слушатель получает только основной объём информации по теме. Только посещение лекций является недостаточным для подготовки к лабораторным занятиям и экзамену. Требуется также самостоятельная работа по изучению основной и дополнительной литературы и закрепление полученных на лабораторных занятиях навыков.
Практические задания по темам выполняются на лабораторных занятиях в компьютерном классе. Если лабораторные занятия пропущены (по уважительной или неуважительной причине), то соответствующие задания необходимо выполнить самостоятельно и представить результаты преподавателю на очередном занятии, консультации или через образовательный портал.
Самостоятельная работа студентов – способ активного, целенаправленного приобретения студентом новых для него знаний, умений и навыков без непосредственного участия в этом процессе преподавателя.
Качество получаемых студентом знаний напрямую зависит от качества и количества необходимого доступного материала, а также от желания (мотивации) студента их получить. При обучении осуществляется целенаправленный процесс взаимодействия студента и преподавателя для формирования знаний, умений и навыков.
Все необходимые методические материалы размещены на образовательном портале АлтГУ https://portal.edu.asu.ru/course/view.php?id=3027