МИНОБРНАУКИ РОССИИ

федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Методы интеллектуального анализа данных в социологических исследованиях

рабочая программа дисциплины

Закреплена за кафедрой	Кафедра социальной и молодежной политики
Направление подготовки	39.04.01. Социология
Профиль	Цифровые методы анализа и визуализации данных в социальных исследованиях
Форма обучения	Заочная
Общая трудоемкость	3 ЗЕТ
Учебный план	z39_04_01_Социология_ЦМА-2023

Часов по учебному плану	108
в том числе:
аудиторные занятия	10
самостоятельная работа	94
контроль	4

Виды контроля по курсам
диф. зачеты:	3

Распределение часов по курсам

Курс	3		Итого
Вид занятий	УП	РПД	УП	РПД
Лекции	4	4	4	4
Практические	6	6	6	6
Сам. работа	94	94	94	94
Часы на контроль	4	4	4	4
Итого	108	108	108	108

Программу составил(и):
к.с.н., Доцент, Суртаева О.В.

Рецензент(ы):
к.с.н., Доцент, Омельченко Д.А.

Рабочая программа дисциплины
Методы интеллектуального анализа данных в социологических исследованиях

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования - магистратура по направлению подготовки 39.04.01 Социология (приказ Минобрнауки России от 05.02.2018 г. № 79)

составлена на основании учебного плана:
39.04.01 Социология
утвержденного учёным советом вуза от 26.06.2023 протокол № 4.

Рабочая программа одобрена на заседании кафедры
Кафедра социальной и молодежной политики

Протокол от 30.05.2023 г. № 11
Срок действия программы: 20222024 уч. г.

Заведующий кафедрой
Максимова Светлана Геннадьевна

Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2023-2024 учебном году на заседании кафедры

Кафедра социальной и молодежной политики

Протокол от 30.05.2023 г. № 11
Заведующий кафедрой Максимова Светлана Геннадьевна

1. Цели освоения дисциплины

1.1.	формирование представления о типах задач, возникающих в области интеллектуального анализа данных (Data Mining) и методах их решения, которые помогут обучающимся выявлять, формализовать и успешно решать практические задачи анализа данных, возникающие в процессе их профессиональной деятельности.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.О.03

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ОПК-3	Способен прогнозировать социальные явления и процессы, выявлять социально значимые проблемы и вырабатывать пути их решения на основе использования научных теорий, концепций, подходов и социальных технологий
ОПК-3.1	Анализирует проблемы развития социальных явлений и процессов с использованием статистических процедур для обработки социологических данных
ОПК-3.2	Содержательно интерпретирует данные и формулирует выводы и теоретические подходы для анализа и прогнозирования социальных явлений и процессов
ОПК-3.3	Выявляет социально значимые проблемы и предлагает пути их решения на основе социологической теории и социологических методов исследования
ОПК-3.4	Научно обосновывает постановку фундаментальных и прикладных социологических исследований для решения социально значимых проблем
ОПК-3.5	Предлагает описательные, объяснительные и прогнозные модели социальных явлений и процессов на основе социологических теорий
ОПК-3.6	Разрабатывает предложения по совершенствованию социологических концепций описания и объяснения социальных явлений и процессов
ПК-2	Способен разрабатывать и проводить исследования (самостоятельно или в составе проектного коллектива) по диагностике, оценке, оптимизации социальных показателей, процессов и отношений на основе цифровых методов анализа и визуализации данных
ПК-2.1	Знает методы и методику проведения социальных исследований по диагностике, оценке, оптимизации социальных показателей, процессов и отношений на основе цифровых методов анализа и визуализации данных
ПК-2.2	Умеет обрабатывать и анализировать данные по диагностике, оценке, оптимизации социальных показателей, процессов и отношений на основе цифровых методов анализа и визуализации данных
ПК-2.3	Умеет осуществлять исследования по диагностике, оценке, оптимизации социальных показателей, процессов и отношений, оформлять результаты исследования на основе цифровых методов анализа и визуализации данных
В результате освоения дисциплины обучающийся должен
3.1.	Знать:
3.1.1.	ОПК-3.1. Анализирует проблемы развития социальных явлений и процессов с использованием статистических процедур для обработки социологических данных. ОПК-3.2. Содержательно интерпретирует данные и формулирует выводы и теоретические подходы для анализа и прогнозирования социальных явлений и процессов. ПК-2.1. Знает методы и методику проведения социальных исследований по диагностике, оценке, оптимизации социальных показателей, процессов и отношений на основе цифровых методов анализа и визуализации данных.
3.2.	Уметь:
3.2.1.	ОПК-3.3. Выявляет социально значимые проблемы и предлагает пути их решения на основе социологической теории и социологических методов исследования. ОПК-3.4. Научно обосновывает постановку фундаментальных и прикладных социологических исследований для решения социально значимых проблем. ПК-2.2. Умеет обрабатывать и анализировать данные по диагностике, оценке, оптимизации социальных показателей, процессов и отношений на основе цифровых методов анализа и визуализации данных.
3.3.	Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.	ОПК-3.5. Предлагает описательные, объяснительные и прогнозные модели социальных явлений и процессов на основе социологических теорий. ОПК-3.6. Разрабатывает предложения по совершенствованию социологических концепций описания и объяснения социальных явлений и процессов. ПК-2.3. Умеет осуществлять исследования по диагностике, оценке, оптимизации социальных показателей, процессов и отношений, оформлять результаты исследования на основе цифровых методов анализа и визуализации данных.

4. Структура и содержание дисциплины

Код занятия	Наименование разделов и тем	Вид занятия	Курс	Часов	Компетенции	Литература
Раздел 1.
1.1.	Введение в интеллектуальный анализ данных (Data Mining)	Лекции	3	1	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.2.	Data Mining с использованием Orange: знакомство с базовыми операциями	Практические	3	1	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.3.	Предварительная обработка данных: очистка, интеграция и преобразование	Сам. работа	3	2	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.4.	Визуализация данных в Orange	Практические	3	1	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.5.	Обучение с учителем: задача регрессии в Data Mining	Лекции	3	1	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.6.	Решение задачи регрессии с использованием Orange	Практические	3	1	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.7.	Построение модели линейной регрессии в Orange	Сам. работа	3	20	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.8.	Обучение с учителем: задача классификации в Data Mining	Лекции	3	1	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.9.	Решение задачи классификации с использованием Orange	Практические	3	1	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.10.	Построение модели логистической регрессии в Orange	Сам. работа	3	20	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.11.	Обучение без учителя: базовые алгоритмы кластеризации	Лекции	3	1	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.12.	Анализ текстовых данных с использованием Orange	Практические	3	1	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.13.	Построение моделей на основе текстовых данных с использованием Orange	Сам. работа	3	20	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.14.	Анализ изображений с использованием Orange	Практические	3	1	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.15.	Анализ изображений с использованием Orange	Сам. работа	3	20	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2
1.16.	Работа с временными рядами (time series) с использованием Orange	Сам. работа	3	12	ПК-2.1, ПК-2.2, ПК-2.3, ОПК-3.1, ОПК-3.2, ОПК-3.3, ОПК-3.4, ОПК-3.5, ОПК-3.6	Л2.2, Л2.1, Л2.4, Л1.1, Л2.3, Л1.2

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины

Оценочные материалы для текущего контроля по разделам и темам дисциплины в полном объеме размещены в онлайн-курсе на образовательном портале «Цифровой университет АлтГУ» – https://portal.edu.asu.ru/course/view.php?id=8921.

ОЦЕНКА СФОРМИРОВАННОСТИ КОМПЕТЕНЦИИ ОПК-3
Способен прогнозировать социальные явления и процессы, выявлять социально значимые проблемы и вырабатывать пути их решения на основе использования научных теорий, концепций, подходов и социальных технологий

ПРИМЕРЫ ЗАДАНИЙ ЗАКРЫТОГО ТИПА
Вопрос 1. Как называют интеллектуальный анализ данных в англоязычной литературе?
а. Big Mining.
б. Data Mining.
в. Data Learning.
г. Data Scientist.
ОТВЕТ: б

Вопрос 2. Какое из определений НЕ является определением Data Mining?
а. Процесс обнаружения в базах данных нетривиальных и практически полезных закономерностей.
б. Процесс выделения, исследования и моделирования больших объемов данных для обнаружения неизвестных до этого структур (паттернов) с целью достижения преимуществ в какой-либо сфере деятельности.
в. Представление некоторых фактов в формализованном виде, пригодном для хранения, обработки и передачи.
г. Процесс, цель которого – обнаружить новые значимые корреляции, образцы и тенденции в результате просеивания большого объема хранимых данных с использованием методик распознавания образов и других статистических и математических методов.
д. Исследование и обнаружение «машиной» (алгоритмами, средствами искусственного интеллекта) в «сырых» данных скрытых знаний, которые ранее не были известны, нетривиальны, практически полезны, доступны для интерпретации человеком.
е. Процесс обнаружения полезных знаний о какой-либо сфере деятельности.
ОТВЕТ: в

Вопрос 3. Какими свойствами должны обладать знания, извлеченные из данных посредством методов Data Mining?
а. Быть ранее неизвестными, неожиданными.
б. Быть хорошо формализованными.
в. Быть практически полезными.
г. Быть доступными для интерпретации.
д. Быть интуитивно понятными любому человеку.
е. Быть необходимыми для принятия решений в различных сферах человеческой деятельности
ОТВЕТ: авге

Вопрос 4. Концепция Data Mining НЕ предполагает, что…
а. Данные могут быть неточными, неполными, противоречивыми, разнородными, косвенными и при этом иметь большие объемы, поэтому понимание данных требует значительных интеллектуальных усилий.
б. Сами алгоритмы анализа данных могут обладать «элементами интеллекта», в частности способностью обучаться по прецедентам, т.е. делать общие выводы на основе частных наблюдений; разработка таких алгоритмов также требует значительных интеллектуальных усилий.
в. Данные для обработки должны быть исключительно в табличном формате и хорошо формализованы, поэтому такими методами можно обрабатывать лишь небольшую часть накопленных к настоящему моменту архивов данных.
г. Процессы переработки сырых данных в информацию, а информации в знания не могут быть выполнены «вручную» и требуют автоматизации.
ОТВЕТ: в

Вопрос 5. Какие из перечисленных свойств относятся к свойствам Big Data?
а. Visibility (видимость).
б. Variety (многообразие).
в. Veracity (достоверность).
г. Velocity (скорость).
д. Validity (обоснованность).
е. Volume (объем).
ОТВЕТ: бвге

Вопрос 6. Можно ли провести границу между действительно «большими данными» и «просто данными»? И если да, то от какого объёма данные можно называть большими??
а. Такую границу провести можно, большие данные начинаются от 10000 наблюдений в базе данных.
б. Такую границу провести можно, большие данные начинаются от 1000 переменных, содержащихся в базе данных.
в. Такую границу провести можно, большие данные начинаются от 1 ГБ информации, содержащейся в базе данных.
г. Такую границу провести нельзя.
ОТВЕТ: г

Вопрос 7. Какие типовые этапы выделяются в процессе интеллектуального анализа данных?
а. Анализ предметной области, формулировка целей и задач исследования.
б. Просеивание данных.
в. Извлечение и сохранение данных.
г. Предварительная обработка данных.
д. Разработка алгоритма анализа данных.
е. Содержательный анализ данных методами Data Mining (установление общих закономерностей или решение более конкретных, частных задач).
ж. Интерпретация полученных результатов с помощью их представления в удобном формате (визуализация и отбор полезных паттернов, формирование информативных графиков и / или таблиц).
з. Использование новых знаний для принятия решений.
и. Комбинирование данных из различных источников.
ОТВЕТ: авгежз

Вопрос 8. Что такое стандарт CRISP-DM?
а. Некоторый актив, который при умелом применении Data Mining (технологий, методов, способов) позволяет получить (извлечь) практически полезный результат (экономический эффект).
б. Непатентованная, документированная и свободно доступная модель, описывающая основные фазы, выполнение которых позволяет организациям получать максимальную выгоду от использования методов Data Mining.
в. Новая технология организации баз данных – хранилище данных, предполагающее некоторую предварительную обработку данных и их интеграцию, а также онлайновую аналитическую обработку.
г. Технология сравнительного анализа наиболее широко используемых методов Data Mining между собой.
ОТВЕТ: б

Вопрос 9. Какой фазы жизненного цикла проекта Data Mining НЕ существует, согласно стандарту CRISP-DM?
а. Моделирование (modeling).
б. Понимание данных (data understanding).
в. Размещение (deployment).
г. Подготовка данных (data preparation).
д. Согласование данных (data coordination).
е. Оценка (evaluation).
ж. Понимание бизнес-процессов (business understanding).
ОТВЕТ: д

Вопрос 10. Перечислите пять стандартных типов закономерностей, которые позволяют относить используемые методы к методам Data Mining.
а. Классы.
б. Типы.
в. Последовательность.
г. Кластеры.
д. Пространственные ряды.
е. Адаптация.
ж. Временные ряды.
з. Ассоциация.
ОТВЕТ: авгжз

Вопрос 11. В интеллектуальном анализе данных используется:
а. Совместно и индуктивный, и дедуктивный подход.
б. ТОЛЬКО индуктивный подход.
в. ТОЛЬКО дедуктивный подход.
г. Ни индуктивный, ни дедуктивный подход не используется.
ОТВЕТ: а

Вопрос 12. Предварительная обработка данных при решении задач интеллектуального анализа данных НЕ включает в себя:
а. Очистку данных.
б. Извлечение данных.
в. Интеграцию данных.
г. Преобразование данных.
ОТВЕТ: б

Вопрос 13. Если перед нами стоит задача «выявить мошеннические действия при заключении договоров со страховыми компаниями», каким методом для ее решения мы должны воспользоваться?
а. Отбор значимых признаков (Feature Selection, Feature Engineering).
б. Ассоциации, анализ взаимозависимостей (Associations, Link Analysis).
в. Классификация и прогнозирование (Classification and Prediction).
г. Определение и анализ отклонений и / или выбросов в данных (Deviation (Anomaly) Detection, Outlier Analysis).
ОТВЕТ: г

Вопрос 14. Если зависимая переменная количественная (численная), какую задачу машинного обучения необходимо решить?
а. Задачу регрессии.
б. Задачу классификации.
в. Обучение без учителя.
г. Обучение без ученика
ОТВЕТ: а

Вопрос 15. Если зависимая переменная отсутствует, какую задачу машинного обучения необходимо решить?
а. Задачу регрессии.
б. Задачу классификации.
в. Обучение без учителя.
г. Обучение без ученика
ОТВЕТ: в

Вопрос 16. Если зависимая переменная категориальная, какую задачу машинного обучения необходимо решить?
а. Задачу регрессии.
б. Задачу классификации.
в. Обучение без учителя.
г. Обучение без ученика
ОТВЕТ: б

КРИТЕРИИ ОЦЕНИВАНИЯ: Каждое задание оценивается 1 баллом. Оценивание КИМ теоретического характера в целом:
• «зачтено» – верно выполнено более 50% заданий; «не зачтено» – верно выполнено 50% и менее 50% заданий;
• «отлично» – верно выполнено 85-100% заданий; «хорошо» – верно выполнено 70-84% заданий; «удовлетворительно» – верно выполнено 51-69% заданий; «неудовлетворительно» – верно выполнено 50% или менее 50% заданий.

ПРИМЕРЫ ЗАДАНИЙ ОТКРЫТОГО ТИПА
1. ___________ – это представление некоторых фактов в формализованном виде, пригодном для хранения, обработки и передачи.
Ответ: Данные.

2. ___________ – это сведения в любой форме, имеющие некоторый контекст и несущие в себе пользу, т.к. описывают процессы и явления. Позволяет ответить на базовые вопросы: «кто?», «что?», «когда?», «сколько?».
Ответ: Информация.

3. ___________ – это результат фильтрации информации, которая переработана таким образом, что возникает возможность делать выводы. Связанные между собой факты образуют полную картину явления или процесса, с помощью которой можно делать выводы.
Ответ: Знания.

4. Перечислите пять терминов, описывающих область интеллектуального анализа данных, встречающихся в англоязычной литературе.
Ответ: Data Mining; Statistical Analysis and Data Mining; Machine Learning; Deep Learning; Predictive Analytics and Data Mining; Data Science; Data Science and Data Mining; Discovery Driven Data Mining; Knowledge Discovery in Databases.

5. Почему Data Mining считается мультидисциплинарной областью знания?
Ответ: Потому что это объединение компьютерных наук (Computer Science), математики (Mathematics) и представлений о предметной области (Domain Expertise). Компьютерные науки описывают среду создания информационных продуктов (data products), математика выстраивает теоретическую основу для решения поставленных проблем, а представление о предметной области позволяет понять реальность, в которой существует проблемная ситуация.

6. Как называется свойство Big Data, которое показывает существенное разнообразие типов данных (например, структурированные, частично структурированные, неструктурированные данные), источников данных (внутренние, внешние, общественные) и их детальности?
Ответ: Variety (многообразие).

7. Какое свойство Big Data наименее важное и почему?
Ответ: Volume (объем), потому что нет какого-либо обязательного требования к минимальному объему обрабатываемых данных в концепции Big Data.

8. Какие операции выполняются на этапе предварительной обработки данных?
Ответ: Очистка (cleaning), интеграция (integration) и преобразование (transformation).

9. В каком году была начата разработка стандарта CRISP-DM?
Ответ: В 1996 г.

10. Как расшифровывается аббревиатура CRISP-DM?
Ответ: CRoss-Industry Standard Process for Data Mining.

11. Какие задачи включает в себя фаза понимания бизнес-процессов (business understanding) согласно стандарту CRISP-DM?
Ответ: Определение бизнес-целей; определение ситуации; определение целей Data Mining; создание плана проекта.

12. Какие задачи включает в себя фаза понимания данных (data understanding) согласно стандарту CRISP-DM?
Ответ: Первичный сбор данных; описание данных; изучение данных; проверка качества данных.

13. Какие задачи включает в себя фаза подготовки данных (data preparation) согласно стандарту CRISP-DM?
Ответ: Выбор данных; очистка данных; конструирование данных; интеграция данных; форматирование данных.

14. Какие задачи включает в себя фаза моделирования (modeling) согласно стандарту CRISP-DM?
Ответ: Выбор метода моделирования; генерация тестового проекта; создание моделей; оценка моделей.

15. Какие задачи включает в себя фаза оценки (evaluation) согласно стандарту CRISP-DM?
Ответ: Оценка результатов; пересмотр процесса; определение дальнейших действий.

16. Какие задачи включает в себя фаза размещения (deployment) согласно стандарту CRISP-DM?
Ответ: Планирование размещения; планирование наблюдения и сохранения; производство конечных отчетов.

17. Перечислите основные группы задач анализа данных.
Ответ: Классификация и прогнозирование (Classification and Prediction); Кластеризация (Clustering); Ассоциации, анализ взаимозависимостей (Associations, Link Analysis); Визуализация (Visualization); Подведение итогов (Summarization); Определение и анализ отклонений и / или выбросов в данных (Deviation (Anomaly) Detection, Outlier Analysis); Оценивание (Estimation); Отбор значимых признаков (Feature Selection, Feature Engineering).

18. Какие группы методов Data Mining выделяются по математическому аппарату?
Ответ: Метрические методы классификации; Логические методы классификации; Линейные методы классификации; Байесовские методы классификации; Методы регрессионного анализа; Нейросетевые методы классификации и регрессии; Композиционные методы классификации и регрессии; Критерии выбора моделей и методы отбора признаков; Обучение без учителя.

19. Задача _________________ состоит в том, чтобы определить, к какому типу, категории относятся те или иные данные в соответствии с некоторым известным набором атрибутов и массивом соответствующих этим атрибутам данных, причем множество типов или категорий, к одному из которых впоследствии можно отнести исследуемый объект, известно.
Ответ: Классификации.

20. Задача _________________ состоит в том, чтобы определить, к какому типу, категории относятся те или иные данные в соответствии с некоторым известным набором атрибутов и массивом соответствующих этим атрибутам данных, причем множество типов или категорий, к одному из которых впоследствии можно отнести исследуемый объект, заранее не известно.
Ответ: Кластеризации.

21. Задача _________________ состоит в том, чтобы, анализируя ретроспективные данные, построить с некоторой точностью вероятные сценарии будущих событий.
Ответ: Прогнозирования.

22. В чем состоит основная задача машинного обучения?
Ответ: Изучение или установление «функциональной» зависимости между предикторами и ответами.

23. Как называется метод машинного обучения, в котором система (агент) обучается методом проб и ошибок, используя данные из собственного опыта; агент взаимодействует со средой, параллельно обучаясь, и получает вознаграждение за выполнение действий?
Ответ: Обучение с подкреплением.

24. Какие существуют типы данных? Перечислите минимум четыре типа.
Ответ: Табличные данные, текстовые данные, список, граф (социальная сеть), геном, изображения, видео, музыка.

КРИТЕРИИ ОЦЕНИВАНИЯ ОТКРЫТЫХ ВОПРОСОВ.
«Отлично» (зачтено): Ответ полный, развернутый. Вопрос точно и исчерпывающе передан, терминология сохранена, студент превосходно владеет основной и дополнительной литературой, ошибок нет.
«Хорошо» (зачтено): Ответ полный, хотя краток, терминологически правильный, нет существенных недочетов. Студент хорошо владеет пройденным программным материалом; владеет основной литературой, суждения правильны.
«Удовлетворительно» (зачтено): Ответ неполный. В терминологии имеются недостатки. Студент владеет программным материалом, но имеются недочеты. Суждения фрагментарны.
«Неудовлетворительно» (не зачтено): Не использована специальная терминология. Ответ в сущности неверен. Переданы лишь отдельные фрагменты соответствующего материала вопроса. Ответ не соответствует вопросу или вовсе не дан.

ОЦЕНКА СФОРМИРОВАННОСТИ КОМПЕТЕНЦИИ ПК-2
Способен разрабатывать и проводить исследования (самостоятельно или в составе проектного коллектива) по диагностике, оценке, оптимизации социальных показателей, процессов и отношений на основе цифровых методов анализа и визуализации данных

ПРИМЕРЫ ЗАДАНИЙ ЗАКРЫТОГО ТИПА
Вопрос 1. Как называется метод восстановления зависимости одной (объясняемой, зависимой) переменной y от другой или нескольких других переменных (факторов, регрессоров, независимых переменных) x с линейной функцией зависимости?
а. Логистическая регрессия.
б. Линейная регрессия.
в. Ридж-регрессия или гребневая регрессия.
г. Линейная коллинеарность.
д. Многомерные адаптивные регрессионные сплайны
ОТВЕТ: б

Вопрос 2. Какую цель позволяет достичь применение метода линейной регрессии?
а. Позволяет получить совокупность ортогональных (некоррелированных) факторов.
б. Позволяет преобразовать вектор случайных величин с известной ковариационной матрицей в набор новых переменных, ковариация которых является единичной матрицей.
в. Позволяет предсказывать значения зависимой переменной y по значениям независимой переменной x.
г. Позволяет получить корреляционную матрицу факторов.
ОТВЕТ: в

Вопрос 3. Каков диапазон возможных значений коэффициента детерминации (R2)?
а. От -1 до 1.
б. От 0 до 1.
в. От 0 до 10.
г. От 0,5 до 1.
ОТВЕТ: б

Вопрос 4. Какие факторы влияют на качество модели линейной регрессии?
а. Алгоритмизация (algorithmization).
б. Переобучение (overfitting).
в. Мультиколлинеарность (multicollinearity).
г. Перенасыщение (supersaturation).
ОТВЕТ: бв

Вопрос 5. Что из перечисленного относится к способам решения проблемы мультиколлинеарности?
а. Отбеливание данных (data whitening).
б. Рекурсивный (рекуррентный) метод наименьших квадратов (МНК).
в. Тессерактивное итерирование.
г. Добавление в модель дополнительных атрибутов (независимых переменных).
д. Кринж-регрессия.
е. Ридж-регрессия (гребневая регрессия).
ж. Метод побочных эффектов.
з. Удаление из модели части атрибутов (независимых переменных), которые сильно коррелируют между собой.
и. Метод главных компонент.
ОТВЕТ: абези

Вопрос 6. Как называется разновидность множественной регрессии, общее назначение которой состоит в анализе связи между несколькими независимыми переменными (регрессорами или предикторами) и зависимой переменной, измеренной в категориальной шкале?
а. Логистическая регрессия.
б. Линейная регрессия.
в. Ридж-регрессия или гребневая регрессия.
г. Линейная коллинеарность.
д. Многомерные адаптивные регрессионные сплайны
ОТВЕТ: а

Вопрос 7. Какие типы логистической регрессии выделяют?
а. Мультиномиальная логистическая регрессия (multinomial logistic regression).
б. Одинарная логистическая регрессия (unary logistic regression).
в. Бинарная логистическая регрессия (binomial logistic regression).
г. Порядковая регрессия (ordinal regression).
ОТВЕТ: авг

Вопрос 8. Что можно спрогнозировать при помощи применения метода логистической регрессии?
а. Значение числовой зависимой переменной исходя из выборки исходных значений независимых переменных.
б. Значение категориальной зависимой переменной исходя из выборки исходных значений независимых переменных.
в. Количество ложноположительных и ложноотрицательных исходов классификации.
г. Вероятность наступления какого-либо события.
ОТВЕТ: г

Вопрос 9. Какие существуют способы оценки качества модели логистической регрессии (и классификаторов вообще)?
а. Аккуратность (Accuracy).
б. Пунктуальность (Punctuality).
в. Матрица ошибок (Сonfusion matrix).
г. Точность (Precision).
д. F-мера (F-score).
е. Ясность (Clarity).
ж. Полнота (Recall).
з. Измерение площади под ROC-кривой (Area Under Curve — AUC).
и. Измерение площади над ROC-кривой (Area Over Curve — AOC).
ОТВЕТ: авгджз

Вопрос 10. Для чего предназначен показатель площадь под ROC-кривой (Area Under Curve — AUC)?
а. Для сравнительного анализа нескольких моделей.
б. Для оценки чувствительности модели.
в. Для оценки специфичности модели.
г. Для оценки пунктуальности модели.
ОТВЕТ: а

Вопрос 11. Что из перечисленного НЕ относится к алгоритмам препроцессинга текстовых данных?
а. Отбеливание данных (data whitening).
б. Мешок / сумка слов (Bag of Words).
в. Стемминг (Stemming).
г. Блеймсторминг (Blamestorming).
д. Удаление стоп-слов (Stop Words Removal).
е. Овербукинг (Overbooking).
ж. Лемматизация (Lemmatization).
з. Бутстрэппинг (Bootstrapping).
и. Токенизация (Tokenization).
к. Хеджирование (Hedging).
ОТВЕТ: агезк

Вопрос 12. Что такое стоп-слова?
а. Слова, которые останавливают выполнение алгоритма.
б. Слова, которые неправильно написаны (с опечатками, ошибками).
в. Слишком длинные слова.
г. Слова, которые не несут смысловой нагрузки, но могут добавить шум в модель.
ОТВЕТ: г

Вопрос 13. Какой метод машинного обучения позволяет разделить объекты на группы так, чтобы объекты в одной группе были сильно похожи друг на друга, а объекты из разных групп сильно отличались?
а. Классификация.
б. Регрессия.
в. Кластеризация.
г. Уменьшение размерности (обобщение).
д. Ассоциация.
ОТВЕТ: в

Вопрос 14. Что из перечисленного НЕ относится к метрикам похожести объектов внутри кластера (метрикам расстояний)?
а. Косинусное сходство.
б. Тангенсное сходство.
в. Расстояние Хэмминга.
г. Манхэттенское расстояние.
д. Расстояние Чебышёва.
е. Расстояние Стьюдента.
ж. Индекс Ришара.
з. Евклидово расстояние.
и. Расстояние Махаланобиса.
к. Индекс Жаккара.
ОТВЕТ: беж

Вопрос 15. Что из перечисленного НЕ относится к способам вычисления расстояний между кластерами (методам кластеризации)?
а. Метод одиночной связи (Single-linkage).
б. Метод агломеративной связи (Agglomerative-linkage).
в. Метод Гаусса (Gauss-linkage).
г. Метод полной связи (Complete-linkage).
д. Метод Пифагора (Pythagoras-linkage).
е. Метод средней связи (Average-linkage).
ж. Метод иерархической связи (Hierarchical-linkage).
з. Метод Варда (Wards-linkage).
ОТВЕТ: бвдж

Вопрос 16. К преимуществам нейросетевых классификаторов НЕ относится:
а. Возможность использовать в них трудноформализуемые взаимозависимые факторы произвольного распределения в качестве входных данных.
б. Отсутствие необходимости экспертного обучения нейросети.
в. Возможность находить такие закономерности в данных, которые не могут быть учтены никаким другим классификатором.
г. Высокая точность классификации.
ОТВЕТ: б

Вопрос 17. Дерево решений НЕ имеет:
а. Корня.
б. Листьев.
в. Ветвей.
г. Сучьев.
ОТВЕТ: г

Вопрос 18. Куда растет дерево решений?
а. Вверх.
б. Вниз.
в. Вбок.
г. Куда захочет.
ОТВЕТ: б

Вопрос 19. Как называют дерево решений, у которого все узлы имеют по две дуги?
а. Бинарное.
б. Биполярное.
в. Двоехвостое.
г. Для такого дерева нет специального названия.
ОТВЕТ: а

Вопрос 20. Кто ввел в научный оборот термин «регрессия»?
а. Математик К.Ф. Гаусс.
б. Статистик Р. Фишер.
в. Маэстро Е. Понасенков.
г. Антрополог Ф. Гальтон.
ОТВЕТ: г

КРИТЕРИИ ОЦЕНИВАНИЯ: Каждое задание оценивается 1 баллом. Оценивание КИМ теоретического характера в целом:
• «зачтено» – верно выполнено более 50% заданий; «не зачтено» – верно выполнено 50% и менее 50% заданий;
• «отлично» – верно выполнено 85-100% заданий; «хорошо» – верно выполнено 70-84% заданий; «удовлетворительно» – верно выполнено 51-69% заданий; «неудовлетворительно» – верно выполнено 50% или менее 50% заданий.

ПРИМЕРЫ ЗАДАНИЙ ОТКРЫТОГО ТИПА
1. Какой из способов представления данных наиболее простой и удобный для работы аналитика данных?
Ответ: Табличные данные (ABT, analytical base table).

2. Перед вами уравнение линейной регрессии: У=С0+С1Х1+С2Х2+…+СкХк. Как называются переменные и коэффициенты в этом уравнении?
Ответ: У – зависимая (объясняемая) переменная; Х1 – Хк – независимые переменные (предикторы, факторы, регрессоры); С1 – Ск – коэффициенты при переменных (Slope); С0 – свободный коэффициент (Intercept).

3. Какова суть свободного коэффициента (Intercept) в уравнении регрессии?
Ответ: Это то, чему равна зависимая переменная, если независимые переменные (предикторы) равны нулю.

4. Какова суть коэффициентов при переменных (Slope) в уравнении регрессии?
Ответ: Они показывают оценку вклада каждой независимой переменной в итоговое значение зависимой переменной. Они показывают, насколько изменяется зависимая переменная при изменении каждого предиктора.

5. Назовите наиболее распространённую статистику для оценки качества модели линейной регрессии.
Ответ: Коэффициент детерминации (R2).

6. Назовите статистику для оценки качества модели линейной регрессии, представляющую собой версию R2, позволяющую корректно сравнивать качество моделей с разным количеством факторов.
Ответ: Скорректированный коэффициент детерминации (Adj R2).

7. Как называется ситуация, когда отрицательное наблюдение распознано моделью как положительное?
Ответ: Ошибка I рода, или ложноположительный исход классификации.

8. Как называется ситуация, когда положительное наблюдение распознано моделью как отрицательное?
Ответ: Ошибка II рода, или ложноотрицательный исход классификации.

9. Как называется доля правильных ответов модели в пределах класса — доля объектов действительно принадлежащих данному классу относительно всех объектов, которые система отнесла к этому классу?
Ответ: Точность (Precision).

10. Как называется доля истинно положительных классификаций, показывающая, какая доля объектов, реально относящихся к положительному классу, предсказана верно?
Ответ: Полнота (Recall).

11. Как называется показатель качества классификатора, рассчитываемый как гармоническое среднее между точностью и полнотой?
Ответ: F-мера (F-score).

12. Если при оценке качества классификатора при помощи измерения площади под кривой (Area Under Curve — AUC) вы получили значение равное 0,5, что это говорит о вашем классификаторе?
Ответ: Это чисто случайный классификатор, качество модели неудовлетворительное.

13. Что такое N-грамма (N-gram)?
Ответ: Последовательность слов из N-знаков.

14. Как называется статистическая мера для оценки важности слова в документе, который является частью корпуса?
Ответ: TF-IDF (term frequency — inverse document frequency).

15. Что такое токенизация (Tokenization)?
Ответ: Это процесс разбиения текста на предложения и слова. Это процесс «разрезания» текста на части, называемые токенами, и в то же время отбрасывания определенных символов, например, знаков препинания.

16. Как называется «грубый» эвристический процесс, который отрезает «лишнее» от корня слов, но часто это приводит к потере словообразовательных аффиксов?
Ответ: Стемминг (Stemming).

17. Как называется процесс, который использует словарь и морфологический анализ, чтобы в итоге привести слово к его канонической словарной форме?
Ответ: Лемматизация (Lemmatization).

18. Как называется класс методов контент-анализа в компьютерной лингвистике, предназначенный для автоматизированного выявления в текстах эмоционально окрашенной лексики и эмоциональной оценки авторов (мнений) по отношению к объектам, речь о которых идёт в тексте?
Ответ: Анализ тональности текста (сентимент-анализ, Sentiment analysis).

19. Как называется совокупность алгоритмов упорядочивания данных, направленных на создание иерархии (дерева) вложенных кластеров?
Ответ: Иерархическая кластеризация (графовые алгоритмы кластеризации).

20. В каком году алгоритм классификации изображений, созданный в рамках проекта ILSVRC (ImageNet Large Scale Visual Recognition Challenge), в некоторых задачах превзошел человека по качеству классификации?
Ответ: В 2015 г.

21. Какой метод используется для классификации признаков с неизвестными параметрами распределения или с распределением, отличающимся от нормального?
Ответ: Метод k-го ближайшего соседа (kNN).

22. Как провести финальную оценку качества лучшей модели?
Ответ: 1. Разбить исходный массив данных на тестовую и тренировочную подвыборки. 2. На тренировочной подвыборке обучить несколько моделей и оценить их при помощи процедур Random sampling или Cross-validation. 3. После того, как выбрали лучшую модель, ее качество оценить на тестовой подвыборке.

КРИТЕРИИ ОЦЕНИВАНИЯ ОТКРЫТЫХ ВОПРОСОВ.
«Отлично» (зачтено): Ответ полный, развернутый. Вопрос точно и исчерпывающе передан, терминология сохранена, студент превосходно владеет основной и дополнительной литературой, ошибок нет.
«Хорошо» (зачтено): Ответ полный, хотя краток, терминологически правильный, нет существенных недочетов. Студент хорошо владеет пройденным программным материалом; владеет основной литературой, суждения правильны.
«Удовлетворительно» (зачтено): Ответ неполный. В терминологии имеются недостатки. Студент владеет программным материалом, но имеются недочеты. Суждения фрагментарны.
«Неудовлетворительно» (не зачтено): Не использована специальная терминология. Ответ в сущности неверен. Переданы лишь отдельные фрагменты соответствующего материала вопроса. Ответ не соответствует вопросу или вовсе не дан.

5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)

Не предусмотрено.

5.3. Фонд оценочных средств для проведения промежуточной аттестации

Промежуточная аттестация заключается в проведении в конце семестра зачета с оценкой (дифференцированного зачета) для обучающихся, не получивших зачет по результатам текущей успеваемости по всему изученному курсу. Зачет проводится в устной форме по билетам. В билет входит 2 вопроса: 1 вопрос теоретического характера и 1 вопрос практико-ориентированного характера.

ВОПРОСЫ ТЕОРЕТИЧЕСКОГО ХАРАКТЕРА
1. Актуальность проблемы работы с большими массивами данных. Использование хранилищ данных для накопления больших данных и последующего их анализа.
2. Классификация задач анализа данных.
3. Понятие интеллектуального анализа данных (Data Mining – «добыча данных»). Свойства обнаруживаемых знаний.
4. Виды задач Data Mining (задача классификации и регрессии, задача поиска ассоциативных правил, задача кластеризации).
5. Предсказательные модели и описательные модели.
6. «Обучение с учителем» и «Обучение без учителя».
7. Нейронные сети.
8. Постановка задачи классификации, этапы решения задач классификации, представление результатов.
9. Правила классификации, деревья решений, математические функции и методы их построения.
10. Прогнозирование временных рядов.
11. Постановка задачи регрессии, этапы решения задач регрессии, представление результатов.
12. Постановка задачи кластеризации. Кластеризация vs классификация.
13. Понятие кластера. Меры близости.
14. Кластерный анализ. Представление результатов.
15. Базовые алгоритмы кластеризации.
16. Самоорганизующиеся карты Кохонена.
17. Основные этапы интеллектуального анализа данных.
18. Подготовка исходных данных (препроцессинг).
19. Очистка и трансформация данных: редактирование выбросов, спектральная обработка, «скользящее окно» и др.
20. Построение, проверка и интерпретация моделей.
21. Рынок инструментов Data Mining. Классификация инструментов Data Mining.
22. Программное обеспечение для решения задач классификации, кластеризации, поиска ассоциативных правил.
23. Программное обеспечение для решения задач прогнозирования.
24. Области применения Data Mining: интернет-технологии, торговля, телекоммуникации, промышленное и сельскохозяйственное производство, медицина, банковское дело, страховое дело и др.
25. Применение Data Mining для решения профессиональных задач и научных исследований.
26. Основные области применения инфографики. История инфографики: ранний период, тёмные века, новейшая история.
27. Плотность данных. Показатели качества визуализации.
28. Основные уровни визуализации: аналитическая визуализация, коммуникативная визуализация, созидательная визуализация.
29. Классификация методов визуализации. Методы представления данных: табличные и графические.
30. Таблицы: правила оформления наглядных таблиц.
31. Графические методы: графики; диаграммы сравнения; диаграммы визуализации процесса; иллюстрации и картинки; деревья и структурные диаграммы; карты и картограммы.
32. Типы сравнения данных: покомпонентное, позиционное, временное, корреляционное и частотное.

ВОПРОСЫ ПРАКТИКО-ОРИЕНТИРОВАННОГО ХАРАКТЕРА
1. Классифицировать заемщиков путем построения дерева решений и оценить их кредитоспособность. Исходные данные представлены в файле «Кредитование» (предоставляется преподавателем).
2. Выполнить кластеризацию кредитных организаций путем построения самоорганизующейся карты Кохонена. Исходные данные представлены в файле «Организации» (предоставляется преподавателем).
3. Выполнить прогнозирование объема производства продукции на два года вперед с помощью линейной регрессии. Исходные данные представлены в файле «Производство» (предоставляется преподавателем).

КРИТЕРИИ ОЦЕНИВАНИЯ:
«Отлично» (зачтено): студентом дан полный, в логической последовательности развернутый ответ на поставленные вопросы, где он продемонстрировал знания предмета в полном объеме учебной программы, достаточно глубоко осмысливает дисциплину, самостоятельно, и исчерпывающе отвечает на дополнительные вопросы, приводит собственные примеры по проблематике поставленного вопроса, решил предложенные практические задания без ошибок.
«Хорошо» (зачтено): студентом дан развернутый ответ на поставленный вопрос, где студент демонстрирует знания, приобретенные на лекционных и семинарских занятиях, а также полученные посредством изучения обязательных учебных материалов по курсу, дает аргументированные ответы, приводит примеры, в ответе присутствует свободное владение монологической речью, логичность и последовательность ответа. Однако допускаются неточности в ответе. Решил предложенные практические задания с небольшими неточностями.
«Удовлетворительно» (зачтено): студентом дан ответ, свидетельствующий в основном о знании процессов изучаемой дисциплины, отличающийся недостаточной глубиной и полнотой раскрытия темы, знанием основных вопросов теории, слабо сформированными навыками анализа явлений, процессов, недостаточным умением давать аргументированные ответы и приводить примеры, недостаточно свободным владением монологической речью, логичностью и последовательностью ответа. Допускается несколько ошибок в содержании ответа и решении практических заданий.
«Неудовлетворительно» (не зачтено): студентом дан ответ, который содержит ряд серьезных неточностей, обнаруживающий незнание процессов изучаемой предметной области, отличающийся неглубоким раскрытием темы, незнанием основных вопросов теории, неумением давать аргументированные ответы. Выводы поверхностны. Решение практических заданий не выполнено. Студент не способен ответить на вопросы даже при дополнительных наводящих вопросах преподавателя.

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
	Авторы	Заглавие	Издательство, год	Эл. адрес
Л1.1	Головина Е.Ю.	Интеллектуальные методы для создания систем поддержки принятия решений: Учеб. пособие	М.: Издательский дом МЭИ, // ЭБС «Лань», 2011	e.lanbook.com
Л1.2	Гасанов, Э. Э.	Интеллектуальные системы. Теория хранения и поиска информации : учебник для бакалавриата и магистратуры	Юрайт, 2019	www.biblio-online.ru/book/35674954-F426-48AD-BCFA-AE66941B0251
6.1.2. Дополнительная литература
	Авторы	Заглавие	Издательство, год	Эл. адрес
Л2.1	Бессмертный И.А., Нугуманова А.Б., Платонов А.В.	Интеллектуальные системы: Учебник и практикум для академического бакалавриата	Юрайт, 2018 // ЭБС "Юрайт"	urait.ru
Л2.2	Гаврилова Т.А., Хорошевский В.Ф.	Базы знаний интеллектуальных систем: Учеб.пособие	СПб.: Питер, 2010	bookfi.net
Л2.3	Нестеров, С. А.	Интеллектуальный анализ данных средствами MS SQLServer 2008:	Национальный Открытый Университет «ИНТУИТ», 2016	biblioclub.ru
Л2.4	Матвеев М. Г. , Свиридов А. С. , Алейникова Н. А.	Модели и методы искусственного интеллекта. Применение в экономике: учебное пособие	Финансы и статистика, 2011	biblioclub.ru
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
	Название		Эл. адрес
Э1	Курс "Методы интеллектуального анализа данных в социологических исследованиях"		portal.edu.asu.ru
Э2	IMLS – The International Machine Learning Society		www.machinelearning.org
Э3	KDD Nuggets – Data Mining Community Top Resource		www.kdnuggets.com
Э4	Open ML – Machine Learning community portal		www.openml.org
6.3. Перечень программного обеспечения
Microsoft Office 2010 (Office 2010 Professional, № 4065231 от 08.12.2010), (бессрочно); Microsoft Windows 7 (Windows 7 Professional, № 61834699 от 22.04.2013), (бессрочно); Chrome (http://www.chromium.org/chromium-os/licenses ), (бессрочно); 7-Zip (http://www.7-zip.org/license.txt ), (бессрочно); AcrobatReader (http://wwwimages.adobe.com/content/dam/Adobe/en/legal/servicetou/Acrobat_com_Additional_TOU-en_US-20140618_1200.pdf), (бессрочно); ASTRA LINUX SPECIAL EDITION (https://astralinux.ru/products/astra-linux-special-edition/), (бессрочно); LibreOffice (https://ru.libreoffice.org/), (бессрочно); Веб-браузер Chromium (https://www.chromium.org/Home/), (бессрочно); Антивирус Касперский (https://www.kaspersky.ru/), (до 23 июня 2024); Архиватор Ark (https://apps.kde.org/ark/), (бессрочно); Okular (https://okular.kde.org/ru/download/), (бессрочно); Редактор изображений Gimp (https://www.gimp.org/), (бессрочно) Orange Data Mining (https://orangedatamining.com/)
6.4. Перечень информационных справочных систем
https://www.kaggle.com/ наборы данных, платформа для соревнований по анализу данных https://datasciencelabs.github.io/ http://archive.ics.uci.edu/ml/datasets.php UCI Machine Learning Repository – Репозиторий данных http://www.olap.ru Stanford Large Network Dataset Collection - https://snap.stanford.edu/data/ Pajek datasets - http://vlado.fmf.uni-lj.si/pub/networks/data/ UC Irvine Network Data Repository - http://networkdata.ics.uci.edu/index.html The Center for Complex Network Research (CCNR) - https://www.barabasilab.com/ https://ods.ai/ Открытые данные Федеральной службы государственной статистики https://rosstat.gov.ru/opendata/ Открытые даннные Министерства Цифровизации РФ https://data.gov.ru/ https://datavizcatalogue.com/index.html каталог способов визуализации данных

7. Материально-техническое обеспечение дисциплины

Аудитория	Назначение	Оборудование
Учебная аудитория	для проведения занятий лекционного типа, занятий семинарского типа (лабораторных и(или) практических), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проектирования (выполнения курсовых работ), проведения практик	Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
Помещение для самостоятельной работы	помещение для самостоятельной работы обучающихся	Компьютеры, ноутбуки с подключением к информационно-телекоммуникационной сети «Интернет», доступом в электронную информационно-образовательную среду АлтГУ
511Д	лаборатория математического обеспечения социально-психологических исследований - учебная аудитория для проведения занятий лекционного типа; занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации	Учебная мебель на 20 посадочных мест; рабочее место преподавателя; доска меловая 1 шт.; компьютеры: 10 единиц; мониторы: 10 единиц.

8. Методические указания для обучающихся по освоению дисциплины

Основными методами изучения дисциплины являются лекции, практические занятия, консультации, а также самостоятельная работа обучающихся с учебной и методической литературой.
Обучающиеся знакомятся с учебным материалом на лекциях. На лекциях излагается теоретический материал, который позволяет получить общее представление о дисциплине и понять наиболее сложные разделы дисциплины. Лекции сопровождаются показом презентаций, содержащих иллюстрации к излагаемому материалу и основные понятия, определения, правила и т.д. изучаемой дисциплины. Обучающийся получает презентации в электронном виде для дальнейшего самостоятельного изучения материала.
Помимо изучения теоретического материала обучающиеся выполняют на практических занятиях лабораторные работы. Выполняя лабораторные работы, обучающийся применяет полученные теоретические знания и овладевает навыками интеллектуального анализа данных. Задания согласуются с предваряющим их теоретическим материалом.