МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Информационные технологии сравнительного анализа статистических данных

рабочая программа дисциплины
Закреплена за кафедройКафедра математического анализа
Направление подготовки02.04.01. Математика и компьютерные науки
ПрофильВычислительные методы в анализе и геометрии
Форма обученияОчная
Общая трудоемкость5 ЗЕТ
Учебный план02_04_01_Математика и компьютерные науки_ВМАиГ-2023
Часов по учебному плану 180
в том числе:
аудиторные занятия 54
самостоятельная работа 99
контроль 27
Виды контроля по семестрам
экзамены: 3

Распределение часов по семестрам

Курс (семестр) 2 (3) Итого
Недель 15
Вид занятий УПРПДУПРПД
Лекции 20 20 20 20
Практические 34 34 34 34
Сам. работа 99 99 99 99
Часы на контроль 27 27 27 27
Итого 180 180 180 180

Программу составил(и):
к.ф.-м.н., Доцент, Дронов С.В.

Рецензент(ы):
к.ф.-м.н., Доцент, Пономарёв И.В.

Рабочая программа дисциплины
Информационные технологии сравнительного анализа статистических данных

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования - магистратура по направлению подготовки 02.04.01 Математика и компьютерные науки (приказ Минобрнауки России от 23.08.2017 г. № 810)

составлена на основании учебного плана:
02.04.01 Математика и компьютерные науки
утвержденного учёным советом вуза от 26.06.2023 протокол № 4.

Рабочая программа одобрена на заседании кафедры
Кафедра математического анализа

Протокол от 29.06.2022 г. № 6
Срок действия программы: 2021-2023 уч. г.

Заведующий кафедрой
Саженков А.Н, к.ф. - м.н., доцент


Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2023-2024 учебном году на заседании кафедры

Кафедра математического анализа

Протокол от 29.06.2022 г. № 6
Заведующий кафедрой Саженков А.Н, к.ф. - м.н., доцент


1. Цели освоения дисциплины

1.1.Курс "Информационные технологии сравнительного анализа статистических данных" имеет в основном практическую направленность. Целью его изучения является систематизация и активация знаний, полученных студентами в рамках изучения различных предметов и дисциплин, связанных с обработкой данных практических наблюдений.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.О.03

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ПК-1 Способен демонстрировать базовые знания математических и естественных наук при решении фундаментальных и прикладных задач в области геометрии и прикладного анализа
ПК-3 Способен представлять и адаптировать математические знания и информационные технологий для решения собственных задач в области прикладного анализа и геометрии
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.Разнообразные методы и приемы первоначальной обработки "сырых" статистических данных, включая их нечисловые и бинарные варианты;
Способы исключения грубых ошибок наблюдения;
Методы группировки многомерных данных и их визуализации;
Приемы предварительной, а затем и количественной оценки степени связи показателей различных типов;
Подходы к организации классификации многомерных данных и построения дискриминирующих функций;
Понятие информационной и прогностической силы показателя и способы их сортировки и/или исключения:
Виды и формы статистически обоснованных заключений о характере представленных данных и возможных методах их обработки.
3.2.Уметь:
3.2.1.Производить быстрый прикидочный анализ и осмотр структуры имеющихся данных;
Цензурировать данные, включая несложные многомерные случаи;
Производить группировку визуализацию данных, производя параллельно сокращение их размерности, если это необходимо;
Строить статистически обоснованные классификации данных различными методами и предлагать дискриминационные процедуры вплоть до их существенно нелинейной формы;
Обосновывать предложенные подходы и писать несложные компьютерные программы для их реализации.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.Работы с объемными многомерными статистическими данными.
Решения задач цензурирования и сокращения размерности;
Перевода нечисловых категорированных данных в числовую форму (включая бинарный случай);
Изучения силы и вида связей как числовых, так и категорированных показателей. Изучения и обработки четырехпольных таблиц и общих таблиц сопаряженности;
Проверки разного рода предположений о структуре изучаемых статистических данных.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Общие принципы работы с данными
1.1. Данные и их виды. Размерность. Способы перевода одного из видов данных в другой. Лекции 3 6 ПК-3 Л1.1, Л2.1
1.2. Приемы сокращения размерностей и визуализации данных Лекции 3 6 ПК-3 Л1.1
1.3. Квантификация и задачи информационной ценности классов Сам. работа 3 10 ПК-3 Л1.1
1.4. иды наиболее часто встречающихся практических задач обработки данных и подходы к их решению Лекции 3 8 ПК-3 Л1.1, Л2.1
1.5. Алгоритмы некоторых статистических методик, комбинаторные алгоритмы Сам. работа 3 10 ПК-3 Л2.1
Раздел 2. Работа с "сырыми" данными
2.1. Цензурирование данных Практические 3 4 ПК-3 Л1.1
2.2. Построение латентных классов и обработка нечетких категорий. Алгоритм Ростовцева Сам. работа 3 10 ПК-3 Л1.1, Л2.1
2.3. Визуализация. Поля корреляции, ЭЛР, коэффициент Пирсона Практические 3 4 ПК-3 Л1.1
2.4. Деревья зависимостей и корреляционные плеяды Сам. работа 3 10 ПК-3 Л1.1, Л2.1
2.5. Четырехпольные и шестипольные таблицы. Методы их обработки Практические 3 2 ПК-3 Л1.1
2.6. Применение таблиц сопряженности для обработки генетической информации. Критерий Ханделя - Манзеля. Сам. работа 3 11 ПК-3 Л1.1, Л2.1
2.7. Нечисловые данные. Анализ соответствий Практические 3 8 ПК-3 Л1.1
2.8. Применение множественного анализа соответствий к задачам квантификации Сам. работа 3 12 ПК-3 Л1.1
2.9. Классические задачи кластерного анализа Практические 3 4 ПК-3 Л1.1
2.10. Коэффициенты корреляции для нечисловых данных Сам. работа 3 12 ПК-3 Л1.1
Раздел 3. Проверка предположений о структуре данных
3.1. Полная или частичная однородность данных Практические 3 2 ПК-3 Л1.1
3.2. Гипотеза о виде распределения Практические 3 4 ПК-3 Л1.1, Л2.1
3.3. Множественная регрессия с ограничениями Практические 3 2 ПК-3 Л1.1
3.4. Задачи нелинейной регресии Сам. работа 3 12 Л2.1
3.5. Дисперсионный анализ и post-hoc задача кластерного анализа Практические 3 2 ПК-3 Л1.1
3.6. Предположения ДА. Дисперсионный анализ, свободный от вида распределения (ранговый анализ) Сам. работа 3 12 ПК-3 Л1.1, Л2.1
3.7. Метод главных компонент и дискриминантный анализ Практические 3 2 ПК-3 Л1.1

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
Поскольку курс является обобщающим, практическим, то контрольтеоретических знаний ограничен одним тестированием.
1. Задача проверки статистических гипотез может быть поставлена с целью:
a. Верификации некоторого предположения о явлении, наделенном чертами случайности;
b. Подтверждения утверждения синоптика о том, что 10 мая будет хорошая погода;
c. Выяснения последствий принятого управленческого решения;
d. Обеспечения работой сотрудников института статистических исследований.
(правильный ответ a)
2. Статистический критерий – это
a. Коллектив критически настроенных экспертов;
b. Эталонный образец правильности высказываемого предположения;
c. Способ представления отчетности по результатам статистического исследования;
d. Правило, указывающее, какую из высказанных гипотез следует принять по результатам наблюдений.
(правильный ответ d)
3. Главное при построении наилучшего критерия
a. Простота исполнения требуемых им действий;
b. Интуитивная прозрачность результатов его применения;
c. Минимизация вероятностей все возможных ошибок одновременно;
d. Его максимальная мощность.
(правильный ответ d)
4. Критическое множество статистического критерия – это
a. Совокупность всех аргументов против использования этого критерия;
b. Набор всех выборок, на которых он принимает альтернативную гипотезу;
c. Множество тех границ, превышение которых приводит к отвержению основной гипотезы;
d. Ресурсный запас, показывающий, какое количество раз еще допустимо применение этого критерия.
(правильный ответ b)
5. Критерием согласия называют
a. Способ выработки единого мнения экспертов;
b. Проверку значимости отличий наблюдаемой картины от идеальной;
c. Алгоритм проверки гипотезы об отсутствии существенных различий наборов данных;
d. Универсальную методику проверки гипотез, принятую на Всемирном конгрессе математиков в 1924 году.
(правильный ответ b) 

6. Критерий хи-квадрат был предложен
a. Р. Фишером;
b. Дж. Нейманом;
c. К. Пирсоном;
d. Э. Пирсоном.
(правильный ответ c)
7. Классический вариант критерия хи-квадрат был ориентирован на проверку
a. Гипотезы нормальности выборки;
b. Гипотезы о виде распределения;
c. Гипотезы независимости связанных выборок;
d. Гипотезы однородности двух или нескольких рядов числовых данных.
(правильный ответ b)
8. Простой гипотезой является
a. Та, которую несложно проверить;
b. Наиболее понятная из высказанных гипотез;
c. Та, которой удовлетворяет лишь одно распределение;
d. Гипотеза, формулировка которой укладывается не более, чем в десять слов.
(правильный ответ c)
9. Рандомизация критерия заключается в
a. Принятии решения случайным образом на границе критического множества;
b. Выборе решающего правила из списка возможных путем использования таблицы случайных чисел;
c. Добавлении недостающих для принятия решения данных путем их случайного выбора из генеральной совокупности;
d. Отказе от использования сомнительных данных и исключении их с использованием далее функции RANDOM в электронных таблицах для их замещения.
(правильный ответ a)
10. Статистическая связь обязательно характеризуется
a. Наличием точных и понятных закономерностей;
b. Немедленным изменением одной из связанных величин при изменении другой;
c. Изменением распределения одной из величин при изменении другой;
d. Отсутствием каких-либо функциональных связей между изучаемыми величинами.
(правильный ответ c)
11. Правильное присвоение числовых меток значениям нечислового показателя позволяет
a. Сократить объемы хранимой информации;
b. Оценить различия между категориями показателя;
c. Применить к нечисловым данным методы непараметрической статистики;
d. Удачно отчитаться перед вышестоящими органами по сбору статистических данных.
(правильный ответ b)


12. Четырехпольные таблицы
a. Содержат информацию о четырех видах сельскохозяйственных культур;
b. Применяются для задания совместного распределения двух бинарных показателей;
c. Дают наглядное представление о взаимодействии четырех изучаемых показателей;
d. Позволяют в числовом виде представить информацию о поле корреляции изучаемых показателей.
(правильный ответ b)
13. Маркером наличия статистической связи между нечисловыми категорированными показателями НЕ является
a. Возможность задать совместное распределение этих показателей с помощью таблицы сопряженности;
b. Возможность с достаточной точностью предсказать категорию одного из них по заданной категории другого;
c. Близкий к диагональному вид таблицы сопряженности показателей;
d. Наличие в каждой строке или каждом столбце таблицы сопряженности доминирующей группы близких категорий.
(правильный ответ a)
14. Черно-белые алгоритмы обработки связанных выборок позволяют
a. Изучать нечисловые показатели и оцифровывать их;
b. Изображать данные эксперимента с помощью черно-белого рисунка;
c. Выявлять наличие и характер связи между показателями;
d. Задать границы категорий, наилучшим образом проявляющие связь показателей.
(правильный ответ d).
5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрены
5.3. Фонд оценочных средств для проведения промежуточной аттестации
Прелставлен файлом с текстами задач по темам курса для самостоятельного решения. Файл расположен в локальной сети университета по адресу P:\\courses\DronovSV

Курс представлен также в виде ЭУКД в системе Moodle, где уже предусмотрены контрольные вопросы по каждой из тем
Приложения

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Дронов С.В. Методы и задачи многомерной статистики: учебник АлтГУ, 2015 elibrary.asu.ru
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 Дронов С.В. Математическая статистика: АлтГУ, 2016 elibrary.asu.ru
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
6.3. Перечень программного обеспечения
Офисные программы: MS Word, MS Excel или подобные им.
Пакет статистической обработки данных класса IBM SPSS - для самоконтроля
Программы для анализа соответствий и поиска главных компонент - собственной разработки,
Свидетельство о регистрации программы для ЭВМ № 2015612979 от 27 февраля 2015 г (авторы - Дронов С.В. и Сазонова А.С.)Microsoft Office 2010 (Office 2010 Professional, № 4065231 от 08.12.2010), (бессрочно);
Microsoft Windows 7 (Windows 7 Professional, № 61834699 от 22.04.2013), (бессрочно);
Chrome (http://www.chromium.org/chromium-os/licenses), (бессрочно); 7-Zip (http://www.7-zip.org/license.txt), (бессрочно);
AcrobatReader (http://wwwimages.adobe.com/content/dam/Adobe/en/legal/servicetou/Acrobat_com_Additional_TOU-en_US-20140618_1200.pdf), (бессрочно);
ASTRA LINUX SPECIAL EDITION (https://astralinux.ru/products/astra-linux-special-edition/), (бессрочно);
LibreOffice (https://ru.libreoffice.org/), (бессрочно);
Веб-браузер Chromium (https://www.chromium.org/Home/), (бессрочно);
Антивирус Касперский (https://www.kaspersky.ru/), (до 23 июня 2024);
Архиватор Ark (https://apps.kde.org/ark/), (бессрочно);
Okular (https://okular.kde.org/ru/download/), (бессрочно);
Редактор изображений Gimp (https://www.gimp.org/), (бессрочно)
6.4. Перечень информационных справочных систем
Не нужны

7. Материально-техническое обеспечение дисциплины

Аудитория
Специализированный компьютерный класс с необходимым программным обеспечением

8. Методические указания для обучающихся по освоению дисциплины

Данный курс представляет собой систематизацию, обобщение знаний, полученных в рамках предыдущих курсов по обработке статистических данных. Поэтому лекционный материал содержит исключительно напоминание некоторых моментов, а от обучающегося ожидается прежде всего самостоятельная практическая работа.

В файле 445 - информационные технологии.doc, содержащемся в компьтерной сети университета на диске P в папке courses\DronovSV, содержатся задачи для решения.Сформулированные задачи решаются в компьютерном классе в течение всего периода освоения курса (учебный семестр).

В этом же файле содержатся небольшие подсказки теоретических моментов, нужных для решения задач по соответствующей теме. Полную теорию можно посмотреть в основном учебнике курса, который в электронном виде содержится в той же папке.

Этот же курс имеется полностью в подробном виде в системе Moodle.

После окончания основной части курса студент получает одну из решавшихся на практике задач. Для получения зачета он должен представить компьютерную программу, написанную на любом из языков программирования, решающую эту задачу. При этом программа должна давать ответ на все вопросы задачи в автоматическом режиме при вводе в нее любых исходных данных в том же формате, в каком были предложены данные в исходной задаче. Объем массивов информации при этом, по возможности, должен быть произвольным, не обязательно совпадающим с данными задачи.

Впрочем, все детали конкретного зачетного задания обсуждаются после его получения с преподавателем в индивидуальном порядке.

Удачи и успехов в освоении курса!