МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Компьютерная лингвистика и анализ текста
рабочая программа дисциплины

Закреплена за кафедройКафедра теоретической кибернетики и прикладной математики
Направление подготовки01.04.02. Прикладная математика и информатика
ПрофильБиокибернетика, биоинформатика и программная инженерия. ФГОС 3++
Форма обученияОчная
Общая трудоемкость2 ЗЕТ
Учебный план01_04_02_ББиПИ-1-2020-1
Часов по учебному плану 72
в том числе:
аудиторные занятия 18
самостоятельная работа 54
Виды контроля по семестрам
зачеты: 3

Распределение часов по семестрам

Курс (семестр) 2 (3) Итого
Недель 19
Вид занятий УПРПДУПРПД
Практические 18 18 18 18
Сам. работа 54 54 54 54
Итого 72 72 72 72

Программу составил(и):
Препод., Кротова О.С.

Рецензент(ы):
к.ф.-м.н., Доцент, Пономарев И.В.

Рабочая программа дисциплины
Компьютерная лингвистика и анализ текста

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования по направлению подготовки 01.04.02 Прикладная математика и информатика (уровень магистратуры) (приказ Минобрнауки России от 10.01.2018г. №13)

составлена на основании учебного плана:
01.04.02 Прикладная математика и информатика
утвержденного учёным советом вуза от 30.06.2020 протокол № 6.

Рабочая программа одобрена на заседании кафедры
Кафедра теоретической кибернетики и прикладной математики

Протокол от 30.06.2020 г. № 6
Срок действия программы: 2020-2021 уч. г.

Заведующий кафедрой
к.т.н., доцент Хворова Л.А.

Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2020-2021 учебном году на заседании кафедры

Кафедра теоретической кибернетики и прикладной математики

Протокол от 30.06.2020 г. № 6
Заведующий кафедрой к.т.н., доцент Хворова Л.А.

1. Цели освоения дисциплины

1.1.Целью освоения дисциплины является освоение методов и подходов компьютерной лингвистики и анализа текстовых данных.
Компьютерная лингвистика и анализ текстовых данных востребованное направление в IT. Популярные в современном мире машинные переводчики, чат-боты, системы «вопрос-ответ» и другое прикладное ПО строятся на методах и подходах анализа естественного языка. В процессе освоения дисциплины обучающиеся преобретут все небходимы навыки и умения разработки прикладного ПО для обработки естественного языка.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.О.01.03

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.Методы и подходы компьютерного анализа и обработки естественного языка.
3.2.Уметь:
3.2.1.Строить автоматизированные системы анализа и обработки естественного языка.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.Навыками компьютерной лингвистики и анализа текстов, необходимыми для разработки современного программного обеспечения.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Введение в компьютерную лингвистику
1.1. Основные понятия компьютерной лингвистики. Лингвистические данные. Сложности обработки и анализа естественного языка Практические 3 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
1.2. Инструменты для анализа текста. Модули и библиотеки для NLP Практические 3 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
Раздел 2. Корпусная лингвистика
2.1. Создание и применение корпусов текста Практические 3 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
2.2. Доступ к данным с помощью NLTK: применение инструментов чтения и структурирования корпусов текстов Сам. работа 3 9 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
2.3. Обработка и преобразования корпуса текста: сегментация, лексемизация, промежуточный анализ корпуса Практические 3 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
2.4. Лемматизация, векторизация, семантический анализ текстов. Распознавание именованных сущностей и извлечение отношений Практические 3 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
2.5. Предварительная обработка и преобразование корпуса Сам. работа 3 9 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
2.6. Векторизация и преобразование с помощью NLTK и Scikit-learn. Вычисление TF-IDF Сам. работа 3 9 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
Раздел 3. Прикладной анализ текстовых данных
3.1. Классификация в анализе текстовых данных Практические 3 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.2. Классификация текстовых медицинских карт пациентов с заболеваниями легких Сам. работа 3 9 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.3. Кластеризация как инструмент выявления сходств в тексте Практические 3 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.4. Выявление сходств в текстах научных публикаций с помощью кластеризации Сам. работа 3 9 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.5. Контекстно-зависимый анализ текста Практические 3 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.6. Извлечение признаков из медицинского текста на основе N-грамм Сам. работа 3 9 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.7. Визуализация текста. Графовые методы анализа текста Практические 3 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания
См. приложение
5.2. Темы письменных работ (эссе, рефераты, курсовые работы и др.)
Не предусмотрено
5.3. Фонд оценочных средств
См. приложение
Приложения
Приложение 1.   ФОС_КЛиАТ.docx

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 У. Маккинли Python и анализ данных: ДМК Пресс, 2015//ЭБС издательства «Лань» http://e.lanbook.com/books/element.php?pl1_id=73074
Л1.2 Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python: Издательство "ДМК Пресс", 2016 https://e.lanbook.com/book/82818
Л1.3 Бонцанини М. Анализ социальных медиа на Python. Извлекайте и анализируйте данные из всех уголков социальной паутины на Python: Другое Издательство "ДМК Пресс", 2018 https://e.lanbook.com/book/108129
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. Анализ данных и процессов: учеб. пособие: Учебная литература для вузов СПб.: БХВ-Петербург, 2009 http://kist.ntu.edu.ua/textPhD/AnalizDannyhIProcessov.pdf
Л2.2 Златопольский Д.М. Основы программирования на языке Python: Учебники Издательство "ДМК Пресс", 2017 https://e.lanbook.com/book/97359
Л2.3 Митчелл Р. Скрапинг веб-сайтов с помощю Python: Самоучители и руководства Издательство "ДМК Пресс", 2016 https://e.lanbook.com/book/100903
Л2.4 Прохоренок Н., Дронов В. Python 3. Самое необходимое.: БХВ-Петербург, 2016 https://bhv.ru/product/python-3-samoe-neobhodimoe/
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 Компьютерная лингвистика и анализ текста https://portal.edu.asu.ru/course/view.php?id=7794
6.3. Перечень программного обеспечения
Microsoft Windows

Microsoft Office

Дистрибутив Anaconda
7-Zip

AcrobatReader
6.4. Перечень информационных справочных систем
1. Компьютерная лингвистика и анализ текста [Электронный ресурс]: https://portal.edu.asu.ru/course/view.php?id=7794.
2. Издательство «Лань» - электронно-библиотечная система [Электронный
ресурс]: http://e.lanbook.com
3.
3. Издательство МЦНМО. Свободно распространяемые книги издательства
Московского центра непрерывного математического образования
[Электронный ресурс]: www.mccme.ru/free-books
4.
4. Электронная библиотечная система Алтайского государственного
университета [Электронный ресурс]: http://elibrary.asu.ru
5. 5. Электронная база данных ZBMATH: https://zbmath.org/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
408Л лаборатория математического моделирования - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 15 посадочных мест; рабочее место преподавателя; доска меловая 1 шт.; компьютер Depo - 10 шт., 5 шт. с мониторами LG и 5 шт. с мониторами Philips; мультимедиа-проектор Sony - 1 шт.; МФУ Canon - 1 шт.; стационарный экран: марка Digis Optima C - 1 шт.
Учебная аудитория для проведения занятий лекционного типа, занятий семинарского типа (лабораторных и(или) практических), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проектирования (выполнения курсовых работ), проведения практик Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
203Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 14 посадочных мест; компьютеры: марка ASUS модель i5-6500 - 14 единиц

8. Методические указания для обучающихся по освоению дисциплины

Для успешного освоения дисциплины студент должен посещать лекции и лабораторные занятия, вовремя выполнять все задания и тесты, пользоваться основной и дополнительной литературой, рекомендованной настоящей программой.
Для выполнения лабораторных заданий каждому студенту необходимо:
- получить вариант задания у преподавателя;
- скачать документ с описанием задания с образовательного портала;
- внимательно прочитать задание. Вопросы, возникающие в процессе выполнения лабораторных работ, необходимо грамотно сформулировать и обратиться за помощью к преподавателю на консультации или ближайшем занятии;
- разработать, отладить и оттестировать программы, решающие поставленные задачи.
Для каждого лабораторного задания предусмотрена процедура защиты, в ходе которой преподаватель проводит устный опрос студентов для контроля понимания выполненных ими заданий.
При подготовке к зачету в дополнение к изучению конспектов и учебной литературы, рекомендуется посещать консультации и пользоваться свободными Интернет-ресурсами.