МИНОБРНАУКИ РОССИИ
федеральное государственное бюджетное образовательное учреждение высшего образования
«Алтайский государственный университет»

Компьютерная лингвистика и обработка естественного языка

рабочая программа дисциплины
Закреплена за кафедройКафедра теоретической кибернетики и прикладной математики
Направление подготовки01.03.02. Прикладная математика и информатика
ПрофильПрикладной анализ данных и компьютерное моделирование
Форма обученияОчная
Общая трудоемкость3 ЗЕТ
Учебный план01_03_02_Прикладная математика и информатика_ПАДиКМ-2023
Часов по учебному плану 108
в том числе:
аудиторные занятия 42
самостоятельная работа 66
Виды контроля по семестрам
зачеты: 8

Распределение часов по семестрам

Курс (семестр) 4 (8) Итого
Недель 13
Вид занятий УПРПДУПРПД
Лекции 16 16 16 16
Лабораторные 26 26 26 26
Сам. работа 66 66 66 66
Итого 108 108 108 108

Программу составил(и):
Препод., Кротова О.С.;к.т.н., доцент, Хворова Л.А.

Рецензент(ы):
к.ф.-м.н., Доцент, Пономарев И.В.

Рабочая программа дисциплины
Компьютерная лингвистика и обработка естественного языка

разработана в соответствии с ФГОС:
Федеральный государственный образовательный стандарт высшего образования - бакалавриат по направлению подготовки 01.03.02 Прикладная математика и информатика (приказ Минобрнауки России от 10.01.2018 г. № 9)

составлена на основании учебного плана:
01.03.02 Прикладная математика и информатика
утвержденного учёным советом вуза от 26.06.2023 протокол № 4.

Рабочая программа одобрена на заседании кафедры
Кафедра теоретической кибернетики и прикладной математики

Протокол от 26.06.2023 г. № 4
Срок действия программы: 2023-2024 уч. г.

Заведующий кафедрой
к.т.н., доцент Понькина Е.В.


Визирование РПД для исполнения в очередном учебном году

Рабочая программа пересмотрена, обсуждена и одобрена для
исполнения в 2023-2024 учебном году на заседании кафедры

Кафедра теоретической кибернетики и прикладной математики

Протокол от 26.06.2023 г. № 4
Заведующий кафедрой к.т.н., доцент Понькина Е.В.


1. Цели освоения дисциплины

1.1.Целью освоения дисциплины является освоение методов и подходов компьютерной лингвистики и анализа текстовых данных.
Компьютерная лингвистика и анализ текстовых данных востребованное направление в IT. Популярные в современном мире машинные переводчики, чат-боты, системы «вопрос-ответ» и другое прикладное ПО строятся на методах и подходах анализа естественного языка. В процессе освоения дисциплины обучающиеся преобретут все небходимы навыки и умения разработки прикладного ПО для обработки естественного языка.

2. Место дисциплины в структуре ООП

Цикл (раздел) ООП: Б1.В.01

3. Компетенции обучающегося, формируемые в результате освоения дисциплины

ПК-1Способность осуществлять научно-исследовательскую деятельность с использованием современных информационно-коммуникационных систем и достижений науки и техники
ПК-1.1 Знает основные понятия, методы и подходы теоретических и экспериментальных исследований с использованием информационнокоммуникационных систем
ПК-1.2 Использует современные информационно-коммуникационные технологи в научно-исследовательской деятельности
ПК-1.3 Владеет навыками осуществления научно-исследовательской деятельности с использованием современных информационно-коммуникационных систем и достижений науки и техники
ПК-2Способность применять новые методы исследования в области компьютерного моделирования, проектирования, создания и поддержки информационно-коммуникационных систем и баз данных в сфере профессиональной деятельности
ПК-2.1 Знает новые методы исследования в области математического моделирования, проектирования, создания и поддержки информационно-коммуникационных систем и баз данных
ПК-2.2 Умеет применять новые методы исследования в области математического моделирования, проектирования, создания и поддержки информационно-коммуникационных систем и баз данных при решении профессиональных задач
ПК-2.3 Способен применять новые методы исследования в области математического моделирования, проектирования, создания и поддержки информационно-коммуникационных систем и баз данных в сфере профессиональной деятельности
В результате освоения дисциплины обучающийся должен
3.1.Знать:
3.1.1.Методы и подходы компьютерного анализа и обработки естественного языка.
3.2.Уметь:
3.2.1.Строить автоматизированные системы анализа и обработки естественного языка.
3.3.Иметь навыки и (или) опыт деятельности (владеть):
3.3.1.Навыками компьютерной лингвистики и анализа текстов, необходимыми для разработки современного программного обеспечения.

4. Структура и содержание дисциплины

Код занятия Наименование разделов и тем Вид занятия Семестр Часов Компетенции Литература
Раздел 1. Введение в компьютерную лингвистику
1.1. Основные понятия компьютерной лингвистики. Лингвистические данные. Сложности обработки и анализа естественного языка Лабораторные 8 4 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
1.2. Основные понятия компьютерной лингвистики Лекции 8 2
1.3. Инструменты для анализа текста. Модули и библиотеки для NLP Лекции 8 2
1.4. Инструменты для анализа текста. Модули и библиотеки для NLP Лабораторные 8 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
Раздел 2. Корпусная лингвистика
2.1. Создание и применение корпусов текста Лабораторные 8 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
2.2. Создание и применение корпусов текста Лекции 8 2
2.3. Доступ к данным с помощью NLTK: применение инструментов чтения и структурирования корпусов текстов Сам. работа 8 12 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
2.4. Обработка и преобразования корпуса текста: сегментация, лексемизация, промежуточный анализ корпуса Лекции 8 2
2.5. Обработка и преобразования корпуса текста: сегментация, лексемизация, промежуточный анализ корпуса Лабораторные 8 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
2.6. Обработка и преобразования корпуса текста: сегментация, лексемизация, промежуточный анализ корпуса Лекции 8 2
2.7. Лемматизация, векторизация, семантический анализ текстов. Распознавание именованных сущностей и извлечение отношений Лабораторные 8 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
2.8. Предварительная обработка и преобразование корпуса Сам. работа 8 10 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
2.9. Векторизация и преобразование с помощью NLTK и Scikit-learn. Вычисление TF-IDF Сам. работа 8 10 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
Раздел 3. Прикладной анализ текстовых данных
3.1. Классификация в анализе текстовых данных Лабораторные 8 4 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.2. Классификация в анализе текстовых данных Лекции 8 2
3.3. Классификация текстовых медицинских карт пациентов с заболеваниями легких Сам. работа 8 10 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.4. Кластеризация как инструмент выявления сходств в тексте Лекции 8 2
3.5. Кластеризация как инструмент выявления сходств в тексте Лабораторные 8 2 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.6. Выявление сходств в текстах научных публикаций с помощью кластеризации Лекции 8 2
3.7. Выявление сходств в текстах научных публикаций с помощью кластеризации Сам. работа 8 12 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.8. Контекстно-зависимый анализ текста Лабораторные 8 4 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.9. Извлечение признаков из медицинского текста на основе N-грамм Сам. работа 8 12 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4
3.10. Визуализация текста. Графовые методы анализа текста Лабораторные 8 4 Л2.1, Л1.1, Л1.2, Л2.2, Л2.3, Л1.3, Л2.4

5. Фонд оценочных средств

5.1. Контрольные вопросы и задания для проведения текущего контроля и промежуточной аттестации по итогам освоения дисциплины
См. ФОС дисциплины на яндекс диске:
https://docs.yandex.ru/docs/view?url=ya-disk%3A%2F%2F%2Fdisk%2F%D0%A4%D0%9E%D0%A1%2F%D0%A4%D0%9E%D0%A1_%D0%9A%D0%BE%D0%BC%D0%BF_%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0_%D0%9F%D0%9C%D0%B8%D0%98-2023.pdf&name=%D0%A4%D0%9E%D0%A1_%D0%9A%D0%BE%D0%BC%D0%BF_%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0_%D0%9F%D0%9C%D0%B8%D0%98-2023.pdf&uid=1892739876&nosw=1
5.2. Темы письменных работ для проведения текущего контроля (эссе, рефераты, курсовые работы и др.)
Не предусмотрено
5.3. Фонд оценочных средств для проведения промежуточной аттестации
См. ФОС дисциплины на яндекс диске:
https://docs.yandex.ru/docs/view?url=ya-disk%3A%2F%2F%2Fdisk%2F%D0%A4%D0%9E%D0%A1%2F%D0%A4%D0%9E%D0%A1_%D0%9A%D0%BE%D0%BC%D0%BF_%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0_%D0%9F%D0%9C%D0%B8%D0%98-2023.pdf&name=%D0%A4%D0%9E%D0%A1_%D0%9A%D0%BE%D0%BC%D0%BF_%D0%BB%D0%B8%D0%BD%D0%B3%D0%B2%D0%B8%D1%81%D1%82%D0%B8%D0%BA%D0%B0_%D0%9F%D0%9C%D0%B8%D0%98-2023.pdf&uid=1892739876&nosw=1
Приложения
Приложение 1.   ФОС_КЛиАТ.docx

6. Учебно-методическое и информационное обеспечение дисциплины

6.1. Рекомендуемая литература
6.1.1. Основная литература
Авторы Заглавие Издательство, год Эл. адрес
Л1.1 Маккинни У. Python и анализ данных: Москва: ДМК Пресс, 2020 https://e.lanbook.com/book/131721
Л1.2 Коэльо Л.П., Ричарт В. Построение систем машинного обучения на языке Python: Издательство "ДМК Пресс", 2016 e.lanbook.com
Л1.3 Бонцанини М. Анализ социальных медиа на Python. Извлекайте и анализируйте данные из всех уголков социальной паутины на Python: Другое Издательство "ДМК Пресс", 2018 e.lanbook.com
6.1.2. Дополнительная литература
Авторы Заглавие Издательство, год Эл. адрес
Л2.1 А. А. Барсегян, М. С. Куприянов, И. И. Холод, М. Д. Тесс, С. И. Елизаров. Анализ данных и процессов: учеб. пособие: Учебная литература для вузов СПб.: БХВ-Петербург, 2009 kist.ntu.edu.ua
Л2.2 Златопольский Д.М. Основы программирования на языке Python: Учебники Издательство "ДМК Пресс", 2017 e.lanbook.com
Л2.3 Митчелл Р. Скрапинг веб-сайтов с помощю Python: Самоучители и руководства Издательство "ДМК Пресс", 2016 e.lanbook.com
Л2.4 Прохоренок Н., Дронов В. Python 3. Самое необходимое.: БХВ-Петербург, 2016 bhv.ru
6.2. Перечень ресурсов информационно-телекоммуникационной сети "Интернет"
Название Эл. адрес
Э1 Компьютерная лингвистика и анализ текста portal.edu.asu.ru
6.3. Перечень программного обеспечения
1. Microsoft Office 2010 (Office 2010 Professional, № 4065231 от 08.12.2010), (бессрочно);
2. Microsoft Windows 7 (Windows 7 Professional, № 61834699 от 22.04.2013), (бессрочно);
3. Chrome (http://www.chromium.org/chromium-os/licenses ), (бессрочно);
4. 7-Zip (http://www.7-zip.org/license.txt ), (бессрочно);
5. AcrobatReader (http://wwwimages.adobe.com/content/dam/Adobe/en/legal/servicetou/Acrobat_com_Additional_TOU-en_US-20140618_1200.pdf), (бессрочно);
6. ASTRA LINUX SPECIAL EDITION (https://astralinux.ru/products/astra-linux-special-edition/), (бессрочно);
7. LibreOffice (https://ru.libreoffice.org/), (бессрочно);
8. Веб-браузер Chromium (https://www.chromium.org/Home/), (бессрочно);
9. Антивирус Касперский (https://www.kaspersky.ru/), (до 23 июня 2024);
10. Архиватор Ark (https://apps.kde.org/ark/), (бессрочно);
11. Okular (https://okular.kde.org/ru/download/), (бессрочно);
12. Редактор изображений Gimp (https://www.gimp.org/), (бессрочно)
6.4. Перечень информационных справочных систем
1. Компьютерная лингвистика и анализ текста [Электронный ресурс]: https://portal.edu.asu.ru/course/view.php?id=7794.
2. Издательство «Лань» - электронно-библиотечная система [Электронный
ресурс]: http://e.lanbook.com
3.
3. Издательство МЦНМО. Свободно распространяемые книги издательства
Московского центра непрерывного математического образования
[Электронный ресурс]: www.mccme.ru/free-books
4.
4. Электронная библиотечная система Алтайского государственного
университета [Электронный ресурс]: http://elibrary.asu.ru
5. 5. Электронная база данных ZBMATH: https://zbmath.org/

7. Материально-техническое обеспечение дисциплины

Аудитория Назначение Оборудование
408Л лаборатория математического моделирования - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 15 посадочных мест; рабочее место преподавателя; доска меловая 1 шт.; компьютер Depo - 10 шт., 5 шт. с мониторами LG и 5 шт. с мониторами Philips; мультимедиа-проектор Sony - 1 шт.; МФУ Canon - 1 шт.; стационарный экран: марка Digis Optima C - 1 шт.
Учебная аудитория для проведения занятий лекционного типа, занятий семинарского типа (лабораторных и(или) практических), групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации, курсового проектирования (выполнения курсовых работ), проведения практик Стандартное оборудование (учебная мебель для обучающихся, рабочее место преподавателя, доска)
203Л лаборатория информационных технологий - компьютерный класс - учебная аудитория для проведения занятий семинарского типа (лабораторных и(или) практических); проведения групповых и индивидуальных консультаций, текущего контроля и промежуточной аттестации Учебная мебель на 14 посадочных мест; компьютеры: марка ASUS модель i5-6500 - 14 единиц

8. Методические указания для обучающихся по освоению дисциплины

Для успешного освоения дисциплины студент должен посещать лекции и лабораторные занятия, вовремя выполнять все задания и тесты, пользоваться основной и дополнительной литературой, рекомендованной настоящей программой.
Для выполнения лабораторных заданий каждому студенту необходимо:
- получить вариант задания у преподавателя;
- скачать документ с описанием задания с образовательного портала;
- внимательно прочитать задание. Вопросы, возникающие в процессе выполнения лабораторных работ, необходимо грамотно сформулировать и обратиться за помощью к преподавателю на консультации или ближайшем занятии;
- разработать, отладить и оттестировать программы, решающие поставленные задачи.
Для каждого лабораторного задания предусмотрена процедура защиты, в ходе которой преподаватель проводит устный опрос студентов для контроля понимания выполненных ими заданий.
При подготовке к зачету в дополнение к изучению конспектов и учебной литературы, рекомендуется посещать консультации и пользоваться свободными Интернет-ресурсами.