2024/2025





Компьютерный анализ текстов: продвинутый уровень
Статус:
Маго-лего
Кто читает:
Департамент социологии
Когда читается:
1 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Программа дисциплины
Аннотация
Курс вводит студентов в продвинутые алгоритмы машинного обучения и основы нейронных сетей для анализа текстов. Первая часть курса дает представление об использовании обучения с учителем и без учителя для решения задач анализа естественного языка (кластеризация и классификация текстов). Обсуждаются основные понятия обучения моделей методами машинного обучения и метрики оценки качества. Вторая часть курса позволит студентам использовать библиотеки TensorFlow и Keras для обучения и настройки нейронных сетей. Обсуждаются дискриминативные и генеративные модели, а также полносвязные нейронные сети, свертки, архитектура трансформеров. Hugging Face является основным репозиторием моделей для курса. По окончании занятий студенты сдают собственный проект.
Цель освоения дисциплины
- Дает продвинутое понимание методов обработки естественного языка
- Развивает навыки обучения моделей машинного обучения
- Позволяет тренировать собственные нейронные сети
Планируемые результаты обучения
- разбираться в приложениях компьютерного анализа текстов для практических и исследовательских задач
- понимать основные этапы обработки сырого текста для последующего анализа
- уметь обучать большие языковые модели и работать с ними
- уметь классифицировать тексты с помощью методов машинного обучения
- тренировать нейронные сети для анализа и генерации текстовых данных
Содержание учебной дисциплины
- Математика машинного обучения
- Предобработка текста для машинного обучения и нейронных сетей
- Алгоритмы машинного обучения: обучение с учителем
- Алгоритмы машинного обучения: обучение без учителя
- Введение в глубокое обучение
- Полносвязные нейронные сети
- Сверточные нейронные сети
- Рекуррентные нейронные сети
- Механизм внимания. Архитектура трансформеров
- Предобученные модели
Элементы контроля
- Домашнее задание
- ЭкзаменЭкзамен представляет собой соревнование (хакатон) по разработке лучшей модели анализа тональности для русскоязычного текста. В конце первой части курса будет предоставлен русскоязычный набор данных с оценками тональности. Студенты должны выучить свои классификационные модели на этом наборе данных. За неделю до экзамена студенты получат вторую часть набора данных, которую они должны использовать для тестирования полученных моделей. На последнем занятии студенты проводят презентацию своих моделей. Оценка за презентацию зависит, во-первых, от уровня презентации. Во-вторых, оценка зависит от полученных результатов (качества работы модели).
- Промежуточный тест
- Активность на семинарах
Промежуточная аттестация
- 2024/2025 учебный год 1 модуль0.1 * Активность на семинарах + 0.3 * Домашнее задание + 0.3 * Промежуточный тест + 0.3 * Экзамен
Список литературы
Рекомендуемая основная литература
- Elfrinkhof, A. van, Maks, I., & Kaal, B. (2014). From Text to Political Positions : Text Analysis Across Disciplines. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=761345
- Grimmer, J. (2010). A Bayesian Hierarchical Topic Model for Political Texts: Measuring Expressed Agendas in Senate Press Releases. Political Analysis, 1, 1.
- Grimmer, J., & Stewart, B. M. (2013). Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.BC6A6457
- Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
- Neustein, A. (2014). Text Mining of Web-Based Medical Content. Berlin: De Gruyter. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=887115
- Pozzi F. et. al. Sentiment Analysis in Social Networks. - Morgan Kaufmann Publishers, 2016. - ЭБС Books 24x7.
- Uday Kamath, John Liu, & James Whitaker. (2019). Deep Learning for NLP and Speech Recognition. Springer.
- Young, L., & Soroka, S. (2012). Affective News: The Automated Coding of Sentiment in Political Texts. Political Communication, 29(2), 205–231. https://doi.org/10.1080/10584609.2012.671234
- Прикладной анализ текстовых данных на Python. Машинное обучение и создание приложений обработки естественного языка - 978-5-4461-1153-4 - Бенджамин Бенгфорт, Ребекка Билбро, Тони Охеда - 2021 - Санкт-Петербург: Питер - https://ibooks.ru/bookshelf/365298 - 365298 - iBOOKS
Рекомендуемая дополнительная литература
- 9781491962992 - Bengfort, Benjamin; Bilbro, Rebecca; Ojeda, Tony - Applied Text Analysis with Python : Enabling Language-Aware Data Products with Machine Learning - 2018 - O'Reilly Media - https://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=1827695 - nlebk - 1827695