2023/2024





Компьютерный анализ текстов и обработка естественного языка
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Статус:
Маго-лего
Кто читает:
Департамент социологии
Когда читается:
3 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
3
Контактные часы:
32
Программа дисциплины
Аннотация
Курс направлен на ознакомление студентов с основными методами анализа текстовых данных при помощи языка программирования Python. Первая часть курса посвящена проблематике анализа текстовых данных в социальных науках, основным подходам к предобработке текста и базовым техникам извлечения текстовых данных из интернета. Вторая часть курса позволит студентам овладеть современными методами машинного обучения для классификации, кластеризации и моделирования текстовых данных. По окончании курса студентам предлагается представить собственный исследовательский проект с использованием методов анализа естественного языка.
Цель освоения дисциплины
- предлагает студентам готовые инструменты анализа текстовых данных в социальных и политических науках
- дает общее представление о состоянии области анализа естественного языка, доминирующих подхода и методах
Планируемые результаты обучения
- разбираться в приложениях компьютерного анализа текстов для практических и исследовательских задач
- понимать основные этапы обработки сырого текста для последующего анализа
- уметь анализировать тональность и субъективность социально-политических текстов
- извлекать из текста скрытые темы (топики)
- извлекать структурированную информацию из текстов
- уметь обучать большие языковые модели и работать с ними
- уметь классифицировать тексты с помощью методов машинного обучения
Содержание учебной дисциплины
- Введение в Text mining и Natural language processing
- Этапы автоматической обработки текста (NLP pipeline)
- Анализ тональности
- Тематическое моделирование
- Web-scraping и получение данных из интернета
- Методы машинного обучения в текстовом анализе
- Извлечение информации из текста
- Текстовые эмбеддинги
- Языковые модели
Элементы контроля
- Активность на семинарах
- Представление презентации проекта исследования
- Эссе с использованием методов NLP
- Домашние задания
Промежуточная аттестация
- 2023/2024 учебный год 3 модуль0.1 * Активность на семинарах + 0.4 * Домашние задания + 0.2 * Представление презентации проекта исследования + 0.3 * Эссе с использованием методов NLP
Список литературы
Рекомендуемая основная литература
- 9781491962992 - Bengfort, Benjamin; Bilbro, Rebecca; Ojeda, Tony - Applied Text Analysis with Python : Enabling Language-Aware Data Products with Machine Learning - 2018 - O'Reilly Media - https://search.ebscohost.com/login.aspx?direct=true&db=nlebk&AN=1827695 - nlebk - 1827695
- Elfrinkhof, A. van, Maks, I., & Kaal, B. (2014). From Text to Political Positions : Text Analysis Across Disciplines. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=761345
- From text to political positions : text analysis across disciplines, , 2014
- GPT-3 : the ultimate guide to building NLP products with OpenAI API, Kublik, S., 2022
- Grimmer, J. (2010). A Bayesian Hierarchical Topic Model for Political Texts: Measuring Expressed Agendas in Senate Press Releases. Political Analysis, 1, 1.
- Grimmer, J., & Stewart, B. M. (2013). Text as Data: The Promise and Pitfalls of Automatic Content Analysis Methods for Political Texts. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.BC6A6457
- Introduction to natural language processing, Eisenstein, J., 2019
- Manning, C. D., & Schèutze, H. (1999). Foundations of Statistical Natural Language Processing. Cambridge, Mass: The MIT Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=24399
- Neustein, A. (2014). Text Mining of Web-Based Medical Content. Berlin: De Gruyter. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=887115
- Pozzi F. et. al. Sentiment Analysis in Social Networks. - Morgan Kaufmann Publishers, 2016. - ЭБС Books 24x7.
- Text analysis for the social sciences : methods for drawing statistical inferences from texts and transcripts, , 1997
- The text mining handbook : advanced approaches in analyzing unstructured data, Feldman, R., 2009
- Uday Kamath, John Liu, & James Whitaker. (2019). Deep Learning for NLP and Speech Recognition. Springer.
- Young, L., & Soroka, S. (2012). Affective News: The Automated Coding of Sentiment in Political Texts. Political Communication, 29(2), 205–231. https://doi.org/10.1080/10584609.2012.671234
- Прикладной анализ текстовых данных на Python : машинное обучение и создание приложений обработки естественного языка, Бенгфорт, Б., 2020
Рекомендуемая дополнительная литература
- Handbook of quantifiers in natural language, , 2012
- Using NLP to enhance behavior and learning : a handbook for teachers, Elston, T., 2009
- Witten, I. H., Frank, E., Hall, M. A., & Pal, C. J. (2017). Data Mining : Practical Machine Learning Tools and Techniques (Vol. Fourth edition). Cambridge, MA: Morgan Kaufmann. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1214611