Бакалавриат
2023/2024
Инструменты и методы работы с большими массивами текстовой информации
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс по выбору (Реклама и связи с общественностью)
Направление:
42.03.01. Реклама и связи с общественностью
Кто читает:
Школа коммуникаций
Где читается:
Факультет креативных индустрий
Когда читается:
4-й курс, 3 модуль
Формат изучения:
без онлайн-курса
Охват аудитории:
для своего кампуса
Преподаватели:
Глазова Лилия Ильдаровна
Язык:
русский
Кредиты:
4
Контактные часы:
48
Программа дисциплины
Аннотация
Одними из наиболее важных последствий становления цифрового общества для коммуникационных исследований сегодня является существенное увеличение объемов «цифровых следов коммуникации», т.е. массивов текстовых данных. Данный курс является продолжением и одновременно логическим завершением основного курса специализации «Инструменты и методы в коммуникационных исследованиях». В рамках этой дисциплины студенты на протяжении двух модулей научатся работать с одним из наиболее сложных типов неструктурированных данных, а именно текстовой информацией, начиная с постов в социальных сетях и заканчивая массивами несистематизированной документации, квантифицировать их и использовать для задач предиктивной или диагностической аналитики. Уникальность курса заключается в том, что он сочетает в себе как навыки работы с инструментами и методами, освоенными студентами в рамках основной дисциплины специализации, так и новые навыки и знания из области аналитики данных, естественной обработки языка и компьютерной лингвистики. Кроме того, в рамках данной дисциплины студенты смогут обогатить свой опыт работы с текстами в рамках дискурс- и контент- анализа, методологически совершенствуя эти методы и масштабируя на большие массивы, неподдающиеся ручной обработке.
Цель освоения дисциплины
- научить студентов работать с одним из наиболее сложных типов неструктурированных данных, а именно текстовой информацией, начиная с постов в социальных сетях и заканчивая массивами несистематизированной документации, квантифицировать их и использовать для задач предиктивной или диагностической аналитики.
Планируемые результаты обучения
- Знает кейсы и примеры содержательных задач анализа текстов
- Знает основные задачи обработки и анализа текстов
- Умеет применять методы ML к классификации текстовых данных
- Умеет применять методы тематического моделирования
- Умеет проводить предварительную обработку текстовых данных
- Умеет проводить частотный анализ текстовых данных и визуализировать их
Содержание учебной дисциплины
- Введение: содержательные задачи и методы NLP
- Методы предварительной обработки текстов
- Частотный анализ текстовых данных
- Задача классификации текстовых данных
- Тематическое моделирование
- Прикладные коммуникационные задачи и анализ текстов
Промежуточная аттестация
- 2023/2024 учебный год 3 модуль0.7 * Индивидуальные и групповые домашние задания + 0.3 * Письменные тесты
Список литературы
Рекомендуемая основная литература
- Cardey, S. (2013). Modelling Language. Amsterdam: John Benjamins Publishing Company. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=578623
- Hardeniya, N. (2015). NLTK Essentials. Birmingham, UK: Packt Publishing. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1044817
Рекомендуемая дополнительная литература
- Goldberg, Y. (2017). Neural Network Methods in Natural Language Processing. [San Rafael, California]: Morgan & Claypool Publishers. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=1506512
- Yang Liu, & Meng Zhang. (2018). Neural Network Methods for Natural Language Processing. Computational Linguistics, (1), 193. https://doi.org/10.1162/COLI_r_00312