2024/2025
Корпусная лингвистика
Статус:
Маго-лего
Кто читает:
Школа лингвистики
Когда читается:
3, 4 модуль
Охват аудитории:
для своего кампуса
Язык:
русский
Кредиты:
6
Программа дисциплины
Аннотация
Электронные корпусные ресурсы, включающие особым образом размеченные письменные, устные и мультимодальные языковые данные, являются важным источником эмпирической информации для фундаментальной и прикладной лингвистики. Этот курс предполагает углубленное изучение методов разработки дизайна корпуса, ручной, автоматизированной и автоматической лингвистически ориентированной разметки, количественной и качественной оценки корпусных компонентов, знакомство с инструментами индексации и поискового менеджмента. В курсе также будут рассматриваться современные методы автоматической очистки (дедупликации, распознавания "псевдотекста и т.п."), предобработки и разметки корпусов с использованием нейросетевых технологий, а также методы расширения текстовых данных за счет генерации искусственных примеров (аугментации корпусов) с использованием современных генеративных технологий.Особое внимание будет уделено совместимости форматов разметки, викификации и подключению других внешних ресурсов, особенностям конструирования корпусов сетевой коммуникации, учебных корпусов, исторических корпусов, параллельных корпусов, корпусов полевых данных.
Цель освоения дисциплины
- - уметь определять цели создания для основных типов корпусов, необходимый функционал, специальные характеристики, приводить примеры задач, которые можно решать с использованием корпуса соответствтующего типа - уметь автоматически собирать корпуса, предобрабатывать и очищать от дубликатов и "псевдо"текста, в том числе с использованием современных нейросетевых технологий - уметь аугментировать корпусные данные с использованием генеративных нейросетевых моделей - уметь разработать и провести устойчивую разметку корпусов, включая автоматизированную и автоматическую разметку - научиться разрабатывать собственные корпуса и обеспечивать их необходимым пользовательским интерфейсом (на примере одной из доступных корпусных платформ)
Планируемые результаты обучения
- Студент умеет корректно размечать данные
- Анализирует организацию одного из типа корпусов (учебных, риторических и т.п.) с точки зрения цели создания, состава, видов разметки, примеров использования, функциональность, удобства пользовательского интерфейса
- Умеет собирать данные из различных web-источников для корпуса
- Умеет осуществлять очистку и первичную разметку текстов для корпуса (метаразметку и грамматическую аннотацию)
- Умеет осуществлять дедупликацию и фильтрацию текстовых данных
- Студент умеет выбирать платформу для разметки корпусных данных, разворачивать ее и работать в ней.
- Студент умеет создавать инструкцию для аннотации корпусных данных
- Студент размещает разеченные корпусные данные в корпусном менеджере
Содержание учебной дисциплины
- Введение
- Состав и структура данных.
- Разработка корпуса
- Корпусные поисковые платформы
- Связанные ресурсы
- Синтез корпусных данных
Элементы контроля
- Реферат по статье (статьям)
- Доклад на семинаре о корпусах выбранного типа1. Приведите три пользовательских сценария, для которых мог бы использоваться ваш корпус. 2. Расскажите о функционале корпуса на примере одного-двух сценариев, критически оцените а) данные, б) пользовательские функции, в) параметры выдачи, г) интерфейс и т.д. 3. Чего вам не хватило для реализации сценария, что показалось лишним?
- Проект (разработка собственного корпуса)Оцениваются презентации по корпусу (Идея проекта, Виды и проблемы разметки данных, подготовленная Инструкция разметчику с обсуждением сложных случаев, подготовленные материалы к Хакатону по разметке и Хакатону по тестированию, подготовленные Протокол оценки качества разметки и Протокол тестирования, Документация по вывеске корпуса в поисковый менеджер
- Защита проекта
Промежуточная аттестация
- 2024/2025 4th module0.2 * Доклад на семинаре о корпусах выбранного типа + 0.2 * Защита проекта + 0.4 * Проект (разработка собственного корпуса) + 0.2 * Реферат по статье (статьям)
Список литературы
Рекомендуемая основная литература
- Baker, P. (2009). Contemporary Corpus Linguistics. London: Continuum. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=344364
- Baker, P., Hardie, A., & McEnery, T. (2006). A Glossary of Corpus Linguistics. Edinburgh: Edinburgh University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=169612
- McEnery, T., & Hardie, A. (2012). Corpus Linguistics : Method, Theory and Practice. Cambridge: Cambridge University Press. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=408835
Рекомендуемая дополнительная литература
- Contemporary corpus linguistics, , 2012