2023/2024
Дополнительные главы корпусной лингвистики
Статус:
Маго-лего
Кто читает:
Школа лингвистики
Когда читается:
1, 2 модуль
Охват аудитории:
для всех кампусов НИУ ВШЭ
Язык:
русский
Кредиты:
6
Контактные часы:
48
Программа дисциплины
Аннотация
Данная дисциплина является продолжением курса "Корпусная лингвистика". В рамках дисциплины будут рассмотрены современные инструменты для создания размеченных корпусов, средства специальной разметки, методы хранения и обработки таких корпусов.
Цель освоения дисциплины
- Ознакомиться с различными способами реализации дополнительного функционала к корпусам: визуализация и статистическая обработка корпусных данных
- Освоить различные способы реализации дополнительного функционала к корпусам
Планируемые результаты обучения
- Умеет проводить частотный анализ текстовых данных и визуализировать их
- Студент анализирует основной пользовательский функционал, предоставляемый корпусным интерфейсом, в произвольном корпусе; определяет плюсы и минусы интерфейса с точки зрения различных пользовательских сценариев
- Формулирует задачи фронтенда и бэкенда для разных типов корпусов
- умеет проектировать функционал для отражения частотных характеристик языковых единиц в корпусном интерфейсе
- Реализует колллокационные методы для выделения коллокаций и коллоконструкций.
- Анализирует различные коллокационные методы: какие ошибки дает каждый из методов. Организует тестирование реализованных на разработанном корпусе коллокационных методов
- Разрабатывает структуру даенных для представления текстов корпуса и корпусной разметки
Содержание учебной дисциплины
- 1. Развитие фронтэнда и бэкэнда для проектов, развитие поискового функционала
- 2. Информация о частотности языковых единиц в корпусе
- Статистический копрусной функционал: коллокации и коллоконструкции (образец: SketchEngine, CoCoCo)
- Разработка бэкенда для корпуса: способы представления данных корпуса и разметки
- Разработка пользовательского интерфейса с дополнительным функционалом для корпуса
Элементы контроля
- Понятие и основные меры для выявления статистики сочетаемости. Сравнение метрикДоклад по коллокационным метрикам
- Обсуждения и тестирование корпусных платформ на семинарахАнализ дополнительного функционала корпусных платформ
- Письменные домашние задания
- Программная реализация проекта по созданию собственного корпуса
- Проект по созданию собственного корпуса
Промежуточная аттестация
- 2023/2024 учебный год 2 модуль0.13 * Обсуждения и тестирование корпусных платформ на семинарах + 0.1 * Письменные домашние задания + 0.2 * Письменные домашние задания + 0.07 * Понятие и основные меры для выявления статистики сочетаемости. Сравнение метрик + 0.2 * Программная реализация проекта по созданию собственного корпуса + 0.3 * Проект по созданию собственного корпуса
Список литературы
Рекомендуемая основная литература
- A mosaic of corpus linguistics : selected approaches, , 2010
- Contemporary corpus linguistics, , 2009
- Corpus interrogation and grammatical patterns, , 2014
- Corpus linguistics. Vol.4: Methods and applications, , 2012
- Базы данных. Теория и практика : учебник, Советов Б.Я., Цехановский В.В., 2007
Рекомендуемая дополнительная литература
- Entrenchment in usage-based theories : what corpus data do and do not reveal about the mind, Blumenthal-Drame, A., 2012
- Exploring corpus linguistics : language in action, Cheng, W., 2012
- Quantitative corpus linguistics with R: a practical introduction, Gries, S.T., 2011
- Национальный корпус русского языка и проблемы гуманитарного образования, [сборник], отв. ред.-сост. Н. Р. Добрушина ; Гос. ун-т - Высшая школа экономики, 237 с., , 2007