Аннотации учебных дисциплин
Адаптационные курсы
Компьютерная лингвистика
Адаптационный курс по компьютерной лингвистике состоит из четырех блоков, которые выбираются студентом, исходя из имеющихся у него компетенций. Курс включает в себя следующие тематические блоки, являющиеся, по сути, вводными мини-курсами: лингвистика, математика, компьютерная лингвистика, программирование.
Тематический блок по лингвистике
Цель тематического блока по лингвистике состоит в том, чтобы познакомить студентов без лингвистического образования, с понятиями, категориями и методологическим аппаратом лингвистики.
Курс вводит идею уровневой структуры языка и последовательно рассматривает проблематику, связанную с каждым из уровней (фонетикой, морфологией, синтаксисом и семантикой). Рассматриваются следующие темы:
- Общая теория языка: основания классификаций языков, уровневые модели языка.
- Фонетика: артикуляционная и акустическая классификация, основы фонологии.
Морфология: морфонология, теория частей речи, словоизменительные и словообразовательные категории. - Синтаксис: структура словосочетания, структура предложения, формальные представления синтаксиса, анафора, коммуникативное членение предложения.
- Семантика: лексические классы, семантические категории, семантические отношения, референция, основы прагматики, коммуникативные цели.
Тематический блок по математике
Цель тематического блока по математике – дать студентам развернутое представление об основных разделах математики, необходимых для успешного изучения курса «Математические основания компьютерной лингвистики». Предполагается, что данные курсы помогут сгладить разницу в уровне математической подготовки магистрантов. На этих же курсах студенты приобретают первичные навыки автоматической обработки текстов.
Среди рассматриваемых тем:
- комбинаторика,
- основы математической логики,
- основы теории множеств,
- дискретная теория вероятностей,
основы линейной алгебры, - графики функций.
Тематический блок по компьютерной лингвистике
Цель тематического блока по компьютерной лингвистике – дать базовые представления об алгоритмах первичных процессов автоматической обработки текста: токенизации, сплиттингу, морфологическому анализу, а также обзор основных областей современной отрасли компьютерной лингвистики. Блок предназначен для тех студентов, которые не слушали ранее курса по компьютерной лингвистике.
Тематический блок по программированию
Тематический блок по программированию предназначен для слушателей, не имеющих достаточного опыта изучения информатики и программировании. Курс знакомит студентов с основными характеристиками алгоритмов, типами данных, форматами и кодировками текстов, особенностями операционных систем, командами UNIX, регулярными выражениями, основами веб-дизайна. Предлагается экспресс-курс по языку Python.
Цикл общих дисциплин направления
Формальные модели в лингвистике
Цель курса – ознакомить студентов с методологией и теоретической базой лингвистических направлений, основывающихся на формальном анализе языковых структур. Как правило, такие теории весьма слабо освещаются в соответствующих вузовских программах. В то же время они играют весьма значительную роль в современном пространстве теоретической, прикладной и компьютерной лингвистики. При моделировании естественно-языковых процессов формальные теории опираются каждая на свой набор исходных допущений о природе естественного языка и используют формальные языки, ограниченные рядом параметров и правил, предсказывающих допустимые и недопустимые языковые структуры. В курсе предлагается обзор основных теорий, связанных с разными уровнями языка: фонетикой, морфологией, синтаксисом и семантикой:
- Теория оптимальности (А. Принс, П. Маккарти и др.)
- Генеративная грамматика (Н. Хомский и его последователи)
- Грамматика вершинно-управляемых групповых структур (Head Driven Phrase Structure Grammar: К. Поллард и И. Саг)
- Грамматика лексических функций (Lexical functional grammar: Дж. Бреснан и Р. Каплан)
- Формальная семантика (Р. Монтегю, Б.Парти и др.)
- Генеративный лексикон (Дж. Пустейовски).
Функциональные и когнитивные модели в лингвистике
Цель данного курса – познакомить студента с методологическим аппаратом и базовыми теоретическими положениями современных направлений функциональной и когнитивной лингвистики. Функциональные направления в лингвистике объединяет подход к языку как к инструменту, предназначенного для выполнения некоторых функций, прежде всего коммуникативной и когнитивной. Свою задачу эти направления видят в том, чтобы связать основные свойства языковых структур с их функциями.
Когнитивные модели в лингвистике исходят из того, что язык является лишь одной из многих базовых когнитивных способностей человека и имеет много общего с другими когнитивными способностями. В языковой структуре когнитивисты видят отображение общих процессов, характерных для познания и мышления человека.
В курсе дается обзор следующих теорий:
- Теория языковых универсалий (Дж. Гринберг, У. Крофт)
- Грамматическая типология и функциональные теории грамматики (Э. Даль, Б. Комри, С. Дик, Р. Диксон, А. Айхенвальд, А. В. Бондарко, А.Е. Кибрик, В.А. Плунгян)
- Ролевые и референциальные грамматики (Ч. Филлмор, Р. Ван Валин)
- Теория грамматикализации (К. Лемман, Б. Хайне, Дж. Байби, М. Хаспельмат, П. Хоппер, Э. Траугот)
- Московская семантическая школа (Ю.Д. Апресян, И.А. Мельчук, А.Д. Шмелев)
- Логический анализ языка (Н.Д. Арутюнова, Е.В. Падучева, А. Богуславский)
- Грамматика конструкций (Ч. Филлмор, А. Голдберг, Л. Микаэлис и др.)
- Биолингвистика (Т. Гивон)
- Когнитивная лингвистика (Р. Лангакер, Дж. Лакофф, Л. Талми, Л. Янда и др.)
- Естественный семантический метаязык (А. Вежбицка, К. Годдард)
- Лексическая типология (С. Левинсон, М. Бауэрман, Дж. Ньюман, Е.В. Рахилина, М. Копчевская-Тамм)
- Теория дискурса (У. Лабов, Х. Вайнрих, М. Хэллидэй, С. Флейшман, П. Хопер).
Анализ лингвистических данных: квантитативные методы и визуализация / Linguistic data:quantitative analysis and visualisation
Курс должен познакомить слушателей с базовыми понятиями математической статистики. Курс имеет практическую направленность. В его задачи входит научить слушателей обобщать собранный материал, грамотно использовать методы математической обработки результатов экспериментальных, корпусных научно-практических исследований.
В задачи курса входит:
- обеспечить выработку необходимых теоретических знаний различных методов математического обобщения результатов лингвистических исследований;
- выработать навыки использования современных средств обработки лингвистических данных;
- познакомить студентов и научить использовать основные, наиболее употребительные в лингвистике методы математической обработки результатов исследований;
- научить слушателей корректно использовать результаты математического обобщения и использовать полученные данные для решения поставленных задач в исследовательских и квалификационных работах;
- научить студентов создавать визуализации результатов своего анализа.
Вариативная часть
Антропология
Основные темы курса:
- универсализм и релятивизм - проблемы исследования языковой категоризации действительности (цветообозначения, термины родства);
- роль языка в традиционном обществе;
- этнография речевого поведения;
- язык и история человеческих сообществ: происхождение человека и происхождение языка; антропогенетический анализ.
Экспериментальная лингвистика
Как правило, за рамками традиционных лингвистических курсов остаётся биологическая суть языка. Магистерский курс по выбору «Экспериментальная лингвистика» на факультете филологии НИУ ВШЭ призван рассказать о языке как психическом феномене и одновременно продукте реальной работы человеческого мозга. Слушатели курса познакомятся с современными экспериментальными подходами к исследованию языка (поведенческими, электрофизиологическими, нейровизуализационными, клинико-патологическими), смогут принять участие в психо- или нейролингвистическом эксперименте, увидеть, как нарушается речь при поражении мозга, и применить свою собственную компетенцию к задачам экспериментальной лингвистики (статистический анализ, распознавание образов, математическое моделирование).
Компьютерная лингвистика
Основные темы курса:
- речевые технологии,морфологические и синтаксические парсеры,
- семантические технологии,
- генерация естественного языка,
- машинный перевод,
- введение в информационный поиск,
- алгоритмы классификации и кластеризации текста,
- извлечение данных.
Математические основания компьютерной лингвистики
В курсе будут рассмотрены следующие темы:
- избранные разделы прикладной теории алгоритмов (динамическое программирование, префиксные деревья, и др.);
- основы теории сложности вычислений;
- теория формальных грамматик и автоматов;
- анализ символьных последовательностей, в том числе – поиск сходств
вероятностные модели текстов, в том числе скрытые марковские цепи (HMM);- статистические методы анализа текстов.
Программирование (Python)
Машинное обучение
Основные темы курса:
- основные понятия: объекты и признаки; типы шкал; типы задач: классификация, регрессия, прогнозирование, кластеризация; обучение с учителем и без учителя; функция потерь и функционал качества, принцип минимизации риска, обобщающая способность, скользящий контроль;
- байесовские алгоритмы классификации, непараметрические методы;
- параметрические методы, нормальный дискриминантный анализ;
- метрические алгоритмы классификации;линейные алгоритмы классификации;
- алгоритмы кластеризации;
- методы восстановления регрессии;
- метод опорных векторов (SVM);
- нейронные сети;
- решающие списки и деревья;
- комбинация методов (бустинг, баггинг);
- выбор оптимальной сложности модели;
- обобщающая способность; оценивание и выбор моделей;
- структурная минимизация риска.
Машинный перевод
Основные темы курса:
- история машинного перевода,
- основные методы и подходы к машинному переводу,
- метод трансфера,
- метод интерлингвы,
- статистические машинный перевод,
- машинный перевод, основанный на правилах,
- лингвистический анализ в системах машинного перевода,
- оценка качества работы систем машинного перевода.
Речевые технологии
Основные темы курса включают в себя:
- речевое кодирование,
- анализ звучащей речи,
- синтез звучащей речи
Цель дисциплины – дать представление о современных семантических технологиях, семантическом вебе и месте структурированных семантических данных в актуальном интернет-пространстве с одной стороны и в лингвистических разработках по автоматическому анализу естественного языка с другой.
Тематически курс будет иметь следующие разделы:
- онтологии разных уровней,
- объекты, атрибуты, отношения,
- лексические онтологии,
- онтологический инжиниринг,
- задачи извлечения сущностей и фактов,
- интеграция семантических баз данных,
- семантические сети и форматы представления данных,
- язык RDF,
- онтологии открытого доступа ( Protégé)
Гуманитарные науки в цифровую эпоху
Курс digital humanities, как и вся соответствующая научная дисциплина, объединяет в себе две разнонаправленные с точки зрения научной парадигмы сферы. С одной стороны, в орбиту этой дисциплины вовлечены гуманитарные науки с их нечеткой логикой и часто интуитивными методами постановки задач и их решения: литературоведение, социология, культурология, история.
Digital Humanities: instruments, resourses, case studies
The digital humanities is an area of study, research, teaching, and invention concerned with the intersection of computing and the disciplines of the humanities. Sometimes called humanities computing, the field has focused on the digitization and analysis of materials related to the traditional disciplines of the humanities. Digital Humanities currently incorporates both digitized and born-digital materials and combines the methodologies from the traditional humanities disciplines (such as history, philosophy, linguistics, literature, art, archaeology, music, and cultural studies) with tools provided by computing (such as data visualisation, information retrieval, data mining computational analysis) and digital publishing.
Социальные сети
Курс «Социальные сети» знакомит студентов с новой междисциплинарной областью исследований сложных систем, получившей название “network science”. Возникшая в социологии, теория социальных сетей привлекла значительный интерес математиков, физиков, экономистов, специалистов по анализу данных и др. Исследования показали, что несмотря на огромное разнообразие сетей - экономические, финансовые, транспортные, компьютерные, лингвистические, они обладают определенными универсальными свойствами и могут быть охарактеризованы однотипными параметрами. В последние годы появилось значительное число работ по исследованию лингвистических сетей и их применения к анализу структуры языка и текстов. В данном курсе рассматриваются методы анализа структуры сетей, нахождения кластеров и часто встречающихся фрагментов, а также вычисления метрик центральности узлов и анализ их связей.
Целями освоения дисциплины «Социальные сети» являются овладение студентами моделями и методами анализа сетевых данных и их применения к лингвистическому анализу, а также приобретение навыков исследователя и разработчика математических моделей, методов, алгоритмов и совершенствование навыков работы по анализу реальных данных.
Научно-исследовательский блок
Концепция научно-исследовательского семинара
В рамках научно-исследовательского семинара магистры знакомятся с практикой научного исследования, разработки лингвистического ресурса или программного продукта и получают возможность не только освоить те или иные теоретические подходы и парадигмы, но, в идеале, добиться собственного значимого научного или практического результата.
НИС призван сформировать у слушателей:
Мастер-класс
Мастер-класс является обязательным практическим курсом с приглашенными лекторами из самых разных областей, связанных с теорией языка, полевой лингвистикой, преподаванием иностранных языков и русского как иностранного, лингвистическими технологиями в научно-исследовательских сферах и коммерческих приложения. Курс крайне важен для выбора магистрантами будущей профессиональной специализации. Ожидается, что содержание курса будет непосредственно влиять на выбор проектов в научно-исследовательском семинаре. Принципиально, что приглашенные лекторы являются одновременно потенциальными работодателями магистрантов. Содержание курса варьируется в зависимости от состава внешних участников. Литература к занятию предлагается приглашенным лектором.