Корпус детской речи в формате CHILDES

Цель

Задача проекта CHILDES для русского языка – создать на материале видеозаписей общения русскоговорящих детей в семейном кругу современный корпус устной детской речи. На основе этих данных в дальнейшем можно будет проверять различные гипотезы и делать выводы о ранних этапах усвоения языка и речи детьми.

Метод

Семьи, участвующие в проекте, регулярно (примерно раз в две недели) записывают на видео, как ребёнок взаимодействует с родителями и другими взрослыми. Записи расшифровываются вручную в программе CLAN (Child Language Analysis) по определенным правилам. Затем проводится морфологический анализ речи детей и взрослых при помощи автоматического анализатора Mystem, случаи морфологической неоднозначности разрешаются вручную. Так как корпус содержит чувствительные личные данные (видеозаписи ребенка, аудио с конфиденциальной информацией), мы проводим процедуру анонимизации: все лица участников видео размываются, нужные моменты аудио меняются на тишину. В результате, мы получаем возможность проанализировать данные детской речи при помощи количественных метрик, например, MLU (Mean Length of Utterance, рус: средняя длина высказывания) и IPSyn (Index of Productive Syntax, рус.: индекс продуктивности синтаксиса).

Реультаты и выводы

На данный момент завершен сбор данных восьми детей, для трех из них проведена расшифровка данных и выполнен морфологический анализ. Подготовлена первая версия корпуса RusLan-M (Russian Language, Monolingual), содержащая подкорпуса двух детей (Яши и Тоси) для публикации в международной базе данных CHILDES (https://childes.talkbank.org/).

Публикации

Дьячкова М. Д., Секерина И. А., Дорофеева С. В. Разработка и апробация Индекса продуктивности синтаксиса при освоении именных групп русскоговорящими детьми // В кн. : Когнитивная наука в Москве: новые исследования. Материалы конференции 21–22 июня 2023 г. / Под общ. ред.: Е. В. Печенкова, М. В. Фаликман, А. Я. Койфман. М.: «Буки Веди», Московский институт психоанализа, 2023. С. 583–587.
Лелик В. П., Еремичева Т. А., Морозова Д. А., Сычева А. С., Ревак К. З., Псарёва Н. Н., Широков И. А., Дорофеева С. В. Анализ ошибок морфологического анализатора MyStem при работе с записями детской речи // В кн.: Когнитивная наука в Москве: новые исследования. Материалы конференции 21–22 июня 2023 г. / Под общ. ред.: Е. В. Печенкова, М. В. Фаликман, А. Я. Койфман. М.: «Буки Веди», Московский институт психоанализа, 2023
Дьячкова М. Д., Лопухина А. А. Ранние этапы усвоения морфосинтаксиса детьми 1-3 лет (по данным лонгитюдных записей) // В кн.: Проблемы онтолингвистики - 2023: вариативность речевого онтогенеза. СПб.: ООО "Издательство ВВМ", 2023. С. 55–59.
Лелик В. П., Лопухина А. А. Ранние этапы формирования словарного запаса у русскоязычного ребенка 1-3 лет (на материале корпуса CHILDES) // В кн.: Когнитивная наука в Москве: новые исследования. Материалы конференции 23–24 июня 2021 г. / Под общ. ред.: Е. В. Печенкова, М. В. Фаликман, А. Я. Койфман. М.: «Буки Веди», Московский институт психоанализа, 2021.
На рецензировании в журнале статья RusLan-M: Video Collection of Longitudinal Child Speech Data in Russian с подробным описанием корпусов и результатов применения к этим данным количественных метрик (MLU и IPSyn).

Сотрудники проекта

Дорофеева Светлана Валентиновна

Центр языка и мозга: Старший научный сотрудник

Дьячкова Мария Дмитриевна

Центр языка и мозга: Стажер-исследователь

Лелик Валерия Павловна

Центр языка и мозга: Стажер-исследователь

Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.