Корпус детской речи в формате CHILDES
Лонгитюдное наблюдение за спонтанной детской речью является важным методом исследования ранних этапов усвоения языка детьми. Для русского языка подобные наблюдения за речевым развитием детей описаны в работах А.Н. Гвоздева, С.Н. Цейтлин, Н.В. Гагариной, М.Д. Воейковой, Eva Bar-Shalom, Vera Kempe и других. В результате были сформулированы выводы о том, как отдельные дети усваивают грамматические категории существительных и глаголов. Между тем для более надежных выводов о ранних этапах усвоения речи необходимо большое количество современных данных, проанализированных с использованием методов компьютерной лингвистики. В базе данных CHILDES (Child Language Data Exchange System) собраны записи детской речи для более чем 40 языков, однако объем записей русского языка очень невелик.
Задача проекта CHILDES для русского языка — на материале видеозаписей общения русскоговорящих детей в семейном кругу создать современный корпус устной речи и изучить процесс усвоения языка детьми от 1 года до 3 лет. Мы исследуем не только последовательность освоения ребенком различных языковых закономерностей, но и языковой инпут, то есть речь взрослых, обращенную к ребенку. Предполагается, что языковой инпут оказывает существенное влияние на все этапы освоения языка ребенком, и именно лонгитюдные данные позволяют провести анализ входящих речевых обращений к ребенку в процессе освоения речи.
В 2016-2019 годах были сделаны и обработаны записи девочки и мальчика из разных семей. В 2020-2022 годах к проекту присоединились еще пять семей. Мы будем рады новым участникам проекта!
Семьи, которые участвуют в проекте, раз в две недели записывают на видео обычное взаимодействие ребёнка со взрослым. Затем исследователи транскрибируют записанную речь в программе CLAN (Child Language Analysis). Получившийся текст проходит морфологическую разметку при помощи программы MyStem, а случаи морфологической неоднозначности разрешаются вручную.
В 2020 году одним из направлений нашей работы стало исследование траектории усвоения грамматических категорий имени существительного и глагола, а также изучение грамматических характеристик инпута и его влияние на усвоение этих категорий. Предварительные результаты корпусов двух детей свидетельствуют о том, что существительные среднего рода в речи детей являются менее частотными, чем существительные мужского и женских родов, а формы единственного числа преобладают над формами множественного. Наиболее частотным падежом в речи детей является именительный, из косвенных падежей раньше всего усваиваются винительный и родительный. Наиболее сложным для усвоения является творительный падеж. Интересно, что наши данные показали, что статистические свойства инпута практически не менялись по мере взросления детей.
Мы также выяснили, что глаголы несовершенного вида практически на всех этапах преобладают над глаголами совершенного вида, единственное число преобладает над множественным. Наиболее долго и сложно усваиваемым временем для детей является будущее, позже всего усваивается 2 лицо. Ребенок слышит большое количество инфинитивов и императивов и часто употребляет их в своей речи. Исследование инпута показало, что оба ребенка в течение всего времени записи слышали больше глаголов несовершенного вида; настоящее время преобладало над прошедшим и над будущим; дети слышали больше форм 2-го лица, чем форм 3 лица и чем форм 1 лица, а также больше форм единственного, чем множественного числа. Инпут оставался относительно неизменным на протяжении всего времени записи.
В 2021 году мы исследовали формирование словарного запаса и проверили гипотезу, сформулированную в работе (Mani & Ackermann, 2018): дети быстрее усваивают слова из той семантической категории, в которой уже содержится много слов. В нашей работе для этой цели впервые использовался векторный семантический анализ. Результаты показали, что группы, выделившиеся в первом периоде, увеличиваются ко второму периоду. Во втором периоде также появляются новые кластеры, но их размеры сравнительно меньше. Это может говорить о частичном подтверждении гипотезы.
Была продолжена работа по изучению ранних стадий усвоения морфосинтаксиса. Мы выяснили, что глагольные формы первого лица появляются в речи детей одними из первых, формы же второго лица появляются позже других. Были сделаны интересные выводы о структуре фразы в речи детей до трёх лет. Порядок слов у детей тяготеет к SVO, однако дети чаще, чем взрослые склонны выносить объект перед глаголом. На ранних этапах для детей оказывается трудным порождение предложений с двумя номинативными глагольными аргументами, поэтому в высказываниях, которые строят дети один из глагольных актантов почти всегда выражен местоимением.
Далее мы продолжили исследовать словарный запас детей на раннем этапе и проверили гипотезу о наличии лексического взрыва на материале двух детей. Гипотеза о существовании лексического взрыва на наших данных подтвердилась, однако возрастные рамки явления не совпали с установленными в предыдущих источниках: у обоих детей в нашем исследовании лексический взрыв произошел в течение третьего года жизни, в то время как обычно его рамки ограничивались двумя годами.
В 2022 году в Центре языка и мозга было принято решение объединиться с коллегами из других стран и создать единую базу данных, содержащую данные русскоязычных моно- и билингвальных детей, обработанные по протоколу BiRCh (http://birch.ling.brandeis.edu/). BiRCh - многолетний проект по созданию лонгитюдного корпуса детской речи, который содержит данные моно- и билингвальных детей на протяжении 5-10 лет их жизни. Сейчас мы работаем с новыми лонгитюдными данными трех билингвов и переводим имеющиеся данные монолингвов в новый формат.
В 2024 году на материалах корпуса мы изучали аспекты применения метрик MLU и IPSyn для оценки речевого развития детей до трех лет. Мы отвечали на несколько вопросов. Могут ли эти методы значимо предсказывать возраст на лонгитюдных данных? Какой подходящий размер корпуса для применения этих методов? Как MLU и IPSyn соотносятся друг с другом в оценке детской речи? Построение линейных моделей со смешанными эффектами показало, что оба инструмента значимо предсказывают возраст на лонгитюдных данных. Кроме того, было обнаружено, что корпуса размером в 50, 75 и 100 высказываний дают информативные результаты по оценке детской речи методами MLU и IPSyn. Также оба инструмента в высокой степени согласуются между собой в оценке детской речи.
Мы также начали работу с билингвальными данными. Для оценки морфологического разнообразия речи мы использовали меру MSP (средний размер парадигмы). Она рассчитывается на корпусных данных как отношение количества уникальных словоформ к количеству лемм, употребленных в течение определенного периода. Эта мера использовалась ранее для исследования связи именной и глагольной парадигм в речи, обращенной к ребенку, и в речи ребенка (Xanthos et al., 2011). При этом большее значение MSP означает большее морфологическое разнообразие речи. Мы рассмотрели применение MSP для оценки морфологического разнообразия именной парадигмы в речи двух русскоязычных детей-монолингвов и двух англо-русских детей-билингвов. Особое внимание было уделено рассмотрению речи взрослых, обращенной к ребенку, как одному из ключевых факторов, влияющих на усвоение морфологии. Результаты показали, что речь взрослых имеет важное значение в усвоении детьми именной морфологии: чем выше была MSP в речи взрослых, тем выше она была и в речи детей. Однако морфологическое богатство речи детей-билингвов и речи, обращенной к ним, не уступало богатству речи монолингвов того же возраста и речи, обращенной к ним.
Нашли опечатку?
Выделите её, нажмите Ctrl+Enter и отправьте нам уведомление. Спасибо за участие!
Сервис предназначен только для отправки сообщений об орфографических и пунктуационных ошибках.