Бакалавриат
2020/2021
Компьютерные инструменты лингвистического исследования
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Фундаментальная и прикладная лингвистика)
Направление:
45.03.03. Фундаментальная и прикладная лингвистика
Кто читает:
Департамент английского языка
Где читается:
Факультет гуманитарных наук (Нижний Новгород)
Когда читается:
2-й курс, 3, 4 модуль
Формат изучения:
без онлайн-курса
Язык:
английский
Кредиты:
4
Контактные часы:
52
Course Syllabus
Abstract
The course is aimed at imparting to students knowledge of modern computer tools and resources used in research in the fields of corpus, applied and computational linguistics, as well as teaching students to apply these tools and resources to linguistic problems. The computer tools covered in this course in-clude: concordancers, corpus managers, corpus-building (and bootstrapping) tools, lemmatizers, stemmers, morphological analyzers, part-of-speech taggers, syntactic and semantic taggers, regular expressions, as well as the text-processing capabilities of the Python programming language. The course involves conducted individual and group research and presenting the results to the class. Pre-requisites: basic Python programming skills, general knowledge of linguistics
Learning Objectives
- The discipline is aimed at students' acquiring knowledge about current computer tools and resources used by linguists in research in the field of corpus, applied and computer linguistics, as well as practical skills in the use of these tools. Computer tools studied within the discipline include concordancers, corpus managers, programs for automatic corpus creation, lemmatizers, stemmers, morphological analyzers and automatic text markup, regular expressions, and Python programming language tools for processing text data.
Expected Learning Outcomes
- Understands the basic concepts of corpus linguistics, knows types and properties of corpora, able to obtain concordance. Understands the idea of using the web as a corpus, familiar with the criticism of corpus linguistics
- Has an idea of the periods of development of corpus linguistics, familiar with the main corpus of English
- Familiar with the main stages of corpus preprocessing, able to build a corpus (manually and automatically)
- Has an idea of Cipf's law, able to visualize syntax trees, use regular expressions, works with web interfaces of popular corpora, able to make corpora based on the web and explore ready corpora in AntConc
- Familiar with corpora of the Russian language
Course Contents
- Introduction to corpus linguisticsBasic concepts of corpus linguistics. Text and corpus. Corpus linguistics as a discipline. Types and properties of corpora. Web as a corpus. The use of corpora. The value of corpora. Corpora and computa-tional linguistics. Markup. Concordance, concordancer. Criticism of corpus linguistics.
- History and typology of English-language corporaPeriods of corpora history. First machine-readable corpora. The Brown Corpus. Syntactic treebanks. The Penn Treebank. The British National Corpus. The International Corpus of English. The Corpus of Contemporary American English. TenTen Corpora. The Google Books Ngram Corpus. Semantic treebanks. FrameNet. Groningen Meaning Bank.
- Building corporaCorpus design. Stages of corpus compilation. Text processing: tokenization, lemmatization, stem-ming, parsing. Tagging. Copyright. Standardization. Bootstrapping.
- The corpora of the Russian languageUppsala corpus of the Russian language. Tübingen corpus of Russian texts. Computer corpus of texts of Russian Newspapers of the late XX century. Large Corpus of Russian language. Machine Fund of the Russian language. Corpus of Russian literary language. HANKO. NOTHING. OpenCorpora.
- Computer tools review. Using corporaZipf’s law. Visualization of syntax trees with phpSyntaxTree. Web interfaces to corpora (COCA, RNC). Regular expressions. AntConc. Sketch Engine. Games with a purpose. BootCaT.
Assessment Elements
- final product "Own Corpus"
- Work on lectures and seminars (homework, mini-projects, answers on questions)Экзамен проводится в устной форме с использованием асинхронного прокторинга. Экзамен проводится на платформе MS Teams (https://teams.microsoft.com), прокторинг на платформе Экзамус (https://hse.student.examus.net). К экзамену необходимо подключиться за 15 минут. На платформе Экзамус доступно тестирование системы. Компьютер студента должен удовлетворять следующим требованиям: https://elearning.hse.ru/data/2020/05/07/1544135594/Технические%20требования%20к%20ПК%20студента.pdf) Для участия в экзамене студент обязан: заранее зайти на платформу прокторинга, провести тест системы, включить камеру и микрофон, подтвердить личность. Во время экзамена студентам запрещено: общаться (в социальных сетях, с людьми в комнате), списывать. Кратковременным нарушением связи во время экзамена считается прерывание связи до 10 минут. Долговременным нарушением связи во время экзамена считается прерывание связи 10 минут и более. При долговременном нарушении связи студент не может продолжить участие в экзамене. Процедура пересдачи аналогична процедуре сдачи.
- technical part of the project "Own Corpus"
Interim Assessment
- Interim assessment (4 module)0.4 * final product "Own Corpus" + 0.3 * technical part of the project "Own Corpus" + 0.3 * Work on lectures and seminars (homework, mini-projects, answers on questions)
Bibliography
Recommended Core Bibliography
- Perkins, J. Python Text Processing with NLTK 2.0 Cookbook: Use Python NLTK Suite of Libraries to Maximize Your Natural Language Processing Capabilities [Электронный ресурс] / Jacob Perkins; DB ebrary. – Birmingham: Packt Publishing Ltd, 2010. – 336 p.
Recommended Additional Bibliography
- Грудева Е.В. - Корпусная лингвистика: учебное пособие - Издательство "ФЛИНТА" - 2017 - 165с. - ISBN: 978-5-9765-1497-3 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/106859