Магистратура
2020/2021
Научно-исследовательский семинар
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Журналистика данных)
Направление:
42.04.02. Журналистика
Кто читает:
Институт медиа
Где читается:
Факультет креативных индустрий
Когда читается:
2-й курс, 1-3 модуль
Формат изучения:
без онлайн-курса
Преподаватели:
Бережная Тина Сергеевна,
Бобринская Мария Алексеевна,
Нестеренко Любовь Владимировна,
Прохоров Артем Вячеславович
Прогр. обучения:
Журналистика данных
Язык:
русский
Кредиты:
18
Контактные часы:
120
Программа дисциплины
Аннотация
Научно-исследовательский семинар изучает научные методы работы в сфере журналистики данных, подробно останавливаясь на изучении и использовании пространственных данных, сетевом анализе, компьютерной лингвистике, а также научных методах исследования, академическом письме и мастерстве представления академического исследования, практики прикладного использования его результатов.
Цель освоения дисциплины
- Обучение студентов с теоретическими основами цифрового картографирования и практическими навыками работы с пространственными данными,использования геоинформационных систем, визуализации и картографического дизайна
- Рассмотрение методов компьютерной лингвистики, применяемых при обработке текстов в предметно-ориентированных информационных системах.
- Изучаются виды используемых лингвистических ресурсов и методы их разработки.
- Рассматриваются задачи автоматического аннотирования тестов, рубрикации и кластеризации текстов, извлечения информации из текстов.
Планируемые результаты обучения
- Владеет терминологией в области картографии и ГИС
- Выбирает нужные параметры проекций и систем координат
- Выбирает виды и источники данных в зависимости от задач
- Создает слои данных, оценивает качество данных, работает с проектами
- Использует инструменты пространственного анализа
- Визуализирует атрибутивную информацию пространственных данных
- Создает законченный проект на основе пространственных данных
- Знает основные подходы к решению задач компьютерной лингвистики
- Знает основные приложения автоматической обработки текстов, используемые в пред-метно-ориентированных информационных системах
- Извлекает сущности из текста
- Знает инструменты и библиотеки Python для компьютерной лингвистики
- Ориентируется в задачах автоматической обработки текста
- Делит большие задачи на мелкие подзадачи
- Решает задачи предобработки текста с использованием приёмом программирования на Python
- Применяет специализированные библиотеки Python для задач автоматической обработки текста
- Оценивает работу систем автоматической обработки текста
- Владеет навыками текстового анализа при помощи инструментов и библиотек Python
- Владеет навыками оценки качества систем автоматической обработки текста
- Владеет навыками логико-лингвистического моделирования предметной области с использованием стандартов и инструментальных средств, поддерживающих разработку лингвистического обеспечения информационной системы для конкретной предметной области
- Владеет методами машинного обучения для структурной модели графа
- Владеет методами машинного обучения для структурной модели графа с учетом текстовых эмбеддингов
- Владеет методами представления результатов проекта в области сетевого анализа
- Владеет навыками моделирования случайных графов для тестирования статистических гипотез на структурных данных
- Демонстрирует общие знания об области применения анализа социальный сетей и программных средствам для работы с графами
- Знает модели распространения влияния. Умеет прогнозировать достижение равновесия в сетевой модели на основе Марковских процессов в сетях
- Знает понятие центральности как меры ранжирования вершин в графе на основе структурной информации
- Знает понятия центральности и престижа как мер ранжирования вершин, взаимовлияние в ориентированных сетях
- Знает статистические особенности реальных сетей, основные отличия реальных сетей от модельных данных
- Умеет использовать информационные каскады как модель сетевого маркетинга и оценивать успешность сетевого маркетинга
- Умеет моделировать распространение информации. Понимает сущность понятия эпидемии в информационном поле
- Умеет находить структурно схожие элементы и меры схожести в структурной информации
- Умеет обнаруживать сообщества в сетях, владеет методами кластеризации на графах
- Умеет строить модель классификации элементов сети, выявлять агентов влияния, осуществлять количественные предсказания на основе временных динамических графов
- Умеет строить рекомендации связей между элементами сети, владеет методами детектирования фрода в сетях
Содержание учебной дисциплины
- Введение в картографию и ГИС.Основные определения: карта, ГИС, пространственные данные, пространственный анализ. Развитие картографии и геоинформатики. Принцип создания карт, источники данных для них. Сферы применения ГИС.
- Математические основы картографииГеографические и плановые (метрические) координаты. Системы координат: местные, государственные, глобальные. Наиболее часто используемые системы координат. Картографические проекции, их виды, принципы использования. Правила выбора проекции. Основные ошибки использования систем координат и проекции. Проблема использования проекции Web Mercator. Масштаб, его актуальность в цифровой картографии.
- Виды пространственных данныхВекторные данные: геометрические примитивы, особенности использования и функциональное назначение, способы создания, форматы хранения. SHP-файл. Растровые данные: особенности использования и функциональное назначение, спутниковые снимки как основной источник растровых данных, форматы хранения. Атрибутивная информация пространственных данных. Топологические отношения. Ошибки данных, оценка качества и полноты данных. Источники данных.
- Работа с данными в ГИС, создание слоев и проектовЗагрузка и отображение данных в ГИС. Создание и редактирование слоев, добавление атрибутивной информации. Присоединение пространственной информации к статистическим данным, пространственное присоединение, прямое и обратное геокодирование.
- Аналитические инструменты работы с даннымиВиды аналитических инструментов в ГИС. Вычислительные операции: площадь, длина, количество. Ошибки в вычислениях. Пространственный анализ: пространственные выборки, тепловые карты. Инструменты работы со спутниковыми снимками.
- Визуализация данных, дизайн картЭлементы карты. Способы визуализации данных на карте: точечный, изолинии, картограммы, картодиаграммы. Шкалы условных знаков. Информативность и читабельность. Инструменты визуализации
- Практическая работа: ГИС проектПрактика создания, обработки, анализа и визуализации пространственных данных, создание карт
- Введение в сетевой анализВведение в сетевой анализ. Теория сложных сетей. Основные свойства сети и метрики. Примеры сетей.
- Описательные статистики реальных сетейСтепенной закон распределения и реальные сети. Закон Ципфа. Закон шести рукопожатий. Плотностей связей между друзьями.
- Модели формирования сетиМодель случайного графа Эрдоша-Рени. Распределения Пуассона и Бернулли. Распределение степеней вершин. Модель Барабаси-Альберта. Модель эволюции графа. Модель “маленького мира” (модель Ваттс-Строгаца). Статистики случайных графов.
- Меры влияния агентов в неориентированных сетяхМетрики центральности вершин: степенная, мостовая, по близости, относительно собственных векторов, структурные. Интерпретация центральности как меры влияния. Визуализация ключевых агентов в сети.
- Меры влияния агентов в ориентированных сетяхPageRank, стохастическая метрика и условие Перрона-Фробениуса. Итеративные методы. Хабы и источники. Алгоритм HITS.
- Структурная эквивалентностьМетрики структурной эквивалентности. Евклидова метрика и расстояние Хэмминга. Коэффициент корреляции. Косинусное сходство. Ассортативное смешивание и гомофилия. Смешивание по факторным и численным атрибутам.
- Сообщества в социальных сетяхСетевые сообщества. Плотность сообществ и метрики разрезов. Алгоритм Ньюмена-Гирвина. Спектральные методы кластеризации. Приближенные и жадные алгоритмы. Иерархическая кластеризация. Локальная кластеризация. Графовые шаблоны, k-core, микро подграфы.
- Распространение и эпидемии в сетяхМодели эпидемий: SI, SIS, SIR. Решение дифференциальных уравнений. Предельные случаи. Моделирование распространения инфекции.
- Распространение инноваций и информационные каскадыОбучение на основе наблюдений. Информационные каскады. Каскады в сети. Независимая и линейная пороговая модели каскадов. Измерение распространения информации и оценка успешности компании в сетях.
- Распространение влияния и консенсус в социальных сетяхФизическая диффузия. Диффузионное уравнение. Распространение в сети и Лапласиан. Решение диффузионного уравнения. Случайные блуждания на графе. Социальная диффузия. Пороговая модель Грановеттера для описания коллективного поведения. Самые влиятельные узлы в сети.
- Векторные модели сетей без атрибутовГрафовые эмбеддинги. Модели на основе матричной факторизации, случайных блужданий и автоэнкодеров. Векторизация структурной модели.
- Векторные модели сетей с текстовыми атрибутамиАтрибутивные графовые эмбеддинги. Веткорные модели текстов и инициализации моделеи. Фьюжн информации и индуктивные модели обучения.
- Предсказание связей и рекомендации в сетяхРост сети. Диаметр сжатия. Проблема предсказания связей. Обучение с учителем. Рекомендательные системы.
- Классификация сетевых данных и графовые нейронные сетиЗадача классификации документов, оценка влияния агентов: предсказание свойств вершин. Графовые нейронные сети. Обучение со слабой разметкой или без учителя. Машинное обучение на графах.
- Знакомство с компьютерной линвгистикойЗнакомство с компьютерной линвгистикой: предмет, задачи, области. История развития компьютерной лингвистики. Направления компьютерной лингвистики. Основы предобработки текста. Модели представления знаний предметной области. Информаци- онно-поисковые системы. Система понятий и терминов как основа описания модели предметной области. Рубрикаторы: назначение и принципы создания. Информационно- поисковые тезаурусы (ИПТ): понятие информационно-поискового тезауруса, структура статьи информационно-поискового тезауруса, стандарты по разработке ИПТ. Онтологии в информационно-поисковых системах. Понятие лингвистической онтологии. Построение онтологии предметной области.
- Регулярные выражения, tokenization etc.
- Частотные списки, мера TF-IDF. Извлечение ключевых слов, алгоритм RAKE
- Векторизация текстов, векторная семантика. Bag of Words, word2vec, ресурс RusVectores.
- Автоматическая классификация документовАвтоматическая классификация документов: тематическая классификаци, сенти-мент анализ. Оценка качества работы классификаторов. Тематическая структура текстов. Свойства связного текста: тематическая связность, риторическая связность, лексическая связность, референциальная связность. Моделирование свойств связного текста.
- Text MiningText Mining. Задача извлечения знаний из текстов: извлечение объектов, связей, фактов. Методы автоматического извлечения знаний из текстов. Системы автоматическо-го извлечения знаний из текстов. Методы извлечения знаний из текстов экспертом. Мето-ды извлечения устойчивых словосочетаний и терминов из текстов. Методы оценки каче-ства извлечения. Извлечение терминов как многофакторный процесс. Методы выявления отношений между терминами из текстов. Извлечение синонимов, родовидовых отношений, построение таксономий. Инструменты в Python
- Сетевой анализ
Элементы контроля
- Посещаемость 1 модуля
- Выполнение заданий на семинарах 1 модуля
- Финальный проект по итогам 1 модуля
- Активность на занятиях и выполнение домашних заданий 3 модуля
- Финальный проект 3 модуля
- Посещение занятий и выполнение заданий 2 модуляОсновной формой работы на семинарах является программирование в IPython Notebook. Формы работы и критерии оценивания на каждом конкретном семинаре преподаватель озвучивает студентам.
- Проект 1
- Проект 2
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.1 * Активность на занятиях и выполнение домашних заданий 3 модуля + 0.2 * Выполнение заданий на семинарах 1 модуля + 0.05 * Посещаемость 1 модуля + 0.25 * Посещение занятий и выполнение заданий 2 модуля + 0.15 * Финальный проект 3 модуля + 0.25 * Финальный проект по итогам 1 модуля
- Промежуточная аттестация (3 модуль)0.09 * Выполнение заданий на семинарах 1 модуля + 0.21 * Посещаемость 1 модуля + 0.7 * Промежуточная аттестация (2 модуль)
Список литературы
Рекомендуемая основная литература
- Easley, D., & Kleinberg, J. (2010). Networks, Crowds, and Markets : Reasoning About a Highly Connected World. New York: Cambridge eText. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=324125
- Витковский В.В. - Картография (теория картографических проекций) - Издательство "Лань" - 2013 - 473с. - ISBN: 978-5-507-31477-5 - Текст электронный // ЭБС ЛАНЬ - URL: https://e.lanbook.com/book/32797
- Инновационное развитие: экономика, интеллектуальные ресурсы, управление знаниями : монография / под ред. Б.З. Мильнера. — М. : ИНФРАМ, 2018. — 624 с. — (Научная мысль). - Режим доступа: http://znanium.com/catalog/product/975926
- Картография и ГИС : учеб. пособие / В.П. Раклов. — 3-е изд., стереотип. — М. : ИНФРА-М, 2019. — 215 с. — (Высшее образование: Бакалавриат). - Режим доступа: http://znanium.com/catalog/product/1022695
- Основы алгоритмизации и программирования на Python : учеб. пособие / С.Р. Гуриков. — М. : ФОРУМ : ИНФРА-М, 2019. — 343 с. — (Среднее профессиональное образование). - Режим доступа: http://znanium.com/catalog/product/970143
Рекомендуемая дополнительная литература
- Newman, M. E. J. (2010). Networks : An Introduction. Oxford: OUP Oxford. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=nlebk&AN=458550
- Understanding Geo-spatial Information on Social Media. (2016). https://doi.org/10.4233/uuid:06c072ad-4db6-4d3b-b747-784e30d862a4
- Yanqing Xu, & Eugene Kennedy. (2015). An Introduction to Spatial Analysis in Social Science Research. Tutorials in Quantitative Methods for Psychology, (1), 22. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsdoj&AN=edsdoj.571b8abf375d4e059682324f8fae0c6d
- Информатика и лингвистика : учеб. пособие / Т.М. Волосатова, Н.В. Чичварин. — Москва : ИНФРА-М, 2018. — 196 с. + Доп. материалы [Электронный ресурс; Режим доступа: https://new.znanium.com]. — (Высшее образование: Бакалавриат). — www.dx.doi.org/10.12737/16175. - Текст : электронный. - URL: http://znanium.com/catalog/product/938009
- Языкознание: От Аристотеля до компьютерной лингвистики: Научно-популярное / Алпатов В. - М.:Альпина нон-фикшн, 2018. - 253 с.: 60x90 1/16. - (Научно-популярная литература) (Переплёт) ISBN 978-5-91671-804-1 - Режим доступа: http://znanium.com/catalog/product/1003471