Цель проекта
Python является универсальным и простым языком программирования. Он предоставляет широкий спектр библиотек для научных исследований. Цель проекта – это увеличение количества цифровых исследований в области гуманитарных и социальных наук.
На семинарах вы познакомитесь с основами программирования на Python, изучите специальные методы и инструменты для проведения цифровых гуманитарных исследований. Курс подойдет для слушателей не знакомых с языками программирования и для тех, кто хочет овладеть новыми цифровыми методами.
Для кого?
Курс предназначен для научных сотрудников и ППС всех кампусов Вышки. Он подойдет вам, если вы:
- Проводите исследования в гуманитарных и социальных науках;
- Чувствуете необходимость в освоении цифровых методов для работы с данными;
- Желаете обучиться языку программирования Python;
- Хотите познакомиться с методами статистического анализа данных;
- Планируете узнать о методах обработки естественного языка;
- Хотите создать свою компьютерную программу;
- Не имеете опыта программирования.
Ключевые темы программы
Курс состоит из 3-х блоков:
-
Основы программирования на Python
Вы изучите базовый синтаксис языка программирования Python: переменные, условия, циклы и работа с последовательностями, словари и сбор информации с сайтов.
-
Анализ данных на Python
Вы научитесь работать с таблицами и массивами в библиотеках Numpy и Pandas. Узнаете об основах корреляционного и регрессионного анализа и освоите базовые принципы визуализации в Python.
-
Обработка естественного языка
Вы познакомитесь с библиотеками в области NLP и узнаете, как обрабатывать текст, проводить частотный анализ, выявлять ключевые темы и определять тональность.
Формат проведения
- Длительность: 72 ак. часа
- Формат: Онлайн
- Время: 18:20 (мск.)
- День: по решению большинства участников
- Стоимость: бесплатно (только для сотрудников НИУ ВШЭ)
- Сроки обучения: 15 марта - 1 декабря 2024.
- 3 итоговых проекта: для успешного прохождения курса необходимо реализовать 3 программы, которые будут выполняться под кураторством преподавателей.
Программа курса
В этом разделе будут размещены все материалы с занятий
-
Основы программирования на Python
1. Что такое Python?
Вводный семинар об языке программирования Python и особенностях его использования.
Файл
(IPYNB, 816 Кб) 6. Списки: срезы, циклы, операции
Последовательности в Python. Подробнее о списках: методы, функции, срезы и циклы.
12. Защита итоговых проектов
Демонстрация итоговых проектов по результатам 1 блока обучения.
-
Анализ данных на Python
1. Numpy
Знакомство с библиотекой Numpy: массивы, генерация и математические операции
2. Введение в Pandas
Создание датафреймов, перебор строк и столбцов, обращение к конкретной ячейке, добавление и удаление столбцов
3. Операции с датафреймами
Логические и арифметические операции, срезы, группировка, конвертация типов данных
4. Поиск данных
Обзор сайтов с данными, загрузка файлов в pandas, превращение текста в таблицу
6. Выборочная и генеральная совокупность
Введение в статистические исследования: понятия выборочной и генеральной совокупности. Меры средних. Минимум и максимум.
7. Описательная статистика
Меры центральной тенденции и меры разброса.
8. Распределение случайных величин
Работа с пропущенными значениями, работа с выбросами, оценка датасета
9. Корреляционный анализ
Вычисление коэффициента корреляции Спирмена и Пирсона. Линия тренда.
10. Линейная регрессия
Построение модели линейной регрессии, оценка качества модели
11. Логистическая регрессия
Построение модели логистической регрессии, оценка качества модели
12. Защита итоговых проектов
Демонстрация итоговых проектов по результатам 2 блока обучения.
-
Обработка естественного языка
1. Загрузка текста в Python
Методы для работы со строками. Очистка текста от сторонних символов. Редактирование текста.
2. Регулярные выражения
Знакомство с синтаксисом регулярных выражений, парсинг конструкций из текста
3. Предобработка текста
Изучение способов токенизации текста, использование библиотек для лемматизации, очистка от стоп-слов
4. Частотный анализ текста
Подсчет слов в тексте, подсчет N-грамм, визуализация в виде облака слов и графиков
5. Анализ коллокаций
Подключение библиотеки Spacy, сбор устойчивых выражений, меры устойчивости коллокаций
6. Автоматическое распознавание сущностей
Автоматическое Распознавание персон, локаций и организаций в тексте в библиотеках Spaсy и Natasha. Методы визуализации.
7. Векторное представление слов
Изучение методов TF-IDF и Bag of Words для создания эмбеддингов. Оценка статистической встречаемости.
8. Продвинутые модели
Знакомство с моделями Word2Vec, Fasttext, BERT. Семантический анализ. Визуализация tSNE.
9. Тематическое моделирование
Введение в тематическое моделирование. Автоматическое разбиение текста по темам. Оценка количества тем.
10. Анализ актуальности тем
Знакомство с Affinity Index, подсчет актуальности тем. Визуализация.
11. Анализ тональности
Ручные, полуавтоматические и автоматические методы анализа тональности. Подключение моделей.
12. Защита итоговых проектов
Демонстрация итоговых проектов по результатам 3 блока обучения.
Видеозаписи семинаров
Каждый семинар будет записываться и размещаться в открытом доступе.
Контакты
Руководитель курса
Кафедра гуманитарных дисциплин (Пермь): Преподаватель