• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Цель проекта

Python является универсальным и простым языком программирования. Он предоставляет широкий спектр библиотек для научных исследований. Цель проекта – это увеличение количества цифровых исследований в области гуманитарных и социальных наук.

На семинарах вы познакомитесь с основами программирования на Python, изучите специальные методы и инструменты для проведения цифровых гуманитарных исследований. Курс подойдет для слушателей не знакомых с языками программирования и для тех, кто хочет овладеть новыми цифровыми методами.

Для кого?

Курс предназначен для научных сотрудников и ППС всех кампусов Вышки. Он подойдет вам, если вы:

  • Проводите исследования в гуманитарных и социальных науках;
  • Чувствуете необходимость в освоении цифровых методов для работы с данными;
  • Желаете обучиться языку программирования Python;
  • Хотите познакомиться с методами статистического анализа данных;
  • Планируете узнать о методах обработки естественного языка;
  • Хотите создать свою компьютерную программу;
  • Не имеете опыта программирования.

Ключевые темы программы

Курс состоит из 3-х блоков:

  • Основы программирования на Python

    Вы изучите базовый синтаксис языка программирования Python: переменные, условия, циклы и работа с последовательностями, словари и сбор информации с сайтов.

  • Анализ данных на Python

    Вы научитесь работать с таблицами и массивами в библиотеках Numpy и Pandas. Узнаете об основах корреляционного и регрессионного анализа и освоите базовые принципы визуализации в Python.

  • Обработка естественного языка

    Вы познакомитесь с библиотеками в области NLP и узнаете, как обрабатывать текст, проводить частотный анализ, выявлять ключевые темы и определять тональность.

Формат проведения

  • Длительность: 72 ак. часа
  • Формат: Онлайн
  • Время: 18:20 (мск.)
  • День: по решению большинства участников
  • Стоимость: бесплатно (только для сотрудников НИУ ВШЭ)
  • Сроки обучения: 15 марта - 1 декабря 2024.
  • 3 итоговых проекта: для успешного прохождения курса необходимо реализовать 3 программы, которые будут выполняться под кураторством преподавателей.

Регистрация

Программа курса

В этом разделе будут размещены все материалы с занятий

  • Основы программирования на Python

    1. Что такое Python?

    Вводный семинар об языке программирования Python и особенностях его использования.

    Ссылка на ноутбук

    Файл (IPYNB, 816 Кб)

     

    2. Типы данных и базовые функции

    Разбор функционирования языка программирования, знакомство с основными типами данных, переменными, функциями print и input

    Ссылка

    Файл (IPYNB, 152 Кб)

    3. Математика и логика

    Базовые арифметические и логические функции, операторы if/elif/else

    Ссылка

    Файл (IPYNB, 30 Кб)

     

    4. Строки и срезы строк

    Описание принципов работы  со строками, функции и методы работы со строками, срезы строк

    Ссылка

    Файл (IPYNB, 36 Кб)

    5. Циклы for и while

    Основы алгоритмов, использование циклов for и while

    Ссылка

    Файл (IPYNB, 135 Кб)

    6. Списки: срезы, циклы, операции

    Последовательности в Python. Подробнее о списках: методы, функции, срезы и циклы.

    Ссылка

    7. Кортежи и множества

    Разбор остальных последовательностей: кортежи и множества. Их особенности и принципы работы. Специальные функции. Операции с множествами.

    Ссылка

    Файл (IPYNB, 16 Кб)

    8. Работа со словарями и JSON

    Ввод в базы данных. Разбор методов работы со словарями: изменение и перебор словарей. Знакомство с синтаксисом JSON и API.

    Ссылка

    Файл (IPYNB, 37 Кб)

    9. Функции и библиотеки

    Подключение сторонних библиотек. Создание собственных функций. Библиотека math и NLTK.

    Ссылка

    Файл (IPYNB, 177 Кб)


    10. Открытие файлов .txt и .csv

    Открытие и запись текстовых файлов в Python. Работа с файлом .csv.

    Ссылка

    Файл (IPYNB, 821 Кб)

    11. Веб-скрейпинг

    Использование библиотеки BeautifulSoup для сбора информации с сайтов.

    Ссылка

    Файл (IPYNB, 2,35 Мб)

     

    12. Защита итоговых проектов

    Демонстрация итоговых проектов по результатам 1 блока обучения.

  • Анализ данных на Python

    1. Numpy

    Знакомство с библиотекой Numpy: массивы, генерация и математические операции

    Ссылка

    2. Введение в Pandas

    Создание датафреймов, перебор строк и столбцов, обращение к конкретной ячейке, добавление и удаление столбцов

    Ссылка

    3. Операции с датафреймами

    Логические и арифметические операции, срезы, группировка, конвертация типов данных

    Ссылка

    4. Поиск данных

    Обзор сайтов с данными, загрузка файлов в pandas, превращение текста в таблицу

    Ссылка

    5. Частотный анализ и визуализация

    Создание частотных таблиц и визуализация данных

    Ссылка

    Ссылка

    6. Выборочная и генеральная совокупность

    Введение в статистические исследования: понятия выборочной и генеральной совокупности. Меры средних. Минимум и максимум.

    Ссылка

    7. Описательная статистика

    Меры центральной тенденции и меры разброса.

    Ссылка

    8. Распределение случайных величин

    Работа с пропущенными значениями, работа с выбросами, оценка датасета

    Домашнее задание

    Пример решения

    9. Корреляционный анализ

    Вычисление коэффициента корреляции Спирмена и Пирсона. Линия тренда.

    Ссылка

    Визуализация

    Тесты и проверка гипотез

    10. Линейная регрессия

    Построение модели линейной регрессии, оценка качества модели

    Линейная регрессия

    Модификации линейной регрессии

    11. Логистическая регрессия

    Построение модели логистической регрессии, оценка качества модели

    Логистическая регрессия

    12. Защита итоговых проектов

    Демонстрация итоговых проектов по результатам 2 блока обучения.

    Задание

  • Обработка естественного языка

    1. Загрузка текста в Python

    Методы для работы со строками. Очистка текста от сторонних символов. Редактирование текста.

    Ссылка

    2. Регулярные выражения

    Знакомство с синтаксисом регулярных выражений, парсинг конструкций из текста

    Ссылка

    3. Предобработка текста

    Изучение способов токенизации текста, использование библиотек для лемматизации, очистка от стоп-слов

    Ссылка

    4. Частотный анализ текста

    Подсчет слов в тексте, подсчет N-грамм, визуализация в виде облака слов и графиков

    Ссылка

    5. Анализ коллокаций

    Подключение библиотеки Spacy, сбор устойчивых выражений, меры устойчивости коллокаций

    Ссылка

    6. Автоматическое распознавание сущностей

    Автоматическое Распознавание персон, локаций и организаций в тексте в библиотеках Spaсy и Natasha. Методы визуализации.

    Ссылка

    7. Векторное представление слов

    Изучение методов TF-IDF и Bag of Words для создания эмбеддингов. Оценка статистической встречаемости.

    Ссылка

    8. Продвинутые модели

    Знакомство с моделями Word2Vec, Fasttext, BERT. Семантический анализ. Визуализация tSNE.

    Ссылка

    9. Тематическое моделирование

    Введение в тематическое моделирование. Автоматическое разбиение текста по темам. Оценка количества тем.

    Ссылка

    10. Анализ актуальности тем

    Знакомство с Affinity Index, подсчет актуальности тем. Визуализация.

     

    11. Анализ тональности

    Ручные, полуавтоматические и автоматические методы анализа тональности. Подключение моделей.

    Ссылка

    12. Защита итоговых проектов

    Демонстрация итоговых проектов по результатам 3 блока обучения.

Видеозаписи семинаров

Каждый семинар будет записываться и размещаться в открытом доступе.

Youtube-канал курса

Контакты

Маткин Никита Андреевич

Руководитель курса

Сенина Анна Васильевна

Кафедра гуманитарных дисциплин (Пермь): Преподаватель