• A
  • A
  • A
  • АБВ
  • АБВ
  • АБВ
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта
10
Февраль

Алексей Кнорре о криминальной статистике, больших данных, нейросетях и вычислительной лингвистике

31 мая гостем факультета социальных наук стал младший научный сотрудник Института проблем правоприменения при Европейском Университете в Санкт-Петербурге Алексей Кнорре. Алексей рассказал о том, какие математические методы и в каких исследованиях применяет он и его коллеги, а также пригласил студентов принять участие в исследованиях института.

Убийство как атрибут праздника

Исследование связи убийств и праздников началось с обнаружения статистической аномалии в официальной отчетности полиции по зарегистрированным убийствам – резкого скачка убийств на новогодние праздники. Обратил внимание на эту аномалию коллега Алексея по институту Владимир Кудрявцев. Напрашивалась гипотеза, что эта аномалия имеет сугубо рукотворный характер и объясняется манипуляциями с временем регистрации преступлений на местах – в угоду разного рода плановым показателям, привязанным к календарному году. Однако более внимательное изучение статданных показало, что другие праздники, хоть и не в такой большой степени, но дают нам увеличение количества насильственных смертей. Больше всего убийств регистрируется 1 января, 2 января и 31 декабря (и в последующие несколько дней их число также выше нормы. На втором месте – 23 февраля. Далее идут 1 мая, 9 мая и 8 марта. Небольшое положительное отклонение от нормы наблюдается также в уикэнд, а именно в субботу, а вот четверг, наоборот, самый безопасный день.

Любопытно при этом, что 12 июня и 4 ноября никаких значимых аномалий в плане числа убийств не наблюдается – вероятно, россияне не считают эти дни настоящими праздниками (или, во всяком случае, употребляют в эти дни не так много алкоголя).

Аналогичный эффект наблюдается и в дни рождения. Причем феномен birthday blues (примерный перевод с английского звучит как «депрессия в день рождения») наблюдался во многих странах – смертность от самых разных естественных и внешних причин действительно имеет обыкновение повышаться в день рождения умершего. (Проверяется это довольно простым способом: вычисляется разница между датой смерти и датой рождения в днях; если число людей, умерших в день своего рождения, статистически значимо отличается от всех остальных, то аномалия существует). Теперь же мы знаем, что в дни рождения рождения выше риск не только умереть, но и кого-нибудь убить или покалечить.

На вопрос, влияют ли на склонность к совершению убийств влияют чужие именины, Алексей ответил, что понять это можно будет, лишь выяснив, при каких именно обстоятельствах были совершены убийства. Можно предположить, что влияет не предмет празднования, а его характер. Базовый сценарий празднования в России – это сбор группы близких родственников и друзей на квартире или даче, сопровождающийся употреблением алкоголя и разговорами на самые разные, в том числе потенциально конфликтные, темы.

Тексты законов: чем дальше, тем непонятнее

Еще одна тема исследований института – качество русского языка в текстах нормативных актов. Насколько они просты для понимания? Оказывается, в арсенале вычислительной лингвистики существует больше сотни методов, позволяющих провести численный замер сложности/понятности текста. Выбрав наиболее релевантные из них, коллеги Алексея – Руслан Кучаков и Денис Савельев – проанализировали динамику изменения лексического и синтаксического качества текстов правовых актов с 1990 по 2017 год. Выяснилось, что на протяжении всего этого периода понятность текстов федеральных и региональных правовых актов падает — лексического разнообразия снижается, а сложность структуры предложений растет.

В особенности такое усложнение наблюдается в 2014–2017 гг. Сравнимые документы правотворческих органов РСФСР и СССР оказываются проще. Законодательные акты становятся более сложными с течением времени при внесении в них изменений и дополнений. Наиболее сложные для восприятия тексты Конституционного Суда РФ, а также Федерального казначейства и Пенсионного фонда.

Большие данные и машинное обучение: изучаем обращения в полицию

В каждой дежурной части полиции существует книга учета сообщений о происшествиях, в которую заносятся обращения граждан, рапорты, сообщения из больниц, тюрем, других государственных учреждений. С тех пор, как в 2013 г. Генеральная прокуратура России внедрила государственную автоматизированную систему «Правовая статистика», появилась возможность эту информацию проанализировать. Однако суммарный объем этих данных, преимущественно неструктурированных, больше, чем в 450 копиях «Войны и мира». Понятно, что вручную такой объем данных в разумные сроки обработать невозможно. Однако это под силу искусственному интеллекту. Коллектив исследователей обучил нейросеть распознавать закономерности в этих данных и обобщать их. В результате работы нейросети сообщения в полицию удалось разделить на 40 содержательных категорий («бытовые происшествия», «потери и кражи», «ДТП», «суициды», «пожары» и т.д.). Теперь мы знаем, с чем люди обращаются в полицию, в каких пропорциях распределены эти обращения, и как полиция реагирует на эти обращения. В дальнейшем это поможет смоделировать реакцию правоохранительных органов на разные типы обращений, обнаружить шаблоны и аномалии в этой реакции и оптимизировать ее. По результатам исследования сотрудники института подготовили видеоролик:

Занятная деталь: нейросеть научилась выделять в отдельный класс сообщения о летающих тарелочках, рептилоидах и применении психотроного оружия спецслужбами, хотя при поверхностном чтении никаких общих формальных признаков эти сообщения не обнаруживают.

О чем говорит статистика по наркопреступлениям?

А теперь снова от больших данных и вычислительной лингвистики – к простым и понятным двумерным графикам. Алексей проанализировал распределения масс наркотиков, изъятых в 2013-2014 гг., и обнаружил, что эти массы распределены неравномерно. Но интереснее всего оказался характер этой неравномерности… Дело в том, что для квалификации преступления, связанного с наркотиками, определяющее значение имеет масса изъятого наркотика (незначительный размер, «значительный» и «крупный»). От этого зависит, с одной стороны, мера наказания, с другой – по какой категории будет проходить зарегистрированное преступление для сотрудников правоохранительных органов.

Так вот, обнаружилась удивительная вещь: пики ровно на тех величинах, с которых начинаются «значительный» и «крупный» размеры. Иными словами, наркопотребители предпочитают иметь с собой ровно столько запрещенного вещества, сколько нужно, чтобы против них было возбуждено уголовное – либо столько, чтобы уголовное дело могло быть квалифицировано по более тяжкой статье.

Объяснение просто – у сотрудников правоохранительных органов существует т. н. палочная система (своего рода «ключевые показатели эффективности»), когда в отчетный период необходимо выявить и раскрыть определенное количество преступлений (в том числе связанных с наркотиками). Также важно, чтобы этот показатель отличался в лучшую сторону по сравнению с аналогичным периодом прошлого года. Отсюда и – в формулировке Алексея – «искусственное искажение масс изъятых наркотиков со стороны правоохранительных органов».

И о возможностях

В заключение Алексей пригласил студентов факультета принять участие в ежегодной летней школе по эмпирическому правоведению, устроиться на работу в Институт проблем правоприменения, а также попробовать свои силы конкурсе научных статей по исследованиям правоприменения с денежными призами.


Анастасия Бартюк,
Николай Винник