• A
  • A
  • A
  • АБB
  • АБB
  • АБB
  • А
  • А
  • А
  • А
  • А
Обычная версия сайта

Сравнение функций расстояния при использовании методов многомерной классификации в социологических исследованиях

ФИО студента: Чуйко Анна Владимировна

Руководитель: Толстова Юлиана Николаевна

Кампус/факультет: Факультет социологии

Программа: Бакалавриат

Год защиты: 2014

<p>Классификация изучаемых объектов &ndash; один из основных способов получения нового знания в науке. Обычно она осуществляется посредством различных методов многомерной классификации, реализуемых на базе разработанных компьютерных пакетов программ. В данной работе рассматриваются методы, принадлежащие к т.н. автоматической классификации (таксономии, кластерному анализу). А именно, предполагается, что каждый объект задается как точка многомерного признакового пространства, а число, форма, границы кластеров заранее неизвестны, обучающая выборка отсутствует. Предполагается, что с помощью методов классификации решается социологическая задача построения типологии объектов, трактуемой в содержательном плане. Главной методологической проблемой является проблема превращения формальной классификации в содержательную типологию.</p><p>Каждый алгоритм классификации содержит ряд формальных элементов. Данная работа посвящена изучению одного из наиболее важных элементов формализма &ndash; выбору функции расстояния (метрики рассматриваемого пространства). В известных пакетах компьютерных программ задействовано довольно много разных функция расстояния между объектами (например, пакет SPSS включает 7 таких функций). От того, на основании какой метрики определяется степень близости между объектами, значительно зависит то, какой будет итоговая классификация. Основной целью работы является обеспечение того, чтобы функция расстояния отвечала априорному содержательному представлению социолога об искомых типах объектов.</p><p>Объект настоящего исследования &ndash; функция расстояния в алгоритмах кластерного анализа, предмет &ndash; соотнесение функции расстояния с пониманием содержательного типа изучаемых объектов.</p><p>В ходе изучения современной специализированной литературы мы выяснили, что четкие рекомендации для исследования относительно того, как следует сопрягать выбор функции расстояния с априорным содержательным определением типа искомых объектов, отсутствуют. После изучения ряда современных исследований, в которых решались социологические задачи с помощью классификации некоторых совокупностей объектов, была выявлена следующая тенденция: в большинстве случаев классификация осуществляется исследователями с незавидной степенью автоматизма: функция расстояния выбирается &laquo;по умолчанию&raquo; используется квадрат Евклидова расстояния, несмотря на это, во многих социологических задачах построения типологии такая функция заведомо не подходит.</p><p>Каких-либо рекомендаций по поводу того, в каких социологических задачах может быть использовано то или иное расстояние, нам не удалось найти в литературе.&nbsp;</p><p>В работе предложена и реализована методика сравнения двух наиболее непохожих друг на друга метрик: Евклида и &laquo;косинус&raquo; (в пакете SPSS вторая функция называется cosine; речь идет о величине угла между векторами, задающими изучаемые объекты, или, что то же самое, коэффициента корреляции между последовательностями координат этих векторов). На сгенерированных данных было показано, что использование этих функций направлено на поиск классов разной формы, что впоследствии, приводит к разной классификации. Показано, что каждой функции расстояния отвечает свое понимание искомых типов. Доказана эквивалентность нескольких подходов к классификации: (1) использование в качестве функции расстояния &laquo;косинуса&raquo;; (2) проектирование всех точек на единичную сферу и использование квадрата евклидова расстояния между такими проекциями как расстояния между исходными точками (это отвечает приему, разработанному в теории классификации текстов в рамках алгоритма &ldquo;Сферический K-means&rdquo;); (3) переход от исходных наборов координат векторов к пропорциям этих координат. На базе этих доказательств были разработаны рекомендации по тому, какого рода содержательные типы имеет смысл искать на базе использования функции расстояния &laquo;косинус&raquo;. Соответствующие положения проиллюстрированы реальными примерами. Показано, что применение в сходных ситуациях &laquo;по умолчанию&raquo; квадрата евклидова расстояния не позволяе

Выпускные квалификационные работы (ВКР) в НИУ ВШЭ выполняют все студенты в соответствии с университетским Положением и Правилами, определенными каждой образовательной программой.

Аннотации всех ВКР в обязательном порядке публикуются в свободном доступе на корпоративном портале НИУ ВШЭ.

Полный текст ВКР размещается в свободном доступе на портале НИУ ВШЭ только при наличии согласия студента – автора (правообладателя) работы либо, в случае выполнения работы коллективом студентов, при наличии согласия всех соавторов (правообладателей) работы. ВКР после размещения на портале НИУ ВШЭ приобретает статус электронной публикации.

ВКР являются объектами авторских прав, на их использование распространяются ограничения, предусмотренные законодательством Российской Федерации об интеллектуальной собственности.

В случае использования ВКР, в том числе путем цитирования, указание имени автора и источника заимствования обязательно.

Реестр дипломов НИУ ВШЭ