Магистратура
2020/2021
Психометрические теории и анализ тестовых заданий
Лучший по критерию «Полезность курса для Вашей будущей карьеры»
Лучший по критерию «Полезность курса для расширения кругозора и разностороннего развития»
Лучший по критерию «Новизна полученных знаний»
Статус:
Курс обязательный (Измерения в психологии и образовании)
Направление:
37.04.01. Психология
Кто читает:
Институт образования
Где читается:
Институт образования
Когда читается:
2-й курс, 1, 2 модуль
Формат изучения:
без онлайн-курса
Прогр. обучения:
Измерения в психологии и образовании
Язык:
русский
Кредиты:
3
Контактные часы:
30
Программа дисциплины
Аннотация
Курс "Психометрические теории и анализ тестовых заданий" познакомит студентов с методологией анализа результатов оценивания в рамках классической и современной теорий тестирования. Этот курс необходим для всех, кто занимается оцениванием качества инструментов измерения в социальных науках: тестов и опросников. В результате его освоения студенты научатся проводить анализ тестов и опросников и интерпретировать результаты, а также решать специфические проблемы тестирования, связанные с вопросами справедливости оценивания и измерений.
Цель освоения дисциплины
- Целями освоения дисциплины «Психометрические теории и анализ тестовых заданий» является овладение студентами основными теоретическими принципами и практическими навыками анализа тестовых заданий, построения и анализа инструментов и шкал в рамках классической и современной теорий тестирования.
Планируемые результаты обучения
- проводить анализ тестовых заданий и теста в рамках классической теории тестрования, интерпретировать и представлять результаты анализа;
- знать основы классической теории тестирования;
- проводить шкалирование, выравнивание методами КТТ
- знать основы современной теории тестирования IRT;
- Понимать свойства моделей Раша
- Понимать методы оценки параметров
- проводить анализ тестовых заданий и теста в рамках современной теории тестирования IRT, интерпретировать и представлять результаты анализа;
- - уметь выбирать и применять различные модели IRT, соответствующие целям анализа (дихотомические и политомические, одномерные и многомерные, многофасетные и т.д.);
- уметь выбирать и применять различные модели IRT, соответствующие целям анализа (дихотомические и политомические, одномерные и многомерные, многофасетные и т.д.);
- владеть практическими навыками использования стандартных методов и моделей IRT для построения и анализа конкретных инструментов оценивания в образовании, построения и анализа шкал и методик в психологии, социологии и других социальных науках
- Оценивать характеристики заданий в IRT
- выполнять анализ дифференцированного функционирования тестовых заданий и корректировать инструменты для минимизации искажений; исследовать сопоставимость результатов тестирования, проводить процедуры связывания и выравнивания;
- исследовать сопоставимость результатов тестирования, проводить процедуры связывания и выравнивания;
- владеть практическими навыками анализа результатов тестирования в рамках современной теории тестирования IRT с применением специализированных программных продуктов, составления отчета и представления результатов
- использовать методы IRT в различных социальных науках
- Понимать особенности компьютерного тестирования
- Проводить анализ с использованием многомерных моделей IRT
- Понимать сущность баесовских методов в оценивании
Содержание учебной дисциплины
- Тема 1. Основы классической теории тестированияПредпосылки классической теории тестирования (КТТ). Структура наблюдаемого тестового балла. Определение истинного тестового балла. Определение ошибки измере-ния. Основные уравнения КТТ. Концепция надежности в КТТ. Процедуры и методы вычисления надежности ре-зультатов тестирования (формула Кронбаха; формула Кьюдера-Ричардсона; формула Спирмена-Брауна). Вычисление ошибки измерения истинного тестового балла. Построе-ние доверительных интервалов для исходных тестовых баллов. Концепция валидности в КТТ. Виды валидности. Процедуры исследования валидности теста.
- Тема 3. Шкалирование и интерпретация результатов тестирования. Специфические проблемы тестированияПредставление результатов тестирования. Нормирование и шкалирование результа-тов тестирования. z-шкала и шкалы, полученные ее преобразованием. Шкала проценти-лей. Проверка параллельности вариантов. Методы выравнивания результатов в КТТ. Анализ диффиренцирующей способности заданий (DIF). Методы установления пороговых баллов.
- Тема 2. Анализ тестовых заданий в рамках классической теории тестированияХарактеристики тестовых заданий в КТТ. Оценивание трудности, дифференцирую-щей способности и валидности задания. Интерпретация значений параметров. Компью-терные программы оценивания параметров в рамках КТТ.
- Тема 4. Недостатки КТТ. Принципы измерения латентных переменных в рамках IRT.Недостатки и ограничения классический теории тестирования. Принципы измерения латентных переменных в рамках IRT и их применение для конкретных задач измерений в образовании и психологии. Преимущества IRT по сравне-нию с классической теорией тестирования. История развития IRT. Основные предположения IRT. Характеристическая кривая задания.
- Тема 5. Основные математические модели IRT. Модели РашаОсновные дихотомические и политомичсекие модели IRT. Простейшие свойства мо-делей. Параметры моделей и их интерпретация. Области применения различных моделей. Сравнение моделей и их свойств. Выбор модели измерения. Обоснование полезных свойств и преимуществ IRT по сравнению с классической теорией тестирования.Свойства и преимущества моделей Раша.
- Тема 6. Методы оценивания параметров моделейСвойства оценок. Различные методы оценивания параметров. Метод максимального правдоподобия и его вариации. Оценивание мер испытуемых. Оценивание параметров заданий. Оценивание ошибки измерения. Сравнение различных методов оценивания параметров. Компьютерные программы оценивания параметров IRT моделей.
- Тема 7. Оценивание адекватности эмпирических данных модели измерения.Проверка основных предположений IRT и свойств IRT моделей (одномерность, ло-кальная независимость). Исследование согласия экспериментальных данных тестирования с используемой моделью измерения. Статистики согласия, основанные на стандартизированных остатках (уклонениях). Свойства статистик согласия и их распределений. Анализ согласия по заданиям теста. Анализ согласия ответов испытуемых. Примеры анализа согласия эмпирических данных с моделью измерения. Причины неадекватности эмпирических данных используемой модели измерения. Эмпирические характеристические кривые заданий и их сравнение с теоретическими (модельными) характеристическими кривыми. Обоснование выбора модели измерения по результатам анализа адекватности эмпирических данных.
- Тема 8. Общий анализ теста в рамках IRTАнализ теста, состоящего из дихотомических заданий. Общая схема анализа. Проверка выполнения основных предположений IRT: размерность, локальная независимость, согласие с моделью измерения, инвариантность оценок параметров. Точность измерений. Обоснование валидности конструкта. Исследование однородности выборок и проверка различных гипотез тестирования. Шкалирование результатов тестирования. Представление и интерпретация результатов тестирования. Представление результатов анализа.
- Тема 9. Дихотомические модели IRT. Выбор моделиДихотомические модели IRT: однопараметрическая модель (дихотомическая модель Раша); двух- и трехпараметрические модели Бирнбаума. Свойства моделей и их парамет-ров. Области применения. Сравнение моделей и их свойств. Статистические критерии выбора модели измерения
- Тема10. Основные политомические модели IRTПолитомическиемодели IRT: Partial Credit Model, Rating Scale Model, Generalized Partial Credit Model, Graded-Response Model. Свойства моделей. Параметры моделей и их интерпретация. Области применения различных моделей. Сравнение моделей и их свойств. Выбор модели измерения. Компьютерные программы, работающие с политомическими моделями IRT.
- Тема 11. Измерения в психологии с использованием шкал ЛикертаОсобенности рейтинговых шкал. Rating Scale Model и ее свойства. Анализ данных в рамках RSM. Применение IRT моделирования для разработки психологических методик, построе-ния шкал, исследования их психометрических свойств – исследование размерности, функционирование категорий, оптимизация числа ответных категорий. Исследование стилей ответов респондентов.
- Тема 12. Анализ измерительных свойств заданий в IRT.Характеристическая кривая задания (дихотомического и политомического) и ее свойства. Функционирование категорий задания, оцениваемого политомически. Оптимизация схемы оценивания политомических заданий различных форм. Примеры анализа по-литомических заданий. Информационная функция задания теста (дихотомического и политомического) и ее свойства. Информационная функция теста и ее свойства. Вклад различных заданий в из-мерение латентной черты. Связь информационной функции теста и ошибки измерения. Эффективность теста как измерительного инструмента. Сравнение эффективности двух тестов. Конструирование теста с наперед заданными свойствами при наличии банка заданий. Конструирование критериально-ориентированного теста с заданным проходным баллом.
- Тема 14. Общий анализ теста. Представление результатовОсобенности анализа теста при наличии политомических заданий. Исследование размерности теста. Анализ функционирования заданий, оцениваемых политомически. Исследование совместного функционирования дихотомических и политомических заданий. Исследование совместного функционирования заданий различных форм. Представление результатов анализа различным группам пользователей.
- Тема 13. Применение IRT моделирования для решения специфических задач тестирования. Методы обнаружения искажений в результатах тестирования. Анализ испытуемых.Выравнивание результатов, полученных по отчасти различным наборам заданий и, возможно, в разное время. Условия выравнивания. Методы и процедуры выравнивания. Горизонтальное и вертикальное выравнивание. Измерение прогресса. Различное функционирование заданий по отношению к различным группам испытуемых Методы идентификации таких заданий (DIF анализ). Методы установления проходного балла. Методы установления пороговых оценок (benchmarks). Методы обнаружения искажений в результатах тестирования. Анализ испытуемых.
- Тема 15. Измерение латентных переменных в социальных и экономических сферах.Математические модели и технология обработки информации применительно к за-дачам управления в социальных и экономических сферах. Методика измерения латентных переменных с помощью IRT моделирования. Математические модели для данных на номинальной шкале. Применение IRT моделирования для анализа данных многокритериального мониторинга и построения единого интегрального показателя.
- Тема 16. Введение в компьютерное тестирование. Симуляции в КАТ.Введение в компьютерное тестирование (КТ). Модели КТ: Линейное тестирование, Случайный выбор заданий, LOFT, Многоступенчатое тестирование, Компьютерное адап-тивное тестирование. КАТ: структура, механизмы, практические проблемы. Правила ядра КАТ: начало, следующий вопрос, начисление баллов, остановка. Симуляционные исследования. Использование симуляций для определения параметров КАТ: варьирование правил КАТ для выбора оптимальных правил. Дизайн симуляционного исследования. Анализ результатов симуляций.
- Тема 17. Более сложные модели IRT.Многопараметрические модели IRT и их свойства. Применение многопараметрических моделей для анализа деятельности экспертов, оценивающих выполнение заданий. Многомерные модели IRT и их свойства. Классификация многомерных моделей (многомерность между заданиями и многомерность внутри заданий). Различные подходы к анализу многомерных данных тестирования. Преимущества многомерного подхода. Применение многомерных моделей для оценивания испытуемых. Другие модели IRT. Компьютерные программы обработки данных в рамках рас-сматриваемых моделей
- Тема 18. Байесовский подход в психометрике. Интеллектуальные технологии в измерительных инструментах.Байесовская вероятность и статистика. Байесовский поход в теории IRT. Моделиро-вание сложных конструктов с помощью байесовских сетей. Оценивание параметров методами EM и МСМС. Критерии для оценки и сравнения моделей в байесовском подходе. Методология CRISP-DM для работы с психометрическими данными. Машинное обучение с учителем (supervised learning) и без учителя (unsupervised learning). Критерии оценки качества моделей машинного обучения. Применение интеллектуальных техноло-гий в измерительных инструментах: автоматическое оценивание заданий открытого типа, анализ поведения респондентов и выявление поведенческих паттернов, автоматическая генерация заданий. Этические вопросы, связанные с применением искусственного интел-лекта для решения психометрических задач.
Промежуточная аттестация
- Промежуточная аттестация (2 модуль)0.3 * Домашние проекты + 0.3 * Контрольная + 0.4 * Экзамен
Список литературы
Рекомендуемая основная литература
- Culbertson, M. J. (2015). Bayesian Networks in Educational Assessment: The State of the Field. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.3F4DC55C
- Fundamentals of item response theory, Hambleton, R. K., 1991
- Gareth James, Daniela Witten, Trevor Hastie, Rob Tibshirani, & Maintainer Trevor Hastie. (2013). Type Package Title Data for An Introduction to Statistical Learning with Applications in R Version 1.0. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.28D80286
- Introduction to classical and modern test theory, Crocker, L., 2008
Рекомендуемая дополнительная литература
- Bias and equivalence in cross-cultural assessment:An overview. (1997). Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.6EF6D868
- Computerized adaptive testing for polytomous motivation items: Administration mode effects and a comparison with short forms. (2007). Applied Psychological Measurement, 31, 412–429. https://doi.org/10.1177/0146621606297314
- Hambleton, R. K., & Rovinelli, R. J. (1986). Assessing the Dimensionality of a Set of Test Items. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=eric&AN=ED270478
- Han Bao, & Robert J. Mislevy. (n.d.). LOCAL DEPENDENCE - 1- Running head: ASSESSING LOCAL DEPENDENCE IN BUILDING EXPLANATION TASKS Assessing Local Item Dependence in Building Explanation Tasks An Application of the Multidimensional Random Coefficients Multinomial Logit Item Bundle Model. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.5E21519B
- Heng Li. (2003). The Resolution of Some Paradoxes Related to Reliability and Validity. Journal of Educational and Behavioral Statistics, (2), 89. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsrep&AN=edsrep.a.sae.jedbes.v28y2003i2p89.95
- Kane, M. (2000). Current Concerns in Validity Theory. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=eric&AN=ED446094
- Lim, R. L. (1993). Linking Results of Distinct Assessments. Applied Measurement in Education, 6(1), 83. https://doi.org/10.1207/s15324818ame0601_5
- Ronald K. Hambleton, & Russell W. Jones. (n.d.). ========================= = ITEMS. Instructional Topics in Educational Measurement ========================= An NCME Instructional Module on Comparison of Classical Test Theory and Item Response Theory and Their Applications to Test Development. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.46F2C9F0
- Thomas, S. (1994). Standard setting in The Netherlands: impact of the human factor on guideline development. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.3F7B9D2F