Аспирантура
2020/2021
Разработка инструментов измерения
Статус:
Курс по выбору
Направление:
44.06.01. Образование и педагогические науки
Кто читает:
Институт образования
Когда читается:
1-й курс, 1 семестр
Формат изучения:
без онлайн-курса
Преподаватели:
Авдеева Светлана Михайловна,
Брун Ирина Викторовна,
Канонир Татьяна,
Карданова Елена Юрьевна,
Осин Евгений Николаевич,
Тюменева Юлия Алексеевна
Язык:
русский
Кредиты:
4
Контактные часы:
56
Программа дисциплины
Аннотация
Дисциплина «Разработка инструментов измерения» направлена на формирование концептуального понимания классического и современного подходов к валидности инструментария, а также понимания ключевых этапов и принципов разработки измерительных инструментов. В результате освоения дисциплины аспиранты познакомятся с историей развития области измерений и связанными концепциями, например, с развитием понятия валидности; познакомятся с принципами разработки измерительных инструментов. Дисциплина также затрагивает темы использования соответствующей статистики тестовых заданий для выявления плохо функционирующих заданий; проверки надежности тестового балла, ошибки измерения и одномерности с использованием классических психометрических методов; возможности корректировки инструмента с целью максимально повысить одномерность и надежность и минимизировать ошибку измерения. В рамках этой дисциплины аспиранты познакомятся с моделью Раша, 1-, 2- и 3-параметрической IRT-моделью для моделирования дихотомических ответных данных. Для успешного освоения данной дисциплины требуется понимание принципов научного дизайна исследований, а также знание основных статистических понятий.
Цель освоения дисциплины
- Целью освоения дисциплины является изучение фундаментальных основ разработки инструментов измерения. В частности, аспиранты познакомятся с историей развития области измерений и связанных с ней концепций. Дисциплина направлена на формирование концептуального понимания классического и современного подходов к валидности инструментария, а также понимания ключевых этапов и принципов разработки измерительных инструментов
Планируемые результаты обучения
- Различает различные виды оценивания и их цели. Различает разные шкалы.
- Может аргументировано обосновать валидность инструмента. Способен проанализировать и аргументировано представить разные подходы к оцениванию валидности.
- Может разработать утверждения/задания для инструмента измерения или адаптировать уже существующий инструмент.
- Может спланировать и провести когнитивную лабораторию для разрабатываемого/адаптируемого инструмента.
- Способен применить классическую теорию тестирования при разработке/адаптации инструмента.
- Может сравнить классическую теорию тестирования и современные методы.
- Способен применить современные методы для анализа качества инструмента.
Содержание учебной дисциплины
- Введение в теорию измеренийВиды оценивания и их цели. Формирование современных представлений об измерениях. Краниология. Иследования в области психофизологии: Вебер, Фехнер, Вундт. Ф.Гальтон и его исследования интеллекта. Первые стандартизированые тесты на интеллект. Введение в шкалирование. Подходы к шкалированию в период создания первых тестов на интеллект. Эксперименты Терстоуна со шкалами. Шкалы Ликерта и Гутмана. Факторная структура инструмента и идея факторного анализа. Тесты на интеллект как пример влияния использования факторного анализа на развитие теоретических представлений об интеллекте.
- Развитие представлений о валидностиРазличные модели валидности в истории психометрики. Критериальная валидность как золотой стандарт в 1920-50 гг. Текущая и Прогностическая валидность. Проблема критерия. Факторы, влияющие на прогностическую валидность. Стандартная ошибка оценки. Фундаментальные ограничения критериальной модели. Факторная структура – как база для конструктной валидности. Ограничения факторной модели. Содержательная валидность как результат неудовлетворенности критериальной и факторными моделями. Выборка реального решения задач – как оценивание общего уровня навыков деятельности. Типовые области применения содержательной модели валидности. Преимущества и недостатки содержательной модели. Происхождение идеи конструктной валидности. Теоретическая рамка конструктной валидности Кронбаха и Мила. Гипотетико-дедуктивная модель научной теории. Номологическая сеть конструктов и методы оценки конструктной валидности (внутренняя структура, эксперименты, групповые различия, MTMM матрицы и др.). Расширенная модель валидизации как научного приключения. Непрямые результаты тестирования как основания обсуждать новый компонент валидности – социальные последствия тестирования. Неполная репрезентативность и конструктно-нерелевантная дисперсия в тестовых показателях. Невалидное использование теста. Конструкная валидизация как база для Унифицированной модели валидности. Подход к валидности как к аргументу.
- Разработка и моделирование тестовых заданий с выбором ответаЭтапы разработки инструмента. Разработка спецификации теста и разработка заданий с выбором ответа. Виды заданий, выбор ответных категорий. Применение универсального дизайна при разработке инструмента. Как представлять свидетельства и тестовые задания таким образом, чтобы они отвечали особым потребностям некоторых студентов, как разработать вопросы, чтобы подходили как можно большему количеству разработчиков теста. Справедливость оценивания. Полевое исследование и его цели. Использование когнитивных лабораторий, цели и общие процедуры проведения. Роль полевого исследования в ситуации адаптации инструмента и обосновании кроскультурной конструктной валидности. Выборка для полевого исследования.
- Классическая теория тестированияХарактеристики тестовых заданий. Типы тестовых баллов. Классическая теория тестирования (КТТ): предположения, модели, ограничения. Концепция надежности в КТТ. Процедуры и методы вычисления надежности результатов тестирования (формула альфа Кронбаха; метод расщепления, тест-ретест). Концепция и ошибки измерения истинного тестового балла. Проблема надежности шкалы. Способы оценки надежности: ретестовая, split-half, альфа Кронбаха. Связь надежности и ошибки измерения в классической тестовой теории. Ограничения альфа Кронбаха и альтернативные возможности (омега Макдональда и др.). Анализ главных компонент и эксплораторный факторный анализ. Анализ главных компонент: цель и подход, общее представление о математических процедурах. Различия в задачах и результатах анализа главных компонентах и собственно факторного анализа. Вращения: ортогональные, косоугольные, бифакторный. Математическая эквивалентность разных видов вращения. Факторные оценки: проблема определённости факторных оценок и подходы к их расчёту. Критерии определения количества факторов.. Содержательные различия между структурами с разным количеством измерений (в методы главных компонент и факторном анализе). Иерархические структуры данных и факторный анализ. Сравнение факторных структур: проблема инвариантности. Оценка метрической инвариантности с использованием прокрустова вращения и коэффициентов сходства факторов (коэффициент пропорциональности фи Такера и др.). Различия между моделью эксплораторного и конфирматорного факторного анализа. Индексы соответствия. Вложенные модели: EFA, ESEM, CFA. Решение проблемы инвариантности измерений с помощью мультигруппового КФА: этапы и процедуры. Анализ качества заданий по итогам апробации. Рекомендации по удалению и переработке заданий. Модификация заданий и наборов заданий на основе эмпирических свидетельств.
- Введение в современные методыМодели Раша. Обзор основных моделей Раша. Примеры. Карты переменных. Принципы измерений при построении тестов и шкал. Понятие характеристической кривой задания и характеристической кривой категории задания. Информационные функции. Оценивание параметров методами максимального правдоподобия. Отделение параметров. Процедура Ньютона-Рафсана. Исследование согласия экспериментальных данных тестирования с используемой моделью измерения в рамках моделей Раша. Статистики согласия, основанные на стандартизованных уклонениях. Свойства статистик согласия и их распределений. Исследование согласия: параллельный анализ, анализ принципиальных компонент остатков. Инвариантность параметров. Применение инвариантности для практических проблем тестирования. Современная теория тестирования (IRT). Однопараметрическая модель IRT – математическая репрезентация, предположения, свойства параметров. Двухпараметрическая модель IRT – математическая репрезентация, предположения, свойства параметров. Трехпараметрическая модель IRT – математическая репрезентация, предположения, свойства параметров. Оценивание параметров 1PL, 2PL и 3PL IRT моделей. Исследование согласия экспериментальных данных тестирования с используемой моделью измерения для IRT моделей.
Элементы контроля
- Участие в дисскусиях на семинарах
- Групповой проект
- Презентация результатов группового проекта
Промежуточная аттестация
- Промежуточная аттестация (I семестр)0.5 * Групповой проект + 0.3 * Презентация результатов группового проекта + 0.2 * Участие в дисскусиях на семинарах
Список литературы
Рекомендуемая основная литература
- Cheung, F. M., Van de Vijver, A. J. R. (Fons), & Leong, F. T. L. (2011). Toward a new approach to the study of personality in culture. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsbas&AN=edsbas.98AEBDE4
- Cronbach, L. J., & California Univ., L. A. C. for the S. of E. (2004). My Current Thoughts on Coefficient Alpha and Successor Procedures. CSE Report 643. Center for Research on Evaluation Standards and Student Testing CRESST. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=eric&AN=ED483410
- Dunn, T. J., Baguley, T., & Brunsden, V. (2014). From alpha to omega: A practical solution to the pervasive problem of internal consistency estimation. British Journal of Psychology, 105(3), 399–412. https://doi.org/10.1111/bjop.12046
Рекомендуемая дополнительная литература
- Allalouf, A., Rapp, J., & Stoller, R. (2009). Which Item Types are Better Suited to the Linking of Verbal Adapted Tests? International Journal of Testing, 9(2), 92–107. https://doi.org/10.1080/15305050902880686
- Behrens, J. T., Mislevy, R. J., Bauer, M., Williamson, D. M., & Levy, R. (2004). Introduction to Evidence Centered Design and Lessons Learned From Its Application in a Global E-Learning Program. International Journal of Testing, 4(4), 295–301. https://doi.org/10.1207/s15327574ijt0404_1
- Gierl, M. J., Lai, H., Pugh, D., Touchie, C., Boulais, A.-P., & De Champlain, A. (2016). Evaluating the Psychometric Characteristics of Generated Multiple-Choice Test Items. Applied Measurement in Education, 29(3), 196–210. https://doi.org/10.1080/08957347.2016.1171768
- Kim, Y. J., Almond, R. G., & Shute, V. J. (2016). Applying Evidence-Centered Design for the Development of Game-Based Assessments in Physics Playground. International Journal of Testing, 16(2), 142–163. https://doi.org/10.1080/15305058.2015.1108322
- Ludlow, L. H., Matz-Costa, C., Johnson, C., Brown, M., Besen, E., & James, J. B. (2014). Measuring Engagement in Later Life Activities: Rasch-Based Scenario Scales for Work, Caregiving, Informal Helping, and Volunteering. Measurement & Evaluation in Counseling & Development, 47(2), 127–149. https://doi.org/10.1177/0748175614522273
- Reckase, M. (2009). Multidimensional Item Response Theory. Dordrecht: Springer. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=edsebk&AN=287869
- Turilova-Miščenko, T., & Raščevska, M. (2011). Scientific Concepts Test in Latvian and Russian language: Evidence for reliability and validity. Baltic Journal of Psychology, 12(1), 73–83. Retrieved from http://search.ebscohost.com/login.aspx?direct=true&site=eds-live&db=asn&AN=71875931
- Using multivariate statistics, Tabachnick, B. G., 2007
- Теория и практика конструирования педагогических тестов : учеб. пособие, Челышкова, М. Б., 2002