Содержание
- Краткое резюме
- Как измерить образовательный прогресс?
- Теория отклика на задание (IRT) и разделение параметров
- Применение модели Раша (Rasch Model)
- Измерение прогресса на длинных интервалах и проблемы с тестами
- Практическое применение: национальные программы и отчеты
- Заключение
Краткое резюме
- Измерение образовательного прогресса — задача сложная и не сводится к простому сравнению результатов тестов.
- Стандартный подход с повторным использованием одних и тех же тестов приводит к проблемам эффектов потолка и пола, а также искажению результатов из-за запоминания.
- Решение — разделение параметров ученика (способности) и параметров заданий (сложности) с помощью моделей, основанных на теории отклика на задание (IRT).
- Основная идея: вероятность правильного ответа зависит от взаимодействия способности ученика и сложности задания, что позволяет проводить сравнения разных тестов и длительных периодов.
- Для сравнения прогресса используются общие (перекрывающиеся) задания или связующие тесты, что помогает создавать единый масштаб оценки и избегать ошибок.
- Эти методы применяются в масштабных системах мониторинга, позволяя отслеживать прогресс ученика от начальной школы до старших классов, обеспечивая как качественный, так и количественный анализ.
Как измерить образовательный прогресс?
Проблема базовых методов
Нам кажется, что измерить прогресс просто: сравнить результаты тестиров на начало и конец периода — например, кто прыгнул выше — тот и лучше. Однако в образовании это не так очевидно.
Типичный метод — использование тестов, в широком смысле — любых заданий, проверяющих навыки или умения. Если дать один и тот же тест дважды, и второе прохождение будет лучше, значит прогресс есть. Но этот метод работает только на коротком временном интервале.
Эффекты пола и потолка
Если период обучения длинный — например, несколько лет — и использовать один и тот же тест, возникают проблемы:
- Эффект потолка: тест слишком простой для старшеклассника — оценки сжимаются в верхнем диапазоне.
- Эффект пола: тест слишком сложен для начинающего — оценки сжимаются в нижнем диапазоне.
Также бывает ситуация, когда оба эффекта проявляются, если тест ориентирован на средний уровень.
Это мешает объективно измерить реальный прогресс, так как баллы искажаются.
Повторное тестирование и его подводные камни
Если измерения проводить чаще, возникает другая проблема: ученики запоминают задания и учатся просто отвечать на них, а не развивают навыки. Это снижает надёжность результатов.
Для решения предлагают менять содержание тестов. Но тогда сравнивать баллы становится некорректно, потому что разные задания проверяют разные умения — сравниваются «яблоки и апельсины».
Теория отклика на задание (IRT) и разделение параметров
Появляется идея разделить:
- Параметр ученика — его способность (latent ability).
- Параметр задания — его сложность (item difficulty).
Они выступают как два «соперника» в борьбе за правильный ответ. Вероятность правильного ответа — функция их взаимодействия.
Ключевые предположения
- Способность ученика нельзя напрямую наблюдать, её необходимо оценивать на основе ответов.
- Трудность задания также скрыта и определяется на основе статистики прохождения.
- Способность и сложность сопоставимы — их можно разместить на одной шкале.
«Человек и задание — словно два борца: один пытается преодолеть сложность, другой — устоять.»
Для каждого ученика вероятность дать правильный ответ по формуле, зависящей от разницы между его способностями и заданием.
Применение модели Раша (Rasch Model)
Самая простая версия — модель Раша, где вычисляется разница между способностью ученика ((\theta)) и сложностью задания ((\delta)).
- Если (\theta > \delta), вероятность правильного ответа больше 50%.
- Если (\theta < \delta), вероятность ниже 50%.
Пример показывает, что у одного ученика могут быть отличные шансы пройти лёгкие задания и маленькие — сложные.
Пример визуализации
- 6 заданий с разной сложностью.
- Один ученик «располагается» на шкале способностей.
- Отсюда можно смело говорить, какие задания ученик с большой вероятностью решит.
Измерение прогресса на длинных интервалах и проблемы с тестами
Как же измерить прогресс через годы?
- Менять часть заданий, но оставлять общие (закрепленные) — «якорные» задания между тестами.
- Это создает общий масштаб, позволяющий сравнивать способности ученика в разные моменты времени.
- Частое полное повторение заданий исключается, уменьшая влияние запоминания.
Еще один приём — использование link-тестов, которые распределяются между разными группами для установления общей шкалы без необходимости давать всем взрослым одинаковые задания.
Практическое применение: национальные программы и отчеты
Пример: голландская программа мониторинга «pupil monitoring system» отслеживает прогресс учеников с 1 по 12 класс.
- Используется общий масштаб на основе теории отклика на задание.
- Позволяет видеть траекторию обучения каждого ученика.
- Отчёты включают качественные категории и количественные оценки.
«Мы можем наблюдать, как ученик после спада в успеваемости пытается компенсировать упущенное и вновь улучшает свои результаты.»
Заключение
- Разделение параметров учеников и заданий позволяет эффективно оценивать образовательный прогресс.
- Использование общих заданий и моделей IRT решает многие проблемы стандартных тестов.
- Эти подходы лежат в основе современных систем тестирования и учебной аналитики.
- Следующий шаг — выявлять факторы, которые помогают или мешают развитию способностей учеников, что также возможно благодаря этим моделям.
🎓