Video Thumbnail

How to measure education progress

Inna Antipkina25:17
https://www.youtube.com/watch?v=ytxt0GcWc2c

Содержание

Краткое резюме

  • Измерение образовательного прогресса — задача сложная и не сводится к простому сравнению результатов тестов.
  • Стандартный подход с повторным использованием одних и тех же тестов приводит к проблемам эффектов потолка и пола, а также искажению результатов из-за запоминания.
  • Решение — разделение параметров ученика (способности) и параметров заданий (сложности) с помощью моделей, основанных на теории отклика на задание (IRT).
  • Основная идея: вероятность правильного ответа зависит от взаимодействия способности ученика и сложности задания, что позволяет проводить сравнения разных тестов и длительных периодов.
  • Для сравнения прогресса используются общие (перекрывающиеся) задания или связующие тесты, что помогает создавать единый масштаб оценки и избегать ошибок.
  • Эти методы применяются в масштабных системах мониторинга, позволяя отслеживать прогресс ученика от начальной школы до старших классов, обеспечивая как качественный, так и количественный анализ.

Как измерить образовательный прогресс?

Проблема базовых методов

Нам кажется, что измерить прогресс просто: сравнить результаты тестиров на начало и конец периода — например, кто прыгнул выше — тот и лучше. Однако в образовании это не так очевидно.

Типичный метод — использование тестов, в широком смысле — любых заданий, проверяющих навыки или умения. Если дать один и тот же тест дважды, и второе прохождение будет лучше, значит прогресс есть. Но этот метод работает только на коротком временном интервале.

Эффекты пола и потолка

Если период обучения длинный — например, несколько лет — и использовать один и тот же тест, возникают проблемы:

  • Эффект потолка: тест слишком простой для старшеклассника — оценки сжимаются в верхнем диапазоне.
  • Эффект пола: тест слишком сложен для начинающего — оценки сжимаются в нижнем диапазоне.

Также бывает ситуация, когда оба эффекта проявляются, если тест ориентирован на средний уровень.

Это мешает объективно измерить реальный прогресс, так как баллы искажаются.

Повторное тестирование и его подводные камни

Если измерения проводить чаще, возникает другая проблема: ученики запоминают задания и учатся просто отвечать на них, а не развивают навыки. Это снижает надёжность результатов.

Для решения предлагают менять содержание тестов. Но тогда сравнивать баллы становится некорректно, потому что разные задания проверяют разные умения — сравниваются «яблоки и апельсины».


Теория отклика на задание (IRT) и разделение параметров

Появляется идея разделить:

  • Параметр ученика — его способность (latent ability).
  • Параметр задания — его сложность (item difficulty).

Они выступают как два «соперника» в борьбе за правильный ответ. Вероятность правильного ответа — функция их взаимодействия.

Ключевые предположения

  • Способность ученика нельзя напрямую наблюдать, её необходимо оценивать на основе ответов.
  • Трудность задания также скрыта и определяется на основе статистики прохождения.
  • Способность и сложность сопоставимы — их можно разместить на одной шкале.

«Человек и задание — словно два борца: один пытается преодолеть сложность, другой — устоять.»

Для каждого ученика вероятность дать правильный ответ по формуле, зависящей от разницы между его способностями и заданием.


Применение модели Раша (Rasch Model)

Самая простая версия — модель Раша, где вычисляется разница между способностью ученика ((\theta)) и сложностью задания ((\delta)).

  • Если (\theta > \delta), вероятность правильного ответа больше 50%.
  • Если (\theta < \delta), вероятность ниже 50%.

Пример показывает, что у одного ученика могут быть отличные шансы пройти лёгкие задания и маленькие — сложные.

Пример визуализации

  • 6 заданий с разной сложностью.
  • Один ученик «располагается» на шкале способностей.
  • Отсюда можно смело говорить, какие задания ученик с большой вероятностью решит.

Измерение прогресса на длинных интервалах и проблемы с тестами

Как же измерить прогресс через годы?

  • Менять часть заданий, но оставлять общие (закрепленные) — «якорные» задания между тестами.
  • Это создает общий масштаб, позволяющий сравнивать способности ученика в разные моменты времени.
  • Частое полное повторение заданий исключается, уменьшая влияние запоминания.

Еще один приём — использование link-тестов, которые распределяются между разными группами для установления общей шкалы без необходимости давать всем взрослым одинаковые задания.


Практическое применение: национальные программы и отчеты

Пример: голландская программа мониторинга «pupil monitoring system» отслеживает прогресс учеников с 1 по 12 класс.

  • Используется общий масштаб на основе теории отклика на задание.
  • Позволяет видеть траекторию обучения каждого ученика.
  • Отчёты включают качественные категории и количественные оценки.

«Мы можем наблюдать, как ученик после спада в успеваемости пытается компенсировать упущенное и вновь улучшает свои результаты.»


Заключение

  • Разделение параметров учеников и заданий позволяет эффективно оценивать образовательный прогресс.
  • Использование общих заданий и моделей IRT решает многие проблемы стандартных тестов.
  • Эти подходы лежат в основе современных систем тестирования и учебной аналитики.
  • Следующий шаг — выявлять факторы, которые помогают или мешают развитию способностей учеников, что также возможно благодаря этим моделям.

🎓