Домашняя
Вверх
Метод тестов
Мех картина мира

 

Борисов В. В., МОУ СОШ № 22 п. Будукан

Облученский район, ЕАО, e-mail: irina_deryabina@mail.ru

ТЕМА: О НАДЕЖНОСТИ  ОЦЕНКИ ДОЛИ ЗНАНИЙ МЕТОДОМ ТЕСТОВ С ВЫБОРОМ ВАРИАНТА ОТВЕТА

В последнее время большое распространение получил метод контроля знаний на основе тестирования . Популярными являются "открытые тесты": тестируемый выбирает один или несколько ответов из перечня предлагаемых вариантов. К открытому тесту можно относится неоднозначно. Наряду с положительными моментами ,есть и отрицательные. Такой тест требует всего лишь распознавания правильного ответа , а это низкий уровень познавательной деятельности. При глубокой проверке знаний учащихся он не даст истинной картины знаний учащихся . Но для быстрого и поверхностного контроля знаний он вполне пригоден

Естественно напрашивается вопрос : " Какой должен быть тест ?"

Остановимся на аспекте -- точности определения уровня знаний подобными тестами. Анализ проведем средствами математической статистики. Для проверки расчетов предлагаем алгоритмы на БЕЙСИКЕ .

Принимаем следующие гипотезы:

1) Тестируемый владеет долей D материала, подлежашего контролю: 0<D<1.

Вероятность правильного ответа равна D

Вероятность чистого угадывания равна P ( если ответов 2 , то Р=1/2, если ответов 4,то Р=1/4 )

1. Двоичные тесты .

Пусть дан тест из серии вопросов с двоичными ответами ( да / нет ).

Число заданий равно N

Вероятность случайного угадывания не менее К верных ответов. (программы составлены на языке QBASIC )

PS=0

FOR  I = K   TO   N

            PS= PS + C(N,K)/2^N

NEXT

PRINT     PS

Где  C(N,K) = N! / K! / (N-K)!

Чтобы избежать переполнений , в начало строки вставить defext a - z

Сочетания удобно выполнять через логарифмы факториалов :

funktion C(N,K)

C= exp (AL(N) - AL(N-K))

end funktion

где

DIM AL(1000) ` массив логарифмов факториалов

AL(0)=0  ` ln(0!)=ln(1)=0

for I=1  to  1000   ` следующее через предыдущее :

AL(I)=AL(I-1)+ln(I)    ` I!=(I-1)!*I

next

Нуль - гипотеза о гадании отвергается при доверительной вероятности Р<0,05 для оценки о чистом гадании . Принимается гипотеза, что Тестируемый что-то знает.

В таблице приведены минимально допустимые частоты верных ответов при Р<0,05

таблица 1.

Всего ответов

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

Верных ответов

5

6

7

7

8

9

9

10

10

11

12

12

13

13

14

15

Итак, чтобы не было чистого гадания, необходимо задать минимум 5 вопросов и получить на них минимум 5 верных ответов. С ростом числа вопросов доля верных ответов несколько снижается , но остается высокой ( для 20 вопросов необходимо минимум 15 верных ответов ).

Это обычно расходится с интуитивными представлениями учителей об оценке знаний . Редкий учитель не поставит хотя бы 4 за 5 верных ответов из 5 . Но правильный вывод из этого то, что ученик не гадает , он просто что-то знает, доля знаний D>0, и только.

Необходимость правильных ответов на большинство вопросов двоичных тестов заставляет внимательно посмотреть на корректность самого теста.

Разработка качественных тестов, подбор вопросов, требующих ответа " да - нет", - дело весьма трудоемкое.

Отсюда следует вывод : либо использовать только педагогически надежные тесты, либо отказать двоичному тесту в доверии. Посмотрим теперь как оценить на двоичных тестах знания ученика, владеющего половиной материала подлежащего контролю. Тогда на половину вопросов он даст правильный ответ, а при ответе на вторую половину вопросов он будет гадать с равной вероятностью ответы " да - нет "

Тогда вероятность верного ответа составит:

P = 0,5 + ( 1 - 0,5) / 2 = 0,75

Вероятность PS дать не менее К верных ответов из N определится так:

PS=0

            FOR  I=K  TO  N                                          ` правый хвост

            PS= PS+ C(N,K) * P^K * (1-P) ^ (N-K)                 " распределениеБернулли”

NEXT

Нуль гипотеза такова: ученик знает не более половины материала. В таблице приведены минимально допустимые частоты верных ответов для двоичного теста при отказе от нуль - гипотезы

таблица 2

Всего ответов

11

12

13

14

15

16

17

18

19

20

Верных ответов

11

12

13

14

15

16

17

17

18

19

Видимо, чтобы удостовериться ,что ученик знает хотя бы половину материала , нужно задать не 5 вопросов ,а как минимум 11 и получить 11 верных ответов . А это и возможные результаты тестирования троечника и отличника, который знает весь материал и 11 вопросов недостаточно, чтобы их различить.

вывод :

Двоичный тест плохо различает различные уровни знаний и требует большего числа вопросов.

Выбор одного варианта ответа из нескольких. Четвертичные тесты.

Двоичный тест достаточно популярен у психологов . В нашем случае это практический предел для тестов с несколькими вариантами ответов. Если ,например, один из вариантов ответов четвертичного теста составлен не корректно, то он может отброшен тестируемым им тест превращается в троичный, а то и в двоичный.

пример:

Потенциальная энергия маятника, проходящего через положение равновесия :

1) максимальна         2) равна половине полной энергии

3) минимальна          4) равна полной энергии

Обычно предполагается, что все варианты ответов правдоподобны и "неразличимы для глаза " при отсутствии знаний.

Тесты с 4 вариантами ответов наиболее популярны. Вероятность Р полностью случайного угадывания одного верного ответа из 4 равна Р= 1/4. Легко видеть, что угадывать верные ответы на три вопроса теста при отсутствии знаний ( D=0 ) практически невозможно. Он быстро диагностирует отсутствие знаний на "отлично. ".

Вероятность верного ответа на один вопрос будет такой :

P= D + ( 1 - D ) / 4

В таблице приведены пары ( через символ " - " ) граничных значений для доли знаний тестируемого (в процентах) в зависимости от количества неверных (по горизонтали) и верных ( вертикали ) ответов  для четвертичного теста.

диапазоны доли знаний: ( D )

количество       количество неверных ответов

верных    

ответов       * 0-          1-                  2-                    3-                    4-                    5-

________________________________________________________________

 0+               0-100      0-94         0-71                0-51                0-37                0-27          

 1+               0-100      0-97         0-82                0-67                0-55                0-45

 2+               0-100     0-98           0-87               0-75                0-64                0-35

 3+              15-100     0-99         0-90                0-80                0-70                0-62

 4+              29-100    12-99        2-92                0-83                0-75                0-67

 5+              39-100    22-99       12-93               5-86                0-78                0-71

 6+              47-100    30-100     20-94              12-87               7-80                2-74

 7+              53-100    37-100     26-95              19-89              13-82               8-76

 8+              58-100    42-100     32-96              24-90              18-84              13-78

 9+              62-100    47-100     37-96              29-91              23-85              18-80

 

10+             65-100    51-100     41-96              34-92              27-87              23-82

11+             68-100    54-100     45-97              37-92              31-88              26-83

12+             70-100    57-100     48-97              41-93              35-88              30-84

13+             72-100    60-100     51-97              44-93              38-89              33-85

14+             74-100    62-100     54-97              47-94              41-90              36-86

15+             75-100    64-100     56-98              49-94              44-90              39-87

16+             77-100    66-100     58-98              52-95              46-91              41-87

Анализ таблицы:

1. В левом верхнем углу находятся низкие частоты ответов обоих типов -- верных и неверных. Им соответствует высокая неопределенность доли знаний : 0 -- 100%. Очевидно, что любая статистика не может снять фактическую неопределенность для доли знаний.

 

2. Неопределенность очень медленно уменьшается при движении по левому краю таблицы вниз: ( 8 верных ответов из 8 позволяют, что лишь доля знаний свыше 58%. Этих сведений совершенно недостаточно, чтобы поставить "пять", что как будто напрашивается. Даже знания на "четверку " согласуются с таким результатом.

 

3. Двигаясь вправо по верхнему краю таблицы, мы попадаем в область, которую можно понимать как ответы НАЗЛО, т. е.  тестируемый сам хочет "провалиться". Эта ситуация больше должна интересовать психологов и родителей учеников , но не нас. Вероятность дать случайно 5 и более неверных ответов мала.

4. Движение по вправо нижнему краю таблицы показывает быстрое падение нижней границы доли знаний при появлении даже малого числа неверных ответов. Так всего один неверный ответ уменьшает нижнюю границу с 77 до 66%.

 

5. Диагональ таблицы и данные ниже ее описывают наиболее важный для практики случай: небольшой перевес верных ответов над неверными -- ответы "троечников и хорошистов". Здесь виден очень большой разброс границ для доли знаний. Например: при 16 верных ответов и 5 верных ответов неопределенность доли знаний простирается от 41 до 87%, это явно неприемлемо, чтобы выставить какую либо оценку.

 

Естественный выход из ситуации -- продолжить опрос. Если даже удвоить тест, то и в этом случае при 32 верных ответах и 12 неверных неопределенность составит 46-78%. Это тоже много. Дело в том, что дисперсия теста убывает как корень из числа заданий.

Чтобы получит дисперсию в 10%, нужно около 100 вопросов. Тест такого большого объема утомит учащегося и он начнет давать действительно случайные ответы.

Вывод:

Тестирование на основе выбираемого ответа вообще не позволяет получить надежные оценки границ уровня знаний при реальных, ограниченных объемах теста. Быстро получается и более надежна лишь оценка полного, на 100%, знания тестируемого материала., но это редкая на практике ситуация.

Численные эксперименты показывают, что не является выходом и сильное увеличение числа вариантов ответа. Наращивание числа вариантов ответов мало что меняет в диагностической силе теста, лишь усложняя его разработку.

Ситуация с выбором ответа описана у А.П. Чехова в рассказе "Лошадиная фамилия" Герой мгновенно вспомнил фамилию отреагировав на прямую подсказку

Не нужно вдаваться в эйфорию в связи с формализованным , компьютерным тестированием, особенно на основе выбора ответа. Более надежным остается опрос педагога , пусть и субъективным. Один ответ на вопрос учителя " Почему Вы так считаете?" неизмеримо информативнее выбора ответа из сколь угодно длинной серии вариантов ответа. Не случайно опытные педагоги могут оценить уровень знаний учащегося по двум- трем его содержательным фразам. Спутником отличной оценки является  также владение внутрипредметными и межпредметными связями, умение переносить знание. А это можно выявить лишь через анализ процесса практической деятельности учащегося, а не через выбираемые готовые ответы на унылые серии отнотипных вопросов.

Домашняя Далее