1.3. Критерии качества тестов

Научно обоснованный тест – это метод, соответствующий установ­лен­ным стандартам

надежности ивалидности.

Традиционно выделяются два основных критерия качества тестов. Пер­вый из них

связан спонятием точности измерений и известен, главным, обра­зом, в виде

понятия надежности теста.

Качество педагогического контроля в вузе зависит не только от надеж­ности

используемых методов, но и от их валидности. Валидность теста — его

пригодностьдля достижения поставленной цели: пригодность по содержанию,

пригодность к применению в конкретных обстоятельствах, пригодность по

какому-либо критериюили, что то же самое, характеристика его способности изучать

то, что он должен изучать по замыслу авторов.[1]

1.3.1. Надежность тестов.

Существует несколько практи­ческих способов определения надежности теста.

Самыйбезупречный со статистиче­ской точки зрения метод определения надежности –

это корре­лирование двух параллельных тестов, созданных для измерения одного и

тогоже свойства.

Суть корреляции состоит в том, что из полученной каждым сту­дентом суммы баллов

вычитаетсяровно то число, которое может быть угадано в со­ответствии с теорией

вероятностей. Корреляция осуществляется с помощью соотношения:

 ,

где - скорректированный на догадку тестовый балл испытуемого;

- число правильных ответов, полученных испытуемым в тесте;

- число неправильных ответов;

- число готовыхответов в заданиях теста.

Эта формула применяется к заданиям с одинаковым числом готовых ответов.

Интуитивно наиболее понятный и простой способ определения на­деж­ности теста –

это двукратное, по меньшей мере, использованиеодного и того же теста в той же

самой группе студентов. Результаты обоих опро­сов анализируются с целью поиска

корреляции между ними. Данный метод имеет своидостоинства и недостатки.

Достоинства заключаются в сравнительной простоте его использования, ясности

основных посылок, лежащих в определении надежности,простоте расчетов. К

недос­таткам можно отнести неопределенность в выборе вре­менного интервала

ме­жду первым и вторым опросами. Этот интервал мо­жет колебаться отне­скольких

минут до нескольких дней, месяцев и даже лет.

Надежность тестов достаточно просто оценить в гомогенных тестах. Однако, оценка

надежности за­метно осложняется в гетерогенных тестах.Осложнение вызвано главным

образом некоррелируемостью (или слабой коррелируемостью) гомогенных тестов между

собой. Соответственно ответыстудентов на задания одного гомогенного теста, как

правило, редко коррелируют с ответами на задания другого. Отсутствие же

корреляции ме­шает всякой надежде намало-мальски заметную надежность теста в

целом.

Все методы оценки надежности теста основаны на разных теоретических положе­ниях,

но все они призваныответить на один и тот же вопрос – насколько точны

проведенные измерения? Само понятие "точность" в каждом случае оценки

приобретает несколько отли­чающийсясмысл.

Имеются, по меньшей мере, два источника погрешностей, мешающие говорить об

абсолютной надежности теста. Первый источниксвязан с выбор­кой испытуемых. Вряд

ли можно найти две такие выборки, в которых тесто­вый опрос был бы одинаково

надежным. Скорее всего, значения варьировалибы от выборки к выборке в некоторых

пределах в соответствии с законом нормального распределения. Уже одно это

призывает к осторожности в ин­терпретациикоэффициента надежности. Вместо

выражения «надежность теста» мы вынуждены использовать другое, более точное –

"полученная в данной выборке оценканадежности теста".

Второй источник погрешностей – в формулировании и отборе заданий. Если мы

примем небезосновательноепредположение о детерминации (в ста­тистическом смысле)

или, иначе, о зависимости конкретных результатов из­меренияот истинных,

присущих данным испытуемым в идеальных усло­виях, то коэффициент надежности

удобно интерпретировать как коэффициент детерминации.[1]

1.3.2. Валидность тестов.

в отличие от надежности, определение которой сводится к выбору одной из

множестварасчетных схем, обоснование валидности теста пред­ставляет собой задачу

методологического характера. Как и обоснование лю­бой деятельности,

процессвалидизации начинается с уточнения цели и кон­кретных задач

педагогического контроля. Если ставится цель проверить зна­ния студентов по

какой-либодисциплине и при этом не важно, каким мето­дом это надо будет сделать,

то легко понять, что эта цель может быть дос­тигнута посредством использования

зачетов,экзаменов, курсовых и диплом­ных работ. Эти и другие методы неравноценны

с точки зрения объективности и качества оценки, и потому вопрос о

валидностилегко переводится в праг­матическую плоскость оценки сравнительной

пригодности того или иного метода длядостижения поставленной цели.

Тест может быть валидным, если помимо прочих требований средние результаты

соответствуютбольшей части студентов, а сами данные рас­пределяются по

нормальному закону. Если это условие не выполняется, то тест считается

невалидным с точки зрениясоответствия стандартам распреде­ления. Именно отсюда

возникает стремление разработчиков тестов добиваться нормальности распределения

за счет варьированиячисла легких и трудных заданий.

Если в тесте нет достаточного числа легких и трудных заданий, то воз­никает

вопрос о его сбалансированности по трудности, тоесть обычно в тесте должно быть

больше заданий средней трудности и несколько меньше от­кровенно легких или

трудных заданий. В процессе создания теста мератруд­ности регулярно проверяется

на случайной выборке из того контингента, для которого тест предназначается. В

сбалансированном тесте легко добиваютсянормальности распределения. Дальнейшее

совершенствование идет по пути замены ряда заданий, ответы на которые нарушают

нормальность распреде­ления. Трудностьзаданий влияет на надежность и валидность.

Если тест очень трудный, то студенты чаще вынуждены догадываться – какой ответ

правиль­ный. Но чем чаще ониприбегают к догадке, тем больше распределение

ре­зультатов теста приближается к случайному распределению. Поэтому при­годность

теста для оценки всей массыстудентов будет тем ниже, чем труднее тест. Такое же

влияние на надежность, – но по другой причине – оказывает легкий тест, в котором

студенты, наоборот,догадываются редко, их ответы устойчивы, но почти нет

различий между испытуемыми.

Валидность теста существенно зависит от его разли­чающей способности. Если

десять человекв группе получают «отлично», та­кая оценка не позволяет различать,

кто из этих десяти лучше, а кто несколько хуже знает предмет. Различающая

способность темвыше, чем меньше одина­ковых оценок студенты по нему получают.

Следовательно, тем больше ва­риация результатов и более чувствительна шкала к

индивидуальнымразли­чиям. Поэтому повышению различающей способности теста (РСТ)

в стадии его создания уделяется большое внимание. При этом применяются несколько

методов:

1.Регулирование по времени тестирования; чем больше стандартное от­клонение, тем

больше различающая способность теста.


Информация о работе «Методика составления тестовых заданий по курсу "Механика"»
Раздел: Информатика, программирование
Количество знаков с пробелами: 42992
Количество таблиц: 0
Количество изображений: 0

Похожие работы

Скачать
20020
4
0

... с тестами В процессе преподавания важное значение имеют закрепление изученного материала и контроль результатов учебной деятельности, позволяющие определить уровень достижений каждого учащегося. Одним из современных вида контроля знаний и умений, а также развития умственных способностей учеников являются тесты с выбором правильного ответа. Удобно проводить проверку выполнения домашней работы ...

Скачать
72487
0
0

... фундаментальными, хотя все они в определенной степени способствовали развитию физики в прошлом и настоящем. Было бы полезно систематизировать многочисленные исторические наблюдения и опыты, входящие в курс физики средней школы (и те, которые, по нашему мнению, должны войти в будущем), по их функциональному признаку – реализации определенной задачи и значению в развитии физической науки. Класс ...

Скачать
144436
9
0

... : а) первый уровень (1–4 классы) – безопасность школьника; б) второй уровень (5–9 классы) – безопасность личности; в) третий уровень (10–11 классы) – безопасность жизнедеятельности личности, общества и государства. Преподавание основ безопасности жизнедея­тельности на каждой ступени общеобразователь­ной школы имеет свои особенности. В начальной школе особенностью является то, что у младших ...

Скачать
52511
3
7

... , анализ, прогноз не носят завершающего цикла. В диссертации проанализированы причины, вызывающие затруднения у руководителей вуза и преподавателей по использованию технологий адаптивного компьютерного тестирования в профессиональной деятельности. Теория педагогических измерений в современных условиях внедрения государственных образовательных стандартов – это качественно новый этап в развитии ...

0 комментариев


Наверх