General
Мокрієв М.В.
Національний університет біоресурсів і природокористування України
Аналіз тестових завдань засобами Moodle
Постановка проблеми. Для сучасного розвитку системи освіти України характерними є модернізація та спрямованість до західного зразка освіти, як такого, що добре зарекомендував себе в розвитку. Також приєднання України до Болонського освітнього процесу стимулює входження до європейського освітнього та наукового простору. В рамках цього процесу передбачається провести певні зміни, які повинні забезпечити підвищення якості підготовки фахівців. Необхідною умовою є розвиток та вдосконалення форм і методів контролю навчальних досягнень, які реалізують зворотній зв’язок у навчанні. Однією з форм автоматизованого контролю є комп’ютерне тестування – процедура, що дозволяє отримати об’єктивну, оперативну та достовірну інформацію про знання студентів, отримані в процесі навчання, про готовність до сприйняття нового матеріалу. І хоча безумовно тестування не повинно бути єдиним способом контролю, проте в багатьох випадках допомагає провести його швидко.
Аналіз останніх досліджень. Удосконалення навчального процесу у ВНЗ безпосереднім чином пов’язано з упровадженням інноваційних технологій у процес навчання. Однією з таких інновацій є запровадження тестування за допомогою комп’ютерного алгоритмічно-програмного забезпечення.
Проведення тестування з використанням різних комп1ютерних систем має перевагу у тому, що дає змогу опитати багатьох студентів з різних предметів пройшовши весь матеріал використовуючи ті ж самі умови та однакову шкалу оцінок. При цьому значно скорочується час перевірки знань студентів, автоматизується процес обробки результатів тестування, знижується навантаження на викладача [1].
Процес підготовки тестів, описаний в багатьох літературних джерелах, передбачає, що складання тесту повинно проходити ряд етапів: визначення цілей тестування, визначення ресурсних можливостей розробників, відбір змісту навчального матеріалу, конструювання технологічної матриці і її експертиза, складання тестових завдань та їх експертиза, побудова вибірки для апробації завдань і тестів, компонування завдань для апробації, апробація тестових завдань, визначення і розрахунок показників якості тестових завдань, відбракування завдань і складання тесту, апробація тесту, визначення і розрахунок показників якості тесту, складання остаточного варіанта тесту, стандартизація тесту, нормування тесту, оснащення тесту [2, с. 48].
Важливим аспектом комп'ютерного тестування - є наявність уніфікованого інструментарію, призначеного для комфортної та ефективної роботи з тестами викладачів для студентів [3]. Одним варіантів такого інструментарію є використання модуля тестування в системі Moodle.
Moodle має можливість підготувати тестові завдання різноманітної складності, організувати тестування з підготовкою максимально об’єктивних та однакових для всіх студентів білетів. А також провести аналіз результатів. І це може бути використано як для апробації тесту та аналізу його підготовки, так і для подальшого аналізу рівня підготовки студентів.
Постановка завдання. Тестування в системі Moodle включає в себе модуль статистичного аналізу результатів тестування. Мета доповіді - повноцінне визначення статистичних показників цього модуля та пояснення їх інтерпретації. Також додатковим завданням є удосконалення українського перекладу інтерфейсу вказаного модуля.
В доповіді розглядається тільки результати аналізу тесту.
Виклад основного матеріалу. Кухар Л.О. та Сергієнко В.П. у своєму курсі лекцій “Конструювання тестів” виділяються 16 етапів якісного створення тесту. І те, що припадає на апробацію, як тестових завдань, так і тестів, може бути вирішено за допомогою Moodle.
Апробація є одним з важливих компонентів будь-якої системи екзаменування, що проводиться з метою оцінки професійних компетенцій. Завдяки коректному використанню апробації підвищуються показники якості екзаменування (валідність, надійність, об'єктивність, обґрунтованість, ефективність та прийнятність).
Moodle дозволяє оцінити загальний результат по тесту. Також, порівняти результати окремої групи із загальним результатом. А побудова відразу графіку результатів дозволяє побачити розподіл відповідей та наскільки він відрізняється від нормального розподілу. Графік дозволяє відзначити явні аномалії (хоча деякі з них можуть показувати проблеми з проведенням тестування, а не власне тестом), побачити, наскільки загалом складним чи легким був тест для групи. Відразу розраховані статистичні показники дозволяють ще глибше зануритися в аналіз.
А глибше є аналіз кожного запитання. Moodle зокрема аналізує питання те тільки окремо, а й в контексті тесту: де питання було в структурі - на початку, в середині чи в кінці.
Для оцінки результату тестування групи студентів достатньо перейти до Керування -» Керування тестом -» Результат -» Огляд. [4] В цьому випадку можна побачити успіхи студентів. Як кожного окремо (рис. 1), так і в загальному (рис.2.)
Рисунок 1 — Результати тестування студентів в розрізі кожного тестового завдання
Рисунок 2 - Гістограма кількості студентів за визначеними балами
Для налаштування видачі даних, які ми хочемо аналізувати, потрібно на початку сторінки вказати необхідні параметри (рис. 3).
Рисунок 3 — Налаштування подачі результатів тестування студентів
Як видно з рис.2, студенти проходять тестування з майже нормальним розподілом (з невеликим зсувом вліво). Нормально, коли вся кількість потрапляє в межі від 50 до 100% після проходження навчання за темами тестування.
Проте, наскільки наш тест та кожне запитання окремо відображають реальні знання студентів можна більше сказати, якщо перейти до сторінки статистичного аналізу тесту: Керування -» Керування тестом -» Результат -» Статистика.
В даній системі використовуються статистичні показники, які обчислюються з використанням класичної (СТТ – Classical Test Theory) та сучасної теорії тестів (IRT – Item Response Theory). Теоретичні основи цих теорій описані у роботі [5].
Відразу ми маємо дві таблиці аналізу та графік [6].
Перша таблиця подає загальну інформацію про тест. Тут, крім стандартних даних (назви курсу, назви тесту, дати початку та закінчення тестування, часу доступності тестування) подаються загальні статистичні показники по всьому тесту (Рис.4).
Рисунок 4 — Статистичний аналіз тесту в цілому.
Кількість перших та всього спроб — інформація про те, скільки людей було протестовано.
Середній бал з перших, останніх та зі всіх спроб, а також середній бал з найвище оцінених спроб — у випадку, якщо ви дозволяєте студентам проходити тестування кілька разів, то якісний поступ буде показувати збільшення середньої оцінки останніх спроб у порівнянні з першими. Відсутність прогресу може означати, що студенти не навчаються, або тест не репрезентує їхні знання. Проте, якщо різниця між всіма спробами та першими спробами невелика, то різницю в середніх балах побачити важко. Нормальний середній бал повинен потрапляти в межі 50-75%. Якщо ж середній бал виходить за ці межі, потрібно детальніше аналізувати результати. Також потрібно пам’ятати, що в навчальних тестах (де результат отримується не в кінці тестування, а після кожної відповіді) середнє значення буде дещо більшим.
Медіана — середина між найменшим та найбільшим значенням. При нормальному тестові бали половини студентів повинні бути меншими за це значення.
Стандартне відхилення — визначає розкид балів по відношенню до середньої величини. Нормальне очікування для цих значень знаходиться в межах 12-18%. Менше значення означає, що оцінки занадто скупчилися.
Значення асиметрії розподілу — визначає наскільки крива нормального розподілу нахилена вліво або вправо. Нульове значення означає абсолютну симетрію. Позитивне значення означає, що вершина нахилена ліворуч, а негативне — що праворуч. Тобто, в першому випадку тест в цілому був складним для групи студентів, а в другому — легкий. Якщо вершина занадто відхилена, то потрібно детальніше проаналізувати тест для його виправлення.
Значення ексцесу розподілу — визначає міру сукупчення результатів учасників тестування. Ексцес визначає “крутизну” кривої розподілу. Для нормального розподілу значення ексцесу дорівнює нулю. Потрібно намагатися, щоб це значення було в межах 0-1. Якщо значення більше, то це означає, що студенти здають тест однаково і це не дозволяє диференціювати кращих та гірших.
Коефіцієнт внутрішньої узгодженості (КВУ)— показує внутрішню узгодженість між окремими питаннями та тестом в цілому. Внутрішня узгодженість тесту — характеристика тесту, яка вказує на ступінь однорідності завдань тесту. Якщо значення більше 75%, то тест є задовільним. Якщо ж значення менше 64%, то тестування в загальному є незадовільним і потрібно його переглянути на коректність запитань. Потрібно довести стан тесту до такого стану, при якому кожне тестове завдання корелюється з тестом загалом і при цьому мінімально корелюється з іншими завданнями.
Співвідношення помилок (СП)— це значення пов’язане з коефіцієнтом внутрішньої узгодженості і визначає відсоток стандартного відхилення, що може трапитися через випадковості, а не в результаті відмінності між знаннями студентів. Значення понад 50% не може вважатися задовільним, оскільки вказує на велику ймовірність випадковості у результатах тестування.
Таблиця 1 — відношення між коефіцієнтом внутрішньої узгодженості та співвідношенням помилок
КВУ
100
99
96
91
84
75
64
51
СП
0
10
20
30
40
50
60
70
Стандартна помилка — оцінює, на скільки стандартне відхилення відбувається через випадкові ефекти і є мірою невизначеності в оцінці будь-якого даного студента. Чим менша стандартна помилка, тим більш достовірною є оцінка. Якщо значення значно перевищує 8%, цілком ймовірно, що значна частина студентів оцінюються помилково, то тому сенсі, що їх оцінки не відповідають їхнім знанням.
Відповідно будь-які суттєві відхилення від норми означають потребу в детальному аналізі кожного тестового завдання. І такий аналіз система Moodle надає в таблиці нижче (Рис.5).
Рисунок 5 — Аналіз кожного тестового запитання в структурі тесту
В таблиці перші 5 колонок позначають номер за порядком, тип тестового завдання, перегляд, редагування завдання, означення запитання та кількість спроб, в яких використовувалося це запитання. А далі йдуть статистичні дані.
Успішність — значення, яке вказує наскільки це конкретне запитання було легким чи складним для студентів. Всі крайні значення є дуже небажаними. Якщо значення 100%, то це означає, що дане запитання є занадто легким і всі на нього відповідають правильно. Натомість 0% означає, що ніхто не зміг відповісти на запитання , а це значить, що воно є заскладним. І в одному і в другому випадку запитання потрібно викидати з тесту, або суттєво переробити. В таблиці 2 пропонується диференціація тестових запитань в залежності від критерію успішності.
Таблиця 2 — Пояснення різних коефіцієнтів успішності тестового завдання
Успішність
Інтерпретація
Менше 5
Занадто складне запитання або щось із ним не так (як варіант, помилка в оформленні запитання)
6-10
Дуже складне запитання
11-20
Складне запитання
20-34
Помірно складне запитання
35-64
Запитання середньої складності
66-80
Помірно легке запитання
81-89
Легке запитання
90-94
Дуже легке запитання
95-100
Занадто легке запитання
Відповідно тест потрібно складати так, щоб він не складався лише з легких або лише зі складних запитань.
Стандартне відхилення — як і те, що ми розглядали раніше, але тепер відноситься до конкретного запитання. Занадто мале або занадто високе значення є поганим.
Оцінка відповіді навмання — показує ймовірність правильної відповіді на запитання методом вгадування. Відповідно найменше значення отримають відкриті запитання, а найбільше значення питання типу ТАК-НІ. Тож останніх повинно бути в тесті не багато.
Призначена вага - вага тестового завдання, виражена у відсотках від загальної оцінки тесту. Якщо запитання оцінюються однаково, наприклад, в 1 бал, то призначена вага буде для всіх однаковою. У випадку, якщо визначено різну складність запитань і, відповідно, різні бали, матимемо різну призначену вагу.
Ефективна вага — оцінка ваги запитання, яка справді впливає на оцінку. Сумарно ефективна вага повинна давати 100%. Призначена вага і ефективна вага призначені для порівняння. Якщо ефективна вага більше, ніж передбачувана вага, то це запитання має більшу частку в підсумковій оцінці, ніж, можливо, було задумано.
Індекс дискримінації - є індикатором здібності конкретного тестового завдання відокремити найбільш здібних осіб, які проходять тестування, від менш здібних. Цей параметр приймає значення від 100% (всі особи з сильної групи відповіли правильно, а з слабкої - неправильно) та -100% (всі особи з сильної групи відповіли неправильно, а з слабкої - правильно). Від'ємні значення індексу свідчать про те, що слабкі студенти відповідають на дане тестове завдання краще, ніж сильні. Такі тестові завдання повинні бути вилученими з тесту, про що свідчить підсвічування червоним кольором такого запитання. Фактично такі тестові завдання зменшують точність всієї процедури тестування.
Таблиця 3 — Критерії індексу дискримінації тестових завдань
Значення індексу дискримінації, %
Висновок
Понад 50
Нормальна дискримінація
30-50
Можливе невелике коригування запитання
20-29
Запитання потрібно переглянути та переробити
0-19
Запитання потрібно вилучати з тесту або суттєво переробити
від’ємне значення
Запитання потрібно вилучати з тесту
Коефіцієнт дискримінації - є коефіцієнтом кореляції між множиною значень відповідей, які отримані студентами на конкретне тестове завдання, з результатами виконання ними тесту в цілому. Цей параметр також може приймати значення між +100% та -100%. Позитивні значення відповідають тестовим завданням, які дійсно розділяють добре та не добре підготовлених студентів. Від'ємні значення коефіцієнта свідчать про те, що слабо підготовлені студенти відповідають на тестове завдання в середньому краще ніж добре підготовлені. Тестові завдання з від'ємним значенням коефіцієнта потребують вилучення. Вони не відповідають вимогам задачі тестування, яка зв'язана з оцінкою рівня підготовки студентів. Перевагами коефіцієнта дискримінації відносно індексу дискримінації є те, що він використовує усі результати вибірки учасників, а не лише результати сильної і слабкої групи. Отже, цей параметр є ефективнішим для визначення якості тестових завдань.
Максимальна дискримінація вимагає успішності відповідей на запитання в діапазоні 30% - 70% (хоча таке значення не є гарантією високого індексу дискримінації). Коефіцієнт дискримінації буде дуже рідко досягає 100%, але значення, що перевищують 50%, повинні бути досяжні. Більш низькі значення вказують на те, що запитання є настільки ефективне для розрізнення знань студентів.
Порівняння успішності відповідей на запитання та коефіцієнта дискримінації можна також переглянути в графічному виразі внизу сторінки (Рис.6)
Рисунок 6 — Порівняння успішності та коефіцієнту дискримінації
Цікавими є результати тестових завдань у випадку, якщо тест формується з випадкових запитань з різних категорій (наприклад, різних тем). При цьому можна прослідкувати статистику відповідей за окремими категоріями (Рис.7).
Рисунок 7 — Аналіз тестових завдань в тесті з випадковою вибіркою запитань з категорій
В такому випадку можна прослідкувати статистику з набору запитань залежно від їх місця в тесті. Під групою тестових завдань відразу подається вибірка з легкого, середнього та складного запитань. Таким, чином можна відразу побачити крайні випадки.
Щоб детально оцінити всі тестові завдання взяті з певної категорії, потрібно натиснути на останній пункт в переліку цієї категорії (на Рис.7 це буде рядок під номером 5). Наступна форма покаже розгорнуту картинку по цій категорії. В таблиці (Рис.8) першим рядком йде загальна інформація по категорії в цілому. А далі, по кожному тестовому завданню окремо.
Рисунок 8 - Аналіз тестових завдань у вибраній категорії
В результаті такого аналізу можна відразу викидати з банку тестових завдань запитання позначені червоним. Варіантом може бути перевірка їх на технічну відповідність та прибирання помилки.
Запитання, які не зовсім правильні, але і не безнадійні, можна проаналізувати детальніше та підправити їх формулювання. Для цього потрібно натиснути на проблемному запитанні та розглянути детальну статистику по ньому (Рис.9).
Рисунок 9 — Приклад аналізу запитання типу множинного вибору
Кожен тип запитання має власні особливості в аналізі. Проте, в будь-якому випадку можна проаналізувати варіанти відповідей, які дають студенти. В таблиці аналіз відповідей можна знайти правильну відповідь, кількість студентів, які вибрали кожну з можливих відповідей (або, як для прикладу, в типи запитань на відповідність всі можливі пари відповідей) та частоту вибору кожного з можливих варіантів. Варіанти, які не вибирає ніхто потрібно вилучати. В закритих типах запитань всі варіанти відповідей повинні бути схожими на правильну відповідь, а не бути відверто неправильними. Якщо ж студенти всі як один вибирають лише правильну відповідь, то таке запитання є занадто легким і його необхідно викинути повністю, або замінити всі варіанти неправильних відповідей.
Висновок. Механізм статистичного аналізу підготовлений у модулі тестування Moodle дає можливість потужного аналізу тесту та кожного запитання в ньому, що дозволяє швидко провести результати апробації тесту та довести тест до валідного стану.
Результатом роботи над статистичним аналізом тестів у Moodle стало удосконалення перекладу інтерфейсу модуля.
Список використаних джерел
1. Фетісов, В.С. Комп’ютерні технології в тестуванні [Текст]: Навч.-метод. посібник /В.С. Фетісов. – Ніжин: Видавець ПП Лисенко М.М., 2011. – 140 с.
2. Майоров А.Н. Теория и практика создания тестов для системы образования. (Как выбирать, создавать и использовать тесты для целей образования) / А.Н. Майоров – М., 2000. – 352 с.
3. Антонов Ю.С. Комп’ютерні системи тестування на основі технології трирівневих баз даних – [Електронний ресурс]. - Режим доступу: http://www.nbuv.gov.ua–Заголовок з екрана.
4. Quiz reports // MoodleDocs/ - Режим доступу: https://docs.moodle.org/32/en/Quiz_reports
5. Федорук П.І. Адаптивні тести: статистичні методи аналізу результатів тестового контролю знань // Математичні машини і систиеми. - 2007, №3,4. С.122-138. Режим доступу: http://www.immsp.kiev.ua/publications/articles/2007/2007_3,4/Fedoruk_034_2007.pdf
6. Quiz statistics report // MoodleDocs/ - Режим доступу: https://docs.moodle.org/32/en/Quiz_statistics_report