Основні засади класичної теорії тестів. Теорія тестів

Області застосування, цілі та завдання тестування ПЗ різноманітні, тому тестування оцінюється та пояснюється по-різному. Іноді й самим тестувальникам буває складно пояснити, що таке тестування "as is". Виникає плутанина.

Для розплутування цієї плутанини Олексій Баранцев (практик, тренер і консалтер у тестуванні ПЗ; виходець з Інституту системного програмування Російської академії наук) передує свої тренінги з тестування вступним відео про основні положення тестування.

Мені здається, що в цій доповіді лектор зміг найбільш адекватно та виважено пояснити «що таке тестування» з погляду вченого та програміста. Дивно, що цей текст ще не з'являвся на хабрі.

Наводжу тут стислий переказ цієї доповіді. Наприкінці тексту є лінки на повну версію, а також згадане відео.

Основні положення тестування

Шановні колеги,

Спочатку спробуємо зрозуміти, чим тестування не є.

Тестування не розробка,

Навіть якщо тестувальники вміють програмувати, у тому числі й тести (автоматизація тестування = програмування), можуть розробляти якісь допоміжні програми (для себе).

Проте, тестування - це діяльність з розробки програмного забезпечення.

Тестування не аналіз,

І не діяльність зі збирання та аналізу вимог.

Хоча, у процесі тестування іноді доводиться уточнювати вимоги, інколи ж доводиться їх аналізувати. Але ця діяльність не основна, скоріше, це доводиться робити просто за потребою.

Тестування не керування,

Незважаючи на те, що в багатьох організаціях є така роль, як тест-менеджер. Звісно ж, тестувальниками треба керувати. Але саме собою тестування управлінням не є.

Тестування не техписництво,

Проте тестувальникам доводиться документувати свої тести та свою роботу.

Тестування не можна вважати жодною з цих діяльностей просто тому, що в процесі розробки (або аналізу вимог або написання документації для своїх тестів) всю цю роботу тестувальники роблять для себе, а не для когось іншого.

Діяльність значуща лише тоді, коли вона затребувана, тобто тестувальники мають щось робити «на експорт». Що вони роблять "на експорт"?

Дефекти, описи дефектів чи звіти про тестування? Частково це правда.

Але це не вся правда.

Головна діяльність тестувальників

полягає в тому, що вони надають учасникам проекту з розробки програмного забезпечення негативний зворотний зв'язок якості програмного продукту.

"Негативний зворотний зв'язок" не несе якийсь негативний відтінок, і не означає, що тестувальники роблять щось погане, або що вони роблять щось погано. Це просто технічний термін, який означає досить просту річ.

Але ця річ дуже значуща, і, напевно, єдина найважливіша складова діяльності тестувальників.

Існує наука – «теорія систем». У ньому визначається таке поняття як «зворотний зв'язок».

«Зворотний зв'язок» – це деякі дані, які з виходу потрапляють назад на вхід, або якась частина даних, які з виходу потрапляють назад на вхід. Цей зворотний зв'язок може бути позитивним та негативним.

І той, і інший різновид зворотного зв'язку рівноцінно важливі.

У розробці програмних систем позитивним зворотним зв'язком, звичайно, є якась інформація, яку ми отримуємо від кінцевих користувачів. Це запити на якусь нову функціональність, це збільшення обсягів продажу (якщо ми випускаємо якісний продукт).

Негативний зворотний зв'язок також може надходити від кінцевих користувачів як якихось негативних відгуків. Або вона може надходити від тестувальників.

Що раніше надається негативний зворотний зв'язок, то менше енергії необхідно для модифікації цього сигналу. Саме тому тестувати потрібно починати якомога раніше, на ранніх стадіях проекту, і надавати цей зворотний зв'язок і на етапі проектування, і ще, можливо, раніше, ще на етапі збору та аналізу вимог.

До речі, звідси зростає розуміння того, що тестувальники не відповідають за якість. Вони допомагають тим, хто відповідає за нього.

Синоніми терміна "тестування"

З точки зору того, що тестування - це надання негативного зворотного зв'язку, всесвітньо відома абревіатура QA (англ. Quality Assurance - Забезпечення якості) синонімом терміна "тестування" вже точно не є.

Не можна вважати забезпеченням якості просте надання негативного зворотного зв'язку, адже Забезпечення – це деякі позитивні заходи. Мається на увазі, що в цьому випадку ми саме забезпечуємо якість, вчасно вживаємо якихось заходів для того, щоб якість розробки програмного забезпечення підвищилася.

А ось «контроль якості» - Quality Control, можна вважати в широкому сенсі синонімом для терміну «тестування», тому що контроль якості це і є надання зворотного зв'язку в різних її різновидах, на різних етапах програмного проекту.

Іноді тестування мається на увазі як окрема форма контролю якості.

Плутанина приходить з історії розвитку тестування. У різний час під терміном «тестування» малися на увазі різні дії, які можна розділити на 2 великі класи: зовнішні та внутрішні.

Зовнішні визначення

Визначення, які у різний час дали Майєрс, Бейзер, Канер, описують тестування саме з погляду його ЗОВНІШНЬОЇ значущості. Тобто, з їхньої точки зору, тестування - це діяльність, яка призначена для чогось, а не складається з чогось. Усі ці визначення можна узагальнити як надання негативної зворотний зв'язок.

Внутрішні визначення

Це визначення, які наведені в стандарті термінології, що використовується в програмній інженерії, наприклад, стандарт де-факто, який називається SWEBOK.

Такі визначення конструктивно пояснюють, ЩО являє собою діяльність із тестування, але не дають жодного уявлення про те, ДЛЯ ЧОГО потрібне тестування, для чого потім будуть використовуватися всі отримані результати перевірки відповідності між реальною поведінкою програми та її очікуваною поведінкою.

тестування – це

перевірка відповідності програми вимогам,
що здійснюється шляхом спостереження за її роботою
у спеціальних, штучно створених ситуаціях, обраних певним чином.

Звідси й надалі вважатимемо це робочим визначенням тестування.

Загальна схема тестування приблизно така:

Тестувальник на вході отримує програму та/або вимоги.
Він із ними щось робить, спостерігає за роботою програми у певних, штучно створених ним ситуаціях.
На виході він отримує інформацію про відповідності та невідповідності.
Далі ця інформація використовується для покращення вже існуючої програми. Або для того, щоб змінити вимоги до програми, що ще тільки розробляється.

Що таке тест

Це спеціальна, штучно створена ситуація, обрана певним чином,
та опис того, які спостереження за роботою програми потрібно зробити
для перевірки її відповідності деяким вимогам.

Не треба вважати, що ситуація – це щось миттєве. Тест може бути досить довгим, наприклад, при тестуванні продуктивності ця штучно створена ситуація це може бути триває протягом досить тривалого часу навантаження на систему. А спостереження, які потрібно при цьому робити, це набір різних графіків чи метрик, які ми вимірюємо під час виконання цього тесту.

Розробник тестів займається тим, що з величезного потенційно нескінченного набору тестів вибирає певний обмежений набір.

Ну і таким чином ми можемо зробити висновок, що тестувальник робить у процесі тестування дві речі.

1.По-перше, він керує виконанням програми та створює ці самі штучні ситуації, в яких ми збираємося перевіряти поведінку програми.

2.І, по-друге, він спостерігає за поведінкою програми та порівнює те, що він бачить з тим, що очікується.

Якщо тестувальник автоматизує тести, він не сам спостерігає за поведінкою програми - він делегує це завдання спеціальному інструменту чи спеціальної програмі, що він сам написав. Саме вона спостерігає, вона порівнює поведінку, що спостерігається, з очікуваним, а тестувальнику видає тільки деякий кінцевий результат - чи збігається спостерігається поведінка з очікуваним, або не збігається.

Будь-яка програма є механізмом з переробки інформації. На вхід надходить інформація в якомусь одному вигляді, на виході інформація в іншому вигляді. При цьому входів та виходів у програми може бути багато, вони можуть бути різними, тобто у програми може бути декілька різних інтерфейсів, і ці інтерфейси можуть мати різні види:

Інтерфейс користувача (UI)
Програмний інтерфейс (API)
Мережевий протокол
Файлова система
Стан оточення
Події

Найбільш поширені інтерфейси це

користувальницький,
графічний,
текстовий,
консольний,
та мовленнєвий.

Використовуючи всі ці інтерфейси, тестувальник:

якимось чином створює штучні ситуації,
і перевіряє в цих ситуаціях як програма поводиться.

Ось це і є тестування.

Інші класифікації видів тестування

Найчастіше використовується розбиття на три рівні, це

модульне тестування,
інтеграційне тестування,
системне тестування

Під модульним тестуванням зазвичай мається на увазі тестування досить низькому рівні, тобто тестування окремих операцій, методів, функцій.

Під системним тестуванням мається на увазі тестування на рівні інтерфейсу користувача.

Іноді використовуються також деякі інші терміни, такі, як «компонентне тестування», але я волію виділяти саме ці три, тому що технологічний поділ на модульне та системне тестування не має великого сенсу. На різних рівнях можуть використовуватися одні й самі інструменти, одні й самі техніки. Поділ умовний.

Практика показує, що інструменти, які позиціонуються виробником як інструменти модульного тестування, з рівним успіхом можуть застосовуватись і на рівні тестування всього додатку в цілому.

А інструменти, які тестують всю програму в цілому на рівні інтерфейсу користувача іноді хочуть заглядати, наприклад, в базу даних або викликати там якусь окрему процедуру, що зберігається.

Тобто поділ на системне та модульне тестування взагалі кажучи суто умовне, якщо говорити з технічної точки зору.

Використовуються одні й самі інструменти, і це нормально, використовуються одні й самі техніки, кожному рівні можна говорити про тестуванні різного виду.

Комбінуємо:

Тобто можна говорити про модульне тестування функціональності.

Можна говорити про системне тестування функціональності.

Можна говорити про модульне тестування, наприклад, ефективність.

Можна говорити про системне тестування ефективності.

Або ми розглядаємо ефективність якогось окремого алгоритму, або ми розглядаємо ефективність всієї системи в цілому. Тобто технологічний поділ на модульне та системне тестування не має великого сенсу. Тому що на різних рівнях можуть використовуватися ті самі інструменти, ті самі техніки.

Зрештою, при інтеграційному тестуванні ми перевіряємо, якщо в рамках якоїсь системи модулі взаємодіють один з одним коректно. Тобто ми фактично виконуємо ті самі тести, що і при системному тестуванні, тільки ще додатково звертаємо увагу на те, як саме модулі взаємодіють між собою. Виконуємо деякі додаткові перевірки. Це єдина різниця.

Давайте ще раз спробуємо зрозуміти різницю між системним та модульним тестуванням. Оскільки такий поділ зустрічається досить часто, ця різниця має бути.

І ця різниця проявляється тоді, коли ми виконуємо не технологічну класифікацію, а класифікацію за цілямитестування.

Класифікацію за цілями зручно виконувати з використанням магічного квадрата, який був спочатку придуманий Браяном Маріком і потім покращений Ері Тенненом.

У цьому магічному квадраті всі види тестування розташовуються по чотирьох квадрантах залежно від того, чому в цих тестах більше уваги.

По вертикалі - чим вище розташовується вид тестування, тим більше уваги приділяється деяким зовнішнім проявам поведінки програми, чим нижче він знаходиться, тим більше уваги ми приділяємо її внутрішньому технологічному устрою програми.

По горизонталі - чим лівіше знаходяться наші тести, тим більше уваги ми приділяємо їх програмуванню, чим правіше вони знаходяться, тим більше уваги ми приділяємо ручному тестуванню та дослідженню програми людиною.

Зокрема, у цей квадрат можна легко вписати такі терміни як приймальне тестування, Acceptance Testing, модульне тестування саме в тому розумінні, в якому воно найчастіше вживається у літературі. Це низькорівневе тестування з великою, з переважною часткою програмування. Тобто це всі тести програмуються, повністю автоматично виконуються та увага приділяється насамперед саме внутрішньому устрою програми, саме її технологічним особливостям.

У правому верхньому кутку у нас виявляться ручні тести, націлені на зовнішню якусь поведінку програми, зокрема, тестування зручності використання, а у правому нижньому кутку у нас, швидше за все, виявляться перевірки різних нефункціональних властивостей: продуктивності, захищеності тощо.

Так ось, виходячи з класифікації за цілями, модульне тестування у нас виявляється у лівому нижньому квадранті, а всі інші квадранти – це системне тестування.

Дякую за увагу.

основи теорії тестів

Основні поняття теорії тестів

Вимірювання чи випробування, проведене з метою визначення стану чи здібностей спортсмена, називається тестом .

Не всякі виміри можна використовувати як тести, лише ті, які відповідають спеціальним вимогам. До них відносяться:

1. стандартизованість (процедура та умови тестування повинні бути однаковими у всіх випадках застосування тесту);
2. надійність;
3. інформативність;
4. наявність системи оцінок.

Тести, що задовольняють вимогам надійності та інформативності, називають добротними або автентичними (грец. автентико – достовірним чином).

Процес випробувань називається тестуванням ; отримане в результаті вимірювання числове значення - результатом тестування (або результатом тесту). Наприклад, біг 100 м – це тест, процедура проведення забігів та хронометражу – тестування, час забігу – результат тесту.

Тести, в основі яких лежать рухові завдання, називають руховими або моторними . Результатами їх можуть бути або рухові досягнення (час проходження дистанції, кількість повторень, пройдена відстань тощо), або фізіологічні та біохімічні показники.

Іноді використовується не один, а кілька тестів, що мають єдину кінцеву мету (наприклад, оцінку стану спортсмена у періоді змагання тренування). Така група тестів називається комплексом або батареєю тестів .

Один і той же тест, застосований до тих самих досліджуваних, повинен дати в однакових умовах збігаються результати (якщо тільки не змінилися самі досліджувані). Однак при найсуворішій стандартизації та точної апаратури результати тестування завжди дещо варіюють. Наприклад, досліджуваний, що щойно показав у тесті станової динамометрії результат 215 кг, при повторному виконанні показує лише 190 кг.

2. Надійність тестів та шляхи її визначення

НадійністюТіста називається ступінь збігу результатів при повторному тестуванні тих самих людей (або інших об'єктів) в однакових умовах.

Варіацію результатів при повторному тестуванні називають усередині індивідуальної, або усередині групової, або внутрішньокласової.

Чотири основні причини викликають цю варіацію:

1. Зміна стану досліджуваних (втома, впрацьовування, навчання, зміна мотивації, концентрації уваги тощо).
2. Неконтрольовані зміни зовнішніх умов та апаратури (температура, вітер, вологість, напруга в електромережі, присутність сторонніх осіб тощо), тобто. все те, що поєднується терміном "випадкова помилка виміру".
3. Зміна стану людини, яка проводить або оцінює тест (і, звичайно, заміна одного експериментатора чи судді іншим).
4. Недосконалість тесту (є такі тести, які свідомо малонадійні. Наприклад, якщо досліджувані виконують штрафні кидки в баскетбольний кошик, то навіть баскетболіст, який має високий відсоток влучень, може випадково помилитися при перших кидках).

Основне відмінність теорії надійності тестів від теорії помилок виміру у тому, що у теорії помилок вимірювана величина вважається незмінною, а теорії надійності тестів передбачається, що вона змінюється від виміру до виміру. Наприклад, якщо необхідно виміряти результат виконаної спроби в стрибках у довжину з розбігу, він цілком певний і з часом значно змінитися неспроможна. Звичайно, через випадкові причини (наприклад, неоднакового натягу рулетки) не можна з ідеальною точністю (скажімо до 0,0001 мм) виміряти цей результат. Однак, використовуючи більш точний вимірювальний інструмент (наприклад, лазерний вимірювач), можна підвищити їх точність до необхідного рівня. Разом з тим, якщо стоїть завдання визначити підготовленість стрибуна на окремих етапах річного циклу тренування, то найточніший вимір показаних ним результатів мало чим допоможе: адже вони від спроби до спроби зміняться.

Щоб розібратися в ідеї методів, які використовуються для міркування про надійність тестів, розглянемо спрощений приклад. Припустимо, що необхідно порівняти результати стрибків у довжину з місця у двох спортсменів із двох виконаних спроб. Припустимо, що результати кожного зі спортсменів варіюють у межах ± 10 см від середньої величини і дорівнюють відповідно 230 ± 10 см (тобто 220 і 240 см) та 280 ± 10 см (тобто 270 і 290 см). У такому разі висновок, звичайно, буде абсолютно однозначним: другий спортсмен перевершує перший (відмінності між середніми в 50см явно вище випадкових коливань ± 10 см). Якщо ж при тій самій внутрішньогруповій варіації (± 10 см) різницю між середніми значеннями досліджуваних (міжгрупова варіація) будуть маленькими, зробити висновок буде набагато складніше. Припустимо, що середні значення дорівнюватимуть 220 см (в одній спробі - 210, в іншій - 230 см) і 222 см (212 і 232 см). При цьому перший досліджуваний у першій спробі стрибає на 230 см, а другий лише на 212 см; і складається враження, що перший істотно сильніший за другий. З цього прикладу видно, що основне значення має не по собі внутрішньокласова мінливість, а її співвідношення з міжкласовими відмінностями. Одна і та ж внутрішньокласова мінливість дає різну надійність за рівних відмінностей між класами (у окремому випадку між досліджуваними, рис. 14).

Мал. 14. Співвідношення між- та внутрішньокласової варіації при високій (вгорі) та низькій (внизу) надійності:

короткі вертикальні штрихи – дані окремих спроб;

Середні результати трьох досліджуваних.

Теорія надійності тестів виходить з того, що результат будь-якого вимірювання, що проводиться на людині, є сумою двох значень:

де: - так званий дійсний результат, який хочуть зафіксувати;

Помилка, викликана неконтрольованими змінами у стані досліджуваного та випадковими помилками виміру.

Під справжнім результатом розуміють середнє значення х при нескінченно велику кількість спостережень в однакових умовах (з цього при х ставлять знак).

Якщо помилки випадкові (їх сума дорівнює нулю, й у рівних спробах вони залежать друг від друга), тоді з математичної статистики випливає:

тобто. зареєстрована в досвіді дисперсія результатів дорівнює сумі дисперсій дійсних результатів та помилок.

Коефіцієнтом надійностіназивається відношення істинної дисперсії до дисперсії, зареєстрованої у досвіді:

Крім коефіцієнта надійності використовують ще індекс надійності:

який розглядають як теоретичний коефіцієнт кореляції зареєстрованих значень тесту з дійсними.

Поняття про справжній результат тесту є абстракцією (в досвіді виміряти не можна). Тому доводиться використовувати непрямі методи. Найбільш переважний для оцінки надійності дисперсійний аналіз із подальшим розрахунком внутрішньокласових коефіцієнтів кореляції. Дисперсійний аналіз дозволяє розкласти зареєстровану у досвіді варіацію результатів тесту на складові, що зумовлені впливом окремих факторів. Наприклад, якщо зареєструвати у досліджуваних їх результати в якомусь тесті, повторюючи цей тест у різні дні, причому щодня робити по кілька спроб, періодично змінюючи експериментаторів, то матимуть місце варіації:

а) від випробуваного до випробуваного;

б) з кожним днем;

в) від експериментатора до експериментатора;

г) від спроби до спроби.

Дисперсійний аналіз дає можливість виділити та оцінити ці варіації.

Таким чином, щоб оцінити практично надійність тесту, треба, по-перше, виконати дисперсійний аналіз, по-друге, розрахувати внутрішньокласовий коефіцієнт кореляції (коефіцієнт надійності).

При двох спроб величина внутрішньокласового коефіцієнта кореляції практично збігається зі значеннями звичайного коефіцієнта кореляції між результатами першої і другої спроб. Тому в таких ситуаціях з метою оцінки надійності можна використовувати звичайний коефіцієнт кореляції (він при цьому оцінює надійність однієї, а не двох спроб).

Говорячи про надійність тестів, необхідно розрізняти їхню стабільність (відтворюваність), узгодженість, еквівалентність.

Під стабільністю Тіста розуміють відтворюваність результатів при його повторенні через певний час в однакових умовах. Повторне тестування зазвичай називають ретестом.

Узгодженістьтесту характеризується незалежністю результатів тестування від особистих якостей особи, яка проводить або оцінює тест.

При виборі тесту з певної кількості однотипних тестів (наприклад, спринтерський біг на 30, 60 і 100 м) методом паралельних форм оцінюється ступінь збігу результатів. Розрахований між результатами коефіцієнт кореляції називають коефіцієнтом еквівалентності.

Якщо всі тести, що входять до будь-якого комплексу тестів, високо еквівалентні, він називається гомогенним. Весь цей комплекс вимірює одну якусь властивість моторики людини (наприклад, комплекс, що складається зі стрибків з місця в довжину, вгору та потрійного; оцінюється рівень розвитку швидкісно-силових якостей). Якщо в комплексі немає еквівалентних тестів, тобто тести, що входять до нього, вимірюють різні властивості, то він називається гетерогенним (Наприклад, комплекс, що складається зі станової динамометрії, стрибка вгору по Абалакову, бігу на 100 м).

Надійність тестів може бути підвищена до певної міри шляхом:

а) суворішої стандартизації тестування;

б) збільшення кількості спроб;

в) збільшення числа оцінювачів (суддів, експериментів) та підвищення узгодженості їх думок;

г) збільшення кількості еквівалентних тестів;

буд) кращої мотивації досліджуваних.

Приклад 10.1.

Визначити надійність результатів потрійного стрибка з місця в оцінці швидкісно-силових можливостей спортсменів-спринтерів, якщо такі вибірки такі:

Рішення:

1. Занести результати тестування до робочої таблиці:

2. Підставляємо отримані результати до формули розрахунку рангового коефіцієнта кореляції:

3. Визначимо число ступенів свободи за такою формулою:

Висновок: отримане розрахункове значення Отже, з упевненістю в 99% можна говорити, що тест потрійного стрибка з місця надійний.

Основні поняття теорії тестів.

Вимір або випробування, що проводиться з метою визначення стану або здібностей спортсмена, називається тестом. Будь-який тест включає вимірювання. Але не всяка зміна є тестом. Процедура вимірів чи випробувань називається тестуванням.

Тест, основу якого лежать рухові завдання, називається руховим. Існує три групи рухових тестів:

1. Контрольні вправи, виконуючи які спортсмен отримує завдання показати максимальний результат.
2. Стандартні функціональні проби, у ході завдання, однакове всім, дозується або за величиною виконаної роботи, або за величиною фізіологічних зрушень.
3. Максимальні функціональні проби, під час яких спортсмен має показати максимальний результат.

Високоякісне тестування передбачає знання теорії вимірів.

Основні поняття теорії вимірів.

Вимір - це виявлення відповідності між досліджуваним явищем з одного боку, і числами - з іншого.

Основи теорії вимірів становлять три поняття: шкали вимірів, одиниці вимірів та точність вимірів.

Шкали вимірів.

Шкала виміру - це закон, яким чисельне значення присвоюється вимірюваному результату з його зростання чи спадання. Розглянемо деякі з шкал, що застосовуються в спорті.

Шкала найменувань (номінальна шкала).

Це найпростіша з усіх шкал. У ній числа виконують роль ярликів і служать виявлення і розрізнення об'єктів, що вивчаються (наприклад, нумерація гравців футбольної команди). Числа, що становлять шкалу найменувань, дозволяється змінювати метами. У цій шкалі немає відносин типу «більше-менше», тому деякі вважають, що застосування шкали найменувань не слід вважати виміром. При використанні шкали, найменувань можуть проводитись лише деякі математичні операції. Наприклад, її числа не можна складати чи віднімати, але можна підраховувати, скільки разів (як часто) зустрічається те чи інше число.

Шкала порядку.

Є види спорту, де результат спортсмена визначається лише місцем, зайнятим на змаганнях (наприклад, єдиноборства). Після таких змагань ясно, хто зі спортсменів сильніший, а хто слабший. Але наскільки сильнішими чи слабшими, сказати не можна. Якщо три спортсмени зайняли відповідно перше, друге і третє місця, то які відмінності в їх спортивній майстерності, залишається незрозумілим: другий спортсмен може бути майже дорівнює першому, а може бути слабшим за нього і бути майже однаковим з третім. Місця, які займають у шкалі порядку, називаються рангами, а сама шкала називається ранговою або неметричною. У такій шкалі складові її числа впорядковані за рангами (тобто місцями, що займаються), але інтервали між ними точно виміряти не можна. На відміну від шкали найменувань шкала порядку дозволяє не тільки встановити факт рівності або нерівності об'єктів, що вимірюваються, але й визначити характер нерівності у вигляді суджень: «більше - менше», «краще - гірше» і т.п.

За допомогою шкал порядку можна вимірювати якісні показники, що не мають суворого кількісного заходу. Особливо широко ці шкали використовують у гуманітарних науках: педагогіці, психології, соціології.

До ранг шкали порядку можна застосовувати більше математичних операцій, ніж до числа шкали найменувань.

Шкала інтервалів.

Це шкала, у якій числа не лише впорядковані за рангами, а й розділені певними інтервалами. Особливість, що відрізняє її від шкали відносин, що описується далі, полягає в тому, що нульова точка вибирається довільно. Прикладами можуть бути календарний час (початок літочислення в різних календарях встановлювався з випадкових причин), суглобовий кут (кут у ліктьовому суглобі при повному розгинанні передпліччя може прийматися рівним або нулю, або 180 °), температура, потенційна енергія піднятого вантажу, потенціал електричного поля ін.

Результати вимірів за шкалою інтервалів можна обробляти всіма математичними методами, крім обчислення відносин. Дані шкали інтервалів дають відповідь на запитання: «на скільки більше», але не дозволяють стверджувати, що одне значення виміряної величини в стільки разів більше або менше. Наприклад, якщо температура підвищилася з 10 до 20 С, то не можна сказати, що стало вдвічі тепліше.

Шкала стосунків.

Ця шкала відрізняється від шкали інтервалів лише тим, що у ній суворо визначено положення нульової точки. Завдяки цьому шкала відносин не накладає жодних обмежень на математичний апарат, який використовується для обробки результатів спостережень.

У спорті за шкалою відносин вимірюють відстань, силу, швидкість та десятки інших змінних. За шкалою відносин вимірюють і ті величини, які утворюються як різниці чисел, відрахованих за шкалою інтервалів. Так, календарний час відраховується за шкалою інтервалів, а інтервали часу - за шкалою відносин. При використанні шкали відносин (і тільки в цьому випадку!) Вимір будь-якої величини зводиться до експериментального визначення відношення цієї величини до іншої подібної, прийнятої за одиницю. Вимірюючи довжину стрибка, ми дізнаємося, у скільки разів ця довжина більша за довжину іншого тіла, прийнятого за одиницю довжини (метрової лінійки в окремому випадку); зважуючи штангу, визначаємо відношення її маси до маси іншого тіла - одиничної гирі "кілограма" і т.п. Якщо обмежитися лише застосуванням шкал відносин, можна дати інше (вужче, приватне) визначення виміру: виміряти якусь величину -- отже знайти досвідченим шляхом її ставлення до відповідної одиниці виміру.

Одиниці вимірів.

Щоб результати різних вимірів можна було порівняти один з одним, вони повинні бути виражені в тих самих одиницях. У 1960 році на Міжнародній генеральній конференції з мір і ваг було прийнято Міжнародну систему одиниць, що отримала скорочену назву СІ (від початкових літер слів System International). В даний час встановлено переважне застосування цієї системи у всіх галузях науки та техніки, у народному господарстві, а також при викладанні.

СІ в даний час включає сім незалежних один від одного основних одиниць (див. таблицю 2.1)

Таблиця 1.1.

З зазначених основних одиниць як похідні виводять одиниці інших фізичних величин. Похідні одиниці визначаються основі формул, що пов'язують між собою фізичні величини. Наприклад, одиниця довжини (метр) і одиниця часу (секунда) - основні одиниці, а одиниця швидкості (метр за секунду) - похідна.

Крім основних, в СІ виділено дві додаткові одиниці: радіан - одиниця плоского кута і стерадіан - одиниця тілесного кута (кута в просторі).

Точність вимірів.

Жодний вимір не може бути виконаний абсолютно точно. Результат вимірювання неминуче містить похибку, величина якої тим менша, чим точніше метод вимірювання та вимірювальний прилад. Наприклад, за допомогою звичайної лінійки з міліметровими поділками не можна виміряти довжину з точністю до 0,01 мм.

Основна та додаткова похибка.

Основна похибка - це похибка методу вимірювання чи вимірювального приладу, яка має місце у нормальних умовах їх застосування.

Додаткова похибка-це похибка вимірювального приладу, викликана відхиленням умов його роботи від нормальних. Зрозуміло, що прилади, призначені для роботи при кімнатній температурі, будуть давати не точні показання, якщо користуватися ним влітку на стадіоні під сонцем, що палить, або взимку на морозі. Похибки вимірювання можуть виникати в тому випадку, коли напруга електричної мережі або джерела живлення нижче норми або непостійно за величиною.

Абсолютна та відносна похибки.

Величина E = А-Ао, рівне різниці між показанням вимірювального приладу (А) і справжнім значенням вимірюваної величини (Ао), називається абсолютною похибкою вимірювання. Вона вимірюється у тих самих одиницях, як і сама вимірювана величина.

Насправді часто зручно користуватися не абсолютною, а відносною похибкою. Відносна похибка вимірювання буває двох видів - дійсної і наведеної. Справжньою відносною похибкою називається відношення абсолютної похибки до справжнього значення вимірюваної величини:

А Д =--------- * 100%

Наведена відносна похибка - це відношення абсолютної похибки до максимально можливого значення вимірюваної величини:

Ап =----------* 100%

Систематична та випадкова похибки.

Систематичною називається похибка, величина якої не змінюється від виміру до виміру. У силу своєї особливості систематична похибка часто може бути передбачена заздалегідь або, в крайньому випадку, виявлена і усунена після закінчення процесу вимірювання.

Спосіб усунення систематичної похибки залежить насамперед від її природи. Систематичні похибки виміру можна поділити на три групи:

похибки відомого походження та відомої величини;

похибки відомого походження, але невідомої величини;

похибки невідомого походження та невідомої величини. Найнешкідливіші - похибки першої групи. Вони легко усуваються

шляхом введення відповідних поправок у результат виміру.

До другої групи належать, перш за все, похибки, пов'язані з недосконалістю методу вимірювання та вимірювальної апаратури. Наприклад, похибка вимірювання фізичної працездатності за допомогою маски для забору повітря, що видихається: маска ускладнює дихання, і спортсмен закономірно демонструє фізичну працездатність, занижену в порівнянні з істинною, що вимірюється без маски. Величину цієї похибки не можна передбачити заздалегідь: вона залежить від індивідуальних здібностей спортсмена та його самопочуття на момент дослідження.

Інший приклад систематичної похибки цієї групи - похибка, пов'язана з недосконалістю апаратури, коли вимірювальний прилад явно завищує або занижує справжнє значення вимірюваної величини, але величина похибки невідома.

Похибки третьої групи найбільш небезпечні, їхня поява буває пов'язана як з недосконалістю методу виміру, так і з особливостями об'єкта виміру - спортсмена.

Випадкові похибки виникають під впливом різноманітних чинників, які передбачити заздалегідь, ні точно врахувати не вдається. Випадкові похибки принципово не можна усунути. Однак, скориставшись методами математичної статистики, можна оцінити величину випадкової похибки та врахувати її при інтерпретації результатів виміру. Без статистичної обробки результати вимірів що неспроможні вважатися достовірними.

Перший компонент теорія тестів містить опис статистичних моделей обробки діагностичних даних. Тут містяться моделі аналізу відповідей у тестових завданнях та моделі підрахунку сумарних результатів тесту. Мелленберг (1980, 1990) назвав це "психометрією". Класична теорія тестів, сучасна теорія тестів (або модель аналізу відповідей на завдання тестів - IRT) та модель

Вибірки завдань становлять три найважливіші типи моделей теорії тестів. Предметом розгляду психодіагностики є перші дві моделі.

Класична теорія тестів. На основі цієї теорії розроблено більшість інтелектуальних та особистісних тестів. Центральним поняттям цієї теорії є поняття «надійності». Під надійністю розуміється узгодженість результатів при повторному оцінюванні. У довідкових посібниках це поняття зазвичай представляється дуже стисло, а потім дається докладний опис апарату математичної статистики. У цьому вступному розділі ми представимо стислий опис основного значення зазначеного поняття. У класичної теорії тестів під надійністю розуміється повторюваність результатів кількох процедур виміру (переважно вимірів з допомогою тестів). Поняття надійності передбачає обчислення помилки виміру. Результати, отримані в процесі тестування, можуть бути подані як сума істинного результату та помилки виміру:

Xi = Ti+ Їй

де Xi- Оцінка отриманих результатів, Ti - справжній результат, а Їй- Помилка вимірювання.

Оцінка одержаних результатів – це, як правило, кількість правильних відповідей на завдання тесту. Справжній результат можна як справжню оцінку в платонівському сенсі (Gulliksen, 1950). Широко поширеним є поняття очікуваних результатів, тобто. уявлень про бали, які можуть бути отримані внаслідок великої кількості повторень процедур вимірювання (Lord & Novich, 1968). Але проведення однієї й тієї ж процедури оцінювання з однією людиною неможливо. Тому необхідний пошук інших варіантів вирішення проблеми (Witlman, 1988).

У рамках цієї концепції робляться деякі припущення щодо справжніх результатів та помилок виміру. Останні приймаються як незалежний фактор, що, звичайно, є цілком обґрунтованим припущенням, оскільки випадкові коливання результатів не дають підступів: r ЇЇ =0.

Передбачається, що кореляції між істинними балами та помилками виміру не існує: r EE =0.

Сумарна помилка дорівнює 0 т.к. як справжня оцінка береться середнє арифметичне значення:

Ці припущення призводять нас у результаті відомому визначенню надійності як ставлення справжнього результату до загальної дисперсії чи выражению: 1 мінус ставлення, у чисельнику якого помилка виміру, а знаменнику - загальна дисперсія:

, АБО

З цієї формули визначення надійності отримуємо, що дисперсія помилки S 2 (E)дорівнює загальної дисперсії в числі випадків (1 - r XX "); таким чином, стандартна помилка виміру визначається за формулою:

Після теоретичного обґрунтування надійності та її похідних необхідно визначити індекс надійності того чи іншого тесту. Існують практичні процедури оцінювання надійності тестів, такі як використання взаємозамінних форм (паралельні тести), розщеплення завдань на дві частини, повторне тестування та вимірювання внутрішньої узгодженості. Кожен довідник містить індекси сталості тестових результатів:

r XX ' =r(x 1 , x 2)

де r XX ’ - Коефіцієнт стабільності, а x 1 і x 2 - Результати двох вимірів.

Поняття надійності взаємозамінних форм запроваджено та розроблено Гулліксеном (1950). Ця процедура досить трудомістка, оскільки пов'язана з необхідністю створення паралельної серії завдань

r XX ' =r(x 1 , x 2)

де r XX ’ - Коефіцієнт еквівалентності, а x 1 і x 2 - Два паралельні тести.

Наступна процедура – розщеплення основного тесту на дві частини А та В – більш проста у використанні. Показники, отримані з обох частин тесту, корелюються. За допомогою формули Спірмена-Брауна оцінюється надійність тесту загалом:

де А і В – дві паралельні частини тіста.

Наступний метод – визначення внутрішньої узгодженості виконання завдань тесту. Цей метод ґрунтується на визначенні підступів окремих завдань. Sg - дисперсія довільно обраного завдання, та Sgh - коваріація двох довільно обраних завдань. Найчастіше використовуваний коефіцієнт визначення внутрішньої узгодженості - це «коефіцієнт альфа» Кронбаха. Використовуються також формула КР20 та λ-2(лямбда-2).

У класичній концепції надійності визначаються помилки виміру, що виникають як у процесі тестування, і у процесі спостережень. Джерела цих помилок різні: це можуть бути і особистісні особливості, і особливості умов тестування, і тестові завдання. Існують конкретні методи обчислення помилок. Ми знаємо, що наші спостереження можуть виявитися помилковими, наші методичні інструменти недосконалі так само, як і самі люди. (Як не згадати Шекспіра: «Ненадійна ти, чиє ім'я людина»). Те, що в класичній теорії тестів помилки виміру експлікуються та пояснюються, є важливим позитивним моментом.

Класична теорія тестів має низку суттєвих особливостей, які можна розглядати і як її недоліки. Деякі з цих характеристик відзначаються в довідниках, але їх значення (з життєвої точки зору) підкреслюється нечасто, як не наголошується і на тому, що з теоретичної чи методичної точки зору їх слід вважати недоліками.

Перше. Класична теорія тестів і поняття надійності орієнтовані на підрахунок сумарних тестових показників, що є результатом складання оцінок, отриманих в окремих завданнях. Так, під час роботи

Друге. Коефіцієнт надійності передбачає оцінку величини розкиду показників, що вимірюються. Звідси випливає, що коефіцієнт надійності буде нижчим, якщо (при рівності інших показників) вибірка є одноріднішою. Немає єдиного коефіцієнта внутрішньої узгодженості завдань тесту, цей коефіцієнт завжди «контекстуальний». Крокер і Альджина (1986), наприклад, пропонують спеціальну формулу «корекції для гомогенної вибірки», призначену для найвищих і найнижчих результатів, отриманих тестування. Для діагноста важливо знати характеристики варіацій у вибірковій сукупності, інакше він зможе використовувати коефіцієнти внутрішньої узгодженості, зазначені у посібнику до даного тесту.

Третє. Феномен зведення до показника середнього арифметичного є наслідком класичної концепції надійності. Якщо оцінка в тесті коливається (тобто вона недостатньо надійна), то цілком можливо, що при повторенні процедури суб'єкти, які мають низькі показники, отримають вищі бали, і навпаки, суб'єкти з високими показниками – низькі. Цей артефакт процедури виміру не можна помилково прийняти за справжнє зміна чи прояв процесів розвитку. Але водночас розмежувати їх важко, т.к. ніколи не можна виключити можливість зміни у ході розвитку. Для повної впевненості необхідне порівняння з контрольною групою.

Четверта характеристика тестів, розроблених відповідно до принципів класичної теорії, - наявність нормативних даних. Знання тестових норм дозволяє досліднику адекватно інтерпретувати результати тестованих. Поза нормами тестові оцінки позбавлені сенсу. Вироблення тестових норм - це досить дороге підприємство, оскільки психолог має отримати результати тестування на репрезентативній вибірці.

2 Я. тер Лаак

Якщо говорити про недоліки класичної концепції надійності, то тут доречно навести висловлювання Сій-тсма (1992, р. 123-125). Він зазначає, що перше і головне припущення класичної теорії тестів у тому, що тестові результати підкоряються інтервальному принципу. Проте жодних досліджень, які б підтверджували це припущення, немає. По суті, це «вимірювання за довільно встановленим правилом». Ця особливість ставить класичну теорію тестів менш вигідне становище проти шкалами виміру установок і, звісно ж, проти сучасної теорією тестів. Багато методів аналізу даних (дисперсійний аналіз. регресійний аналіз, кореляційний та факторний аналіз) засновані на допущенні існування інтервальної шкали. Проте воно немає твердого обгрунтування. Розглядати шкалу справжніх результатів як шкалу значень психологічних характеристик (наприклад, арифметичних здібностей, інтелекту, нейротизму) можна лише приблизно.

Друге зауваження стосується того, що результати виконання тесту - це абсолютні показники тієї чи іншої психологічної характеристики тестованого, їх необхідно розглядати лише як результати виконання того чи іншого тесту. Два тести можуть претендувати на вивчення одних і тих же психологічних характеристик (наприклад, інтелекту, вербальних здібностей, екстраверсії), але це не означає, що ці два тести рівноцінні і мають однакові можливості. Порівняння показників двох людей, які пройшли тестування різними тестами, є некоректним. Те саме стосується і до заповнення двох різних тестів одним випробуваним. Третє зауваження відноситься до припущення, що стандартна помилка вимірювання однакова стосовно будь-якого рівня вимірюваних здібностей індивіда. Проте немає емпіричної перевірки цього припущення. Так, наприклад, немає гарантії того, що тестований з хорошими математичними здібностями під час роботи з відносно простим арифметичним тестом отримає високі бали. У цьому випадку високу оцінку швидше отримає людина з низькими чи середніми здібностями.

У рамках сучасної теорії тестів або теорії аналізу відповідей у завданнях тесту міститься опис великого

кількості моделей можливих відповідей респондентів Ці моделі розрізняються покладеними в їх основу припущеннями, а також вимогами щодо даних, що одержуються. Модель Раша часто розглядається як синонім теорій аналізу відповідей у завданнях тесту (1RT). Насправді це лише одна з моделей. Подана в ній формула для опису характеристичної кривої завдання g виглядає так:

де g- окреме завдання тесту; ехр- функція експоненти (нелінійна залежність); δ («дельта») - рівень складності тесту.

Інші завдання тесту, наприклад h,також одержують власні характеристичні криві. Виконання умови δ h >δ g (gозначає, що h- Більш складне завдання. Отже, для будь-якого значення показника Θ («тета» - латентні властивості здібностей тестованих) ймовірність успішного виконання завдання hменше. Ця модель називається строгою, оскільки очевидно, що за низького ступеня вираженості риси ймовірність виконання завдання близька до нуля. У цій моделі немає місця вгадуванням та припущенням. Для завдань із варіантами вибору немає необхідності робити припущення про можливість успіху. Крім того, ця модель сувора в тому сенсі, що всі завдання тесту повинні мати однакову дискримінативну здатність (висока дискримінативність відображається в крутості кривої; тут можлива побудова шкали Гут-тмана, згідно з якою в кожній точці характеристичної кривої ймовірність виконання завдання змінюється від ПРО до 1). Через це умови не всі завдання можуть бути включені до тестів, створених на основі моделі Раша.

Існує кілька варіантів цієї моделі (наприклад, Birnbaura, 1968, Див. Lord & Novik). Вона допускає існування завдань з різною дискримінативною

здатністю.

Голландський дослідник Моккен (1971) розробив дві моделі аналізу відповідей у завданнях тесту, вимоги яких так суворі, як і моделі Раша, і тому, можливо, більш реалістичні. Як основний усло-

Моккен висуває положення про те, що характеристична крива завдання повинна слідувати монотонно, без обривів. Усі завдання тесту у своїй спрямовані вивчення однієї й тієї психологічної характеристики, вимірювати яку має в.Допускається будь-яка форма цієї залежності, доки вона не перерветься. Отже, форма характеристичної кривої не визначається якоюсь специфічною функцією. Така «свобода» дозволяє використовувати більше завдань тесту, і рівень оцінювання при цьому виявляється не вищим, ніж звичайний.

Методологія моделей відповідей завдання тесту (IRT) відрізняється від методології більшості експериментальних і кореляційних досліджень. Математична модель варта вивчення поведінкових, когнітивних, емоційних показників, і навіть феноменів розвитку. Ці феномени, що розглядаються, часто обмежуються відповідями на завдання, що дозволило Мелленбергу (1990) назвати теорію IRT «міні-теорією про міні-поведінку». Результати дослідження можуть бути певною мірою представлені як криві узгодженості, особливо в тих випадках, коли теоретичні уявлення про досліджувані характеристики відсутні. До цього часу у нашому розпорядженні є лише одиниці тестів інтелекту, здібностей і особистісних тестів, створених з урахуванням численних моделей теорії IRT. Варіанти моделі Раша частіше використовуються для розробки тестів досягнень (Verhelst, 1993), а моделі Моккена більше підходять для феноменів розвитку (див. також гл. 6).

Відповідь тестованого завдання тесту є основною одиницею моделей IRT. Тип відповіді визначається ступенем вираженості в людини характеристики, що вивчається. Такою характеристикою можуть бути, наприклад, арифметичні чи просторові здібності. Найчастіше це той чи інший аспект інтелекту, характеристики досягнень чи особистісні особливості. Передбачається, що між положенням даної конкретної людини в певному діапазоні характеристики, що вивчається, і ймовірністю успішного виконання того чи іншого завдання існує нелінійна залежність. Нелінійність цієї залежності певному сенсі інтуїтивно зрозуміла. Відомі фрази «Всякий початок важко» (повільний не-

лінійний старт) і «Стати святим не так просто», означають, що подальше вдосконалення після досягнення певного рівня йде важко. Крива повільно наближається, але майже ніколи не досягає 100%-го рівня успіху.

Деякі моделі радше суперечать нашому інтуїтивному розумінню. Візьмемо такий приклад. Людина з індексом вираженості довільної характеристики рівним 1,5 має 60-відсоткову ймовірність успіху під час виконання завдання. Це суперечить нашому інтуїтивному розумінню такої ситуації, адже можна успішно впоратися із завданням, або не впоратися з ним взагалі. Візьмемо такий приклад: 100 разів людина намагається взяти висоту 1м 50 див. Успіх супроводжує йому 60 разів, тобто. він має 60-відсоткову ймовірність успіху.

Для оцінки ступеня вираженості характеристики необхідно принаймні два завдання. Модель Раша передбачає визначення виразності показників незалежно від проблеми завдання. Це також суперечить нашому інтуїтивному розумінню: припустимо, що людина має 80-відсоткову ймовірність стрибнути вище 1,30 м. Якщо це так, то відповідно до характеристичної кривої завдань вона має 60-відсоткову ймовірність стрибнути вище 1,50 м та 40-відсоткову. можливість стрибнути вище 1,70 м. Отже, незалежно від значення незалежної змінної (висоти) можна оцінити здатність людини стрибати у висоту.

Існує близько 50 моделей IRT (Goldstein & Wood, 1989). Є безліч нелінійних функцій, що описують (пояснюють) ймовірність успіху у виконанні завдання або групи завдань. Вимоги та обмеження цих моделей різні, і ці відмінності можуть бути виявлені при зіставленні моделі Раша та шкали Моккена. До вимог цих моделей можна віднести:

1) необхідність визначення досліджуваної характеристики та оцінку позиції людини у діапазоні цієї риси;

2) оцінку послідовності завдань;

3) перевірку конкретних моделей. У психометрії розроблено безліч процедур перевірки моделі.

У деяких довідкових посібниках теорія IRT сприймається як форма аналізу завдань тесту (див., наприклад,

Croker & Algina, J 986). Можна, проте, обстоювати той погляд, що теорія IRT - це «міні-теорія про міні-поведінці». Прихильники теорії IRT зауважують, що якщо недосконалі концепції (моделі) середнього рівня, то що ж можна сказати про складніші конструкти в психології?

Класична та сучасна теорія тестів. Люди не можуть не порівнювати речі, які виглядають майже однаково. (Можливо, життєвий еквівалент психометрії і полягає, головним чином, у порівнянні людей за значущими характеристиками та вибором між ними). Кожна з представлених теорій - і теорія виміру помилок оцінювання, і математична модель відповіді завдання тесту - має своїх прибічників (Goldstein & Wood, 1986).

Моделі IRT не викликають закидів у тому, що це "оцінювання за правилами", на відміну від класичної теорії тестів. Модель IRT орієнтована аналіз оцінюваних характеристик. Характеристики особистості та характеристики завдань оцінюються за допомогою шкал (порядкових чи інтервальних). Понад те, можливе зіставлення показників виконання різних тестів, вкладених у вивчення подібних характеристик. Нарешті, надійність неоднакова кожного значення на шкалі, а середні показники зазвичай є більш надійними, ніж показники, розташовані на початку і наприкінці шкали. Таким чином, моделі IRT у теоретичному відношенні видаються більш досконалими. Існує і відмінності у практичному використанні сучасної теорії тестів та класичної теорії (Sijstma, 1992, стор 127-130). Сучасна теорія тестів складніша порівняно з класичною, тому вона рідше використовується нефахівцями. Понад те, IRT пред'являє особливі вимоги до завдань. Це означає, що завдання повинні бути виключені з тесту, якщо вони не відповідають вимогам моделі. Це правило відноситься далі до тих завдань, які входили до складу широко використовуваних тестів, побудованих за принципами класичної теорії. Тест стає коротшим, і, отже, надійність його знижується.

IRT пропонує математичні моделі вивчення реальних феноменів. Моделі повинні допомогти нам зрозуміти ключові аспекти цих феноменів. Однак тут криється основне теоретичне питання. Моделі можна розглянути-

вати як підхід до вивчення складної реальності, в якій ми живемо. Але модель і реальність - не те саме. Відповідно до песимістичного погляду, можливе моделювання лише одиничних (і до того ж не найцікавіших) типів поведінки. Також можна зустріти твердження, що реальність взагалі підлягає моделюванню, т.к. вона підпорядковується не лише причинно-наслідковим законам. У кращому разі можливе моделювання окремих (ідеальних) поведінкових феноменів. Існує й інший, більш оптимістичний, погляд на можливості моделювання. Наведена вище позиція блокує можливість глибокого розуміння природи феноменів людської поведінки. Застосування тієї чи іншої моделі порушує деякі загальні, фундаментальні питання. На наш погляд, не підлягає сумніву, що IRT є концепцією теоретично та технічно перевершує класичну теорію тестів.

Практичним призначенням тестів, який би теоретичної основі де вони створювалися, є визначення значних критеріїв і встановлення їх основі характеристик тих чи інших психологічних конструктів. Чи має модель IRT переваги і щодо цього? Цілком можливо, що тести, створені на основі цієї моделі, не дають більш точного прогнозу порівняно з тестами, створеними на основі класичної теорії, і можливо, що їхній внесок у розробку психологічних конструктів не є більш вагомим. Діагности віддають перевагу таким критеріям, які безпосередньо відносяться до окремої людини, інституту або спільноти. Модель, досконаліша у науковому відношенні, «ipso facto»* не визначає більш відповідний критерій і певною мірою обмежена у поясненні наукових конструктів. Очевидно, що розробка тестів на основі класичної теорії продовжуватиметься, але разом з тим будуть створюватися і нові моделі IRT, що поширюються на вивчення більшої кількості психологічних феноменів.

У класичної теорії тестів різняться поняття «надійності» та «валідності». Тестові результати повинні бути надійні, тобто. результати початкового та повторного тестування повинні узгоджуватися. Крім того,

* ipso facto(лак) - сама по собі (прим. перекл.).

результати мають бути вільними (наскільки це можливо) від помилок оцінювання. Наявність валідності - одна з вимог, що висуваються до отриманих результатів. При цьому надійність сприймається як необхідна, але ще не достатня умова валідності тесту.

Поняття валідності передбачає, що отримані результати відносяться до чогось важливого у практичному чи теоретичному відношенні. Висновки, зроблені на основі тестових оцінок, мають бути валідними. Найчастіше говорять про два види валідності: прогностичної (критеріальної) та конструктної. Існують також інші види валідності (див. гл. 3). Крім того, валідність може бути визначена і у разі квазіекспериментів (Cook & Campbell, 1976, Cook & Shadish, 1994). Однак основним видом валідності все ж таки є прогностична валідність, під якою розуміється можливість пророкувати за тестовим результатом щось суттєве про поведінку в майбутньому, а також можливість глибшого розуміння того чи іншого психологічного властивості чи якості.

Подані типи валідності обговорюються у кожному довіднику та супроводжуються описом методів аналізу валідності тесту. Факторний аналіз найбільше підходить для визначення конструктної валідизації, а рівняння лінійної регресії використовуються для аналізу прогностичної валідності. Ті чи інші характеристики (успішність, ефективність терапії) можуть бути передбачені на основі одного або декількох показників, отриманих при роботі з інтелектуальними або особистісними тестами. Такі техніки обробки даних, як кореляційний, регресійний, дисперсійний аналіз, аналіз часткових кореляцій та дисперсій, служать визначення прогностичної валідності тесту.

Також часто описується змістовна валідність. Передбачається, що всі завдання та завдання тесту повинні належати до специфічної галузі (психічних властивостей, поведінки тощо). Поняття змістовної валідності характеризує відповідність кожного завдання тесту вимірюваної області. Змістовна валідність іноді розглядається як частина надійності або узагальнюваність (Cronbach, Gleser, Nanda & Rajaratnam, 1972). Однак при

Виборі завдань для тестів досягнень у конкретній предметній області важливо також звертати увагу на правила включення завдань до тесту.

У класичній теорії тестів надійність та валідність розглядаються відносно незалежно один від одного. Але є й інше розуміння співвідношення цих понять. Сучасна теорія тестів ґрунтується на застосуванні моделей. Параметри оцінюються всередині певної моделі. Якщо завдання відповідає вимогам моделі, то рамках цієї моделі воно визнається невалідним. Конструктна валідизація є частиною перевірки самої моделі. Ця валідизації відноситься головним чином до перевірки існування одномірної латентної риси досліджуваної з відомими шкальними характеристиками. Шкальні оцінки, безсумнівно, можуть бути використані для визначення відповідних критеріїв, і можлива їхня кореляція з показниками інших конструктів для збору інформації про конвергентну та дивергентну валідність конструкту.

Психодіагностика аналогічна мові, що описується як єдність чотирьох компонентів, представлених на трьох рівнях. Перший компонент, теорія тестів, аналогічний синтаксису, граматиці мови. Породжувальна (генеративна) граматика - це, з одного боку, дотепна модель, з іншого - система, що підкоряється правилам. За допомогою цих правил на основі простих ствердних речень будуються складні. Однак, дана модель залишає осторонь опис того, як організований процес комунікації (що передається і що сприймається), і з якими цілями він здійснюється. Для цього потрібні додаткові знання. Те саме можна сказати і про теорію тестів: вона є необхідною в психодіагностиці, але вона не здатна пояснити, що психодіагност робить і які його цілі.

1.3.2. Психологічні теорії та психологічні конструкти

Психодіагностика – це завжди діагностика чогось конкретного: особистісних характеристик, поведінки, мислення, емоцій. Тести призначені для оцінювання індивідуальних відмінностей. Існує кілька концепцій

індивідуальних відмінностей, кожна з яких має відмінні риси. Якщо визнається, що психодіагностика не обмежується лише оцінкою індивідуальних відмінностей, то тоді й інші теорії набувають істотного значення для психодіагностики. Прикладом є оцінка відмінностей процесів психічного розвитку та відмінностей у соціальному оточенні. Хоча оцінка індивідуальних відмінностей не є неодмінним атрибутом психодіагностики, проте існують певні традиції дослідження у цій галузі. Психодіагностика починалася з оцінки відмінностей інтелекту. Основним завданням тестів було визначення спадкової передачі геніальності (Gallon) або відбір дітей для навчання (Binet, Simon). Вимір коефіцієнта інтелектуальності отримало теоретичне осмислення і практичну розробку в працях Спірмена (Великобританія) і Терстоуна (США). Раймонд Б.Кеттел зробив таке для оцінки особистісних характеристик. Психодіагностика стає нерозривно пов'язаною з теоріями та уявленнями про індивідуальні відмінності у досягненнях (оцінка граничних можливостей) та форми поведінки (рівень типового функціонування). Ця традиція продовжує залишатись ефективною і сьогодні. У навчальних посібниках з психодіагностики набагато рідше оцінюються відмінності у соціальному оточенні проти розглядом особливостей самих процесів розвитку. Для цього немає жодних розумних пояснень. З одного боку, діагностика не обмежується певними теоріями та поняттями. З іншого боку, вона потребує теорій, оскільки саме їх визначається діагностується зміст (тобто. «що» діагностується). Так, наприклад, інтелект може розглядатися і як загальна характеристика, і як основа для безлічі незалежних здібностей. Якщо психодіагностика намагається «відійти» від тієї чи іншої теорії, тоді основою психодіагностичного процесу стають уявлення здорового глузду. У дослідженнях застосовуються різні способи аналізу даних, і загальна логіка досліджень визначає вибір тієї чи іншої математичної моделі та визначає структуру психологічних понять, що використовуються. Такі методи математичної статистики

ки, як дисперсійний аналіз, регресійний аналіз, факторний аналіз, підрахунок кореляцій передбачають існування лінійних залежностей. У разі некоректного застосування цих методів вони «привносять» свою структуру в отримані дані та конструкти, що використовуються.

Уявлення про відмінності у соціальному оточенні та про розвиток особистості майже не вплинули на психодіагностику. У навчальних посібниках (див., наприклад, Murphy & Davidshofer, 1988) розглядається класична теорія тестів та обговорюються відповідні методи статистичної обробки, описуються відомі тести, розглядаються питання використання психодіагностики у практиці: у психології управління, під час відбору персоналу, в оцінці психологічних характеристик людини .

Теорії індивідуальних відмінностей (а також уявлення про відмінності між соціальним оточенням та про психічний розвиток) аналогічні до вивчення семантики мови. Це вивчення і сутності, змісту, і значення. Значення структуруються певним чином (подібно до психологічних конструктів), наприклад, за подібністю або контрастом (аналогія, конвергенція, дивергенція).

1.3.3. Психологічні тести та інші методичні засоби

Третій компонент запропонованої схеми – тести, процедури та методичні засоби, за допомогою яких відбувається збір інформації про характеристики особистості. Дрене і Сійтсма (1990, стор. 31) дають таке визначення тестам: «Психологічний тест розглядається як класифікація згідно з певною системою або як процедура вимірювання, яка дозволяє винести певне судження про одну або декілька емпірично виділених або теоретично обґрунтованих характеристик конкретної сторони поведінки людини (за рамками тестової ситуації). При цьому розглядається реакція респондентів на певну кількість ретельно підібраних стимулів, а отримані відповіді порівнюються із тестовими нормами».

Діагностиці необхідні тести та методики для збору надійної, точної та валідної інформації про особливості

і характерні риси особистості, про мислення, емоції та поведінку людини. Крім розробки тестових процедур у цей компонент входять також такі питання: як створюються тести, як формулюються та відбираються завдання, як протікає процес тестування, які вимоги до умов проведення тестування, як враховуються помилки вимірювання, як підраховуються та інтерпретуються тестові результати.

У процесі розробки тестів різняться раціональна та емпірична стратегія. Застосування раціональної стратегії починається з визначення основних понять (наприклад, поняття інтелекту, екстраверсії), і відповідно до цих уявлень формулюються завдання тесту. Прикладом такої стратегії може бути концепція аспектного аналізу (the facet theory) Гуттмана (1957, 1968, 1978). Спочатку визначаються різні аспекти основних конструктів, потім підбираються завдання та завдання таким чином, щоб було враховано кожен із цих аспектів. Друга стратегія у тому, що завдання підбираються на емпіричній основі. Наприклад, якщо дослідник спробує створити тест професійних інтересів, який дозволяв би диференціювати медиків від інженерів, то процедура має бути такою. Обидві групи респондентів повинні відповісти на всі завдання тесту, і ті пункти, у відповідях на які виявлено статистично значущі відмінності, входять до остаточного варіанта тесту. Якщо, наприклад, між групами існують відмінності у відповідях твердження «Я люблю ловити рибу», це твердження стає елементом тесту. Основним становищем цієї книги є те, що тест пов'язаний з концептуальною або таксономічною теорією, яка визначає ці характеристики.

Призначення тесту зазвичай визначено в інструкції щодо його застосування. Тест має бути стандартизований для того, щоб за його допомогою можна було оцінити різницю між людьми, а не між умовами тестування. Існують, однак, відхилення від стандартизації у процедурах, які називаються «тестуванням меж можливостей» (testing the limits) та «тести оцінки потенційних можливостей у навчанні» (learning potential tests). У цих умовах респондентові надається допомога у процесі

тестування та потім оцінюється вплив такої процедури на результат. Підрахунок балів за відповіді завдання об'єктивний, тобто. здійснюється відповідно до стандартної процедури. Інтерпретація одержаних результатів також суворо визначена та здійснюється на основі тестових норм.

Третій компонент психодіагностики – психологічні тести, інструменти, процедури – містить певні завдання, які є найменшими одиницями психодіагностики та в цьому сенсі завдання аналогічні фонемам мови. Число можливих поєднань фонем обмежено. Лише певні фонематичні структури можуть утворювати слова та речення, що забезпечують доведення інформації до слухача. Також ітестові завдання: лише у певному поєднанні друг з одним можуть стати ефективним засобом оцінки відповідного конструкта.

Вимірювання чи випробування, проведене з метою визначення стану чи здібностей спортсмена, називається тестом. Не всякі виміри можна використовувати як тести, лише ті, які відповідають спеціальним вимогам: стандартність, наявність системи оцінок, надійність, інформативність, об'єктивність. Тести, що задовольняють вимогам надійності, інформативності та об'єктивності, називають добротними.

Процес випробування називається тестуванням, а отримані результаті вимірювання числові значення – результатом тестування.

Тести, в основі яких лежать рухові завдання, називають руховимиабо моторними. Залежно від завдання, яке постає перед досліджуваним, розрізняють три групи рухових тестів.

Різновиди рухових тестів

Назва тесту	Завдання спортсмену	Результат тесту
Контрольна вправа		Двигуни	Біг на 1500 м, час бігу
Стандартні функціональні проби	Однакове для всіх, дозується: 1) за величиною виконаної роботи; 2) за величиною фізіологічних зрушень	Фізіологічні або біохімічні показники при стандартній роботі Двигуни при стандартній величині фізіологічних зрушень	Реєстрація ЧСС при стандартній роботі 1000 кгм/хв Швидкість бігу при ЧСС 160 уд/хв
Максимальні функціональні проби	Показати максимальний результат	Фізіологічні чи біохімічні показники	Визначення максимального кисневого боргу чи максимального споживання кисню

Іноді використовується не один, а кілька тестів, що мають єдину кінцеву мету. Така група тестів називається батареєю тестів.

Відомо, що навіть за найсуворішої стандартизації та точної апаратури результати тестування завжди дещо варіюють. Тому однією з важливих умов підбору добротних тестів є їх надійність.

Надійністю тестуназивається ступінь збігу результатів при повторному тестуванні тих самих людей в однакових умовах. Розрізняють чотири основні причини, що викликають внутрішньоіндивідуальну або внутрішньогрупову варіацію результатів тестування:

зміна стану випробуваних (втома, зміна мотивації тощо); неконтрольовані зміни зовнішніх умов та апаратури;

зміна стану людини, яка проводить або оцінює тест (самопочуття, заміна експериментатора тощо);

недосконалість тесту (наприклад, свідомо недосконалі та малонадійні тести – штрафні кидки до баскетбольного кошика до першого промаху тощо).

Критерієм надійності тесту може бути коефіцієнт надійності,розрахований як відношення істинної дисперсії до дисперсії, зареєстрованої в досвіді: r = істинна s 2 / зареєстрована s 2 де під істинним значенням розуміють дисперсію, отриману при нескінченно великому числі спостережень в однакових умовах; реєстрована дисперсія виводиться з дослідних досліджень. Іншими словами, коефіцієнт надійності є просто частка справжньої варіації у тій варіації, яка зареєстрована у досвіді.

Крім цього коефіцієнта використовують ще індекс надійності, Який розглядають як теоретичний коефіцієнт кореляції або зв'язку між зареєстрованим та істинним значеннями одного і того ж тесту. Цей метод найпоширеніший як критерій оцінки якості (надійності) тесту.

Однією з характеристик надійності тесту є його еквівалентність, що відбиває ступінь збігу результатів тестування однієї й тієї ж якості (наприклад, фізичного) різними тестами. Ставлення до еквівалентності тестів залежить від конкретного завдання. З одного боку, якщо два або більше тестів еквівалентні, їхнє спільне застосування підвищує надійність оцінок; з іншого – можна застосувати лише один еквівалентний тест, що спростить тестування.

Якщо всі тести, що входять до будь-якої батареї тестів, високоеквівалентні, вони називаються гомогенними(наприклад, для оцінки якості стрибучості гомогенними, мабуть, будуть стрибки з місця в довжину, вгору, потрійним). Навпаки, якщо в комплексі немає еквівалентних тестів (як, наприклад, з метою оцінки загальної фізичної підготовленості), всі тести що входять до нього, вимірюють різні властивості, тобто. по суті комплекс є гетерогенним.

Надійність тестів може бути підвищена до певної міри шляхом:

суворішою стандартизацією тестування;

збільшення числа спроб;

збільшення числа оцінювачів та підвищення узгодженості їх думок;

збільшення кількості еквівалентних тестів;

найкращої мотивації піддослідних.

Об'єктивність тестує окремий випадок надійності, тобто. незалежність результатів тестування від особи, яка проводить тест.

Інформативність тесту- Це ступінь точності, з якою він вимірює якість (якість спортсмена), для оцінки якого використовується. У різних випадках одні й самі тести можуть мати різну інформативність. Питання про інформативність тесту розпадається на два окремі питання:

Що змінює цей тест? Як він вимірює?

Наприклад, чи можна за таким показником, як МПК, судити про підготовленість бігунів-стаєрів, і якщо можна, то з яким ступенем точності? Чи можна використовувати цей тест у процесі контролю?

Якщо тест використовується визначення стану спортсмена в останній момент обстеження, то говорять про діагностичноїінформативність тесту. Якщо ж на основі результатів тестування хочуть зробити висновок про можливі майбутні показники спортсмена, говорять про прогностичноїінформативність. Тест може бути діагностично інформативним, а прогностично немає і навпаки.

Ступінь інформативності може характеризуватись кількісно – на основі досвідчених даних (так звана емпіричнаінформативність) та якісно – на основі змістовного аналізу ситуації ( логічнаінформативність). Хоча у практичній роботі логічний, чи змістовний аналіз завжди має передувати математичному. Показником інформативності тесту служить коефіцієнт кореляції, розрахований для залежності - критерію від результату в тесті, і навпаки (як критерій береться показник, що свідомо відображає те властивість, яке збираються вимірювати за допомогою тесту).

У разі недостатності інформативності будь-якого тесту вдаються до використання батареї тестів. Однак останнє, навіть за наявності високих роздільних критеріїв інформативності (судячи з коефіцієнтів кореляції), не дозволяє отримати однину. Тут допоможе може прийти складніший метод математичної статистики – факторний аналіз.Який дозволяє визначити, скільки і які тести спільно діють на окремий фактор і який ступінь їхнього вкладу в кожен фактор. А потім вже легко вибрати тести (або їх комбінації), які найточніше оцінюють окремі фактори.

1 Що називається тестом?
2 Що називається тестуванням?	Кількісна оцінка будь-якої якості або стану спортсмена Вимірювання або випробування, що проводиться з метою визначення стану або здібностей спортсмена Процес випробування, під час якого кількісно оцінюється якась якість або стан спортсмена
3 Що називається результатом тесту?	Кількісна оцінка будь-якої якості або стану спортсмена Вимірювання або випробування, що проводиться з метою визначення стану або здібностей спортсмена Процес випробування, під час якого кількісно оцінюється якась якість або стан спортсмена
4 До якого різновиду тестів відноситься біг на 100 м?
5 До якого різновиду тестів відноситься кистьова динамометрія?	Контрольна вправа Функціональна пробаМаксимальний функціональний тест
6 До якого різновиду тестів відноситься проба МПК?	Контрольна вправа Функціональна пробаМаксимальний функціональний тест
7 До якого різновиду тестів відноситься трихвилинний біг під метроном?	Контрольна вправа Функціональна пробаМаксимальний функціональний тест
8 До якого різновиду тестів відноситься максимальна кількість підтягувань на перекладині?	Контрольна вправа Функціональна пробаМаксимальний функціональний тест
9 У якому разі вважається тест інформативним?
10 У якому випадку тест вважається надійним?	Здатність тесту до відтворення результатів при повторному випробуванні Здатність тесту вимірювати цікаву якість спортсмена Незалежність результатів тестування від особи, яка проводить тест
11 У якому випадку вважається об'єктивним тест?	Здатність тесту до відтворення результатів при повторному випробуванні Здатність тесту вимірювати цікаву якість спортсмена Незалежність результатів тестування від особи, яка проводить тест
12 Який критерій необхідний оцінки тесту на інформативність?
13 Який критерій потрібний при оцінці тесту на надійність?	Критерій Т-Стьюдента Критерій F-ФішераКоефіцієнт кореляціїКоефіцієнт детермінаціїДисперсія
14 Який критерій необхідний оцінці тесту на об'єктивність?	Критерій Т-Стьюдента Критерій F-ФішераКоефіцієнт кореляціїКоефіцієнт детермінаціїДисперсія
15 Як називають інформативність тесту, якщо з його допомогою оцінюють ступінь тренованості спортсмена?
16 Якою інформативністю контрольних вправ керується тренер, відбираючи дітей у спортивну секцію?	Логічної Прогностичної Емпіричної Діагностичної
17 Чи потрібний кореляційний аналіз для оцінки інформативності тестів?
18 Чи потрібний факторний аналіз для оцінки інформативності тестів?
19 Чи можна оцінити за допомогою кореляційного аналізу надійність тесту?
20 Чи можна оцінити з допомогою кореляційного аналізу об'єктивність тесту?
21 Чи еквівалентні тести, призначені для оцінки загальної фізичної підготовленості?
22 При вимірі однієї й тієї ж якості різними тестами використовують тести …	Призначені для вимірювання однієї і тієї ж якості, що мають високий кореляційний зв'язок між собою

ОСНОВИ ТЕОРІЇ ОЦІНОК

Для оцінювання спортивних результатів часто вдаються до спеціальних таблиць очок. Ціль таких таблиць - перетворення показаного спортивного результату (вираженого в об'єктивних заходах) в умовні окуляри. Закон перетворення спортивних результатів на окуляри називається шкалою оцінок. Шкала може бути задана у вигляді математичного виразу, таблиці чи графіка. Розрізняють 4 основні типи шкал, що використовуються у спорті та фізичному вихованні.

Пропорційні шкали

Регресуючі шкали

Прогресують шкали.

Пропорційні шкалипередбачають нарахування однакового числа очок за рівний приріст результатів (наприклад, за кожні 0,1 з покращення результату у бігу на 100 м нараховується 20 очок). Такі шкали використовуються в сучасному п'ятиборстві, ковзанярському спорті, гонках на лижах, лижному двоборстві, біатлоні та інших видах спорту.

Регресуючі шкалипередбачають нарахування, за один і той же приріст результату в міру зростання спортивних досягнень, все менше очок (наприклад, за поліпшення результату в бігу на 100 м з 15, 0 до 14.9 з додають 20 очок, а за 0,1 в діапазоні 10,0-9,9 с – лише 15 очок).

Прогресують шкали.Тут чим вище спортивний результат, тим більшим збільшенням очок оцінюється його поліпшення (наприклад, за поліпшення часу в бігу від 15,0 до 14,9 с додають 10 очок, а від 10,0 до 9,9 с - 100 очок). Прогресуючі шкали застосовуються у плаванні, окремих видах легкої атлетики, важкій атлетиці.

Сигмоподібні шкалирідко використовуються у спорті, але широко застосовуються в оцінці фізичної підготовленості (наприклад, так виглядає шкала стандартів фізичної підготовленості населення США). У цих шкалах покращення результатів у зоні дуже низьких та дуже високих досягнень заохочуються скупо; найбільше очок приносить приріст результатів у середній зоні досягнень.

Основними завданнями оцінювання є:

зіставити різні досягнення в тому самому завданні;

зіставити досягнення у різних завданнях;

визначити норми.

Нормоюу спортивної метрології називається гранична величина результату, яка є основою для віднесення спортсмена до однієї з класифікаційних груп. Існує три види норм: порівняльні, індивідуальні, належні.

Порівняльні нормимають у своїй основі порівняння людей, що належать до однієї й тієї самої сукупності. Наприклад, розбиття людей на підгрупи за рівнем стійкості (високої, середньої, низької) або реактивності (гіперреактивні, нормореактивні, гіпореактивні) до гіпоксії.

Різні градації оцінок та норм

			Відсоток випробуваних	Норми у шкалах
Словесна	у балах				Перцентильна
Дуже низька		Нижче М - 2
		Від М - 2 до М - 1
нижче середньої		Від М-1 до М–0,5
		Від М–0,5 до М+0,5
Вище середньої		Від М+0,5 до М+1
		Від М+1 до М+2
Дуже висока		Вище М+2

Ці норми характеризують лише порівняльні успіхи досліджуваних у цій сукупності, але нічого не говорять про сукупність загалом (або в середньому). Тому порівняльні норми повинні порівнюватися з даними, отриманими на інших сукупностях, та використовуватися у поєднанні з індивідуальними та належними нормами.

Індивідуальні нормизасновані на порівнянні показників одного й того спортсмена в різних станах. Наприклад, у багатьох видах спорту немає залежності між власною вагою тіла та спортивним результатом. Кожен спортсмен має індивідуально оптимальну вагу, що відповідає стану спортивної форми. Цю норму можна контролювати різних етапах спортивної підготовки.

Належні нормизасновані на аналізі того, що має вміти людина, щоб успішно справлятися із завданнями, які перед нею ставить життя. Прикладом цього можуть бути нормативи окремих комплексів з фізичної підготовки, належні величини ЖЕЛ, основного обміну, маси та зростання тіла, тощо.

1 Чи можна прямим методом виміряти якість витривалості?
2 Чи можна прямим методом виміряти якість швидкості?
3 Чи можна прямим методом виміряти якість спритності?
4 Чи можна прямим методом виміряти якість гнучкості?
5 Чи можна прямим методом виміряти силу окремих м'язів?
6 Чи може оцінка виражатися в якісній характеристиці (добре, задовільно, погано, залік тощо)?
7 Чи є різниця між шкалою вимірювань та шкалою оцінок?
8 Що називається шкалою оцінок?	Система вимірювання спортивного результату Закон перетворення спортивних результатів на окуляриСистема оцінювання норм
9 Шкала передбачає нарахування однакового числа очок за рівний приріст результатів. Це …
10 За той самий приріст результату нараховують у міру зростання спортивних досягнень дедалі менше очок. Це …	Прогресуюча шкала Регресуюча шкалаПропорційна шкалаСигмоподібна шкала
11 Чим вище спортивний результат, тим більшим збільшенням очок оцінюється його поліпшення. Це …	Прогресуюча шкала Регресуюча шкалаПропорційна шкалаСигмоподібна шкала
12 Поліпшення результатів у зонах дуже низьких і дуже високих досягнень заохочується скупо; найбільше очок приносить приріст результатів у середній зоні досягнень. Це …	Прогресуюча шкала Регресуюча шкалаПропорційна шкалаСигмоподібна шкала
13 Норми, які мають у своїй основі порівняння людей, що належать до однієї і тієї ж сукупності, називаються …
14 Норми, засновані на порівнянні показників одного й того спортсмена в різних станах, називаються …	Індивідуальними нормами Посадовими нормамиСпорівнювальними нормами
15 Норми, засновані на аналізі того, що має вміти робити людина, щоб справлятися з поставленими перед нею завданнями, називаються …	Індивідуальними нормами Посадовими нормамиСпорівнювальними нормами

ОСНОВНІ ПОНЯТТЯ КВАЛІМЕТРІЇ

Кваліметрія(лат. qualitas – якість, metron – міра) вивчає та розробляє кількісні методи оцінки якісних ознак.

В основі кваліметрії лежить кілька вихідних положень:

Будь-яку якість можна виміряти;

Якість залежить від низки властивостей, що утворюють "дерево якості" (наприклад, дерево якості виконання вправ у фігурному катанні складається з трьох рівнів – вищого, середнього, нижчого);

Кожна властивість визначається двома числами: відносним показником та вагомістю; сума вагомостей властивостей кожному рівні дорівнює одиниці (чи 100%).

Методичні прийоми кваліметрії поділяються на дві групи:

Евристичні (інтуїтивні), засновані на експертних оцінках та анкетуванні;

Інструментальні.

Експертноїназивається оцінка, одержувана шляхом з'ясування думок спеціалістів. Характерні приклади експертизи: суддівство у гімнастиці та фігурному катанні на ковзанах, конкурс на кращу наукову працю тощо.

Проведення експертизи включає такі основні етапи: формування її мети, підбір експертів, вибір методики, проведення опитування та опрацювання отриманої інформації, у тому числі оцінку узгодженості індивідуальних експертних оцінок. При експертизі велике значення має ступінь узгодженості думок експертів, що оцінюється за величиною рангового коефіцієнта кореляції(у разі кількох експертів). Слід зазначити, що рангова кореляція є основою вирішення багатьох завдань кваліметрії, оскільки дозволяє здійснювати математичні розрахунки з якісними ознаками.

На практиці показником кваліфікації експерта часто є відхилення його оцінок від середніх оцінок групи експертів.

Анкетуваннямназивається метод збирання думок у вигляді заповнення анкет. Анкетування поряд з інтерв'ю та бесідою відноситься до методів опитування. На відміну від інтерв'ю та розмови анкетування передбачає письмові відповіді особи, яка заповнює анкету – респондента, – на систему стандартизованих питань. Воно дозволяє вивчати мотиви поведінки, наміри, думки тощо.

За допомогою анкетування можна вирішувати багато практичних завдань у спорті: оцінка психологічного статусу спортсмена; його ставлення до характеру та спрямованості тренувальних занять; міжособистісні стосунки у команді; власна оцінка техніко-тактичної підготовленості; оцінка раціону харчування та багато інших.

1 Що вивчає кваліметрія?	Вивчає якості тестів Вивчає якісні властивості ознакиВивчає та розробляє кількісні методи оцінки якості
2 Математичні методи, що застосовуються у кваліметрії?	Парна кореляція Рангова кореляція Дисперсійний аналіз
3 За допомогою яких методів оцінюється рівень працездатності?
4 За допомогою яких методів оцінюється різноманітність технічних елементів?	Метод анкетування Метод експертних оцінокМетод не вказано
5 За допомогою яких методів оцінюється складність технічних елементів?	Метод анкетування Метод експертних оцінокМетод не вказано
6 За допомогою яких методів оцінюється психологічний стан спортсмена?	Метод анкетування Метод експертних оцінокМетод не вказано