Порівняння середніх за рівнем статистичної достовірності. Рівень статистичної достовірності

Статистична значимістьрезультату (p-значення) є оціненою мірою впевненості у його «істинності» (у сенсі «репрезентативності вибірки»). Висловлюючись технічніше, p-значення - це показник, що знаходиться в спадній залежності від надійності результату. Більше високе p-значеннявідповідає нижчому рівню довіри до знайденої у вибірці залежності між змінними. Саме p-значення є ймовірністю помилки, пов'язаної з поширенням спостережуваного результату на всю популяцію. Наприклад, p-значення = 0.05 (тобто 1/20) показує, що є 5% ймовірність, що знайдена у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. Іншими словами, якщо дана залежністьу популяції відсутня, а ви багато разів проводили б подібні експерименти, то приблизно в одному з двадцяти повторень експерименту можна було б очікувати такої ж чи сильнішої залежності між змінними.

Багато дослідженнях p-значение=0.05 сприймається як «прийнятна межа» рівня помилки.

Не існує ніякого способу уникнути свавілля при ухваленні рішення про те, який рівень значущості слід вважати «значним». Вибір певного рівня значимості, вище якого результати відкидаються як хибні, досить довільним. На практиці остаточне рішеннязазвичай залежить від того, чи був результат передбачений апріорі (тобто до проведення досвіду) або виявлено апостеріорно в результаті багатьох аналізів і порівнянь, виконаних з безліччю даних, а також на традиції, що є в даній галузі досліджень. Зазвичай у багатьох областях результат p 0.05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає ймовірність помилки (5%). Результати, значущі рівні p 0.01 зазвичай розглядаються як статистично значущі, а результати з рівнем p 0.005 чи p 0.001 як високо значущі. Однак слід розуміти, що дана класифікаціярівнів значущості досить довільна і є лише неформальною угодою, прийнятою на основі практичного досвідуу тій чи іншій галузі дослідження.

Як було вже сказано, величина залежності та надійність становлять дві різні характеристикизалежностей між змінними. Проте не можна сказати, що вони абсолютно незалежні. Говорячи спільною мовоючим більша величиназалежності (зв'язку) між змінними у вибірці звичайного обсягу, тим паче вона надійна.

Якщо припускати відсутність залежності між відповідними змінними в популяції, то найбільш ймовірно очікувати, що в досліджуваній вибірці зв'язок між цими змінними також не буде. Таким чином, чим сильніша залежність виявлена у вибірці, тим менш ймовірно, що цієї залежності немає в популяції, з якої вона вилучена.

Обсяг вибірки впливає значення залежності. Якщо спостережень мало, то відповідно є мало можливих комбінаційзначень цих змінних і, таким чином, ймовірність випадкового виявлення комбінації значень, що показують сильну залежність, відносно велика.

Як обчислюється рівень статистичної значимості. Припустимо, ви вже вирахували міру залежності між двома змінними (як пояснювалося вище). Наступне питання, яке стоїть перед вами: «наскільки важлива ця залежність?» Наприклад, чи є 40% поясненою дисперсією між двома змінними достатнім, щоб вважати залежність значущою? Відповідь: "залежно від обставин". Саме значимість залежить в основному від обсягу вибірки. Як уже пояснювалося, у дуже великих вибірках навіть дуже слабкі залежності між змінними будуть значущими, тоді як у малих вибірках навіть дуже сильні залежності не є надійними. Таким чином, щоб визначити рівень статистичної значущості, вам потрібна функція, яка представляла б залежність між «величиною» і «значимістю» залежності між змінними для кожного обсягу вибірки. Ця функціявказала б вам точно «наскільки можливо отримати залежність даної величини (або більше) у вибірці даного обсягу, припущення, що у популяції такої залежності немає». Іншими словами, ця функція давала б рівень значущості (p-значення), і, отже, можливість помилково відхилити припущення про відсутність цієї залежності у популяції. Ця «альтернативна» гіпотеза (що полягає в тому, що немає залежності в популяції) зазвичай називається нульовою гіпотезою. Було б ідеально, якби функція, що обчислює ймовірність помилки, була лінійною і мала лише різні нахили для різних обсягіввибірки. На жаль, ця функція значно складніша і не завжди точно одна і та ж. Тим не менш, у більшості випадків її форма відома, і її можна використовувати для визначення рівнів значущості при дослідженні вибірок заданого розміру. Більшість цих функцій пов'язані з дуже важливим класом розподілів, званим нормальним.

Рівень значимості у статистиці є важливим показником, Що відбиває ступінь впевненості в точності, істинності отриманих (прогнозованих) даних. Поняття широко застосовується в різних сферах: від проведення соціологічних досліджень, до статистичного тестування наукових гіпотез

Визначення

Рівень статистичної значущості (або статистично значущий результат) показує, якою є ймовірність випадкового виникнення досліджуваних показників. Загальна статистична значущість явища виражається коефіцієнтом р-value (p-рівень). У будь-якому експерименті чи спостереженні існує ймовірність, що отримані дані виникли через помилки вибірки. Особливо це актуально для соціології.

Тобто статистично значимої є величина, чия ймовірність випадкового виникнення вкрай мала чи прагне крайності. Крайністю у цьому контексті вважають ступінь відхилення статистики від нуль-гіпотези (гіпотези, яку перевіряють на узгодженість із отриманими вибірковими даними). У науковій практицірівень значущості вибирається перед збиранням даних і, як правило, його коефіцієнт становить 0,05 (5%). Для систем, де дуже важливі точні значення, цей показник може становити 0,01 (1%) та менше.

Історія питання

Поняття рівня значущості було введено британським статистиком та генетиком Рональдом Фішером у 1925 році, коли він розробляв методику перевірки статистичних гіпотез. При аналізі будь-якого процесу існує певна можливість тих чи інших явищ. Проблеми з'являються під час роботи з невеликими (чи очевидними) відсотками ймовірностей, які під поняття «похибка вимірів».

Працюючи зі статистичними даними, недостатньо конкретними, щоб їх перевірити, вчені стикалися з проблемою нульової гіпотези, яка «заважає» оперувати малими величинами. Фішер запропонував для таких систем визначити ймовірність подій у 5% (0,05) як зручний вибірковий зріз, що дозволяє відхилити нуль-гіпотезу при розрахунках.

Введення фіксованого коефіцієнта

У 1933 році вчені ЄжиНейман та Егон Пірсон у своїх роботах рекомендували заздалегідь (до збору даних) встановлювати певний рівень значущості. Приклади використання цих правил добре помітні під час проведення виборів. Припустимо, є два кандидати, один із яких дуже популярний, а другий – маловідомий. Очевидно, що перший кандидат вибори виграє, а шанси другого прагнуть нуля. Прагнуть - але не рівні: завжди є ймовірність форс-мажорних обставин, сенсаційної інформації, несподіваних рішень, які можуть змінити прогнозовані результати виборів.

Нейман і Пірсон погодилися, що запропонований Фішером рівень значущості 0,05 (який позначається символом α) найбільш зручний. Проте сам Фішер у 1956 році виступив проти фіксації цього значення. Він вважав, що рівень α має встановлюватись відповідно до конкретних обставин. Наприклад, у фізиці частинок він становить 0,01.

Значення p-рівня

Термін р-value вперше використаний у роботах Браунлі у 1960 році. P-рівень (p-значення) є показником, що знаходиться в зворотної залежностівід істинності результатів. Найвищий коефіцієнт р-value відповідає найменшому рівню довіри до проведеної вибірки залежності між змінними.

Це значення відображає ймовірність помилок, пов'язаних з інтерпретацією результатів. Припустимо, p-рівень = 0,05 (1/20). Він показує п'ятивідсоткову ймовірність того, що знайдений у вибірці зв'язок між змінними – лише випадкова особливість проведеної вибірки. Тобто, якщо ця залежність відсутня, то при багаторазових подібних експериментах в середньому в кожному двадцятому дослідженні можна очікувати таку ж або більшу залежністьміж змінними. Часто p-рівень розглядається як «допустима межа» рівня помилок.

До речі, р-value може не відображати реальну залежністьміж змінними, лише показує якесь середнє значення не більше припущень. Зокрема, остаточний аналіз даних також залежатиме від обраних значень даного коефіцієнта. При p-рівні = 0,05 будуть одні результати, а при коефіцієнті, що дорівнює 0,01, інші.

Перевірка статистичних гіпотез

Рівень статистичної значущості особливо важливий при перевірці гіпотез, що висуваються. Наприклад, при розрахунках двостороннього тесту область відторгнення поділяють порівну на обох кінцях вибіркового розподілу(щодо нульової координати) та вираховують істинність отриманих даних.

Припустимо, при моніторингу якогось процесу (яви) з'ясувалося, що нова статистична інформаціясвідчить про невеликі змінищодо попередніх значень. У цьому розбіжності у результатах малі, не очевидні, але важливі дослідження. Перед фахівцем постає дилема: зміни реально відбуваються, чи це помилки вибірки (неточність вимірів)?

У цьому випадку застосовують або відкидають нульову гіпотезу (списують все на похибку, або визнають зміну системи як факт, що відбувся). Процес розв'язання задачі базується на співвідношенні загальної статистичної значущості (р-value) та рівня значущості (α). Якщо р-рівень< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Використовувані значення

Рівень значущості залежить від аналізованого матеріалу. На практиці використовують такі фіксовані значення:

α = 0,1 (або 10%);
α = 0,05 (або 5%);
α = 0,01 (або 1%);
α = 0,001 (або 0,1%).

Чим більш точними потрібні розрахунки, тим менший коефіцієнт використовується. Природно, що статистичні прогнози у фізиці, хімії, фармацевтиці, генетиці потребують більшої точності, ніж у політології, соціології.

Пороги значимості у конкретних областях

У високоточних областях, таких як фізика частинок та виробнича діяльність, статистична значимість часто виражається як співвідношення середньоквадратичного відхилення (позначається коефіцієнтом сигма – σ) щодо нормального розподілуймовірностей (розподіл Гауса). σ – це статистичний показник, Що визначає розсіювання значень певної величини щодо математичних очікувань. Використовується для складання графіків ймовірності подій.

Залежно від галузі знань, коефіцієнт σ сильно відрізняється. Наприклад, при прогнозуванні існування бозона Хіггса параметр дорівнює п'яти (σ=5), що відповідає значенню р-value=1/3,5 млн. При дослідженнях геномів рівень значущості може становити 5×10 -8 , що не є рідкістю для цієї області.

Ефективність

Необхідно враховувати, що коефіцієнти і р-value не є точними характеристиками. Яким би не був рівень значущості у статистиці досліджуваного явища, він не є безумовною основою для прийняття гіпотези. Наприклад, чим менше значенняα, тим більший шанс, що встановлювана гіпотеза є значущою. Проте існує ризик помилитися, що зменшує статистичну потужність (значущість) дослідження.

Дослідники, які зациклюються виключно на статистично значимих результатах, можуть одержати хибні висновки. При цьому перевіряти ще раз їх роботу важко, тому що ними застосовуються припущення (якими фактично і є значення α і р-value). Тому рекомендується завжди, поряд із обчисленням статистичної значущості, визначати інший показник – величину статистичного ефекту. Величина ефекту – це кількісна міра сили ефекту.

При обґрунтуванні статистичного висновку слід вирішити питання, де проходить лінія між прийняттям і запереченням нульової гіпотези? Через наявність в експерименті випадкових впливівця межа не може бути проведена абсолютно точно. Вона базується на понятті рівня значимості. рівнем значимості називається ймовірність помилкового відхилення нульової гіпотези. Або, іншими словами, рівень значущості - це ймовірність помилки першого роду після ухвалення рішення. Для позначення цієї ймовірності, як правило, вживають або грецьку букву α, або латинську букву нар.Надалі ми вживатимемо літеру нар.

Історично склалося так, що у прикладних науках, що використовують статистику, і зокрема у психології, вважається, що нижчим рівнем статистичної значущості є рівень р = 0,05; достатнім - рівень р= 0,01 та вищим рівень р = 0,001. Тому в статистичних таблицях, які наводяться у додатку до підручників зі статистики, зазвичай даються табличні значення для рівнів р = 0,05, р = 0,01 та р= 0,001. Іноді даються табличні значення для рівнів р - 0,025 та р = 0,005.

Величини 0,05, 0,01 та 0,001 – це так звані стандартні рівні статистичної значущості. При статистичному аналізі експериментальних даних психолог залежно від завдань та гіпотез дослідження має вибрати необхідний рівень значущості. Як бачимо, тут найбільша величина, або Нижня границярівня статистичної значимості, що дорівнює 0,05 - це означає, що допускається п'ять помилок у вибірці зі ста елементів (випадків, випробуваних) або одна помилка з двадцяти елементів (випадків, випробуваних). Вважається, що ні шість, ні сім, ні більша кількістьразів зі ста ми помилитися не можемо. Ціна таких помилок буде надто великою.

Зауважимо, що у сучасних статистичних пакетах на ЕОМ використовуються не стандартні рівні значимості, а рівні, що підраховуються безпосередньо у процесі роботи з відповідним статистичним методом. Ці рівні, що позначаються буквою р,можуть мати різне числове виразв інтервалі від 0 до 1, наприклад, р = 0,7, р= 0,23 або р= 0,012. Зрозуміло, що у перших двох випадках отримані рівні значущості занадто великі і говорити, що результат значимий не можна. У той же час у останньому випадкурезультати значимі лише на рівні 12 тисячних. Це достовірний рівень.

Правило прийняття статистичного висновку таке: на підставі отриманих експериментальних даних психолог підраховує за вибраним ним статистичним методом так звану емпіричну статистику, або емпіричне значення. Цю величину зручно позначити як Ч емп . Потім емпірична статистика Ч емп порівнюється з двома критичними величинами, які відповідають рівням значимості 5% і 1% для обраного статистичного методу і які позначаються як Ч кр . Величини Ч кр знаходяться для даного статистичного методу за відповідними таблицями, наведеними у додатку до будь-якого підручника зі статистики. Ці величини, як правило, завжди різні і їх надалі для зручності можна назвати як Ч кр1і Ч кр2 . Знайдені за таблицями величини критичних значень Ч кр1і Ч кр2зручно представляти у наступній стандартній формі записи:

Підкреслимо, однак, що ми використовували позначення Ч емп і Ч кр як скорочення слова "число". У всіх статистичних методах прийнято свої символічні позначення всіх цих величин: як підрахованої за відповідним статистичним методом емпіричної величини, так і знайдених за відповідними таблицями критичних величин. Наприклад, при підрахунку рангового коефіцієнта кореляції Спірмена за таблицею критичних значень цього коефіцієнта знайшли наступні величини критичних значень, які для цього методу позначаються грецькою літероюρ («ро»). Так для р = 0,05 за таблицею знайдено величину ρ кр 1 = 0,61 і для р = 0,01 величина ρ кр 2 = 0,76.

У прийнятій у подальшому викладі стандартної формі запису це виглядає так:

Тепер нам необхідно порівняти наше емпіричне значення із двома знайденими за таблицями критичними значеннями. Найкраще це зробити, розташувавши всі три числа на так званій осі значущості. «Вісь значущості» являє собою пряму, на лівому кінці якої розташовується 0, хоча він, як правило, не відзначається на цій прямій, і зліва направо йде збільшення числового ряду. По суті, це звична шкільна вісь абсцис ОХдекартової системи координат. Однак особливість цієї осі в тому, що на ній виділено три ділянки, зони. Одна крайня зона називається зоною незначущості, друга крайня зона – зоною значимості, а проміжна – зоною невизначеності. Кордонами всіх трьох зон є Ч кр1для р = 0,05 та Ч кр2 для р = 0,01, як показано малюнку.

Залежно від правила ухвалення рішення (правила висновку), запропонованого в даному статистичному методі, можливо два варіанти.

Перший варіант: альтернативна гіпотезаприймається, якщо Ч емп ≥Ч кр .

Або другий варіант: альтернативна гіпотеза приймається, якщо Ч емп ≤Ч кр .

Підраховане Ч емп за будь-яким статистичним методом має обов'язково потрапити до однієї з трьох зон.

Якщо емпіричне значення потрапляє до зони незначущості, приймається гіпотеза Н 0 про відсутність відмінностей.

Якщо Ч емп потрапило до зони значимості, приймається альтернативна гіпотеза Н 1 о наявності відмінностей, а гіпотеза Н0 відхиляється.

Якщо Ч емп потрапляє у зону невизначеності, перед дослідником стоїть дилема. Так, в залежності від важливості розв'язуваної задачі він може вважати отриману статистичну оцінку достовірною на рівні 5%, і прийняти, тим самим гіпотезу Н1, відхиливши гіпотезу Н0 , або - недостовірною лише на рівні 1%, прийнявши цим, гіпотезу Н 0 . Підкреслимо, однак, що це саме той випадок, коли психолог може припуститися помилок першого чи другого роду. Як уже говорилося вище, за цих обставин найкраще збільшити обсяг вибірки.

Підкреслимо також, що величина Ч емп може точно збігтися або з Ч кр1або Ч кр2 . У першому випадку вважатимуться, що оцінка достовірна точно лише на рівні 5% і прийняти гіпотезу Н 1 , чи, навпаки, прийняти гіпотезу Н 0 . У другий випадок, зазвичай, приймається альтернативна гіпотеза Н 1 про наявність відмінностей, а гіпотеза Н 0 відхиляється.

ДОСТАВНІСТЬ СТАТИСТИЧНА

- англ. credibility /validity, statistical; ньому. Validitat, statistische. Послідовність, об'єктивність та відсутність неясності у статистичному тесті або в к.-л. наборі вимірів. Д. с. може бути перевірена повторенням того ж тесту (або запитальника) по відношенню до того самого суб'єкта, щоб переконатися, чи будуть отримані такі ж результати; або порівнянням різних частинтесту, якими припускають виміряти той самий об'єкт.

Антіназі. Енциклопедія соціології, 2009

Дивитися що таке "ДОСТАВНІСТЬ СТАТИСТИЧНА" в інших словниках:

ДОСТАВНІСТЬ СТАТИСТИЧНА- англ. credibility /validity, statistical; ньому. Validitat, statistische. Послідовність, об'єктивність та відсутність неясності у статистичному тесті або в к. л. наборі вимірів. Д. с. може бути перевірена повторенням того ж тесту (або… … Тлумачний словникз соціології

У статистиці величину називають статистично значущою, якщо мала ймовірність її випадкового виникнення чи ще крайніх величин. Тут під крайністю розуміється рівень відхилення тестової статистики від нуль гіпотези. Різниця називається… … Вікіпедія

Фізичне явище статистичної стійкості у тому, що зі збільшенням величини вибірки частота випадкової подіїабо середнє значення фізичної величинипрагне деякого фіксованого числа. Феномен статистичної… … Вікіпедія

ДОСТАВНІСТЬ ВІДМІННОСТІ (подібності)- аналітико статистична процедура встановлення рівня значущості відмінностей або подібностей між вибірками за показниками, що вивчаються (змінними). Сучасний освітній процес: основні поняття та терміни

ЗВІТНІСТЬ, СТАТИСТИЧНА Великий бухгалтерський словник

ЗВІТНІСТЬ, СТАТИСТИЧНА- форма державного статистичного спостереження, при якій відповідні органи одержують від підприємств (організацій та установ) необхідні їм відомості у вигляді статутних у законному порядку звітних документів (статистичних звітів) за … Великий економічний словник

Наука, що займається вивченням прийомів систематичного спостереженнянад масовими явищами соціального життялюдини, складання чисельних їх описів та наукової обробкицих описів. Таким чином, теоретична статистика є наука. Енциклопедичний словникФ.А. Брокгауза та І.А. Єфрона

Коефіцієнт кореляції- (Correlation coefficient) Коефіцієнт кореляції це статистичний показник залежності двох випадкових величинВизначення коефіцієнта кореляції, види коефіцієнтів кореляції, властивості коефіцієнта кореляції, обчислення та застосування. Енциклопедія інвестора

Статистика- (Statistics) Статистика це загальнотеоретична наука, що вивчає кількісні зміниу явищах та процесах. Державна статистика, служби статистики, Росстат (Держкомстат), статистичні дані, статистика запитів, статистика продажів, … Енциклопедія інвестора

Кореляція- (Correlation) Кореляція це статистичний взаємозв'язокдвох або кількох випадкових величин Поняття кореляції, види кореляції, коефіцієнт кореляції, кореляційний аналіз, кореляція цін, кореляція валютних пар на Форекс | Енциклопедія інвестора

Книги

Дослідження в математиці та математика в дослідженні: Методичний збірник з дослідницької діяльності учнів, Борзенко В.І. методичні розробки, застосовні у створенні дослідницької діяльностіучнів. Перша частина збірки присвячена застосуванню дослідницького підходув…

У будь-якій науково-практичній ситуації експерименту (обстеження) дослідники можуть досліджувати не всіх людей ( генеральну сукупність, популяцію), а лише певну вибірку. Наприклад, навіть якщо ми досліджуємо щодо невелику групулюдей, наприклад, які страждають певною хворобою, то й у цьому випадку дуже малоймовірно, що у нас є відповідні ресурси чи необхідність тестувати кожного хворого. Натомість зазвичай тестують вибірку з популяції, оскільки це зручніше і займає менше часу. У такому разі, звідки нам відомо, що результати, отримані на вибірці, становлять усю групу? Або, якщо використовувати професійну термінологіюЧи можемо ми бути впевнені, що наше дослідження правильно описує всю популяцію, вибірку з якої ми використали?

Щоб відповісти це питання, необхідно визначити статистичну значимість результатів тестування. Статистична значимість (Significant level, скорочено Sig.),або /7-рівень значущості (p-level) -це ймовірність того, що даний результатправильно представляє популяцію, вибірка з якої досліджувалась. Зазначимо, що це лише ймовірність- неможливо з абсолютною гарантією стверджувати, що це дослідженняПравильно визначає всю популяцію. У найкращому випадкуза рівнем значущості можна лише зробити висновок, що це цілком можливо. Таким чином, неминуче постає таке питання: яким має бути рівень значущості, щоб можна було вважати цей результат правильною характеристикоюпопуляції?

Наприклад, за якого значення ймовірності ви готові сказати, що таких шансів достатньо, щоб ризикнути? Якщо шанси будуть 10 зі 100 чи 50 зі 100? А якщо ця ймовірність вища? Що можна сказати про такі шанси, як 90 зі 100, 95 зі 100 чи 98 зі 100? Для ситуації, пов'язаної з ризиком, цей вибір є досить проблематичним, бо залежить від особистісних особливостейлюдини.

У психології ж традиційно вважається, що 95 або більше шансів зі 100 означають, що вірогідність правильності результатів є достатньо високою для того, щоб їх можна було поширити на всю популяцію. Цю цифру встановлено в процесі науково-практичної діяльності- немає жодного закону, згідно з яким слід вибрати як орієнтир саме її (і справді, в інших науках іноді обирають інші значення рівня значущості).

У психології оперують цією ймовірністю дещо незвичайним чином. Замість ймовірності того, що вибірка є популяцією, вказується ймовірність того, що вибірка не представляєНаселення. Інакше висловлюючись, це ймовірність те, що виявлена зв'язок чи відмінності носять випадковий характері і є властивістю сукупності. Таким чином, замість того щоб стверджувати, що результати дослідження правильні з ймовірністю 95 зі 100, психологи кажуть, що є 5 шансів зі 100, що результати неправильні (точно так само 40 шансів зі 100 на користь правильності результатів означають 60 шансів зі 100 на користь їх неправильності). Значення ймовірності іноді виражають у відсотках, але частіше його записують як десяткового дробу. Наприклад, 10 шансів із 100 представляють у вигляді десяткового дробу 0,1; 5 із 100 записується як 0,05; 1 із 100 - 0,01. За такої форми запису граничним значенням є 0,05. Щоб результат вважався правильним, його рівень значущості має бути нижчецього числа (ви пам'ятаєте, що це ймовірність того, що результат неправильновизначає населення). Щоб покінчити з термінологією, додамо, що «імовірність неправильності результату» (яку правильніше називати рівнем значимості)зазвичай позначається латинською літерою нар.В опис результатів експерименту зазвичай включають резюмуючий висновок, такий як результати виявилися значущими на рівні достовірності. (р(р) менше 0,05 (тобто менше 5%).

Таким чином, рівень значущості ( р) вказує на ймовірність того, що результати непредставляють популяцію. За традицією у психології вважається, що результати достовірно відображають загальну картину, якщо значення рменше 0,05 (тобто 5%). Проте це лише ймовірне твердження, а зовсім не безумовна гарантія. У деяких випадках цей висновок може бути неправильним. Насправді ми можемо підрахувати, як часто це може статися, якщо подивимося на величину рівня значущості. При рівні значимості 0,05 у 5 зі 100 випадків результати, ймовірно, неправильні. 11а перший погляд здається, що це не надто часто, проте якщо замислитися, то 5 шансів зі 100 - це те саме, що 1 з 20. Інакше кажучи, в одному з кожних 20 випадків результат виявиться невірним. Такі шанси здаються не особливо сприятливими, і дослідники повинні остерігатися скоєння помилки першого роду.Так називають помилку, яка виникає, коли дослідники вважають, що виявили реальні результати, а насправді їх нема. Протилежні помилки, які полягають у тому, що дослідники вважають, ніби вони не виявили результату, а насправді він є, називають помилками другого роду.

Ці помилки виникають тому, що не можна виключити можливість неправильності проведеного статистичного аналізу. Імовірність помилки залежить від рівня статистичної значущості результатів. Ми вже зазначали, що для того, щоб результат вважався правильним, рівень значущості повинен бути нижчим за 0,05. Зрозуміло, деякі результати мають більше низький рівень, і нерідко можна зустріти результати з такими низькими /?, як 0,001 (значення 0,001 говорить про те, що результати можуть бути неправильними з ймовірністю 1 із 1000). Чим менше значення р, тим твердіше наша впевненість у правильності результатів.

У табл. 7.2 наведено традиційну інтерпретацію рівнів значущості про можливість статистичного висновку та обґрунтування рішення про наявність зв'язку (відмінностей).

Таблиця 7.2

Традиційна інтерпретація рівнів значимості, які у психології

На основі досвіду практичних досліджень рекомендується: щоб по можливості уникнути помилок першого та другого роду, при відповідальних висновках слід приймати рішення про наявність відмінностей (зв'язку), орієнтуючись на рівень рп ознаки.

Статистичний критерій(Statistical Test) -це інструмент визначення рівня статистичної значущості. Це вирішальне правило, що забезпечує прийняття істинної та відхилення хибної гіпотези з високою ймовірністю .

Статистичні критеріїпозначають також метод розрахунку певної кількостіі саме це число. Всі критерії використовуються з одного головною метою: визначити рівень значущостіаналізованих з допомогою даних (тобто. ймовірність те, що ці дані відбивають справжній ефект, правильно представляє популяцію, з якої сформована вибірка).

Деякі критерії можна використовувати лише для нормально розподілених даних (і якщо ознака виміряна за інтервальною шкалою) - ці критерії зазвичай називають параметричними.За допомогою інших критеріїв можна аналізувати дані практично з будь-яким законом розподілу – їх називають непараметричними.

Параметричні критерії - критерії, які включають формулу розрахунку параметри розподілу, тобто. середні та дисперсії (^-критерій Стьюдента, F-критерій Фішера та ін.).

Непараметричні критерії - критерії, що не включають до формули розрахунку параметрів розподілу та засновані на оперуванні частотами або рангами (критерій QРозенбаума, критерій UМанна - Вітні

Наприклад, коли ми говоримо, що достовірність відмінностей визначалася за ^-критерієм Стьюдента, то мають на увазі, що використовувався метод ^-критерію Стьюдента для розрахунку емпіричного значення, яке потім порівнюється з табличним (критичним) значенням.

За співвідношенням емпіричного (нами обчисленого) та критичного значень критерію (табличного) ми можемо судити про те, чи підтверджується чи спростовується наша гіпотеза. У більшості випадків для того, щоб ми визнали відмінності значущими, необхідно, щоб емпіричне значення критерію перевищувало критичне, хоча є критерії (наприклад, критерій Манна - Уітні або критерій знаків), в яких ми повинні дотримуватись протилежного правила.

В деяких випадках розрахункова формулакритерію включає кількість спостережень в досліджуваній вибірці, що позначається як п. За спеціальною таблиці визначаємо, якому рівню статистичної значущості відмінностей відповідає дана емпірична величина. Найчастіше одне й те саме емпіричне значення критерію може бути значним чи незначимим залежно кількості спостережень у досліджуваній вибірці ( п ) або від так званого кількості ступенів свободи , що позначається як v (г>) або як df (іноді d).

Знаючи пабо кількість ступенів свободи, ми за спеціальними таблицями (основні з них наводяться в додатку 5) можемо визначити критичні значеннякритерію та зіставити з ними отримане емпіричне значення. Зазвичай це записується так: «при п = 22 критичні значення критерію становлять t St = 2,07» або «при v (d) = 2 критичні значення критерію Стьюдента становлять = 4,30» і т.зв.

Зазвичай перевага виявляється все ж таки параметричним критеріям, і ми дотримуємося цієї позиції. Вважається, що вони надійніші, і з їх допомогою можна отримати більше інформації та провести більше глибокий аналіз. Щодо складності математичних обчислень, то при використанні комп'ютерних програмця складність зникає (але з'являються деякі інші, втім цілком переборні).

У цьому підручнику ми докладно не розглядаємо проблему статистичних
гіпотез (нульовий - Я0 і альтернативної - Нj) та прийняті статистичні рішення,оскільки студенти-психологи вивчають це окремо з дисципліни «Математичніметоди в психології». З іншого боку, слід зазначити, що з оформленні дослідницького звіту (курсової чи дипломної роботи, публікації) статистичні гіпотезії статистичні рішення, зазвичай, не наводяться. Зазвичай при описі результатів вказують критерій, наводять необхідні описові статистики(Середні, сигми,коефіцієнти кореляції і т.д.), емпіричні значеннякритеріїв, ступеня свободи обов'язково р-уровень значимості. Потім формулюють змістовний висновок щодо гіпотези, що перевіряється, із зазначенням (зазвичай у вигляді нерівності) досягнутого або недосягнутого рівня значущості.