Який термін означає достовірність статистичної інформації? Час до події

Перевірка гіпотез проводиться з допомогою статистичного аналізу. Статистичну значущість знаходять за допомогою Р-значення, яке відповідає ймовірності цієї події при припущенні, що деяке твердження (нульова гіпотеза) є істинним. Якщо Р-значення менше заданого рівня статистичної значущості (зазвичай це 0,05), експериментатор може сміливо зробити висновок, що нульова гіпотеза неправильна, і перейти до розгляду альтернативної гіпотези. За допомогою t-критерію Стьюдента можна обчислити Р-значення та визначити значущість для двох наборів даних.

Кроки

Частина 1

Постановка експерименту

Визначте свою гіпотезу.Перший крок при оцінці статистичної значущості полягає в тому, щоб вибрати питання, відповідь на яке ви хочете отримати, і сформулювати гіпотезу. Гіпотеза - це твердження про експериментальні дані, їх розподіл та властивості. Для будь-якого експерименту існує як нульова, і альтернативна гіпотеза. Взагалі кажучи, вам доведеться порівнювати два набори даних, щоб визначити, схожі вони чи різні.

Нульова гіпотеза (H0) зазвичай стверджує, що між двома наборами даних немає різниці. Наприклад: ті учні, які читають матеріал перед заняттями, не одержують вищих оцінок.
Альтернативна гіпотеза (H a) протилежна нульовій гіпотезі і є твердженням, яке потрібно підтвердити за допомогою експериментальних даних. Наприклад: учні, які читають матеріал перед заняттями, отримують вищі оцінки.

Встановіть рівень значущості, щоб визначити, наскільки розподіл даних повинен відрізнятися від звичайного, щоб можна було вважати значним результатом. Рівень значущості (його називають також α (\displaystyle \alpha)-Рівнем) - це поріг, який ви визначаєте для статистичної значущості. Якщо Р-значення менше рівня значимості або дорівнює йому, дані вважаються статистично значущими.
- Як правило, рівень значущості (значення α (\displaystyle \alpha)) приймається рівним 0,05, і в цьому випадку ймовірність виявлення випадкової різниці між різними наборами даних становить лише 5%.
- Чим вищий рівень значущості (і, відповідно, менше Р-значення), тим достовірніші результати.
- Якщо ви хочете отримати більш достовірні результати, зменште значення Р до 0,01. Як правило, нижчі Р-значення використовуються у виробництві, коли необхідно виявити шлюб у продукції. У цьому випадку потрібна висока достовірність, щоб бути впевненим, що всі деталі працюють так, як належить.
- Більшість експериментів з гіпотезами досить прийняти рівень значимості рівним 0,05.
Вирішіть, який критерій ви використовуватимете:односторонній чи двосторонній. Одне із припущень у t-критерії Стьюдента свідчить, що дані розподілені нормально. Нормальний розподіл є дзвоноподібною кривою з максимальною кількістю результатів посередині кривої. t-критерій Стьюдента - це математичний метод перевірки даних, що дозволяє встановити, чи випадають дані межі нормального розподілу (більше, менше, чи “хвостах” кривої).
- Якщо ви не впевнені, чи дані вище або нижче контрольної групи значень, використовуйте двосторонній критерій. Це дозволить вам визначити значущість у обох напрямках.
- Якщо ви знаєте, в якому напрямку дані можуть вийти за межі нормального розподілу, використовуйте односторонній критерій. У наведеному вище прикладі очікуємо, що оцінки студентів підвищаться, тому можна використовувати односторонній критерій.
Визначте обсяг вибірки за допомогою статистичної потужності.Статистична потужність дослідження - це ймовірність того, що при даному обсязі вибірки вийде очікуваний результат. Поширений поріг потужності (або β) становить 80%. Аналіз статистичної потужності без будь-яких попередніх даних може представляти певні складності, оскільки потрібна деяка інформація про очікувані середні значення в кожній групі даних та про їх стандартні відхилення. Використовуйте для аналізу статистичної потужності онлайн-калькулятор для визначення оптимального обсягу вибірки для ваших даних.
- Зазвичай вчені проводять невелике пробне дослідження, яке дозволяє отримати дані для аналізу статистичної потужності та визначити обсяг вибірки, необхідний більш розширеного і повного дослідження.
- Якщо ви не маєте можливості провести пробне дослідження, постарайтеся на підставі літературних даних та результатів інших людей оцінити можливі середні значення. Можливо, це допоможе вам визначити оптимальний обсяг вибірки.
Частина 2
Обчисліть стандартне відхилення
1. Запишіть формулу стандартного відхилення.Стандартне відхилення показує, наскільки великий розкид даних. Воно дозволяє укласти, наскільки близькі дані, отримані певної вибірці. На перший погляд, формула здається досить складною, але наведені нижче пояснення допоможуть зрозуміти її. Формула має такий вигляд: s = √∑((xi – µ) 2 /(N – 1)).
  - s – стандартне відхилення;
  - знак ∑ вказує на те, що слід скласти усі отримані на вибірці дані;
  - x i відповідає i-му значенню, тобто окремому отриманому результату;
  - µ – це середнє значення для цієї групи;
  - N - загальна кількість даних у вибірці.
2. Знайдіть середнє значення у кожній групі.Щоб обчислити стандартне відхилення, необхідно спочатку знайти середнє для кожної досліджуваної групи. Середнє значення позначається грецькою літерою µ (мю). Щоб знайти середнє, складіть всі отримані значення і поділіть їх на кількість даних (обсяг вибірки).
  - Наприклад, щоб знайти середню оцінку групи тих учнів, які вивчають матеріал перед заняттями, розглянемо невеликий набір даних. Для простоти використовуємо набір із п'яти точок: 90, 91, 85, 83 і 94.
  - Складемо разом усі значення: 90 + 91 + 85 + 83 + 94 = 443.
  - Поділити суму на число значень, N = 5: 443/5 = 88,6.
  - Отже, середнє значення цієї групи становить 88,6.
3. Відніміть із середнього кожне отримане значення.Наступний крок полягає у обчисленні різниці (xi – µ). Для цього слід відняти від знайденої середньої величини кожне отримане значення. У нашому прикладі необхідно знайти п'ять різниць:
  - (90 - 88,6), (91 - 88,6), (85 - 88,6), (83 - 88,6) та (94 - 88,6).
  - В результаті отримуємо наступні значення: 1,4, 2,4, -3,6, -5,6 та 5,4.
4. Зведіть у квадрат кожну отриману величину і складіть їх разом.Кожну із щойно знайдених величин слід звести у квадрат. На цьому кроці зникнуть усі негативні значення. Якщо після цього кроку у вас залишаться негативні числа, то ви забули звести їх у квадрат.
  - Для нашого прикладу отримуємо 1,96, 5,76, 12,96, 31,36 та 29,16.
  - Складаємо отримані значення: 1,96+5,76+12,96+31,36+29,16=81,2.
5. Поділіть обсяг вибірки мінус 1.У формулі сума поділяється на N – 1 через те, що ми не враховуємо генеральну сукупність, а беремо для оцінки вибірку з-поміж усіх студентів.
  - Віднімаємо: N – 1 = 5 – 1 = 4
  - Ділимо: 81,2/4 = 20,3
6. Вийміть квадратний корінь.Після того як ви поділіть суму на обсяг вибірки мінус один, витягніть із знайденого значення квадратний корінь. Це останній крок у обчисленні стандартного відхилення. Є статистичні програми, які після введення початкових даних роблять усі необхідні обчислення.
  - У прикладі стандартне відхилення оцінок тих учнів, які читають матеріал перед заняттями, становить s =√20,3 = 4,51.
  Частина 3
  Визначте значимість
  1. Розрахуйте дисперсію між двома групами даних.До цього кроку ми розглядали приклад лише однієї групи даних. Якщо ви хочете порівняти дві групи, очевидно, слід взяти дані обох груп. Обчисліть стандартне відхилення другої групи даних, а потім знайдіть дисперсію між двома експериментальними групами. Дисперсія обчислюється за такою формулою: s d = √((s 1 /N 1) + (s 2 /N 2)).

ПЛАТНА ФУНКЦІЯ.Функція статистичної значимості доступна лише деяких тарифних планах. Перевірте, чи є вона в .

Можна дізнатися, чи є статистично значущі відмінності у відповідях, отриманих від різних груп респондентів на запитання в опитуванні. Для роботи з функцією статистичної значущості в SurveyMonkey необхідно:

Включити функцію статистичної значущості під час додавання правила порівняння до питання у Вашому опитуванні. Вибрати групи респондентів для порівняння, щоб відсортувати результати опитування груп для наочного порівняння.
Вивчити таблиці з даними з питань Вашого опитування, щоб виявити наявність статистично значимих відмінностей у відповідях, отриманих різних груп респондентів.

Перегляд статистичної значущості

Виконавши наведені нижче дії, Ви зможете створити опитування, що відображатиме статистичну значимість.

1. Додайте запитання закритого типу

Щоб відобразити статистичну значущість під час аналізу результатів, Вам знадобиться застосувати правило порівняння до будь-якого питання з Вашого опитування.

Застосувати правило порівняння та обчислити статистичну значимість у відповідях можна у тому випадку, якщо у схемі опитування Ви використовуєте один із таких типів питань:

Необхідно переконатися, що запропоновані варіанти відповіді можна розділити на повноцінні групи. Варіанти відповіді, які Ви обираємо для порівняння при створенні правила порівняння, будуть використані для організації даних у перехресні таблиці в рамках всього опитування.

2. Зберіть відповіді

Після завершення складання опитування створіть колектор для розсилки. Існує кілька способів.

Вам необхідно отримати щонайменше 30 відповідей за кожним варіантом відповіді, який Ви плануєте використовувати у своєму правилі порівняння, щоб активувати та переглянути статистичну значущість.

Приклад опитування

Ви хочете дізнатися, чи задоволені чоловіки Вашою продукцією значно більше ніж жінки.

Додайте до опитування два питання з множинними варіантами відповіді:
Яка Ваша підлога? (Чоловіча Жіноча)
Чи задоволені Ви чи незадоволені нашим продуктом? (задоволений (-льону), незадоволений (-льону))
Переконайтеся, що не менше 30 респондентів вибрали варіант відповіді «чоловічий» на питання про поле, А ТАКОЖ не менше 30 респондентів як свою стать вибрали варіант «жіночий».
Додайте правило порівняння до питання "Яка Ваша підлога?" та виберіть обидва варіанти відповіді як Ваші групи.
Використовуйте таблицю даних нижче діаграми питання "Чи задоволені Ви чи незадоволені нашим продуктом?" , щоб дізнатися, чи показують якісь варіанти відповіді статистично значущу відмінність

Що таке статистично значуща відмінність?

Статистично значуща відмінність означає, що за допомогою статистичного аналізу встановлено наявність суттєвих відмінностей між відповідями однієї групи респондентів та відповідями іншої групи. Статистична значимість означає, що одержані цифри достовірно відрізняються. Такі знання значно допоможуть Вам при аналізі даних. Проте важливість одержаних результатів визначаєте Ви. Саме Ви вирішуєте, як тлумачити результати опитувань та які заходи слід вжити на їх основі.

Наприклад, ви отримуєте більше претензій від покупців жіночої статі, ніж від покупців-чоловіків. Як визначити, чи є така відмінність реальною і чи потрібно у зв'язку з цим вжити заходів? Одним із відмінних способів перевірити Ваші спостереження є проведення опитування, яке покаже Вам, чи справді Вашим товаром значно більшою мірою задоволені покупці-чоловіки. За допомогою статистичної формули запропонована нами функція статистичної значущості надасть Вам можливість визначити, чи Ваш товар набагато більше подобається чоловікам, ніж жінкам. Це дозволить Вам вжити заходів, ґрунтуючись на фактах, а не на припущеннях.

Статистично значуща відмінність

Якщо отримані результати виділені в таблиці даних, це означає, що дві групи респондентів значно відрізняються один від одного. Термін «значно» означає, що отримані цифри мають якусь особливу важливість чи значення, лише те, що з-поміж них є статистична різниця.

Відсутність статистично значущої відмінності

Якщо отримані результати не виділені у відповідній таблиці даних, це означає, що, незважаючи на можливу різницю в двох порівнюваних цифрах, між ними немає статистичної різниці.

Відповіді без статистично значимих відмінностей демонструють, що між двома порівнюваними елементами немає значної різниці при об'ємі вибірки, що використовується Вами, проте це не обов'язково означає, що вони не мають значення. Можливо, збільшивши обсяг вибірки, Ви зможете виявити статистично значущу відмінність.

Обсяг вибірки

Якщо у Вас дуже малий обсяг вибірки, значними будуть лише великі відмінності між двома групами. Якщо у вас дуже великий обсяг вибірки, як невеликі, так і великі відмінності будуть враховані як значні.

Проте, якщо дві цифри є статистично різними, це не означає, що різниця між результатами має для Вас якесь практичне значення. Вам доведеться самим вирішити, які саме відмінності є важливими для Вашого опитування.

Обчислення статистичної значущості

Ми обчислюємо статистичну значущість, використовуючи стандартний рівень довіри 95%. Якщо варіант відповіді відображається як статистично значущий, це означає, що тільки завдяки випадковості або через помилку вибірки різниця між двома групами має місце з ймовірністю менше 5% (часто відображається у вигляді: p<0,05).

Для обчислення статистично значимих відмінностей між групами ми використовуємо такі формулы:

Параметр	Опис
a1	Частка учасників із першої групи, які відповіли на питання певним чином, помножена на обсяг вибірки цієї групи.
b1	Частка учасників із другої групи, які відповіли на питання певним чином, помножена на обсяг вибірки цієї групи.
Частка об'єднаної вибірки (p)	Сукупність двох часток з обох груп.
Стандартна помилка (SE)	Показник того, наскільки ваша частка відрізняється від дійсної частки. Найменше значення означає, що частка близька до дійсної частки, більше значення означає, що частка суттєво відрізняється від дійсної частки.
Тестовий статистичний показник (t)	Тестовий статистичний показник. Кількість значень стандартного відхилення, яке дане значення відрізняється від середнього значення.
Статистична значимість	Якщо абсолютна величина тестового статистичного показника перевищує 1,96 стандартних відхилень від середнього значення, це вважається статистично значущою відмінністю.

*1,96 є значенням, що застосовується для рівня довіри 95%, оскільки 95% діапазону, що обробляється функцією t-розподілу Стьюдента, лежить в межах 1,96 стандартного відхилення від середнього значення.

Приклад обчислень

Продовжуючи приклад, що використовується вище, давайте з'ясуємо, чи дійсно відсоток чоловіків, які заявляють про те, що вони задоволені Вашим товаром, значно вищий від відсотка жінок.

Допустимо, у Вашому опитуванні взяло участь 1000 чоловіків та 1000 жінок, і в результаті опитування виявилося, що 70% чоловіків та 65% жінок стверджують, що вони задоволені Вашим товаром. Чи є показник на рівні 70 % значно вищим за показник на рівні 65 %?

Підставте такі дані з опитування в запропоновані формули:

p1 (% чоловіків, задоволених продуктом) = 0,7
p2 (% жінок, задоволених продуктом) = 0,65
n1 (кількість опитаних чоловіків) = 1000
n2 (кількість опитаних жінок) = 1000

Оскільки абсолютна величина тестового статистичного показника більша ніж 1,96, це означає, що різниця між чоловіками та жінками є значною. У порівнянні з жінками чоловіки з більшою ймовірністю будуть задоволені Вашим продуктом.

Приховування статистичної значущості

Як приховати статистичну значущість для всіх питань

Натисніть стрілку вниз праворуч від правила порівняння на лівій бічній панелі.
Виберіть пункт Редагувати правило.
Вимкніть функцію Показати статистичну значимістьза допомогою перемикача.
Натисніть кнопку Застосувати.

Щоб приховати статистичну значимість одного питання, необходимо:

Натисніть кнопку Налаштуватинад діаграмою цього питання.
Відкрийте вкладку Параметри відображення.
Зніміть прапорець навпроти пункту Статистична значимість.
Натисніть кнопку Зберегти.

Параметр відображення автоматично активується, коли відображається статистична значимість. Якщо зняти прапорець цього параметра відображення, відображення статистичної значущості також буде вимкнено.

Увімкніть функцію статистичної значущості, додавши правила порівняння до питання у Вашому опитуванні. Вивчіть таблиці з даними щодо Вашого опитування, щоб виявити наявність статистично значимих відмінностей у відповідях, отриманих від різних груп респондентів.

Статистична значимість результату (p-значення) є оціненою мірою впевненості у його «істинності» (у сенсі «репрезентативності вибірки»). Висловлюючись технічніше, p-значення - це показник, що знаходиться в спадній залежності від надійності результату. p align="justify"> Більш високе p-значення відповідає більш низькому рівню довіри до знайденої у вибірці залежності між змінними. Саме p-значення є ймовірністю помилки, пов'язаної з поширенням спостережуваного результату на всю популяцію. Наприклад, p-значення = 0.05 (тобто 1/20) показує, що є 5% ймовірність, що знайдена у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. Іншими словами, якщо ця залежність у популяції відсутня, а ви багато разів проводили б подібні експерименти, то приблизно в одному з двадцяти повторень експерименту можна було б очікувати такої ж чи сильнішої залежності між змінними.

Багато дослідженнях p-значение=0.05 сприймається як «прийнятна межа» рівня помилки.

Не існує ніякого способу уникнути свавілля при ухваленні рішення про те, який рівень значущості слід вважати «значним». Вибір певного рівня значимості, вище якого результати відкидаються як хибні, досить довільним. Насправді остаточне рішення зазвичай залежить від цього, був результат передбачений апріорі (тобто. до проведення досвіду) чи виявлено апостеріорно внаслідок багатьох аналізів і порівнянь, виконаних з безліччю даних, і навіть на традиції, що у цій галузі досліджень. Зазвичай у багатьох областях результат p 0.05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає ймовірність помилки (5%). Результати, значущі рівні p 0.01 зазвичай розглядаються як статистично значущі, а результати з рівнем p 0.005 чи p 0.001 як високо значущі. Однак слід розуміти, що дана класифікація рівнів значущості досить довільна і є лише неформальною угодою, прийнятою на основі практичного досвіду в тій чи іншій галузі дослідження.

Як було вже сказано, величина залежності та надійність становлять дві різні характеристики залежностей між змінними. Проте не можна сказати, що вони абсолютно незалежні. Говорячи загальною мовою, що більше величина залежності (зв'язку) між змінними у вибірці звичайного обсягу, то більше вона надійна.

Якщо припускати відсутність залежності між відповідними змінними в популяції, то найбільш ймовірно очікувати, що в досліджуваній вибірці зв'язок між цими змінними також не буде. Таким чином, чим сильніша залежність виявлена у вибірці, тим менш ймовірно, що цієї залежності немає в популяції, з якої вона вилучена.

Обсяг вибірки впливає значення залежності. Якщо спостережень мало, то є мало можливих комбінацій значень цих змінних і таким чином, ймовірність випадкового виявлення комбінації значень, що показують сильну залежність, відносно велика.

Як обчислюється рівень статистичної значимості. Припустимо, ви вже вирахували міру залежності між двома змінними (як пояснювалося вище). Наступне питання, яке стоїть перед вами: «наскільки важлива ця залежність?» Наприклад, чи є 40% поясненою дисперсією між двома змінними достатнім, щоб вважати залежність значущою? Відповідь: "залежно від обставин". Саме значимість залежить в основному від обсягу вибірки. Як уже пояснювалося, у дуже великих вибірках навіть дуже слабкі залежності між змінними будуть значущими, тоді як у малих вибірках навіть дуже сильні залежності не є надійними. Таким чином, щоб визначити рівень статистичної значущості, вам потрібна функція, яка представляла б залежність між «величиною» і «значимістю» залежності між змінними для кожного обсягу вибірки. Ця функція вказала б вам точно «наскільки можливо отримати залежність цієї величини (чи більше) у вибірці цього обсягу, у припущенні, що у популяції такої залежності немає». Іншими словами, ця функція давала б рівень значущості (p-значення), і, отже, можливість помилково відхилити припущення про відсутність цієї залежності у популяції. Ця «альтернативна» гіпотеза (що полягає в тому, що немає залежності в популяції) зазвичай називається нульовою гіпотезою. Було б ідеально, якби функція, яка обчислює ймовірність помилки, була лінійною і мала лише різні нахили для різних обсягів вибірки. На жаль, ця функція значно складніша і не завжди точно одна і та ж. Проте, здебільшого її форма відома, і її можна використовувати визначення рівнів значимості щодо вибірок заданого розміру. Більшість цих функцій пов'язані з дуже важливим класом розподілів, званим нормальним.

Рівень значущості у статистиці є важливим показником, що відображає ступінь впевненості в точності, істинності отриманих (прогнозованих) даних. Поняття широко застосовується у різних сферах: від проведення соціологічних досліджень до статистичного тестування наукових гіпотез.

Визначення

Рівень статистичної значущості (або статистично значущий результат) показує, якою є ймовірність випадкового виникнення досліджуваних показників. Загальна статистична значущість явища виражається коефіцієнтом р-value (p-рівень). У будь-якому експерименті чи спостереженні існує ймовірність, що отримані дані виникли через помилки вибірки. Особливо це актуально для соціології.

Тобто статистично значимої є величина, чия ймовірність випадкового виникнення вкрай мала чи прагне крайності. Крайністю у цьому контексті вважають ступінь відхилення статистики від нуль-гіпотези (гіпотези, яку перевіряють на узгодженість із отриманими вибірковими даними). У науковій практиці рівень значущості вибирається перед збиранням даних, як правило, його коефіцієнт становить 0,05 (5 %). Для систем, де дуже важливі точні значення, цей показник може становити 0,01 (1%) і менше.

Історія питання

Поняття рівня значимості було запроваджено британським статистиком і генетиком Рональдом Фішером 1925 року, що він розробляв методику перевірки статистичних гіпотез. При аналізі будь-якого процесу існує певна можливість тих чи інших явищ. Проблеми з'являються під час роботи з невеликими (чи очевидними) відсотками ймовірностей, які під поняття «похибка вимірів».

Працюючи зі статистичними даними, недостатньо конкретними, щоб їх перевірити, вчені стикалися з проблемою нульової гіпотези, яка «заважає» оперувати малими величинами. Фішер запропонував для таких систем визначити ймовірність подій у 5% (0,05) як зручний вибірковий зріз, що дозволяє відхилити нуль-гіпотезу при розрахунках.

Введення фіксованого коефіцієнта

У 1933 році вчені Єжи Нейман та Егон Пірсон у своїх роботах рекомендували заздалегідь (до збору даних) встановлювати певний рівень значущості. Приклади використання цих правил добре помітні під час проведення виборів. Припустимо, є два кандидати, один із яких дуже популярний, а другий – маловідомий. Очевидно, що перший кандидат вибори виграє, а шанси другого прагнуть нуля. Прагнуть - але не рівні: завжди є ймовірність форс-мажорних обставин, сенсаційної інформації, несподіваних рішень, які можуть змінити прогнозовані результати виборів.

Нейман і Пірсон погодилися, що запропонований Фішером рівень значущості 0,05 (який позначається символом α) найбільш зручний. Проте сам Фішер у 1956 році виступив проти фіксації цього значення. Він вважав, що рівень α має встановлюватись відповідно до конкретних обставин. Наприклад, у фізиці частинок він становить 0,01.

Значення p-рівня

Термін р-value вперше використаний у роботах Браунлі у 1960 році. P-рівень (p-значення) є показником, який знаходиться у зворотній залежності від істинності результатів. Найвищий коефіцієнт р-value відповідає найменшому рівню довіри до проведеної вибірки залежності між змінними.

Це значення відображає ймовірність помилок, пов'язаних з інтерпретацією результатів. Припустимо, p-рівень = 0,05 (1/20). Він показує п'ятивідсоткову ймовірність того, що знайдений у вибірці зв'язок між змінними – лише випадкова особливість проведеної вибірки. Тобто, якщо ця залежність відсутня, то при багаторазових подібних експериментах у середньому в кожному двадцятому дослідженні очікується така вже або більша залежність між змінними. Часто p-рівень розглядається як «допустима межа» рівня помилок.

До речі, р-value може відбивати реальну залежність між змінними, лише показує якесь середнє значення не більше припущень. Зокрема, остаточний аналіз даних також залежатиме від обраних значень даного коефіцієнта. При p-рівні = 0,05 будуть одні результати, а при коефіцієнті, що дорівнює 0,01, інші.

Перевірка статистичних гіпотез

Рівень статистичної значущості особливо важливий при перевірці гіпотез, що висуваються. Наприклад, при розрахунках двостороннього тесту область відторгнення розділяють порівну на обох кінцях вибіркового розподілу (щодо нульової координати) і обчислюють істинність даних.

Припустимо, при моніторингу якогось процесу (яви) з'ясувалося, що нова статистична інформація свідчить про невеликі зміни щодо попередніх значень. У цьому розбіжності у результатах малі, не очевидні, але важливі дослідження. Перед фахівцем постає дилема: зміни реально відбуваються, чи це помилки вибірки (неточність вимірів)?

У цьому випадку застосовують або відкидають нульову гіпотезу (списують все на похибку, або визнають зміну системи як факт, що відбувся). Процес розв'язання задачі базується на співвідношенні загальної статистичної значущості (р-value) та рівня значущості (α). Якщо р-рівень< α, значит, нулевую гипотезу отвергают. Чем меньше р-value, тем более значимой является тестовая статистика.

Використовувані значення

Рівень значущості залежить від аналізованого матеріалу. На практиці використовують такі фіксовані значення:

α = 0,1 (або 10%);
α = 0,05 (або 5%);
α = 0,01 (або 1%);
α = 0,001 (або 0,1%).

Чим більш точними потрібні розрахунки, тим менший коефіцієнт використовується. Природно, що статистичні прогнози у фізиці, хімії, фармацевтиці, генетиці потребують більшої точності, ніж у політології, соціології.

Пороги значимості у конкретних областях

У високоточних областях, таких як фізика частинок та виробнича діяльність, статистична значущість часто виражається як співвідношення середньоквадратичного відхилення (позначається коефіцієнтом сигма - σ) щодо нормального розподілу ймовірностей (розподіл Гауса). σ – це статистичний показник, що визначає розсіювання значень певної величини щодо математичних очікувань. Використовується для складання графіків ймовірності подій.

Залежно від галузі знань, коефіцієнт σ сильно відрізняється. Наприклад, при прогнозуванні існування бозона Хіггса параметр дорівнює п'яти (σ=5), що відповідає значенню р-value=1/3,5 млн. При дослідженнях геномів рівень значущості може становити 5×10 -8 , що не є рідкістю для цієї області.

Ефективність

Необхідно враховувати, що коефіцієнти і р-value не є точними характеристиками. Яким би не був рівень значущості у статистиці досліджуваного явища, він не є безумовною основою для прийняття гіпотези. Наприклад, що менше значення α, то більше вписувалося шанс, що встановлювана гіпотеза значуща. Проте існує ризик помилитися, що зменшує статистичну потужність (значущість) дослідження.

Дослідники, які зациклюються виключно на статистично значимих результатах, можуть одержати хибні висновки. При цьому перевіряти ще раз їх роботу важко, тому що ними застосовуються припущення (якими фактично і є значення α і р-value). Тому рекомендується завжди, поряд із обчисленням статистичної значущості, визначати інший показник – величину статистичного ефекту. Величина ефекту – це кількісна міра сили ефекту.

У будь-якій науково-практичній ситуації експерименту (обстеження) дослідники можуть досліджувати не всіх людей (генеральну сукупність, популяцію), а лише певну вибірку. Наприклад, навіть якщо ми досліджуємо відносно невелику групу людей, наприклад, які страждають на певну хворобу, то й у цьому випадку дуже малоймовірно, що у нас є відповідні ресурси або необхідність тестувати кожного хворого. Натомість зазвичай тестують вибірку з популяції, оскільки це зручніше і займає менше часу. У такому разі, звідки нам відомо, що результати, отримані на вибірці, становлять усю групу? Або якщо використовувати професійну термінологію, чи можемо ми бути впевнені, що наше дослідження правильно описує всю популяцію, вибірку з якої ми використали?

Щоб відповісти це питання, необхідно визначити статистичну значимість результатів тестування. Статистична значимість (Significant level, скорочено Sig.),або /7-рівень значущості (p-level) -це можливість, що це результат правильно представляє популяцію, вибірка з якої досліджувалася. Зазначимо, що це лише ймовірність- Неможливо з абсолютною гарантією стверджувати, що це дослідження правильно визначає всю популяцію. У кращому разі за рівнем значущості можна лише зробити висновок, що це цілком можливо. Таким чином, неминуче постає таке питання: яким має бути рівень значущості, щоб вважати цей результат правильною характеристикою популяції?

Наприклад, за якого значення ймовірності ви готові сказати, що таких шансів достатньо, щоб ризикнути? Якщо шанси будуть 10 зі 100 чи 50 зі 100? А якщо ця ймовірність вища? Що можна сказати про такі шанси, як 90 зі 100, 95 зі 100 чи 98 зі 100? Для ситуації, що з ризиком, цей вибір досить проблематичний, бо залежить від особистісних особливостей людини.

У психології ж традиційно вважається, що 95 або більше шансів зі 100 означають, що вірогідність правильності результатів є достатньо високою для того, щоб їх можна було поширити на всю популяцію. Ця цифра встановлена в процесі науково-практичної діяльності – немає жодного закону, згідно з яким слід вибрати як орієнтир саме її (і справді, в інших науках іноді обирають інші значення рівня значущості).

У психології оперують цією ймовірністю дещо незвичайним чином. Замість ймовірності того, що вибірка є популяцією, вказується ймовірність того, що вибірка не представляєНаселення. Інакше висловлюючись, це ймовірність те, що виявлена зв'язок чи відмінності носять випадковий характері і є властивістю сукупності. Таким чином, замість того щоб стверджувати, що результати дослідження правильні з ймовірністю 95 зі 100, психологи кажуть, що є 5 шансів зі 100, що результати неправильні (точно так само 40 шансів зі 100 на користь правильності результатів означають 60 шансів зі 100 на користь їх неправильності). Значення ймовірності іноді виражають у відсотках, але частіше його записують у вигляді десяткового дробу. Наприклад, 10 шансів із 100 представляють у вигляді десяткового дробу 0,1; 5 із 100 записується як 0,05; 1 із 100 - 0,01. За такої форми запису граничним значенням є 0,05. Щоб результат вважався правильним, його рівень значущості має бути нижчецього числа (ви пам'ятаєте, що це ймовірність того, що результат неправильновизначає населення). Щоб покінчити з термінологією, додамо, що «імовірність неправильності результату» (яку правильніше називати рівнем значимості)зазвичай позначається латинською літерою нар.В опис результатів експерименту зазвичай включають резюмуючий висновок, такий як результати виявилися значущими на рівні достовірності. (р(р) менше 0,05 (тобто менше 5%).

Таким чином, рівень значущості ( р) вказує на ймовірність того, що результати непредставляють популяцію. За традицією у психології вважається, що результати достовірно відображають загальну картину, якщо значення рменше 0,05 (тобто 5%). Проте це лише ймовірне твердження, а зовсім не безумовна гарантія. У деяких випадках цей висновок може бути неправильним. Насправді ми можемо підрахувати, як часто це може статися, якщо подивимося на величину рівня значущості. При рівні значимості 0,05 у 5 зі 100 випадків результати, ймовірно, неправильні. 11а перший погляд здається, що це не надто часто, проте якщо замислитися, то 5 шансів зі 100 - це те саме, що 1 з 20. Інакше кажучи, в одному з кожних 20 випадків результат виявиться невірним. Такі шанси здаються не особливо сприятливими, і дослідники повинні остерігатися скоєння помилки першого роду.Так називають помилку, яка виникає, коли дослідники вважають, що виявили реальні результати, а насправді їх нема. Протилежні помилки, які полягають у тому, що дослідники вважають, ніби вони не виявили результату, а насправді він є, називають помилками другого роду.

Ці помилки виникають оскільки не можна виключити можливість неправильності проведеного статистичного аналізу. Імовірність помилки залежить від рівня статистичної значущості результатів. Ми вже зазначали, що для того, щоб результат вважався правильним, рівень значущості повинен бути нижчим за 0,05. Зрозуміло, деякі результати мають нижчий рівень і нерідко можна зустріти результати з такими низькими /?, як 0,001 (значення 0,001 говорить про те, що результати можуть бути неправильними з ймовірністю 1 з 1000). Чим менше значення р, тим твердіше наша впевненість у правильності результатів.

У табл. 7.2 наведено традиційну інтерпретацію рівнів значущості про можливість статистичного висновку та обґрунтування рішення про наявність зв'язку (відмінностей).

Таблиця 7.2

Традиційна інтерпретація рівнів значимості, які у психології

На основі досвіду практичних досліджень рекомендується: щоб по можливості уникнути помилок першого та другого роду, при відповідальних висновках слід приймати рішення про наявність відмінностей (зв'язку), орієнтуючись на рівень рп ознаки.

Статистичний критерій(Statistical Test) -це інструмент визначення рівня статистичної значущості. Це вирішальне правило, що забезпечує прийняття істинної та відхилення помилкової гіпотези з високою ймовірністю.

Статистичні критерії позначають також метод розрахунку певної кількості і саме це число. Усі критерії використовуються з однією головною метою: визначити рівень значущостіаналізованих з допомогою даних (тобто. ймовірність те, що ці дані відбивають справжній ефект, правильно представляє популяцію, з якої сформована вибірка).

Деякі критерії можна використовувати лише для нормально розподілених даних (і якщо ознака виміряна за інтервальною шкалою) - ці критерії зазвичай називають параметричними.За допомогою інших критеріїв можна аналізувати дані практично з будь-яким законом розподілу – їх називають непараметричними.

Параметричні критерії - критерії, які включають формулу розрахунку параметри розподілу, тобто. середні та дисперсії (^-критерій Стьюдента, F-критерій Фішера та ін.).

Непараметричні критерії - критерії, що не включають до формули розрахунку параметрів розподілу та засновані на оперуванні частотами або рангами (критерій QРозенбаума, критерій UМанна - Вітні

Наприклад, коли ми говоримо, що достовірність відмінностей визначалася за ^-критерієм Стьюдента, то мають на увазі, що використовувався метод ^-критерію Стьюдента для розрахунку емпіричного значення, яке потім порівнюється з табличним (критичним) значенням.

За співвідношенням емпіричного (нами обчисленого) та критичного значень критерію (табличного) ми можемо судити про те, чи підтверджується чи спростовується наша гіпотеза. У більшості випадків для того, щоб ми визнали відмінності значущими, необхідно, щоб емпіричне значення критерію перевищувало критичне, хоча є критерії (наприклад, критерій Манна - Уітні або критерій знаків), в яких ми повинні дотримуватись протилежного правила.

У деяких випадках розрахункова формула критерію включає кількість спостережень у досліджуваній вибірці, що позначається як п. За спеціальною таблиці визначаємо, якому рівню статистичної значущості відмінностей відповідає дана емпірична величина. Найчастіше одне й те саме емпіричне значення критерію може бути значним чи незначимим залежно кількості спостережень у досліджуваній вибірці ( п ) або від так званого кількості ступенів свободи , що позначається як v (г>) або як df (іноді d).

Знаючи пабо кількість ступенів свободи, ми за спеціальними таблицями (основні з них наводяться в додатку 5) можемо визначити критичні значення критерію і зіставити з ними отримане емпіричне значення. Зазвичай це записується так: «при п = 22 критичні значення критерію становлять t St = 2,07» або «при v (d) = 2 критичні значення критерію Стьюдента становлять = 4,30» і т.зв.

Зазвичай перевага виявляється все ж таки параметричним критеріям, і ми дотримуємося цієї позиції. Вважається, що вони надійніші, і з їх допомогою можна отримати більше інформації та провести глибший аналіз. Щодо складності математичних обчислень, то при використанні комп'ютерних програм ця складність зникає (але з'являються деякі інші, втім цілком переборні).

У цьому підручнику ми докладно не розглядаємо проблему статистичних
гіпотез (нульовий - Я0 і альтернативної - Нj) та прийняті статистичні рішення, оскільки студенти-психологи вивчають це окремо з дисципліни «Математичні методи в психології». З іншого боку, слід зазначити, що з оформленні дослідницького звіту (курсової чи дипломної роботи, публікації) статистичні гіпотезії статистичні рішення, зазвичай, не наводяться. Зазвичай при описі результатів вказують критерій, наводять необхідні описові статистики (середні, сигми, коефіцієнти кореляції і т.д.), емпіричні значення критеріїв, ступеня свободи обов'язково р-уровень значимості. Потім формулюють змістовний висновок щодо гіпотези, що перевіряється, із зазначенням (зазвичай у вигляді нерівності) досягнутого або недосягнутого рівня значущості.