Критерій згоди. Статистичні гіпотези

Вступ

Актуальність цієї теми у цьому, що з вивчення основ биостатистики ми припускали, що закон розподілу генеральної сукупності відомий. Але якщо закон розподілу невідомий, але є підстави припускати, що він має певний вид (назвемо його А), то перевіряють нульову гіпотезу: Генеральна сукупністьрозподілено згідно із законом А. Перевірка цієї гіпотези проводиться за допомогою спеціально підібраної випадкової величини – критерію згоди.

Критерії згоди - це критерії перевірки гіпотез щодо відповідності емпіричного розподілу теоретичному розподілу ймовірностей. Такі критерії поділяються на два класи:

  • Ш Загальні критеріїзгоди застосовні до найзагальнішого формулювання гіпотези, саме до гіпотезі про згоду спостережуваних результатів з будь-яким апріорно передбачуваним розподілом ймовірностей.
  • Спеціальні критерії згоди передбачають спеціальні нульові гіпотези, що формулюють згоду з певною формоюрозподілу імовірностей.

Критерій згоди

Найбільш поширені критерії згоди - омега-квадрат, хі-квадрат, Колмогорова та Колмогорова-Смирнова.

Непараметричні критерії згоди Колмогорова, Смирнова, омега квадрат широко використовуються. Проте з ними пов'язані і поширені помилки у застосуванні статистичних методів.

Справа в тому, що перелічені критерії були розроблені для перевірки згоди з відомим теоретичним розподілом. Розрахункові формули, таблиці розподілів та критичних значень широко поширені. Основна ідея критеріїв Колмогорова, омега квадрат та аналогічних їм полягає у вимірі відстані між функцією емпіричного розподілу та функцією теоретичного розподілу. Розрізняються ці критерії видом відстаней у просторі функцій розподілу.

Критерії згоди ч2 Пірсона для простої гіпотези

Теорема К. Пірсона відноситься до незалежним випробуванняміз кінцевим числом результатів, тобто. до випробувань Бернуллі (у дещо розширеному значенні). Вона дозволяє судити про те, чи узгоджуються спостереження у великій кількості випробувань частоти цих результатів з їх ймовірними ймовірностями.

В багатьох практичні завданняТочний закон розподілу невідомий. Тому висувається гіпотеза про відповідність існуючого емпіричного закону, побудованого за спостереженнями, деякому теоретичному. Ця гіпотеза вимагає статистичної перевірки за результатами якої буде або підтверджена, або спростована.

Нехай X - досліджувана випадкова величина. Потрібно перевірити гіпотезу H0 у тому, що це випадкова величина підпорядковується закону розподілу F(x). Для цього необхідно зробити вибірку з n незалежних спостережень і за нею побудувати емпіричний закон розподілу F"(x). Для порівняння емпіричного та гіпотетичного законів використовується правило, зване критерієм згоди. Одним із популярних є критерій згоди хі-квадрат К. Пірсона. У ньому обчислюється статистика хі-квадрат:

де N - число інтервалів, за яким будувався емпіричний закон розподілу (кількість стовпців відповідної гістограми), i - номер інтервалу, pt i -ймовірність попадання значення випадкової величини в i-й інтервалдля теоретичного закону розподілу, pe i - ймовірність влучення значення випадкової величини в i-й інтервал для емпіричного закону розподілу. Вона й має підкорятися розподілу хі-квадрат.

Якщо обчислене значення статистики перевищує квантиль розподілу хі-квадрат з k-p-1 ступенями свободи для заданого рівня значущості, гіпотеза H0 відкидається. В іншому випадку вона приймається на заданому рівні значущості. Тут k – число спостережень, p число оцінюваних параметрів закону розподілу.

Розглянемо статистику:

Статистика ч2 називається статистикою хі-квадрат Пірсона для простої гіпотези.

Ясно, що ч2 є квадратом певної відстані між двома r-мірними векторами: вектором відносних частот (mi /n, …, mr /n) та вектором ймовірностей (pi, …, pr). Від Евклідової відстані ця відстань відрізняється лише тим, що різні координати входять до нього з різними вагами.

Обговоримо поведінку статистики ч2 у разі, коли гіпотеза Н вірна, й у разі, коли Н неправильна. Якщо правильна Н, то асимптотичне поведінка ч2 при n>? показує теорема К. Пірсона. Щоб зрозуміти, що відбувається з (2.2), коли Н невірна, зауважимо, що згідно із законом великих чисел mi /n > pi при n > ?, для i = 1, …, r. Тому при n>?:

Ця величина дорівнює 0. Тож якщо Н невірна, то ч2 >? (При n>?).

Зі сказаного випливає, що Н повинна бути відкинута, якщо отримане в досвіді значення ч2 занадто велике. Тут, як завжди, слова «занадто велике» означають, що спостерігане значення ч2 перевершує критичне значення, яке в даному випадкуможна взяти з таблиць розподілу хі-квадрат. Інакше висловлюючись, ймовірність Р(ч2 npi ч2) - мала величина і, отже, малоймовірно випадково отримати таку ж, як і досвіді, чи ще більше розбіжність між вектором частот і вектором ймовірностей.

p align="justify"> Асимптотичний характер теореми К. Пірсона, що лежить в основі цього правила, вимагає обережності при його практичному використанні. На нього можна покладатися лише за великих n. Судити ж про те, чи достатньо n велике, треба з урахуванням ймовірностей pi, …, pr. Тому не можна сказати, наприклад, що ста спостережень буде достатньо, оскільки не тільки n має бути велике, а й твори npi, ..., npr (очікувані частоти) теж не повинні бути малі. Тому проблема апроксимації ч2 (безперервний розподіл) до статистики ч2, розподіл якої дискретно, виявилася складною. Сукупність теоретичних та експериментальних доводів привела до переконання, що ця апроксимація застосовна, якщо всі очікувані частоти npi>10. якщо число r (кількість різних результатів) зростає, межа для знижена (до 5 або навіть до 3, якщо r порядку кількох десятків). Щоб дотриматися цих вимог, практично часом доводиться об'єднувати кілька результатів, тобто. переходити до схеми Бернуллі з меншим r.

Описаний спосіб перевірки згоди можна додавати як до випробувань Бернуллі, а й до довільним вибіркам. Попередньо їх спостереження треба перетворити на випробування Бернуллі шляхом угруповання. Роблять це так: простір спостережень розбивають на кінцеве числообластей, що не перетинаються, а потім для кожної області підраховують спостерігану частоту і гіпотетичну ймовірність.

В даному випадку до перелічених раніше труднощів апроксимації додається ще одна - вибір розумного розбиття вихідного простору. При цьому треба піклуватися про те, щоб правило перевірки гіпотези про вихідний розподіл вибірки було досить чутливим до можливих альтернатив. Нарешті, зазначу, що статистичні критерії, основні на редукції до схеми Бернуллі, зазвичай, є заможними проти всіх альтернатив. Тож такий метод перевірки згоди має обмежену цінність.

Критерій згоди Колмогорова - Смирнова у своєму класичному вигляді є більш потужним, ніж критерій ч2 і може бути використаний для перевірки гіпотези про відповідність емпіричного розподілу будь-якому теоретичному. безперервному розподілу F(x) із заздалегідь відомими параметрами. Остання обставина накладає обмеження на можливість широкого практичного застосуванняцього критерію під час аналізу результатів механічних випробувань, оскільки параметри функції розподілу характеристик механічних властивостей, Як правило, оцінюють за даними самої вибірки.

Критерій Колмогорова - Смирнова застосовують для негрупованих даних чи групованих у разі мінімальної ширини інтервалу (наприклад, рівної ціні розподілу шкали силовимірника, лічильника циклів навантаження тощо. буд.). Нехай результатом випробувань серії з n зразків є ряд варіацій характеристики механічних властивостей

x1? x2? ...? xi? ...? xn. (3.93)

Потрібно перевірити нульову гіпотезу про належність вибіркового розподілу(3.93) теоретичного закону F(x).

Критерій Колмогорова - Смирнова виходить з розподілі максимального відхилення накопиченої зокрема значення функції розподілу. За його використання обчислюють статистики

є статистикою критерію Колмогорова. Якщо виконується нерівність

Dnvn? лб (3.97)

для великих обсягів вибірки (n > 35) або

Dn(vn + 0.12 + 0.11/vn)? лб (3.98)

для n? 35 то нульову гіпотезу не відкидають.

При невиконанні нерівностей (3.97) та (3.98) приймають альтернативну гіпотезупро належність вибірки (3.93) невідомого розподілу.

Критичні значення лб становлять: л0.1 = 1.22; л0.05 = 1.36; л0.01 = 1.63.

Якщо параметри функції F(x) заздалегідь не відомі, а оцінюються за даними вибірки, критерій Колмогорова - Смирнова втрачає свою універсальність і може бути використаний лише для перевірки відповідності досвідчених даних лише деяким функціям розподілу.

При використанні нульової гіпотези належність досвідчених даних нормальному або логарифмічно нормальному розподілу обчислюють статистики:

де Ц(zi) - значення функції Лапласа для

Ц(zi) = (xi - xср)/s Критерій Колмогорова - Смирнова для будь-яких обсягів вибірки n записують як

Критичні значення лб у разі становлять: л0.1 = 0.82; л0.05 = 0.89; л0.01 = 1.04.

Якщо перевіряють гіпотезу щодо відповідності вибірки *** експоненційному розподілупараметр якого оцінюють за досвідченими даними, обчислюють аналогічні статистики:

критерій емпіричний ймовірність

і становлять критерій Колмогорова – Смирнова.

Критичні значення лб при цьому випадку: л0.1 = 0.99; л0.05 = 1.09; л0.01 = 1.31.

При аналізі варіаційних рядіврозподілу велике значеннямає, наскільки емпіричний розподілознаки відповідає нормальному. Для цього частоти фактичного розподілу слід порівняти з теоретичними, які характерні для нормального розподілу. Отже, необхідно за фактичними даними обчислити теоретичні частоти кривої нормального розподілу , що є функцією нормованих відхилень.

Інакше висловлюючись, емпіричну криву розподілу необхідно вирівняти кривою нормального розподілу.

Об'єктивна характеристика відповідності теоретичнихі емпіричних частотможе бути отримана за допомогою спеціальних статистичних показників, які називають критеріями згоди.

Критерієм згодиназивають критерій, який дозволяє встановити, чи є розбіжність емпіричногоі теоретичногорозподілів випадковим чи значимим, т. е. чи узгоджуються дані спостережень з висунутою статистичної гіпотезою чи погоджуються. Розподіл генеральної сукупності, що вона має з висунутої гіпотези, називають теоретичним.

Виникає потреба встановити критерій(правило), яке дозволяло б судити, чи є розбіжність між емпіричним та теоретичним розподілами випадковим чи значущим. Якщо розбіжність виявиться випадковим, то вважають, що дані спостережень (вибірки) узгоджуються з висунутою гіпотезою про закон розподілу генеральної сукупності і, отже, приймають гіпотезу; якщо ж розбіжність виявиться значущимдані спостережень не узгоджуються з гіпотезою і її відкидають.

Зазвичай емпіричні та теоретичні частоти різняться через те, що:

  • розбіжність випадково пов'язане з обмеженою кількістю спостережень;
  • розбіжність невипадкова і пояснюється тим, що статистична гіпотеза про те, що генеральна сукупність розподілена нормально помилкова.

Таким чином, критерії згодидозволяють відкинути чи підтвердити правильність висунутої при вирівнюванні низки гіпотези про характері розподілу в емпіричному ряду.

Емпіричні частотиодержують у результаті спостереження. Теоретичні частотирозраховують за формулами.

Для закону нормального розподілуїх можна знайти таким чином:

  • Σƒ i - сума накопичених (кумулятивних) емпіричних частот
  • h — різниця між двома сусідніми варіантами
  • σ - вибіркове середнє квадратичне відхилення
  • t-нормоване (стандартизоване) відхилення
  • φ(t)–функція щільності ймовірності нормального розподілу (знаходять для відповідного значення t)

Є кілька критеріїв згоди, найпоширенішими у тому числі є: критерій хи-квадрат (Пірсона), критерій Колмогорова, критерій Романовського.

Критерій згоди Пірсона χ 2– один з основних, який можна представити як суму відносин квадратів розбіжностей між теоретичними (f Т ) та емпіричними (f) частотами до теоретичних частот:

  • k–число груп, куди розбито емпіричне розподіл,
  • f i -Спостерігається частота ознаки в i-й групі,
  • f T -Теоретична частота.

Для розподілу 2 складено таблиці, де вказано критичне значення критерію згоди 2 для обраного рівня значущості α і ступенів свободи df (або ν).
Рівень значимості α – можливість помилкового відхилення висунутої гіпотези, тобто. ймовірність того, що буде відкинуто правильну гіпотезу. Р - статистична достовірність прийняття правильної гіпотези. У статистиці найчастіше користуються трьома рівнями значимості:

α=0,10, тоді Р=0,90 (у 10 випадках із 100)

α=0,05, тоді Р=0,95 (у 5 випадках із 100)

α=0,01, тоді Р=0,99 (у 1 випадку зі 100) може бути відкинута правильна гіпотеза

Число ступенів свободи df визначається як число груп у ряді розподілу мінус число зв'язків: df = k -z. Під числом зв'язків розуміється число показників емпіричного низки, використаних під час обчислення теоретичних частот, тобто. показників, що пов'язують емпіричні та теоретичні частоти.Наприклад, при вирівнюванні по кривій нормального розподілу є три зв'язки.Тому при вирівнюванні покривою нормального розподілучисло ступенів свободи визначається як df = k-3.Для оцінки суттєвості розрахункове значення порівнюється з табличним χ 2 табл

При повному збігу теоретичного та емпіричного розподілу χ 2 =0, інакше χ 2 >0. Якщо χ 2 розрах. > χ 2 табл. , то при заданому рівні значущості та числі ступенів свободи гіпотезу про несуттєвість (випадковості) розбіжностей відхиляємо.У разі, якщо χ 2 розрах.< χ 2 табл то гіпотезу приймаємо і з ймовірністю Р=(1-α) можна стверджувати, що розбіжність між теоретичними та емпіричними частотами є випадковою. Отже, є підстави стверджувати, що емпіричний розподіл підпорядковується нормальному розподілу. Критерій згоди Пірсона використовується, якщо обсяг сукупності досить великий (N>50), причому частота кожної групи повинна бути не менше 5.

Заснований на визначенні максимальної розбіжності між накопиченими емпіричними та теоретичними частотами:

де D і d – відповідно, максимальна різниця між накопиченими частотами та накопиченими частостями емпіричного та теоретичного розподілів.
По таблиці розподілу статистики Колмогорова визначають ймовірність, що може змінюватися від 0 до 1. При Р(λ)=1- відбувається повний збіг частот, Р(λ)=0 – повне розбіжність. Якщо величина ймовірності Р значна стосовно знайденої величини λ, можна припустити, що розбіжності між теоретичним і емпіричним розподілами несуттєві, т. е. носять випадковий характер.
Основна умова використання критерію Колмогорова – достатньо велике числоспостережень.

Критерій згоди Колмогорова

Розглянемо як критерій Колмогорова (λ) застосовується при перевірці гіпотези про нормальному розподілі генеральної сукупності.Вирівнювання фактичного розподілу по кривій нормального розподілу складається з кількох етапів:

  1. Порівнюють фактичні та теоретичні частоти.
  2. За фактичними даними визначають теоретичні частоти кривої нормального розподілу, що є функцією нормованого відхилення.
  3. Перевіряють, наскільки розподіл ознаки відповідає нормальному.

ДляIVколонки таблиці:

У MS Excel нормований відхилення (t) розраховується за допомогою функції НОРМАЛІЗАЦІЯ. Необхідно виділити діапазон вільних осередків за кількістю варіантів (рядок електронної таблиці). Не знімаючи виділення, викликати функцію НОРМАЛІЗАЦІЯ. У діалоговому вікні, що з'явилося, вказати наступні осередки, в яких розміщені, відповідно, спостерігаються значення (X i), середня (X) і середньоквадратичне відхилення Ϭ. Операцію обов'язково завершити одночаснимнатисканням клавіш Ctrl+Shift+Enter

ДляVколонки таблиці:

Функцію густини ймовірності нормального розподілу φ(t) знаходимо за таблицею значень локальної функції Лапласа для відповідного значення нормованого відхилення (t)

ДляVIколонки таблиці:

Критерій згоди Колмогорова (λ)визначається шляхом поділу модуляmax різниціміж емпіричними та теоретичними кумулятивними частотами на корінь квадратний з числа спостережень:

За спеціальною таблицею ймовірності для критерію згоди λ визначаємо, що значення λ=0,59 відповідає ймовірність 0,88 (λ

Розподіл емпіричних та теоретичних частот, щільності ймовірності теоретичного розподілу

Застосовуючи критерії згоди для перевірки відповідності емпіричного розподілу теоретичному, слід розрізняти перевірку простих і складних гіпотез.

Одновибірковий критерій нормальності Колмогорова-Смирнова заснований на максимумі різниціміж кумулятивним емпіричним розподілом вибірки та передбачуваним (теоретичним) кумулятивним розподілом. Якщо D статистика Колмогорова-Смирнова значуща, то гіпотеза у тому, що відповідний розподіл нормально, має бути відкинуто.

Дивись також

Статистичні гіпотези. Критерії згоди.

Нульовий(Основний)називають висунуту гіпотезу про вид невідомого розподілу, або параметри відомих розподілів. Конкуруючою (альтернативний)називають гіпотезу, яка суперечить нульовій.

Наприклад, якщо нульова гіпотеза полягає у припущенні, що випадкова величина Xрозподілена за законом , то конкуруюча гіпотеза може полягати у припущенні, що випадкова величина Хрозподілено за іншим законом.

Статистичним критерієм (або просто критерієм) називають деяку випадкову величину Дояка служить для перевірки нульової гіпотези.

Після вибору певного критерію, наприклад, критерію , безліч всіх його можливих значень розбивають на два непересічних підмножини: одне з них містить значення критерію, при яких нульова гіпотеза відкидається, а інше - при яких вона приймається.

Критичною областюназивають сукупність значень критерію, у яких нульову гіпотезу відкидають. Областю прийняття гіпотези називають сукупність значень критерію, у яких гіпотезу приймають. Критичними точками називають точки, що відокремлюють критичну область від сфери прийняття нульової гіпотези.

Для прикладу, при значенні , обчислене за вибіркою значення відповідає області прийняття гіпотези: випадкова величина розподілена згідно із законом . Якщо ж обчислене значення , воно потрапляє в критичну область, тобто гіпотеза про розподіл випадкової величини згідно із законом відкидається.

У разі розподілу критична область визначається нерівністю, область прийняття нульової гіпотези – нерівністю.

2.6.3. Критерій згоди Пірсона.

Одне із завдань зоотехнії та ветеринарної генетики – виведення нових порід та видів з необхідними ознаками. Наприклад, підвищення імунітету, резистентність до хвороб чи зміна забарвлення хутряного покриву.

Насправді, під час аналізу результатів, дуже часто виявляється, що фактичні результати більшою чи меншою мірою відповідають деякому теоретичному закону розподілу. Виникає необхідність оцінити ступінь відповідності фактичних (емпіричних) даних та теоретичних (гіпотетичних). І тому висувають нульову гіпотезу : отримана сукупність розподілено згідно із законом «А». Перевірка гіпотези про передбачуваний закон розподілу здійснюється за допомогою спеціально підібраної випадкової величини – критерію згоди.

Критерієм згодиназивають критерій перевірки гіпотези про передбачуваний закон невідомого розподілу.

Є кілька критеріїв згоди: Пірсона, Колмогорова, Смирнова та д.р. Критерій згоди Пірсона найчастіше використовується.

Розглянемо застосування критерію Пірсона з прикладу перевірки гіпотези про нормальний закон розподілу генеральної сукупності. З цією метою порівнюватимемо емпіричні та теоретичні (обчислені в продовженні нормального розподілу) частоти.

Зазвичай між теоретичними та емпіричними частотами є певна відмінність. Наприклад:

Емпіричні частоти 7 15 41 93 113 84 25 13 5

Теоретичні частоти 5 13 36 89 114 91 29 14 6

Розглянемо два випадки:

Розбіжність теоретичних і емпіричних частот випадково (незначно), тобто. можна зробити пропозицію про розподіл емпіричних частот за нормальному закону;

Розбіжність теоретичних і емпіричних частот невипадково (значимо), тобто. теоретичні частоти обчислені, виходячи з неправильної гіпотези про нормальний розподіл генеральної сукупності.

З допомогою критерію згоди Пірсона можна визначити випадково чи ні розбіжність теоретичних і емпіричних частот, тобто. із заданою довірчою ймовірністювизначити, розподілено генеральну сукупність за нормальним законом чи ні.

Отже, нехай за вибіркою обсягу n отримано емпіричний розподіл:

Варіанти ……

Емпіричні частоти …….

Припустимо, що у припущенні нормального розподілу обчислені теоретичні частоти . При рівні важливості потрібно перевірити нульову гіпотезу: генеральна сукупність розподілена нормально.

Як критерій перевірки нульової гіпотези приймемо випадкову величину

(*)

Ця величина випадкова, тому що в різних дослідах вона приймає різні, наперед невідомі значення. Зрозуміло, що менше розрізняються емпіричні і теоретичні частоти, тим менше величина критерію і, отже, він в певною міроюхарактеризує близькість емпіричного та теоретичного розподілів.

Доведено, що з закон розподілу випадкової величини (*), незалежно від цього, якому закону розподілу підпорядкована генеральна сукупність, прагне закону розподілу зі ступенями свободи. Тому випадкова величина (*) позначається через , а сам критерій називають критерій згоди «хі-квадрат».

Позначимо значення критерію, обчислене за даними спостережень, через . Табульовані критичні значення критерію для даного рівня значущості та числа ступенів свободи позначають. У цьому число ступенів свободи визначають з рівності , де число груп (часткових інтервалів) вибірки чи класів; - Число параметрів передбачуваного розподілу. У нормального розподілу два параметри – математичне очікуваннята середнє квадратичне відхилення. Тому число ступенів свободи для нормального розподілу знаходять із рівності

Якщо для обчисленого значення та табличного значеннявиконується нерівність , Приймається нульова гіпотеза про нормальний розподіл генеральної сукупності. Якщо ж нульову гіпотезу відкидають і приймають гіпотезу, альтернативну їй (генеральна сукупність не розподілена за нормальним законом).

Зауваження.При використанні критерію згоди Пірсона обсяг вибірки має бути не менше 30. Кожна група повинна містити не менше 5 варіантів. Якщо ж у групах виявиться менше 5 частот, їх поєднують із сусідніми групами.

У загальному випадкучисло ступенів свободи для розподілу хі-квадрат визначається як загальне числовеличин, якими обчислюють відповідні показники, мінус кількість тих умов, які пов'язують ці величини, тобто. зменшують можливість варіації між ними. У найпростіших випадках при обчисленні число ступенів свободи дорівнюватиме числу класів, зменшеному на одиницю. Так, наприклад, при дигібридному розщепленні отримують 4 класи, але не пов'язаним виходить лише перший клас, наступні вже пов'язані з попередніми. Тому для дигібридного розщеплення число ступенів свободи.



приклад 1.Визначити ступінь відповідності фактичного розподілу груп за кількістю хворих на туберкульоз корів з теоретично очікуваним, який було обчислено при розгляді нормального розподілу. Вихідні дані зведені до таблиці:

Рішення.

За рівнем значимості та ступенем свободи з таблиці критичних точокрозподілу (див. додаток 4) знаходимо значення . Оскільки , можна дійти невтішного висновку, що різницю між теоретичними і фактичними частотами носить випадковий характер. Таким чином, фактичний розподіл груп за кількістю хворих на туберкульоз корів відповідає теоретично очікуваному.

приклад 2.Теоретичний розподіл за фенотипом особин, отриманих у другому поколінні при дигібридному схрещуванні кроликів за законом Менделя складає 9: 3: 3: 1. Потрібно обчислити відповідність емпіричного розподілу кроликів від схрещування чорних особин з нормальною вовною з пухами. При схрещуванні у другому поколінні було отримано 120 нащадків, у тому числі – 45 чорних із короткою шерстю, 30 чорних пухових, 25 білих із короткою шерстю, 20 білих пухових кроликів.

Рішення.Теоретично очікуване розщеплення у потомстві має відповідати співвідношенню чотирьох фенотипів (9: 3: 3: 1). Розрахуємо теоретичні частоти (кількість голів) для кожного класу:

9+3+3+1=16, отже, можна очікувати, що чорних короткошерстих буде ; чорних пухових - ; білих короткошерстих - ; білих пухових - .

Емпіричний (фактичний) розподіл за фенотипами був наступним 45; 30; 25; 20.

Зведемо всі ці дані до наступної таблиці:

Використовуючи критерій згоди Пірсона обчислимо значення:

Число ступенів свободи при дигібридному схрещуванні. Для рівня значимості знаходимо значення . Оскільки , можна дійти невтішного висновку, що різницю між теоретичними і фактичними частотами є невипадковим. Отже, отримана група кроликів відхиляється у розподілі фенотипів від закону Менделя при дигибридном схрещуванні і відбиває вплив деяких чинників, змінюють тип розщеплення по фенотипу в другого покоління помесей.

Критерій згоди хи- квадрат Пірсона можна використовувати й порівняння друг з одним двох однорідних емпіричних розподілів, тобто. таких, у яких одні й самі межі класів. Як нульова гіпотеза приймається гіпотеза про рівність двох невідомих функцій розподілу. Критерій хі-квадрат у таких випадках визначається за формулою

(**)

де - обсяги порівнюваних розподілів; та - частоти відповідних класів.

Розглянемо порівняння двох емпіричних розподілів на прикладі.

приклад 3. Проводився промір довжини яєць зозул по двох територіальних зонах. У першій зоні було обстежено вибірку з 76 яєць (), у другій із 54 (). Отримано такі результати:

Довжина (мм)
Частоти
Частоти - - -

При рівні важливості потрібно перевірити нульову гіпотезу, що обидві вибірки яєць належать одній популяції зозулів.

Для перевірки гіпотези про відповідність емпіричного розподілу теоретичному закону розподілу використовуються спеціальні статистичні показники- Критерії згоди (або критерії відповідності). До них належать критерії Пірсона, Колмогорова, Романовського, Ястремського та ін. Більшість критеріїв згоди базуються на використанні відхилень емпіричних частот від теоретичних. Очевидно, що чим менше ці відхилення, тим краще теоретичний розподіл відповідає емпіричному (або описує його).

Критерії згоди- це критерії перевірки гіпотез щодо відповідності емпіричного розподілу теоретичному розподілу ймовірностей. Такі критерії поділяються на два класи: загальні та спеціальні. Загальні критерії згоди застосовні до найзагальнішого формулювання гіпотези, а саме, до гіпотези про згоду результатів, що спостерігаються, з будь-яким апріорно передбачуваним розподілом ймовірностей. Спеціальні критерії згоди передбачають спеціальні нульові гіпотези, що формулюють згоду з певною формою розподілу ймовірностей.

Критерії згоди, спираючись на встановлений законрозподілу, дають можливість встановити, коли розбіжності між теоретичними та емпіричними частотами слід визнати несуттєвими (випадковими), а коли – суттєвими (невипадковими). З цього випливає, що критерії згоди дозволяють відкинути або підтвердити правильність висунутої при вирівнюванні низки гіпотези про характер розподілу в емпіричному ряду і дати відповідь, чи можна прийняти для даного емпіричного розподілу модель, виражену деяким теоретичним закономрозподілу.

Критерій згоди Пірсона c 2 (хі-квадрат) – один із основних критеріїв згоди. Запропоновано англійським математиком Карлом Пірсоном (1857-1936) для оцінки випадковості (суттєвості) розбіжностей між частотами емпіричного та теоретичного розподілів:

Схема застосування критерію з 2 до оцінки узгодженості теоретичного та емпіричного розподілів зводиться до наступного:

1. Визначається розрахункова міра розбіжності.

2. Визначається кількість ступенів свободи.

3. За кількістю ступенів свободи n за допомогою спеціальної таблиці визначається.

4. Якщо , то при заданому рівні значущості α та кількості ступенів свободи n гіпотезу про несуттєвість (випадковість) розбіжностей відхиляють. В іншому випадку гіпотезу можна визнати такою, що не суперечить отриманим експериментальним даним і з ймовірністю (1 – α) можна стверджувати, що розбіжності між теоретичними та емпіричними частотами випадкові.

Рівень значущості- це можливість помилкового відхилення висунутої гіпотези, тобто. ймовірність того, що буде відкинуто правильну гіпотезу. У статистичних дослідженняхзалежно від важливості та відповідальності розв'язуваних завдань користуються такими трьома рівнями значимості:

1) a = 0,1, тоді Р = 0,9;

2) a = 0,05, тоді Р = 0,95;

3) a = 0,01, тоді Р = 0,99.

Використовуючи критерій згоди з 2, необхідно дотримуватися таких умов:

1. Обсяг досліджуваної сукупності має бути досить великим ( N≥ 50), при цьому частота або чисельність групи повинна бути не менше 5. Якщо ця умова порушується, необхідно попередньо об'єднати невеликі частоти (менше 5).

2. Емпіричний розподіл має складатися з даних, отриманих у результаті випадкового відбору, тобто. вони мають бути незалежними.

Недоліком критерію згоди Пірсона є втрата частини первинної інформації, пов'язана з необхідністю угруповання результатів спостережень в інтервали та об'єднання окремих інтервалів з малою кількістю спостережень. У зв'язку з цим рекомендується доповнювати перевірку відповідності розподілів за критерієм з іншими критеріями. Особливо це необхідно за порівняно малого обсягу вибірки ( n ≈ 100).

У статистиці критерій згоди Колмогорова(також відомий, як критерій згоди Колмогорова - Смирнова) використовується для того, щоб визначити, чи підпорядковуються два емпіричні розподіли одному закону, або визначити, чи підпорядковується отриманий розподіл передбачуваної моделі. Критерій Колмогорова заснований на визначенні максимальної розбіжності між накопиченими частотами чи частотами емпіричних чи теоретичних розподілів. Критерій Колмогорова обчислюється за такими формулами:

де Dі d- відповідно максимальна різниця між накопиченими частотами ( ff¢) та між накопиченими частостями ( pp¢) емпіричного та теоретичного рядів розподілів; N- Число одиниць в сукупності.

Розрахувавши значення λ, за спеціальною таблицею визначається ймовірність, з якою можна стверджувати, що відхилення емпіричних частот від теоретичних є випадковими. Якщо ознака набуває значення до 0,3, це означає, що відбувається повний збіг частот. При великому числі спостережень умов Колмогорова здатний виявити будь-який відступ гіпотези. Це означає, що будь-яка відмінність розподілу вибірки від теоретичного буде з його допомогою виявлено, якщо спостережень буде багато. Практична значимістьцієї властивості не істотна, так як у більшості випадків важко розраховувати на отримання великої кількості спостережень у постійних умовах, теоретичне уявленняпро закон розподілу, якому має підпорядковуватися вибірка, завжди наближене, а точність статистичних перевірок має перевищувати точність обраної моделі.

Критерій згоди Романовськогозаснований використання критерію Пірсона, тобто. вже знайдених значень c 2 і числа ступенів свободи:

де n – число ступенів свободи варіації.

Критерій Романовського зручний за відсутності таблиць для . Якщо< 3, то расхождения распределений случайны, если же >3, то не випадкові і теоретичний розподіл не може служити моделлю для емпіричного розподілу, що вивчається.

Б. С. Ястремський використовував у критерії згоди не число ступенів свободи, а кількість груп ( k), особливу величину q, що залежить від числа груп, та величину хі-квадрат. Критерій згоди Ястремськогомає той самий сенс, як і критерій Романовського, і виражається формулою

де c 2 – критерій згоди Пірсона; - Число груп; q - коефіцієнт, число груп менше 20 рівний 0,6.

Якщо Lфакт > 3, розходження між теоретичними і емпіричними розподілами невипадкові, тобто. емпіричний розподіл не відповідає вимогам нормального розподілу. Якщо Lфакт< 3, расхождения между эмпирическим и теоретическим распределениями считаются случайными.

Оскільки всі припущення про характер тієї чи іншої розподілу - це гіпотези, а чи не категоричні твердження, всі вони, природно, повинні бути піддані статистичної перевірці з допомогою про критеріїв згоди.

Критерії згоди, спираючись на встановлений закон розподілу, дають можливість встановити, коли розбіжності між теоретичними та емпіричними частотами слід визнати несуттєвими (випадковими), а коли – суттєвими (невипадковими). Таким чином, критерії згоди дозволяють відкинути або підтвердити правильність висунутої при вирівнюванні низки гіпотез.

характер розподілу в емпіричному ряду і дати відповідь, чи можна прийняти для даного емпіричного розподілу модель, виражену деяким теоретичним законом розподілу.

Існує низка критеріїв згоди. Найчастіше застосовують критерії Пірсона, Романовського та Колмогорова. Розглянемо їх.

Критерій згоди Пірсона %2 (хі-квадрат) - одне із основних критеріїв згоди. Критерій запропонований англійським математиком Карлом Пірсоном (1857-1936) для оцінки випадковості (суттєвості) розбіжностей між частотами емпіричного та теоретичного розподілів. Критерій Пірсона де до

число груп, куди розбито емпіричне розподіл;

частота ознаки, що спостерігається в і-й групі; теоретична частота, розрахована за передбачуваним розподілом. Для розподілу у) складено таблиці, де вказано критичне значення критерію згоди %2 для обраного рівня значимості а і даного числаступенів свободи V (див. Додаток 4).

Рівень значимості а - можливість помилкового відхилення висунутої гіпотези, тобто. ймовірність того, що буде відкинуто правильну гіпотезу. У статистичних дослідженнях залежно від важливості та відповідальності розв'язуваних завдань користуються такими трьома рівнями значимості: 1)

а = 0,10 тоді Р = 0,90; 2)

а = 0,05 тоді Р = 0,95; 3)

а = 0,01 тоді Р = 0,99.

Наприклад, ймовірність 0,01 означає, що в одному випадку зі 100 може бути відкинута правильна гіпотеза. У економічні дослідженнявважається практично прийнятною можливість помилки 0,05, тобто. у 5 випадках із 100 може бути відкинута правильна гіпотеза.

Крім того, %2-критерій, що визначається за таблицею, залежить від числа ступенів свободи. Число ступенів свободи V визначається як число груп у ряді розподілу до мінус число зв'язків з V

Під числом зв'язків розуміється кількість показників емпіричного низки, використаних під час обчислення теоретичних частот, тобто. показників, що пов'язують емпіричні та теоретичні/л

кі частоти

Так, у разі вирівнювання по кривій нормального розподілу є три зв'язки:

х ~ х "" СУ = а" * х Ш = У

ЕМП теор' ЕМП ТеОр> ^ 1ЕМП ^ /теор*

Тому при вирівнюванні по кривій нормального розподілу число ступенів свободи визначається як V = до - 3, де до - число груп у ряді.

У разі вирівнювання по кривій Пуассона V = до - 2, тому що при побудові частот використовуються два обмежувальні зв'язки: х, 1тг/

Для оцінки суттєвості розрахункове значення %2расч порівнюється з табличним %2табл.

При повному збігу теоретичного та емпіричного розподілів %2 = 0, інакше %2 > 0.

Якщо Храсч > Xтабл' Т0 ПРИ заданому рівні значимості а та числі ступенів свободи V гіпотезу про несуттєвість (випадковості) розбіжностей відхиляємо.

Якщо %2асч ^ Х2табЛ' укладаємо, що емпіричний ряд добре узгоджується з гіпотезою про передбачуваний розподіл і з ймовірністю (1 - а) можна стверджувати, що розбіжність між теоретичними та емпіричними частотами випадково.

Використовуючи критерій згоди?2, необхідно дотримуватися таких умов: 1)

обсяг досліджуваної сукупності має бути досить великим (УУ> 50), у своїй частота чи чисельність кожної групи має бути щонайменше 5. Якщо це умова порушується, необхідно попередньо об'єднати маленькі частоти; 2)

емпіричне розподіл має складатися з даних, отриманих результаті випадкового відбору, тобто. вони мають бути незалежними.

Якщо в емпіричному ряду розподіл задано частотами/т.

то у) слід обчислювати за формулою

Критерій Романовського Кр заснований використання критерію Пірсона %2, тобто. вже знайдених значень %2 і числа ступенів свободи v:

Він дуже зручний за відсутності таблиць для %2.

Якщо Кр 3, то не випадкові

і, відповідно, теоретичний розподіл не може служити моделлю для емпіричного розподілу, що вивчається.

Критерій Колмогорова X заснований на визначенні максимальної розбіжності між накопиченими частотами або частотами емпіричних та теоретичних розподілів:

X = -2= або X = , iN

де Dud- відповідно максимальна різниця між накопиченими частотами (F - F") і між накопиченими-

ними частостями (р - р") емпіричного та теоретичного рядів розподілів;

N – число одиниць у сукупності.

Розрахувавши значення X, за таблицею Р(к) (див.

Додаток 6) визначають ймовірність, з якою можна стверджувати, що відхилення емпіричних частот від теоретичних є випадковими. Імовірність Р(к) може змінюватися від 0 до 1. При Р(к) = 1 відбувається повний збіг частот, при Р(к) = 0 – повна розбіжність. Якщо А приймає значення до 0,3, то Р(к) = 1.

Основна умова для використання критерію Колмогорова – досить велика кількість спостережень.

приклад. Використовуючи дані табл. 5.17, перевірити правильність висунутої гіпотези про розподіл призовників району згідно із законом нормального розподілу. Величини, необхідні розрахунку критеріїв згоди, наведені у табл. 5.19.

Таблиця 5.19

Розрахунок величин для визначення критеріїв згоди Пірсона х2 та Колмогорова X Зростання, см Частоти ряду розподілу (/п - т")2 т" F F" к-р, т т" А 1 2 3 4 5 6 156-160 8 5 1 ,8 8 5 3 161-165 17 16 0,1 25 21 4 166-170 42 40 0,1 67 61 6 171-175 54 65 1,9 121 126 5 176-181 5 57 57 0 251 256 5 186-190 38 30 2,1 289 286 3 191-195 11 11 0 300 297 3 X 300 297 6,0 Спочатку розрахуємо критерій Пір

Потім виберемо рівень значущості а = 0,05 і визначимо число ступенів свободи V. даному розподілі 8 груп і число зв'язків (параметрів) дорівнює 3, отже, V = 8 - 3 = 5. За таблицею Додатка 4 знайдемо при а = 0,05 і V = 5 умов Пірсона %2 = 11,07.

Оскільки %2расч Перевіримо висунуту гіпотезу, використовуючи критерій Романовського:

I X2 - V I 16,0 - 5 I 1

кр = ] Г = ^ = 1 = - г = 0,3.

Оскільки Кр Критерій Романовського також підтверджує, що розбіжності між емпіричними та теоретичними частотами несуттєві.

Розглянемо тепер застосування критерію Колмогорова А. Як очевидно з табл. 5.19 максимальна різниця між кумулятивними частотами дорівнює 6, тобто. Б = шах!/1- Р"\ = 6. Отже, критерій Колмогорова

X = -? = = = 0,35.

За таблицею Додатка 6 знаходимо значення ймовірності за X = 0,35: Р(Х) = 0,9997. Це означає, що з ймовірністю, близькою до одиниці, можна стверджувати, що гіпотеза про нормальний розподіл не відкидається, а розбіжності емпіричного та теоретичного розподілів мають випадковий характер.

Тепер, підтвердивши правильність висунутої гіпотези з допомогою відомих критеріїв згоди, можна використовувати результати розподілу практичної діяльності.

приклад. Використовуючи дані табл. 5.18 перевірити гіпотезу про підпорядкування розподілу числа несправностей в автомобілях закону Пуассона.

Вихідні дані та розрахунок величин, необхідних для визначення критеріїв згоди, наведено у табл. 5.20.

Підрахуємо величину %2: 2

Дфасч^/9

(Див. табл. 5.20). хХтабл = 9>49

(Див. Додаток 4).

Оскільки %2расч Таким чином, висунута гіпотеза про розподіл числа несправностей в автомобілях за законом Пуассон не відкидається.



Останні матеріали розділу:

Пабло Ескобар - найвідоміший наркобарон в історії
Пабло Ескобар - найвідоміший наркобарон в історії

Пабло Еміліо Ескобар Гавіріа – найвідоміший наркобарон та терорист із Колумбії. Увійшов до підручників світової історії як найжорстокіший злочинець.

Михайло Олексійович Сафін.  Сафін Марат.  Спортивна біографія.  Професійний старт тенісиста
Михайло Олексійович Сафін. Сафін Марат. Спортивна біографія. Професійний старт тенісиста

Володар одразу двох кубків Великого Шолома в одиночній грі, двічі переможець змагань на Кубок Девіса у складі збірної Росії, переможець...

Чи потрібна вища освіта?
Чи потрібна вища освіта?

Ну, на мене питання про освіту (саме вищу) це завжди палиця з двома кінцями. Хоч я сам і вчуся, але в моїй ДУЖЕ великій сім'ї багато прикладів...