Таблиці критичне значення критерію хі квадрат пірсона. Розподіл ХІ-квадрат

Кількісне вивченнябіологічних явищ обов'язково потребує створення гіпотез, з допомогою яких можна пояснити ці явища. Щоб перевірити ту чи іншу гіпотезу ставлять серію спеціальних дослідів та отримані фактичні дані зіставляють з теоретично очікуваними згідно з цією гіпотезою. Якщо є збіг це може бути достатньою підставою для прийняття гіпотези. Якщо ж досвідчені дані погано узгоджуються з теоретично очікуваними, виникає велике сумнів у правильності запропонованої гіпотези.

Ступінь відповідності фактичних даних очікуваним (гіпотетичним) вимірюється критерієм відповідності хі-квадрат:

 фактично спостерігається значення ознаки в i-тією; теоретично очікуване число або ознака (показник) для даної групи, kчисло груп даних.

Критерій був запропонований К. Пірсоном у 1900 р. і іноді його називають критерієм Пірсона.

Завдання.Серед 164 дітей, які успадковували від одного з батьків фактор, а від іншого - фактор, виявилося 46 дітей з фактором, 50 - з фактором, 68 - з тим і іншим. Розрахувати очікувані частоти щодо 1:2:1 між групами та визначити ступінь відповідності емпіричних даних за допомогою критерію Пірсона.

Рішення:Відношення частот, що спостерігаються 46:68:50, теоретично очікуваних 41:82:41.

Задамося рівнем значимості, рівним 0,05. Табличне значеннякритерію Пірсона для цього рівня значущості при числі ступенів свободи, що дорівнює дорівнювало 5,99. Отже гіпотезу про відповідність експериментальних даних теоретичним можна прийняти, оскільки, .

Зазначимо, що з обчисленні критерію хі-квадрат ми не ставимо умови про неодмінної нормальності розподілу. Критерій хі-квадрат може використовуватися для будь-яких розподілів, які ми вільні самі вибирати у своїх припущеннях. У цьому є певна універсальність цього критерію.

Ще один додаток критерію Пірсона - це порівняння емпіричного розподілу з нормальним розподілом Гауса. При цьому його можна віднести до групи критеріїв перевірки нормальності розподілу. Єдиним обмеженням є той факт, що загальна кількість значень (варіант) при користуванні цим критерієм має бути досить великою (не менше 40), і кількість значень в окремих класах (інтервалах) має бути не менше 5. В іншому випадку слід об'єднувати сусідні інтервали. Число ступенів свободи під час перевірки нормальності розподілу має обчислюватися як:.

    1. Критерій Фішера.

Цей параметричний критерій служить перевірки нульової гіпотези про рівність дисперсій нормально розподілених генеральних сукупностей.

Або.

При малих обсягах вибірок застосування критерію Стьюдента може бути коректним лише за умови рівності дисперсій. Тому, перш ніж проводити перевірку рівності вибіркових середніх значень, необхідно переконатися у правомочності використання критерію Стьюдента.

де N 1 , N 2 обсяги вибірок, 1 , 2  числа ступенів свободи для цих вибірок.

При користуванні таблицями слід звернути увагу, що число ступенів свободи для вибірки з більшою дисперсією за величиною вибирається як номер стовпця таблиці, а для меншої за величиною дисперсії як номер рядка таблиці.

Для рівня значущості по таблицях математичної статистикизнаходимо табличне значення. Якщо, то гіпотеза про рівність дисперсій відхиляється обраного рівня значимості.

приклад.Вивчали вплив кобальту на масу тіла кролів. Досвід проводився на двох групах тварин: дослідній та контрольній. Досвідчені отримували добавку до раціону як водного розчину хлористого кобальту. За час досвіду збільшення у вазі склали в грамах:

Контроль

Міністерство освіти та науки Російської Федерації

Федеральне агентство з освіти міста Іркутська

Байкальський державний університетекономіки та права

Кафедра Інформатики та Кібернетики

Розподіл "хі-квадрат" та його застосування

Колмикова Ганна Андріївна

студентка 2 курсу

групи ІС-09-1

Для обробки отриманих даних використовуємо критерій хі-квадрат.

І тому побудуємо таблицю розподілу емпіричних частот, тобто. тих частот, які ми спостерігаємо:

Теоретично, ми очікуємо, що частоти розподіляться рівноймовірно, тобто. частота розподілиться пропорційно між хлопчиками та дівчатками. Побудуємо таблицю теоретичних частот. Для цього помножимо суму по рядку на суму по стовпцю і розділимо число, що вийшло на загальну суму(s).


Підсумкова таблиця для обчислень виглядатиме так:

χ2 = ∑(Е - Т)² / Т

n = (R - 1), де R – кількість рядків у таблиці.

У нашому випадку хі-квадрат = 4,21; n = 2.

За таблицею критичних значень критерію знаходимо: при n = 2 та рівні помилки 0,05 критичне значення χ2 = 5,99.

Отримане значення менше критичного, а отже, приймається нульова гіпотеза.

Висновок: вчителі не надають значення стать дитини при написанні їй характеристики.

додаток

Критичні точки розподілу χ2

Таблиця 1

Висновок

Студенти майже всіх спеціальностей вивчають наприкінці курсу вищої математикиРозділ "теорія ймовірностей і математична статистика", реально вони знайомляться лише з деякими основними поняттями та результатами, яких явно не достатньо для практичної роботи. З деякими математичними методами дослідження студенти зустрічаються у спеціальних курсах (наприклад, таких, як "Прогнозування та техніко-економічне планування", "Техніко-економічний аналіз", "Контроль якості продукції", "Маркетинг", "Контролінг", " Математичні методипрогнозування", "Статистика" та ін. (у випадку студентів економічних спеціальностей), проте виклад у більшості випадків носить дуже скорочений і рецептурний характер. У результаті знань у фахівців із прикладної статистики недостатньо.

Тому велике значеннямає курс "Прикладна статистика" в технічних вузах, а в економічних вишах– курсу "Економетрика", оскільки економетрика – це, як відомо, статистичний аналізконкретні економічні дані.

Теорія ймовірності та математична статистика дають фундаментальні знання для прикладної статистики та економетрики.

Вони потрібні фахівцям для практичної роботи.

Я розглянула безперервну імовірнісну модельі постаралася на прикладах показати її використання.

Список використаної літератури

1. Орлов А.І. Прикладна статистика М: Видавництво "Іспит", 2004.

2. Гмурман В.Є. Теорія ймовірностей та математична статистика. М.: вища школа, 1999. - 479с.

3. Айвозян С.А. Теорія ймовірностей та прикладна статистика, т.1. М.: Юніті, 2001. - 656с.

4. Хамітов Г.П., Ведернікова Т.І. Імовірності та статистика. Іркутськ: БДУЕП, 2006 - 272с.

5. Єжова Л.М. Економетрики. Іркутськ: БДУЕП, 2002. - 314с.

6. Мостеллер Ф. П'ятдесят цікавих ймовірнісних завдань із рішеннями. М.: Наука, 1975. - 111с.

7. Мостеллер Ф. Імовірність. М.: Світ, 1969. - 428с.

8. Яглом А.М. Можливість та інформація. М.: Наука, 1973. - 511с.

9. Чистяков В.П. Курс теорії ймовірностей. М.: Наука, 1982. - 256с.

10. Кремер Н.Ш. Теорія ймовірностей та математична статистика. М.: ЮНІТІ, 2000. - 543с.

11. Математична енциклопедія, т.1. М.: Радянська енциклопедія, 1976. - 655с.

12. http://psystat.at.ua/ - Статистика в психології та педагогіці. Критерій Хі-квадрат.

Хі-квадратПірсона - це найпростіший критерій перевірки значущості зв'язку між двома категоризованими змінними. Критерій Пірсона ґрунтується на тому, що у двовходовій таблиці очікуванічастоти при гіпотезі "між змінними немає залежності" можна обчислити безпосередньо. Уявіть, що 20 чоловіків та 20 жінок опитано щодо вибору газованої води (марка Aабо марка B). Якщо між перевагою та статтю немає зв'язку, то природно чекатирівного вибору марки Aта марки Bдля кожної статі.

Значення статистики хі-квадратта її рівень значимості залежить від загальної кількостіспостережень та кількості осередків у таблиці. Відповідно до принципів, що обговорюються у розділі , відносно малі відхилення частот, що спостерігаються від очікуваних буде доводити значимість, якщо число спостережень велике.

Є лише одне суттєве обмеження використання критерію хі-квадрат(крім очевидного припущення про випадковий вибір спостережень), яке полягає в тому, що очікувані частоти не повинні бути дуже малі. Це пов'язано з тим, що критерій хі-квадратза своєю природою перевіряє ймовірностіу кожному осередку; і якщо очікувані частоти в комірках, стають маленькими, наприклад, менше 5, то ці ймовірності не можна оцінити з достатньою точністю за допомогою наявних частот. Подальші обговорення див. у роботах Everitt (1977), Hays (1988) або Kendall and Stuart (1979).

Критерій хі-квадрат (метод максимальної правдоподібності). Максимум правдоподібності хі-квадратпризначений для перевірки тієї ж гіпотези щодо зв'язків у таблицях спряженості, що і критерій хі-квадратПірсона. Однак його обчислення ґрунтується на методі максимальної правдоподібності. На практиці статистика МП хі-квадратдуже близька за величиною до звичайної статистики Пірсона хі-квадрат. Докладніше про цю статистику можна прочитати в роботах Bishop, Fienberg, Holland (1975) або Fienberg (1977). В розділі Логлінійний аналізця статистика обговорюється докладніше.

Виправлення Єтса.Апроксимація статистики хі-квадратдля таблиць 2x2 з малими числом спостережень у комірках може бути покращена зменшенням абсолютного значеннярізниць між очікуваними і частотами, що спостерігаються, на величину 0.5 перед зведенням у квадрат (так звана поправка Єтса). Поправка Йєтса, що робить оцінку більш помірною, зазвичай застосовується в тих випадках, коли таблиці містять тільки малі частоти, наприклад, коли деякі очікувані частоти стають менше 10 (подальше обговорення див. Conover, 1974; Everitt, 1977; Hays, 1988; Kenda Stuart, 1979 та Mantel, 1974).

Точний критерій Фішера.Цей критерій застосовується лише таблиць 2x2. Критерій ґрунтується на наступній міркуванні. Дано маргінальні частоти в таблиці, припустимо, що обидві табульовані змінні незалежні. Задамося питанням: яка ймовірність отримання частот, що спостерігаються в таблиці, виходячи із заданих маргінальних? Виявляється, ця ймовірність обчислюється точнопідрахунком всіх таблиць, які можна побудувати, з маргінальних. Таким чином, критерій Фішера обчислює точнуймовірність появи частот, що спостерігаються при нульовій гіпотезі (відсутність зв'язку між табульованими змінними). У таблиці результатів наводяться як односторонні, і двосторонні рівні.

Хіквадрат Макнемара.Цей критерій застосовується, коли частоти таблиці 2x2 представляють залежнівибірки. Наприклад, спостереження тих самих індивідуумів до і після експерименту. Зокрема, ви можете підраховувати кількість студентів, які мають мінімальні успіхи з математики на початку і в кінці семестру або перевагу одних і тих же респондентів до і після реклами. Обчислюються два значення хі-квадрат: A/Dі B/C. A/D хі-квадратперевіряє гіпотезу про те, що частоти в комірках Aі D(верхня ліва, нижня права) однакові. B/C хі-квадратперевіряє гіпотезу про рівність частот у осередках Bі C(верхня права, нижня ліва).

Коефіцієнт Фі.Фі-квадратявляє собою міру зв'язку між двома змінними таблиці 2x2. Його значення змінюються від 0 (немає залежності між змінними; хі-квадрат = 0.0 ) до 1 (Абсолютна залежність між двома факторами в таблиці). Для отримання додаткових відомостей див. Castellan and Siegel (1988, стор. 232).

Тетрахорична кореляція.Ця статистика обчислюється (і застосовується) лише таблиць спряженості 2x2. Якщо таблиця 2x2 може розглядатися як результат (штучного) розбиття значень двох безперервних змінних на два класи, коефіцієнт тетрахорической кореляції дозволяє оцінити залежність між двома цими змінними.

Коефіцієнт спряженості.Коефіцієнт сполученості є заснованою на статистиці хі-квадратміру зв'язку ознак у таблиці спряженості (запропоновану Пірсоном). Перевага цього коефіцієнта перед звичайною статистикою хі-квадрату цьому, що він легше інтерпретується, т.к. діапазон його зміни знаходиться в інтервалі від 0 до 1 (де 0 відповідає випадку незалежності ознак у таблиці, а збільшення коефіцієнта показує збільшення ступеня зв'язку). Недолік коефіцієнта спряженості у цьому, що його максимальне значення"залежить" від розміру таблиці. Цей коефіцієнт може досягати значення 1 тільки якщо число класів не обмежено (див. Siegel, 1956, стор 201).

Інтерпретація заходів зв'язку.Істотний недолік заходів зв'язку (розглянутих вище) пов'язаний із складністю їх інтерпретації у звичайних термінах ймовірності або "частки поясненої варіації", як у випадку коефіцієнта кореляції rПірсона (див. Кореляції). Тому не існує одного загальноприйнятого заходу чи коефіцієнта зв'язку.

Статистики, що ґрунтуються на рангах.У багатьох завданнях, що виникають на практиці, ми маємо вимірювання лише в порядковий шкалі (див. Елементарні поняттястатистики). Особливо це стосується вимірювань у галузі психології, соціології та інших дисциплін, пов'язаних з вивченням людини. Припустимо, ви опитали кілька респондентів з метою з'ясування їхнього ставлення до деяких видів спорту. Ви уявляєте вимірювання в шкалі з наступними позиціями: (1) завжди, (2) зазвичай, (3) інодіта (4) ніколи. Очевидно, що відповідь іноді цікавлюсьпоказує менший інтерес респондента, ніж відповідь зазвичай цікавлюсяі т.д. Отже, можна впорядкувати (ранжувати) рівень інтересу респондентів. Це типовий прикладпорядкової шкали. Для змінних, виміряних у порядковій шкалі, є типи кореляції, що дозволяють оцінити залежності.

R Спірмена.Статистику RСпірмена можна інтерпретувати так само, як і кореляцію Пірсона ( rПірсона) у термінах поясненої частки дисперсії (маючи, однак, на увазі, що статистика Спірмена обчислена за рангами). Передбачається, що змінні виміряні як мінімум у порядковийшкалою. Всебічне обговорення рангової кореляціїСпірмена, її потужності та ефективності можна знайти, наприклад, у книгах Gibbons (1985), Hays (1981), McNemar (1969), Siegel (1956), Siegel and Castellan (1988), Kendall (1948), Olds (1949) та Hotelling and Pabst (1936).

Тау Кендалл.Статистика тауКендала еквівалентна RСпірмена під час виконання деяких основних припущень. Також еквівалентні їх потужності. Однак зазвичай значення RСпірмена та тауКендалки різні, тому що вони відрізняються як своєю внутрішньою логікою, так і способом обчислення. У роботі Siegel and Castellan (1988) автори висловили співвідношення між цими двома статистиками такою нерівністю:

1 < = 3 * Тау Кендалла - 2 * R Спирмена < = 1

Більш важливим є те, що статистики Кендалла таута Спірмена Rмають різну інтерпретацію: тоді як статистика RСпірмена може розглядатися як прямий аналог статистики rПірсона, обчислений за рангами, статистика Кендала таускоріше заснована на ймовірності. Більш точно, перевіряється, що є різниця між ймовірністю того, що дані, що спостерігаються розташовані в тому ж самому порядку для двох величин і ймовірністю того, що вони розташовані в іншому порядку. Kendall (1948, 1975), Everitt (1977), та Siegel and Castellan (1988) дуже докладно обговорюють тауКендалл. Зазвичай обчислюється два варіанти статистики тауКендалла: tau bі tau c. Ці заходи розрізняються лише способом обробки збігаються рангів. Найчастіше їх значення досить схожі. Якщо виникають відмінності, то, мабуть, найбезпечніший спосіб - розглядати найменше із двох значень.

Коефіцієнт d сомера: d (X | Y), d (Y | X).Статистика dСоммера є несиметричною мірою зв'язку між двома змінними. Ця статистика близька до tau b(Див. Siegel and Castellan, 1988, стор 303-310).

Гамма-статистика.Якщо даних є багато збігаються значень, статистика гаммакраще RСпирмена або тауКендалл. З погляду основних припущень, статистика гаммаеквівалентна статистиці RСпірмена або тау Кендалл. Її інтерпретація та обчислення більш схожі на статистику тау Кендала, ніж на статистику R Спірмена. Говорячи коротко, гаммає також ймовірність; точніше, різниця між ймовірністю того, що ранговий порядок двох змінних збігається, мінус ймовірність того, що він не збігається, поділену на одиницю мінус ймовірність збігів. Таким чином, статистика гаммав основному еквівалентна тауКендала, за винятком того, що збіги явно враховуються в нормуванні. Детальне обговорення статистики гаммаможна знайти у Goodman and Kruskal (1954, 1959, 1963, 1972), Siegel (1956) та Siegel and Castellan (1988).

Коефіцієнти невизначеності.Ці коефіцієнти вимірюють інформаційний зв'язокміж факторами (рядками та стовпцями таблиці). Концепція інформаційної залежностібере початок у теоретико-інформаційному підході до аналізу таблиць частот, можна звернутися до відповідних посібників для роз'яснення цього питання (див. Kullback, 1959; Ku and Kullback, 1968; Ku, Varner, and Kullback, 1971; див. також Bishop, Fienberg, and Holland, 1975, стор 344-348). Статистика S(Y,X) є симетричною та вимірює кількість інформації в змінній Yщодо змінної Xабо у змінній Xщодо змінної Y. Статистики S(X|Y)і S(Y|X)виражають спрямовану залежність.

Багатомірні відгуки та дихотомії. Змінні типубагатовимірних відгуків і багатовимірних дихотомій виникають у ситуаціях, коли дослідника цікавлять як " прості " частоти подій, але й деякі (часто неструктуровані) якісні властивості цих подій. Природу багатовимірних змінних (чинників) краще зрозуміти на прикладах.

  • · Багатомірні відгуки
  • · Багатомірні дихотомії
  • · Кросстабуляція багатовимірних відгуків та дихотомій
  • · Парна кростабуляція змінних з багатовимірними відгуками
  • · Заключний коментар

Багатовимірні відгуки.Уявіть, що в процесі великого маркетингового дослідження, ви попросили покупців назвати 3 найкращі, на їхній погляд, безалкогольні напої. Звичайне питання може виглядати так.

Критерій хі-квадрат.

Критерій хі-квадрат, на відміну від критерію z, застосовується для порівняння будь-якої кількості груп.

Вихідні дані: таблиця спряженості.

Приклад таблиці сполученості мінімальної розмірності 2*2 наведено нижче. A, B, C, D – звані, реальні частоти.

Ознака 1 Ознака 2 Усього
Група 1 A B A+B
Група 2 C D C+D
Усього A+C B+D A+B+C+D

Розрахунок критерію заснований на порівнянні реальних частот та очікуваних частот, які обчислюються у припущенні відсутності взаємного впливупорівнюваних ознак одна на одну. Таким чином, якщо реальні та очікувані частоти досить близькі одна до одної, то впливу немає і значить ознаки будуть розподілені приблизно однаково за групами.

Вихідні дані для застосування цього методу повинні бути занесені в таблицю сполученості, по стовпчиків і рядків якої вказуються варіанти значень досліджуваних ознак. Числа у цій таблиці будуть називатися реальними чи експериментальними частотами. Далі необхідно розрахувати очікувані частоти з припущення, що порівнювані групи абсолютно рівні по розподілу ознак. У цьому випадку пропорції по підсумковому рядку або стовпцю «всього» повинні зберігатися в будь-якому рядку та стовпці. Виходячи з цього визначаються очікувані частоти (див. приклад).

Потім розраховують значення критерію як суму по всіх осередках таблиці сполученості відношення квадрата різниці між реальною частотою і очікуваною частотою до очікуваної частоти:

де - реальна частота в комірці; - Очікувана частота в комірці.

, де N = A + B + C + D.

При розрахунку за основною формулою для таблиці 2*2 ( тільки для такої таблиці ), також необхідно застосувати поправку Йейтса на безперервність:

.

Критичне значення критерію визначається за таблицею (див. додаток) з урахуванням числа ступенів свободи та рівня значущості. Рівень значимості набувають стандартного: 0,05; 0,01 чи 0,001. Число ступенів свободи визначається як добуток числа рядків та стовпців таблиці сполученості зменшених кожне на одиницю:

,

де r- Число рядків (число градацій однієї ознаки), з- Число стовпців (число градацій іншої ознаки). Це критичне значення можна визначити в електронній таблиці Microsoft Excelвикористовуючи функцію =хі2обр( a, f), де замість a треба запровадити рівень значущості, а замість f- Число ступенів свободи.

Якщо значення критерію хі-квадрат більше критичного, то гіпотезу про незалежність ознак відкидають і їх вважатимуться залежними на вибраному рівні значимості.

Цей метод має обмеження щодо застосування: очікувані частоти мають бути 5 або більше (для таблиці 2*2). Для довільної таблиці це обмеження менш суворе: всі очікувані частоти мають бути 1 або більше, а частка комірок з очікуваними частотами менше 5 не повинна перевищувати 20%.

З таблиці сполученості великої розмірності можна «виокремити» таблиці меншої розмірності і їм розрахувати значення критерію c 2 . Це фактично будуть множинні порівняння, аналогічні описаним для критерію Стьюдента У цьому випадку також треба застосовувати поправку на численні порівняння в залежності від їх кількості.

Для перевірки гіпотези за допомогою критерію c 2 електронних таблицях Microsoft Excel можна застосувати наступну функцію:

ХІ2ТЕСТ (фактичний інтервал; очікуваний інтервал).

Тут фактичний_інтервал – вихідна таблиця сполученості з реальними частотами (вказуються лише осередки із самими частотами без заголовків і «всього»); ожидаемый_інтервал - масив очікуваних частот. Отже, очікувані частоти мають бути обчислені самостійно.

Приклад:

У деякому місті стався спалах інфекційного захворювання. Є припущення, що джерелом зараження стала Питна вода. Перевірити це припущення вирішили за допомогою вибіркового опитування міського населення, за яким необхідно встановити чи кількість води, що випивається, на кількість хворих.

Вихідні дані наведені в таблиці:

Розрахуємо очікувані частоти. Пропорція всього повинна зберегтися і всередині таблиці. Тому обчислимо, наприклад, яку частку становлять всього за рядками в загальної чисельності, Отримаємо для кожного рядка коефіцієнт. Така ж частка повинна опинитися в кожному осередку відповідного рядка, тому для обчислення очікуваної частоти в осередку множимо коефіцієнт на все по відповідному стовпцю.

Число ступенів свободи дорівнює (3-1) * (2-1) = 2. Критичне значення критерію .

Експериментальне значення більше критичного (61,5> 13,816), тобто. гіпотеза про відсутність впливу кількості води, що випивається на захворюваність, відкидається з ймовірністю помилки менше 0,001. Таким чином можна стверджувати, що саме вода стала джерелом захворювання.

В обох описаних критеріїв є обмеження, які зазвичай не виконуються, якщо кількість спостережень невелика або окремі градації ознак рідко зустрічаються. У цьому випадку використовують точний критерій Фішера . Він заснований на переборі всіх можливих варіантівзаповнення таблиці сполученості при даній кількості груп. Тому ручний розрахунок його досить складний. Для його розрахунку можна скористатися статистичними пакетами прикладних програм.

Критерій z є аналогом критерію Стьюдента, але застосовується для порівняння якісних ознак. Експериментальне значення критерію розраховується як відношення різниці часток до середньої помилки різниці часток.

Критичні значення критерію z дорівнюють відповідним точкамнормованого нормального розподілу: , , .



Критерій хі-квадрат застосовується для порівняння будь-якої кількості груп за значеннями якісних ознак. Вихідні дані мають бути представлені у вигляді таблиці спряженості. Експериментальне значення критерію розраховують як суму по всіх осередках таблиці сполученості відношення квадрата різниці між реальною частотою та очікуваною частотою до очікуваної частоти. Очікувані частоти обчислюються у припущенні рівності порівнюваних ознак переважають у всіх групах. Критичні значення визначаються за таблицями розподілу хі-квадрат.

ЛІТЕРАТУРА.

Гланц С. - Розділ 5.

Реброва О.Ю. - Розділ 10,11.

Лакін Г.Ф. - С. 120-123

Запитання для самоперевірки студентів.

1. У яких випадках можна використовувати критерій z?

2. На чому ґрунтується обчислення експериментального значеннякритерію z?

3. Як визначити критичне значення критерію z?

4. У яких випадках можна застосовувати критерій з 2?

5. На чому ґрунтується обчислення експериментального значення критерію c 2 ?

6. Як визначити критичне значення критерію c 2 ?

7. Що можна застосувати для порівняння якісних ознак, якщо не можна застосувати за обмеженнями критерії z і c 2 ?

Завдання.

Використання цього критерію ґрунтується на застосуванні такого заходу (статистики) розбіжності між теоретичним. F(x) і емпіричним розподілом F* п (x) , яка приблизно підпорядковується закону розподілу χ 2 . Гіпотеза Н 0 про узгодженість розподілів перевіряється шляхом аналізу розподілу цієї статистики. Застосування критерію потребує побудови статистичного ряду.

Отже, нехай вибірка представлена ​​статистичним поряд із кількістю розрядів M. Частота потраплянь, що спостерігається в i- й розряд n i. Відповідно до теоретичного закону розподілу очікувана частота потраплянь у i-й розряд складає F i. Різниця між спостерігається і очікуваною частотою складе величину ( n iF i). Для знаходження загального ступенярозбіжності між F(x) та F* п (x) необхідно підрахувати зважену суму квадратів різниць за всіма розрядами статистичного ряду

Розмір χ 2 при необмеженому збільшенні n має χ 2 -розподіл (асимптотично розподілена як χ 2). Цей розподіл залежить від числа ступенів свободи k, тобто. кількості незалежних значень доданків у виразі (3.7). Число ступенів свободи дорівнює числу yмінус число лінійних зв'язків, накладені на вибірку. Один зв'язок існує через те, що будь-яка частота може бути обчислена за сукупністю частот у решті M-1 Розряди. Крім того, якщо параметри розподілу невідомі заздалегідь, є ще одне обмеження, обумовлене припасуванням розподілу до вибірки. Якщо за вибіркою визначаються S параметрів розподілу, то число ступенів свободи становитиме k= MS–1.

Область прийняття гіпотези Н 0 визначається умовою χ 2 < χ 2 (k; a) де χ 2 (k; a) – критична точка χ2-розподілу з рівнем значущості a. Імовірність помилки першого роду дорівнює a, Імовірність помилки другого роду чітко визначити не можна, тому що існує безліч різних способів розбіжності розподілів. Потужність критерію залежить від кількості розрядів та обсягу вибірки. Критерій рекомендується застосовувати при n>200, допускається застосування при n>40, за таких умов критерій заможний (зазвичай, відкидає неправильну нульову гіпотезу).

Алгоритм перевірки за критерієм

1. Побудувати гістограму рівноймовірним способом.

2. За видом гістограми висунути гіпотезу

H 0: f(x) = f 0 (x),

H 1: f(x) ¹ f 0 (x),

де f 0 (x) – щільність ймовірності гіпотетичного закону розподілу (наприклад, рівномірного, експоненціального, нормального).

Зауваження. Гіпотезу про експонентний закон розподілу можна висувати в тому випадку, якщо всі числа у вибірці позитивні.

3. Обчислити значення критерію за такою формулою

,

де
частота влучення в i-Тий інтервал;

p i- теоретична ймовірність влучення випадкової величини в i- тий інтервал за умови, що гіпотеза H 0 вірна.

Формули для розрахунку p iу разі експоненційного, рівномірного та нормального законіввідповідно рівні.

Експонентний закон

. (3.8)

При цьому A 1 = 0, B m = +¥.

Рівномірний закон

Нормальний закон

. (3.10)

При цьому A 1 = - ¥, B M = + ¥.

Зауваження. Після обчислення всіх ймовірностей p iперевірити, чи виконується контрольне співвідношення

Функція Ф( х) - непарна. Ф(+¥) = 1.

4. З таблиці " Хі-квадрат" Програми вибирається значення
де a - заданий рівень значущості (a = 0,05 або a = 0,01), а k- Число ступенів свободи, що визначається за формулою

k = M - 1 - S.

Тут S- Число параметрів, від яких залежить обраний гіпотезою H 0 Закон розподілу. Значення Sдля рівномірного законуодно 2, для експоненційного – 1, для нормального – 2.

5. Якщо
, то гіпотеза H 0 Відхиляється. В іншому випадку немає підстав її відхилити: з ймовірністю 1 - b вона вірна, а з ймовірністю - b невірна, але величина b невідома.

Приклад3 . 1. За допомогою критерію c 2 висунути та перевірити гіпотезу про закон розподілу випадкової величини X, варіаційний ряд, інтервальні таблиці та гістограми розподілу якої наведено у прикладі 1.2. Рівень значимості дорівнює 0,05.

Рішення . На вигляд гістограм висуваємо гіпотезу про те, що випадкова величина Xрозподілено за нормальним законом:

H 0: f(x) = N(m, s);

H 1: f(x) ¹ N(m, s).

Значення критерію обчислюємо за такою формулою:

(3.11)

Як зазначалося вище, під час перевірки гіпотези краще використовувати равновероятностную гістограму. В цьому випадку

Теоретичні ймовірності p iрозраховуємо за формулою (3.10). При цьому вважаємо, що

p 1 = 0,5(Ф((-4,5245+1,7)/1,98)-Ф((-¥+1,7)/1,98)) = 0,5(Ф(-1,427) -Ф(-¥)) =

0,5(-0,845+1) = 0,078.

p 2 = 0,5(Ф((-3,8865+1,7)/1,98)-Ф((-4,5245+1,7)/1,98)) =

0,5(Ф(-1,104)+0,845) = 0,5(-0,729+0,845) = 0,058.

p 3 = 0,094; p 4 = 0,135; p 5 = 0,118; p 6 = 0,097; p 7 = 0,073; p 8 = 0,059; p 9 = 0,174;

p 10 = 0,5(Ф((++1,7)/1,98)-Ф((0,6932+1,7)/1,98)) = 0,114.

Після цього перевіряємо виконання контрольного співвідношення

100 × (0,0062 + 0,0304 + 0,0004 + 0,0091 + 0,0028 + 0,0001 + 0,0100 +

0,0285 + 0,0315 + 0,0017) = 100 × 0,1207 = 12,07.

Після цього з таблиці "Хі - квадрат" вибираємо критичне значення

.

Так як
то гіпотеза H 0 приймається (немає підстави її відхилити).



Останні матеріали розділу:

Основний план дій та способи виживання Вночі тихо, вдень вітер посилюється, а надвечір затихає
Основний план дій та способи виживання Вночі тихо, вдень вітер посилюється, а надвечір затихає

5.1. Поняття про місце існування людини. Нормальні та екстремальні умови життєпроживання. Виживання 5.1.1. Поняття про довкілля людини...

Англійські звуки для дітей: читаємо транскрипцію правильно
Англійські звуки для дітей: читаємо транскрипцію правильно

А ви знали, що англійський алфавіт складається з 26 літер та 46 різних звуків? Одна й та сама буква може передавати кілька звуків одночасно.

Контрольний тест з історії на тему Раннє Середньовіччя (6 клас)
Контрольний тест з історії на тему Раннє Середньовіччя (6 клас)

М.: 2019. – 128 с. М.: 2013. – 160 с. Посібник включає тести з історії Середніх віків для поточного та підсумкового контролю та відповідає змісту...