Ксі розподіл. Перевірка простих гіпотез критерієм хі-квадрат Пірсона у MS EXCEL

​ Критерій χ 2 Пірсона – це непараметричний методщо дозволяє оцінити значущість відмінностей між фактичною (виявленою в результаті дослідження) кількістю наслідків або якісних характеристиквибірки, що потрапляють у кожну категорію, та теоретичною кількістю, яку можна очікувати в групах, що вивчаються при справедливості нульової гіпотези. Висловлюючись простіше, метод дозволяє оцінити статистичну значимістьвідмінностей двох чи кількох відносних показників(Частот, часток).

1. Історія розробки критерію χ 2

Критерій хі-квадрат для аналізу таблиць сполученості був розроблений та запропонований у 1900 році англійським математиком, статистиком, біологом та філософом, засновником математичної статистикита одним із основоположників біометрики Карлом Пірсоном(1857-1936).

2. Для чого використовується критерій 2 Пірсона?

Критерій хі-квадрат може застосовуватися під час аналізу таблиць сполученості, що містять відомості про частоту наслідків залежно від наявності фактора ризику. Наприклад, чотирипільна таблиця сполученостівиглядає наступним чином:

Вихід є (1) Виходу немає (0) Усього
Чинник ризику є (1) A B A + B
Чинник ризику відсутній (0) C D C+D
Усього A + C B + D A+B+C+D

Як заповнити таку таблицю поєднання? Розглянемо невеликий приклад.

Проводиться дослідження впливу куріння на ризик розвитку гіпертонії. Для цього було відібрано дві групи досліджуваних – до першої увійшли 70 осіб, які щодня викурюють не менше 1 пачки цигарок, у другу – 80 некурців такого ж віку. У першій групі у 40 осіб відзначався підвищений артеріальний тиск. У другій – артеріальна гіпертонія спостерігалася у 32 осіб. Відповідно, нормальний артеріальний тиск у групі курців був у 30 осіб (70 – 40 = 30) а у групі некурців – у 48 (80 – 32 = 48).

Заповнюємо вихідними даними чотирипільну таблицю сполученості:

В отриманій таблиці спряженості кожен рядок відповідає певній групідосліджуваних. Стовпці - показують кількість осіб із артеріальною гіпертонією чи з нормальним артеріальним тиском.

Завдання, яке ставиться перед дослідником: чи є статистично значущі відмінності між частотою осіб з артеріальним тиском серед курців та некурців? Відповісти на це питання можна, розрахувавши критерій хі-квадрат Пірсона і порівнявши значення, що вийшло, з критичним.

3. Умови та обмеження застосування критерію хі-квадрат Пірсона

  1. Порівняні показники повинні бути виміряні в номінальної шкали(наприклад, стать пацієнта - чоловіча або жіноча) або в порядковий(наприклад, ступінь артеріальної гіпертензії, що набуває значення від 0 до 3).
  2. Цей методдозволяє проводити аналіз не тільки чотирипольних таблиць, коли і фактор, і результат є бінарними змінними, тобто мають лише два можливі значення (наприклад, чоловіча або жіноча стать, наявність або відсутність певного захворювання в анамнезі...). Критерій хі-квадрат Пірсона може застосовуватися і у разі аналізу багатопольних таблиць, коли фактор та (або) результат приймають три і більше значень.
  3. Порівнювані групи повинні бути незалежними, тобто критерій хі-квадрат не повинен застосовуватися при порівнянні спостережень "до" після. У цих випадках проводиться тест Мак-Немара(при порівнянні двох пов'язаних сукупностей) або розраховується Q-критерій Кохрена(у разі порівняння трьох та більше груп).
  4. При аналізі чотирипольних таблиць очікувані значенняу кожному із осередків мають бути не менше 10. У тому випадку, якщо хоча б в одному осередку очікуване явище набуває значення від 5 до 9, критерій хі-квадрат повинен розраховуватися з поправкою Йейтса. Якщо хоча в одному осередку очікуване явище менше 5, то для аналізу повинен використовуватися точний критерій Фішера.
  5. У разі аналізу багатопільних таблиць очікуване число спостережень має приймати значення менше 5 більш ніж 20% осередків.

4. Як розрахувати критерій хі-квадрат Пірсона?

Для розрахунку критерію хі-квадрату необхідно:

Даний алгоритм застосуємо як для чотирипольних, так багатопольних таблиць.

5. Як інтерпретувати значення критерію хі-квадрат Пірсона?

У тому випадку, якщо отримане значення критерію 2 більше критичного, робимо висновок про наявність статистичного взаємозв'язкуміж фактором ризику, що вивчається, і результатом при відповідному рівні значущості.

6. Приклад розрахунку критерію хі-квадрат Пірсона

Визначимо статистичну значущість впливу фактора куріння на частоту випадків артеріальної гіпертонії за розглянутою вище таблицею:

  1. Розраховуємо очікувані значення для кожного осередку:
  2. Знаходимо значення критерію хі-квадрат Пірсона:

    χ 2 = (40-33.6) 2 / 33.6 + (30-36.4) 2 / 36.4 + (32-38.4) 2 / 38.4 + (48-41.6) 2 / 41.6 = 4.396.

  3. Число ступенів свободи f = (2-1) * (2-1) = 1. Знаходимо по таблиці критичне значеннякритерію хі-квадрат Пірсона, яке при рівні значущості p=0.05 та числі ступенів свободи 1 становить 3.841.
  4. Порівнюємо отримане значення критерію хі-квадрат із критичним: 4.396 > 3.841, отже залежність частоти випадків артеріальної гіпертонії від наявності куріння – статистично значуща. Рівень значимості цього взаємозв'язку відповідає p<0.05.

У цій замітці χ 2 -розподіл використовується для перевірки узгодженості набору даних з фіксованим розподілом ймовірностей. У критерії згоди част оти, що належать до певної категорії, порівнюються з частотами, які є теоретично очікуваними, якби дані дійсно мали зазначений розподіл.

Перевірка за допомогою критерію згоди 2 виконується в кілька етапів. По-перше, визначається конкретний розподіл ймовірностей, що порівнюється з вихідними даними. По-друге, висувається гіпотеза про параметри обраного розподілу ймовірностей (наприклад, про її математичне очікування) або проводиться їхня оцінка. По-третє, на основі теоретичного розподілу визначається теоретична ймовірність, що відповідає кожній категорії. На закінчення, для перевірки узгодженості даних та розподілу застосовується тестова χ 2 -статистика:

де f 0- спостерігається частота, f е- теоретична, чи очікувана частота, k- кількість категорій, що залишилися після об'єднання, р- кількість параметрів, що оцінюються.

Завантажити нотатку у форматі або , приклади у форматі

Використання χ 2 -критерію згоди для розподілу Пуассона

Для розрахунку за цією формулою в Excel зручно скористатися функцією СУММПРОИЗВ() (рис. 1).

Для оцінки параметра λ можна скористатися оцінкою . Теоретичну частоту Xуспіхів (Х = 0, 1, 2, 3, 4, 5, 6, 7, 8, 9 і більше), що відповідає параметру λ = 2,9 можна визначити за допомогою функції = ПУАССОН.РАСП (Х;; Брехня). Помноживши пуасонівську можливість на обсяг вибірки n, отримаємо теоретичну частоту f e(Рис. 2).

Рис. 2. Фактичні та теоретичні частоти прибуття за хвилину

Як випливає з рис. 2, теоретична частота дев'яти і більше прибутків вбирається у 1,0. Щоб кожна категорія містила частоту, рівну 1,0 чи більшому числу, категорію «9 і більше» слід об'єднати з категорією «8». Тобто залишається дев'ять категорій (0, 1, 2, 3, 4, 5, 6, 7, 8 і більше). Оскільки математичне очікування розподілу Пуассона визначається на основі вибіркових даних, кількість ступенів свободи дорівнює k - р - 1 = 9 - 1 - 1 = 7. Використовуючи рівень значущості, рівний 0,05 знаходимо критичне значення χ 2 -статистики, що має 7 ступенів свободи формулі = ХІ2.ОБР (1-0,05; 7) = 14,067. Вирішальне правило формулюється так: гіпотеза Н 0відхиляється, якщо χ 2 > 14,067, інакше гіпотеза Н 0не відхиляється.

Для розрахунку 2 скористаємося формулою (1) (рис. 3).

Рис. 3. Розрахунок χ 2 -критерія згоди для розподілу Пуассона

Оскільки χ 2 = 2,277< 14,067, следует, что гипотезу Н 0відхиляти не можна. Інакше кажучи, ми не маємо підстав стверджувати, що прибуття клієнтів до банку не підпорядковується розподілу Пуассона.

Застосування ? 2 -критерія згоди для нормального розподілу

У попередніх нотатках під час перевірки гіпотез про числові змінні використовувалося припущення про те, що досліджувана Генеральна сукупністьмає нормальний розподіл. Для перевірки цього припущення можна застосовувати графічні засоби, наприклад, блокову діаграму або графік нормального розподілу (докладніше див.). При більших обсягах вибірок для перевірки цих припущень можна використовувати χ 2 критерій згоди для нормального розподілу.

Розглянемо як приклад дані про 5-річну прибутковість 158 інвестиційних фондів (рис. 4). Припустимо, потрібно повірити, чи ці дані мають нормальний розподіл. Нульова та альтернативна гіпотезиформулюються так: Н 0: 5-річна прибутковість підпорядковується нормальному розподілу, Н 1: 5-річна прибутковість не підпорядковується нормальному розподілу Нормальний розподіл має два параметри - математичне очікування і стандартне відхилення σ, які можна оцінити на основі вибіркових даних. У даному випадку = 10,149 та S = 4,773.

Рис. 4. Упорядкований масив, що містить дані про п'ятирічну середньорічну прибутковість 158 фондів

Дані про прибутковість фондів можна згрупувати, розбивши, наприклад, на класи (інтервали) шириною 5% (рис. 5).

Рис. 5. Розподіл частот для п'ятирічної середньорічної доходності 158 фондів

Оскільки нормальний розподіл є безперервним, необхідно визначити площу фігур, обмежених кривою нормального розподілу та межами кожного інтервалу. Крім того, оскільки нормальний розподіл теоретично змінюється від –∞ до +∞, необхідно враховувати площу фігур, що виходять за межі класів. Отже, площа, що лежить під нормальною кривою зліва від точки –10, дорівнює площі фігури, що лежить під стандартизованою нормальною кривою зліва від величини Z, що дорівнює

Z = (-10 - 10,149) / 4,773 = -4,22

Площа фігури, що лежить під стандартизованою нормальною кривою зліва від величини Z = -4,22 визначається за формулою = НОРМ.РАСП(-10; 10,149; 4,773; ІСТИНА) і приблизно дорівнює 0,00001. Для того щоб обчислити площу фігури, що лежить під нормальною кривою між точками –10 і –5, спочатку необхідно обчислити площу фігури, що лежить ліворуч від точки –5: =НОРМ.РАСП(-5;10,149;4,773;ІСТИНА) = 0,00075 . Отже, площа фігури, що лежить під нормальною кривою між точками –10 та –5, дорівнює 0,00075 – 0,00001 = 0,00074. Аналогічно можна обчислити площу фігури, обмеженою межами кожного класу (рис. 6).

Рис. 6. Площі та очікувані частоти для кожного класу 5-річної прибутковості

Видно, що теоретичні частоти в чотирьох крайніх класах (два мінімальні та два максимальні) менше 1, тому проведемо об'єднання класів, як показано на рис 7.

Рис. 7. Обчислення, пов'язані із застосуванням χ 2 -критерію згоди для нормального розподілу

Використовуємо 2 -критерій згоди даних з нормальним розподіломза допомогою формули (1). У прикладі після об'єднання залишаються шість класів. Оскільки математичне очікування та стандартне відхилення оцінюються на основі вибіркових даних, кількість ступенів свободи дорівнює kp – 1 = 6 – 2 – 1 = 3. Використовуючи рівень значимості, рівний 0,05, бачимо, що критичне значення χ 2 -статистики, має три ступені свободи = ХІ2.ОБР(1-0,05; F3) = 7,815. Обчислення, пов'язані із застосуванням 2 -критерію згоди, наведено на рис. 7.

Видно, що ? 2 -статистика = 3,964< χ U 2 7,815, следовательно гипотезу Н 0відхиляти не можна. Інакше кажучи, ми не маємо підстав стверджувати, що 5-річна прибутковість інвестиційних фондів, орієнтованих на швидкий ріст, Не підпорядковується нормальному розподілу.

У кількох останніх нотатках розглянуто різні підходидля аналізу категорійних даних. Описано методи перевірки гіпотез про категорійні дані, отримані на основі аналізу двох або декількох незалежних вибірок. Окрім критеріїв «хі-квадрат», розглянуто непараметричні процедури. Описано ранговий критерій Вілкоксону, який використовується у ситуаціях, коли не виконуються умови застосування. t-критерія для перевірки гіпотези про рівність математичних очікуваньдвох незалежних груп, а також критерій Крускала-Уолліса, який є альтернативою однофакторному дисперсійного аналізу(Рис. 8).

Рис. 8. Структурна схемаметодів перевірки гіпотез щодо категорійних даних

Використовуються матеріали книги Левін та ін. Статистика менеджерів. - М.: Вільямс, 2004. - с. 763–769

При проведенні тесту хі-квадрат перевіряється взаємна незалежність двох змінних таблиці сполученості і завдяки цьому опосередковано з'ясовується залежність обох змінних. Дві змінні вважаються взаємно незалежними, якщо частоти (f 0) в комірках збігаються з очікуваними частотами (f e).

Для того, щоб провести тест хі-квадрат за допомогою SPSS, виконайте такі дії:

  • Виберіть у меню команди Analyze(Аналіз) › Descriptive Statistics(Дескриптивні статистики) › Crosstabs…(Таблиці сполученості)
  • Кнопкою Reset(Скинути) видаліть можливі налаштування.
  • Перенесіть змінну sex до списку рядків, а змінну psyche - до списку стовпців.
  • Клацніть на кнопці Cells…(осередки). У діалоговому вікні встановіть, крім пропонованого за промовчанням прапорця Observed, ще прапорці Expectedі Standardized. Підтвердіть вибір кнопкою Continue.
  • Клацніть на кнопці Statistics…(Статистика).

Відкриється описане вище діалогове вікно Crosstabs: Statistics.

  • Встановіть прапорець Chi-square(хі-квадрат). Клацніть на кнопці Continue, а в головному діалоговому вікні - на ОК.

Ви отримаєте наступну таблицю сполученості.

Стать * Психічний стан. Таблиця сполученості.

Психічний стан Total
Вкрай нестійке Нестійке Стійке Дуже стійке
Стать жіночий Count 16 18 9 1 44
Expected Count 7.9 16.6 17.0 2.5 44.0
Std. Residual 2.9 0.3 -1.9 -0.9
Чоловічий Count 3 22 32 5 62
Expected Count 11.1 23.4 24.0 3.5 62.0
Std. Residual -2.4 -0.3 1.6 0.8
Total Count 19 40 41 6 106
Expected Count 19.0 40.0 41.0 6.0 106.0

Крім того, у вікні перегляду будуть показані результати тесту хі-квадрат:

Chi-Square Tests (Тести хі-квадрат)

  • а. 2 cells (25.0%) have expected count less than 5. The minimum expected count is 2.49 (2 комірки (25%) мають очікувану частоту менше 5. Мінімальна очікувана частота 2.49.)

Для обчислення критерію хі-квадрат застосовуються три різних підходу: формула Пірсона, поправка на правдоподібність та тест Мантеля-Хензеля. Якщо таблиця сполученості має чотири поля та очікувана ймовірність менше 5, додатково виконується точний тестФішера.

Критерій хі-квадрат за Пірсоном

Зазвичай для обчислення критерію хі-квадрату використовується формула Пірсона:

Тут обчислюється сума квадратів стандартизованих залишків за всіма полями таблиці сполученості. Тому поля з більш високим стандартизованим залишком роблять вагоміший внесок у чисельне значення критерію хі-квадрат і, отже, - в значний результат. Відповідно до правила, наведеного в розділі 8.7.2, стандартизований залишок 2 або більше вказує на значну розбіжність між частотою, що спостерігається і очікуваною.

У наведеному нами прикладі формула Пірсона дає максимально значущу величину критерію хі-квадрат (р<0.001). Если рассмотреть стандартизованные остатки в отдельных полях таблицы сопряженности, то на основе вышеприведенного правила можно сделать вывод, что эта значимость в основном определяется полями, в которых переменная psyche имеет значение "крайне неустойчивое". У женщин это значение сильно повышено, а у мужчин - понижено.

Коректність проведення тесту хі-квадрат визначається двома умовами: по-перше, очікувані частоти< 5 должны встречаться не более чем в 20% полей таблицы; во-вторых, суммы по строкам и столбцам всегда должны быть больше нуля.

Однак у прикладі ця умова виконується не повністю. Як вказує примітку після таблиці тесту хі-квадрат, 25% полів мають очікувану частоту менше 5. Однак, оскільки допустима межа4в 20% перевищена лише ненабагато і ці поля, внаслідок свого дуже малого стандартизованого залишку, вносять вельми незначну частку у величину критерію хі- квадрат, це порушення вважатимуться несуттєвим.

Критерій хі-квадрат із поправкою на правдоподібність

Альтернативою формулою Пірсона для обчислення критерію хі-квадрат є поправка на правдоподібність:

При великому обсязі вибірки формула Пірсона та підправлена ​​формула дають дуже близькі результати. У нашому прикладі критерій хі-квадрату з поправкою на правдоподібність становить 23.688.

Тест Мантеля-Хензеля

Додатково у таблиці сполученості під позначенням linear-by-linear("лінійно-по-лінійному") виводиться значення тесту Мантеля-Хензеля (20.391). Ця форма критерію хі-квадрат із поправкою Мантеля-Хензеля - ще одна міра лінійної залежності між рядками та стовпцями таблиці сполученості. Вона визначається як добуток коефіцієнта кореляції Пірсона на кількість спостережень, зменшену на одиницю:

Отриманий таким чином критерій має одну міру свободи. Метод Мантеля-Хензеля використовується завжди, коли у діалоговому вікні Crosstabs: Statisticsвстановлено прапорець Chi-square. Однак для даних, що належать до номінальної шкали, цей критерій не застосовний.

Використання цього критерію ґрунтується на застосуванні такого заходу (статистики) розбіжності між теоретичним. F(x)та емпіричним розподілом F* п (x), яка приблизно підпорядковується закону розподілу χ 2 . Гіпотеза Н 0про узгодженість розподілів перевіряється шляхом аналізу розподілу цієї статистики. Застосування критерію потребує побудови статистичного ряду.

Отже, нехай вибірка представлена ​​статистичним поряд із кількістю розрядів M. Частота потраплянь, що спостерігається в i-й розряд n i. Відповідно до теоретичного закону розподілу очікувана частота потраплянь у i-й розряд складає F i. Різниця між спостерігається і очікуваною частотою складе величину ( n iF i). Для знаходження загального ступеня розходження між F(x) та F* п (x) необхідно підрахувати зважену суму квадратів різниць за всіма розрядами статистичного ряду

Розмір χ 2 при необмеженому збільшенні nмає χ 2 -розподіл (асимптотично розподілена як χ 2). Цей розподіл залежить від числа ступенів свободи k, тобто. кількості незалежних значень доданків у виразі (3.7). Число ступенів свободи дорівнює числу yмінус число лінійних зв'язків, накладених вибірку. Один зв'язок існує через те, що будь-яка частота може бути обчислена за сукупністю частот у решті M-1 Розряди. Крім того, якщо параметри розподілу невідомі заздалегідь, є ще одне обмеження, обумовлене припасуванням розподілу до вибірки. Якщо за вибіркою визначаються Sпараметрів розподілу, то число ступенів свободи становитиме k = M -S-1.

Область прийняття гіпотези Н 0визначається умовою χ 2 < χ 2 (k;a)де χ 2 (k;a)– критична точка χ2-розподілу з рівнем значущості a. Імовірність помилки першого роду дорівнює a, Імовірність помилки другого роду чітко визначити не можна, тому що існує безліч різних способів розбіжності розподілів. Потужність критерію залежить від кількості розрядів та обсягу вибірки. Критерій рекомендується застосовувати при n>200, допускається застосування при n>40, за таких умов критерій заможний (зазвичай, відкидає неправильну нульову гіпотезу).

Алгоритм перевірки за критерієм

1. Побудувати гістограму рівноймовірним способом.

2. За видом гістограми висунути гіпотезу

H 0: f(x) = f 0(x),

H 1: f(x) f 0(x),

де f 0(x) – щільність ймовірності гіпотетичного закону розподілу (наприклад, рівномірного, експоненціального, нормального).

Зауваження. Гіпотезу про експонентний закон розподілу можна висувати в тому випадку, якщо всі числа у вибірці позитивні.


3. Обчислити значення критерію за такою формулою

,

де частота влучення в i-Тий інтервал;

pi- теоретична ймовірність влучення випадкової величини в i- тий інтервал за умови, що гіпотеза H 0вірна.

Формули для розрахунку piу разі експоненційного, рівномірного та нормального законів відповідно рівні.

Експонентний закон

. (3.8)

При цьому A 1 = 0, Bm= +.

Рівномірний закон

Нормальний закон

. (3.10)

При цьому A 1 = -, B M = +.

Зауваження. Після обчислення всіх ймовірностей piперевірити, чи виконується контрольне співвідношення

Функція Ф( х) - непарна. Ф(+) = 1.

4. З таблиці " Хі-квадрат " Додатки вибирається значення , де - заданий рівень значимості (= 0,05 чи = 0,01), а k- Число ступенів свободи, що визначається за формулою

k= M- 1 - S.

Тут S- Число параметрів, від яких залежить обраний гіпотезою H 0закон розподілу. Значення Sдля рівномірного законуодно 2, для експоненційного – 1, для нормального – 2.

5. Якщо , то гіпотеза H 0відхиляється. Інакше немає підстав її відхилити: з ймовірністю 1 - вона вірна, і з ймовірністю - неправильна, але величина невідома.

Приклад3 . 1. За допомогою критерію 2 висунути та перевірити гіпотезу про закон розподілу випадкової величини X, варіаційний ряд, інтервальні таблиці та гістограми розподілу якої наведено у прикладі 1.2. Рівень значимості дорівнює 0,05.

Рішення . На вигляд гістограм висуваємо гіпотезу про те, що випадкова величина Xрозподілена за нормальному закону:

H 0: f(x) = N(m,);

H 1: f(x) N(m,).

Значення критерію обчислюємо за такою формулою.

У цій статті йтиметься про дослідження залежності між ознаками, або як більше подобається. випадковими величинами, змінними. Зокрема, ми розберемо як запровадити міру залежності між ознаками, використовуючи критерій Хі-квадрат та порівняємо її з коефіцієнтом кореляції.

Навіщо це може знадобитися? Наприклад, щоб зрозуміти які ознаки сильніше залежні від цільової змінної при побудові кредитного скорингу - визначенні ймовірності дефолту клієнта. Або, як у моєму випадку, зрозуміти які показники потрібно використовувати для програмування торгового робота.

Окремо зазначу, що з аналізу даних використовую мову c#. Можливо це все вже реалізовано на R або Python, але використання c# для мене дозволяє детально розібратися в темі, навіть це моя улюблена мова програмування.

Почнемо з зовсім простого прикладу, створимо в екселі чотири колонки, використовуючи генератор випадкових чисел:
X=ВИПАДМІЖ(-100;100)
Y =X*10+20
Z =X*X
T=ВИПАДМІЖ(-100;100)

Як видно, змінна Yлінійно залежна від X; змінна Zквадратично залежить від X; змінні Xі Тнезалежні. Такий вибір я зробив спеціально, тому що нашу міру залежності ми порівнюватимемо з коефіцієнтом кореляції. Як відомо, між двома випадковими величинами він дорівнює по модулю 1 якщо між ними найжорсткіший вид залежності - лінійний. Між двома незалежними випадковими величинами кореляція нульова, але з рівності коефіцієнта кореляції нулю не випливає незалежність. Далі ми це побачимо на прикладі змінних Xі Z.

Зберігаємо файл як data.csv і починаємо перші прикиди. Спочатку розрахуємо коефіцієнт кореляції між величинами. Код у статтю я вставляти не став, він є на моєму github. Отримуємо кореляцію по різних парах:

Видно, що у лінійно залежних Xі Yкоефіцієнт кореляції дорівнює 1. А ось у Xі Zвін дорівнює 0.01, хоча залежність ми поставили явну Z=X*X. Зрозуміло, що нам потрібна міра, яка «відчуває» залежність краще. Але перш, ніж переходити до критерію Хі-квадрат, розглянемо що таке матриця сполученості.

Щоб побудувати матрицю сполученості, ми розіб'ємо діапазон значень змінних на інтервали (або категоруємо). Є багато способів такого розбиття, при цьому якогось універсального не існує. Деякі їх розбивають на інтервали так, щоб у них потрапляла однакова кількість змінних, інші розбивають на рівні по довжині інтервали. Мені особисто за духом комбінувати ці підходи. Я вирішив скористатися у такий спосіб: зі змінної я віднімаю оцінку мат. очікування, потім отримане поділю на оцінку стандартного відхилення. Іншими словами, я центрую і нормую випадкову величину. Отримане значення множиться на коефіцієнт (у цьому прикладі він дорівнює 1), після чого все округляється до цілого. На виході виходить змінна типу int є ідентифікатором класу.

Отже, візьмемо наші ознаки Xі Z, категоруємо описаним вище способом, після чого порахуємо кількість та ймовірності появи кожного класу та ймовірності появи пар ознак:

Це матриця за кількістю. Тут у рядках – кількості появи класів змінної X, у стовпцях - кількості появ класів змінної Z, у клітинах – кількості появ пар класів одночасно. Наприклад, клас 0 зустрівся 865 разів для змінної X, 823 рази на змінну Zі жодного разу не було пари (0,0). Перейдемо до ймовірностей, поділивши всі значення на 3000 ( загальне числоспостережень):

Отримали матрицю сполученості, одержану після категорування ознак. Тепер настав час задуматися над критерієм. За визначенням, випадкові величини незалежні, якщо незалежні сигма-алгебри, породжені цими випадковими величинами. Незалежність сигма-алгебр має на увазі попарну незалежність подій із них. Дві події називаються незалежними, якщо ймовірність їхньої спільної появи дорівнює добутку ймовірностей цих подій: Pij = Pi*Pj. Саме цією формулою ми будемо користуватися для побудови критерію.

Нульова гіпотеза: категоровані ознаки Xі Zнезалежні. Еквівалентна їй: розподіл матриці сполученості визначається виключно ймовірностями появи класів змінних (ймовірності рядків і стовпців). Або так: комірки матриці знаходяться твором відповідних ймовірностей рядків та стовпців. Це формулювання нульової гіпотези ми будемо використовувати для побудови вирішального правила: суттєва розбіжність між Pijі Pi*Pjбуде основою відхилення нульової гіпотези.

Нехай – ймовірність появи класу 0 у змінної X. Усього у нас nкласів у Xі mкласів у Z. Виходить, щоб задати розподіл матриці нам потрібно знати ці nі mймовірностей. Але насправді якщо ми знаємо n-1ймовірність для X, то остання знаходиться відніманням з 1 суми інших. Таким чином, для знаходження розподілу матриці сполученості нам треба знати l=(n-1)+(m-1)значень. Або ми маємо l-мірне параметричний простір, Вектор з якого задає нам наш шуканий розподіл. Статистика Хі-квадрат матиме такий вигляд:

і, згідно з теоремою Фішера, мати розподіл Хі-квадрат з n*m-l-1=(n-1)(m-1)ступенями свободи.

Задамося рівнем значимості 0.95 (або ймовірність помилки першого роду дорівнює 0.05). Знайдемо квантиль розподілу Хі квадрат для даного рівня значущості та ступенів свободи з прикладу (n-1) (m-1) = 4 * 3 = 12: 21.02606982. Сама статистика Хі-квадрат для змінних Xі Zдорівнює 4088.006631. Видно, що гіпотеза про незалежність не ухвалюється. Зручно розглядати ставлення статистики Хі-квадрат до порогового значення - у цьому випадку воно рівне Chi2Coeff=194.4256186. Якщо це відношення менше 1, то гіпотеза про незалежність приймається, якщо більше, то ні. Знайдемо це відношення для всіх пар ознак:

Тут Factor1і Factor2- імена ознак
src_cnt1і src_cnt2- кількість унікальних значень вихідних ознак
mod_cnt1і mod_cnt2- кількість унікальних значень ознак після категорування
chi2- статистика Хі-квадрат
chi2max- граничне значення статистики Хі-квадрат для рівня значимості 0.95
chi2Coeff- Ставлення статистики Хі-квадрат до порогового значення
corr- Коефіцієнт кореляції

Видно, що незалежні (chi2coeff<1) получились следующие пары признаков - (X,T), (Y,T) та ( Z,T), що логічно, оскільки змінна Tгенерується випадково. Змінні Xі Zзалежні, але менш, ніж лінійно залежні Xі Yщо теж логічно.

Код утиліти, що розраховує дані показники, я виклав на github, там же файл data.csv. Утиліта приймає на вхід файл csv і вираховує залежності між усіма парами колонок: PtProject.Dependency.exe data.csv



Останні матеріали розділу:

Список відомих масонів Закордонні знамениті масони
Список відомих масонів Закордонні знамениті масони

Присвячується пам'яті митрополита Санкт-Петербурзького та Ладозького Іоанна (Сничева), який благословив мою працю з вивчення підривної антиросійської...

Що таке технікум - визначення, особливості вступу, види та відгуки Чим відрізняється інститут від університету
Що таке технікум - визначення, особливості вступу, види та відгуки Чим відрізняється інститут від університету

25 Московських коледжів увійшли до рейтингу "Топ-100" найкращих освітніх організацій Росії. Дослідження проводилося міжнародною організацією...

Чому чоловіки не стримують своїх обіцянок Невміння говорити «ні»
Чому чоловіки не стримують своїх обіцянок Невміння говорити «ні»

Вже довгий час серед чоловіків ходить закон: якщо назвати його таким можна, цього не може знати ніхто, чому ж вони не стримують свої обіцянки. По...