Статистично значущі результати. Поняття про статистичну достовірність

Основні риси будь-якої залежності між змінними.

Можна відзначити дві найпростіші властивості залежності між змінними: (a) величина залежності та (b) надійність залежності.

- Величина . Величину залежності легше зрозуміти та виміряти, ніж надійність. Наприклад, якщо будь-який чоловік у вибірці мав значення числа лейкоцитів (WCC) вище ніж будь-яка жінка, ви можете сказати, що залежність між двома змінними (Пол і WCC) дуже висока. Іншими словами, ви могли б передбачити значення однієї змінної за значеннями іншої.

- Надійність ("Істинність"). Надійність взаємозалежності – менш наочне поняття, ніж величина залежності, проте надзвичайно важливе. Надійність залежності безпосередньо пов'язана із репрезентативністю певної вибірки, на основі якої будуються висновки. Іншими словами, надійність говорить про те, наскільки ймовірно, що залежність буде знову виявлена (іншими словами, підтвердиться) на даних іншої вибірки, витягнутої з тієї самої популяції.

Слід пам'ятати, що кінцевою метою майже ніколи не є вивчення цієї конкретної вибірки значень; вибірка цікавить лише остільки, оскільки вона дає інформацію про всій популяції. Якщо дослідження задовольняє деяким спеціальним критеріям, то надійність знайдених залежностей між змінними вибірками можна кількісно оцінити та подати за допомогою стандартного статистичного заходу.

Величина залежності та надійність становлять дві різні характеристики залежностей між змінними. Проте не можна сказати, що вони абсолютно незалежні. Чим більша величина залежності (зв'язку) між змінними у вибірці звичайного обсягу, тим більше вона надійна (див. наступний розділ).

Статистична значимість результату (p-рівень) є оціненою мірою впевненості у його " істинності " (у сенсі " репрезентативності вибірки " ). p align="justify"> Висловлюючись більш технічно, p-рівень - це показник, що знаходиться в спадній залежності від надійності результату. Вищий p-рівень відповідає нижчому рівню довіри до знайденої у вибірці залежності між змінними. Саме p-рівень є ймовірністю помилки, пов'язаної з поширенням спостережуваного результату на всю популяцію.

Наприклад, p-рівень = 0.05(Тобто 1/20) показує, що є 5% ймовірність, що знайдена у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. У багатьох дослідженнях p-рівень 0.05 сприймається як " прийнятна межа " рівня помилки.

Не існує ніякого способу уникнути свавілля після ухвалення рішення про те, який рівень значущості слід дійсно вважати "значущим". Вибір певного рівня значимості, вище якого результати відкидаються як хибні, досить довільним.

Насправді остаточне рішення зазвичай залежить від цього, був результат передбачений апріорі (тобто. до проведення досвіду) чи виявлено апостеріорно внаслідок багатьох аналізів і порівнянь, виконаних з безліччю даних, і навіть на традиції, що у цій галузі досліджень.

Зазвичай у багатьох областях результат p .05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає ймовірність помилки (5%).

Результати, значущі лише на рівні p .01 зазвичай розглядаються як статистично значущі, а результати з рівнем p .005 чи p . 001 як значні. Однак слід розуміти, що дана класифікація рівнів значущості досить довільна і є лише неформальною угодою, прийнятою на основі практичного досвіду. у тій чи іншій галузі дослідження.

Зрозуміло, що чим більше аналізів буде проведено із сукупністю зібраних даних, тим більше значущих (на обраному рівні) результатів буде виявлено суто випадково.

Деякі статистичні методи, що включають багато порівнянь, і, таким чином, мають значний шанс повторити такі помилки, роблять спеціальне коригування або поправку на загальну кількість порівнянь. Тим не менш, багато статистичних методів (особливо прості методи розвідувального аналізу даних) не пропонують будь-якого способу вирішення даної проблеми.

Якщо зв'язок між змінними "об'єктивно" слабка, то немає іншого способу перевірити таку залежність, крім дослідити вибірку великого обсягу. Навіть якщо вибірка є абсолютно репрезентативною, ефект не буде статистично значущим, якщо вибірка мала. Аналогічно, якщо залежність "об'єктивно" дуже сильна, тоді вона може бути знайдена з високим ступенем значущості навіть на дуже маленькій вибірці.

Чим слабкіша залежність між змінними, тим більшого обсягу потрібна вибірка, щоб значуще її виявити.

Розроблено багато різних заходів взаємозв'язку між змінними. Вибір певної міри у конкретному дослідженні залежить від кількості змінних, використовуваних шкал виміру, природи залежностей тощо.

Більшість цих заходів, тим не менш, підпорядковуються загальному принципу: вони намагаються оцінити залежність, що спостерігається, порівнюючи її з "максимальною мислимою залежністю" між аналізованими змінними. Технічно кажучи, звичайний спосіб виконати такі оцінки полягає в тому, щоб подивитися, як варіюються значення змінних і потім підрахувати, яку частину всієї наявної варіації можна пояснити наявністю "загальної" ("спільної") варіації двох (або більше) змінних.

Значимість залежить переважно від обсягу вибірки. Як уже пояснювалося, у дуже великих вибірках навіть дуже слабкі залежності між змінними будуть значущими, тоді як у малих вибірках навіть дуже сильні залежності не є надійними.

Таким чином, щоб визначити рівень статистичної значущості, потрібна функція, яка представляла б залежність між "величиною" і "значимістю" залежності між змінними для кожного обсягу вибірки.

Така функція вказала б точно "наскільки можливо отримати залежність даної величини (або більше) у вибірці даного обсягу, припущення, що в популяції такої залежності немає". Іншими словами, ця функція давала б рівень значущості
(p -рівень), і, отже, можливість помилково відхилити припущення про відсутність цієї залежності у популяції.

Ця "альтернативна" гіпотеза (що полягає в тому, що немає залежності у популяції) зазвичай називається нульовою гіпотезою.

Було б ідеально, якби функція, яка обчислює ймовірність помилки, була лінійною і мала лише різні нахили для різних обсягів вибірки. На жаль, ця функція значно складніша і не завжди точно одна і та ж. Проте, здебільшого її форма відома, і її можна використовувати визначення рівнів значимості щодо вибірок заданого розміру. Більшість цих функцій пов'язані з класом розподілів, що називаються нормальним .

Якщо діяти не будеш, ні до чого розуму палата. (Шота Руставелі)

Основні терміни та поняття медичної статистики

У цій статті ми наведемо деякі ключові поняття статистики, які є актуальними при проведенні медичних досліджень. Докладніше терміни розбираються у відповідних статтях.

Варіація

Визначення.Ступінь розсіювання даних (значень ознаки) по області значень

Ймовірність

Визначення. Імовірність (probability) - ступінь можливості прояву будь-якої певної події в тих чи інших умовах.

приклад. Пояснимо визначення терміна на пропозиції «Вірогідність одужання при застосуванні лікарського препарату Арімідекс дорівнює 70%». Подією є «видужання хворого», умовою «хворий приймає Арімідекс», ступенем можливості - 70% (грубо кажучи, зі 100 осіб, які приймають Арімідекс, одужують 70).

Кумулятивна ймовірність

Визначення.Кумулятивна ймовірність виживання (Cumulative Probability of surviving) в момент часу t - це те саме, що частка пацієнтів, що вижили, до цього моменту часу.

приклад. Якщо говориться, що кумулятивна ймовірність виживання після проведення п'ятирічного курсу лікування дорівнює 0.7, то це означає, що з групи пацієнтів, що розглядається, в живих залишилося 70% від початкової кількості, а 30% померло. Іншими словами, з кожної сотні людей 30 померли протягом перших 5 років.

Час до події

Визначення.Час до події - це час, виражений у деяких одиницях, що минув з початкового моменту часу до настання деякої події.

Пояснення. Як одиниці часу в медичних дослідженнях виступають дні, місяці та роки.

Типові приклади початкових моментів часу:

початок спостереження за пацієнтом

проведення хірургічного лікування

Типові приклади подій, що розглядаються:

прогресування хвороби

виникнення рецидиву

смерть пацієнта

Вибірка

Визначення.Частина популяції, одержана шляхом відбору.

За результатами аналізу вибірки роблять висновки про всю популяцію, що правомірно лише у разі, якщо відбір був випадковим. Оскільки випадковий відбір із популяції здійснити практично неможливо, слід прагнути до того, щоб вибірка була, принаймні, репрезентативна стосовно популяції.

Залежні та незалежні вибірки

Визначення.Вибірки, у яких об'єкти дослідження набиралися незалежно друг від друга. Альтернатива незалежним вибіркам – залежні (зв'язкові, парні) вибірки.

Гіпотеза

Двостороння та одностороння гіпотези

Спочатку пояснимо застосування терміна гіпотезу у статистиці.

Мета більшості досліджень – перевірка істинності деякого твердження. Метою тестування лікарських препараторів найчастіше є перевірка гіпотези, що одні ліки ефективніші за інші (наприклад, Арімідекс ефективніший за Тамоксифен).

Для переказу строгості дослідження, твердження, що перевіряється, виражають математично. Наприклад, якщо А - це кількість років, що проживе пацієнт, який приймає Арімідекс, а Т - це кількість років, що проживе пацієнт, який приймає Тамоксифен, то гіпотезу, що перевіряється, можна записати як А>Т.

Визначення.Гіпотеза називається двосторонньою (2-sided), якщо вона полягає у рівності двох величин.

Приклад двосторонньої гіпотези: A=T.

Визначення. Гіпотеза називається односторонньою (1-sided), якщо вона полягає у нерівності двох величин.

Приклади односторонніх гіпотез:

Дихотомічні (бінарні) дані

Визначення.Дані, що виражаються лише двома допустимими альтернативними значеннями

Приклад: Пацієнт «здоровий» - «хворий». Набряк "є" - "ні".

Довірчий інтервал

Визначення.Довірчий інтервал (confidence interval) для деякої величини - це діапазон навколо значення величини, в якому знаходиться дійсне значення цієї величини (з певним рівнем довіри).

приклад. Нехай досліджуваною величиною є кількість пацієнтів на рік. У середньому їх кількість дорівнює 500, а 95%-довірчий інтервал – (350, 900). Це означає, що, швидше за все (з ймовірністю 95%), протягом року в клініку звернуться щонайменше 350 і більше 900 людина.

Позначення. Найчастіше використовуються скорочення: ДІ 95% (CI 95%) – це довірчий інтервал із рівнем довіри 95%.

Достовірність, статистична значимість (P – рівень)

Визначення.Статистична значимість результату - це міра впевненості у його "істинності".

Будь-яке дослідження проходить з урахуванням лише частини об'єктів. Дослідження ефективності лікарського препарату проводиться на основі не взагалі всіх хворих на планеті, а лише певної групи пацієнтів (провести аналіз на основі всіх хворих просто неможливо).

Припустимо, що в результаті аналізу було зроблено деякий висновок (наприклад, використання як адекватну терапію препарату Арімідекс в 2 рази ефективніше, ніж препарат Тамоксифен).

Питання, яке необхідно при цьому ставити: "Наскільки можна довіряти цьому результату?"

Уявіть, що ми проводили дослідження на основі двох пацієнтів. Звичайно ж, у цьому випадку до результатів потрібно ставитись з побоюванням. Якщо ж було обстежено велику кількість хворих (чисельне значення «великої кількості» залежить від ситуації), то зробленим висновкам можна довіряти.

Так ось, ступінь довіри визначається значенням p-рівня (p-value).

p align="justify"> Більш високий p-рівень відповідає більш низькому рівню довіри до результатів, отриманих при аналізі вибірки. Наприклад, p-рівень, що дорівнює 0.05 (5%) показує, що зроблений при аналізі деякої групи висновок є лише випадковою особливістю цих об'єктів з ймовірністю лише 5%.

Інакше кажучи, дуже ймовірно (95%) висновок можна поширити попри всі об'єкти.

У багатьох дослідженнях 5% сприймається як прийнятне значення p-уровня. Це означає, що й, наприклад, p= 0.01, то результатам довіряти можна, і якщо p=0.06, то нельзя.

Дослідження

Проспективне дослідження- це дослідження, у якому вибірки виділяються з урахуванням вихідного чинника, а вибірках аналізується деякий результуючий чинник.

Ретроспективне дослідження- це дослідження, у якому вибірки виділяються з урахуванням результуючого чинника, а вибірках аналізується деякий вихідний чинник.

приклад. Вихідний фактор - вагітна жінка молодша/старша 20 років. Результуючий фактор - дитина легша/важча 2,5 кг. Аналізуємо, чи залежить вага дитини від віку матері.

Якщо ми набираємо 2 вибірки, в одній - матері віком до 20 років, в іншій - старше, а потім аналізуємо масу дітей у кожній групі, то це проспективне дослідження.

Якщо ми набираємо 2 вибірки, в одній – матері, що народили дітей легше 2,5 кг, в іншій – важче, а потім аналізуємо вік матерів у кожній групі, то це ретроспективне дослідження (природно, таке дослідження можна провести, тільки коли досвід закінчено, тобто всі діти народилися).

Вихід

Визначення.Клінічно значуще явище, лабораторний показник чи ознака, що є об'єктом інтересу дослідника. При проведенні клінічних випробувань результати є критеріями оцінки ефективності лікувального або профілактичного впливу.

Клінічна епідеміологія

Визначення.Наука, що дозволяє здійснювати прогнозування того чи іншого результату для кожного конкретного хворого на підставі вивчення клінічного перебігу хвороби в аналогічних випадках з використанням суворих методів вивчення хворих для забезпечення точності прогнозів.

Когорта

Визначення.Група учасників дослідження, об'єднаних якоюсь загальною ознакою в момент її формування та досліджуваних протягом тривалого часу.

Контроль

Контроль історичний

Визначення.Контрольна група, сформована та обстежена в період, що передує дослідженню.

Контроль паралельний

Визначення.Контрольна група, що формується одночасно з формуванням основної групи.

Кореляція

Визначення.Статистичний зв'язок двох ознак (кількісних або порядкових), що показує, що більшому значенню однієї ознаки у певній частині випадків відповідає більше – у разі позитивної (прямої) кореляції – значення іншої ознаки або менше значення – у разі негативної (зворотної) кореляції.

приклад. Між рівнем тромбоцитів та лейкоцитів у крові пацієнта виявлено значну кореляцію. Коефіцієнт кореляції дорівнює 0,76.

Коефіцієнт ризику (КР)

Визначення. p align="justify"> Коефіцієнт ризику (hazard ratio) - це відношення ймовірності настання деякої («нехорошої») події для першої групи об'єктів до ймовірності настання цієї ж події для другої групи об'єктів.

приклад. Якщо ймовірність появи раку легень у некурців дорівнює 20%, а у курців - 100%, то КР дорівнюватиме одній п'ятій. У цьому прикладі першою групою об'єктів є люди, що не палять, другою групою - курці, а в якості «нехорошої» події розглядається виникнення раку легенів.

Очевидно, що:

1) якщо КР=1, то ймовірність настання події у групах однакова

2) якщо КР>1, то подія частіше відбувається з об'єктами з першої групи, ніж із другої

3) якщо КР<1, то событие чаще происходит с объектами из второй группы, чем из первой

Мета-аналіз

Визначення. Зтатистичний аналіз, що узагальнює результати кількох досліджень, що досліджують одну й ту саму проблему (зазвичай ефективність методів лікування, профілактики, діагностики). Об'єднання досліджень забезпечує велику вибірку для аналізу та більшу статистичну потужність об'єднаних досліджень. Використовується підвищення доказовості чи впевненості у висновку про ефективність досліджуваного методу.

Метод Каплана - Мейєра (Множинні оцінки Каплана - Мейєра)

Цей метод придумали статистиками Е.Л.Капланом і Полем Мейером.

Метод використовується для обчислення різних величин, пов'язаних із часом спостереження за пацієнтом. Приклади таких величин:

ймовірність одужання протягом одного року при застосуванні лікарського препарату

шанс виникнення рецидиву після операції на протязі трьох років після операції

кумулятивна ймовірність виживання протягом п'яти років серед пацієнтів із раком простати при ампутації органу

Пояснимо переваги використання методу Каплана – Мейєра.

Значення величин при «звичайному» аналізі (що не використовує метод Каплана-Мейєра) розраховуються на основі розбиття тимчасового інтервалу, що розглядається, на проміжки.

Наприклад, якщо ми досліджуємо ймовірність смерті пацієнта протягом 5 років, то часовий інтервал може бути поділений як на 5 частин (менше 1 року, 1-2 роки, 2-3 роки, 3-4 роки, 4-5 років), так та на 10 (по півроку кожен), або на іншу кількість інтервалів. Результати ж за різних розбиття вийдуть різні.

Вибір найбільш відповідного розбиття - складне завдання.

Оцінки значень величин, отриманих методом Каплана- Мейера не залежить від розбиття часу спостереження на інтервали, а залежить тільки від часу життя кожного окремого пацієнта.

Тому досліднику простіше проводити аналіз, та й результати нерідко виявляються якіснішими за результати «звичайного» аналізу.

Крива Каплана-Мейєра (Kaplan - Meier curve)-це графік кривої виживання, отриманої за методом Каплана-Мейєра.

Модель Коксу

Ця модель була придумана сером Девідом Роксбі Коксом (р.1924), відомим англійським статистиком, автором понад 300 статей та книг.

Модель Кокса використовується у ситуаціях, коли досліджувані під час аналізу виживання величини залежить від функцій часу. Наприклад, ймовірність виникнення рецидиву через t років (t=1,2,…) може залежати від логарифму часу log(t).

Важливою перевагою методу, запропонованого Коксом, є застосування цього методу у великій кількості ситуацій (модель не накладає жорстких обмежень на природу або форму розподілу ймовірностей).

На основі моделі Коксу можна проводити аналіз (званий аналізом Коксу (Cox analysis)), результатом проведення якого є значення коефіцієнта ризику та довірчого інтервалу для коефіцієнта ризику.

Непараметричні методи статистики

Визначення.Клас статистичних методів, що використовуються головним чином для аналізу кількісних даних, що не утворюють нормальний розподіл, а також для аналізу якісних даних.

приклад. Для виявлення значущості відмінностей тиску систоли пацієнтів залежно від типу лікування скористаємося непараметричним критерієм Манна-Уітні.

Ознака (змінна)

Визначення. Характеристика об'єкта дослідження (спостереження) Розрізняють якісні та кількісні ознаки.

Рандомізація

Визначення.Спосіб випадкового розподілу об'єктів дослідження в основну та контрольну групи з використанням спеціальних засобів (таблиць або лічильника випадкових чисел, підкидання монети та інших способів випадкового призначення номера групи, що включається спостереженню). За допомогою рандомізації зводяться до мінімуму відмінності між групами за відомими і невідомими ознаками, що потенційно впливають на результат, що вивчається.

Ризик

Атрибутивний- додатковий ризик виникнення несприятливого результату (наприклад, захворювання) у зв'язку з наявністю певної характеристики (фактору ризику) об'єкта дослідження. Це частина ризику розвитку хвороби, яка пов'язана з цим фактором ризику, пояснюється ним і може бути усунена, якщо цей фактор ризику усунути.

Відносний ризик- Відношення ризику виникнення несприятливого стану в одній групі до ризику цього стану в іншій групі. Використовується у проспективних та спостережних дослідженнях, коли групи формуються заздалегідь, а виникнення досліджуваного стану ще не відбулося.

Ковзаючий іспит

Визначення.Метод перевірки стійкості, надійності, працездатності (валідності) статистичної моделі шляхом почергового видалення спостережень та перерахунку моделі. Чим подібніші отримані моделі, тим стійкіша, надійніша модель.

Подія

Визначення.Клінічний результат, що спостерігається у дослідженні, наприклад виникнення ускладнення, рецидиву, настання одужання, смерті.

Стратифікація

Визначення. Метод формування вибірки, у якому сукупність всіх учасників, відповідних критеріям включення до дослідження, спочатку поділяється на групи (страти) з урахуванням однієї чи кількох характеристик (зазвичай статі, віку), потенційно які впливають досліджуваний результат, та був із кожної із цих груп ( страт) незалежно проводиться набір учасників до експериментальної та контрольної групи. Це дозволяє досліднику дотримуватися балансу важливих характеристик між експериментальною та контрольною групами.

Таблиця сполученості

Визначення.Таблиця абсолютних частот (кількості) спостережень, стовпці якої відповідають значенням однієї ознаки, а рядки - значенням іншої ознаки (у разі двовимірної таблиці сполученості). Значення абсолютних частот розташовуються у клітинах на перетині рядів та колонок.

Наведемо приклад таблиці спряженості. Операцію на аневризмі було зроблено 194 пацієнтам. Відомий показник виразності набряку у пацієнтів перед операцією.

Набряк\ Вихід
немає набряку	20	6	26
помірний набряк	27	15	42
виражений набряк	8	21	29
m j	55	42	194

Таким чином, із 26 пацієнтів, які не мають набряку, після операції вижило 20 пацієнтів, померло – 6 пацієнтів. З 42 пацієнтів, які мають помірний набряк, вижило 27 пацієнтів, померло - 15 і т.д.

Критерій хі-квадрат для таблиць сполученості

Для визначення значущості (достовірності) відмінностей однієї ознаки в залежності від іншої (наприклад, результату операції в залежності від вираженості набряку) застосовується критерій хі-квадрат для таблиць сполученості:

Шанс

Нехай ймовірність деякої події дорівнює p. Тоді ймовірність того, що подія не відбудеться, дорівнює 1-p.

Наприклад, якщо ймовірність того, що хворий залишиться живим через п'ять років дорівнює 0.8 (80%), то ймовірність того, що він за цей часовий проміжок помре дорівнює 0.2 (20%).

Визначення.Шанс – це відношення ймовірності того, що події відбудеться до ймовірності того, що подія не станеться.

приклад. У прикладі (про хворого) шанс дорівнює 4, оскільки 0.8/0.2=4

Таким чином, ймовірність одужання в 4 рази більша за ймовірність смерті.

Інтерпретація значення величини.

1) Якщо Шанс = 1, то ймовірність настання події дорівнює ймовірності того, що подія не відбудеться;

2) якщо Шанс >1, то ймовірність настання події більша за ймовірність того, що подія не відбудеться;

3) якщо Шанс<1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.

Відношення шансів

Визначення.Відношення шансів (odds ratio) - це відношення шансів першої групи об'єктів до відношення шансів другої групи об'єктів.

приклад. Допустимо, що деяке лікування проходять і чоловіки, і жінки.

Імовірність того, що хворий чоловічої статі залишиться живим через п'ять років дорівнює 0.6 (60%); ймовірність того, що він за цей часовий проміжок помре дорівнює 0.4 (40%).

Аналогічні ймовірності для жінок дорівнюють 0.8 та 0.2.

Відношення шансів у цьому прикладі рівне

Інтерпретація значення величини.

1) Якщо відношення шансів = 1, то шанс для першої групи дорівнює шансу для другої групи

2) Якщо відношення шансів >1, то шанс для першої групи більший за шанс для другої групи

3) Якщо ставлення шансів<1, то шанс для первой группы меньше шанса для второй группы

Статистична значимість результату (p-значення) є оціненою мірою впевненості у його «істинності» (у сенсі «репрезентативності вибірки»). Висловлюючись технічніше, p-значення - це показник, що знаходиться в спадній залежності від надійності результату. p align="justify"> Більш високе p-значення відповідає більш низькому рівню довіри до знайденої у вибірці залежності між змінними. Саме p-значення є ймовірністю помилки, пов'язаної з поширенням спостережуваного результату на всю популяцію. Наприклад, p-значення = 0.05 (тобто 1/20) показує, що є 5% ймовірність, що знайдена у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. Іншими словами, якщо ця залежність у популяції відсутня, а ви багато разів проводили б подібні експерименти, то приблизно в одному з двадцяти повторень експерименту можна було б очікувати такої ж чи сильнішої залежності між змінними.

Багато дослідженнях p-значение=0.05 сприймається як «прийнятна межа» рівня помилки.

Не існує ніякого способу уникнути свавілля при ухваленні рішення про те, який рівень значущості слід вважати «значним». Вибір певного рівня значимості, вище якого результати відкидаються як хибні, досить довільним. Насправді остаточне рішення зазвичай залежить від цього, був результат передбачений апріорі (тобто. до проведення досвіду) чи виявлено апостеріорно внаслідок багатьох аналізів і порівнянь, виконаних з безліччю даних, і навіть на традиції, що у цій галузі досліджень. Зазвичай у багатьох областях результат p 0.05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає ймовірність помилки (5%). Результати, значущі рівні p 0.01 зазвичай розглядаються як статистично значущі, а результати з рівнем p 0.005 чи p 0.001 як високо значущі. Однак слід розуміти, що дана класифікація рівнів значущості досить довільна і є лише неформальною угодою, прийнятою на основі практичного досвіду в тій чи іншій галузі дослідження.

Як було вже сказано, величина залежності та надійність становлять дві різні характеристики залежностей між змінними. Проте не можна сказати, що вони абсолютно незалежні. Говорячи загальною мовою, що більше величина залежності (зв'язку) між змінними у вибірці звичайного обсягу, то більше вона надійна.

Якщо припускати відсутність залежності між відповідними змінними в популяції, то найбільш ймовірно очікувати, що в досліджуваній вибірці зв'язок між цими змінними також не буде. Таким чином, чим сильніша залежність виявлена у вибірці, тим менш ймовірно, що цієї залежності немає в популяції, з якої вона вилучена.

Обсяг вибірки впливає значення залежності. Якщо спостережень мало, то є мало можливих комбінацій значень цих змінних і таким чином, ймовірність випадкового виявлення комбінації значень, що показують сильну залежність, відносно велика.

Як обчислюється рівень статистичної значимості. Припустимо, ви вже вирахували міру залежності між двома змінними (як пояснювалося вище). Наступне питання, яке стоїть перед вами: «наскільки важлива ця залежність?» Наприклад, чи є 40% поясненою дисперсією між двома змінними достатнім, щоб вважати залежність значущою? Відповідь: "залежно від обставин". Саме значимість залежить в основному від обсягу вибірки. Як уже пояснювалося, у дуже великих вибірках навіть дуже слабкі залежності між змінними будуть значущими, тоді як у малих вибірках навіть дуже сильні залежності не є надійними. Таким чином, щоб визначити рівень статистичної значущості, вам потрібна функція, яка представляла б залежність між «величиною» і «значимістю» залежності між змінними для кожного обсягу вибірки. Ця функція вказала б вам точно «наскільки можливо отримати залежність цієї величини (чи більше) у вибірці цього обсягу, у припущенні, що у популяції такої залежності немає». Іншими словами, ця функція давала б рівень значущості (p-значення), і, отже, можливість помилково відхилити припущення про відсутність цієї залежності у популяції. Ця «альтернативна» гіпотеза (що полягає в тому, що немає залежності в популяції) зазвичай називається нульовою гіпотезою. Було б ідеально, якби функція, яка обчислює ймовірність помилки, була лінійною і мала лише різні нахили для різних обсягів вибірки. На жаль, ця функція значно складніша і не завжди точно одна і та ж. Проте, здебільшого її форма відома, і її можна використовувати визначення рівнів значимості щодо вибірок заданого розміру. Більшість цих функцій пов'язані з дуже важливим класом розподілів, званим нормальним.

ПЛАТНА ФУНКЦІЯ.Функція статистичної значимості доступна лише деяких тарифних планах. Перевірте, чи є вона в .

Можна дізнатися, чи є статистично значущі відмінності у відповідях, отриманих від різних груп респондентів на запитання в опитуванні. Для роботи з функцією статистичної значущості в SurveyMonkey необхідно:

Включити функцію статистичної значущості під час додавання правила порівняння до питання у Вашому опитуванні. Вибрати групи респондентів для порівняння, щоб відсортувати результати опитування груп для наочного порівняння.
Вивчити таблиці з даними з питань Вашого опитування, щоб виявити наявність статистично значимих відмінностей у відповідях, отриманих різних груп респондентів.

Перегляд статистичної значущості

Виконавши наведені нижче дії, Ви зможете створити опитування, що відображатиме статистичну значимість.

1. Додайте запитання закритого типу

Щоб відобразити статистичну значущість під час аналізу результатів, Вам знадобиться застосувати правило порівняння до будь-якого питання з Вашого опитування.

Застосувати правило порівняння та обчислити статистичну значимість у відповідях можна у тому випадку, якщо у схемі опитування Ви використовуєте один із таких типів питань:

Необхідно переконатися, що запропоновані варіанти відповіді можна розділити на повноцінні групи. Варіанти відповіді, які Ви обираємо для порівняння при створенні правила порівняння, будуть використані для організації даних у перехресні таблиці в рамках всього опитування.

2. Зберіть відповіді

Після завершення складання опитування створіть колектор для розсилки. Існує кілька способів.

Вам необхідно отримати щонайменше 30 відповідей за кожним варіантом відповіді, який Ви плануєте використовувати у своєму правилі порівняння, щоб активувати та переглянути статистичну значущість.

Приклад опитування

Ви хочете дізнатися, чи задоволені чоловіки Вашою продукцією значно більше ніж жінки.

Додайте до опитування два питання з множинними варіантами відповіді:
Яка Ваша підлога? (Чоловіча Жіноча)
Чи задоволені Ви чи незадоволені нашим продуктом? (задоволений (-льону), незадоволений (-льону))
Переконайтеся, що не менше 30 респондентів вибрали варіант відповіді «чоловічий» на питання про поле, А ТАКОЖ не менше 30 респондентів як свою стать вибрали варіант «жіночий».
Додайте правило порівняння до питання "Яка Ваша підлога?" та виберіть обидва варіанти відповіді як Ваші групи.
Використовуйте таблицю даних нижче діаграми питання "Чи задоволені Ви чи незадоволені нашим продуктом?" , щоб дізнатися, чи показують якісь варіанти відповіді статистично значущу відмінність

Що таке статистично значуща відмінність?

Статистично значуща відмінність означає, що за допомогою статистичного аналізу встановлено наявність суттєвих відмінностей між відповідями однієї групи респондентів та відповідями іншої групи. Статистична значимість означає, що одержані цифри достовірно відрізняються. Такі знання значно допоможуть Вам при аналізі даних. Проте важливість одержаних результатів визначаєте Ви. Саме Ви вирішуєте, як тлумачити результати опитувань та які заходи слід вжити на їх основі.

Наприклад, ви отримуєте більше претензій від покупців жіночої статі, ніж від покупців-чоловіків. Як визначити, чи є така відмінність реальною і чи потрібно у зв'язку з цим вжити заходів? Одним із відмінних способів перевірити Ваші спостереження є проведення опитування, яке покаже Вам, чи справді Вашим товаром значно більшою мірою задоволені покупці-чоловіки. За допомогою статистичної формули запропонована нами функція статистичної значущості надасть Вам можливість визначити, чи Ваш товар набагато більше подобається чоловікам, ніж жінкам. Це дозволить Вам вжити заходів, ґрунтуючись на фактах, а не на припущеннях.

Статистично значуща відмінність

Якщо отримані результати виділені в таблиці даних, це означає, що дві групи респондентів значно відрізняються один від одного. Термін «значно» означає, що отримані цифри мають якусь особливу важливість чи значення, лише те, що з-поміж них є статистична різниця.

Відсутність статистично значущої відмінності

Якщо отримані результати не виділені у відповідній таблиці даних, це означає, що, незважаючи на можливу різницю в двох порівнюваних цифрах, між ними немає статистичної різниці.

Відповіді без статистично значимих відмінностей демонструють, що між двома порівнюваними елементами немає значної різниці при об'ємі вибірки, що використовується Вами, проте це не обов'язково означає, що вони не мають значення. Можливо, збільшивши обсяг вибірки, Ви зможете виявити статистично значущу відмінність.

Обсяг вибірки

Якщо у Вас дуже малий обсяг вибірки, значними будуть лише великі відмінності між двома групами. Якщо у вас дуже великий обсяг вибірки, як невеликі, так і великі відмінності будуть враховані як значні.

Проте, якщо дві цифри є статистично різними, це не означає, що різниця між результатами має для Вас якесь практичне значення. Вам доведеться самим вирішити, які саме відмінності є важливими для Вашого опитування.

Обчислення статистичної значущості

Ми обчислюємо статистичну значущість, використовуючи стандартний рівень довіри 95%. Якщо варіант відповіді відображається як статистично значущий, це означає, що тільки завдяки випадковості або через помилку вибірки різниця між двома групами має місце з ймовірністю менше 5% (часто відображається у вигляді: p<0,05).

Для обчислення статистично значимих відмінностей між групами ми використовуємо такі формулы:

Параметр	Опис
a1	Частка учасників із першої групи, які відповіли на питання певним чином, помножена на обсяг вибірки цієї групи.
b1	Частка учасників із другої групи, які відповіли на питання певним чином, помножена на обсяг вибірки цієї групи.
Частка об'єднаної вибірки (p)	Сукупність двох часток з обох груп.
Стандартна помилка (SE)	Показник того, наскільки ваша частка відрізняється від дійсної частки. Найменше значення означає, що частка близька до дійсної частки, більше значення означає, що частка суттєво відрізняється від дійсної частки.
Тестовий статистичний показник (t)	Тестовий статистичний показник. Кількість значень стандартного відхилення, яке дане значення відрізняється від середнього значення.
Статистична значимість	Якщо абсолютна величина тестового статистичного показника перевищує 1,96 стандартних відхилень від середнього значення, це вважається статистично значущою відмінністю.

*1,96 є значенням, що застосовується для рівня довіри 95%, оскільки 95% діапазону, що обробляється функцією t-розподілу Стьюдента, лежить в межах 1,96 стандартного відхилення від середнього значення.

Приклад обчислень

Продовжуючи приклад, що використовується вище, давайте з'ясуємо, чи дійсно відсоток чоловіків, які заявляють про те, що вони задоволені Вашим товаром, значно вищий від відсотка жінок.

Допустимо, у Вашому опитуванні взяло участь 1000 чоловіків та 1000 жінок, і в результаті опитування виявилося, що 70% чоловіків та 65% жінок стверджують, що вони задоволені Вашим товаром. Чи є показник на рівні 70 % значно вищим за показник на рівні 65 %?

Підставте такі дані з опитування в запропоновані формули:

p1 (% чоловіків, задоволених продуктом) = 0,7
p2 (% жінок, задоволених продуктом) = 0,65
n1 (кількість опитаних чоловіків) = 1000
n2 (кількість опитаних жінок) = 1000

Оскільки абсолютна величина тестового статистичного показника більша ніж 1,96, це означає, що різниця між чоловіками та жінками є значною. У порівнянні з жінками чоловіки з більшою ймовірністю будуть задоволені Вашим продуктом.

Приховування статистичної значущості

Як приховати статистичну значущість для всіх питань

Натисніть стрілку вниз праворуч від правила порівняння на лівій бічній панелі.
Виберіть пункт Редагувати правило.
Вимкніть функцію Показати статистичну значимістьза допомогою перемикача.
Натисніть кнопку Застосувати.

Щоб приховати статистичну значимість одного питання, необходимо:

Натисніть кнопку Налаштуватинад діаграмою цього питання.
Відкрийте вкладку Параметри відображення.
Зніміть прапорець навпроти пункту Статистична значимість.
Натисніть кнопку Зберегти.

Параметр відображення автоматично активується, коли відображається статистична значимість. Якщо зняти прапорець цього параметра відображення, відображення статистичної значущості також буде вимкнено.

Увімкніть функцію статистичної значущості, додавши правила порівняння до питання у Вашому опитуванні. Вивчіть таблиці з даними щодо Вашого опитування, щоб виявити наявність статистично значимих відмінностей у відповідях, отриманих від різних груп респондентів.

Як ви вважаєте, що робить вашу «другу половинку» особливою, значущою? Це пов'язано з її (його) особистістю або вашими почуттями, які ви відчуваєте до цієї людини? А може, з простим фактом, що гіпотеза про випадковість вашої симпатії, як свідчать дослідження, має ймовірність менше 5%? Якщо вважати останнє твердження достовірним, то успішних сайтів знайомств не існувало б у принципі:

Коли ви проводите спліт-тестування або будь-який інший аналіз вашого сайту, неправильне розуміння статистичної значущості може призвести до неправильної інтерпретації результатів і, отже, помилкових дій у процесі оптимізації конверсії. Це справедливо і для тисяч інших статистичних тестів, які щодня проводяться в будь-якій існуючій галузі.

Щоб розібратися, що таке «статистична значимість», необхідно поринути у історію появи цього терміна, пізнати його справжній сенс і зрозуміти, як це «нове» старе розуміння допоможе вам правильно трактувати результати своїх досліджень.

Трохи історії

Хоча людство використовує статистику для вирішення тих чи інших завдань уже багато століть, сучасне розуміння статистичної значущості, перевірки гіпотез, рандомізації і навіть дизайну експериментів (Design of Experiments (DOE) почало формуватися лише на початку 20-го століття і нерозривно пов'язане з ім'ям сера Рональда Фішера (Sir Ronald Fisher, 1890-1962):

Рональд Фішер був еволюційним біологом і статистиком, який мав особливу пристрасть до вивчення еволюції та природного відбору у тваринному та рослинному світі. Протягом своєї уславленої кар'єри він розробив та популяризував безліч корисних статистичних інструментів, якими ми користуємося досі.

Фішер використовував розроблені ним методики, щоб пояснити такі процеси в біології, як домінування, мутації та генетичні відхилення. Ті ж інструменти ми можемо застосувати сьогодні для оптимізації та покращення контенту веб-ресурсів. Той факт, що ці засоби аналізу можуть бути задіяні для роботи з предметами, яких на момент створення навіть не існувало, здається досить дивним. Так само дивно, що раніше найскладніші обчислення люди виконували без калькуляторів чи комп'ютерів.

Для опису результатів статистичного експерименту як високу ймовірність виявитися істиною Фішер використовував слово «значимість» (від англ. significance).

Також однією з найцікавіших розробок Фішера можна назвати гіпотезу «сексуального сина». Згідно з цією теорією, жінки віддають свою перевагу нерозбірливим у статевих зв'язках чоловікам (гуляючим), тому що це дозволить народженим від цих чоловіків синам мати таку ж схильність і зробити більше своїх синів (звертаємо увагу, що це всього лише теорія).

Але ніхто, навіть геніальні вчені, не застраховані від помилок. Огріхи Фішера докучають фахівцям і досі. Але пам'ятаєте слова Альберта Ейнштейна: Хто ніколи не помилявся, той не створював нічого нового.

Перш ніж перейти до наступного пункту, запам'ятайте: статистична значущість — це ситуація, коли різниця в результатах проведення тестування настільки велика, що цю різницю не можна пояснити впливом випадкових факторів.

Яка ваша гіпотеза?

Щоб зрозуміти, що означає «статистична значимість», спочатку треба розібратися з тим, що таке «перевірка гіпотез», оскільки ці два терміни тісно переплітаються.
Гіпотеза — це лише теорія. Як тільки ви розробите якусь теорію, вам буде необхідно встановити порядок збирання достатньої кількості доказів і, власне, зібрати ці докази. Існує два типи гіпотез.

Яблука чи апельсини – що краще?

Нульова гіпотеза

Як правило, саме в цьому місці багато хто відчуває труднощі. Потрібно мати на увазі, що нульова гіпотеза - це не те, що потрібно довести, як, наприклад, ви доводите, що певна зміна на сайті призведе до підвищення конверсії, а навпаки. Нульова гіпотеза - це теорія, яка свідчить, що при внесенні будь-яких змін на сайт нічого не станеться. І мета дослідника спростувати цю теорію, а не довести.

Якщо звернутися до досвіду розкриття злочинів, де слідчі також будують гіпотези щодо того, хто є злочинцем, нульова гіпотеза набуває вигляду так званої презумпції невинності, концепту, згідно з яким обвинувачений вважається невинним доти, доки його вина не буде доведена в суді.

Якщо нульова гіпотеза полягає в тому, що два об'єкти рівні у своїх властивостях, а ви намагаєтеся довести, що один з них все ж таки краще (наприклад, A краще B), вам потрібно відмовитися від нульової гіпотези на користь альтернативної. Наприклад, ви порівнюєте між собою той чи інший інструмент оптимізації конверсії. У нульовій гіпотезі вони обидва надають на об'єкт впливу однаковий ефект (або ніякого ефекту). В альтернативній ефект від одного з них кращий.

Ваша альтернативна гіпотеза може містити числове значення, наприклад B - A > 20%. У такому разі нульова гіпотеза та альтернативна можуть набути наступного вигляду:

Інша назва альтернативної гіпотези — це дослідна гіпотеза, оскільки дослідник завжди зацікавлений у доказі саме цієї гіпотези.

Статистична значимість та значення «p»

Знову повернемося до Рональда Фішера та його поняття про статистичну значущість.

Тепер, коли у вас є нульова гіпотеза та альтернативна, як ви можете довести одне та спростувати інше?

Оскільки статистичні дані за своєю природою передбачають вивчення певної сукупності (вибірки), ви ніколи не можете бути на 100% впевнені в отриманих результатах. Наочний приклад: найчастіше результати виборів розходяться з результатами попередніх опитувань та навіть ексіт-пулів.

Доктор Фішер хотів створити визначник (dividing line), який дозволяв би зрозуміти, чи вдався ваш експеримент чи ні. Так і з'явився індекс достовірності. Достовірність – це той рівень, який ми приймаємо для того, щоб сказати, що ми вважаємо «значним», а що ні. Якщо «p», індекс достовірності дорівнює 0,05 або менше, то результати достовірні.

Не турбуйтеся, насправді все не так заплутано, як здається.

Розподіл ймовірностей Гауса. По краях — менш ймовірні значення змінної, у центрі — найімовірніші. P-показник (зафарбована зеленим область) - це ймовірність результату, що спостерігається, що виникає випадково.

Нормальний розподіл ймовірностей (розподіл Гаусса) — це уявлення всіх можливих значень певної змінної графіку (на малюнку вище) та його частот. Якщо ви проведете своє дослідження правильно, а потім розташуєте всі отримані відповіді на графіку, ви отримаєте саме такий розподіл. Відповідно до нормального розподілу, ви отримаєте великий відсоток схожих відповідей, а варіанти, що залишилися, розмістяться по краях графіка (так звані «хвости»). Такий розподіл величин часто зустрічається в природі, тому він і зветься «нормальним».

Використовуючи рівняння на основі вашої вибірки та результатів тесту, ви можете обчислити те, що називається тестовою статистикою, яка вкаже, наскільки відхилилися отримані результати. Вона також підкаже, наскільки близька ви до того, щоб нульова гіпотеза виявилася вірною.

Щоб не забивати голову, використовуйте онлайн-калькулятори для обчислення статистичної значущості:

Один із прикладів таких калькуляторів

Літера «p» означає ймовірність того, що нульова гіпотеза вірна. Якщо число буде невеликим, це вкаже на різницю між тестовими групами, тоді як нульова гіпотеза полягатиме в тому, що вони однакові. Графічно це буде виглядати так, що ваша тестова статистика виявиться ближче до одного з хвостів вашого дзвонового розподілу.

Лікар Фішер вирішив встановити поріг достовірності результатів на рівні p ≤ 0,05. Однак і це твердження спірне, оскільки призводить до двох труднощів:

1. По-перше, той факт, що ви довели неспроможність нульової гіпотези, не означає, що ви довели альтернативну гіпотезу. Вся ця значимість лише означає, що ви не можете довести ні A, ні B.

2. По-друге, якщо p-показник дорівнюватиме 0,049, це означатиме, що ймовірність нульової гіпотези складе 4,9%. Це може означати, що в той самий час результати ваших тестів можуть бути одночасно і достовірними, і помилковими.

Ви можете використовувати p-показник, а можете відмовитися від нього, але тоді вам буде необхідно в кожному окремому випадку вираховувати ймовірність здійснення нульової гіпотези і вирішувати, чи вона досить велика, щоб не вносити тих змін, які ви планували і тестували.

Найбільш поширений сценарій проведення статистичного тесту сьогодні – це встановлення порога значущості p ≤ 0,05 до запуску тесту. Тільки не забудьте уважно вивчити p-значення під час перевірки результатів.

Помилки 1 та 2

Пройшло так багато часу, що помилки, які можуть виникнути під час використання показника статистичної значущості, навіть отримали власні імена.

Помилка 1 (Type 1 Errors)

Як було згадано вище, p-значення, що дорівнює 0,05, означає: ймовірність того, що нульова гіпотеза виявиться вірною, дорівнює 5%. Якщо ви відмовитеся від неї, ви зробите помилку під номером 1. Результати говорять, що ваш новий веб-сайт підвищив показники конверсії, але існує 5% ймовірність, що це не так.

Помилка 2 (Type 2 Errors)

Ця помилка є протилежною до помилки 1: ви приймаєте нульову гіпотезу, в той час як вона є помилковою. Наприклад, результати тестів кажуть вам, що внесені зміни до сайту не принесли жодних покращень, тоді як зміни були. Як підсумок: ви втрачаєте можливість підвищити свої показники.

Така помилка поширена в тестах з недостатнім розміром вибірки, тому пам'ятайте: що більше вибірка, то вірогідніший результат.

Висновок

Мабуть, жоден термін серед дослідників не має такої популярності, як статистична значимість. Коли результати тестів не визнаються статистично значущими, наслідки бувають різні: від зростання показника конверсії до краху компанії.

І якщо маркетологи використовують цей термін при оптимізації своїх ресурсів, потрібно знати, що ж він означає насправді. Умови проведення тестів можуть змінюватися, але розмір вибірки та критерій успіху важливий завжди. Пам'ятайте про це.