Визначення статистичної значимості. Приховування статистичної значущості

Основні риси будь-якої залежності між змінними.

Можна відзначити дві найпростіші властивості залежності між змінними: (a) величина залежності та (b) надійність залежності.

- Величина . Величину залежності легше зрозуміти та виміряти, ніж надійність. Наприклад, якщо будь-який чоловік у вибірці мав значення числа лейкоцитів (WCC) вище ніж будь-яка жінка, ви можете сказати, що залежність між двома змінними (Пол і WCC) дуже висока. Іншими словами, ви могли б передбачити значення однієї змінної за значеннями іншої.

- Надійність ("Істинність"). Надійність взаємозалежності – менш наочне поняття, ніж величина залежності, проте надзвичайно важливе. Надійність залежності безпосередньо пов'язана із репрезентативністю певної вибірки, на основі якої будуються висновки. Іншими словами, надійність говорить про те, наскільки ймовірно, що залежність буде знову виявлена ​​(іншими словами, підтвердиться) на даних іншої вибірки, витягнутої з тієї самої популяції.

Слід пам'ятати, що кінцевою метою майже ніколи не є вивчення цієї конкретної вибірки значень; вибірка цікавить лише остільки, оскільки вона дає інформацію про всій популяції. Якщо дослідження задовольняє деяким спеціальним критеріям, то надійність знайдених залежностей між змінними вибірками можна кількісно оцінити та подати за допомогою стандартного статистичного заходу.

Величина залежності та надійність становлять дві різні характеристики залежностей між змінними. Проте не можна сказати, що вони абсолютно незалежні. Чим більша величина залежності (зв'язку) між змінними у вибірці звичайного обсягу, тим більше вона надійна (див. наступний розділ).

Статистична значимість результату (p-рівень) є оціненою мірою впевненості у його " істинності " (у сенсі " репрезентативності вибірки " ). p align="justify"> Висловлюючись більш технічно, p-рівень - це показник, що знаходиться в спадній залежності від надійності результату. Вищий p-рівень відповідає нижчому рівню довіри до знайденої у вибірці залежності між змінними. Саме p-рівень є ймовірністю помилки, пов'язаної з поширенням спостережуваного результату на всю популяцію.

Наприклад, p-рівень = 0.05(Тобто 1/20) показує, що є 5% ймовірність, що знайдена у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. У багатьох дослідженнях p-рівень 0.05 сприймається як " прийнятна межа " рівня помилки.

Не існує ніякого способу уникнути свавілля після ухвалення рішення про те, який рівень значущості слід дійсно вважати "значущим". Вибір певного рівня значимості, вище якого результати відкидаються як хибні, досить довільним.



Насправді остаточне рішення зазвичай залежить від цього, був результат передбачений апріорі (тобто. до проведення досвіду) чи виявлено апостеріорно внаслідок багатьох аналізів і порівнянь, виконаних з безліччю даних, і навіть на традиції, що у цій галузі досліджень.

Зазвичай у багатьох областях результат p .05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає ймовірність помилки (5%).

Результати, значущі лише на рівні p .01 зазвичай розглядаються як статистично значущі, а результати з рівнем p .005 чи p . 001 як значні. Однак слід розуміти, що дана класифікація рівнів значущості досить довільна і є лише неформальною угодою, прийнятою на основі практичного досвіду. у тій чи іншій галузі дослідження.

Зрозуміло, що чим більше аналізів буде проведено із сукупністю зібраних даних, тим більше значущих (на обраному рівні) результатів буде виявлено суто випадково.

Деякі статистичні методи, що включають багато порівнянь, і, таким чином, мають значний шанс повторити такі помилки, роблять спеціальне коригування або поправку на загальну кількість порівнянь. Тим не менш, багато статистичних методів (особливо прості методи розвідувального аналізу даних) не пропонують будь-якого способу вирішення даної проблеми.

Якщо зв'язок між змінними "об'єктивно" слабка, то немає іншого способу перевірити таку залежність, крім дослідити вибірку великого обсягу. Навіть якщо вибірка є абсолютно репрезентативною, ефект не буде статистично значущим, якщо вибірка мала. Аналогічно, якщо залежність "об'єктивно" дуже сильна, тоді вона може бути знайдена з високим ступенем значущості навіть на дуже маленькій вибірці.

Чим слабкіша залежність між змінними, тим більшого обсягу потрібна вибірка, щоб значуще її виявити.

Розроблено багато різних заходів взаємозв'язку між змінними. Вибір певної міри у конкретному дослідженні залежить від кількості змінних, використовуваних шкал виміру, природи залежностей тощо.

Більшість цих заходів, тим не менш, підпорядковуються загальному принципу: вони намагаються оцінити залежність, що спостерігається, порівнюючи її з "максимальною мислимою залежністю" між аналізованими змінними. Технічно кажучи, звичайний спосіб виконати такі оцінки полягає в тому, щоб подивитися, як варіюються значення змінних і потім підрахувати, яку частину всієї наявної варіації можна пояснити наявністю "загальної" ("спільної") варіації двох (або більше) змінних.

Значимість залежить переважно від обсягу вибірки. Як уже пояснювалося, у дуже великих вибірках навіть дуже слабкі залежності між змінними будуть значущими, тоді як у малих вибірках навіть дуже сильні залежності не є надійними.

Таким чином, щоб визначити рівень статистичної значущості, потрібна функція, яка представляла б залежність між "величиною" і "значимістю" залежності між змінними для кожного обсягу вибірки.

Така функція вказала б точно "наскільки можливо отримати залежність даної величини (або більше) у вибірці даного обсягу, припущення, що в популяції такої залежності немає". Іншими словами, ця функція давала б рівень значущості
(p -рівень), і, отже, можливість помилково відхилити припущення про відсутність цієї залежності у популяції.

Ця "альтернативна" гіпотеза (що полягає в тому, що немає залежності у популяції) зазвичай називається нульовою гіпотезою.

Було б ідеально, якби функція, яка обчислює ймовірність помилки, була лінійною і мала лише різні нахили для різних обсягів вибірки. На жаль, ця функція значно складніша і не завжди точно одна і та ж. Проте, здебільшого її форма відома, і її можна використовувати визначення рівнів значимості щодо вибірок заданого розміру. Більшість цих функцій пов'язані з класом розподілів, що називаються нормальним .

При обґрунтуванні статистичного висновку слід вирішити питання, де проходить лінія між прийняттям і запереченням нульової гіпотези? У силу наявності в експерименті випадкових впливів цей кордон не може бути проведений абсолютно точно. Вона базується на понятті рівня значимості. рівнем значимості називається ймовірність помилкового відхилення нульової гіпотези. Або, іншими словами, рівень значущості - це ймовірність помилки першого роду після ухвалення рішення. Для позначення цієї ймовірності, як правило, вживають або грецьку букву α, або латинську букву нар.Надалі ми вживатимемо літеру нар.

Історично склалося так, що у прикладних науках, що використовують статистику, і зокрема у психології, вважається, що нижчим рівнем статистичної значущості є рівень р = 0,05; достатнім - рівень р= 0,01 та вищим рівень р = 0,001. Тому в статистичних таблицях, які наводяться у додатку до підручників зі статистики, зазвичай даються табличні значення для рівнів р = 0,05, р = 0,01 та р= 0,001. Іноді даються табличні значення для рівнів р - 0,025 та р = 0,005.

Величини 0,05, 0,01 та 0,001 – це так звані стандартні рівні статистичної значущості. При статистичному аналізі експериментальних даних психолог залежно від завдань та гіпотез дослідження має вибрати необхідний рівень значущості. Як бачимо, тут найбільша величина, або нижня межа рівня статистичної значущості, дорівнює 0,05 - це означає, що допускається п'ять помилок у вибірці зі ста елементів (випадків, випробуваних) або одна помилка із двадцяти елементів (випадків, випробуваних). Вважається, що ні шість, ні сім, ні більше разів зі ста ми помилитися не можемо. Ціна таких помилок буде надто великою.

Зауважимо, що у сучасних статистичних пакетах на ЕОМ використовуються не стандартні рівні значимості, а рівні, що підраховуються безпосередньо у процесі роботи з відповідним статистичним методом. Ці рівні, що позначаються буквою р,можуть мати різний числовий вираз в інтервалі від 0 до 1, наприклад, р = 0,7, р= 0,23 або р= 0,012. Зрозуміло, що у перших двох випадках отримані рівні значущості занадто великі і говорити, що результат значимий не можна. У той самий час у разі результати значимі лише на рівні 12 тисячних. Це достовірний рівень.

Правило прийняття статистичного висновку таке: на підставі отриманих експериментальних даних психолог підраховує за вибраним ним статистичним методом так звану емпіричну статистику, або емпіричне значення. Цю величину зручно позначити як Ч емп . Потім емпірична статистика Ч емп порівнюється з двома критичними величинами, які відповідають рівням значимості 5% і 1% для обраного статистичного методу і які позначаються як Ч кр . Величини Ч кр знаходяться для даного статистичного методу за відповідними таблицями, наведеними у додатку до будь-якого підручника зі статистики. Ці величини, як правило, завжди різні і їх надалі для зручності можна назвати як Ч кр1і Ч кр2 . Знайдені за таблицями величини критичних значень Ч кр1і Ч кр2зручно представляти у наступній стандартній формі записи:

Підкреслимо, однак, що ми використовували позначення Ч емп і Ч кр як скорочення слова "число". У всіх статистичних методах прийнято свої символічні позначення всіх цих величин: як підрахованої за відповідним статистичним методом емпіричної величини, так і знайдених за відповідними таблицями критичних величин. Наприклад, при підрахунку рангового коефіцієнта кореляції Спірмена за таблицею критичних значень цього коефіцієнта знайшли наступні величини критичних значень, які цього методу позначаються грецької буквою ρ («ро»). Так для р = 0,05 за таблицею знайдено величину ρ кр 1 = 0,61 і для р = 0,01 величина ρ кр 2 = 0,76.

У прийнятій у подальшому викладі стандартної формі запису це виглядає так:

Тепер нам необхідно порівняти наше емпіричне значення із двома знайденими за таблицями критичними значеннями. Найкраще це зробити, розташувавши всі три числа на так званій осі значущості. «Вісь значущості» являє собою пряму, на лівому кінці якої розташовується 0, хоча він, як правило, не відзначається на цій прямій, і зліва направо йде збільшення числового ряду. По суті, це звична шкільна вісь абсцис ОХдекартової системи координат. Однак особливість цієї осі в тому, що на ній виділено три ділянки, зони. Одна крайня зона називається зоною незначущості, друга крайня зона – зоною значимості, а проміжна – зоною невизначеності. Кордонами всіх трьох зон є Ч кр1для р = 0,05 та Ч кр2 для р = 0,01, як показано малюнку.

Залежно від правила ухвалення рішення (правила висновку), запропонованого в даному статистичному методі, можливо два варіанти.

Перший варіант: альтернативна гіпотеза приймається, якщо Ч емпЧ кр .

Або другий варіант: альтернативна гіпотеза приймається, якщо Ч емпЧ кр .

Підраховане Ч емп за будь-яким статистичним методом має обов'язково потрапити до однієї з трьох зон.

Якщо емпіричне значення потрапляє до зони незначущості, приймається гіпотеза Н 0 про відсутність відмінностей.

Якщо Ч емп потрапило до зони значимості, приймається альтернативна гіпотеза Н 1 о наявності відмінностей, а гіпотеза Н0 відхиляється.

Якщо Ч емп потрапляє у зону невизначеності, перед дослідником стоїть дилема. Так, в залежності від важливості розв'язуваної задачі він може вважати отриману статистичну оцінку достовірною на рівні 5%, і прийняти, тим самим гіпотезу Н1, відхиливши гіпотезу Н0 , або - недостовірною лише на рівні 1%, прийнявши цим, гіпотезу Н 0 . Підкреслимо, однак, що це саме той випадок, коли психолог може припуститися помилок першого чи другого роду. Як уже говорилося вище, за цих обставин найкраще збільшити обсяг вибірки.

Підкреслимо також, що величина Ч емп може точно збігтися або з Ч кр1або Ч кр2 . У першому випадку вважатимуться, що оцінка достовірна точно лише на рівні 5% і прийняти гіпотезу Н 1 , чи, навпаки, прийняти гіпотезу Н 0 . У другий випадок, зазвичай, приймається альтернативна гіпотеза Н 1 про наявність відмінностей, а гіпотеза Н 0 відхиляється.

Завдання 3.П'яти дошкільнятам пред'являють тест. Фіксується час вирішення кожного завдання. Чи знайдено статистично значущі відмінності між часом вирішення перших трьох завдань тесту?

№ випробуваних

Довідковий матеріал

Це завдання засноване на теорії дисперсійного аналізу. У загальному випадку, завданням дисперсійного аналізу є виявлення тих факторів, які істотно впливають на результат експерименту. Дисперсійний аналіз може застосовуватися для порівняння середніх кількох вибірок, якщо число вибірок більше двох. Для цієї мети є однофакторний дисперсійний аналіз.

З метою вирішення поставлених завдань приймається таке. Якщо дисперсії отриманих значень параметра оптимізації у разі впливу факторів відрізняються від дисперсій результатів у разі відсутності впливу факторів, такий фактор визнається значущим.

Як видно з формулювання завдання, тут використовуються методи перевірки статистичних гіпотез, а саме завдання перевірки двох емпіричних дисперсій. Отже, дисперсійний аналіз виходить з перевірки дисперсій за критерієм Фішера. У цьому завданні необхідно перевірити, чи є статистично значущими відмінності між часом вирішення перших трьох завдань тесту кожним із шести дошкільнят.

Нульовий (основний) називають висунуту гіпотезу H о. Сутність е зводиться до припущення, що різниця між порівнюваними параметрами дорівнює нулю (звідси і назва гіпотези - нульова) і що відмінності, що спостерігаються, мають випадковий характер.

Конкуруючою (альтернативною) називають гіпотезу H 1 яка суперечить нульовій.

Рішення:

Методом дисперсійного аналізу при рівні значущості α = 0,05 перевіримо нульову гіпотезу (H про) про існування статистично значущих відмінностей між часом вирішення перших трьох завдань тесту у шести дошкільнят.

Розглянемо таблицю умови завдання, у якій знайдемо середній час вирішення кожного із трьох завдань тесту

№ випробуваних

Рівні фактора

Час вирішення першого завдання тесту (сек.).

Час вирішення другого завдання тесту (сек.).

Час вирішення третього завдання тесту (сек.).

Групова середня

Знаходимо загальну середню:

Для того, щоб врахувати значущість тимчасових відмінностей кожного тесту, загальна вибіркова дисперсія розбивається на дві частини, перша з яких називається факторною, а друга залишковою.

Розрахуємо загальну суму квадратів відхилень варіант від загальної середньої за формулою

або , де р - Число вимірювань часу рішень завдань тесту, q - кількість піддослідних. Для цього складемо таблицю квадратів варіант

№ випробуваних

Рівні фактора

Час вирішення першого завдання тесту (сек.).

Час вирішення другого завдання тесту (сек.).

Час вирішення третього завдання тесту (сек.).

Як ви вважаєте, що робить вашу «другу половинку» особливою, значущою? Це пов'язано з її (його) особистістю або вашими почуттями, які ви відчуваєте до цієї людини? А може, з простим фактом, що гіпотеза про випадковість вашої симпатії, як свідчать дослідження, має ймовірність менше 5%? Якщо вважати останнє твердження достовірним, то успішних сайтів знайомств не існувало б у принципі:

Коли ви проводите спліт-тестування або будь-який інший аналіз вашого сайту, неправильне розуміння статистичної значущості може призвести до неправильної інтерпретації результатів і, отже, помилкових дій у процесі оптимізації конверсії. Це справедливо і для тисяч інших статистичних тестів, які щодня проводяться в будь-якій існуючій галузі.

Щоб розібратися, що таке «статистична значимість», необхідно поринути у історію появи цього терміна, пізнати його справжній сенс і зрозуміти, як це «нове» старе розуміння допоможе вам правильно трактувати результати своїх досліджень.

Трохи історії

Хоча людство використовує статистику для вирішення тих чи інших завдань уже багато століть, сучасне розуміння статистичної значущості, перевірки гіпотез, рандомізації і навіть дизайну експериментів (Design of Experiments (DOE) почало формуватися лише на початку 20-го століття і нерозривно пов'язане з ім'ям сера Рональда Фішера (Sir Ronald Fisher, 1890-1962):

Рональд Фішер був еволюційним біологом і статистиком, який мав особливу пристрасть до вивчення еволюції та природного відбору у тваринному та рослинному світі. Протягом своєї уславленої кар'єри він розробив та популяризував безліч корисних статистичних інструментів, якими ми користуємося досі.

Фішер використовував розроблені ним методики, щоб пояснити такі процеси в біології, як домінування, мутації та генетичні відхилення. Ті ж інструменти ми можемо застосувати сьогодні для оптимізації та покращення контенту веб-ресурсів. Той факт, що ці засоби аналізу можуть бути задіяні для роботи з предметами, яких на момент створення навіть не існувало, здається досить дивним. Так само дивно, що раніше найскладніші обчислення люди виконували без калькуляторів чи комп'ютерів.

Для опису результатів статистичного експерименту як високу ймовірність виявитися істиною Фішер використовував слово «значимість» (від англ. significance).

Також однією з найцікавіших розробок Фішера можна назвати гіпотезу «сексуального сина». Згідно з цією теорією, жінки віддають свою перевагу нерозбірливим у статевих зв'язках чоловікам (гуляючим), тому що це дозволить народженим від цих чоловіків синам мати таку ж схильність і зробити більше своїх синів (звертаємо увагу, що це всього лише теорія).

Але ніхто, навіть геніальні вчені, не застраховані від помилок. Огріхи Фішера докучають фахівцям і досі. Але пам'ятаєте слова Альберта Ейнштейна: Хто ніколи не помилявся, той не створював нічого нового.

Перш ніж перейти до наступного пункту, запам'ятайте: статистична значущість — це ситуація, коли різниця в результатах проведення тестування настільки велика, що цю різницю не можна пояснити впливом випадкових факторів.

Яка ваша гіпотеза?

Щоб зрозуміти, що означає «статистична значимість», спочатку треба розібратися з тим, що таке «перевірка гіпотез», оскільки ці два терміни тісно переплітаються.
Гіпотеза — це лише теорія. Як тільки ви розробите якусь теорію, вам буде необхідно встановити порядок збирання достатньої кількості доказів і, власне, зібрати ці докази. Існує два типи гіпотез.

Яблука чи апельсини – що краще?

Нульова гіпотеза

Як правило, саме в цьому місці багато хто відчуває труднощі. Потрібно мати на увазі, що нульова гіпотеза - це не те, що потрібно довести, як, наприклад, ви доводите, що певна зміна на сайті призведе до підвищення конверсії, а навпаки. Нульова гіпотеза - це теорія, яка свідчить, що при внесенні будь-яких змін на сайт нічого не станеться. І мета дослідника спростувати цю теорію, а не довести.

Якщо звернутися до досвіду розкриття злочинів, де слідчі також будують гіпотези щодо того, хто є злочинцем, нульова гіпотеза набуває вигляду так званої презумпції невинності, концепту, згідно з яким обвинувачений вважається невинним доти, доки його вина не буде доведена в суді.

Якщо нульова гіпотеза полягає в тому, що два об'єкти рівні у своїх властивостях, а ви намагаєтеся довести, що один з них все ж таки краще (наприклад, A краще B), вам потрібно відмовитися від нульової гіпотези на користь альтернативної. Наприклад, ви порівнюєте між собою той чи інший інструмент оптимізації конверсії. У нульовій гіпотезі вони обидва надають на об'єкт впливу однаковий ефект (або ніякого ефекту). В альтернативній ефект від одного з них кращий.

Ваша альтернативна гіпотеза може містити числове значення, наприклад B - A > 20%. У такому разі нульова гіпотеза та альтернативна можуть набути наступного вигляду:

Інша назва альтернативної гіпотези — це дослідна гіпотеза, оскільки дослідник завжди зацікавлений у доказі саме цієї гіпотези.

Статистична значимість та значення «p»

Знову повернемося до Рональда Фішера та його поняття про статистичну значущість.

Тепер, коли у вас є нульова гіпотеза та альтернативна, як ви можете довести одне та спростувати інше?

Оскільки статистичні дані за своєю природою передбачають вивчення певної сукупності (вибірки), ви ніколи не можете бути на 100% впевнені в отриманих результатах. Наочний приклад: найчастіше результати виборів розходяться з результатами попередніх опитувань та навіть ексіт-пулів.

Доктор Фішер хотів створити визначник (dividing line), який дозволяв би зрозуміти, чи вдався ваш експеримент чи ні. Так і з'явився індекс достовірності. Достовірність – це той рівень, який ми приймаємо для того, щоб сказати, що ми вважаємо «значним», а що ні. Якщо «p», індекс достовірності дорівнює 0,05 або менше, то результати достовірні.

Не турбуйтеся, насправді все не так заплутано, як здається.

Розподіл ймовірностей Гауса. По краях — менш ймовірні значення змінної, у центрі — найімовірніші. P-показник (зафарбована зеленим область) - це ймовірність результату, що спостерігається, що виникає випадково.

Нормальний розподіл ймовірностей (розподіл Гаусса) — це уявлення всіх можливих значень певної змінної графіку (на малюнку вище) та його частот. Якщо ви проведете своє дослідження правильно, а потім розташуєте всі отримані відповіді на графіку, ви отримаєте саме такий розподіл. Відповідно до нормального розподілу, ви отримаєте великий відсоток схожих відповідей, а варіанти, що залишилися, розмістяться по краях графіка (так звані «хвости»). Такий розподіл величин часто зустрічається в природі, тому він і зветься «нормальним».

Використовуючи рівняння на основі вашої вибірки та результатів тесту, ви можете обчислити те, що називається тестовою статистикою, яка вкаже, наскільки відхилилися отримані результати. Вона також підкаже, наскільки близька ви до того, щоб нульова гіпотеза виявилася вірною.

Щоб не забивати голову, використовуйте онлайн-калькулятори для обчислення статистичної значущості:

Один із прикладів таких калькуляторів

Літера «p» означає ймовірність того, що нульова гіпотеза вірна. Якщо число буде невеликим, це вкаже на різницю між тестовими групами, тоді як нульова гіпотеза полягатиме в тому, що вони однакові. Графічно це буде виглядати так, що ваша тестова статистика виявиться ближче до одного з хвостів вашого дзвонового розподілу.

Лікар Фішер вирішив встановити поріг достовірності результатів на рівні p ≤ 0,05. Однак і це твердження спірне, оскільки призводить до двох труднощів:

1. По-перше, той факт, що ви довели неспроможність нульової гіпотези, не означає, що ви довели альтернативну гіпотезу. Вся ця значимість лише означає, що ви не можете довести ні A, ні B.

2. По-друге, якщо p-показник дорівнюватиме 0,049, це означатиме, що ймовірність нульової гіпотези складе 4,9%. Це може означати, що в той самий час результати ваших тестів можуть бути одночасно і достовірними, і помилковими.

Ви можете використовувати p-показник, а можете відмовитися від нього, але тоді вам буде необхідно в кожному окремому випадку вираховувати ймовірність здійснення нульової гіпотези і вирішувати, чи вона досить велика, щоб не вносити тих змін, які ви планували і тестували.

Найбільш поширений сценарій проведення статистичного тесту сьогодні – це встановлення порога значущості p ≤ 0,05 до запуску тесту. Тільки не забудьте уважно вивчити p-значення під час перевірки результатів.

Помилки 1 та 2

Пройшло так багато часу, що помилки, які можуть виникнути під час використання показника статистичної значущості, навіть отримали власні імена.

Помилка 1 (Type 1 Errors)

Як було згадано вище, p-значення, що дорівнює 0,05, означає: ймовірність того, що нульова гіпотеза виявиться вірною, дорівнює 5%. Якщо ви відмовитеся від неї, ви зробите помилку під номером 1. Результати говорять, що ваш новий веб-сайт підвищив показники конверсії, але існує 5% ймовірність, що це не так.

Помилка 2 (Type 2 Errors)

Ця помилка є протилежною до помилки 1: ви приймаєте нульову гіпотезу, в той час як вона є помилковою. Наприклад, результати тестів кажуть вам, що внесені зміни до сайту не принесли жодних покращень, тоді як зміни були. Як підсумок: ви втрачаєте можливість підвищити свої показники.

Така помилка поширена в тестах з недостатнім розміром вибірки, тому пам'ятайте: що більше вибірка, то вірогідніший результат.

Висновок

Мабуть, жоден термін серед дослідників не має такої популярності, як статистична значимість. Коли результати тестів не визнаються статистично значущими, наслідки бувають різні: від зростання показника конверсії до краху компанії.

І якщо маркетологи використовують цей термін при оптимізації своїх ресурсів, потрібно знати, що ж він означає насправді. Умови проведення тестів можуть змінюватися, але розмір вибірки та критерій успіху важливий завжди. Пам'ятайте про це.

Статистична значимість або рівень значимості - основний результат перевірки

статистичної гіпотези. Говорячи технічною мовою, це ймовірність отримання цього

результату вибіркового дослідження за умови, що насправді для генеральної

Спільно вірна нульова статистична гіпотеза - тобто зв'язку немає. Інакше кажучи, це

ймовірність того, що виявлений зв'язок носить випадковий характер, а не є властивістю

сукупності. Саме статистична значимість, р-рівень значимості є

кількісною оцінкою надійності зв'язку: що менше ця ймовірність, то надійніший зв'язок.

Припустимо, при порівнянні двох вибіркових середніх було отримано значення рівня

статистичної значимості р = 0,05. Це означає, що перевірка статистичної гіпотези про

рівність середніх у генеральній сукупності показала, що якщо вона вірна, то ймовірність

випадкової появи виявлених відмінностей становить трохи більше 5%. Інакше кажучи, якби

дві вибірки багаторазово витягувалися з однієї і тієї ж генеральної сукупності, то в 1

20 випадків виявлялося б таку ж чи більшу різницю між середніми цих вибірок.

Тобто існує 5% ймовірність того, що виявлені відмінності носять випадковий

характер, а чи не є властивістю сукупності.

Щодо наукової гіпотези рівень статистичної значущості – це кількісний

показник ступеня недовіри до висновку про наявність зв'язку, обчислений за результатами

вибіркової, емпіричної перевірки цієї гіпотези. Чим менше значення р-рівня, тим вище

статистична значущість результату дослідження, що підтверджує наукову гіпотезу.

Корисно знати, що впливає рівень значимості. Рівень значущості за інших рівних

умовах вище (значення р-рівню менше), якщо:

Розмір зв'язку (відмінності) більше;

Мінливість ознаки (ознак) менша;

Об'єм вибірки (вибірок) більший.

Односторонніеpі двосторонні критерії перевірки значущості

Якщо мета дослідження тому, щоб виявити відмінність параметрів двох генеральних

сукупностей, які відповідають різним її природним умовам (умови життя,

вік піддослідних тощо), то часто невідомо, який з цих параметрів буде більшим, а

який менше.

Наприклад, якщо цікавляться варіативністю результатів у контрольній та

експериментальної групи, то, як правило, немає впевненості в знаку відмінності дисперсій або

стандартних відхилень результатів, якими оцінюється варіативність. В цьому випадку

нульова гіпотеза полягає в тому, що дисперсії рівні між собою, а мета дослідження -

довести протилежне, тобто. наявність різницю між дисперсіями. При цьому допускається, що

Відмінність може бути будь-якого знака. Такі гіпотези називають двосторонніми.

Але іноді завдання полягає у тому, щоб довести збільшення чи зменшення параметра;

наприклад, середній результат експериментальної групі вище, ніж контрольної. При цьому

не допускається, що різницю може бути іншого знака. Такі гіпотези називаються

Односторонніми.

Критерії значимості, що служать для перевірки двосторонніх гіпотез, називаються

Двосторонніми, а для односторонніх – односторонніми.

Виникає питання про те, який із критеріїв слід обирати в тому чи іншому випадку. Відповідь

Це питання перебуває поза формальних статистичних методів і повністю

Залежить від цілей дослідження. У жодному разі не можна вибирати той чи інший критерій після

Проведення експерименту на основі аналізу експериментальних даних, оскільки це може

Привести до неправильних висновків. Якщо до проведення експерименту допускається, що різниця

Порівнюваних параметрів може бути як позитивним, так і негативним.



Останні матеріали розділу:

Вираз цілі у німецькій мові Um zu damit у німецькій мові
Вираз цілі у німецькій мові Um zu damit у німецькій мові

Після союзів aber - але , und - і, а , sondern - але, а , denn - тому що , oder - або, або в придаткових реченнях використовується...

Характеристики головних героїв твору Білий пудель, Купрін
Характеристики головних героїв твору Білий пудель, Купрін

Бариня – другорядний персонаж у оповіданні; багата поміщиця, яка проводить літо на своїй дачі у Криму; мати примхливого та норовливого хлопчика.

У списках не значився, Васильєв Борис львович
У списках не значився, Васильєв Борис львович

Василь Володимирович Биков «У списках не значився» Частина перша Миколі Петровичу Плужнікову надали військове звання, видали форму лейтенанта...