Статистична значущість відмінностей. Достовірність статистична

Перевірка гіпотез проводиться за допомогою статистичного аналізу. Статистичну значущість знаходять за допомогою Р-значення, яке відповідає ймовірності цієї події при припущенні, що деяке твердження (нульова гіпотеза) є істинним. Якщо Р-значення менше заданого рівня статистичної значимості(зазвичай це 0,05), експериментатор може сміливо зробити висновок, що нульова гіпотеза неправильна, і перейти до розгляду альтернативної гіпотези. За допомогою t-критерію Стьюдента можна обчислити Р-значення та визначити значущість для двох наборів даних.

Кроки

Частина 1

Постановка експерименту

    Визначте свою гіпотезу.Перший крок при оцінці статистичної значущості полягає в тому, щоб вибрати питання, відповідь на яке ви хочете отримати, і сформулювати гіпотезу. Гіпотеза - це твердження про експериментальні дані, їх розподіл та властивості. Для будь-якого експерименту існує як нульова, так і альтернативна гіпотеза. Взагалі кажучи, вам доведеться порівнювати два набори даних, щоб визначити, схожі вони чи різні.

    • Нульова гіпотеза (H0) зазвичай стверджує, що між двома наборами даних немає різниці. Наприклад: ті учні, які читають матеріал перед заняттями, не одержують вищих оцінок.
    • Альтернативна гіпотеза (H a) протилежна нульовій гіпотезі і є твердженням, яке потрібно підтвердити за допомогою експериментальних даних. Наприклад: учні, які читають матеріал перед заняттями, отримують вищі оцінки.
  1. Встановіть рівень значущості, щоб визначити, наскільки розподіл даних повинен відрізнятися від звичайного, щоб можна було вважати значним результатом. Рівень значущості (його називають також α (\displaystyle \alpha)-Рівнем) - це поріг, який ви визначаєте для статистичної значущості. Якщо Р-значення менше рівня значимості або дорівнює йому, дані вважаються статистично значущими.

    • Як правило, рівень значущості (значення α (\displaystyle \alpha)) приймається рівним 0,05, і в цьому випадку ймовірність виявлення випадкової різниці між різними наборами даних становить лише 5%.
    • Чим вищий рівень значущості (і, відповідно, менше Р-значення), тим достовірніші результати.
    • Якщо ви хочете отримати більш достовірні результати, зменште значення Р до 0,01. Як правило, більше низькі Р-значеннявикористовуються у виробництві, коли необхідно виявити шлюб у продукції. У цьому випадку потрібна висока достовірність, щоб бути впевненим, що всі деталі працюють так, як належить.
    • Більшість експериментів з гіпотезами досить прийняти рівень значимості рівним 0,05.
  2. Вирішіть, який критерій ви використовуватимете:односторонній чи двосторонній. Одне із припущень у t-критерії Стьюдента свідчить, що дані розподілені нормально. Нормальний розподіл являє собою дзвонову криву з максимальною кількістюрезультатів посередині кривої. t-критерій Стьюдента - це математичний методперевірки даних, що дозволяє встановити, чи випадають дані за межі нормального розподілу(Більше, менше, або в "хвостах" кривої).

    • Якщо ви не впевнені, чи дані вище або нижче контрольної групи значень, використовуйте двосторонній критерій. Це дозволить вам визначити значущість у обох напрямках.
    • Якщо ви знаєте, в якому напрямку дані можуть вийти за межі нормального розподілу, використовуйте односторонній критерій. У наведеному вище прикладі очікуємо, що оцінки студентів підвищаться, тому можна використовувати односторонній критерій.
  3. Визначте обсяг вибірки за допомогою статистичної потужності.Статистична потужність дослідження - це ймовірність того, що при даному обсязі вибірки вийде очікуваний результат. Поширений поріг потужності (або β) становить 80%. Аналіз статистичної потужності без будь-яких попередніх даних може представляти певні складності, оскільки потрібна деяка інформація про очікувані середні значення в кожній групі даних та про їх стандартні відхилення. Використовуйте для аналізу статистичної потужності онлайн-калькулятор для визначення оптимального обсягу вибірки для ваших даних.

    • Зазвичай вчені проводять невелике пробне дослідження, яке дозволяє отримати дані для аналізу статистичної потужності та визначити обсяг вибірки, необхідний більш розширеного і повного дослідження.
    • Якщо ви не маєте можливості провести пробне дослідження, постарайтеся на підставі літературних даних та результатів інших людей оцінити можливі середні значення. Можливо, це допоможе вам визначити оптимальний обсяг вибірки.

    Частина 2

    Обчисліть стандартне відхилення
    1. Запишіть формулу стандартного відхилення.Стандартне відхилення показує, наскільки великий розкид даних. Воно дозволяє укласти, наскільки близькі дані, отримані певної вибірці. На перший погляд, формула здається досить складною, але наведені нижче пояснення допоможуть зрозуміти її. Формула має наступний вигляд: s = √∑((xi – µ) 2 /(N – 1)).

      • s – стандартне відхилення;
      • знак ∑ вказує на те, що слід скласти усі отримані на вибірці дані;
      • x i відповідає i-му значеннютобто окремому отриманому результату;
      • µ – це середнє значення для цієї групи;
      • N - загальне числоданих у вибірці.
    2. Знайдіть середнє значення у кожній групі.Щоб обчислити стандартне відхилення, необхідно спочатку знайти середнє для кожної досліджуваної групи. Середнє значення позначається грецькою літероюµ (мю). Щоб знайти середнє, складіть всі отримані значення і поділіть їх на кількість даних (обсяг вибірки).

      • Наприклад, щоб знайти середню оцінкуу групі тих учнів, які вивчають матеріал перед заняттями, розглянемо невеликий набір даних. Для простоти використовуємо набір із п'яти точок: 90, 91, 85, 83 і 94.
      • Складемо разом усі значення: 90 + 91 + 85 + 83 + 94 = 443.
      • Поділити суму на число значень, N = 5: 443/5 = 88,6.
      • Отже, середнє значення цієї групи становить 88,6.
    3. Відніміть із середнього кожне отримане значення.Наступний крок полягає у обчисленні різниці (xi – µ). Для цього слід відняти від знайденої середньої величиникожне отримане значення. У нашому прикладі необхідно знайти п'ять різниць:

      • (90 - 88,6), (91 - 88,6), (85 - 88,6), (83 - 88,6) та (94 - 88,6).
      • В результаті отримуємо наступні значення: 1,4, 2,4, -3,6, -5,6 та 5,4.
    4. Зведіть у квадрат кожну отриману величину і складіть їх разом.Кожну із щойно знайдених величин слід звести у квадрат. На цьому кроці зникнуть усі від'ємні значення. Якщо після цього крокуу вас залишаться негативні числаОтже, ви забули звести їх у квадрат.

      • Для нашого прикладу отримуємо 1,96, 5,76, 12,96, 31,36 та 29,16.
      • Складаємо отримані значення: 1,96+5,76+12,96+31,36+29,16=81,2.
    5. Поділіть обсяг вибірки мінус 1.У формулі сума поділяється на N – 1 через те, що ми не враховуємо генеральну сукупність, а беремо для оцінки вибірку з-поміж усіх студентів.

      • Віднімаємо: N – 1 = 5 – 1 = 4
      • Ділимо: 81,2/4 = 20,3
    6. Вийміть квадратний корінь. Після того як ви поділіть суму на обсяг вибірки мінус один, витягніть із знайденого значення квадратний корінь. Це останній крок у обчисленні стандартного відхилення. Є статистичні програми, які після введення початкових даних роблять усі необхідні обчислення.

      • У прикладі стандартне відхилення оцінок тих учнів, які читають матеріал перед заняттями, становить s =√20,3 = 4,51.

      Частина 3

      Визначте значимість
      1. Розрахуйте дисперсію між двома групами даних.До цього кроку ми розглядали приклад лише однієї групи даних. Якщо ви хочете порівняти дві групи, очевидно, слід взяти дані обох груп. Обчисліть стандартне відхилення для другої групи даних, а потім знайдіть дисперсію між двома експериментальними групами. Дисперсія обчислюється за такою формулою: s d = √((s 1 /N 1) + (s 2 /N 2)).

Сьогодні це дійсно занадто просто: ви можете підійти до комп'ютера і практично без знання того, що ви робите, створювати розумне і нісенітницю з воістину дивовижною швидкістю. (Дж. Бокс)

Основні терміни та поняття медичної статистики

У цій статті ми наведемо деякі ключові поняттястатистики, актуальні під час проведення медичних досліджень. Докладніше терміни розбираються у відповідних статтях.

Варіація

Визначення.Ступінь розсіювання даних (значень ознаки) по області значень

Ймовірність

Визначення. Імовірність (probability) - ступінь можливості прояву будь-якого певної подіїу тих чи інших умовах.

приклад. Пояснимо визначення терміна на пропозиції «Вірогідність одужання при застосуванні лікарського препарату Арімідекс дорівнює 70%». Подією є «видужання хворого», умовою «хворий приймає Арімідекс», ступенем можливості - 70% (грубо кажучи, зі 100 осіб, які приймають Арімідекс, одужують 70).

Кумулятивна ймовірність

Визначення.Кумулятивна ймовірність виживання (Cumulative Probability of surviving) в момент часу t - це те саме, що частка пацієнтів, що вижили, до цього моменту часу.

приклад. Якщо говориться, що кумулятивна ймовірність виживання після проведення п'ятирічного курсу лікування дорівнює 0.7, то це означає, що з групи пацієнтів, що розглядається, в живих залишилося 70% від початкової кількості, а 30% померло. Іншими словами, з кожної сотні людей 30 померли протягом перших 5 років.

Час до події

Визначення.Час до події - це час, виражений у деяких одиницях, що минув з початкового моменту часу до настання деякої події.

Пояснення. Як одиниці часу в медичних дослідженняхвиступають дні, місяці та роки.

Типові приклади початкових моментівчасу:

    початок спостереження за пацієнтом

    проведення хірургічного лікування

Типові приклади подій, що розглядаються:

    прогресування хвороби

    виникнення рецидиву

    смерть пацієнта

Вибірка

Визначення.Частина популяції, одержана шляхом відбору.

За результатами аналізу вибірки роблять висновки про всю популяцію, що правомірно лише у разі, якщо відбір був випадковим. Оскільки випадковий відбір із популяції здійснити практично неможливо, слід прагнути до того, щоб вибірка була, принаймні, репрезентативна стосовно популяції.

Залежні та незалежні вибірки

Визначення.Вибірки, у яких об'єкти дослідження набиралися незалежно друг від друга. Альтернатива незалежним вибіркам – залежні (зв'язкові, парні) вибірки.

Гіпотеза

Двостороння та одностороння гіпотези

Спочатку пояснимо застосування терміна гіпотезу у статистиці.

Мета більшості досліджень – перевірка істинності деякого твердження. Метою тестування лікарських препараторів найчастіше є перевірка гіпотези, що одні ліки ефективніші за інші (наприклад, Арімідекс ефективніший за Тамоксифен).

Для переказу строгості дослідження, твердження, що перевіряється, виражають математично. Наприклад, якщо А - це кількість років, що проживе пацієнт, який приймає Арімідекс, а Т - це кількість років, що проживе пацієнт, який приймає Тамоксифен, то гіпотезу, що перевіряється, можна записати як А>Т.

Визначення.Гіпотеза називається двосторонньою (2-sided), якщо вона полягає у рівності двох величин.

Приклад двосторонньої гіпотези: A=T.

Визначення. Гіпотеза називається односторонньою (1-sided), якщо вона полягає у нерівності двох величин.

Приклади односторонніх гіпотез:

Дихотомічні (бінарні) дані

Визначення.Дані, що виражаються лише двома допустимими альтернативними значеннями

Приклад: Пацієнт «здоровий» - «хворий». Набряк "є" - "ні".

Довірчий інтервал

Визначення.Довірчий інтервал (confidence interval) для деякої величини – це діапазон навколо значення величини, в якому знаходиться справжнє значенняцієї величини (з певним рівнем довіри).

приклад. Нехай досліджуваною величиною є кількість пацієнтів на рік. У середньому їх кількість дорівнює 500, а 95% - довірчий інтервал- (350, 900). Це означає, що, швидше за все (з ймовірністю 95%), протягом року в клініку звернуться щонайменше 350 і більше 900 людина.

Позначення. Найчастіше використовуються скорочення: ДІ 95% (CI 95%) – це довірчий інтервал із рівнем довіри 95%.

Достовірність, статистична значимість (P – рівень)

Визначення.Статистична значимість результату - це міра впевненості у його "істинності".

Будь-яке дослідження проходить з урахуванням лише частини об'єктів. Дослідження ефективності лікарського препарату проводиться на основі не взагалі всіх хворих на планеті, а лише певної групи пацієнтів (провести аналіз на основі всіх хворих просто неможливо).

Припустимо, що в результаті аналізу було зроблено деякий висновок (наприклад, використання як адекватну терапію препарату Арімідекс в 2 рази ефективніше, ніж препарат Тамоксифен).

Питання, яке необхідно при цьому ставити: "Наскільки можна довіряти цьому результату?"

Уявіть, що ми проводили дослідження на основі двох пацієнтів. Звичайно ж, у цьому випадку до результатів потрібно ставитись з побоюванням. Якщо ж було обстежено велику кількість хворих (чисельне значення « великої кількості»залежить від ситуації), то зробленим висновкам вже можна довіряти.

Так ось, ступінь довіри визначається значенням p-рівня (p-value).

Вищий p-рівень відповідає більш низькому рівнюдовіри до результатів, отриманих під час аналізу вибірки. Наприклад, p-рівень, що дорівнює 0.05 (5%) показує, що зроблений при аналізі деякої групи висновок є лише випадковою особливістю цих об'єктів з ймовірністю лише 5%.

Інакше кажучи, дуже ймовірно (95%) висновок можна поширити попри всі об'єкти.

У багатьох дослідженнях 5% сприймається як прийнятне значення p-уровня. Це означає, що й, наприклад, p= 0.01, то результатам довіряти можна, і якщо p=0.06, то нельзя.

Дослідження

Проспективне дослідження- це дослідження, у якому вибірки виділяються з урахуванням вихідного чинника, а вибірках аналізується деякий результуючий чинник.

Ретроспективне дослідження- це дослідження, у якому вибірки виділяються з урахуванням результуючого чинника, а вибірках аналізується деякий вихідний чинник.

приклад. Вихідний фактор - вагітна жінка молодша/старша 20 років. Результуючий фактор - дитина легша/важча 2,5 кг. Аналізуємо, чи залежить вага дитини від віку матері.

Якщо ми набираємо 2 вибірки, в одній - матері віком до 20 років, в іншій - старше, а потім аналізуємо масу дітей у кожній групі, то це проспективне дослідження.

Якщо ми набираємо 2 вибірки, в одній – матері, що народили дітей легше 2,5 кг, в іншій – важче, а потім аналізуємо вік матерів у кожній групі, то це ретроспективне дослідження (природно, таке дослідження можна провести, тільки коли досвід закінчено, тобто всі діти народилися).

Вихід

Визначення.Клінічно значуще явище, лабораторний показник чи ознака, що є об'єктом інтересу дослідника. При проведенні клінічних випробуваньрезультати служать критеріями оцінки ефективності лікувального чи профілактичного впливу.

Клінічна епідеміологія

Визначення.Наука, що дозволяє здійснювати прогнозування того чи іншого результату для кожного конкретного хворого на підставі вивчення клінічного перебігу хвороби в аналогічних випадках із використанням суворих наукових методіввивчення хворих задля забезпечення точності прогнозів.

Когорта

Визначення.Група учасників дослідження, об'єднаних будь-яким загальною ознакоюу момент її формування та досліджуваних протягом тривалого періодучасу.

Контроль

Контроль історичний

Визначення.Контрольна група, сформована та обстежена в період, що передує дослідженню.

Контроль паралельний

Визначення.Контрольна група, що формується одночасно з формуванням основної групи.

Кореляція

Визначення. Статистичний зв'язокдвох ознак (кількісних або порядкових), що показує, що більшого значенняоднієї ознаки у певній частині випадків відповідає більше - у разі позитивної (прямої) кореляції - значення іншої ознаки або менше значення- у разі негативної (зворотної) кореляції.

приклад. Між рівнем тромбоцитів та лейкоцитів у крові пацієнта виявлено значуща кореляція. Коефіцієнт кореляції дорівнює 0,76.

Коефіцієнт ризику (КР)

Визначення. p align="justify"> Коефіцієнт ризику (hazard ratio) - це відношення ймовірності настання деякої («нехорошої») події для першої групи об'єктів до ймовірності настання цієї ж події для другої групи об'єктів.

приклад. Якщо ймовірність появи раку легень у некурців дорівнює 20%, а у курців - 100%, то КР дорівнюватиме одній п'ятій. У цьому прикладі першою групою об'єктів є люди, що не палять, другою групою - курці, а в якості «нехорошої» події розглядається виникнення раку легенів.

Очевидно, що:

1) якщо КР=1, то ймовірність настання події у групах однакова

2) якщо КР>1, то подія частіше відбувається з об'єктами з першої групи, ніж із другої

3) якщо КР<1, то событие чаще происходит с объектами из второй группы, чем из первой

Мета-аналіз

Визначення. Зтатистичний аналіз, що узагальнює результати кількох досліджень, що досліджують одну й ту саму проблему (зазвичай ефективність методів лікування, профілактики, діагностики). Об'єднання досліджень забезпечує велику вибірку для аналізу та більшу статистичну потужність об'єднаних досліджень. Використовується підвищення доказовості чи впевненості у висновку про ефективність досліджуваного методу.

Метод Каплана - Мейєра (Множинні оцінки Каплана - Мейєра)

Цей метод придумали статистиками Е.Л.Капланом і Полем Мейером.

Метод використовується для обчислення різних величин, пов'язаних із часом спостереження за пацієнтом. Приклади таких величин:

    ймовірність одужання протягом одного року при застосуванні лікарського препарату

    шанс виникнення рецидиву після операції на протязі трьох років після операції

    кумулятивна ймовірність виживання протягом п'яти років серед пацієнтів із раком простати при ампутації органу

Пояснимо переваги використання методу Каплана – Мейєра.

Значення величин при «звичайному» аналізі (що не використовує метод Каплана-Мейєра) розраховуються на основі розбиття тимчасового інтервалу, що розглядається, на проміжки.

Наприклад, якщо ми досліджуємо ймовірність смерті пацієнта протягом 5 років, то часовий інтервал може бути поділений як на 5 частин (менше 1 року, 1-2 роки, 2-3 роки, 3-4 роки, 4-5 років), так та на 10 (по півроку кожен), або на іншу кількість інтервалів. Результати ж за різних розбиття вийдуть різні.

Вибір найбільш відповідного розбиття - складне завдання.

Оцінки значень величин, отриманих методом Каплана- Мейера не залежить від розбиття часу спостереження на інтервали, а залежить тільки від часу життя кожного окремого пацієнта.

Тому досліднику простіше проводити аналіз, та й результати нерідко виявляються якіснішими за результати «звичайного» аналізу.

Крива Каплана-Мейєра (Kaplan - Meier curve)-це графік кривої виживання, отриманої за методом Каплана-Мейєра.

Модель Коксу

Ця модель була придумана сером Девідом Роксбі Коксом (р.1924), відомим англійським статистиком, автором понад 300 статей та книг.

Модель Кокса використовується у ситуаціях, коли досліджувані під час аналізу виживання величини залежить від функцій часу. Наприклад, ймовірність виникнення рецидиву через t років (t=1,2,…) може залежати від логарифму часу log(t).

Важливою перевагою методу, запропонованого Коксом, є застосування цього методу у великій кількості ситуацій (модель не накладає жорстких обмежень на природу або форму розподілу ймовірностей).

На основі моделі Коксу можна проводити аналіз (званий аналізом Коксу (Cox analysis)), результатом проведення якого є значення коефіцієнта ризику та довірчого інтервалу для коефіцієнта ризику.

Непараметричні методи статистики

Визначення.Клас статистичних методів, що використовуються головним чином для аналізу кількісних даних, що не утворюють нормальний розподіл, а також для аналізу якісних даних.

приклад. Для виявлення значущості відмінностей тиску систоли пацієнтів залежно від типу лікування скористаємося непараметричним критерієм Манна-Уітні.

Ознака (змінна)

Визначення. Характеристика об'єкта дослідження (спостереження) Розрізняють якісні та кількісні ознаки.

Рандомізація

Визначення.Спосіб випадкового розподілу об'єктів дослідження в основну та контрольну групи з використанням спеціальних засобів (таблиць або лічильника випадкових чисел, підкидання монети та інших способів випадкового призначення номера групи, що включається спостереженню). За допомогою рандомізації зводяться до мінімуму відмінності між групами за відомими і невідомими ознаками, що потенційно впливають на результат, що вивчається.

Ризик

Атрибутивний- додатковий ризик виникнення несприятливого результату (наприклад, захворювання) у зв'язку з наявністю певної характеристики (фактору ризику) об'єкта дослідження. Це частина ризику розвитку хвороби, яка пов'язана з цим фактором ризику, пояснюється ним і може бути усунена, якщо цей фактор ризику усунути.

Відносний ризик- Відношення ризику виникнення несприятливого стану в одній групі до ризику цього стану в іншій групі. Використовується у проспективних та спостережних дослідженнях, коли групи формуються заздалегідь, а виникнення досліджуваного стану ще не відбулося.

Ковзаючий іспит

Визначення.Метод перевірки стійкості, надійності, працездатності (валідності) статистичної моделі шляхом почергового видалення спостережень та перерахунку моделі. Чим подібніші отримані моделі, тим стійкіша, надійніша модель.

Подія

Визначення.Клінічний результат, що спостерігається у дослідженні, наприклад виникнення ускладнення, рецидиву, настання одужання, смерті.

Стратифікація

Визначення. Метод формування вибірки, у якому сукупність всіх учасників, відповідних критеріям включення до дослідження, спочатку поділяється на групи (страти) з урахуванням однієї чи кількох характеристик (зазвичай статі, віку), потенційно які впливають досліджуваний результат, та був із кожної із цих груп ( страт) незалежно проводиться набір учасників до експериментальної та контрольної групи. Це дозволяє досліднику дотримуватися балансу важливих характеристик між експериментальною та контрольною групами.

Таблиця сполученості

Визначення.Таблиця абсолютних частот (кількості) спостережень, стовпці якої відповідають значенням однієї ознаки, а рядки - значенням іншої ознаки (у разі двовимірної таблиці сполученості). Значення абсолютних частот розташовуються у клітинах на перетині рядів та колонок.

Наведемо приклад таблиці спряженості. Операцію на аневризмі було зроблено 194 пацієнтам. Відомий показник виразності набряку у пацієнтів перед операцією.

Набряк\ Вихід

немає набряку 20 6 26
помірний набряк 27 15 42
виражений набряк 8 21 29
m j 55 42 194

Таким чином, із 26 пацієнтів, які не мають набряку, після операції вижило 20 пацієнтів, померло – 6 пацієнтів. З 42 пацієнтів, які мають помірний набряк, вижило 27 пацієнтів, померло - 15 і т.д.

Критерій хі-квадрат для таблиць сполученості

Для визначення значущості (достовірності) відмінностей однієї ознаки в залежності від іншої (наприклад, результату операції в залежності від вираженості набряку) застосовується критерій хі-квадрат для таблиць сполученості:


Шанс

Нехай ймовірність деякої події дорівнює p. Тоді ймовірність того, що подія не відбудеться, дорівнює 1-p.

Наприклад, якщо ймовірність того, що хворий залишиться живим через п'ять років дорівнює 0.8 (80%), то ймовірність того, що він за цей часовий проміжок помре дорівнює 0.2 (20%).

Визначення.Шанс – це відношення ймовірності того, що події відбудеться до ймовірності того, що подія не станеться.

приклад. У прикладі (про хворого) шанс дорівнює 4, оскільки 0.8/0.2=4

Таким чином, ймовірність одужання в 4 рази більша за ймовірність смерті.

Інтерпретація значення величини.

1) Якщо Шанс = 1, то ймовірність настання події дорівнює ймовірності того, що подія не відбудеться;

2) якщо Шанс >1, то ймовірність настання події більша за ймовірність того, що подія не відбудеться;

3) якщо Шанс<1, то вероятность наступления события меньше вероятности того, что событие не произойдёт.

Відношення шансів

Визначення.Відношення шансів (odds ratio) - це відношення шансів першої групи об'єктів до відношення шансів другої групи об'єктів.

приклад. Допустимо, що деяке лікування проходять і чоловіки, і жінки.

Імовірність того, що хворий чоловічої статі залишиться живим через п'ять років дорівнює 0.6 (60%); ймовірність того, що він за цей часовий проміжок помре дорівнює 0.4 (40%).

Аналогічні ймовірності для жінок дорівнюють 0.8 та 0.2.

Відношення шансів у цьому прикладі рівне

Інтерпретація значення величини.

1) Якщо відношення шансів = 1, то шанс для першої групи дорівнює шансу для другої групи

2) Якщо відношення шансів >1, то шанс для першої групи більший за шанс для другої групи

3) Якщо ставлення шансів<1, то шанс для первой группы меньше шанса для второй группы

Статистична значимість результату (p-значення) є оціненою мірою впевненості у його «істинності» (у сенсі «репрезентативності вибірки»). Висловлюючись технічніше, p-значення - це показник, що знаходиться в спадній залежності від надійності результату. p align="justify"> Більш високе p-значення відповідає більш низькому рівню довіри до знайденої у вибірці залежності між змінними. Саме p-значення є ймовірністю помилки, пов'язаної з поширенням спостережуваного результату на всю популяцію. Наприклад, p-значення = 0.05 (тобто 1/20) показує, що є 5% ймовірність, що знайдена у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. Іншими словами, якщо ця залежність у популяції відсутня, а ви багато разів проводили б подібні експерименти, то приблизно в одному з двадцяти повторень експерименту можна було б очікувати такої ж чи сильнішої залежності між змінними.

Багато дослідженнях p-значение=0.05 сприймається як «прийнятна межа» рівня помилки.

Не існує ніякого способу уникнути свавілля при ухваленні рішення про те, який рівень значущості слід вважати «значним». Вибір певного рівня значимості, вище якого результати відкидаються як хибні, досить довільним. На практиці остаточне рішеннязазвичай залежить від того, чи був результат передбачений апріорі (тобто до проведення досвіду) або виявлено апостеріорно в результаті багатьох аналізів і порівнянь, виконаних з безліччю даних, а також на традиції, що є в даній галузі досліджень. Зазвичай у багатьох областях результат p 0.05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає ймовірність помилки (5%). Результати, значущі рівні p 0.01 зазвичай розглядаються як статистично значущі, а результати з рівнем p 0.005 чи p 0.001 як високо значущі. Однак слід розуміти, що дана класифікаціярівнів значущості досить довільна і є лише неформальною угодою, прийнятою на основі практичного досвідуу тій чи іншій галузі дослідження.

Як було вже сказано, величина залежності та надійність становлять дві різні характеристикизалежностей між змінними. Проте не можна сказати, що вони абсолютно незалежні. Говорячи спільною мовою, ніж більша величиназалежності (зв'язку) між змінними у вибірці звичайного обсягу, тим паче вона надійна.

Якщо припускати відсутність залежності між відповідними змінними в популяції, то найбільш ймовірно очікувати, що в досліджуваній вибірці зв'язок між цими змінними також не буде. Таким чином, чим сильніша залежність виявлена ​​у вибірці, тим менш ймовірно, що цієї залежності немає в популяції, з якої вона вилучена.


Обсяг вибірки впливає значення залежності. Якщо спостережень мало, то є мало можливих комбінацій значень цих змінних і таким чином, ймовірність випадкового виявлення комбінації значень, що показують сильну залежність, відносно велика.

Як обчислюється рівень статистичної значимості. Припустимо, ви вже вирахували міру залежності між двома змінними (як пояснювалося вище). Наступне питання, яке стоїть перед вами: «наскільки важлива ця залежність?» Наприклад, чи є 40% поясненою дисперсією між двома змінними достатнім, щоб вважати залежність значущою? Відповідь: "залежно від обставин". Саме значимість залежить в основному від обсягу вибірки. Як уже пояснювалося, у дуже великих вибірках навіть дуже слабкі залежності між змінними будуть значущими, тоді як у малих вибірках навіть дуже сильні залежності не є надійними. Таким чином, щоб визначити рівень статистичної значущості, вам потрібна функція, яка представляла б залежність між «величиною» і «значимістю» залежності між змінними для кожного обсягу вибірки. Ця функція вказала б вам точно «наскільки можливо отримати залежність цієї величини (чи більше) у вибірці цього обсягу, у припущенні, що у популяції такої залежності немає». Іншими словами, ця функція давала б рівень значущості (p-значення), і, отже, можливість помилково відхилити припущення про відсутність цієї залежності у популяції. Ця «альтернативна» гіпотеза (що полягає в тому, що немає залежності в популяції) зазвичай називається нульовою гіпотезою. Було б ідеально, якби функція, що обчислює ймовірність помилки, була лінійною і мала лише різні нахили для різних обсягіввибірки. На жаль, ця функція значно складніша і не завжди точно одна і та ж. Тим не менш, у більшості випадків її форма відома, і її можна використовувати для визначення рівнів значущості при дослідженні вибірок заданого розміру. Більшість цих функцій пов'язані з дуже важливим класом розподілів, званим нормальним.

Статистична достовірність має важливе значення у розрахунковій практиці ФКС. Раніше було зазначено, що з однієї і тієї ж генеральної сукупностіможе бути обрано безліч вибірок:

Якщо вони підібрані коректно, їх середні показники і показники генеральної сукупності незначно відрізняються один від одного величиною помилки репрезентативності з урахуванням прийнятої надійності;

Якщо вони обираються з різних генеральних сукупностей, різницю між ними виявляється суттєвим. У статистиці повсюдно розглядається порівняння вибірок;

Якщо вони відрізняються несуттєво, непринципово, незначно, тобто фактично належать до однієї й тієї ж генеральної сукупності, різниця між ними називається статистично недостовірною.

Статистично достовірним Відмінністю вибірок називається вибірка, що відрізняється значуще й важливо, т. е. належить різним генеральним сукупностям.

У ФКС оцінка статистичної достовірностівідмінностей вибірок означає вирішення безлічі практичних завдань. Наприклад, запровадження нових методик навчання, програм, комплексів вправ, тестів, контрольних вправ пов'язані з їх експериментальної перевіркою, що має показати, що випробувана група принципово відрізняється від контрольної. Тому застосовують спеціальні статистичні методи, які називають критеріями статистичної достовірності, що дозволяють виявити наявність або відсутність статистично достовірної різниці між вибірками.

Усі критерії поділяються на дві групи: параметричні та непараметричні. Параметричні критерії передбачають обов'язкове наявність нормального закону розподілу, тобто. мається на увазі обов'язкове визначення основних показників нормального закону – середньої арифметичної величини та середнього квадратичного відхилення s. Параметричні критерії є найбільш точними та коректними. Непараметричні критерії ґрунтуються на рангових (порядкових) відмінностях між елементами вибірок.

Наведемо основні критерії статистичної достовірності, які у практиці ФКС: критерій Стьюдента і критерій Фішера.

Критерій Стьюдентаназвано на честь англійського вченого К. Госсета (Стьюдент - псевдонім), який відкрив цей метод. Критерій Стьюдента є параметричним, використовується порівняння абсолютних показників вибірок. Вибірки можуть бути різними за обсягом.

Критерій Стьюдента визначається так.

1. Знаходимо критерій Стьюдента t за такою формулою:


де - середні арифметичні порівнювані вибірки; т 1 т 2 - помилки репрезентативності, виявлені на підставі показників порівнюваних вибірок.

2. Практика у ФКС показала, що для спортивної роботи достатньо прийняти надійність рахунку Р = 0,95.

Для надійності рахунку: Р = 0,95 (a = 0,05), за числі ступенів свободи

k = n 1 + п 2 - 2 за таблицею додатка 4 знаходимо величину граничного значення критерію ( t гр).

3. На підставі властивостей нормального закону розподілу за критеріями Стьюдента здійснюється порівняння t і t гр.

Робимо висновки:

якщо t t гр, то різницю між порівнюваними вибірками статистично достовірно;

якщо t t гр, то відмінність статистично недостовірна.

Для дослідників у сфері ФКС оцінка статистичної достовірності є першим кроком у вирішенні конкретного завдання: принципово чи непринципово різняться між собою порівнювані вибірки. Наступний крок полягає в оцінці цієї різниці з педагогічної точки зору, що визначається умовою завдання.

Розглянемо застосування критерію Стьюдента на конкретному прикладі.

Приклад 2.14. Група досліджуваних у кількості 18 осіб оцінена на ЧСС (уд./хв) до х і після y iрозминки.

Оцінити ефективність розминки за показником ЧСС. Вихідні дані та розрахунки представлені в табл. 2.30 та 2.31.

Таблиця 2.30

Обробка показників ЧСС до розминки


Помилки по обох групах збіглися, оскільки обсяги вибірок рівні (досліджується одна й та сама група за різних умов), а середні квадратичні відхилення склали s х = s у = 3 уд./хв. Переходимо до визначення критерію Стьюдента:

Задаємо надійність рахунку: Р = 0,95.

Число ступенів свободи k 1 = n 1 + п 2 - 2 = 18+18-2 = 34. За таблицею додатка 4 знаходимо t гр= 2,02.

Статистичний висновок. Оскільки t = 11,62, а граничне t гр = 2,02, то 11,62> 2,02, тобто. t > t гр, тому різницю між вибірками статистично достовірно.

Педагогічний висновок. Встановлено, що за показником ЧСС різницю між станом групи до і після розминки є статистично достовірним, тобто. значним, важливим. Отже, за показником ЧСС можна дійти невтішного висновку, що розминка ефективна.

Критерій Фішерає параметричним. Він застосовується у порівнянні показників розсіювання вибірок. Це, як правило, означає порівняння за показниками стабільності спортивної роботи або стабільності функціональних та технічних показників у практиці фізичної культурита спорту. Вибірки можуть бути різноманітними.

Критерій Фішера визначається в наведеній нижче послідовності.

1. Знаходимо Критерій Фішера F за формулою


де , - Дисперсії порівнюваних вибірок.

Умовами критерію Фішера передбачено, що у чисельнику формули F перебуває велика дисперсія, тобто. число F завжди більше одиниці.

Задаємо надійність рахунку: Р = 0,95 – і визначаємо числа ступенів свободи для обох вибірок: k 1 = n 1 – 1, k 2 = п 2 – 1.

За таблицею додатка 4 знаходимо граничне значення критерію F гр.

Порівняння критеріїв F та F грдозволяє сформулювати висновки:

якщо F > F гр, то різницю між вибірками статистично достовірно;

якщо F< F гр, то различие между выборками статически недо­стоверно.

Наведемо конкретний приклад.

приклад 2.15. Проаналізуємо дві групи гандболістів: х i (n 1= 16 осіб) та y i (п 2 = 18 осіб). Ці групи спортсменів досліджено на час відштовхування (с) під час кидка м'яча у ворота.

Чи однотипні показники відштовхування?

Вихідні дані та основні розрахунки представлені в табл. 2.32 та 2.33.

Таблиця 2.32

Обробка показників відштовхування першої групи гандболістів


Визначимо критерій Фішера:





За даними, поданими в таблиці додатка 6, знаходимо Fгр: Fгр = 2,4

Звернемо увагу на те, що в таблиці додатка 6 перерахування чисел ступенів свободи як більшої, так і меншої дисперсії при наближенні до більших чисел стає грубішим. Так, числа ступенів свободи більшої дисперсіїслід у такому порядку: 8, 9, 10, 11, 12, 14, 16, 20, 24 і т.д., а меншою - 28, 29, 30, 40, 50 і т.д.

Це пояснюється тим, що зі збільшенням обсягу вибірок відмінності F-критерію зменшуються і можна використовувати табличні значення, наближені до вихідних даних Так, у прикладі 2.15 = 17 відсутня і можна прийняти найближче до нього значення k = 16, звідки отримуємо Fгр = 2,4.

Статистичний висновок. Оскільки критерій Фішера F = 2,5 > F = 2,4, вибірки помітні статистично достовірно.

Педагогічний висновок. Значення часу відштовхування (с) при кидку м'яча у ворота у гандболістів обох груп значно різняться. Ці групи слід як різні.

Подальші дослідженняповинні показати, у чому причина такої різниці.

Приклад 2.20.(на статистичну достовірність вибірки ). Чи підвищилася кваліфікація футболіста, якщо час (с) від подачі сигналу до удару по м'ячу ногою на початку тренування було x i , а наприкінці у i .

Вихідні дані та основні розрахунки наведені в табл. 2.40 та 2.41.

Таблиця 2.40

Обробка показників часу від подачі сигналу до удару по м'ячу на початку тренування


Визначимо відмінність груп показників за критерієм Стьюдента:

При надійності Р = 0,95 і ступенях свободи k = n 1 + п 2 - 2 = 22 + 22 - 2 = 42 за таблицею додатка 4 знаходимо t гр= 2,02. Оскільки t = 8,3> t гр= 2,02 – відмінність статистично достовірно.

Визначимо відмінність груп показників за критерієм Фішера:


За таблицею додатка 2 при надійності Р = 0,95 та ступенях свободи k = 22-1 = 21 значення F гр = 21. Оскільки F = 1,53< F гр = = 2,1, различие в рассеивании исходных данных статистически недостоверно.

Статистичний висновок. По середньому арифметичному показнику відмінність груп показників статистично достовірна. За показником розсіювання (дисперсії) відмінність груп показників статистично недостовірна.

Педагогічний висновок.Кваліфікація футболіста суттєво підвищилася, проте слід приділити увагу стабільності його свідчень.

Підготовка до роботи

Перед проведенням цієї лабораторної роботиз дисципліни " Спортивна метрологія» всім студентам навчальної групинеобхідно сформувати робочі бригади по 3-4 студенти в кожнійдля спільного виконання робочого завдання всіх лабораторних робіт.

Під час підготовки до роботи ознайомитися з відповідними розділами літератури, що рекомендується (див.розділ 6 даних методичних вказівок) та конспектів лекцій. Вивчити розділи 1 та 2 на цю лабораторну роботу, а також робоче завдання на неї (розділ 4).

Заготувати форму звітуна стандартних аркушах паперу паперу формату А4 і занести до нього матеріали необхідні для роботи.

Звіт має містити :

Титульна сторінкаіз зазначенням кафедри (КК та ТР), навчальної групи, прізвища, імені, по батькові студента, номера та назви лабораторної роботи, дати її виконання, а також прізвища, наукового ступеня, вченого звання та посади викладача, який приймає роботу;

Мета роботи;

Формули з числовими значеннями, що пояснюють проміжні та остаточні результати обчислень;

Таблиці виміряних та обчислених величин;

Необхідний за завданням графічний матеріал;

Короткі висновкиза результатами кожного з етапів робочого завдання та в цілому по виконаній роботі.

Усі графіки та таблиці викреслюються акуратно за допомогою креслярських інструментів. Умовні графічні та літерні позначенняповинні відповідати ГОСТам. Допускається оформлення звіту із застосуванням обчислювальної (комп'ютерної) техніки.

Робоче завдання

Перед проведенням усіх вимірів кожному члену бригади необхідно вивчити правила використання спортивної гриДартс, наведені в додатку 7, які необхідні для проведення наведених нижче етапів досліджень.

І – й етап досліджень«Дослідження результатів влучень у мету спортивної гри Дартс кожним членом бригади на відповідність нормальному законурозподілу за критерієм χ 2Пірсона та критерієм трьохсигм»

1. провести вимір (випробування) своєї (особистої) швидкості та координованості дій, шляхом кидання 30-40 разів дротиків в кругову мету спортивної гри Дартс.

2. Результати вимірів (випробувань) x i(в окулярах) оформити у вигляді варіаційного рядуі занести до таблиці 4.1 (стовпці, виконати все необхідні розрахунки, заповнити необхідні таблиці та зробити відповідні висновки на відповідність отриманого емпіричного розподілунормальному закону розподілу, за аналогією з аналогічними розрахунками, таблицями та висновками прикладу 2.12, наведеного у розділі 2 даних методичних вказівок на сторінках 7-10.

Таблиця 4.1

Відповідність швидкості та координованості дій випробуваних нормальному закону розподілу

№ п/п округлено
Усього

ІІ – й етап досліджень

«Оцінка середніх показників генеральної сукупності влучень у мету спортивної гри Дартс всіх студентів навчальної групи за результатами вимірів членів однієї бригади»

Оцінити середні показники швидкості та координованості дій усіх студентів навчальної групи (відповідно до списку навчальної групи класного журналу) за результатами влучень у мету спортивної гри Дартс всіх членів бригади, отриманим першому етапі досліджень цієї лабораторної роботи.

1. Оформити результати вимірювань швидкості та координованості дій при киданні дротиків у кругову мішень спортивної гри Дартс всіх членів Вашої бригади (2 – 4 особи), які є вибіркою результатів вимірювань з генеральної сукупності (результати вимірювань усіх студентів навчальної групи – наприклад, 15 осіб), занісши їх у другий і третій стовпці таблиці 4.2.

Таблиця 4.2

Обробка показників швидкості та координованості дій

членів бригади

№ п/п
Усього

У таблиці 4.2 під слід розуміти , середня кількість балів, що збіглася (Див. результати розрахунків за таблицею 4.1) членами Вашої бригади ( , отримане першому етапі досліджень. Слід зауважити, що, як правило, у таблиці 4.2 є розраховане середнє значення результатів вимірювань, отримане одним членом бригади на першому етапі досліджень , так як ймовірність, що результати вимірювань різними членамибригади збігатимуться дуже мала. Тоді, як правило, значення у стовпці таблиці 4.2 для кожного з рядків - дорівнюють 1, а у рядку «Усього » графи « », записується кількість членів Вашої бригади.

2. Виконати всі необхідні розрахунки із заповнення таблиці 4.2, а також інші розрахунки та висновки, аналогічні розрахункам та висновкам прикладу 2.13, наведеним у 2-му розділі даної методичної розробкина сторінках 13-14. Слід мати на увазі, при розрахунку помилки репрезентативності "m" необхідно використовувати формулу 2.4, наведену на сторінці 13 даної методичної розробки, оскільки вибірка мала (n, а кількість елементів генеральної сукупності N відома, і дорівнює кількості студентів навчальної групи, згідно зі списком журналу навчальної групи.

ІІІ – й етап досліджень

Оцінка ефективності розминки за показником «Швидкість та координованість дій» кожним членом бригади за допомогою критерію Стьюдента

Оцінити ефективність розминки з кидання дротиків на мету спортивної гри «Дартс», виконану першому етапі досліджень даної лабораторної роботи, кожним членом бригади за показником «Швидкість і координованість дій», з допомогою критерію Стьюдента - параметричного критерію розподілу закону емпіричного закону .

… Усього

2. дисперсії та СКО , результатів вимірювань показника «Швидкість та координованість дій» за результатами розминки, наведених у таблиці 4.3, (Див. аналогічні розрахунки наведені відразу після таблиці 2.30 прикладу 2.14 на сторінці 16 даної методичної розробки).

3. Кожному члену робочої бригади провести вимір (випробування) своєї (особистої) швидкості та координованості дій після розминки,

… Усього

5. Здійснити обчислення середнього значення дисперсії та СКО ,результатів вимірювань показника «Швидкість та координованість дій» після розминки, наведених у таблиці 4.4, записати в цілому результат вимірювань за результатами розминки (Див. аналогічні розрахунки, наведені відразу після таблиці 2.31 прикладу 2.14 на сторінці 17 даної методичної розробки).

6. Виконати всі необхідні розрахунки та висновки, аналогічні розрахункам та висновкам прикладу 2.14, наведеним у 2-му розділі даної методичної розробки на сторінках 16-17. Слід мати на увазі, при розрахунку помилки репрезентативності "m" необхідно використовувати формулу 2.1, наведену на сторінці 12 даної методичної розробки, оскільки вибірка n, а кількість елементів генеральної сукупності N (невідомо).

IV – й етап досліджень

Оцінка однотипності (стабільності) показників «Швидкість та координованість дій» двох членів бригади за допомогою критерію Фішера

Оцінити однотипність (стабільність) показників «Швидкість та координованість дій» двох членів бригади за допомогою критерію Фішера за результатами вимірювань, отриманими на третьому етапі досліджень даної лабораторної роботи.

Для цього потрібно виконати таке.

Використовуючи дані таблиць 4.3 та 4.4, результати розрахунків дисперсій за цими таблицями, отримані на третьому етапі досліджень, а також методику розрахунку та застосування критерію Фішера для оцінки однотипності (стабільності) спортивних показників, наведену у прикладі 2.15 на сторінках 18-19 цієї методичної розробки, зробити відповідні статистичний та педагогічний висновки.

V - й етап досліджень

Оцінка груп показників «Швидкість та координованість дій» одного члена бригади до та після розминки

Основні риси будь-якої залежності між змінними.

Можна відзначити два найбільш простих властивостейзалежності між змінними: (a) величина залежності та (b) надійність залежності.

- Величина . Величину залежності легше зрозуміти та виміряти, ніж надійність. Наприклад, якщо будь-який чоловік у вибірці мав значення числа лейкоцитів (WCC) вище ніж будь-яка жінка, ви можете сказати, що залежність між двома змінними (Пол і WCC) дуже висока. Іншими словами, ви могли б передбачити значення однієї змінної за значеннями іншої.

- Надійність ("Істинність"). Надійність взаємозалежності – менш наочне поняття, ніж величина залежності, проте надзвичайно важливе. Надійність залежності безпосередньо пов'язана із репрезентативністю певної вибірки, на основі якої будуються висновки. Іншими словами, надійність говорить про те, наскільки ймовірно, що залежність буде знову виявлена ​​(іншими словами, підтвердиться) на даних іншої вибірки, витягнутої з тієї самої популяції.

Слід пам'ятати, що кінцевою метоюмайже ніколи не є вивчення даної конкретної вибірки значень; вибірка цікавить лише остільки, оскільки вона дає інформацію про всій популяції. Якщо дослідження задовольняє деяким спеціальним критеріям, то надійність знайдених залежностей між змінними вибірками можна кількісно оцінити та подати за допомогою стандартного статистичного заходу.

Величина залежності та надійність становлять дві різні характеристики залежностей між змінними. Проте не можна сказати, що вони абсолютно незалежні. Чим більша величина залежності (зв'язку) між змінними у вибірці звичайного обсягу, тим більше вона надійна (див. наступний розділ).

Статистична значимість результату (p-рівень) є оціненою мірою впевненості у його " істинності " (у сенсі " репрезентативності вибірки " ). p align="justify"> Висловлюючись більш технічно, p-рівень - це показник, що знаходиться в спадній залежності від надійності результату. Більше високий p-рівеньвідповідає нижчому рівню довіри до знайденої у вибірці залежності між змінними. Саме p-рівень є ймовірністю помилки, пов'язаної з поширенням спостережуваного результату на всю популяцію.

Наприклад, p-рівень = 0.05(Тобто 1/20) показує, що є 5% ймовірність, що знайдена у вибірці зв'язок між змінними є лише випадковою особливістю даної вибірки. У багатьох дослідженнях p-рівень 0.05 сприймається як " прийнятна межа " рівня помилки.

Не існує ніякого способу уникнути свавілля після ухвалення рішення про те, який рівень значущості слід дійсно вважати "значущим". Вибір певного рівня значимості, вище якого результати відкидаються як хибні, досить довільним.



Насправді остаточне рішення зазвичай залежить від цього, був результат передбачений апріорі (тобто. до проведення досвіду) чи виявлено апостеріорно внаслідок багатьох аналізів і порівнянь, виконаних з безліччю даних, і навіть на традиції, що у цій галузі досліджень.

Зазвичай у багатьох областях результат p .05 є прийнятною межею статистичної значущості, проте слід пам'ятати, що цей рівень все ще включає ймовірність помилки (5%).

Результати, значущі лише на рівні p .01 зазвичай розглядаються як статистично значущі, а результати з рівнем p .005 чи p . 001 як значні. Однак слід розуміти, що дана класифікація рівнів значущості досить довільна і є лише неформальною угодою, прийнятою на основі практичного досвіду. у тій чи іншій галузі дослідження.

Зрозуміло, що чим більша кількістьаналізів буде проведено із сукупністю зібраних даних, тим більше значущих (на обраному рівні) результатів буде виявлено суто випадково.

Деякі статистичні методи, що включають багато порівнянь, і, таким чином, мають значний шанс повторити такі помилки, роблять спеціальне коригування або поправку на загальну кількість порівнянь. Тим не менш, багато статистичних методів (особливо прості методирозвідувального аналізу даних) не пропонують будь-якого способу вирішення цієї проблеми.

Якщо зв'язок між змінними "об'єктивно" слабка, то немає іншого способу перевірити таку залежність, крім дослідити вибірку великого обсягу. Навіть якщо вибірка є абсолютно репрезентативною, ефект не буде статистично значущим, якщо вибірка мала. Аналогічно, якщо залежність "об'єктивно" дуже сильна, тоді вона може бути виявлена ​​з високим ступенемзначимості навіть у дуже невеликій вибірці.

Чим слабкіша залежність між змінними, тим більшого обсягу потрібна вибірка, щоб значуще її виявити.

Розроблено багато різних заходів взаємозв'язку між змінними. Вибір певної міри у конкретному дослідженні залежить від кількості змінних, використовуваних шкал виміру, природи залежностей тощо.

Більшість цих заходів, проте, підкоряються загальному принципу: вони намагаються оцінити залежність, що спостерігається, порівнюючи її з "максимальною мислимою залежністю" між аналізованими змінними. Технічно кажучи, звичайний спосіб виконати такі оцінки полягає в тому, щоб подивитися, як варіюються значення змінних і потім підрахувати, яку частину всієї наявної варіації можна пояснити наявністю "загальної" ("спільної") варіації двох (або більше) змінних.

Значимість залежить переважно від обсягу вибірки. Як уже пояснювалося, у дуже великих вибірках навіть дуже слабкі залежності між змінними будуть значущими, тоді як у малих вибірках навіть дуже сильні залежності не є надійними.

Таким чином, щоб визначити рівень статистичної значущості, потрібна функція, яка представляла б залежність між "величиною" і "значимістю" залежності між змінними для кожного обсягу вибірки.

Така функція вказала б точно "наскільки можливо отримати залежність даної величини (або більше) у вибірці даного обсягу, припущення, що в популяції такої залежності немає". Іншими словами, ця функція давала б рівень значущості
(p -рівень), і, отже, можливість помилково відхилити припущення про відсутність цієї залежності у популяції.

Ця "альтернативна" гіпотеза (що полягає в тому, що немає залежності у популяції) зазвичай називається нульовою гіпотезою.

Було б ідеально, якби функція, яка обчислює ймовірність помилки, була лінійною і мала лише різні нахили для різних обсягів вибірки. На жаль, ця функція значно складніша і не завжди точно одна і та ж. Проте, здебільшого її форма відома, і її можна використовувати визначення рівнів значимості щодо вибірок заданого розміру. Більшість цих функцій пов'язані з класом розподілів, що називаються нормальним .



Останні матеріали розділу:

Як ставилися мужики найближчих сіл до Бірюка: причини та несподіваний фінал Бірюк та мужик-злодій
Як ставилися мужики найближчих сіл до Бірюка: причини та несподіваний фінал Бірюк та мужик-злодій

Твори за твором Бірюк Бірюк і мужик-злодій Розповідь «Бірюк», написана І. С. Тургенєвим в 1848 році, увійшла до збірки «Записки мисливця».

Примара замку Гламіс: а чи був він насправді?
Примара замку Гламіс: а чи був він насправді?

Відповідями до завдань 1–24 є слово, словосполучення, число чи послідовність слів, чисел. Запишіть відповідь праворуч від номера завдання.

Доповідь: Пржевальський Микола Михайлович
Доповідь: Пржевальський Микола Михайлович

Цю пошукову роботу про сім'ю Пржевальських Михайло Володимирович писав до останніх хвилин свого життя. Багато що сьогодні бачиться інакше. Але наприкінці...