§13. Статистичне розподілення вибірки

План:

1. Завдання математичної статистики.

2. Види вибірок.

3. Методи відбору.

4. Статистичне розподілення вибірки.

5. Емпірична функція розподілу.

6. Полігон та гістограма.

7. Числові характеристики варіаційного ряду.

8. Статистичні оцінки параметрів розподілу.

9. Інтервальні оцінки параметрів розподілу.

1. Завдання та методи математичної статистики

Математична статистика - це розділ математики, присвячений методам збору, аналізу та обробки результатів статистичних даних спостережень для наукових та практичних цілей.

Нехай потрібно вивчити сукупність однорідних об'єктів щодо деякої якісної чи кількісної ознаки, що характеризує ці об'єкти. Наприклад, якщо є партія деталей, то якісною ознакою може бути стандартність деталі, а кількісним- контрольований розмір деталі.

Іноді проводять суцільне дослідження, тобто. обстежують кожен об'єкт щодо необхідної ознаки. Насправді суцільне обстеження застосовується рідко. Наприклад, якщо сукупність містить дуже багато об'єктів, то провести суцільне обстеження фізично неможливо. Якщо обстеження об'єкта пов'язані з його знищенням чи потребують великих матеріальних витрат, проводити суцільне обстеження немає сенсу. У таких випадках випадково відбирають із усієї сукупності обмежену кількість об'єктів (вибіркову сукупність) і піддають їх вивченню.

Основне завдання математичної статистики полягає у дослідженні всієї сукупності за вибірковими даними залежно від поставленої мети, тобто. вивчення імовірнісних властивостей сукупності: закону розподілу, числових характеристик тощо. для ухвалення управлінських рішень в умовах невизначеності.

2. Види вибірок

Генеральна сукупність - Це сукупність об'єктів, з якої проводиться вибірка.

Вибіркова сукупність (вибірка) - Це сукупність випадково відібраних об'єктів.

Обсяг сукупності - Це кількість об'єктів цієї сукупності. Обсяг генеральної сукупності позначається N, вибірковою - n.

Приклад:

Якщо з 1000 деталей відібрано для обстеження 100 деталей, обсяг генеральної сукупності N = 1000, а обсяг вибірки n = 100.

При складанні вибірки можна надійти двома способами: після того, як об'єкт відібраний і над ним зроблено спостереження, він може бути повернутий або не повернутий у генеральну сукупність. Т.о. вибірки поділяються на повторні та безповторні.

Повторнийназивають вибірку, коли відібраний об'єкт (перед відбором наступного) повертається у генеральну сукупність.

Безповторнийназивають вибірку, коли відібраний об'єкт у генеральну сукупність не повертається.

Насправді зазвичай користуються безповторним випадковим добором.

Для того, щоб за даними вибірки можна було досить впевнено судити про ознаку генеральної сукупності, що цікавить, необхідно, щоб об'єкти вибірки правильно його представляли. Вибірка має правильно представляти пропорції генеральної сукупності. Вибірка має бути репрезентативної (представницької).

Через закон великих чисел можна стверджувати, що вибірка буде репрезентативною, якщо її здійснювати випадково.

Якщо обсяг генеральної сукупності досить великий, а вибірка становить лише незначну частину цієї сукупності, то різницю між повторної і безповторної вибірками стирається; в граничному випадку, коли розглядається нескінченна генеральна сукупність, а вибірка має кінцевий обсяг, ця різниця зникає.

Приклад:

В американському журналі «Літературний огляд» за допомогою статистичних методів було проведено дослідження прогнозів щодо результату майбутніх виборів президента США у 1936 році. Претендентами цей пост були Ф.Д. Рузвельт та А. М. Ландон. Як джерело для генеральної сукупності досліджуваних американців було взято довідники телефонних абонентів. З них випадково було обрано 4 мільйони адрес., за якими редакція журналу розіслала листівки з проханням висловити своє ставлення до кандидатів на пост президента. Опрацювавши результати опитування, журнал опублікував соціологічний прогноз про те, що на майбутніх виборах із великою перевагою переможе Ландон. І… помилився: перемогу здобув Рузвельт.
Цей приклад можна як приклад нерепрезентативної вибірки. Річ у тім, що у першій половині ХХ століття телефони мала лише заможна частина населення, які підтримували погляди Ландона.

3. Способи відбору

На практиці застосовуються різні способи відбору, які можна поділити на 2 види:

1. Відбір не вимагає розчленування генеральної сукупності на частини (а) простий випадковий безповторний; б) простий випадковий повторний).

2. Відбір, у якому генеральна сукупність розбивається на частини. (а) типовий відбір; б) механічний відбір; в) серійний відбір).

Простим випадковим називають такою відбір, при якому об'єкти витягуються по одному з усієї генеральної сукупності (випадково).

Типовимназивають відбір, у якому об'єкти відбираються не з усієї генеральної сукупності, та якщо з її «типової» частини. Наприклад, якщо деталь виготовляють на кількох верстатах, то відбір виробляють не з усієї сукупності деталей, вироблених усіма верстатами, а з продукції кожного верстата окремо. Таким добором користуються тоді, коли обстежуваний ознака помітно коливається у різних «типових» частинах генеральної сукупності.

Механічнимназивають відбір, у якому генеральну сукупність «механічно» ділять стільки груп, скільки об'єктів має увійти вибірку, та якщо з кожної групи відбирають один об'єкт. Наприклад, якщо потрібно відібрати 20 % виготовлених верстатом деталей, то відбирають кожну 5 деталь; якщо потрібно відібрати 5% деталей-кожну 20-ту і т.д. Іноді такий відбір може не забезпечувати репрезентативність вибірки (якщо відбирають кожен 20-й валик, що обточується, причому відразу ж після відбору проводиться заміна різця, то відібраними виявляться всі валики, обточені затупленими різцями).

Серійнимназивають відбір, при якому об'єкти відбирають із генеральної сукупності не по одному, а «серіями», які піддають суцільному обстеженню. Наприклад, якщо вироби виготовляються великою групою верстатів-автоматів, піддають суцільному обстеженню продукцію лише кількох верстатів.

Насправді часто застосовують комбінований відбір, у якому поєднуються зазначені вище способи.

4. Статистичне розподілення вибірки

Нехай із генеральної сукупності вилучено вибірку, причому значення x 1-Спостерігалося раз, x 2 -n 2 раз, ... x k - N k разів. n = n 1 +n 2 +...+n k – обсяг вибірки. Значення, що спостерігаютьсяназиваються варіантами, А послідовність варіант, записаних у зростаючому порядку- варіаційним рядом. Числа спостереженьназиваються частотами (абсолютними частотами), а їхнє ставлення до обсягу вибірки- відносними частотамиабо статистичними ймовірностями.

Якщо кількість варіант велике чи вибірка виробляється з безперервної генеральної сукупності, то варіаційний ряд складається за окремими точковими значеннями, а, по інтервалам значень генеральної сукупності. Такий варіаційний ряд називається інтервальним.Довжини інтервалів при цьому мають бути рівними.

Статистичним розподілом вибірки називається перелік варіантів і відповідних їм частот або відносних частот.

Статистичне розподіл можна задати також як послідовності інтервалів і відповідних їм частот (суми частот, які у цей інтервал значень)

Точковий варіаційний ряд частот може бути представлений таблицею:

x i
x 1
x 2

x k
n i
n 1
n 2

n k

Аналогічно можна уявити точковий варіаційний ряд відносних частот.

Причому:

Приклад:

Число літер у деякому тексті Х виявилося рівним 1000. Першою зустрілася буква «я», другою-літера «і», третьою-літера «а», четвертою-«ю». Потім йшли літери "о", "е", "у", "е", "и".

Випишемо місця, які вони займають в алфавіті, відповідно маємо: 33, 10, 1, 32, 16, 6, 21, 31, 29.

Після впорядкування цих чисел за зростанням отримуємо варіаційний ряд: 1, 6, 10, 16, 21, 29, 31, 32, 33.

Частоти появи букв у тексті: "а" - 75, "е" -87, "і" - 75, "о" - 110, "у" - 25, "и" - 8, "е" - 3, "ю" »- 7, «я»-22.

Складемо точковий варіаційний ряд частот:

Приклад:

Задано розподіл частот вибірки обсягу n = 20.

Складіть точковий варіаційний ряд відносних частот.

x i

2

6

12

n i

3

10

7

Рішення:

Знайдемо відносні частоти:


x i

2

6

12

w i

0,15

0,5

0,35

При побудові інтервального розподілу існують правила вибору числа інтервалів чи величини кожного інтервалу. Критерієм тут служить оптимальне співвідношення: зі збільшенням кількості інтервалів поліпшується репрезентативність, але збільшується обсяг даних, і час їх обробку. Різниця x max - x min між найбільшим та найменшим значеннями варіант називають розмахомвибірки.

Для підрахунку кількості інтервалів k зазвичай застосовують емпіричну формулу Стреджесса (маючи на увазі округлення до найближчого зручного цілого): k = 1 + 3.322 lg n.

Відповідно, величину кожного інтервалу h можна обчислити за формулою:

5. Емпірична функція розподілу

Розглянемо деяку вибірку із генеральної сукупності. Нехай відомий статистичний розподіл частот кількісної ознаки Х. Введемо позначення: n x- Число спостережень, при яких спостерігалося значення ознаки, менше х; n – загальна кількість спостережень (обсяг вибірки). Відносна частота події Х<х равна n x /n. Якщо змінюється, то змінюється і відносна частота, тобто. відносна частотаn x /n- Є функція від х. Т.к. вона знаходиться емпіричним шляхом, вона називається емпіричною.

Емпіричною функцією розподілу (функцією розподілу вибірки) називають функцію, Що визначає для кожного х відносну частоту події Х<х.


де число варіант, менших х,

n – обсяг вибірки.

На відміну від емпіричної функції розподілу вибірки, функцію розподілу F (x ) генеральної сукупності називають теоретичною функцією розподілу.

Відмінність між емпіричною та теоретичною функціями розподілу полягає в тому, що теоретична функція F (x ) визначає ймовірність події Х F*(x)прагне ймовірності до ймовірності F (x ) цієї події. Тобто при великому n F*(x)і F (x) мало відрізняються один від одного.

Т.о. доцільно використовувати емпіричну функцію розподілу вибірки для наближеного уявлення теоретичної (інтегральної) функції розподілу генеральної сукупності.

F*(x)має всі властивості F(x).

1. Значення F*(x)належать інтервалу.

2. F * (x) - Незменшується функція.

3. Якщо - найменша варіанта, то F * (x) = 0, при х < x 1; якщо x k - Найбільша варіанта, то F * (x) = 1, при х > x k .

Тобто. F*(x)служить для оцінки F(x).

Якщо вибірка задана варіаційним рядом, то емпірична функція має вигляд:

Графік емпіричної функції називається кумулятою.

Приклад:

Побудуйте емпіричну функцію даного розподілу вибірки.


Рішення:

Обсяг вибірки n = 12 + 18 +30 = 60. Найменша варіанта 2, тобто. при х < 2. Подія X<6, (x 1 = 2) наблюдалось 12 раз, т.е. F * (x) = 12/60 = 0,2при 2 < x < 6. Подія Х<10, (x 1 =2, x 2 = 6) наблюдалось 12 + 18 = 30 раз, т.е.F*(x)=30/60=0,5 при 6 < x < 10. Т.к. х = 10 найбільша варіанта, то F * (x) = 1при х>10. Шукана емпірична функція має вигляд:

Кумулята:


Кумулята дає можливість розуміти графічно подану інформацію, наприклад, відповісти на запитання: «Визначте число спостережень, при яких значення ознаки було менше 6 або не менше 6. F*(6) =0,2 » Тоді число спостережень, при яких значення ознаки, що спостерігається, було менше 6 дорівнює 0,2 * n = 0,2 * 60 = 12. Число спостережень, при яких значення спостерігається ознаки було не менше 6 дорівнює (1-0,2) * n = 0,8 * 60 = 48.

Якщо заданий інтервальний варіаційний ряд, то складання емпіричної функції розподілу знаходять середини інтервалів і з них отримують емпіричну функцію розподілу аналогічно точковому варіаційному ряду.

6. Полігон та гістограма

Для наочності будують різні графіки статистичного розподілу: поліном та гістограми

Полігон частот-це ламана, відрізки якої з'єднують точки ( x 1 ; n 1 ), ( x 2 ; n 2 ), ..., ( x k ; n k ), де - варіанти, - відповідні їм частоти.

Полігон відносних частот-це ламана, відрізки якої з'єднують точки (x1; w1), (x2; w2), ..., (xk; wk), де x i -варіанти, w i - відповідні їм відносні частоти.

Приклад:

Побудуйте поліном відносних частот за цим розподілом вибірки:

Рішення:

У разі безперервної ознаки доцільно будувати гістограму, для чого інтервал, в якому укладені всі значення ознаки, що спостерігаються, розбивають на кілька часткових інтервалів довжиною h і знаходять для кожного часткового інтервалу n i – суму частот варіант, що потрапили в i-ий інтервал. (Наприклад, при вимірі зростання людини або ваги ми маємо справу з безперервною ознакою).

Гістограма частот-це ступінчаста фігура, що складається з прямокутників, основами яких служать часткові інтервали довжиною h, а висоти дорівнюють відношенню (щільність частот).

Площа i -го часткового прямокутника дорівнює- сумі частот варіант i - го інтервалу, тобто. площа гістограми частот дорівнює сумі всіх частот, тобто. обсягу вибірки.

Приклад:

Дано результати зміни напруги (у вольтах) в електромережі. Складіть варіаційний ряд, побудуйте полігон і гістограму частот, якщо значення напруги такі: 227, 215, 230, 232, 223, 220, 228, 222, 221, 226, 226, 215, 218, 222, 22 , 217, 220.

Рішення:

Складемо варіаційний ряд. Маємо n = 20, x min = 212, x max = 232.

Застосуємо формулу Стреджесу для підрахунку числа інтервалів.

Інтервальний варіаційний ряд частот має вигляд:


Щільність частот

212-21 6

0,75

21 6-22 0

0,75

220-224

1,75

224-228

228-232

0,75

Побудуємо гістограму частот:

Побудуємо полігон частот, знайшовши попередньо середини інтервалів:


Гістограмою відносних частотназивають ступінчасту фігуру, що складається з прямокутників, основами яких є часткові інтервали довжиною h, а висоти рівні відношенню w i/h (Щільність відносної частоти).

Площа i-го часткового прямокутника дорівнює-відносній частоті варіант, що потрапили в i-ий інтервал. Тобто. площа гістограми відносних частот дорівнює сумі відносних частот, тобто. одиниці.

7. Числові характеристики варіаційного ряду

Розглянемо основні характеристики генеральної та вибіркової сукупностей.

Генеральним середнімназивається середнє арифметичне значень ознаки генеральної сукупності.

Для різних значень x 1 x 2 x 3 … x n . ознаки генеральної сукупності обсягу N маємо:

Якщо значення ознаки мають відповідні частоти N 1 +N 2 +…+N k =N ,


Вибірковим середнімназивається середнє арифметичне значень ознаки вибіркової сукупності.

Якщо значення ознаки мають відповідні частоти n 1 +n 2 +…+n k = n, то


Приклад:

Обчисліть середнє вибіркове для вибірки: x 1 = 51,12; x 2 = 51,07; x 3 = 52,95; x 4 = 52,93; x 5 = 51,1; x 6 = 52,98; x7 = 52,29; x 8 = 51,23; x9 = 51,07; x 10 = 51,04.

Рішення:

Генеральною дисперсієюназивається середнє арифметичне квадратів відхилень значень ознаки Х генеральної сукупності від генерального середнього.

Для різних значень x 1 x 2 x 3 … x N ознаки генеральної сукупності обсягу N маємо:

Якщо значення ознаки мають відповідні частоти N 1 +N 2 +…+N k =N ,

Генеральним середньоквадратичним відхиленням (стандартом)називають квадратний корінь із генеральної дисперсії

Вибірковою дисперсієюназивається середнє арифметичне квадратів відхилень значень ознаки від середнього значення.

Для різних значень x 1 x 2 x 3 … x n ознаки вибіркової сукупності обсягу n маємо:


Якщо значення ознаки мають відповідні частоти n 1 +n 2 +…+n k = n, то


Вибірковим середньоквадратичним відхиленням (стандартом)називається квадратний корінь із вибіркової дисперсії.


Приклад:

Вибіркова сукупність задана таблицею розподілу. Знайдіть вибіркову дисперсію.


Рішення:

Теорема: Дисперсія дорівнює різниці середнього квадратів значень ознаки та квадрата загального середнього.

Приклад:

Знайдіть дисперсію за цим розподілом.



Рішення:

8. Статистичні оцінки параметрів розподілу

Нехай генеральна сукупність досліджується певною вибіркою. При цьому можна отримати лише наближене значення невідомого параметра Q, який є його оцінкою. Очевидно, що оцінки можуть змінюватися від однієї вибірки до іншої.

Статистичною оцінкоюQ *невідомого параметра теоретичного розподілу називається функція f, яка залежить від значень вибірки, що спостерігаються. Завданням статистичного оцінювання невідомих параметрів за вибіркою полягає у побудові такої функції від наявних даних статистичних спостережень, яка давала б найточніші наближені значення реальних, не відомих досліднику значень цих параметрів.

Статистичні оцінки поділяються на точкові та інтервальні, залежно від способу їх надання (числом чи інтервалом).

Точковою називають статистичну оцінкупараметра Q теоретичного розподілу, що визначається одним значенням параметра Q *=f (x 1 , x 2 , ..., x n), деx 1 , x 2 , ..., x n- Результати емпіричних спостережень над кількісною ознакою Х деякої вибірки.

Такі оцінки параметрів, отримані за різними вибірками, найчастіше відрізняються одна від одної. Абсолютна різницю /Q *-Q / називають помилкою вибірки (оцінювання).

Для того, щоб статистичні оцінки давали достовірні результати про оцінювані параметри, необхідно, щоб вони були незміщеними, ефективними та заможними.

Точкова оцінка, математичне очікування якої дорівнює (не дорівнює) оцінюваному параметру, називається незміщеною (зміщеною). М(Q *) = Q.

Різниця М( Q *)-Q називають зміщенням чи систематичною помилкою. Для незміщених оцінок систематична помилка дорівнює 0.

Ефективною оцінку Q *, яка при заданому обсязі вибірки n має найменшу можливу дисперсію: D min (n = const). Ефективна оцінка має найменший розкид у порівнянні з іншими незміщеними та заможними оцінками.

Заможноюназивають таку статистичну оцінку Q*, яка при nпрагне ймовірності до оцінюваного параметра Q , тобто. зі збільшенням обсягу вибірки n оцінка прагне ймовірності до справжнього значення параметра Q.

Вимога спроможності узгоджується із законом великих числа: що більше вихідної інформації про досліджуваному об'єкті, то точніше результат. Якщо обсяг вибірки малий, то точкова оцінка параметра може призвести до серйозних помилок.

Будь-яку вибірку (обсягуn)можна розглядати як упорядкований набірx 1 , x 2 , ..., x nнезалежних однаково розподілених випадкових величин.

Вибіркові середні для різних вибірок обсягу n з однієї й тієї самої генеральної сукупності будуть різні. Т. е. вибіркове середнє можна розглядати як випадкову величину, а значить, можна говорити про розподіл вибіркового середнього та його числові характеристики.

Вибіркове середнє задовольняє всім накладеним до статистичних оцінок вимог, тобто. дає незміщену, ефективну та заможну оцінку генерального середнього.

Можна довести, що. Таким чином, вибіркова дисперсія є зміщеною оцінкою генеральної дисперсії, даючи занижене значення. Т. е. при невеликому обсязі вибірки вона даватиме систематичну помилку. Для незміщеної, заможної оцінки достатньо взяти величину, яку називають виправленою дисперсією Т. е.

На практиці для оцінки генеральної дисперсії застосовують виправлену дисперсію при n < 30. В інших випадках ( n >30) відхилення від малопомітно. Тому при великих значеннях n помилкою усунення можна знехтувати.

Можна також довести, що відносна частотаn i / n є незміщеною та заможною оцінкою ймовірності P (X = x i ). Емпірична функція розподілу F * (x ) є незміщеною та заможною оцінкою теоретичної функції розподілу F (x) = P (X< x ).

Приклад:

Знайдіть незміщені оцінки математичного очікування та дисперсії за таблицею вибірки.

x i
n i

Рішення:

Об'єм вибірки n =20.

Незміщеною оцінкою математичного очікування є середнє вибіркове.


Для обчислення незміщеної оцінки дисперсії спочатку знайдемо вибіркову дисперсію:

Тепер знайдемо незміщену оцінку:

9. Інтервальні оцінки параметрів розподілу

Інтервальної називається статистична оцінка, яка визначається двома числовими значеннями-кінцями досліджуваного інтервалу.

Число> 0, у якому | Q - Q * |< , характеризує точність інтервальної оцінки

Довірчимназивається інтервал , який із заданою ймовірністюпокриває невідоме значення параметра Q . Доповнення довірчого інтервалу до багатьох можливих значень параметра Q називається критичною областю. Якщо критична область розташована лише з одного боку від довірчого інтервалу, то довірчий інтервал називається одностороннім: лівостороннімякщо критична область існує тільки зліва, і правостороннім-якщо лише справа. В іншому випадку, довірчий інтервал називається двостороннім.

Надійністю, чи довірчою ймовірністю, оцінки Q (за допомогою Q *) називають ймовірність, з якою виконується така нерівність: | Q - Q * |< .

Найчастіше довірчу ймовірність задають заздалегідь (0,95; 0,99; 0,999) і неї накладають вимога бути близькою до одиниці.

Ймовірністьназивають ймовірністю помилки, чи рівнем значимості.

Нехай | Q - Q * |< тоді. Це означає, що з ймовірністюможна стверджувати, що дійсне значення параметра Q належить інтервалу. Чим менша величина відхилення, Тим точніше оцінка.

Межі (кінці) довірчого інтервалу називають довірчими кордонами, чи критичними кордонами.

Значення меж довірчого інтервалу залежить від закону розподілу параметра Q*.

Величину відхиленнярівну половині ширини довірчого інтервалу, називають точністю оцінки.

Методи побудови довірчих інтервалів уперше розроблено американським статистом Ю. Нейманом. Точність оцінки, довірча ймовірність та обсяг вибірки n зв'язані між собою. Тому, знаючи конкретні значення двох величин, можна обчислити третю.

Знаходження довірчого інтервалу з метою оцінки математичного очікування нормального розподілу, якщо відомо середньоквадратичне відхилення.

Нехай зроблено вибірку з генеральної сукупності, підпорядкованої закону нормального розподілу. Нехай відоме генеральне середньоквадратичне відхилення, але невідомо математичне очікування теоретичного розподілу a ().

Справедлива наступна формула:

Тобто. за заданим значенням відхиленняможна знайти, з якою ймовірністю невідоме генеральне середнє належить інтервалу. І навпаки. З формули видно, що при зростанні обсягу вибірки та фіксованій величині довірчої ймовірності величина- Зменшується, тобто. точність оцінки зростає. Зі збільшенням надійності (довірчої ймовірності), величина-Збільшується, тобто. точність оцінки зменшується.

Приклад:

В результаті випробувань були отримані такі значення -25, 34, -20, 10, 21. Відомо, що вони підпорядковуються закону нормального розподілу із середньоквадратичним відхиленням 2. Знайдіть оцінку а* для математичного очікування а. Побудуйте для нього 90% довірчий інтервал.

Рішення:

Знайдемо незміщену оцінку

Тоді


Довірчий інтервал для має вигляд: 4 – 1,47< a< 4+ 1,47 или 2,53 < a < 5, 47

Знаходження довірчого інтервалу з метою оцінки математичного очікування нормального розподілу, якщо невідомо середньоквадратичне відхилення.

Нехай відомо, що генеральна сукупність підпорядкована закону нормального розподілу, де невідомі а і. Точність довірчого інтервалу, що покриває з надійністюсправжнє значення параметра а, у разі обчислюється по формуле:

, де n - обсяг вибірки, , - Коефіцієнт Стьюдента (його слід знаходити за заданими значеннями n та з таблиці "Критичні точки розподілу Стьюдента").

Приклад:

В результаті випробувань були отримані наступні значення -35 -32 -26 -35 -30 -17. Відомо, що вони підпорядковуються закону нормального розподілу. Знайдіть довірчий інтервал для математичного очікування, а генеральної сукупності з довірчою ймовірністю 0,9.

Рішення:

Знайдемо незміщену оцінку.

Знайдемо.

Тоді

Довірчий інтервал набуде вигляду(-29,2 - 5,62; -29,2 + 5,62) або (-34,82; -23,58).

Знаходження довірчого інтерлу для дисперсії та середньоквадратичного відхилення нормального розподілу

Нехай із деякої генеральної сукупності значень, розподіленої за нормальним законом, взято випадкову вибірку обсягуn < 30, для якої обчислені вибіркові дисперсії: зміщената виправлена ​​s 2. Тоді для знаходження інтервальних оцінок із заданою надійністюдля генеральної дисперсіїDгенерального середньоквадратичного відхиленнявикористовуються такі формули.


або,

Значення- Знаходять за допомогою таблиці значень критичних точокрозподілу Пірсона.

Довірчий інтервал дисперсії перебуває з цих нерівностей шляхом зведення всіх частин нерівності в квадрат.

Приклад:

Було перевірено якість 15 болтів. Припускаючи, що помилка під час їх виготовлення підпорядкована нормальному закону розподілу, причому вибіркове середньоквадратичне відхиленнярівно 5 мм, визначити з надійністюдовірчий інтервал для невідомого параметра

Межі інтервалу представимо у вигляді подвійної нерівності:

Кінці двостороннього довірчого інтервалу для дисперсії можна визначити і без виконання арифметичних дій за заданим рівнем довіри та обсягом вибірки за допомогою відповідної таблиці (Кордони довірчих інтервалів для дисперсії в залежності від кількості ступенів свободи та надійності). Для цього отримані з таблиці кінці інтервалу множать виправлену дисперсію s 2.

Приклад:

Вирішимо попереднє завдання іншим способом.

Рішення:

Знайдемо виправлену дисперсію:

За таблицею «Кордони довірчих інтервалів для дисперсії в залежності від числа ступенів свободи та надійності» знайдемо межі довірчого інтервалу для дисперсії приk=14 і: нижня межа 0,513 та верхня 2,354.

Помножимо отримані межі наs 2 і витягнемо корінь (бо нам потрібен довірчий інтервал не для дисперсії, а для середньоквадратичного відхилення).

Як видно з прикладів, величина довірчого інтервалу залежить від способу його побудови та дає близькі між собою, але неоднакові результати.

При вибірках досить великого обсягу (n>30) межі довірчого інтервалу для генерального середньоквадратичного відхилення можна визначити за такою формулою: - деяке число, яке табульоване та наводиться у відповідній довідковій таблиці.

Якщо 1- q<1, то формула имеет вид:

Приклад:

Розв'яжемо попереднє завдання третім способом.

Рішення:

Раніше було знайденоs= 5,17. q(0,95; 15) = 0,46 – знаходимо за таблицею.

Тоді:

Нехай для вивчення кількісної (дискретної або безперервної) ознаки Х з генеральної сукупності вилучено вибірку, причому значення x 1 спостерігалося n 1 раз, значення x 2 спостерігалося n 2 ​​раз, …, значення x k спостерігалося n k разів.

Спостерігаються значення x i (i = 1, 2, …, n) ознаки Х називають варіантами, а послідовність всіх варіантів, записаних у зростаючому порядку, – варіаційним рядом. Числа спостережень n i називають частотами, їх сума ─ Об `єм вибірки. Відношення частот до обсягу вибірки ─ відносними частотами.

Статистичним розподілом вибіркиназивають перелік варіант x i варіаційного ряду та відповідних їм частот n i (сума всіх частот дорівнює обсягу вибірки n) або відносних частот W i (сума всіх відносних частот дорівнює одиниці). Статистичне розподіл можна задати також як послідовності інтервалів і відповідних їм частот (як частоти, відповідної інтервалу, приймають суму частот, які у цей інтервал).

Зауважимо, що теоретично ймовірностей під розподілом розуміють відповідність між можливими значеннями випадкової величини та його ймовірностями, а математичної статистиці – відповідність між спостеріганими варіантами та його частотами (чи відносними частотами).

приклад. Задано розподіл частот вибірки об'єму n = 20:

У цій вибірці отримані такі варіанти x 1 = 2; x 2 = 6; x 3 = 12,

відповідні частоти n1 = 3; n 2 = 10; n3 = 7.

Напишемо розподіл відносних частот.

Рішення. Знайдемо відносні частоти, навіщо розділимо частоти обсяг вибірки = 3 + 10 + 7 = 20.

─ відносні частоти:

Напишемо розподіл відносних частот:

Контроль: сума всіх відносних частот дорівнює одиниці:

§14. Емпірична функція розподілу

Нехай відомий статистичний розподіл частот кількісної ознаки Х. Введемо позначення: число спостережень, у яких спостерігалося значення ознаки, менше х; n – загальна кількість спостережень (обсяг вибірки). Зрозуміло, що відносна частота події Х<х равна . Если х изменяется, то, вообще говоря, изменится и относительная частота, то есть относительная частотаесть функция от х. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Визначення. Емпірична функція розподілу(функція розподілу вибірки) – функція F * (x), що визначає для кожного значення х відносну частоту події X

де - число варіант, менших х; n - обсяг вибірки.

Наприклад, щоб знайти F * (x 2), треба число варіант, менших x 2 , розділити обсяг вибірки:

На відміну від емпіричної функції розподілу вибірки, функцію розподілу F(x) генеральної сукупності називають теоретичною функцією розподілу. Відмінність між емпіричною та теоретичною функціями полягає в тому, що теоретична функція F(x) визначає ймовірність події X

З теореми Бернуллі випливає, що відносна частота події X . Вже звідси випливає доцільність використання емпіричної функції розподілу вибірки для наближеного представлення теоретичної (інтегральної) функції розподілу генеральної сукупності. Такий висновок підтверджується і тим, що F * (x) має всі властивості F (x).

З визначення функції F * (x) випливають такі властивості:

    Значення емпіричної функції належить відрізку;

    F * (x) - незнижена функція;

    Якщо x 1 ─ найменша варіанта, то F * (x) = 0 за х< х 1 ;

якщо х k ─ найбільший варіант, то F * (x) = 1 при х > x k .

Отже, емпірична функція розподілу вибірки служить з метою оцінки теоретичної функції розподілу генеральної сукупності.

приклад. Побудувати емпіричну функцію щодо даного розподілу вибірки:

Варіанти

Частоти

Рішення. Знайдемо обсяг вибірки (сума всіх частот ni):

n = n 1 + n 1 + n 1 = 12 + 18 + 30 = 60.

Найменша варіанта дорівнює 2 (x 1 = 2), отже, F * (x) = 0 при х ≤ 2 (за якістю 3 функції F * (x));

значення, менші за 6 (х<6), а именно x 1 = 2, наблюдались n 1 = 12 раз, следовательно, при 2

значення х<10, а именно x 1 = 2, x 1 = 2 наблюдались n 1 + n 2 = 12 + 18 = 30 раз, следовательно при 6<х≤10.

Оскільки х =10 – максимальна варіанта, то F * (x) = 1 при х>10 (за якістю 4 функції F * (x)).

Шукана емпірична функція має вигляд:

Нижче наведено графік отриманої емпіричної функції.

На графіці на відповідних осях відкладають значення функції F * (x) та інтервали варіант

Рис. 5. Графік емпіричної функції.

Різні статистичні оцінки вибірки є вибірковими оцінками відповідних показників випадкової величини.

Вибіркове середнє (позначається як М або ) є оцінкою математичного очікування і визначається як середнє арифметичне всіх елементів вибірки:

M = .

Вибіркове середнє можна виразити через частоти різних елементів вибірки:

M = p 1 x 1 + … + p n x n,

де у підсумовуванні беруть участь лише різні значення х і.

Вибіркове середнє має тим властивістю, що сума відхилень всіх спостережень від цього числа дорівнює 0, тобто спостереження, що перевищують середнє, врівноважуються спостереженнями, значення яких нижче середнього.

Приклад 5. Для вибірки, що складається з 8 значень: 1, 1, 3, 4, 8, 9, 10, 12 середня рівна (1 + 1+ 3 + 4 + 8 + 9+10+ 12)/8 = 48/8 = 6 .

Важливу роль під час аналізу зв'язків між змінними грає сума квадратів відхилень спостережень від середнього (позначається як SS):

SS = (x 1 -M) 2 + ... + (x n - M) 2

У практичних розрахунках зручно користуватися іншим виразом суми квадратів (одержуваним з вихідного шляхом тотожних перетворень):

SS = (x 1 2 – 2M x 1 M 2) + … + (x n 2 - 2M x n M 2) = (x 1 2 + … + x n 2) – 2M (x 1 + … + x n) + nM 2 =

= (x 1 2 + … + x n 2) – nM 2 .

Вибірковою оцінкою дисперсії (позначається як S 2 , σ 2) є сума квадратів відхилень, поділена на кількість спостережень за вирахуванням 1:

S 2 = .

Ця оцінка дисперсії є незміщеною (тобто її математичне очікування збігається із справжнім значенням дисперсії випадкової величини). Іноді як вибіркову оцінку дисперсії використовують величину SS /п. Теоретично статистичного оцінювання доводиться, що ця оцінка є зміщеною, тому краще користуватися оцінкою, наведеною вище. У різних комп'ютерних системах аналізу даних, починаючи від калькуляторів із вбудованими статистичними функціями, реалізовано різні варіанти оцінки дисперсії - зміщену або незміщену (у деяких випадках обидві), на що слід звертати увагу.

Середньоквадратичне (стандартне) відхилення середнього (позначається як S, σ) визначається як квадратний корінь з дисперсії:

S = .

Приклад 6. Для вибірки прикладу 5.

SS = (1 – 6) 2 + (1 - 6) 2 + (3 – 6) 2 + (4 – 6) 2 + (8 – 6) 2 + (9 – 6) 2 + (10 – 6) 2 + (12 – 6) 2 =

= (-5) 2 + (-5) 2 + (-3) 2 +2 2 + 2 2 +3 2 + 4 2 + 6 2 = 128,

S 2= SS/7 = 18,29

S = = 4,28

Вибіркове середнє чутливе до «екстремальних» значень, які сильно відхиляються від інших значень вибірки. Тим паче чутливі до появи нетипових для вибірки значень оцінки, що характеризують розсіювання щодо середнього.


Приклад 7. Якби в варіаційному ряду з прикладу 5 останнє значення становило не 12, а 42, то вибіркове середнє дорівнювало б 9,75 (тобто збільшилося б на 22%), а стандартне відхилення - 13,5 (збільшення більш ніж у 3 рази).

Вищезгадана ситуація ілюструє той факт, що на практиці завжди корисно уважно ставитися до первинних даних і перш ніж використовувати математичні алгоритми статистичного аналізу, візуально оцінювати їх якість, наявність «екстремальних» відхилень, можливість виникнення артефактів і відповідно приймати рішення про те, варто чи здійснювати статистичну обробку, чи, можливо, повторити експеримент. Іноді в таких випадках відкидаються крайні значення вибірки і подальший аналіз проводиться без них, але це рішення має бути свідомим та обґрунтованим.

При описі експериментальних даних у літературі нерідко наводиться така характеристика як стандартна помилка середнього (зазвичай позначається як т, а діапазон значень середнього з урахуванням помилки вказується у вигляді М±т). Стандартна помилка середнього визначається як стандартне відхилення, поділене на корінь квадратний із спостережень:

M = .

Ця величина, на відміну від інших розглядуваних у даному пункті оцінок, не є оцінкою якого-небудь з параметрів розподілу випадкової величини, але характеризує точність оцінки середнього за наявними даними. Стандартна помилка середнього залежить від числа спостережень: зі збільшенням числа випробувань вона зменшується (до скільки завгодно малих величин при досить великих п). Наведена вище формула для оцінки стандартної помилки середнього справедлива лише нормального розподілу.

Медіаною вибірки називається число, котрим кількість спостережень, перевищують його, дорівнює кількості спостережень, менших його. Для визначення медіани вибірка має бути впорядкована за зростанням. Якщо число спостережень непарно, за медіану приймається середній по порядку елемент варіаційного ряду, а якщо парно - середнє арифметичне між двома найближчими значеннями варіаційного ряду, рівновіддаленими від його початку і кінця. Вибіркові квартилі визначаються як числа, що розбивають варіаційний ряд на 4 групи з однаковим числом спостережень. Для вибірок з більшим (у кілька сотень) числом спостережень аналогічним чином можна визначити квантили.

Медіана більш стійка до появи у вибірці екстремальних значень, ніж середнє вибіркове.

Приклад 8. Для вибірки з прикладу 5 медіана дорівнює 5-го значення варіаційного ряду, тобто 8. При заміні останнього значення варіаційного ряду з 12 на 42 медіана не змінюється.

Вибірковою модою для дискретної випадкової величини називається таке значення x k, частота появи якого у вибірці більше, ніж будь-яких інших значень. Вибірка може мати більш ніж одну моду. У разі безперервної випадкової величини моду визначають кік середину інтервалу, в який потрапило найбільше спостережень. Результати визначення моди у разі залежить від вибору числа інтервалів.

Мода, на відміну медіани і середнього, дуже чутлива немає до екстремальним, а до типовим для даної вибірки значенням. Тому визначати вибіркову моду має сенс лише за дуже великих (близько кількох сотень) обсягах вибірок.

Приклад 9. Для вибірки з прикладу 5 мода дорівнює 1. При зміні 6-го значення з 9 на 10 з'явилася друга мода, рівна 10, тоді як медіана вибірки не змінилася б, а середнє збільшилося б незначно (на 0,125).

Вибіркове середнє, медіана та мода є оцінками положення центру розподілу. Для кількісних змінних можна обчислити всі три оцінки. Співвідношення між цими оцінками несуть важливу інформацію про вид розподілу (збіг медіани та середнього свідчить про симетричність розподілу, наявність неєдиної моди – про неоднорідність вибірки), тому при описі експериментальних даних має сенс обчислювати їх усі.

Для якісних змінних єдиною можливою характеристикою центрального розподілу є мода.

Приклад 10. Зі 100 обстежених групи крові О, А, В та АВ мали, відповідно, 43, 30, 18 та 9 осіб. Отже, модальною для цієї вибірки є група крові Про.

Для порядкових змінних основним показником центру розподілу є також мода. Обчислення середнього та медіани формально можливе, але, взагалі кажучи, некоректно, оскільки результатами таких обчислень можуть виявитися числа, що не належать до безлічі допустимих значень дискретної випадкової величини (наприклад, дробові, тоді як дискретним величинам приписують, як правило, лише цілочисельні значення). Тим не менш, і в цьому випадку визначення медіани як кордону, що розбиває вибірку на дві рівночисленні підгрупи, може бути корисним. Якщо значення медіани не збігається з жодним з рівнів напівкількісної змінної, вона показує, між якими рівнями проходить такий кордон.

Якщо інтервали між сусідніми значеннями ординальної змінної рівномірні, припустимо обчислення середнього. У цьому випадку величина середнього показує не тільки між якими сусідніми значеннями перебуває середньоймовірне вибіркове значення, але й до якого з цих значень вона ближча.

Вирішуючи питання, чи слід обчислювати і наводити середнє значення для змінних, що вимірюються в бальних шкалах, необхідно уточнювати, чи є шкала рівномірною. У деяких випадках (особливо у психологічних дослідженнях) градуювання шкал спеціально виробляють не з міркувань рівномірності шкали, а так, щоб вона відповідала розбиттю населення на рівночисленні групи (наприклад, 5-бальна шкала будується таким чином, щоб кожному її рівню відповідало 20% населення) . Зустрічається також градуювання шкали у фіксованих частках від стандартного відхилення (яке визначається за досить великою групою, на яку підтверджено валідність тесту).

Приклад 11.У табл. 4.1 наведено результати опитування, проведеного серед двох однакових за чисельністю, статевим і віковим складом та соціально-економічним статусом груп населення, що проживають на територіях, одна з яких характеризується високим рівнем забруднення води та ґрунту.

Якісним градаціям стану здоров'я можна зіставити оцінки за 5-бальною шкалою (наведені в таблиці в дужках), причому цю шкалу можна вважати більш менш рівномірною. Тоді можна обчислити оцінки положення центру розподілу обох груп. Модальне значення оцінки для обох груп дорівнює 3. Медіани обох груп також збігаються і дорівнюють 3 (50 і 51 значення варіаційного ряду в обох випадках відповідають цій величині оцінки). Відмінності розподілу оцінок у двох групах виявляються лише у відмінності середніх:

для першої групи М = 0,02 1 + 0,18 2 + 0,35 3 + 0,29 4 + 0,16 5 = 0,02 +

0,36 + 1,05 + 1,16 + 0,80 = 3,39;

для другої групи М = 0,12 1 + 0,22 2 + 0,41 3 + 0,19 4 + 0,06 5 = 0,12 +

0,44 + 1,23 + 0,76 + 0,30 = 2,85.

Таким чином, середньоймовірний стан здоров'я для жителів незабрудненої території перебуває між задовільним та добрим, а для забрудненої території – між поганим та задовільним, тобто. вибіркове середнє, обчислення якого в даному випадку досить коректне, виявилося єдиною оцінкою, що вловлює відмінності в стані здоров'я (при даному способі оцінки) між територіями з різним рівнем забруднення.

Таблиця 4.1

Результати самооцінки стану здоров'я у двох вибіркових групах



Останні матеріали розділу:

Основний план дій та способи виживання Вночі тихо, вдень вітер посилюється, а надвечір затихає
Основний план дій та способи виживання Вночі тихо, вдень вітер посилюється, а надвечір затихає

5.1. Поняття про місце існування людини. Нормальні та екстремальні умови життєпроживання. Виживання 5.1.1. Поняття про довкілля людини...

Англійські звуки для дітей: читаємо транскрипцію правильно
Англійські звуки для дітей: читаємо транскрипцію правильно

А ви знали, що англійський алфавіт складається з 26 літер та 46 різних звуків? Одна й та сама буква може передавати кілька звуків одночасно.

Контрольний тест з історії на тему Раннє Середньовіччя (6 клас)
Контрольний тест з історії на тему Раннє Середньовіччя (6 клас)

М.: 2019. – 128 с. М.: 2013. – 160 с. Посібник включає тести з історії Середніх віків для поточного та підсумкового контролю та відповідає змісту...