Емпірична функція розподілу. Емпірична функція розподілу, властивості

Лекція 13. Поняття про статистичні оцінки випадкових величин

Нехай відомий статистичний розподіл частот кількісної ознаки X. Позначимо через число спостережень, у яких спостерігалося значення ознаки, менше x і n – загальна кількість спостережень. Очевидно, відносна частота події X< x равна и является функцией x. Так как эта функция находится эмпирическим (опытным) путем, то ее называют эмпирической.

Емпіричною функцією розподілу(функцією розподілу вибірки) називають функцію , що визначає для кожного значення x відносну частоту події X< x. Таким образом, по определению ,где - число вариант, меньших x, n – объем выборки.

На відміну від емпіричної функції розподілу вибірки, функцію розподілу генеральної сукупності називають теоретичною функцією розподілу.Відмінність між цими функціями полягає в тому, що теоретична функція визначає ймовірністьподії X< x, тогда как эмпирическая – відносну частотуцієї ж події.

У разі зростання n відносна частота події X< x, т.е. стремится по вероятности к вероятности этого события. Иными словами

Властивості емпіричної функції розподілу:

1) Значення емпіричної функції належать відрізку

2) - незнижена функція

3) Якщо - найменша варіанта, то = 0 при , якщо - найбільша варіанта, то = 1 при .

Емпірична функція розподілу вибірки служить з метою оцінки теоретичної функції розподілу генеральної сукупності.

приклад. Побудуємо емпіричну функцію щодо розподілу вибірки:

Варіанти
Частоти

Знайдемо обсяг вибірки: 12+18+30=60. Найменша варіанта дорівнює 2, тому =0 при x £ 2. Значення x<6, т.е. , наблюдалось 12 раз, следовательно, =12/60=0,2 при 2< x £6. Аналогично, значения X < 10, т.е. и наблюдались 12+18=30 раз, поэтому =30/60 =0,5 при 6< x £10. Так как x=10 – наибольшая варианта, то =1 при x>10. таким чином, шукана емпірична функція має вигляд:

Найважливіші властивості статистичних оцінок

Нехай потрібно вивчити деяку кількісну ознаку генеральної сукупності. Припустимо, що з теоретичних міркувань вдалося встановити, яке самерозподіл має ознаку та необхідно оцінити параметри, якими воно визначається. Наприклад, якщо досліджуваний ознака розподілено в генеральній сукупності нормально, потрібно оцінити математичне очікування і середнє квадратичне відхилення; якщо ознака має розподіл Пуассона – необхідно оцінити параметр l.

Зазвичай є дані вибірки, наприклад значення кількісного ознаки , отримані в результаті n незалежних спостережень. Розглядаючи як незалежні випадкові величини можна сказати що знайти статистичну оцінку невідомого параметра теоретичного розподілу - означає знайти функцію від випадкових величин, що спостерігаються, яка дає наближене значення оцінюваного параметра. Наприклад, для оцінки математичного очікування нормального розподілу роль функції виконує середнє арифметичне



Для того щоб статистичні оцінки давали коректні наближення параметрів, що оцінюються, вони повинні задовольняти деяким вимогам, серед яких найважливішими є вимоги незміщеності і спроможності оцінки.

Нехай – статистична оцінка невідомого параметра теоретичного розподілу. Нехай за вибіркою обсягу n знайдено оцінку. Повторимо досвід, тобто. вилучимо з генеральної сукупності іншу вибірку того ж обсягу та за її даними отримаємо іншу оцінку. Повторюючи досвід багаторазово, отримаємо різні числа. Оцінку можна як випадкову величину, а числа - як її можливі значення.

Якщо оцінка дає наближене значення з надлишком, тобто. кожне число більше істинного значення, як наслідок, математичне очікування (середнє значення) випадкової величини більше, ніж :. Аналогічно, якщо дає оцінку з нестачею, то.

Таким чином, використання статистичної оцінки, математичне очікування якої не дорівнює параметру, що оцінюється, призвело б до систематичних (одного знака) помилок. Якщо, навпаки, то це гарантує від систематичних помилок.

Незміщеною називають статистичну оцінку, математичне очікування якої дорівнює параметру, що оцінюється при будь-якому обсязі вибірки.

Зміщеноюназивають оцінку, що не задовольняє цю умову.

Несмещенность оцінки ще гарантує отримання хорошого наближення для оцінюваного параметра, оскільки можливі значення може бути сильно розпорошені довкола свого середнього значення, тобто. дисперсія може бути значною. У цьому випадку знайдена за даними однієї вибірки оцінка, наприклад, може виявитися значно віддаленою від середнього значення, а значить, і від параметра, що оцінюється.

Ефективною називають статистичну оцінку, яка, за заданого обсягу вибірки n, має найменшу можливу дисперсію .

При розгляді вибірок великого обсягу до статистичних оцінок висувається вимога спроможності .

Заможною називається статистична оцінка, яка при n®¥ прагне ймовірності оцінюваного параметра. Наприклад, якщо дисперсія незміщеної оцінки при n® прагне до нуля, то така оцінка виявляється і заможною.

Ознака y

Емпіричний розподіл

Емпірична та теоретична функції розподілу

При вибірковому дослідженні розподіл значень безперервної ознаки yу генеральній сукупності невідомо.

Утворимо деяку вибірку значень ознаки уі збудуємо по ній дискретний ряд розподілу (табл. 1.10.1). Цей розподіл називається емпіричним, оскільки воно отримано емпірично (вимірюванням ознаки yу одиниць вибірки) .

Таблиця 1.10.1

Варіанти - Частоти -
n

Для будь-якого числа хз числового проміжку позначимо через число значень ознаки yу вибірці, менших числа х. Відношення є відносною частотою події:

Кожному числу хвідповідає лише одна відносна частота. Тому визначено функцію:

то, знаючи функцію (1.10.1), можна знайти емпіричний розподіл відносних частот значень ознаки у. Тому функція (1.10.1) називається емпіричною функцією розподілу.

приклад 1.10.1.Побудуємо емпіричну функцію розподілу ознаки yзнаючи його розподіл у вибірці (табл. 1.10.2).

Таблиця 1.10.2

Об'єм вибірки дорівнює 60.

Значення ознаки yменше числа 2, не спостерігалося. Тому і, отже, при.

Значення ознаки yменше числа 6, тобто. спостерігалося 12 разів. Тому і, отже, при.

Значення ознаки y, Менші числа 10, тобто. та спостерігалися 12+18 =30 разів. Тому і, отже, при.

Так як - найбільша варіанта, то при і, отже, за.

Таким чином, емпіричною функцією даного розподілу є функція

Графік функції (1.10.3) зображено на рис. 1.10.5.

x
1

Мал. 1.10.5. Графік функції (1.10.3)

З формул (1.10.2) випливає, що функція (1.10.3) визначає емпіричний розподіл з варіантами, і відповідними відносними частотами 0,2 (0,2-0), 0,3 (0,5-0,2), 0,5 (1-0,5).

Функція (1.10.1) має такі властивості:

1) функція визначена на всій числовій осі;

2) функція - незнижена;

3) якщо - найменша варіанта, то при;

4) якщо - найбільша варіанта, то за.

При необмеженому збільшенні обсягу вибірки nвідносна частота прагне ймовірності події: значення ознаки y менше числа х, а функція (1.10.1) наближається до функції, значеннями якої є ймовірність події: значення ознаки y менше від числа х.



Функція називається теоретичною функцієюрозподілу, вона визначає теоретичнерозподіл значень ознаки yу генеральній сукупності.

У математичній статистиці доводиться, що теоретична функція безперервного розподілу диференційована. Похідна називається функцією щільності ймовірностей, а її графік - теоретичної кривоїрозподілу.

При необмеженому збільшенні обсягу вибірки полігон відносних частот прагне теоретичної кривої розподілу. Тому полігон відносних частот називається також емпіричної кривоїрозподілу.

Теоретичний розподіл можна як математичну модель емпіричного розподілу, у якій виключені впливу випадкових чинників. З іншого боку, емпіричну функцію розподілу ознаки уу вибірці можна використовувати для наближеного представлення теоретичної функції ознаки уу генеральній сукупності.

30. Теоретичні та емпіричні розподіли як моделі рядів розподілу

Емпіричний розподіл відрізняється від теоретичного тим, що

на значення ознаки у ньому впливають випадкові чинники. Зі збільшенням

обсягу статистичної сукупності вплив випадкових факторів

слабшає, і емпіричний розподіл все менш відрізняється від

теоретичного.

Для оцінки близькості розподілів використовуються спеціальні

показники – критерії згоди. Вони засновані на використанні

різних заходів відстаней між емпіричним та теоретичним

розподілом.

Якщо потрібно отримати теоретичні частоти f" при вирівнюванні варіаційного ряду за кривою нормального розподілу, то можна скористатися формулою

де – сума всіх емпіричних частот варіаційного ряду; h - величина інтервалу у групах; - Середнє квадратичне відхилення; - нормоване відхилення варіантів від середньої арифметичної; всі інші величини легко обчислюються за спеціальними таблицями.

За допомогою цієї формули ми отримуємо теоретичний (імовірнісний) розподіл, замінюючи їм емпіричний (фактичний) розподіл, за характером вони не повинні відрізнятися один від одного.

При вирівнюванні емпіричних даних теоретичні частоти можна визначити за формулою

Порівнюючи отримані величини теоретичних частот f" c емпіричними (фактичними) частотами f, переконуємося, що їх розбіжності можуть бути невеликими.

Об'єктивну характеристику відповідності теоретичних та емпіричних частот можна отримати за допомогою спеціальних статистичних показників, які називають критеріями згоди.

Для оцінки близькості емпіричних та теоретичних частот застосовуються критерій згоди Пірсона, критерій згоди Романовського, критерій згоди Колмогорова.

Найбільш поширеним є критерій згоди К. Пірсона, який можна представити як суму відносин квадратів розбіжностей між f" і f до теоретичних частот:

(7.10)

Обчислене значення критерію слід порівняти з табличним (критичним) значенням . Табличне значення визначається за спеціальною таблицею, воно залежить від прийнятої ймовірності Р та числа ступенів свободи k (при цьому k = m - 3, де m - число груп у ряді розподілу для нормального розподілу). При розрахунку критерію згоди Пірсона має дотримуватися така умова: досить великою має бути кількість спостережень (n 50), при цьому, якщо в деяких інтервалах теоретичні частоти 5.

Якщо розбіжності між емпіричними і теоретичними частотами розподілу можуть бути випадковими і припущення про близькість емпіричного розподілу до нормального не може бути відкинуто.

У разі, якщо відсутні таблиці з метою оцінки випадковості розбіжності теоретичних і емпіричних частот, можна використовувати критерій згоди В.І. Романовського КРом, який, використовуючи величину, запропонував оцінювати близькість емпіричного розподілу кривої нормального розподілу за допомогою відносини

теоретичного розподілу, обчислюється за формулою

де D - максимальне значення різниці між накопиченими емпіричними та теоретичними частотами; - Сума емпіричних частот.

31 Вибіркове спостереження Годін С 127, помилка вибірки 130

32 Ряди динаміки З 210

33 Згладжування динамічних рядків С 220

Рівняння тренду

Екстраполяція на основі функції тренду, отриманої в результаті аналітичного вирівнювання, відноситься до найбільш поширених та практично застосовуваних методів прогнозування.

Знаходження за наявними даними за певний період деяких відсутніх значень ознаки всередині цього періоду називається інтерполяцією. Знаходження значень ознаки поза аналізованого періоду називається екстраполяцією.

Застосування екстраполяції для прогнозування має ґрунтуватися на припущенні, що знайдена закономірність розвитку всередині динамічного ряду зберігається і поза цим рядом. Це означає, що основні фактори, що сформували виявлену закономірність змін рівнів у часі, збережеться в майбутньому.

При складанні прогнозів рівнів соціально-економічних явищ зазвичай оперують не точковою, а інтервальною оцінкою, розраховуючи так звані довірчі інтервали прогнозу. Межі інтервалів визначаються за формулою

, (1.61)

де - Точковий прогноз, розрахований за моделлю тренду;

коефіцієнт довіри щодо розподілу Стьюдентаза рівня значимості
та числі ступенів свободи = n-1 ;

– помилка апроксимації.

Рівень значущостіпов'язаний з ймовірністю наступною формулою

. (1.62)

Помилка апроксимації(Середнє квадратичне відхилення тренда) визначається за наступною формулою

де і – відповідно фактичні та теоретичні (розрахункові) значення рівнів низки динаміки;

n - Число рівнів ряду;

k - Число параметрів (членів) в рівнянні тренду.

34 Елементи статистичного прогнозування

Різновид математичних методів прогнозування, що дозволяють побудувати динамічні лави на перспективу. Статистичні методи прогнозування охоплюють розробку, вивчення та застосування сучасних математико-статистичних методів прогнозування на основі об'єктивних даних (у тому числі непараметричних методів найменших квадратів з оцінюванням точності прогнозу, адаптивних методів, методів авторегресії та інших); розвиток теорії та практики імовірнісно-статистичного моделювання експертних методів прогнозування, у тому числі методів аналізу суб'єктивних експертних оцінок на основі статистики нечислових даних; розробку, вивчення та застосування методів прогнозування в умовах ризику та комбінованих методів прогнозування з використанням спільно економіко-математичних та економетричних (як математико-статистичних, так і експертних) моделей. Наукова база статистичних методів прогнозування – прикладна статистика та теорія прийняття рішень. Найпростіші методи відновлення використовуваних для прогнозування залежності виходять із заданого часового ряду, тобто функції, визначеної в кінцевому числі точок на осі часу. При цьому часовий ряд часто розглядається в рамках тієї чи іншої ймовірнісної моделі, вводяться інші фактори (незалежні змінні), крім часу, наприклад, обсяг грошової маси. Тимчасовий ряд може бути багатовимірним. Основні розв'язувані завдання - інтерполяція та екстраполяція. Метод найменших квадратів у найпростішому випадку (лінійна функція від одного фактора) був розроблений К. Гауссом у 1794-1795 рр. Можуть виявитися корисними попередні перетворення змінних, наприклад, логарифмування. Найчастіше використовується метод найменших квадратів за кількох чинників. Метод найменших модулів, сплайни та інші методи екстраполяції застосовуються рідше, хоча їх статистичні властивості найчастіше кращі. Накопичено досвід прогнозування індексу інфляції та вартості споживчого кошика. Виявилося корисним перетворення (логарифмування) змінної – поточного індексу інфляції. Оцінювання точності прогнозу (зокрема, за допомогою довірчих інтервалів) – необхідна частина процедури прогнозування. Зазвичай використовують імовірнісно-статистичні моделі відновлення залежності, наприклад, будують найкращий прогноз методом максимальної правдоподібності. Розроблено параметричні (зазвичай на основі моделі нормальних помилок) та непараметричні оцінки точності прогнозу та довірчі межі для нього (на основі Центральної Граничної Теореми теорії ймовірностей). Так, запропоновано непараметричні методи довірчого оцінювання точки накладення (зустрічі) двох часових рядів для оцінки динаміки технічного рівня власної продукції та продукції конкурентів, представленої на світовому ринку. Застосовуються також евристичні прийоми, не засновані на ймовірності статистичної теорії: метод ковзних середніх, метод експоненційного згладжування. Багатомірна регресія, у тому числі з використанням непараметричних оцінок щільності розподілу, - основний зараз статистичний апарат прогнозування. Наголосимо, що нереалістичне припущення про нормальність похибок вимірювань та відхилень від лінії (поверхні) регресії використовувати не обов'язково. Однак для відмови від припущення нормальності необхідно спертися на інший математичний апарат, заснований на багатовимірній Центральній Граничній Теоремі теорії ймовірностей, технології лінеаризації та спадкування збіжності. Він дозволяє проводити точкове та інтервальне оцінювання параметрів, перевіряти значущість їхньої відмінності від нуля в непараметричній постановці, будувати довірчі межі для прогнозу. Дуже важливою є проблема перевірки адекватності моделі, а також проблема відбору факторів.

35 Функціональні та статистичні зв'язкиЗ 146

Статистич. зв'язок-зміна варіації однієї ознаки залежно від другої і => може відбиватися у зміні його середньої величини (кореляц завис-ость) а й будь-який інший характеристики варіації

36 Форми, види, тіснота зв'язків, лінійний коеф. Кореляції. З 156 змін тісноти зв'язку- З 169

Зв'язки: прямолінійна, криволінійна, слабка, помірна, помітна, висока, тісна, дуже тісна, повна зворотна, повна пряма, частково пряма, частково зворотна

прямолінійна

(8.1)

криволінійна у вигляді:

(8.2)

гіперболи

Найпростішим варіантом кореляційної залежності є парна кореляція, тобто. залежність між двома ознаками (результативною та факторною або між двома факторними). Математично цю залежність можна виразити як залежність результативного показника від факторного показника х. Зв'язки можуть бути прямі та зворотні. У першому випадку зі збільшенням ознаки х збільшується і ознака у, при зворотному зв'язку зі збільшенням ознаки х зменшується ознака у.

Найважливішим завданням є визначення форми зв'язку з наступним розрахунком параметрів рівняння, або, інакше, знаходження рівняння зв'язку (рівняння регресії).

Можуть мати місце різні форми зв'язку:

прямолінійна

криволінійна у вигляді:

параболи другого порядку (або вищих порядків)

гіперболи

показової функції

Параметри всіх цих рівнянь зв'язку, зазвичай, визначають із системи нормальних рівнянь, які мають відповідати вимогам методу найменших квадратів (МНК):

Якщо зв'язок виражений параболою другого порядку ( ), то систему нормальних рівнянь для відшукання параметрів a0 , a1 , a2 (такий зв'язок називають множинною, оскільки вона передбачає залежність більш ніж двох факторів) можна подати у вигляді

Інше найважливіше завдання - вимірювання тісноти залежності - для всіх форм зв'язку може бути вирішена за допомогою обчислення емпіричного кореляційного відношення:

(8.7)

де - дисперсія у ряді вирівняних значень результативного показника; - дисперсія у низці фактичних значень у.

Для визначення ступеня тісноти парної лінійної залежності служить лінійний коефіцієнт кореляції, для розрахунку якого можна використовувати, наприклад, такі дві формули:

(8.8)

Лінійний коефіцієнт кореляції може набувати значення в межах від -1 до + 1 або по модулю від 0 до 1. Чим ближче він по абсолютній величині до 1, тим тісніше зв'язок. Знак вказує напрямок зв'язку: "+" - пряма залежність, "-" має місце при зворотній залежності.

37 рівняння парної лінійної кореляції.

Він показує, наскільки тісно дві змінні пов'язані між

Формула для обчислення парного коефіцієнта кореляції:

38 поняття множинної кореляції.

Множинна кореляція - кореляція між однією залежною змінною та комбінацією двох або більше незалежних змінних, яка дає оцінку змішаного впливу на залежну змінну.

такий зв'язок називають множинним, оскільки він передбачає залежність більш ніж двох факторів) можна подати у вигляді

При прямолінійній формі зв'язку коефіцієнт множинної кореляції (сукупний коефіцієнт кореляції за деякою кількістю факторів) може бути обчислений за формулою

де Ry xz – коефіцієнт множинної кореляції у x,z;

ryx, ryz, rxz - повні парні коефіцієнти кореляції факторів-ознаків у, x, z.

У загальному випадку, чим вище значення коефіцієнта множинної кореляції, тим краще підібрано рівняння. Зазвичай, при інтерпретації розрахунків використовується величина R-квадрат (R2, коефіцієнт детермінації).

При припущенні криволінійної залежності слід вибрати (як і при парній кореляції) певний тип кривої лінії та подати її у вигляді виразу алгебри. Наступні розрахунки пов'язані з виявленням показників за формулами прямолінійної залежності у множинні кореляції (регресії). Часто в цих розрахунках вдаються до допомоги логарифмів.

39. Поняття індексів агрегатні та індивідуальні

Індекс - це результат порівняння двох однойменних показників, при обчисленні якого слід розрізняти чисельник індексного відношення (порівнюваний або звітний рівень) та знаменник індексного відношення (базовий рівень, з яким проводиться порівняння). Вибір основи залежить від мети дослідження. Якщо вивчається динаміка, то базисну величину то, можливо взятий розмір показника періоді, попередньому звітному. Якщо необхідно здійснити територіальне порівняння, то за базу можна прийняти дані іншої території. За базу порівняння можуть прийматись планові показники, якщо необхідно використовувати індекси як показники виконання плану

Агрегатні індексиназивають порівняльні відносні величини, які характеризують зміну складних соціально-економічних показників (показники, які з несуммованих елементів) у часі, у просторі, проти планом.

Агрегатний індекс є основною формою зведеного індексу. "Агрегатним" він називається тому, що його чисельник і знаменник являють собою набір "агрегат" (від латинського aggregatus складається, сумується) безпосередньо незрівнянних і не піддаються підсумовування елементів суму творів двох величин, одна з яких змінюється (індексується), а інша залишається незмінною у чисельнику та знаменнику (вага індексу). Вага індексу служить для порівняння величин, що індексуються.

Індивідуальні

Індивідуальні індекси позначаються i та забезпечуються підрядковим знаком індексованого показника: iq – індивідуальний індекс обсягу виробленої продукції окремого виду або кількості (обсягу) проданого товару даного виду, ip індивідуальний індекс цін тощо.

Індивідуальні індекси відносяться до одного елемента (яви) і не вимагають підсумовування даних. Вони являють собою відносні величини динаміки, виконання зобов'язань, порівняння. Вибір основи порівняння визначається метою дослідження.

Розрахунок індивідуальних індексів простий, їх визначають обчисленням відношення двох величин, що індексуються:

ip = Р1/Р0 – індивідуальний індекс цін, де Р1 Р0 – ціни одиниці продукції в поточному (звітному) та базисному періодах.

iq = q1/q0 ~ індивідуальний індекс фізичного обсягу продукції.

41 Середні індекси

Середні індекси – це поєднання індексу в агрегатній формі та індивідуальних індексів. Застосовуються в тому випадку, коли відсутні дані у звітному або базисному періодах.
Якщо відсутні дані про кількість проданих товарів, але зареєстровані показники виторгу та індекси цін на окремі товари, то на базі індексу Пааше можна розрахувати середній гармонійний індекс цін. Виводимо його через індекс Паші

Теоретичною базою для математичної статистики є теорія ймовірностей, яка вивчає закономірності випадкових явищ в абстрактному вигляді. На основі цих закономірностей розробляються моделі або закони розподілу випадкових велич.

Закон розподілу дискретної величини - це завдання ймовірностей її можливих значень X = x i. Закон розподілу безперервної випадкової величини подають у вигляді функції розподілу значень X< x i , т. е. в интегральной форме и в виде плотности распределения. Вероятность отдельного значения непрерывной случайной величины равна 0, а вероятность значений, входящих в заданную градацию, равна приращению функции распределения на участке, занимаемом данной градацией Δх.

Кожен теоретичний розподіл має характеристики, аналогічні характеристикам статистичних розподілів (математичне очікування М, дисперсію D, коефіцієнти варіації, асиметрії та ексцесу). Ці чи інші константи, пов'язані з ними, звуться параметрів розподілу.

Підшукання теоретичного розподілу, що відповідає емпіричному, або «вирівнювання» його є одним із важливих завдань кліматологічної обробки. Якщо знайдено і знайдено вдало теоретичний розподіл, то кліматолог отримує як зручну форму представлення досліджуваної величини, що можна закладати в машинні розрахунки, а й можливість розрахунку характеристик, які у вихідному ряду, а також виявлення певних закономірностей. Так, що спостерігалися в пункті екстремуми, безумовно, цікаві. Однак їх поява в наявній вибірці значною мірою випадкова, тому вони погано картуються і іноді суттєво різняться на сусідніх станціях. Якщо з допомогою знайдених розподілів визначати екстремальні характеристики певної забезпеченості, всі вони значною мірою вільні від зазначених недоліків і тому є більш представницькими. Саме на розрахункових екстремумах ґрунтуються різні нормативні вимоги. Тому пошуку теоретичного розподілу та перевірки його правильності має бути приділено особливу увагу.

Параметри розподілу можна визначити різними способами, найточнішим, але й водночас складним є метод максимуму правдоподібності. У кліматологічній практиці використовується метод моментів.

Статистичні показники розглядаються як оцінки властивостей розподілів, що характеризують генеральну сукупність значень цієї випадкової величини.

Метод моментів визначення оцінок параметрів ось у чому. Математичне очікування, теоретичні коефіцієнти асиметрії та ексцесу просто замінюються емпіричним середнім та емпіричними коефіцієнтами; теоретична дисперсія дорівнює емпіричній, помноженої на . Якщо параметрами служать функції моментів, вони обчислюються по емпіричним моментам.


Розглянемо деякі ймовірні моделі, що часто використовуються в кліматології.

Для дискретних випадкових величин використовуються біномні розподілу та розподілу Пуассона (простий та складний).

Біноміальний розподіл (Бернуллі) виникає в результаті повторення за постійних умов одного і того ж випробування, що має два результати: появи або непояву події (у кліматології, наприклад, відсутність або наявність явища в кожен день року або місяця).

Випадкова дискретна величина розуміється при цьому як число випадків здійснення деякої випадкової події (яви) з n можливих випадків і може набувати значення 0, 1, 2, ..., n.

Аналітичний вираз біномного закону розподілу має вигляд (5.1)

Закон визначає ймовірність того, що подія, ймовірність якого р, спостерігатиметься х разів при n випробуваннях. Наприклад, в кліматології день може бути або з явищем або без явища (з туманом, з певною кількістю опадів, температурою повітря певних градацій і т. д.). У всіх цих випадках можливі два результати, і на запитання, скільки разів спостерігатиметься подія (наприклад, день із туманом), відповідь можна отримати за допомогою біномного закону (5.1). У цьому р приймається рівним р*, т. е. відносної частоті - відношенню числа випадків із явищем загальному числу випадків (формула (2.3)).

Наприклад, якщо розглядається кількість днів із туманом у серпні та по багаторічному ряду встановлено, що в середньому у серпні буває 5 днів із туманом, то відносна частота (імовірність) дня із туманом у серпні (31 день) дорівнює

Параметрами біномного розподілу є n і р, які пов'язані з математичним очікуванням (середнім значенням), середнім квадратичним відхиленням, коефіцієнтами асиметрії та ексцесу цього розподілу такими виразами:

На рис. 5.1 наведено графіки біномного розподілу при різних параметрах n та р.

Розрахуємо, наприклад, користуючись біноміальним законом, ймовірність того, що у серпні на станції спостерігатиметься три дні з туманом, якщо ймовірність утворення туману у будь-який день серпня (тобто відношення середньої кількості днів із туманом у серпні до загального числа днів за місяць ) становить 0,16.

Так як n = 31, а 1 - р = 0,84, за формулою (5.1) отримаємо

p(3)=0.1334≈0.13

Межею біномного розподілу за умови, що розглядаються малоймовірні події у довгій серії незалежних випробувань (спостережень), є розподіл Пуассона.

Випадкова величина, розподілена за законом Пуассона, може набувати ряд значень, що утворюють нескінченну послідовність цілих чисел 0, 1, 2, ∞ з ймовірністю

де? -Параметр, що є математичним очікуванням розподілу.

Закон визначає ймовірність того, що випадкова величина спостерігатиметься х разів, якщо середнє її значення (математичне очікування) дорівнює λ.

Звернімо увагу, що параметром биномиального закону служить ймовірність події р, і тому треба зазначити, з якого загальної кількості випадків n визначається ймовірність р(х). У законі Пуассона параметром є середня кількість випадків за розглядуваний період, тому тривалість періоду безпосередньо не входить у формулу.

Дисперсія розподілу Пуассона і третій центральний момент дорівнюють математичному очікуванню, тобто теж дорівнюють λ.

За великих відмінностей між середнім і дисперсією законом Пуассона користуватися не можна. Розподіл Пуассона затабульований і наводиться у всіх збірниках статистичних таблиць, довідниках та підручниках зі статистики. На рис. 5.2 наведено розподіл числа днів із грозою (рідкісна подія) за законом Пуассона. Для Архангельська за рік λ = 11 днів і за липень λ = 4 дні. Як видно із рис. 5.2 в Архангельську ймовірність восьми днів з грозою в липні становить приблизно 0,03, а ймовірність восьми днів на рік -близько 0,10. Звернімо увагу на одну обставину. Часто середнє число днів з явищем у році λ при λ≤1 трактують як величину, обернену до періоду повторення T (наприклад, λ= 0,3 - один день на три роки, λ = 1-практично щорічно).

Такий «осреднений» підхід загрожує помилками, тим більшим, що більше λ. Навіть якщо дні з явищем не пов'язані між собою, можливі роки не з одним, а з кількома днями. В результаті співвідношення Т = 1/λ виявляється неправильним. Так, при λ= 1 явище, як легко переконатися з формули закону Пуассона, спостерігається не щорічно, а лише у 6-7 роках з 10. Імовірність того, що в році явище спостерігатися не буде, дорівнює ймовірності, що буде один день із явищем (0,37) і майже така сама, як ймовірність, що буде два і більше днів. Тільки при λ≤ 0,2 зазначеним співвідношенням можна користуватися з достатньою основою; тому що ймовірність двох і більше днів на рік у цьому випадку менше 0,02 (рідше, ніж один раз на 50 років).

Застосування закону Пуассона до рідкісних метеорологічним явищ не завжди виявляється корисним. Наприклад, іноді рідкісні явища можуть йти одне за одним унаслідок того, що умови, що їх викликають, зберігаються тривалий час, і умови закону Пуассона не виконуються.

Більше відповідає природі рідкісних метеорологічних явищ складний розподіл Пуассона (негативний біномний розподіл). Воно виникає, коли ряд явищ можна як значення різних випадкових величин (вибірки з різних генеральних сукупностей). Всі ці величини мають розподіл Пуассона, але з різними параметрами 1 , 2 ..., λ k .

Складне розподіл Пуассона залежить з одного боку від розподілу сукупності параметрів, з другого - від розподілу кожної з величин. Вираз для ймовірності у разі даного розподілу має вигляд

(5.2)

або у більш зручній для розрахунків формі

Математичне очікування М та дисперсія D цього розподілу пов'язані з його параметрами γ та λ формулами

(5.3)

Замінюючи величини М і D їх оцінками і отримаємо

(5.4)

Розрахунки p(x) можна спростити, користуючись тим, що існує рівність

, (5.5)

. (5.6)

Отже,

Приклад розрахунку. Розрахуємо розподіл числа днів із сильним вітром на ст. Чулим для липня, якщо = 1 день, = 1,7 дня. Визначимо α та γ:

α≈

γ≈

Імовірність того, що не буде жодного дня з сильним вітром, становитиме

p(0)=

Імовірність того, що буде один день із сильним вітром, дорівнює p(1)= . Графік складного розподілу Пуассон представлений на рис. 5.3.

Для безперервних випадкових величин у кліматології найчастіше використовуються нормальний, логнормальний розподіл, розподіл Шарльє, гамма-розподіл, розподіл Вейбулла та Гумбеля, а також композиційний закон нормальної та рівномірної щільності.

Найбільше теоретичне та практичне значення має нормальний, чи гаусівський, закон розподілу. Цей закон є граничним багатьом інших теоретичних розподілів і утворюється тоді, коли кожне значення випадкової величини можна як суму досить великої кількості незалежних випадкових величин.

Нормальний закон задається виразами для щільності та функції розподілу виду

Емпіричний розподіл відрізняється від теоретичного тим, що на значення ознаки в ньому впливають випадкові фактори. Зі збільшенням обсягу статистичної сукупності вплив випадкових факторів слабшає, і емпіричний розподіл дедалі менше відрізняється від теоретичного.

Для оцінки близькості розподілів використовуються особливі показники – критерії згоди.

Вони засновані на використанні різних відстаней між емпіричним і теоретичним розподілом.

Найчастіше практично застосовують такі критерії згоди:

_ «хі-квадрат» - критерій (критерій Пірсона); формат:

_ "лямбда" - критерій" (критерій Колмогорова).

5.9.1. "Хі-квадрат" - критерій є випадковою величиною, що має розподіл, близьке до розподілу "хі-квадрат". Його величина визначається за такою формулою:

2 = у (ni - nT)2

Чим менше емпіричні та теоретичні частоти в окремих групах відрізняються один від одного, тим менше емпіричний розподіл відрізняється від теоретичного, тобто тим більшою мірою емпіричний та теоретичний розподіл узгоджуються між собою.

Для оцінки суттєвості розрахункової величини «хі-квадрат.» - критерію воно порівнюється з табличним (критичним) значенням х2, що визначається за статистичними таблицями значень х2-

критерію. х2 визначають залежно від рівня значимості а і параметра k = m-т1 -1, де а - ймовірність помилки, ml - число оцінених параметрів теоретичного розподілу за значеннями ознаки, що спостерігаються.

Рівень значущості т вибирається в такий спосіб, що Р(хР > х2)=а.

Зазвичай приймається рівним 0,05 або 0,01, що відповідає ймовірності 95% або 99%.

Якщо хр ^ Xt то вважають, що розподіли близькі один одному,

відмінності між ними несуттєві.

Критерій Пірсона можна використовувати можна при дотриманні форм: спис до наступних умов:

в сукупності не менше 50 одиниць спостереження (N> 50),

теоретичні частоти п, >5,- якщо ця умова не дотримується, слід об'єднати інтервали.

Розрахуємо у таблиці 4.6.

Значення відхилень (nt-nh) та фактичне значення х2-критерію. За розрахунком хр = 1,66. Це значення

порівнюється з табличним, визначеному за числі ступенів свободи k=4 та рівні значимості = 0,05. Воно дорівнює хр = 9,49.

Таким чином, хррозподіли визнаються близькими один одному з ймовірністю 95%, розбіжності між ними - несуттєвими, викликаними випадковою варіацією ознаки в сукупності.

На основі? - критерію може бути розрахований ще один критерій згоди – критерій Романовського:

л/2 (т - 3)"

Емпіричний та теоретичний розподіл визнаються близькими один одному, якщо С 5.9.2. Критерій згоди Колмогорова заснований іншою мірою близькості розподілів. Для оцінки близькості емпіричного розподілу до нормального використовується максимальна різниця між накопиченими емпіричними та накопиченими теоретичними частотами. Розрахункове значення «лямбда»-критерію» визначається за формулою:

де Д = max (N - N)

Nt - накопичена емпірична частота, N,. - Накопичена теоретична частота.

За розрахованим значенням Хр за спеціальною таблиці ймовірностей «лямбда»- критерію» визначається ймовірність того, що емпіричний розподіл, що розглядається, підпорядковується закону нормального розподілу. Для прикладу Д=2 - відповідно до розрахунку, наведеного в таблиці 4.6.

Тоді Яр = -= = = 0,283.

По таблиці ймовірностей Р(Я) визначаємо, що =0,283 відповідає ймовірність Р(Я), близька до 1.

Отримане значення ймовірності свідчить про те, що розбіжність між емпіричним та теоретичним розподілами несуттєві, викликані випадковою варіацією ознаки у статистичній сукупності. В основі емпіричного розподілу робітників за стажем лежить закон нормального розподілу.

Ще на тему 5.9. Оцінка близькості емпіричного та теоретичного розподілів:

  1. Емпіричний та теоретичний рівні політичного знання
  2. Розділ II УПРАВЛІННЯ ПРОДАЖУ В КАНАЛАХ РОЗПОДІЛУ: ТЕОРЕТИЧНІ АСПЕКТИ ГЛАВА 8 Канали розподілу: сутність, функції, види учасників


Останні матеріали розділу:

Як правильно заповнити шкільний щоденник
Як правильно заповнити шкільний щоденник

Сенс читацького щоденника в тому, щоб людина змогла згадати, коли і які книги вона читала, який їх сюжет. Для дитини це може бути своєю...

Рівняння площини: загальне, через три точки, нормальне
Рівняння площини: загальне, через три точки, нормальне

Рівняння площини. Як скласти рівняння площини? Взаємне розташування площин. Просторова геометрія не набагато складніше...

Старший сержант Микола Сиротінін
Старший сержант Микола Сиротінін

5 травня 2016, 14:11 Микола Володимирович Сиротинін (7 березня 1921 року, Орел – 17 липня 1941 року, Кричев, Білоруська РСР) – старший сержант артилерії. У...