Невелика вибірка. Основні статистичні параметри великої та малої вибіркової сукупності та їх характеристика

Вибірки, у яких спостереженням охоплюється невелика кількість одиниць (n< 30), принято называть малыми выборками. Они обычно применяются в том случае, когда невозможно или нецелесообразно использовать большую выборку (исследование качества продукции, если это связано с ее разрушением, в частности на прочность, на продолжительность срока службы и т.д.).

Гранична помилка малої вибірки визначається за такою формулою:

Середня помилка малої вибірки:

де - Дисперсія малої вибірки:

де - Середнє значення ознаки за вибіркою;

Число ступенів свободи

Коефіцієнт довіри малої вибірки, яка залежить не лише від заданої довірчої ймовірності, а й від чисельності одиниць вибірки.

Імовірність того, що генеральна середня знаходиться у певних межах, визначається за формулою

де – значення функції Стьюдента.

Для розрахунку коефіцієнта довіри визначають значення функції за такою формулою:

Потім за таблицею розподілу Стьюдента (див. додаток 4) залежно від значення функції та числа ступенів визначають значення .

Функція використовується також визначення ймовірностей того, що фактичне нормоване відхилення не перевищить табличне значення.


Тема 7. Статистичне вивчення взаємозв'язку: Поняття статистичного зв'язку Види та форми статистичного зв'язку. Завдання статистичного вивчення взаємозв'язку явищ. Особливості зв'язків соціально-економічних явищ. Основні методи статистичного вивчення зв'язків.

Кореляційний зв'язок –зв'язок, що проявляється над кожному окремому випадку, а масі випадків у середніх величинах у вигляді тенденції.

Статистичне дослідження ставить своєю кінцевою метою отримання моделі залежності її практичного використання. Розв'язання цього завдання здійснюється у наступній послідовності.

1. Логічний аналіз сутності досліджуваного явища та причинно-наслідкових зв'язків. В результаті встановлюються результативний показник (у),фактори його зміни, що характеризуються показниками (х ( , х 2 , х 3 ,..., х„).Зв'язок двох ознак і х)називається парною кореляцією. Вплив кількох факторів на результативну ознаку називається множинною кореляцією.

За загальним напрямом зв'язку можуть бути пряміі зворотні. При прямих зв'язках із збільшенням ознаки xзбільшується і ознака у,при зворотних - зі збільшенням ознаки хознака узменшується.

2. Збір первинної інформації та перевірка її на однорідність та нормальність розподілу. Для оцінки однорідності сукупності використовується коефіцієнт варіації за факторними ознаками

Сукупність вважається однорідною, якщо коефіцієнт варіації вбирається у 33%. Перевірка нормальності розподілу досліджуваних факторних ознак ( х ( , х 2 , х 3 ,..., х„)проводиться за допомогою правила "трьох сигм". Результати перевірки на нормальність розподілу слід подавати у табличній формі.

Розглянуті вище прийоми розрахунку характеристик вибіркової сукупності (дисперсії, середньої та граничної помилок тощо) передбачають досить велику чисельність вибірки (п>30). У той самий час який завжди можливий і доцільний великий обсяг вибірки. У практиці виробничих спостережень та у науково-дослідній роботі часто доводиться користуватися невеликими за обсягом вибірками, чисельність яких не перевищує 30 одиниць(Агрономічні та зоотехнічні досліди, перевірка якості продукції, пов'язана зі знищенням зразків та ін.). У статистиці вони одержали назву малих вибірок. Відповідно до вибірки із чисельністю понад 30 одиниць називають великими вибірками.

Невеликий обсяг вибірки зменшує її точність порівняно з великою вибіркою. Проте доведено, що результати, отримані з малими вибірками, можна поширювати на генеральну сукупність. Але тут необхідно враховувати деякі особливості, зокрема при розрахунку середнього квадратичного відхилення. При малому обсязі вибірки слід скористатися незміщеною оцінкою дисперсії 52.

Основи теорії малих вибірок розробив англійський математик-статистик В. Госсет (псевдонім Стьюдент). Дослідження Стьюдента показали, що при невеликій кількості сукупності середнє квадратичне відхилення у вибірці значно відрізняється від середнього квадратичного відхилення в генеральній сукупності.

Оскільки середнє квадратичне відхилення генеральної сукупності одна із параметрів кривої нормального розподілу, використовувати функцію нормального розподілу з метою оцінки параметрів генеральної сукупності за даними малих вибірок з отримання великих помилок неправомірно.

При розрахунку середньої помилки щодо вибірок малої чисельності завжди треба користуватися незміщеною оцінкою дисперсії

де п - 1 - число ступенів свободи варіації (к), під яким розуміють число одиниць, здатних набувати довільних значень, не змінюючи їх загальної характеристики (середньої).

Наприклад, проведено три спостереження: х1= 4; х2 = 2; х3 = 6. Середня величина

Отже, вільно варіюючих величин залишається тільки дві, тому що третя може бути знайдена за відомими двома величинами і середньою:

Отже, для цього прикладу число ступенів свободи варіації дорівнює 2 (к = п - 1 = 3 - 1 = 2).

Стьюдент обґрунтував закон розподілу відхилень вибіркових середніх від генеральної середньої для малих вибірок. Відповідно до розподілу Стьюдента ймовірність того, що гранична помилка не перевищить і-кратну середню помилку в малих вибірках залежить від величини та чисельності вибірки.

Теоретичне нормоване відхилення для малих вибірок отримало назву і-критерію на відміну і-критерію нормального розподілу, який застосовується у великих вибірках. Значення і-критерію Стьюдента наводяться у спеціальних таблицях (додаток 3).

Розглянемо порядок визначення середньої та граничної помилки для малої вибірки на такому прикладі. Припустимо, визначення величини втрат при збиранні картоплі проведено перекопування п'яти випадково відібраних майданчиків по 4 м2. Втрати на майданчиках становили (кг); 0,6; 0,2; 0,8; 0,4; 0,5.

Середня величина втрат

Судячи з окремих спостережень, величина втрат сильно варіює і середня лише з п'яти спостереження може мати велику помилку.

Для розрахунку помилок вибірки визначимо незміщену оцінку дисперсії

Розрахуємо середню помилку вибіркової середньої, де замість середнього квадратичного відхилення використовується його незміщена оцінка:

За таблицями Стьюдента (додаток 3) встановимо, що за довірчої ймовірності Г= 0,95 (рівень значимості а = 0,05) та при до = п - 1 = 5 - 1 = 4 ступенях свободи варіації і= 2,78. Тоді гранична помилка вибірки дорівнює

Отже, з ймовірністю Р = 0,95 можна стверджувати, що величина втрат на всьому полі становитиме 0,5 ± 0,28 кг, або від 0,22 до 0,78 кг із розрахунку на 4 м2.

Як бачимо з прикладу, межі випадкових коливань при малих вибірках досить великі і можуть бути скорочені за рахунок збільшення чисельності вибірки та зменшення коливання (дисперсії) ознаки.

Якби ми використовували для розрахунку довірчих меж генеральної середньої таблиці інтеграла ймовірностей (додаток 2), то ібуло б рівним 1,96 і ех =іІзі = 1,96 o 0,10 = 0,20 кг, тобто. довірчий інтервал був би вужчим (від 0,30 до 0,70 кг).

Малі вибірки через свою невелику чисельність навіть за найретельнішої організації спостереження не відображають досить точно показники генеральної сукупності. Тому результати малих вибірок рідко використовуються встановлення надійних кордонів, у яких перебувають характеристики генеральної сукупності.

Критерій Стьюдента застосовується головним чином для перевірки статистичних гіпотез щодо суттєвості відмінностей між показниками двох або кількох малих вибірок (див. розділ 7).

Статистика малих вибірок (small-sample statistics)

Вважають, що початок С. м. в. або, як її часто називають, статистиці «малих п», було покладено в першому десятилітті XX століття публікацією роботи У. Госсета, в якій він помістив t-розподіл, постульований здобув трохи пізніше світову популярність «студентом». На той час Держсет працював статистиком на пивоварних заводах Гіннесса. Одна з його обов'язків полягала в тому, щоб аналізувати партії бочонків щойно звареного портера, що надходять один за одним. Через те, що він ніколи до ладу не пояснював, Держсет експериментував з ідеєю суттєвого скорочення кількості проб, що відбираються з дуже великої кількості бочок, що знаходяться на складах пивоварні, для вибіркового контролю якості портера. Це й призвело до постулювання t-розподілу. Оскільки статут пивоварних заводів Гіннесса забороняв публікацію їх працівниками результатів дослід. - Звідки і пішла назва t-розподіл Стьюдента).

t-розподіл. Теорія t-розподілу, подібно до теорії z-розподілу, використовується для перевірки нульової гіпотези про те, що дві вибірки є просто випадковими вибірками з однієї генеральної сукупності і, отже, обчислені статистики (напр., середнє і стандартне відхилення) яв-ся незміщеними оцінками властивостей генеральної сукупності. Проте, на відміну теорії нормального розподілу, теорія t-розподілу для малих вибірок не вимагає апріорного знання чи точних оцінок математичного очікування і дисперсії генеральної сукупності. Понад те, хоча перевірка різницю між середніми двох великих вибірок на статистичну значимість вимагає принципового припущення про нормальному розподілі характеристик генеральної сукупності, теорія t-розподілу вимагає допущень щодо параметрів.

Загальновідомо, що нормально розподілені характеристики описуються однією єдиною кривою - кривою Гаусса, яка задовольняє наступному рівнянню:

При t-розподілі ціле сімейство кривих представлене такою формулою:

Ось чому рівняння для t включає гамма-функцію, яка в математиці означає, що при зміні даного рівняння задовольнятиме інша крива.

Ступені свободи

У рівнянні для t літерою п позначається число ступенів свободи (df), пов'язаних з оцінкою дисперсії генеральної сукупності (S2), яка являє собою другий момент будь-якої виробляє функції моментів, такий, напр., як рівняння для t-розподілу. У С. число ступенів свободи вказує на те, скільки характеристик залишилося вільним після їхнього часткового використання в конкретному вигляді аналізу. У t-розподілі одне з відхилень від вибіркового середнього завжди фіксоване, оскільки сума всіх таких відхилень повинна дорівнювати нулю. Це позначається на сумі квадратів при обчисленні вибіркової дисперсії як незміщену оцінку параметра S2 і веде до того, що df виходить рівним числу вимірювань мінус одиниця для кожної вибірки. Звідси, у формулах та процедурах обчислення t-статистики для перевірки нульової гіпотези df = n – 2.

F-pacnрозподіл. Перевірена за допомогою t-критерію нульова гіпотеза полягає в тому, що дві вибірки були випадковим чином вилучені з однієї генеральної сукупності або випадково вилучені з двох різних сукупностей з однаковою дисперсією. А що робити, якщо потрібно провести аналіз більшої кількості груп? Відповідь на це питання шукали протягом двадцяти років після того, як Держсет відкрив t-розподіл. Два найвидатніші статистики XX століття безпосередньо причетні до його отримання. Один – найбільший англійський статистик Р. А. Фішер, який запропонував перші теорет. формулювання, розвиток яких призвело до отримання F-розподілу; Його роботи з теорії малих вибірок, що розвивають ідеї Держсету, були опубліковані в середині 20-х років (Fisher, 1925). Інший - Джордж Снедекор, один із плеяди перших американських статистиків, який розробив спосіб порівняння двох незалежних вибірок будь-якого обсягу за допомогою обчислення відношення двох оцінок дисперсії. Він назвав це ставлення F-відносин на честь Фішера. Результати дослідження. Снедекор привели до того, що F-розподіл став задаватися як розподіл відносин двох статистик с2, кожної зі своїми ступенями свободи:

З цього вийшли класичні роботи Фішера з дисперсійного аналізу – статистичного методу, явно орієнтованого на аналіз малих вибірок.

Вибірковий розподіл F (де п = df) представлений наступним рівнянням:

Як і у випадку t-розподілу, гамма-функція вказує на те, що існує сімейство розподілів, що задовольняють рівняння для F. У цьому випадку, однак, аналіз включає два величини df: число ступенів свободи для чисельника і знаменника F-відносини.

Таблиці для оцінювання t- та F-статистик. При перевірці нульової гіпотези за допомогою С., заснованих на теорії великих вибірок, зазвичай потрібна лише одна довідкова таблиця - таблиця нормальних відхилень (z), що дозволяє визначити площу під нормальною кривою між будь-якими двома значеннями z на осі абсцис. Однак таблиці для t-і F-розподілів за потребою представлені комплектом таблиць, оскільки ці таблиці засновані на безлічі розподілів, отриманих внаслідок варіювання числа ступенів свободи. Хоча t- і F-розподілу є розподілом щільності ймовірності, як і нормальний розподіл для великих вибірок, вони відрізняються від останнього щодо чотирьох моментів, що використовуються для їх опису. t-розподіл, напр., є симетричним (зверніть увагу на t2 у його рівнянні) при всіх df, але стає все більш гострий у міру зменшення обсягу вибірки. Гостровершинні криві (з ексцесом більше нормального) мають тенденцію бути менш асимптотичними (тобто менше наближатися до осі абсцис на кінцях розподілу), ніж криві з нормальним ексцесом, такі як крива Гауса. Ця відмінність призводить до помітних розбіжностей між точками осі абсцис, відповідними значенням t і z. При df = 5 та двосторонньому рівні а, що дорівнює 0,05, t = 2,57, тоді як відповідне z = 1,96. Отже, t = 2,57 свідчить про статистичну значущість на 5% рівні. Однак у разі нормальної кривої z = 2,57 (точніше 2,58) вже вказуватиме на 1% рівень статистичної значущості. Аналогічні порівняння можна провести і з F-розподілом, оскільки t дорівнює F у разі коли число вибірок дорівнює двом.

Що становить «малу» вибірку?

Свого часу було порушено питання про те, який обсяг повинна мати вибірка, щоб її можна було вважати малою. Певної відповіді це питання просто немає. Однак умовною межею між малою і великою вибіркою прийнято вважати df = 30. Підставою для цього певною мірою довільного рішення є результат порівняння t-розподілу з нормальним розподілом. Як зазначалося вище, розбіжність значень t і z має тенденцію зростати зі зменшенням і знижуватися зі збільшенням df. Фактично t починає тісно наближатися до z задовго до граничного випадку, коли t = z при df = ∞. Просте візуальне вивчення табличних значень t дозволяє побачити, що це наближення стає досить швидким, починаючи з df = 30 і від. Порівняльні величини t (при df = 30) та z рівні відповідно: 2,04 та 1,96 для р = 0,05; 2,75 та 2,58 для р = 0,01; 3,65 та 3,29 для р = 0,001.

Інші статистики для «малих» вибірок

Хоча такі статистичні критерії, як t і F спеціально розроблені для застосування до малих вибірок, вони однаково застосовні і до великих вибірок. Існує, однак, безліч інших статистичних методів, призначених для аналізу малих вибірок і часто використовуються саме для цієї мети. Маються на увазі т.з. непараметричні чи вільні від розподілу методи. В основному, що фігурують у цих методах С. призначені для застосування до вимірювань, отриманих за допомогою шкал, що не задовольняють визначення шкал відносин або інтервалів. Найчастіше це порядкові (рангові) чи номінальні виміри. Непараметричні С. не вимагають припущень щодо параметрів розподілу, зокрема щодо оцінок дисперсії, тому що порядкові і номінальні шкали виключають саме поняття дисперсії. Тому непараметричні методи використовуються також для вимірювань, отриманих за допомогою інтервальних шкал і шкал відносин, коли аналізуються малі вибірки і існує ймовірність того, що порушуються основні припущення, необхідні для застосування параметричних методів. До таких С., які можна обґрунтовано застосовувати до малих вибірок, відносяться: критерій точної ймовірності Фішера, двофакторний непараметричний (ранговий) дисперсійний аналіз Фрідмана, коефіцієнт рангової кореляції t Кендалла, коефіцієнт конкордації (W) Кендалла, H-критерій Фаркела Уоллеса для непараметричного (рангового) однофакторного дисперсійного аналізу, U-критерій Манна-Уітні, медіанний критерій, критерій знаків, коефіцієнт рангової кореляції r Спірмена та t-критерій Вілкоксона.

У практиці статистичних досліджень часто доводиться стикатися з малими вибірками , які мають обсяг менше ніж 30 одиниць. До великих зазвичай відносять вибірки обсягом понад 100 одиниць.

Зазвичай малі вибірки застосовують у випадках, коли неможливо або недоцільно використовувати велику вибірку. Мати справу з такими вибірками доводиться, наприклад, під час опитування туристів та відвідувачів готелів.

Величина помилки малої вибірки визначається за формулами, відмінними від формул для порівняно великого обсягу вибірки ().

При малому обсязі вибірки nслід враховувати взаємозв'язок між вибірковою та генеральною дисперсією:

Так як при малій вибірці дріб має істотне значення, то обчислення дисперсії проводиться з урахуванням так званого числа ступенів свободи . Воно розуміється як число варіантів, які можуть набувати довільних значень, не змінюючи величини середньої.

Середня помилка малої вибірки визначається за такою формулою:

Гранична помилка вибірки для середньої та частки перебуває аналогічно випадку великої вибірки:

де t - Коефіцієнт довіри, що залежить від заданого рівня значущості та числа ступенів свободи (Додаток 5).

Значення коефіцієнта залежать не тільки від заданої довірчої ймовірності, а й від обсягу вибірки n. Для окремих значень t і n довірча ймовірність визначається за розподілом Стьюдента, який містить розподіл стандартизованих відхилень:

Зауваження.У міру збільшення обсягу вибірки розподіл Стьюдента наближається до нормального розподілу: при n=20 воно мало відрізняється від нормального розподілу. При проведенні малих вибіркових обстежень слід врахувати, що менше обсяг вибірки nтим більше різниця між розподілом Стьюдента і нормальним розподілом. Наприклад, при п min. = 4 ця відмінність дуже істотно, що говорить про зменшення точності результатів малої вибірки.

Поширення вибіркових показників на генеральну сукупність, заснований на дії закону високих чисел, передбачає досить великий обсяг вибірки. Однак у практиці статистичного дослідження часто доводиться зіштовхуватися з неможливістю з тих чи інших причин збільшити чисельність одиниць вибірки, що має невеликий обсяг. Це стосується вивчення діяльності підприємств, навчальних закладів, комерційних банків тощо, кількість яких у регіонах, як правило, незначна, а іноді сягає всього 5-10 одиниць.

У тому випадку коли вибіркова сукупність складається з невеликої кількості одиниць, менше 30, вибірку називають малій.У цьому випадку для розрахунку помилки вибірки не можна користуватися теоремою Ляпунова, так як на вибіркову середню значний вплив має величина кожної з випадково відібраних одиниць і її розподіл може істотно відрізнятися від нормального.

1908 року В.С. Держсет довів, що оцінка розбіжності між вибірковою середньою малою вибіркою та генеральною середньою має особливий закон розподілу (див. розділ 4). Займаючись проблемою ймовірнісної оцінки вибіркової середньої при невеликій кількості спостережень, він показав, що в цьому випадку слід розглядати розподіл не самих вибіркових середніх, а їх відхилень від середньої вихідної сукупності. І тут висновки можуть бути досить надійними.

Відкриття Стьюдента називають теорією малих вибірок.

Оцінюючи результатів малої вибірки величина генеральної дисперсії у розрахунках не використовується. У малих вибірках до розрахунку середньої помилки вибірки застосовують «виправлену» вибіркову дисперсію:

тобто. на відміну від великих вибірок у знаменнику замість пстоїть (і – 1). Розрахунок середньої помилки вибірки для малої вибірки наведено у табл. 5.7.

Таблиця 5.7

Розрахунок середньої помилки малої вибірки

Гранична помилка малої вибірки дорівнює: де t- Коефіцієнт довіри.

Величина tінакше пов'язана з можливою оцінкою, ніж при великій вибірці. Відповідно до розподілу Стьюдента ймовірна оцінка залежить як від величини t,так і від обсягу вибірки я у разі, якщо гранична помилка не перевищить г-кратну середню помилку в малих вибірках. Проте переважно вона залежить від кількості відібраних одиниць.

В.С. Держсет склав таблицю розподілу ймовірностей у малих вибірках, що відповідають даним значенням коефіцієнта довіри tі різним обсягам малої вибірки і витримка з неї наведена в табл. 5.8.

Таблиця 5.8

Фрагмент таблиці ймовірностей Стьюдента (ймовірності помножено на 1000)

Дані таблиці. 5.8 свідчать про те, що при необмеженому зростанні обсягу вибірки (я = ° °) розподіл Стьюдента прагне нормального закону розподілу, а при я = 20 вже мало від нього відрізняється.

Таблиця розподілу Стьюдента часто наводиться в іншій формі, зручнішій для практичного застосування (табл. 5.9).

Таблиця 5.9

Деякі значення (-розподілу Стьюдента

Число ступенів свободи

для одностороннього інтервалу

для двостороннього інтервалу

Р= 0,99

Розглянемо, як користуватися таблицею розподілу. Кожному фіксованому значенню побчислюють число ступенів свободи k, де k = п - 1. Для кожного значення ступеня свободи вказано граничну величину t p (t 095або t 0 99), яка з цією ймовірністю Рне буде перевищено через випадкові коливання результатів вибірки. На основі величини t pвизначаються межі довірчого

інтервалу

Як довірчу ймовірність при двосторонній перевірці, як правило, використовують Р = 0,95 або Р = 0,99, що виключає вибору та інших значень ймовірностей. Значення ймовірності вибирається з конкретних вимог завдань, на вирішення яких застосовується мала вибірка.

Імовірність виходу значень генеральної середньої за межі довірчого інтервалу дорівнює q,де q = 1 - нар.Це значення дуже мало. Відповідно для розглянутих ймовірностей рвоно становить 0,05 та 0,01.

Малі вибірки мають стала вельми поширеною у технічних науках, в біології, але застосовувати їх у статистичних дослідженнях необхідно з великою обережністю, лише за відповідному теоретичному і практичному обстеженні. Використовувати малу вибірку можна тільки в тому випадку, якщо розподіл ознаки в генеральній сукупності є нормальним або близьким до нього, а середня величина обчислюється за даними, отриманими в результаті незалежних спостережень. Крім того, слід мати на увазі, що точність результатів вибірки малого обсягу нижче, ніж при великій вибірці.



Останні матеріали розділу:

Перше ополчення у смутні часи презентація
Перше ополчення у смутні часи презентація

Слайд 1Смутний час Слайд 2На початку XVII століття Російська держава була охоплена пожежею громадянської війни та глибокою кризою. Сучасники...

Слова паразити у дитячій мові
Слова паразити у дитячій мові

Однією з найважливіших проблем сучасного суспільства є проблема мови. Ні для кого не секрет, що останнім часом наша мова зазнала...

Презентація для уроків літературного читання у початковій школі про Е
Презентація для уроків літературного читання у початковій школі про Е

Слайд 2 04.11.2009р. Н.С. Папулова 2 Олена Олександрівна Благініна. (1903-1989) – російський поет, перекладач. Слайд 3 Дочка багажного касира на...