41 статистичний ряд побудова гістограм. Статистичні ряди

Угруповання- Це розбиття сукупності на групи, однорідні за якоюсь ознакою.

Призначення сервісу. За допомогою онлайн-калькулятора Ви зможете:

  • побудувати варіаційний ряд, побудувати гістограму та полігон;
  • знайти показники варіації (середню, моду (в т.ч. і графічним способом), медіану, розмах варіації, квартилі, децилі, квартильний коефіцієнт диференціації, коефіцієнт варіації та інші показники);

Інструкція. Для групування ряду необхідно вибрати вид одержуваного варіаційного ряду(дискретний або інтервальний) та вказати кількість даних (кількість рядків). Отримане рішення зберігається у файлі Word (див. приклад угруповання статистичних даних).

Кількість вихідних даних
",0);">

Якщо угруповання вже здійснено та задані дискретний варіаційний рядабо інтервальний ряд, то необхідно скористатися онлайн-калькулятором Показники варіації. Перевірка гіпотези про вид розподілупроводиться за допомогою сервісу Вивчення форми розподілу.

Види статистичних угруповань

Варіаційний ряд. У разі спостережень дискретної випадкової величини те саме значення можна зустріти кілька разів. Такі значення x i випадкової величини записують із зазначенням n i числа разів його появи в n спостереженнях, це і є частота даного значення.
У разі безперервної випадкової величини практично застосовують угруповання.
  1. Типологічне угруповання- це поділ досліджуваної якісно різнорідної сукупності на класи, соціально-економічні типи, однорідні групиодиниць. Для побудови цього угруповання використовуйте параметр Дискретний варіаційний ряд.
  2. Структурним називається угруповання, в якій відбувається поділ однорідної сукупності на групи, що характеризують її структуру за якою-небудь ознакою, що варіює. Для побудови цього угруповання використовуйте параметр Інтервальний ряд.
  3. Угруповання, що виявляє взаємозв'язки між досліджуваними явищами та їх ознаками, називається аналітичним угрупованням(Див. аналітичне угруповання ряду).

Принципи побудови статистичних угруповань

Ряд спостережень, упорядкованих за зростанням, називається варіаційним рядом. Групувальною ознакоюназивається ознака, яким виробляється розбивка сукупності деякі групи. Його називають основою угруповання. В основі угруповання можуть бути покладені як кількісні, так і якісні ознаки.
Після визначення підстави угруповання слід вирішити питання кількості груп, куди треба розбити досліджувану сукупність.

При використанні персональних комп'ютерівДля обробки статистичних даних угруповання одиниць об'єкта здійснюється за допомогою стандартних процедур.
Одна з таких процедур ґрунтується на використанні формули Стерджесу для визначення оптимального числагруп:

k = 1+3,322*lg(N)

Де k – кількість груп, N – число одиниць сукупності.

Довжину часткових інтервалів обчислюють як h=(x max -x min)/k

Потім підраховують числа попадань спостережень у ці інтервали, які приймають за частоти n i . Нечисленні частоти, значення яких менше 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В якості нових значень варіант беруть середини інтервалів x i = (c i-1 + c i) /2.

Особливу форму угруповання даних представляють так звані статистичні ряди,або числові значенняознаки, розташованої у порядку. Залежно від цього, які ознаки вивчаються, статистичні ряди ділять на атрибутивні, варіаційні, ряди динаміки, регресії, ряди ранжованих значень ознак і ряди накопичених частот. Найчастіше у психології використовуються варіаційніряди, ряди регресіїта ряди ранжованих значень ознак.

Варіаційним рядомрозподілу називають подвійний ряд чисел, що показує, яким чином числові значення ознаки пов'язані з їхньою повторюваністю в даній вибірці. Наприклад, психолог провів тестування інтелекту з тесту Векслера у 25 школярів, і сирі бали за другим субтестом виявилися такими: 6, 9, 5, 7, 10, 8, 9, 10, 8, 11, 9, 12, 9, 8, 10, 11, 9, 10, 8, 10, 7, 9, 10, 9, 11. Як бачимо, деякі цифри трапляються в цьому ряду по кілька разів. Отже, враховуючи кількість повторень, ці ряд можна представити в більш зручній, компактній формі:

Це є варіаційний ряд. Числа, що показують, скільки разів окремі варіанти зустрічаються в даній сукупності, називаються частотами, або вагами, варіант. Вони позначаються малою літероюлатинської абетки. f iта мають індекс “i”, що відповідає номеру змінної у варіаційному ряду.

Відсоткове уявлення частот корисно у випадках, коли доводиться порівнювати варіаційні ряди, сильно різняться за обсягами. Наприклад, при тестуванні шкільної готовностідітей міста, селища міського типу та села було обстежено вибірки дітей чисельністю 1000, 300 та 100 осіб відповідно. Відмінність обсягів вибірок очевидна. Тому порівняння результатів тестування краще проводити, використовуючи відсотки частот.

Наведений вище ряд (3.1) можна уявити інакше. Якщо елементи ряду розташувати в порядку, що в зростає, то вийде так званий ранжований варіаційний ряд:

Подібна формауявлення (3.3) краща, ніж (3.1), оскільки краще ілюструє закономірність варіювання ознаки.

Частоти, що характеризують ранжований варіаційний ряд, можна складати або накопичувати. Накопичені частоти виходять послідовним підсумовуванням значень частот від першої до останньої.

Як приклад знову звернемося до ряду 3.3. Перетворимо його в ряд 3.4 в якому введемо додатковий рядок і назвемо її «кумуляти частот»:

Розглянемо докладно як вийшов останній рядок. На початку низки частот стоїть 1. У кумулятивному ряду другою місці стоїть 2 - це сума першої і другої частоти, тобто. 1 + 1, третьому місці стоїть 4 це сума другої (вже накопиченої частоти) і третьої частоти, тобто. 2+2, на четвертому 8 = 4+4 і т.д.


Розмах(іноді цю величину називають розкидом)вибірки позначається буквою R.Це найпростіший показник, який можна отримати для вибірки - різницю між максимальною та мінімальною величинами даного конкретного варіаційного ряду, тобто.

Зрозуміло, що що сильніше варіює вимірюваний ознака, тим більше більша величина R,і навпаки.

Однак може статися так, що у двох вибіркових рядів і середні, і розмах збігаються, проте характер варіювання цих рядів буде різним. Наприклад, дано дві вибірки:

При рівності середніх і розкидів цих двох вибіркових рядів характер їх варіювання різний. Для того, щоб більш чітко представляти характер варіювання вибірок, слід звернутися до їх розподілу.

Таблиці та графіки розподілу частот

Як правило, аналіз даних починається з вивчення того, як часто зустрічаються ті чи інші значення дослідника, що цікавить ознаки (змінної) в наявній безлічі спостережень. Для цього будуються таблиці та графіки розподілу частот.Нерідко є основою отримання цінних змістовних висновків дослідження.

Якщо ознака приймає всього лише кілька можливих значень (до 10-15), то таблиця розподілу частот показує частоту народження кожного значення ознаки. Якщо вказується, скільки разів зустрічається кожне значення ознаки, це - таблиця абсолютнихчастот розподілу, якщо вказується частка спостережень, що припадають на те чи інше значення ознаки, то говорять про відноснихчастоти розподілу.

У багатьох випадках ознака може набувати безліч різних значень, наприклад, якщо ми вимірюємо час вирішення тестового завдання. У цьому випадку про розподіл ознак дозволяє судити таблиця згрупованих частот,у яких частоти групуються за розрядами чи інтервалами значень ознаки.

Ще одним різновидом таблиць розподілу є таблиці розподілу накопиченихчастот. Вони показують, як накопичуються частоти зі зростанням значень ознаки. Навпаки кожного значення (інтервалу) вказується сума частот народження всіх тих спостережень, величина ознаки у яких не перевищує даного значення (менше верхнього кордонуданого інтервалу). Накопичені частоти містяться у правих стовпцях табл. 3.2 та 3.3.

Для наочного уявлення будується графік розподілу частот чи графік накопичених частот - гістограма чи згладжена крива розподілу.

Гістограма розподілу частот - це стовпчикова діаграма, кожен стовпець якої спирається на конкретне значенняознаки чи розрядний інтервал (для згрупованих частот). Висота стовпчика пропорційна частоті відповідності значення. На рис. 3.1 зображено гістограму розподілу частот для прикладу з табл. 3.2.

Гістограма накошених частотвідрізняється від гістограми розподілу тим, що висота кожного стовпчика пропорційна частоті, накопиченої до цього значення (інтервалу). На рис. 3.2 зображено гістограму накопичених частот для даних табл. 3.2.

Побудова полігону розподілу частотнагадує побудову гістограми. У гістограмі вершина кожного стовпця, що відповідає частоті народження даного значення (інтервалу) ознаки, - відрізок прямої. А для полігону відзначається точка, що відповідає середині цього відрізку. Далі всі крапки з'єднуються ламаною лінією (рис. 3.3). Замість гістограми чи полігону часто зображують згладжену криву розподілу частот. На рис. 3.4 зображено гістограму розподілу для прикладу з табл. 3.3 (стовпчики) та згладжена крива того ж розподілу частот.

Таблиці та графіки розподілу частот дають важливу попередню інформацію про формі розподілу ознаки:про те, які значення трапляються рідше, а які частіше, наскільки виражена мінливість ознаки. Зазвичай виділяють такі типові формирозподілу. Рівномірний розподілколи всі значення трапляються однаково (або майже однаково) часто. Симетричний розподіл -коли однаково часто трапляються крайні значення. Нормальний розподіл- Симетричний розподіл, у якого крайні значення зустрічаються рідко і частота поступово підвищується від крайніх до серединних значень ознаки. Асиметричні розподіли- лівосторонні(з переважанням частот малих значень), правосторонні(З переважанням частот великих значень).

Вже самі собою таблиці і графіки розподілу ознаки дозволяють робити деякі змістовні висновки при порівнянні груп піддослідних між собою. Порівнюючи розподіли, ми можемо як судити у тому, які значення зустрічаються частіше у тій чи іншій групі, а й порівнювати групи за рівнем вираженості індивідуальних відмінностей - мінливостіза цією ознакою.

Таблиці та графіки накопичених частот дозволяють швидко отримати додаткову інформаціюпро те, скільки випробуваних (або яка їх частка) мають вираженість ознаки не вище за певне значення.

Розділ 4. Описові статистики
(Статистичне розподіленняі його числові характеристики)

Змінна може набувати багато значень. на початковому етапіобробки даних замість того, щоб розглядати всі значення змінної, рекомендується проаналізувати, оскільки описові статистики. Вони дають загальне уявленняпро значення або розкид значень, які набуває змінна.

До первинних описових статистик ( Descriptive Statistics)зазвичай відносять числові характеристики розподілу виміряного на вибірці ознаки. Кожна така характеристика відображає в одному числовому значеннівластивість розподілу безлічі результатів вимірювання:з погляду їх розташуванняна числовій осі або з погляду їх мінливості.Основне призначення кожної з первинних описових статистик- Заміна безлічі значень ознаки, виміряного на вибірці, одним числом (наприклад, середнім значенням як мірою центральної тенденції). Компактний опис групи за допомогою первинних статистик дозволяє інтерпретувати результати вимірювань, зокрема шляхом порівняння первинних статистик різних груп.

В результаті обробки та систематизації первинних даних статистичного спостереженняодержують угруповання, звані рядами розподілу.

Статистичні ряди розподілу являють собою впорядковане розташування одиниць сукупності, що вивчається, на групи за групувальною ознакою.

Розрізняють атрибутивні та варіаційні ряди розподілу.

Атрибутивний - Це ряд розподілу, побудований за якісним ознакам. Він характеризує склад сукупності за різними суттєвими ознаками.

За кількісною ознакою будується варіаційний ряд розподілу. Він складається із частоти (чисельності) окремих варіантабо кожної групи варіаційного ряду. Дані числа показують, наскільки часто зустрічаються різні варіанти(Значення ознаки) у ряді розподілу. Сума всіх частот визначає чисельність усієї сукупності.

Чисельності груп виражаються в абсолютних і відносних величинах. У абсолютних величинвиражається числом одиниць сукупності у кожному виділеної групі, а відносних величинах – як часток, питомих ваг, представлених у відсотках до результату.

Залежно від характеру варіації ознаки розрізняють дискретні та інтервальні варіаційні ряди розподілу. У дискретному варіаційному ряді розподілу групи складені за ознакою, що змінюється дискретно і приймає лише цілі значення.

В інтервальному варіаційному ряді розподілу групувальна ознака, що становить основу угруповання, може приймати в певному інтервалі будь-які значення.

Варіаційні ряди складаються з двох елементів: частоти та варіанти.

Варіантою називають окреме значенняваріюється ознаки, яке він приймає в ряду розподілу.

Частота– це чисельність окремих варіантів або кожної групи варіаційного ряду. Якщо частоти виражені у частках одиниці чи відсотках до результату, їх називають частостями.

Правила та принципи побудови інтервальних рядів розподілу будуються за аналогічними правилами та принципами побудови статистичних угруповань. Якщо інтервальний варіаційний ряд розподілу побудований з рівними інтервалами, частоти дозволяють будувати висновки про ступеня заповнення інтервалу одиницями сукупності. Для проведення порівняльного аналізузаповненості інтервалів визначають показник, який характеризуватиме щільність розподілу.

Щільність розподілу- Це відношення числа одиниць сукупності до ширини інтервалу.

2. Графічне зображення рядів розподілу

Аналіз рядів розподілу можна проводити на основі їх графічного зображення. Лінійчасті та кругові діаграмибудуються для відображення структури сукупності.

Застосовуються разом з діаграмами такі лінії, як полігон, кумулята, огива, гістограма. Під час зображення дискретних варіаційних рядів використовується полігон.

Полігон– ламана крива, будується на основі прямокутної системикоординат, коли з осі Х відкладаються значення ознаки, а, по осі У – частоти.

Гладка крива, що з'єднує крапки– це емпірична густина розподілу.

Кумулята- ламана крива, що будується на основі прямокутної системи координат, коли по осі Х відкладаються значення ознаки, а по осі У - накопичені частоти.

Для дискретних рядів осі відкладаються самі значення ознаки, а інтервальних – середини інтервалів.

На основі гістограм можна будувати діаграми накопичених частот з подальшою побудовою інтегральної емпіричної функціїрозподілу.

3. Статистичні таблиці

У вигляді статистичних таблиць оформляються результати зведення та угруповання матеріалів спостереження.

Статистична таблиця– це особливий спосіб короткого та наочного запису відомостей про досліджуваних суспільних явищ. Статистична таблиця дозволяє охопити матеріали статистичного зведенняв цілому, вона також є системою думок про об'єкт, що досліджується, викладених цифрами на основі певного порядкуу розташуванні систематизованої інформації.

за зовнішньому виглядустатистична таблиця є рядом перетинаються горизонтальних і вертикальних ліній, Що утворюють по горизонталі рядки, а по вертикалі - графи (стовпці, колонки), які в сукупності складають скелет таблиці.

У клітини, що утворилися всередині таблиці записується інформація. Складену таблицю прийнято називати макет таблиці,у якому подумки визначаються деталях мета обстеження, обсяг розробки матеріалів зведення.

Статистична таблиця має своє підлягає і присудок. Підлягає таблиціпоказує, про яке явище йде мовау таблиці, і є групи і підгрупи, які характеризуються рядом показників. Сказним таблиціназиваються числові показники, з допомогою яких характеризується об'єкт, т. е. підлягає таблиці.

Показники, що утворюють підлягає, розташовують у лівій частині таблиці, а показники, що становлять присудок, поміщають праворуч.

Складена та оформлена статистична таблиця повинна мати загальні, бічні та верхні заголовки. Загальний заголовок зазвичай розташовується над таблицею та виражає її основний зміст. Поміщені зліва бічні заголовки розкривають зміст рядків підлягає, а верхні – вертикальних граф (присудка таблиці),

У комерційної діяльностірозробляються та складаються різні статистичні таблиці, які залежно від побудови підлягає поділяються на три види: перелікові, групові та комбінаційні.

Прості таблиці не містять підлягає систематизації одиниць статистичної сукупності, що вивчаються.

За характером представленого матеріалу ці таблиці бувають власне перелікові, територіальні та хронологічні.

Проста таблиця в підлягає містить перерахування одиниць сукупності, що вивчається.

Відомості простої таблиці застосовують і для оцінки зміни будь-якого явища в часі. Хронологічну таблицюможна складати за будь-які за величиною відрізки часу або на моменти, що віддаляються один від одного за часом на різну довжину Таблиці, в яких наводиться перелік територій (районів, областей тощо), називаються переліковими територіальними.

Групові статистичні таблиці дають більш інформативний матеріал для аналізу досліджуваних явищ завдяки утвореним у підлягає групам за суттєвою ознакою або виявлення зв'язку між рядом показників.

Комбінаційними називають статистичні таблиці, які мають у підлягає угруповання за двома або більше груповочними ознаками, пов'язаними між собою.

За допомогою групових та комбінаційних таблиць можна вивчати склад явищ, а також зв'язок і залежність числових показників присудка від групувальних ознак підлягає.

Комбінаційна таблиця встановлює взаємну дію на результативні ознаки (показники) та існуючий зв'язокміж факторами угруповання.

Одними з відповідальних моментів побудови статистичних таблиць є розробка присудка, визначення його змісту, правильне встановлення зв'язку між групувальними ознаками і показниками, що їх характеризують.

Сказане, перебуваючи у взаємозв'язку з підлягає таблиці має бути побудовано так, щоб за допомогою системи його показників можна було отримати повну характеристикувиділених груп, охопити їх суттєві риси.

Даний статистичних таблиць буває простим і складним. При простий розробці показники присудка розташовуються послідовно один за одним. Розподіляючи показники на групи за однією або декількома ознаками в певному поєднанні, Отримують складне присудок.

4. Основні правила складання таблиць

Таблиця повинна бути складена компактно, тобто бути невеликою за розміром і легко доступною для огляду.

Загальний заголовок таблиці має коротко висловлювати її основний зміст. У ньому намагаються вказати час, територію, яких ставляться дані, одиниці виміру, якщо вони виступають єдиними для всієї сукупності.

Рядки підлягає і графи присудка розташовують у вигляді приватних доданків з наступним підсумовуванням по кожному з них.

Для зручності аналізу таблиці при великому числі рядків підлягає і граф присудка виникає потреба в нумерації тих, які заповнюються даними.

При заповненні таблиць слід використовувати наступні умовні позначення: за відсутності явища пишеться (-) прочерк, якщо немає інформації про явище, ставиться крапка (...) або пишеться: «немає відомостей».

Однакова ступінь точності, обов'язкова всім чисел, забезпечується дотриманням правил їх округлення (від 0,1 до 0,01 тощо. буд.). Коли одна величина перевершує іншу багаторазово, отримані показники динаміки краще виражати не у відсотках (%), а в разах.

Якщо таблиці зі звітними даними наводяться відомості розрахункового порядку, потрібно зробити відповідне застереження.

Графи та рядки повинні містити одиниці виміру, що відповідають поставленим у належному та присудковому показникам. При цьому використовуються загальноприйняті скороченняодиниць виміру, наприклад: чол., руб. і т. д. Якщо графи мають єдину одиницю виміру, вона виноситься в заголовок таблиці.

Для зручної роботи з цифровим матеріалом числа в таблицях слід розставляти в середині граф, одне під іншим: одиниці під одиницями, кома під комою і т. д., чітко дотримуючись їх розрядність.

У таблицю можна включати примітки, у яких вказуватимуться джерела даних, більше докладний змістпоказників та інші необхідні пояснення.

В наш час необхідно навчитися складати та користуватися статистичними таблицями.

Для того щоб проаналізувати дані, які містить таблиця, необхідно насамперед ознайомитися з назвою таблиці заголовками її граф та рядків, встановити, на яку дату і до якої території відносяться зафіксовані в таблиці статистичні дані, звернути увагу на одиниці виміру та встановити які процеси характеризуються середніми та відносними величинами.

Аналіз статистичної таблиці логічніше починати із загального підсумку, який дозволяє отримати загальну характеристикусукупності, потім переходити до вивчення даних окремих рядків і граф, т. е. до оцінки частин досліджуваного об'єкта, досліджуючи у своїй спочатку найважливіші, та був вже й інші елементи таблиці.

Маючи в своєму розпорядженні дані статистичного спостереження, що характеризують те чи інше явище, насамперед необхідно їх упорядкувати, тобто. надати характеру системності

Англійська статистика. УДжРейхман із приводу невпорядкованих сукупностей образно сказав, що зіткнутися з масою неузагальнених даних рівнозначно ситуації, коли людину кидають у лісовій гущавині без компасу. Що ж являє собою систематизація статистичних даних у вигляді рядів розподілу?

Статистичний ряд розподілу – це впорядковані статистичні сукупності(Табл. 17). Найпростішим видом статистичного ряду розподілу ранжованого ряду, тобто. ряд чисел, що знаходиться в порядку зростання ч або падіння, варіюючи ознаки. Такий ряд не дозволяє судити про закономірності, закладені в розподілених даних: у якої величини групується більшість показників, які є відхиленнями від цієї величини; як а Загальна картинарозподілу. З цією метою групують дані, показуючи, як часто зустрічаються окремі спостереження в їхньому числі (Схема 1а 1).

. Таблиця 17

. Загальний виглядстатистичних рядів розподілу

. Схема 1. Схемастатистичнихрядів розподілу

Розподіл одиниць сукупності за ознаками, що не мають кількісного виразу, називається атрибутивним рядом(Наприклад, розподіл підприємств за їх виробничим напрямом)

Ряди розподілу одиниць сукупності за ознаками, мають кількісний вираз, називаються варіаційними рядами. У таких рядах значення ознаки (варіанти) перебувають у порядку зростання чи спадання

У варіаційному ряді розподілу розрізняють два елементи: варіанти та частота . Варіанту- це окреме значення групувальної ознаки частота- Число, яке показує, скільки разів зустрічається кожен варіант

У математичної статистикиобчислюється ще один елемент варіаційного ряду - частина. Остання визначається як відношення частоти випадків даного інтервалу до загальну сумучастот частість визначається у частках одиниці, відсотках (%) у проміле (% про)

Таким чином, варіаційний ряд розподілу - це такий ряд, в якому варіанти розташовані в порядку зростання або зменшення, вказані частоти або частоти. Варіаційні ряди бувають дискретні (переривні) та ін. Інтервальні (безперервного).

. Дискретні варіаційні ряди- це такі ряди розподілу, в яких варіанти як величина кількісної ознаки може приймати лише певне значення. Варіанти різняться між собою однією чи кілька одиниць

Так, кількість вироблених деталей за зміну конкретним робітником може виражатися лише одним певною кількістю(6, 10, 12 тощо). Прикладом дискретного варіаційного ряду може бути розподіл працівників за кількістю вироблених деталей (табл 18 18).

. Таблиця 18

. Дискретний рядрозподілу _

. Інтервальні (безперервні) варіаційні ряди- такі ряди розподілу, у яких значення варіанти дано як інтервалів, тобто. Значення ознак можуть відрізнятися один від одного на скільки завгодно малу величину. При побудові варіаційного ряду неп перервної ознаки неможливо вказати кожне значення варіанти, тому сукупність розподіляється за інтервалами. Останні можуть бути рівними і нерівними. Для кожного з них зазначаються частоти або частоти (табл. 1999).

В інтервальних рядах розподілу з нерівними інтервалами обчислюють такі математичні характеристики, як щільність розподілу та відносна густинарозподілу цьому інтервалі. Перша характеристика визначилася відношенням частоти до величини того ж інтервалу, друга - відношенням частоти до величини того ж інтервалу. Для наведеного вище прикладу щільність розподілу першому інтервалі складе 3: 5 = 0,6, а відносна щільність цьому інтервалі - 7,5:5 = 1,55%.

. Таблиця 19

. Інтервальний ряд розподілу _

Математична статистика- розділ математики, присвячений математичним методамобробки, систематизації та використання статистичних даних для наукових та практичних висновків.

3.1. ОСНОВНІ ПОНЯТТЯ МАТЕМАТИЧНОЇ СТАТИСТИКИ

У медико-біологічних завданнях часто доводиться досліджувати розподіл тієї чи іншої ознаки великої кількостііндивідуумів. У різних індивідуумів ця ознака має різне значеннятому він є випадковою величиною. Наприклад, будь-який лікувальний препарат має різну ефективність при його застосуванні до різних пацієнтів. Однак для того, щоб скласти уявлення про ефективність даного препарату, немає необхідності застосовувати його до всімхворим. Можна простежити результати застосування препарату порівняно невеликій групіхворих та на підставі отриманих даних виявити суттєві риси (ефективність, протипоказання) процесу лікування.

Генеральна сукупність- Підлягає вивченню сукупність однорідних елементів, що характеризуються певною ознакою. Ця ознака є безперервнийвипадковою величиною із щільністю розподілу f(x).

Наприклад, якщо нас цікавить поширеність будь-якого захворювання в деякому регіоні, то генеральна сукупність – все населення регіону. Якщо ж ми хочемо з'ясувати схильність до цього захворювання чоловіків і жінок окремо, слід розглядати дві генеральні сукупності.

Для вивчення властивостей генеральної сукупностівідбирають деяку частину її елементів.

Вибірка- частина генеральної сукупності, яка обирається для обстеження (лікування).

Якщо це не викликає непорозумінь, то вибіркою називають як сукупність об'єктів,відібраних для обстеження, так і сукупність

значеньдосліджуваного ознаки, отриманих під час обстеження. Ці значення можуть бути декількома способами.

Простий статистичний ряд -значення досліджуваного ознаки, записані у порядку, де вони були отримані.

Приклад простого статистичного ряду, отриманого при вимірюванні швидкості поверхневої хвилі (м/с) у шкірі чола у 20 пацієнтів наведено у табл. 3.1.

Таблиця 3.1.Простий статистичний ряд

Простий статистичний ряд - основний та самий повний спосібзапис результатів обстеження. Він може містити сотні елементів. Окинути таку сукупність одним поглядом дуже важко. Тому великі вибірки зазвичай розбиваються на групи. Для цього область зміни ознаки розбивають на декілька (N) інтерваліврівної ширини та підраховують відносні частоти (n/n) попадання ознаки в ці інтервали. Ширина кожного інтервалу дорівнює:

Межі інтервалів мають такі значення:

Якщо якийсь елемент вибірки є межею між двома сусідніми інтервалами, його відносять до лівомуінтервалу. Згруповані таким чином дані називають інтервальним статистичним рядом.

- це таблиця, в якій наведено інтервали значень ознаки та відносні частоти влучення ознаки в ці інтервали.

У нашому випадку можна утворити, наприклад, такий інтервальний статистичний ряд (N = 5, d= 4), табл. 3.2.

Таблиця 3.2.Інтервальний статистичний ряд

Тут до інтервалу 28-32 віднесено два значення, рівні 28 (табл. 3.1), а до інтервалу 32-36 - значення 32, 33, 34 і 35.

Інтервальний статистичний ряд можна зобразити графічно. Для цього по осі абсцис відкладають інтервали значень ознаки і на кожному з них, як на підставі, будують прямокутник з висотою, що дорівнює відносній частоті. Отримана стовпцева діаграма називається гістограмою.

Рис. 3.1.Гістограма

На гістограмі статистичні закономірності розподілу ознаки проглядаються досить чітко.

При великому обсязівибірки (кілька тисяч) та малій ширині стовпців форма гістограми близька до форми графіка густини розподілуознаки.

Число стовпців гістограми можна вибрати за такою формулою:

Побудова гістограми вручну – процес довгий. Тому розроблено комп'ютерні програмидля їх автоматичної побудови.

3.2. ЧИСЛОВІ ХАРАКТЕРИСТИКИ СТАТИСТИЧНОГО РЯДУ

Багато статистичних процедур використовують вибіркові оцінки для математичного очікування та дисперсії (або СКО) генеральної сукупності.

Вибіркове середнє(Х) - це середнє арифметичне всіх елементів простого статистичного ряду:

Для нашого прикладу Х= 37,05 (м/с).

Вибіркове середнє - ценайкращаоцінка генерального середньогоМ.

Вибіркова дисперсія s 2дорівнює сумі квадратів відхилень елементів від вибіркового середнього, поділеної на n- 1:

У прикладі s 2 = 25,2 (м/с) 2 .

Зверніть увагу, що при обчисленні вибіркової дисперсії у знаменнику формули стоїть не обсяг вибірки n, а n-1. Це з тим, що з обчисленні відхилень у формулі (3.3) замість невідомого математичного очікування використовується його оцінка - вибіркове середнє.

Вибіркова дисперсія – це найкращаоцінка генеральної дисперсії (? 2).

Вибіркове середньоквадратичне відхилення(s) - це квадратний коріньз вибіркової дисперсії:

Для нашого прикладу s= 5,02 (м/с).

Вибіркове середньоквадратичневідхилення - це найкраща оцінкагенерального СКО (?).

При необмеженому збільшенні обсягу вибірки все вибіркові характеристикипрагнуть відповідних характеристик генеральної сукупності.

Для обчислення вибіркових показників застосовують комп'ютерні формули. У додатку Excel ці обчислення виконують статистичні функціїСРЗНАЧ, ДИСП. СТАНДОТКЛОН.

3.3. ІНТЕРВАЛЬНА ОЦІНКА

Всі вибіркові характеристики є випадковими величинами.Це означає, що для іншої вибірки того ж обсягу значення вибіркових характеристик вийдуть іншими. Таким чином, вибіркові

характеристики є лише оцінкамивідповідних показників генеральної сукупності.

Недоліки вибіркового оцінювання компенсує інтервальна оцінка,представляюча числовий інтервал,всередині якого із заданою ймовірністю Р дзнаходиться справжнє значенняоцінюваного параметра.

Нехай U r – деякий параметр генеральної сукупності (генеральна середня, генеральна дисперсія тощо).

Інтервальною оцінкоюпараметра U r називається інтервал (U 1 , U 2),що задовольняє умові:

P(U < Ur < U2) = Рд. (3.5)

Ймовірність Р дназивається довірчою ймовірністю.

Довірча ймовірність Рд - ймовірність того, що справжнє значення оцінюваної величини знаходиться всерединівказаного інтервалу.

При цьому інтервал (U 1, U 2)називається довірчим інтерваломдля параметра, що оцінюється.

Часто замість довірчої ймовірності використовують зв'язану з нею величину α = 1 – Р д, яка називається рівнем значимості.

Рівень значущості- це ймовірність того, що справжнє значення параметра, що оцінюється, знаходиться за межамидовірчого інтервалу.

Іноді α і Р д виражають у відсотках, наприклад, 5% замість 0,05 та 95% замість 0,95.

При інтервальному оцінюванні спочатку вибирають відповідну довірчу ймовірність(зазвичай 0,95 або 0,99), а потім знаходять відповідний інтервал значень параметра, що оцінюється.

Зазначимо деякі загальні властивостіінтервальних оцінок.

1. Чим нижчий рівень значущості (чим більше Р д),тим ширше інтервальна оцінка. Так, якщо за рівня значимості 0,05 інтервальна оцінка генерального середнього становить 34,7< М< 39,4, то для уровня 0,01 она будет гораздо шире: 33,85 < М< 40,25.

2. Чим більший обсяг вибірки n,Тим більше що інтервальна оцінка з обраним рівнем значимості. Нехай, наприклад, 5 - процентна оцінка генеральної середньої (?=0,05), отримана за вибіркою з 20 елементів, тоді 34,7< М< 39,4.

Збільшивши обсяг вибірки до 80, ми при тому рівні значимості отримаємо більш точну оцінку: 35,5< М< 38,6.

У загальному випадкупобудова надійних довірчих оціноквимагає знання закону, яким оцінюваний випадковий ознака розподілено у генеральній сукупності. Розглянемо, як будується інтервальна оцінка генерального середньогоознаки, яка розподілена в генеральній сукупності за нормальномузакону.

3.4. ІНТЕРВАЛЬНА ОЦІНКА ГЕНЕРАЛЬНОГО СЕРЕДНЬОГО ДЛЯ НОРМАЛЬНОГО ЗАКОНУ РОЗПОДІЛУ

Побудова інтервальної оцінки генерального середнього М для генеральної сукупності нормальним закономрозподілу ґрунтується на наступній властивості. Для вибірки обсягу nставлення

підпорядковується розподілу Стьюдента з числом ступенів свободи = n- 1.

Тут Х- вибіркове середнє, а s- Вибіркове СКО.

Використовуючи таблиці розподілу Стьюдента або їх комп'ютерний аналог, можна знайти таке граничне значення, що з заданою довірчою ймовірністю виконується нерівність:

Цій нерівності відповідає нерівність для М:

де ε - напівширина довірчого інтервалу.

Таким чином, побудова довірчого інтервалу М проводиться в наступній послідовності.

1. Вибирають довірчу ймовірність Р д (зазвичай 0,95 або 0,99) і для неї за таблицею розподілу Стьюдента знаходять параметр t

2. Розраховують напівширину довірчого інтервалу ε:

3. Отримують інтервальну оцінку генерального середнього з обраною довірчою ймовірністю:

Коротко це записується так:

Для знаходження інтервальних оцінок розроблено комп'ютерні процедури.

Пояснимо, як скористатися таблицею розподілу Стьюдента. Ця таблиця має два «входи»: лівий стовпець, який називається числом ступенів свободи ν = n- 1, і верхній рядок – рівень значущості α. На перетині відповідного рядка та стовпця знаходять коефіцієнт Стьюдента t.

Застосуємо цей метод до нашої вибірки. Фрагмент таблиці розподілу Стьюдента наведено нижче.

Таблиця 3.3. Фрагмент таблиці розподілу Стьюдента

Простий статистичний ряд для вибірки із 20 осіб (n= 20, =19) представлений в табл. 3.1. Для цього ряду розрахунки за формулами (3.1-3.3) дають: Х= 37,05; s= 5,02.

Виберемо α = 0,05 (Р д = 0,95). На перетині рядка «19» та стовпця «0,05» знайдемо t= 2,09.

Обчислимо точність оцінки за формулою (3.6): ε = 2,09?5,02/λ/20 = 2,34.

Побудуємо інтервальну оцінку: з ймовірністю 95% невідоме генеральне середнє задовольняє нерівність:

37,05 - 2,34 < М< 37,05 + 2,34, или М= 37,05 ± 2,34 (м/с), Р д = 0,95.

3.5. МЕТОДИ ПЕРЕВІРКИ СТАТИСТИЧНИХ ГІПОТЕЗ

Статистичні гіпотези

Перш ніж сформулювати, що таке статистична гіпотеза, розглянемо такий приклад.

Для порівняння двох методик лікування деякого захворювання було відібрано дві групи пацієнтів по 20 осіб, лікування яких проводилось за цими методиками. Для кожного пацієнта фіксувалося кількість процедур,після якого досягався позитивний ефект. За цими даними кожної групи знаходилися вибіркові середні (Х), вибіркові дисперсії (s 2)та вибіркові СКО (s).

Результати представлені у табл. 3.4.

Таблиця 3.4

Кількість процедур, необхідне для отримання позитивного ефекту, - випадкова величина, вся інформація про яку на Наразіміститься у наведеній вибірці.

З табл. 3.4 видно, що вибіркове середнє у першій групі менше, ніж у другій. Чи означає це, що й для генеральних середніх має місце таке саме співвідношення: М 1< М 2 ? Достаточно ли статистических данных для такого вывода? Ответы на эти вопросы и дает статистична перевіркагіпотез.

Статистична гіпотеза- це припущення щодо властивостей генеральних сукупностей.

Ми розглядатимемо гіпотези про властивості двохгенеральних сукупностей.

Якщо генеральні сукупності мають відомі, однаковірозподілу оцінюваної величини, а припущення стосуються величин деякого параметрацього розподілу, то гіпотези називаються параметричними.Наприклад, вибірки вилучені з генеральних сукупностей нормальним закономрозподілу та однаковою дисперсією. Потрібно з'ясувати, чи однаковігенеральні середні ці сукупності.

Якщо про закони розподілу генеральних сукупностей нічого не відомо, то гіпотези про їхні властивості називають непараметричними.Наприклад, чи однаковізакони розподілу генеральних сукупностей, у тому числі вилучені вибірки.

Нульова та альтернативна гіпотези.

Завдання перевірки гіпотез. Рівень значущості

Познайомимося з термінологією, що застосовується під час перевірки гіпотез.

Н 0 – нульова гіпотеза (гіпотеза скептика) – це гіпотеза про відсутність відмінностейміж порівнюваними вибірками. Скептик вважає, що відмінності між вибірковими оцінками, одержаними за результатами досліджень, - випадкові;

Н 1- альтернативна гіпотеза(Гіпотеза оптиміста) - це гіпотеза про наявність відмінностей між порівнюваними вибірками. Оптиміст вважає, що відмінності між вибірковими оцінками викликані об'єктивними причинамита відповідають відмінностям генеральних сукупностей.

Перевірка статистичних гіпотезздійсненна лише тоді, коли з елементів порівнюваних вибірок можна скласти деяку величину(критерій), закон розподілу якої у разі справедливості Н 0відомий. Тоді для цієї величини можна вказати довірчий інтервал,в який із заданою ймовірністю Р дпопадає її значення. Цей інтервал називають критичною областю.Якщо значення критерію потрапляє у критичну область, то приймається гіпотеза Н0.В іншому випадку приймається гіпотеза Н1.

У медичних дослідженняхвикористовують Р д = 0,95 або Р д = 0,99. Цим значенням відповідають рівні значущостіα = 0,05 або α = 0,01.

Під час перевірки статистичних гіпотезрівнем значимості(α) називається ймовірність відхилення нульової гіпотези, коли вона вірна.

Зверніть увагу на те, що за своєю суттю процедура перевірки гіпотез спрямована на виявлення відмінностей,а не на підтвердження їхньої відсутності. При виході значення критерію за межі критичної області ми можемо з чистим серцемсказати "скептику" - ну що, Ви ще хочете? Якби відмінностей не було, то з ймовірністю 95% (або 99%) розрахункове значення було б у зазначених межах. Адже ні!..

Ну а якщо значення критерію потрапляє в критичну область, то немає підстав вважати, що гіпотеза Н 0 вірна. Це, швидше за все, вказує на одну із двох можливих причин.

1. Обсяги вибірок недостатньо великі, щоб виявити наявні відмінності. Цілком ймовірно, що продовження експериментів принесе успіх.

2. Відмінності є. Але вони настільки малі, що немає практичного значення. І тут продовження експериментів немає сенсу.

Перейдемо до розгляду деяких статистичних гіпотез, які у медичних дослідженнях.

3.6. ПЕРЕВІРКА ГІПОТЕЗ ПРО РІВНІСТЬ ДИСПЕРСІЙ, F-КРИТЕРІЙ ФІШЕРА

В деяких клінічних дослідженняхо позитивний ефектсвідчить не так величинадосліджуваного параметра, скільки його стабілізація,зменшення його коливань. І тут виникає питання порівняння двох генеральних дисперсій за результатами вибіркового обстеження. Це завдання може бути вирішено за допомогою критерію Фішера.

Постановка задачі

нормальним закономрозподілу. Обсяги вибірок -

n 1і n 2 ,а вибіркові дисперсіїрівні s 1 та s 2 2 генеральні дисперсії.

Перевірені гіпотези:

Н 0- генеральні дисперсії однакові;

Н 1- генеральні дисперсії різні.

Показано, якщо вибірки вилучені з генеральних сукупностей нормальним закономрозподілу, то за справедливості гіпотези Н 0ставлення вибіркових дисперсійпідпорядковується розподілу Фішера. Тому як критерій для перевірки справедливості Н 0береться величина F,обчислювана за формулою:

де s 1 та s 2 - вибіркові дисперсії.

Це відношення підпорядковується розподілу Фішера з числом ступенів свободи чисельника ν 1 = n 1- 1 та числом ступенів свободи знаменника ν 2 = n 2 - 1. Кордони критичної області знаходяться за таблицями розподілу Фішера або за допомогою комп'ютерної функції БРАСПОБР.

Наприклад, поданого у табл. 3.4, отримаємо: 1 = 2 = 20 - 1 = 19; F= 2,16/4,05 = 0,53. При α = 0,05 межі критичної області рівні відповідно: = 0,40 = 2,53.

Значення критерію потрапило у критичну область, тому приймається гіпотеза Н 0:генеральні дисперсії вибірок однакові.

3.7. ПЕРЕВІРКА ГІПОТЕЗ ЩОДО РІВНОСТІ СЕРЕДНІХ, t-КРИТЕРІЙ СТЬЮДЕНТА

Завдання порівняння середніхдвох генеральних сукупностей виникає, коли практичне значеннямає саме величинадосліджуваного ознаки. Наприклад, коли порівнюються терміни лікування двома різними методами або кількість ускладнень, що виникають при їх застосуванні. І тут можна використовувати t-критерій Стьюдента.

Постановка задачі

Отримано дві вибірки (Х 1 ) і (Х 2 ), вилучені з генеральних сукупностей нормальним закономрозподілу та однаковими дисперсіями.Обсяги вибірок - n 1 і n 2 вибіркові середнірівні Х1 і Х2, а вибіркові дисперсії- s 1 2 та s 2 2відповідно. Потрібно порівняти між собою генеральні середні.

Перевірені гіпотези:

Н 0- генеральні середні однакові;

Н 1- генеральні середні різні.

Показано, що у разі справедливості гіпотези Н 0величина t, що обчислюється за формулою:

розподілено згідно із законом Стьюдента з числом ступенів свободи ν = ν 1 + + ν2 - 2.

Тут де ν 1 = n 1 - 1 - число ступенів свободи першої вибірки; ν 2 = n 2 – 1 – число ступенів свободи для другої вибірки.

Межі критичної області знаходять за таблицями t-розподілу або за допомогою комп'ютерної функції СТЬЮДРАСПОБР. Розподіл Стьюдента симетрично щодо нуля, тому ліва і права межі критичної області однакові за модулем і протилежні за знаком: -і

Наприклад, поданого у табл. 3.4, отримаємо:

ν 1 = ν 2 = 20 - 1 = 19; ν = 38, t= -2,51. При α = 0,05 = 2,02.

Значення критерію виходить за лівий кордон критичної області, тому приймаємо гіпотезу Н 1:генеральні середні різні.При цьому середня генеральна сукупність першої вибіркиМЕНШЕ.

Застосовність t-критерію Стьюдента

Критерій Стьюдента застосовний тільки до вибірок з нормальнихсукупностей з однаковими генеральними дисперсіями.Якщо хоча б одну з умов порушено, то застосовність критерію сумнівна. Вимога нормальності генеральної сукупності зазвичай ігнорують, посилаючись на центральну граничну теорему.Дійсно, різниця вибіркових середніх, що стоїть у чисельнику (3.10), може вважатися нормально розподіленою при ν > 30. Але питання про рівність дисперсій перевірці не підлягає, і посилання на те, що критерій Фішера не виявив відмінностей, брати до уваги не можна. Проте t-критерій досить широко застосовується виявлення відмінностей у середніх значеннях генеральних сукупностей, хоча й без достатніх підстав.

Нижче розглядається непараметричний критерій,який з успіхом використовують для цих же цілей і який не вимагає жодного нормальності,ні рівності дисперсій

3.8. НЕПАРАМЕТРИЧНЕ ПОРІВНЯННЯ ДВОХ ВИБІРОК: КРИТЕРІЙ МАННА-УИТНІ

Непараметричні критерії призначені виявлення відмінностей у законах розподілу двох генеральних сукупностей. Критерії, які чутливі до відмінностей генеральних середніх,називають критеріями зсуву.Критерії, які чутливі до відмінностей генеральних дисперсій,називають критеріями масштабу.Критерій Манна-Уітні відноситься до критеріїв зсувуі використовується для виявлення відмінностей у середніх значеннях двох генеральних сукупностей, вибірки з яких представлені в ранговій шкалі.Виміряні ознаки розташовуються на цій шкалі в порядку зростання, а потім нумеруються цілими числами 1, 2... Ці числа називаються рангами.Рівним величинам надають однакові ранги. Значення має сама величина ознаки, а лише порядкове місце,що вона займає серед інших величин.

У табл. 3.5. перша група з таблиці 3.4 представлена ​​в розгорнутому вигляді (рядок 1), піддана ранжируванню (стоку 2), а потім ранги однакових величин замінені середньоарифметичними значеннями. Наприклад, елементи 4 і 4, що стоять у першому рядку, отримали ранги 2 і 3, які потім замінені на однакові значення 2,5.

Таблиця 3.5

Постановка задачі

Незалежні вибірки (Х 1)і (Х 2)вилучені з генеральних сукупностей із невідомими законами розподілу. Обсяги вибірок n 1і n 2відповідно. Значення елементів вибірок представлені в ранговій шкалі.Потрібно перевірити, чи різняться ці генеральні сукупності між собою?

Перевірені гіпотези:

Н 0- вибірки належать до однієї генеральної сукупності; Н 1- вибірки належать до різних генеральних сукупностей.

Для перевірки таких гіпотез застосовується (/- критерій Манна-Уітні).

Спочатку двох вибірок складається об'єднана вибірка (X), елементи якої ранжируются. Потім перебуває сума рангів, відповідних елементам першої вибірки. Ця сума є критерієм для перевірки гіпотез.

U= Сумі рангів першої вибірки. (3.11)

Для незалежних вибірок, обсяги яких більші за 20, величина Uпідкоряється нормальному розподілу, математичне очікуваннята СКО якого рівні:

Тому межі критичної області перебувають у таблицях нормального розподілу.

Наприклад, поданого у табл. 3.4, отримаємо: ν 1 = ν 2 = 20 - 1 = 19, U= 339, μ = 410, σ = 37. Для α = 0,05 отримаємо: і лев = 338, і прав = 482.

Значення критерію виходить за лівий кордон критичної області, тому приймається гіпотеза Н 1: генеральні сукупності мають різні законирозподілу. При цьому середня генеральна сукупність першої вибіркиМЕНШЕ.



Останні матеріали розділу:

Дати та події великої вітчизняної війни
Дати та події великої вітчизняної війни

О 4-й годині ранку 22 червня 1941 року війська фашистської Німеччини (5,5 млн осіб) перейшли кордони Радянського Союзу, німецькі літаки (5 тис) почали...

Все, що ви повинні знати про радіацію Джерела радіації та одиниці її виміру
Все, що ви повинні знати про радіацію Джерела радіації та одиниці її виміру

5. Дози випромінювання та одиниці виміру Дія іонізуючих випромінювань є складним процесом. Ефект опромінення залежить від величини...

Мізантропія, або Що робити, якщо я ненавиджу людей?
Мізантропія, або Що робити, якщо я ненавиджу людей?

Шкідливі поради: Як стати мізантропом і всіх радісно ненавидіти Ті, хто запевняє, що людей треба любити незалежно від обставин або...