Інтервальний ряд варіаційний приклад. Варіаційний ряд та його характеристики

Ряди, збудовані за кількісною ознакою, називаються варіаційним.

Ряди розподілів складаються з варіантів(значень ознаки) та частот(Кількості груп). Частоти, виражені як відносних величин (часток, відсотків) називаються частостями. Сума всіх частот називається обсягом низки розподілів.

На вигляд ряди розподілу поділяються на дискретні(побудовані за перервними значеннями ознаки) та інтервальні(Побудовані на безперервних значеннях ознаки).

Варіаційний рядє дві колонки (або рядки); в одній з яких наводяться окремі значення варіює ознаки, іменовані варіантами і позначаються Х; а в іншій - абсолютні числа, що показують скільки разів (як часто) зустрічається кожен варіант. Показники другої колонки називаються частотами та умовно позначають через f. Ще раз зауважимо, що у другій колонці можуть використовуватись і відносні показники, що характеризують частку частоти окремих варіантів у загальній сумі частот. Ці відносні показники називаються частостями і умовно позначають через ω Сума всіх частостей у разі дорівнює одиниці. Однак частоти можна виражати і у відсотках, і тоді сума всіх частостей дає 100%.

Якщо варіанти варіаційного ряду виражені як дискретних величин, такий варіаційний ряд називають дискретним.

Для безперервних ознак варіаційні ряди будуються як інтервальнітобто значення ознаки в них виражаються «від ... до ...». У цьому мінімальні значення ознаки у такому інтервалі називають нижньої межею інтервалу, а максимальне – верхньою кордоном.

Інтервальні варіаційні ряди будують і для дискретних ознак, що варіюють у великому діапазоні. Інтервальні ряди можуть бути з рівнимиі нерівнимиінтервалами.

Розглянемо, як визначається величина рівних інтервалів. Введемо такі позначення:

i- Величина інтервалу;

- максимальне значення ознаки одиниць сукупності;

- Мінімальне значення ознаки у одиниць сукупності;

n –кількість груп, що виділяються.

якщо n відомо.

Якщо кількість груп, що виділяються, важко заздалегідь визначити, то для розрахунку оптимальної величини інтервалу при достатньому обсязі сукупності може бути рекомендована формула, запропонована Стерджесом в 1926 році:

n = 1+ 3.322 lg N, де N – число одиниць у сукупності.

Розмір нерівних інтервалів визначається кожному окремому разі з урахуванням особливостей об'єкта вивчення.

Статистичним розподілом вибіркиназивають перелік варіантів і відповідних їм частот (або відносних частот).

Статистичне розподіл вибірки можна задати як таблиці, у першій графі якої розташовуються варіанти, тоді як у другий - відповідні цим варіантам частоти ni, або відносні частоти Pi .

Статистичне розподілення вибірки

Інтервальними називаються варіаційні ряди, у яких значення ознак, покладених в основу їх утворення, виражені у певних межах (інтервалах). Частоти в цьому випадку відносяться не до окремих значень ознаки, а до всього інтервалу.

Інтервальні ряди розподілу будуються за безперервними кількісними ознаками, а також дискретними ознаками, що варіюють у значних межах.

Інтервальний ряд можна подати статистичним розподілом вибірки із зазначенням інтервалів та відповідних частот. При цьому як частота інтервалу приймають суму частот варіант, що потрапили в цей інтервал.

При угрупованні за кількісними безперервними ознаками важливе значення має визначення розміру інтервалу.

Крім вибіркової середньої та вибіркової дисперсії застосовуються інші характеристики варіаційного ряду.

Модоюназивають варіантом, який має найбільшу частоту.

При обробці великих масивів інформації, що особливо актуально під час проведення сучасних наукових розробок, перед дослідником стоїть серйозне завдання правильного угруповання вихідних даних. Якщо дані мають дискретний характер, то проблем, як ми бачили, не виникає – необхідно просто підрахувати частоту кожної ознаки. Якщо ж досліджувана ознака має безперервнийхарактер (що має більшого поширення практично), то вибір оптимального числа інтервалів угруповання ознаки зовсім на тривіальної завданням.

Для угруповання безперервних випадкових величин весь варіаційний розмах ознаки розбивають на кілька інтервалів до.

Згрупованим інтервальним (безперервним) варіаційним рядомназивають ранжовані за значенням ознаки інтервали (), де вказані разом з відповідними частотами () числа спостережень, що потрапили в г-й інтервал, або відносними частотами ():

Інтервали значень ознаки

Частота mi

Гістограмаі кумулята (огива),вже докладно розглянуті нами є чудовим засобом візуалізації даних, що дозволяє отримати первинне уявлення про структуру даних. Такі графіки (рис. 1.15) будуються для безперервних даних так само, як і для дискретних, тільки з урахуванням того, що безперервні дані часто заповнюють область своїх можливих значень, приймаючи будь-які значення.

Мал. 1.15.

Тому стовпці на гістограмі та кумуляті повинні стикатися, не мати ділянок, куди не потрапляють значення ознаки в межах усіх можливих(тобто гістограма і кумулята не повинні мати "дірок" по осі абсцис, в які не потрапляють значення змінної, що вивчається, як на рис. 1.16). Висота стовпчика відповідає частоті-числу спостережень, що потрапили в даний інтервал, або відносної частоті-частці спостережень. Інтервали не повинні перетинатисяі мають, як правило, однакову ширину.

Мал. 1.16.

Гістограма та полігон є апроксимаціями кривої щільності ймовірності (диференціальної функції) f(x)теоретичного розподілу, що розглядається в курсі теорії ймовірностей. Тому їхня побудова має таке важливе значення при первинній статистичній обробці кількісних безперервних даних – на їхній вигляд можна судити про гіпотетичний закон розподілу.

Кумулята - крива накопичених частот (частин) інтервального варіаційного ряду. З кумулятою зіставляється графік інтегральної функції розподілу F(x), що також розглядається в курсі теорії ймовірностей.

В основному поняття гістограми та кумуляти пов'язують саме з безперервними даними та їх інтервальними варіаційними рядами, тому що їх графіки є емпіричними оцінками функції ймовірності щільності і функції розподілу відповідно.

Побудова інтервального варіаційного ряду починають із визначення кількості інтервалів k.І це завдання, мабуть, є найскладнішим, важливішим і неоднозначним у досліджуваному питанні.

Число інтервалів не повинно бути занадто малим, тому що при цьому гістограма виходить занадто згладженою ( oversmoothed),втрачає всі особливості мінливості вихідних даних - на рис. 1.17 можна побачити, як самі дані, якими побудовані графіки рис. 1.15 використані для побудови гістограми з меншим числом інтервалів (лівий графік).

У той же час кількість інтервалів не повинна бути занадто великою – інакше ми не зможемо оцінити щільність розподілу даних по числовій осі: гістограма вийде недозгладжена (undersmoothed),із незаповненими інтервалами, нерівномірна (див. рис. 1.17, правий графік).

Мал. 1.17.

Як же визначити найкраще число інтервалів?

Ще 1926 р. Герберт Стерджес (Herbert Sturges) запропонував формулу обчислення кількості інтервалів, куди необхідно розбити вихідне безліч значень досліджуваного ознаки . Ця формула справді стала надпопулярною – більшість статистичних підручників пропонують саме її, за умовчанням її використовують і безліч статистичних пакетів. Наскільки це виправдано і в усіх випадках – є дуже серйозним питанням.

Отже, на чому ґрунтується формула Стерджеса?

Розглянемо біномне розподіл / О.Ю. Єрмолаєв. – М.: Вид-во Флінта Московського психолого-соціального інституту, 2012. – 335с.

За рівнем варіації можна будувати висновки про однорідності сукупності, про стійкість окремих значень ознак і типовості середньої. На основі розробляються показники тісноти зв'язку між ознаками, показники оцінки точності вибіркового спостереження.

Розрізняють варіацію у просторі та варіацію у часі.

Під варіацією у просторі розуміють коливання значень ознаки в одиниць сукупності, що представляють окремі території. Під варіацією у часі мають на увазі зміну значень ознаки у різні періоди часу.

Для вивчення варіації у лавах розподілу проводять розташування всіх варіантів значень ознаки у зростаючому чи спадному порядку. Цей процес називають ранжуванням низки.

Найпростішими ознаками варіації є мінімум та максимум- Найменше та найбільше значення ознаки в сукупності. Число повторень окремих варіантів значень ознак називають частотою повторення (fi). Частоти зручно замінювати частостями – wi. Частина - відносний показник частоти, що може бути виражений у частках одиниці чи відсотках і дозволяє зіставляти варіаційні ряди з різним числом спостережень. Виражається формулою:

де Хmax, Хmin - максимальне та мінімальне значення ознаки в сукупності; n – число груп.

Для вимірювання варіації ознаки застосовуються різні абсолютні та відносні показники. До абсолютних показників варіації відносяться розмах варіації, середнє лінійне відхилення, дисперсія, середнє відхилення квадратичне. До відносних показників коливання відносять коефіцієнт осциляції, відносне лінійне відхилення, коефіцієнт варіації.

Приклад знаходження варіаційного ряду

Завдання.За цією вибіркою:

  • а) Знайти варіаційний ряд;
  • б) побудувати функцію розподілу;

№ = 42. Елементи вибірки:

1 5 1 8 1 3 9 4 7 3 7 8 7 3 2 3 5 3 8 3 5 2 8 3 7 9 5 8 8 1 2 2 5 1 6 1 7 6 7 7 6 2

Рішення.

  • а) побудова ранжованого варіаційного ряду:
    • 1 1 1 1 1 1 2 2 2 2 2 3 3 3 3 3 3 3 4 5 5 5 5 5 6 6 6 7 7 7 7 7 7 7 8 8 8 8 8 8 9 9
  • б) побудова дискретного варіаційного ряду.

Обчислимо число груп у варіаційному ряді, користуючись формулою Стерджесса:

Приймемо число груп, рівним 7.

Знаючи число груп, розрахуємо величину інтервалу:

Для зручності побудови таблиці приймемо число груп рівним 8 інтервал складе 1.

Мал. 1 Обсяг продажу магазином товару за певний проміжок часу

Угруповання- Це розбиття сукупності на групи, однорідні за якоюсь ознакою.

Призначення сервісу. За допомогою онлайн-калькулятора Ви зможете:

  • побудувати варіаційний ряд, побудувати гістограму та полігон;
  • знайти показники варіації (середню, моду (зокрема і графічним способом), медіану, розмах варіації, квартили, децили, квартильний коефіцієнт диференціації, коефіцієнт варіації та інші показники);

Інструкція. Для групування ряду необхідно вибрати вид варіаційного ряду, що отримується (дискретний або інтервальний) і вказати кількість даних (кількість рядків). Отримане рішення зберігається у файлі Word (див. приклад угруповання статистичних даних).

Якщо угруповання вже здійснено та задані дискретний варіаційний рядабо інтервальний ряд, то необхідно скористатися онлайн-калькулятором Показники варіації. Перевірка гіпотези про вид розподілупроводиться за допомогою сервісу Вивчення форми розподілу.

Види статистичних угруповань

Варіаційний ряд. У разі спостережень дискретної випадкової величини те саме значення можна зустріти кілька разів. Такі значення x i випадкової величини записують із зазначенням n i числа разів його появи в n спостереженнях, і є частота даного значення.
У разі безперервної випадкової величини практично застосовують угруповання.
  1. Типологічне угруповання- Це поділ досліджуваної якісно різнорідної сукупності на класи, соціально-економічні типи, однорідні групи одиниць. Для побудови цього угруповання використовуйте параметр Дискретний варіаційний ряд.
  2. Структурним називається угруповання, в якій відбувається поділ однорідної сукупності на групи, що характеризують її структуру за якою-небудь ознакою, що варіює. Для побудови цього угруповання використовуйте параметр Інтервальний ряд.
  3. Угруповання, що виявляє взаємозв'язки між досліджуваними явищами та їх ознаками, називається аналітичним угрупованням(Див. аналітичне угруповання ряду).

Приклад №1. За даними таблиці 2 побудуйте ряди розподілу по 40 комерційних банків РФ. За отриманими рядами розподілу визначте: прибуток у середньому однією комерційний банк, кредитні вкладення загалом однією комерційний банк, модальне і медіанне значення прибутку; квартилі, децили, розмах варіації, середнє лінійне відхилення, середнє квадратичне відхилення, коефіцієнт варіації.

Рішення:
В розділі «Вигляд статистичного ряду»обираємо Дискретний ряд. Натискаємо Вставити з Excel. Кількість груп: за формулою Стерджесса

Принципи побудови статистичних угруповань

Ряд спостережень, упорядкованих за зростанням, називається варіаційним рядом. Групувальною ознакоюназивається ознака, яким виробляється розбивка сукупності деякі групи. Його називають основою угруповання. В основі угруповання можуть бути покладені як кількісні, так і якісні ознаки.
Після визначення підстави угруповання слід вирішити питання кількості груп, куди треба розбити досліджувану сукупність.

У разі використання персональних комп'ютерів для обробки статистичних даних групування одиниць об'єкта здійснюється за допомогою стандартних процедур.
Одна з таких процедур базується на використанні формули Стерджесу для визначення оптимальної кількості груп:

k = 1+3,322*lg(N)

Де k – кількість груп, N – число одиниць сукупності.

Довжину часткових інтервалів обчислюють як h=(x max -x min)/k

Потім підраховують числа попадань спостережень у ці інтервали, які приймають за частоти n i . Нечисленні частоти, значення яких менше 5 (n i< 5), следует объединить. в этом случае надо объединить и соответствующие интервалы.
В якості нових значень варіант беруть середини інтервалів x i = (c i-1 + c i) /2.

Приклад №3. В результаті 5% власно-випадкової вибірки отримано наступний розподіл виробів за вмістом вологи. Розрахуйте: 1) середній відсоток вологості; 2) показники, що характеризують варіацію вологості.
Рішення отримано за допомогою калькулятора: Приклад №1

Побудувати варіаційний ряд. Знайденим рядом побудувати полігон розподілу, гістограму, кумуляту. Визначити моду та медіану.
Завантажити рішення

приклад. За результатами вибіркового спостереження (вибірка А додаток):
а) складіть варіаційний ряд;
б) обчисліть відносні частоти та накопичені відносні частоти;
в) збудуйте полігон;
г) складіть емпіричну функцію розподілу;
буд) побудуйте графік емпіричної функції розподілу;
е) обчисліть числові характеристики: середнє арифметичне, дисперсію, середнє відхилення квадратичне. Рішення

На основі даних, наведених у Таблиці 4 (Додаток 1) та відповідних Вашому варіанту, виконати:

  1. На основі структурного угруповання побудувати варіаційний частотний та кумулятивний ряди розподілу, використовуючи рівні закриті інтервали, прийнявши число груп рівним 6. Результати подати у вигляді таблиці та зобразити графічно.
  2. Проаналізувати варіаційний ряд розподілу, обчисливши:
    • середнє арифметичне значення ознаки;
    • моду, медіану, перший квартиль, перший і дев'ятий дециль;
    • середнє квадратичне відхилення;
    • коефіцієнт варіації.
  3. Зробити висновки.

Потрібно: ранжувати ряд, побудувати інтервальний ряд розподілу, обчислити середнє значення, коливання середнього значення, моду та медіану для ранжованого та інтервального рядів.

На основі вихідних даних побудувати дискретний варіаційний ряд; подати його у вигляді статистичної таблиці та статистичних графіків. 2). На основі вихідних даних побудувати інтервальний варіаційний ряд із рівними інтервалами. Число інтервалів вибрати самостійно та пояснити цей вибір. Подати отриманий варіаційний ряд у вигляді статистичної таблиці та статистичних графіків. Вказати види застосованих таблиць та графіків.

З метою визначення середньої тривалості обслуговування клієнтів у пенсійному фонді, кількість клієнтів якого є дуже великою, за схемою власне-випадкової безповторної вибірки проведено обстеження 100 клієнтів. Результати обстеження представлені у таблиці. Знайти:
а) межі, у яких із ймовірністю 0.9946 укладено середній час обслуговування всіх клієнтів пенсійного фонду;
б) ймовірність того, що частка всіх клієнтів фонду з тривалістю обслуговування менше 6 хвилин відрізняється від частки таких клієнтів у вибірці не більше ніж на 10% (за абсолютною величиною);
в) обсяг повторної вибірки, у якому з ймовірністю 0.9907 можна стверджувати, частка всіх клієнтів фонду із тривалістю обслуговування менше 6 хвилин відрізняється від частки таких клієнтів у вибірці лише на 10% (за абсолютною величиною).
2. За даними завдання 1, використовуючи X 2 критерій Пірсона, лише на рівні значимості α = 0,05 перевірити гіпотезу у тому, що випадкова величина Х – час обслуговування клієнтів – розподілено за нормальним законом. Побудувати на одному кресленні гістограму емпіричного розподілу та відповідну нормальну криву.
Завантажити рішення

Дано вибірку зі 100 елементів. Необхідно:

  1. Побудувати ранжований варіаційний ряд;
  2. Знайти максимальний та мінімальний члени ряду;
  3. Знайти розмах варіації та кількість оптимальних проміжків для побудови інтервального ряду. Знайти довжину проміжку інтервального ряду;
  4. Побудувати інтервальний ряд. Знайти частоти потрапляння елементів вибірки до складених проміжків. Знайти середні точки кожного проміжку;
  5. Побудувати гістограму та полігон частот. Порівняти з нормальним розподілом (аналітично та графічно);
  6. Побудувати графік емпіричної функції розподілу;
  7. Розрахувати вибіркові числові характеристики: вибіркове середнє та центральний вибірковий момент;
  8. Розрахувати наближені значення середнього квадратичного відхилення, асиметрії та ексцесу (користуючись пакетом аналізу MS Excel). Порівняти наближені розрахункові значення з точними (розраховані за формулами MS Excel);
  9. Порівняти вибіркові графічні характеристики із відповідними теоретичними.
Завантажити рішення

Є такі вибіркові дані (вибірка 10%-ная, механічна) про випускати продукцію і суму прибутку, млн. крб. За вихідними даними:
Завдання 13.1.
13.1.1. Побудуйте статистичний ряд розподілу підприємств за сумою прибутку, утворивши п'ять груп із рівними інтервалами. Побудуйте графіки ряду розподілу.
13.1.2. Розрахуйте числові характеристики ряду розподілу підприємств за сумою прибутку: середню арифметичну, середнє відхилення, дисперсію, коефіцієнт варіації V. Зробіть висновки.
Завдання 13.2.
13.2.1. Визначте межі, в яких із ймовірністю 0.997 укладено суму прибутку одного підприємства в генеральній сукупності.
13.2.2. Використовуючи x2-критерій Пірсона , при рівні значимості α перевірити гіпотезу у тому, що випадкова величина X – сума прибутку – розподілено за нормальним законом.
Завдання 13.3.
13.3.1. Визначте коефіцієнти вибіркового рівняння регресії.
13.3.2. Встановіть наявність та характер кореляційного зв'язку між вартістю виробленої продукції (X) та сумою прибутку на одне підприємство (Y). Побудуйте діаграму розсіювання та лінію регресії.
13.3.3. Розрахуйте лінійний коефіцієнт кореляції. Використовуючи t-критерій Стьюдента, перевірте значення коефіцієнта кореляції. Зробіть висновок про тісноту зв'язку між факторами X та Y, використовуючи шкалу Чеддока.
Методичні рекомендації. Завдання 13.3 виконується за допомогою цього сервісу.
Завантажити рішення

Завдання. Наступні дані є витрати часу клієнтів на укладення договорів. Побудувати інтервальний варіаційний ряд представлених даних, гістограму, знайти незміщену оцінку математичного очікування, зміщену та незміщену оцінку дисперсії.

Приклад. За даними таблиці 2:
1) Побудуйте ряди розподілу по 40 комерційних банків РФ:
а) за величиною прибутку;
б) за величиною кредитних вкладень.
2) За отриманими рядами розподілу визначте:
а) прибуток у середньому однією комерційний банк;
Б) кредитні вкладення загалом однією комерційний банк;
В) модальне та медіанне значення прибутку; квартили, децилі;
Г) модальне та медіанне значення кредитних вкладень.
3) За отриманими у п. 1 рядах розподілу розрахуйте:
а) розмах варіації;
б) середнє лінійне відхилення;
в) середнє квадратичне відхилення;
г) коефіцієнт варіації.
Необхідні розрахунки оформіть у табличній формі. Результати проаналізуйте. Зробіть висновки.
Побудуйте графіки одержаних рядів розподілу. Графічно визначте моду та медіану.

Рішення:
Для побудови угруповання з рівними інтервалами скористаємося сервісом Угруповання статистичних даних.

Рисунок 1 – Введення параметрів

Опис параметрів
Кількість рядків: кількість вихідних даних. Якщо розмірність ряду невелика, вкажіть його кількість. Якщо вибірка досить об'ємна, натисніть кнопку Вставити з Excel .
Кількість груп: 0 – число груп визначатиметься за формулою Стерджесса.
Якщо вказано конкретну кількість груп, вкажіть її (наприклад, 5).
Вид ряду: Дискретний ряд
Рівень значущості: наприклад, 0.954 . Цей параметр визначається для визначення довірчого інтервалу середнього значення.
Вибірка: Наприклад, проведена 10%-на механічна вибірка. Вказуємо число 10 . Для даних вказуємо 100 .

Умова:

Є дані про віковий склад робітників (років): 18, 38, 28, 29, 26, 38, 34, 22, 28, 30, 22, 23, 35, 33, 27, 24, 30, 32, 28, 25, 29, 26, 31, 24, 29, 27, 32, 25, 29, 29.

    1. Побудувати інтервальний ряд розподілу.
    2. Побудувати графічне зображення ряду.
    3. Графічно визначити моду та медіану.

Рішення:

1) За формулою Стерджеса сукупність треба поділити на 1 + 3,322 lg 30 = 6 груп.

Максимальний вік – 38, мінімальний – 18.

Ширина інтервалу Оскільки кінці інтервалів мають бути цілими числами, розділимо сукупність на 5 груп. Ширина інтервалу – 4.

Для полегшення підрахунків розташуємо дані у порядку зростання: 18, 22, 22, 23, 24, 24, 25, 25, 26, 26, 27, 27, 28, 28, 28, 29, 29, 29, 29, 29, 3 30, 31, 32, 32, 33, 34, 35, 38, 38.

Розподіл вікового складу робітників

Графічно ряд можна зобразити як гістограми чи полігону. Гістограма – стовпчикова діаграма. Основа стовпчика – ширина інтервалу. Висота стовпчика дорівнює частоті.

Полігон (або багатокутник розподілу) – графік частот. Щоб побудувати його по гістограмі, з'єднуємо середини верхніх сторін прямокутників. Багатокутник замикаємо на осі Ох на відстанях, рівних половині інтервалу крайніх значень х.

Мода (Мо) - це величина досліджуваного ознаки, що у цій сукупності зустрічається найчастіше.

Щоб визначити моду по гістограмі, треба вибрати найвищий прямокутник, провести лінію від правої вершини прямокутника до правого верхнього кута попереднього прямокутника, і від лівої вершини модального прямокутника провести лінію до лівої вершини наступного прямокутника. Від точки перетину цих ліній провести перпендикуляр до осі х. Абсцис і буде модою. Мо ≈ 27,5. Отже, найпоширеніший вік у цій сукупності 27-28 років.

Медіана (Mе) - це величина ознаки, що вивчається, яка знаходиться в середині впорядкованого варіаційного ряду.

Медіану знаходимо по кумуляті. Кумулята – графік накопичених частот. Абсциси – варіанти ряду. Ординати – накопичені частоти.

Для визначення медіани по кумуляті знаходимо по осі ординат точку, що відповідає 50% накопичених частот (у нашому випадку 15), проводимо через неї пряму, паралельно осі Ох, і від точки її перетину з кумулятою проводимо перпендикуляр до осі х. Абсцис є медіаною. Ме ≈ 25,9. Це означає, що половина робітників у цій сукупності має вік менше 26 років.



Останні матеріали розділу:

Абсолютний та відносний показники Відносний показник структури формула
Абсолютний та відносний показники Відносний показник структури формула

Відносні показники структури (ОПС) - це відношення частини та цілого між собою Відносні показники структури характеризують склад...

Потоки енергії та речовини в екосистемах
Потоки енергії та речовини в екосистемах

Утворення найпростіших мінеральних та органомінеральних компонентів у газоподібному рідкому або твердому стані, які згодом стають...

Технічна інформація
Технічна інформація "регіонального центру інноваційних технологій"

Пристрій ТЕД ТЛ-2К1 Призначення та технічні дані. Тяговий електродвигун постійного струму ТЛ-2К1 призначений для перетворення...