Довірчий інтервал. Що це таке і як його можна використати

Розум полягає не лише у знанні, а й у вмінні докладати знання на ділі. (Арістотель)

Довірчі інтервали

Загальний огляд

Взявши вибірку з популяції, ми отримаємо точкову оцінку параметра, що цікавить нас, і обчислимо стандартну помилку для того, щоб вказати точність оцінки.

Однак, для більшості випадків стандартна помилка як така не є прийнятною. Набагато корисніше поєднати цей захід точності з інтервальної оцінкою для параметра популяції.

Це можна зробити, використовуючи знання про теоретичний розподіл ймовірності вибіркової статистики (параметра) для того, щоб обчислити довірчий інтервал (CI - Confidence Interval, ДІ - Довірчий інтервал) для параметра.

Взагалі, довірчий інтервал розширює оцінки обидві сторони деякою величиною, кратною стандартної помилки (даного параметра); два значення (довірчі межі), що визначають інтервал, зазвичай відокремлюють комою і укладають у дужки.

Довірчий інтервал для середнього

Використання нормального розподілу

Вибірковий середній має нормальний розподіл, якщо обсяг вибірки великий, тому можна застосувати знання про нормальний розподіл під час розгляду вибіркового середнього.

Зокрема, 95% розподілу вибіркових середніх перебуває у межах 1,96 стандартних відхилень (SD) середньої популяції.

Коли ми маємо лише одну вибірку, ми називаємо це стандартною помилкою середнього (SEM) і обчислюємо 95% довірчого інтервалу для середнього таким чином:

Якщо повторити цей експеримент кілька разів, то інтервал міститиме справжнє середнє популяції в 95% випадків.

Зазвичай це довірчий інтервал як, наприклад, інтервал значень, у якого з довірчою ймовірністю 95% перебуває справжнє середнє популяції (генеральне середнє).

Хоча це не цілком строго (середнє у популяції є фіксоване значення і тому не може мати ймовірність, віднесену до нього) таким чином інтерпретувати довірчий інтервал, але концептуально зручніше для розуміння.

Використання t-розподілу

Можна використовувати нормальний розподіл, якщо знати значення дисперсії у популяції. Крім того, коли обсяг вибірки невеликий, вибіркове середнє відповідає нормальному розподілу, якщо дані, що лежать в основі популяції, нормально розподілені.

Якщо дані, що лежать в основі популяції, розподілені ненормально та/або невідома генеральна дисперсія (дисперсія в популяції), середнє вибіркове підпорядковується t-розподілу Стьюдента.

Обчислюємо 95% довірчий інтервал для генерального середнього у популяції наступним чином:

Де - процентна точка (процентиль) t-розподіл Стьюдента з (n-1) ступенями свободи, яка дає двосторонню ймовірність 0,05.

Взагалі вона забезпечує ширший інтервал, ніж при використанні нормального розподілу, оскільки враховує додаткову невизначеність, яку вводять, оцінюючи стандартне відхилення популяції та/або через невеликий обсяг вибірки.

Коли обсяг вибірки великий (близько 100 і більше), різниця між двома розподілами ( t-Стьюдентата нормальним) незначна. Проте завжди використовують t-розподіл при обчисленні довірчих інтервалів, навіть якщо об'єм вибірки великий.

Зазвичай вказують 95% ДІ. Можна обчислити інші довірчі інтервали, наприклад, 99% ДІ для середнього.

Замість добутку стандартної помилки та табличного значення t-розподілу, який відповідає двосторонній ймовірності 0,05, множать її (стандартну помилку) на значення, яке відповідає двосторонній ймовірності 0,01. Це ширший довірчий інтервал, ніж у випадку 95%, оскільки він відображає збільшену довіру до того, що інтервал дійсно включає середню популяцію.

Довірчий інтервал для пропорції

Вибірковий розподіл пропорцій має біномний розподіл. Однак якщо обсяг вибірки nрозумно великий, тоді вибірковий розподіл пропорції приблизно нормально із середнім.

Оцінюємо вибірковим ставленням p=r/n(де r- кількість індивідуумів у вибірці з цікавими для нас характерними особливостями), і стандартна помилка оцінюється:

95% довірчий інтервал для пропорції оцінюється:

Якщо обсяг вибірки невеликий (зазвичай коли npабо n(1-p)менше 5 ), тоді необхідно використовувати біномне розподіл для того, щоб обчислити точні довірчі інтервали.

Зауважте, що якщо pвиражається у відсотках, то (1-p)замінюють на (100-p).

Інтерпретація довірчих інтервалів

При інтерпретації довірчого інтервалу нас цікавлять такі питання:

Наскільки широкий довірчий інтервал?

Широкий довірчий інтервал свідчить про те, що оцінка неточна; тонкий вказує на точну оцінку.

Ширина довірчого інтервалу залежить від розміру стандартної помилки, яка, своєю чергою, залежить від обсягу вибірки і під час розгляду числової змінної від мінливості даних дають ширші довірчі інтервали, ніж дослідження численного набору даних небагатьох змінних.

Чи включає ДІ якісь значення, що становлять особливий інтерес?

Можна перевірити, чи можливе значення для параметра популяції в межі довірчого інтервалу. Якщо так, то результати узгоджуються з цим можливим значенням. Якщо ні, то малоймовірно (для 95% довірчого інтервалу шанс майже 5%), що параметр має це значення.

Оцінка довірчих інтервалів

Цілі навчання

Статистика розглядає такі два основні завдання:

    У нас є деяка оцінка, побудована на вибіркових даних, і ми хочемо зробити деяке ймовірнісне твердження щодо того, де знаходиться справжнє значення параметра, що оцінюється.

    Ми маємо конкретну гіпотезу, яку необхідно перевірити на основі вибіркових даних.

У цій темі ми розглядаємо перше завдання. Введемо також визначення довірчого інтервалу.

Довірчий інтервал - це інтервал, який будується навколо оцінного значення параметра і показує, де знаходиться справжнє значення параметра з апріорі заданою ймовірністю.

Вивчивши матеріал цієї теми, Ви:

    дізнаєтесь, що таке довірчий інтервал оцінки;

    навчіться класифікувати статистичні завдання;

    освоїте техніку побудови довірчих інтервалів як за статистичними формулами, так і за допомогою програмного інструментарію;

    навчитеся визначати необхідні розміри вибірок для досягнення певних параметрів точності статистичних оцінок.

Розподіл вибіркових характеристик

Т-розподіл

Як обговорювали вище розподіл випадкової величини, близький до стандартизованого нормального розподілу з параметрами 0 і 1. Оскільки нам не відома величина σ, ми замінюємо її на деяку оцінку s . Величина вже має інший розподіл, а саме чи Розподіл Стьюдента, Яке визначається параметром n -1 (кількість ступенів свободи). Цей розподіл близький до нормального розподілу (що більше n, тим розподіл ближче).

На рис. 95
представлено розподіл Стьюдента з 30 ступенями свободи. Як видно, воно дуже близьке до нормального розподілу.

Аналогічно до функцій для роботи з нормальним розподілом НОРМРАСП і НОРМОБР є функції для роботи з t-розподілом - СТЬЮДРАСП (TDIST) і Стьюдрозбір (TINV). Приклад використання цих функцій можна переглянути у файлі СТЬЮДРАСП.XLS (шаблон і рішення) та на рис. 96
.

Розподіл інших характеристик

Як ми вже знаємо, для визначення точності оцінювання математичного очікування нам необхідний t-розподіл. Для оцінювання інших параметрів, наприклад дисперсії, потрібні інші розподіли. Два з них - це F-розподіл та x 2 -розподіл.

Довірчий інтервал для середнього значення

Довірчий інтервал- це інтервал, який будується навколо оцінного значення параметра і показує, де знаходиться справжнє значення параметра, що оцінюється, з апріорі заданою ймовірністю.

Побудова довірчого інтервалу для середнього значення відбувається наступним чином:

приклад

У ресторані швидкого обслуговування планується розширити асортимент нового вигляду сендвіча. Для того щоб оцінити попит на нього, менеджер випадково планує вибрати 40 відвідувачів з тих, хто вже спробував його і запропонувати їм оцінити їхнє ставлення до нового продукту в балах від 1 до 10. Менеджер хоче оцінити очікувану кількість балів, яку отримає новий продукт і побудувати 95% довірчий інтервал цієї оцінки. Як це здійснити? (Див. файл СЕНДВІЧ1.XLS (шаблон і рішення).

Рішення

Для вирішення цього завдання можна скористатися. Результати подано на рис. 97
.

Довірчий інтервал для сумарного значення

Іноді, за вибірковими даними, потрібно оцінити не математичне очікування, а загальну суму значень. Наприклад, у ситуації з аудитором інтерес може становити оцінка середньої величини рахунку, а суми всіх рахунків.

Нехай N – загальна кількість елементів, n – розмір вибірки, T 3 – сума значень у вибірці, T” – оцінка для суми по всій сукупності, тоді а довірчий інтервал обчислюється за формулою , де s - оцінка стандартного відхилення для вибірки, - оцінка середнього для вибірки.

приклад

Припустимо, деяка податкова служба хоче оцінити розмір сумарних податкових повернень для 10 000 платників податків. Платник податків отримує повернення, або доплачує податки. Знайдіть 95%-й довірчий інтервал для суми повернення за умови, що розмір вибірки становить 500 осіб (див. файл СУМА ПОВЕРНЕНЬ.XLS (шаблон і рішення ).

Рішення

У StatPro немає спеціальної процедури для цього випадку, однак можна помітити, що кордони можна отримати з кордонів для середнього виходячи з наведених вище формул (рис. 98).
).

Довірчий інтервал для пропорції

Нехай p - математичне очікування частки клієнтів, а р - оцінка цієї частки, отримана за вибіркою розміру n. Можна показати, що для чималих розподіл оцінки буде близьким до нормального з математичним очікуванням p і стандартним відхиленням . Стандартна помилка оцінки в даному випадку виражається як , а довірчий інтервал як .

приклад

У ресторані швидкого обслуговування планується розширити асортимент нового вигляду сендвіча. Для того щоб оцінити попит на нього, менеджер випадково вибрав 40 відвідувачів з тих, хто вже спробував його і запропонував їм оцінити їхнє ставлення до нового продукту в балах від 1 до 10. Менеджер хоче оцінити очікувану частку клієнтів, які оцінюють новий продукт не менше ніж у 6 балів (він очікує, що саме ці клієнти будуть споживачами нового продукту).

Рішення

Спочатку створюємо новий стовпець за ознакою 1, якщо оцінка клієнта була більше 6 балів і 0 інакше (див. файл СЕНДВІЧ2.XLS (шаблон та рішення)).

Спосіб 1

Підраховуючи кількість 1 оцінюємо частку, а далі використовуємо формули.

Значення z кр береться зі спеціальних таблиць нормального розподілу (наприклад, 1,96 для 95% довірчого інтервалу).

Використовуючи даний підхід і конкретні дані для побудови 95% інтервалу, отримаємо наступні результати (рис. 99
). Критичне значення параметра z кр дорівнює 1,96. Стандартна помилка оцінки – 0,077. Нижня межа довірчого інтервалу – 0,475. Верхня межа довірчого інтервалу – 0,775. Таким чином, менеджер вправі вважати з 95% впевненістю, що відсоток клієнтів, які оцінили новий продукт на 6 балів і вище, буде між 47,5 і 77,5.

Спосіб 2

Це завдання допускає рішення стандартними засобами StatPro. Для цього досить помітити, що частка в даному випадку збігається із середнім значенням стовпця Тип . Далі застосуємо StatPro/Statistical Inference/One-Sample Analysisдля побудови довірчого інтервалу середнього значення (оцінки математичного очікування) стовпця Тип . Отримані у разі результат, будуть дуже близький до результату 1-го способу (рис. 99).

Довірчий інтервал для стандартного відхилення

Як оцінка стандартного відхилення використовується s (формула наведена у розділі 1). Функцією щільності розподілу оцінки s є функція хі-квадрат, яка, як і t-розподіл, має n-1 ступінь свободи. Є спеціальні функції для роботи з цим розподілом ХІ2РАСП (CHIDIST) та ХІ2ОБР (CHIINV).

Довірчий інтервал у разі вже буде не симетричним. Умовна схема меж представлена ​​на рис. 100 .

приклад

Верстат повинен робити деталі діаметром 10 см. Однак через різні обставини відбуваються помилки. Контролера за якістю хвилюють дві обставини: по-перше, середнє значення має дорівнювати 10 см; по-друге, навіть у разі, якщо відхилення будуть великі, багато деталі будуть забраковані. Щодня він робить вибірку з 50 деталей (див. файл КОНТРОЛЬ ЯКОСТІ.XLS (шаблон та рішення)) Які висновки може дати така вибірка?

Рішення

Побудуємо 95% довірчі інтервали для середнього і для стандартного відхилення за допомогою StatPro/Statistical Inference/ One-Sample Analysis(Мал. 101
).

Далі, використовуючи припущення про розподіл діаметрів, розрахуємо частку бракованих виробів, задавшись граничним відхиленням 0,065. Використовуючи можливості таблиці підстановки (випадок двох параметрів), побудуємо залежність частки шлюбу від середнього значення та стандартного відхилення (рис. 102)
).

Довірчий інтервал для різниці двох середніх значень

Це одне з найважливіших застосувань статистичних методів. Приклади ситуацій.

    Менеджер магазину одягу хотів би знати, на скільки більше чи менше витрачає у магазині середня жінка-покупець, ніж чоловік.

    Дві авіакомпанії літають аналогічними маршрутами. Організація-споживач хотіла б порівняти різницю між середньоочікуваними часом затримок рейсів по обох авіакомпаніях.

    Компанія розсилає купони на окремі види товарів в одному місті та не розсилає в іншому. Менеджери хочуть порівняти середні обсяги купівлі цих товарів у найближчі два місяці.

    Автомобільний дилер часто має справу на презентаціях із заміжніми парами. Щоб зрозуміти їхню персональну реакцію на презентацію, пари часто опитують окремо. Менеджер хоче оцінити різницю в рейтингах, які вказують чоловіки і жінки.

Випадок незалежних вибірок

Різниця середніх значень матиме t-розподіл із n 1 + n 2 - 2 ступенями свободи. Довірчий інтервал для μ 1 - μ 2 виражається співвідношенням:

Дане завдання допускає рішення не тільки за наведеними вище формулами, але і стандартними засобами StatPro. Для цього достатньо застосувати

Довірчий інтервал для різниці між пропорціями

Нехай - математичне очікування часток. Нехай їх вибіркові оцінки, побудовані за вибірками розміру n 1 і n 2 відповідно. Тоді є оцінкою для різниці. Отже, довірчий інтервал цієї різниці виражається як:

Тут z кр є значенням, отриманим з нормального розподілу за спеціальними таблицями (наприклад, 1,96 для 95% довірчого інтервалу).

Стандартна помилка оцінки виражається у разі співвідношенням:

.

приклад

Магазин, готуючись до великого розпродажу, зробив наступні маркетингові дослідження. Було обрано 300 найкращих покупців, які у свою чергу були випадково поділені на дві групи по 150 членів у кожній. Усім з відібраних покупців було розіслано запрошення для участі у розпродажі, але тільки для членів першої групи було додано купон, що дає право на знижку 5%. Під час розпродажу купівлі всіх 300 відібраних покупців фіксувалися. Як менеджер може інтерпретувати отримані результати і зробити висновок про ефективність надання купонів? (див. файл КУПОНИ.XLS (шаблон і рішення)).

Рішення

Для нашого конкретного випадку зі 150 покупців, які отримали купон на знижку, 55 зробили купівлю на розпродажі, а серед 150 купон, які не отримали купівлю, зробили тільки 35 (рис. 103).
). Тоді значення вибіркових пропорцій відповідно 0,3667 та 0,2333. А вибіркова різниця між ними дорівнює відповідно 0,1333. Вважаючи довірчий інтервал 95%, знаходимо по таблиці нормального розподілу z кр = 1,96. Обчислення стандартної помилки вибіркової різниці дорівнює 0,0524. Остаточно отримуємо, що нижня межа 95% довірчого інтервалу дорівнює 0,0307, ​​а верхня межа 0,2359 відповідно. Отримані результати можна інтерпретувати таким чином, що на кожних 100 покупців, які отримали купон зі знижкою, очікується від 3 до 23 нових покупців. Однак треба мати на увазі, що цей висновок сам по собі ще не означає ефективності застосування купонів (оскільки надаючи знижку ми втрачаємо в прибутку!). Продемонструємо це на конкретних даних. Припустимо, що середній обсяг купівлі дорівнює 400 крб., у тому числі 50 крб. є прибуток магазину. Тоді очікуваний прибуток на 100 покупцях, які не отримали купон, дорівнює:

50 0,2333 100 = 1166,50 руб.

Аналогічні обчислення для 100 покупців, які отримали купон, дають:

30 0,3667 100 = 1100,10 руб.

Зменшення середнього прибутку до 30 пояснюється тим, що, використовуючи знижку, покупці, які отримали купон, у середньому робитимуть покупку на 380 руб.

Таким чином, підсумковий висновок говорить про неефективність використання таких купонів у цій конкретній ситуації.

Зауваження. Це завдання допускає рішення стандартними засобами StatPro. Для цього достатньо звести це завдання до завдання оцінки різниці двох середніх способом, а далі застосувати StatPro/Statistical Inference/Two-Sample Analysisдля побудови довірчого інтервалу різниці двох середніх значень.

Управління довжиною довірчого інтервалу

Довжина довірчого інтервалу залежить від наступних умов:

    безпосередньо даних (стандартне відхилення);

    рівня значимості;

    розміру вибірки.

Розмір вибірки для оцінки середнього значення

Спочатку розглянемо завдання у випадку. Позначимо дане нам значення половини довжини довірчого інтервалу за (рис. 104
). Нам відомо, що довірчий інтервал для середнього значення деякої випадкової величини X виражається як , де . Вважаючи:

і висловлюючи n, отримаємо.

На жаль, точного значення дисперсії випадкової величини X нам не відомо. Крім цього, нам невідомо і значення t кр, оскільки воно залежить від n через кількість ступенів свободи. У цій ситуації ми можемо вчинити так. Замість дисперсії s використовуємо будь-яку оцінку дисперсії, за якими є реалізація досліджуваної випадкової величини. Замість значення t кр використовуємо значення z кр нормального розподілу. Це цілком припустимо, оскільки функції щільності розподілів для нормального та t-розподілу дуже близькі (за винятком випадку малих n). Таким чином, шукана формула набуває вигляду:

.

Оскільки формула дає, взагалі кажучи, нецілочисленний результат, як шуканий розмір вибірки береться округлення з надлишком результату.

приклад

У ресторані швидкого обслуговування планується розширити асортимент нового вигляду сендвіча. Для того щоб оцінити попит на нього, менеджер випадково планує вибрати деяку кількість відвідувачів з тих, хто вже спробував його, і запропонувати їм оцінити їхнє ставлення до нового продукту в балах від 1 до 10. Менеджер хоче оцінити очікувану кількість балів, яку отримає новий продукт і побудувати 95% довірчий інтервал цієї оцінки. При цьому він хоче, щоб половина ширини довірчого інтервалу не перевищувала 0,3. Яку кількість відвідувачів йому потрібно опитати?

виглядає наступним чином:

Тут р оц- оцінка частки p , а є задана половина довжини довірчого інтервалу. Завищене значення для n можна отримати, використовуючи значення р оц= 0,5. У цьому випадку довжина довірчого інтервалу не перевищуватиме заданого значення при будь-якому істинному значенні p .

приклад

Нехай менеджер із попереднього прикладу планує оцінити частку клієнтів, які віддали перевагу новому виду продукції. Він хоче побудувати 90% довірчий інтервал, половина довжини якого не перевищувала б 0,05. Скільки клієнтів має увійти до випадкової вибірки?

Рішення

У разі значення z кр = 1,645. Тому шукана кількість обчислюється як .

Якби менеджер мав підстави вважати, що шукане значення p становить, наприклад, приблизно 0,3, то, підставляючи це значення у наведену вище формулу, ми отримали б менше значення величини випадкової вибірки, а саме 228.

Формула для визначення розмірів випадкової вибірки у разі різниці між двома середніми значеннямизаписується як:

.

приклад

Деяка комп'ютерна компанія має сервісний центр обслуговування клієнтів. Останнім часом побільшало скарг клієнтів на погану якість обслуговування. У сервісному центрі в основному працюють співробітники двох типів: які не мають великого досвіду, але закінчили спеціальні підготовчі курси і мають великий практичний досвід, але не закінчили спеціальних курсів. Компанія хоче проаналізувати нарікання клієнтів за останні півроку та порівняти їх середні кількості, що припадають на кожну з двох груп співробітників. Передбачається, що кількості у вибірках з обох груп будуть однакові. Яку кількість співробітників необхідно включити у вибірку, щоб отримати 95% інтервал з половиною довжини не більше 2?

Рішення

Тут σ оц є оцінка стандартного відхилення обох випадкових змінних у припущенні, що вони близькі. Таким чином, у нашому завданні нам необхідно якимось чином одержати цю оцінку. Це можна зробити, наприклад, в такий спосіб. Переглянувши дані щодо нарікань клієнтів за останні півроку, менеджер може помітити, що на кожного співробітника в основному припадає від 6 до 36 нарікань. Знаючи, що для нормального розподілу практично всі значення віддалені від середнього значення не більше ніж на три стандартні відхилення, він може з певною підставою вважати, що:

, Звідки σ оц = 5.

Підставляючи це значення у формулу, отримуємо .

Формула для визначення розміру випадкової вибірки у разі оцінки різниці між часткамимає вигляд:

приклад

Деяка компанія має дві заводи з виробництва аналогічної продукції. Менеджер компанії хоче порівняти частки бракованої продукції обох фабриках. За наявною інформацією відсоток шлюбу обох фабриках становить від 3 до 5%. Передбачається побудувати 99% довірчий інтервал з половиною довжини не більше 0,005 (або 0,5%). Яку кількість виробів необхідно вибрати з кожної фабрики?

Рішення

Тут р 1оц і р 2оц є оцінками двох невідомих часток шлюбу на 1-й та 2-й фабриці. Якщо покласти р 1оц = р 2оц = 0,5, ми отримаємо підвищене значення для n . Але оскільки в нашому випадку ми маємо деяку апріорну інформацію про ці частки, то беремо верхню оцінку цих часток, а саме 0,05. Отримуємо

Коли робиться оцінка деяких параметрів сукупності за вибірковими даними, корисно дати як точкову оцінку параметра, а й вказати довірчий інтервал, який показує, де може бути точне значення параметра.

У цьому розділі ми також познайомилися з кількісними співвідношеннями, що дозволяють будувати такі інтервали для різних параметрів; дізналися методи управління довжиною довірчого інтервалу.

Зазначимо також, що завдання оцінки розмірів вибірки (завдання планування експерименту) можна вирішити, використовуючи стандартні засоби StatPro, а саме StatPro/Statistical Inference/Sample Size Selection.

Часто оцінювачу доводиться аналізувати ринок нерухомості того сегмента, в якому знаходиться об'єкт оцінки. Якщо ринок розвинений, проаналізувати всю сукупність представлених об'єктів буває складно, для аналізу використовується вибірка об'єктів. Не завжди ця вибірка виходить однорідною, іноді потрібно очистити її від екстремумів - надто високих чи надто низьких пропозицій ринку. Для цієї мети застосовується довірчий інтервал. Мета даного дослідження - провести порівняльний аналіз двох способів розрахунку довірчого інтервалу та вибрати оптимальний варіант розрахунку під час роботи з різними вибірками у системі estimatica.pro.

Довірчий інтервал - обчислений з урахуванням вибірки інтервал значень ознаки, що з певною ймовірністю містить оцінюваний параметр генеральної сукупності.

Сенс обчислення довірчого інтервалу полягає в побудові за даними вибірки такого інтервалу, щоб можна було стверджувати із заданою ймовірністю, що значення параметра, що оцінюється, знаходиться в цьому інтервалі. Іншими словами, довірчий інтервал з певною ймовірністю містить невідоме значення величини, що оцінюється. Чим ширший інтервал, тим вища неточність.

Існують різні способи визначення довірчого інтервалу. У цій статті розглянемо 2 способи:

  • через медіану та середньоквадратичне відхилення;
  • через критичне значення t-статистики (коефіцієнт Стьюдента).

Етапи порівняльного аналізу різних способів розрахунку ДІ:

1. формуємо вибірку даних;

2. обробляємо її статистичними методами: розраховуємо середнє значення, медіану, дисперсію тощо;

3. розраховуємо довірчий інтервал двома способами;

4. аналізуємо очищені вибірки та отримані довірчі інтервали.

Етап 1. Вибірка даних

Вибірку сформовано за допомогою системи estimatica.pro. У вибірку увійшла 91 пропозиція про продаж 1 кімнатних квартир у 3-му ціновому поясі з типом планування «Хрущовка».

Таблиця 1. Вихідна вибірка

Ціна 1 кв.м., д.е.

Рис.1. Вихідна вибірка



Етап 2. Обробка вихідної вибірки

Обробка вибірки методами статистики потребує обчислення наступних значень:

1. Середнє арифметичне значення

2. Медіана - число, що характеризує вибірку: рівно половина елементів вибірки більше медіани, інша половина менше медіани

(Для вибірки, що має непарне число значень)

3. Розмах - різниця між максимальним та мінімальним значеннями у вибірці

4. Дисперсія – використовується для більш точного оцінювання варіації даних

5. Середньоквадратичне відхилення за вибіркою (далі - СКО) - найпоширеніший показник розсіювання значень коригування навколо середнього арифметичного значення.

6. Коефіцієнт варіації - відбиває ступінь розкиданості значень коригувань

7. коефіцієнт осциляції - відбиває відносне коливання крайніх значень цін у вибірці навколо середньої

Таблиця 2. Статистичні показники вихідної вибірки

Коефіцієнт варіації, що характеризує однорідність даних, становить 12,29%, проте коефіцієнт осциляції занадто великий. Таким чином ми можемо стверджувати, що вихідна вибірка не є однорідною, тому перейдемо до розрахунку довірчого інтервалу.

Етап 3. Розрахунок довірчого інтервалу

Спосіб 1. Розрахунок через медіану та середньоквадратичне відхилення.

Довірчий інтервал визначається так: мінімальне значення - з медіани віднімається СКО; максимальне значення - до медіани додається СКО.

Таким чином, довірчий інтервал (47179 д.е.; 60689 д.е.)

Рис. 2. Значення, що потрапили в інтервал довіри 1.



Спосіб 2. Побудова довірчого інтервалу через критичне значення t-статистики (коефіцієнт Стьюдента)

С.В. Грибовський у книзі «Математичні методи оцінки вартості майна» визначає спосіб обчислення довірчого інтервалу через коефіцієнт Стьюдента. При розрахунку цим методом оцінювач повинен сам задати рівень значущості ∝, що визначає ймовірність, з якою буде побудовано довірчий інтервал. Зазвичай використовуються рівні значення 0,1; 0,05 та 0,01. Їм відповідають довірчі ймовірності 0,9; 0,95 та 0,99. При такому методі вважають справжні значення математичного очікування та дисперсії практично невідомими (що майже завжди є вірним при вирішенні практичних завдань оцінки).

Формула довірчого інтервалу:

n – обсяг вибірки;

Критичне значення t-статистики (розподілу Стьюдента) з рівнем значимості ∝, числом ступенів свободи n-1, яке визначається за спеціальними статистичними таблицями або за допомогою MS Excel (→ "Статистичні" → СТЬЮДРАСПОБР);

∝ – рівень значущості, приймаємо ∝=0,01.

Рис. 2. Значення, що потрапили в інтервал довіри 2.

Етап 4. Аналіз різних способів розрахунку довірчого інтервалу

Два способи розрахунку довірчого інтервалу – через медіану та коефіцієнт Стьюдента – привели до різних значень інтервалів. Відповідно, вийшло дві різні очищені вибірки.

Таблиця 3. Статистичні показники за трьома вибірками.

Показник

Вихідна вибірка

1 варіант

2 варіант

Середнє значення

Дисперсія

Коеф. варіації

Коеф. осциляції

Кількість об'єктів, що вибули, шт.

З виконаних розрахунків можна сказати, що отримані різними методами значення довірчих інтервалів перетинаються, тому можна використовувати будь-який із способів розрахунку розсуд оцінювача.

Однак ми вважаємо, що при роботі в системі estimatica.pro доцільно вибирати метод розрахунку довірчого інтервалу в залежності від рівня розвиненості ринку:

  • якщо ринок нерозвинений, застосовувати метод розрахунку через медіану і середньоквадратичне відхилення, оскільки кількість об'єктів, що вибули, у цьому випадку невелика;
  • якщо ринок розвинений, застосовувати розрахунок через критичне значення t-статистики (коефіцієнт Стьюдента), оскільки є можливість сформувати велику вихідну вибірку.

Під час підготовки статті було використано:

1. Грибовський С.В., Сівець С.А., Левикіна І.А. Математичні методи оцінки вартості майна. Москва, 2014 р.

2. Дані системи estimatica.pro

Побудуємо в MS EXCEL довірчий інтервал з метою оцінки середнього значення розподілу у разі відомого значення дисперсії.

Зрозуміло, вибір рівня довіриповністю залежить від розв'язуваного завдання. Так, ступінь довіри авіапасажира до надійності літака, безсумнівно, має бути вищим за ступінь довіри покупця до надійності електричної лампочки.

Формулювання завдання

Припустимо, що з генеральної сукупностімає взята вибіркарозміру n. Передбачається, що стандартне відхиленняцього розподілу відомо. Необхідно на підставі цієї вибіркиоцінити невідоме середнє значення розподілу(μ, ) та побудувати відповідний двосторонній довірчий інтервал.

Точкова оцінка

Як відомо з , статистика(позначимо її Х ср) є незміщеною оцінкою середньогоцією генеральної сукупностіта має розподіл N(μ;σ 2 /n).

Примітка: Що робити, якщо потрібно збудувати довірчий інтервалу разі розподілу, який не є нормальним?У цьому випадку на допомогу приходить , яка говорить, що за досить великого розміру вибірки n із розподілу що не є нормальним, вибірковий розподіл статистики Х порбуде приблизновідповідати нормальному розподілуіз параметрами N(μ;σ 2 /n).

Отже, точкова оцінка середнього значення розподілуу нас є – це середнє значення вибірки, тобто. Х ср. Тепер займемося довірчим інтервалом.

Побудова довірчого інтервалу

Зазвичай, знаючи розподіл та його параметри, ми можемо обчислити ймовірність того, що випадкова величина набуде значення заданого нами інтервалу. Зараз зробимо навпаки: знайдемо інтервал, у який випадкова величина потрапить із заданою ймовірністю. Наприклад, із властивостей нормального розподілувідомо, що з ймовірністю 95%, випадкова величина, розподілена по нормальному закону, потрапить в інтервал приблизно +/- 2 від середнього значення(Див. статтю про ). Цей інтервал, послужить нам прототипом для довірчого інтервалу.

Тепер розберемося, чи ми знаємо розподіл , щоб визначити цей інтервал? Для відповіді на запитання ми маємо вказати форму розподілу та його параметри.

Форму розподілу ми знаємо – це нормальний розподіл(нагадаємо, що йдеться про вибірковому розподілі статистики Х ср).

Параметр μ нам невідомий (його якраз потрібно оцінити за допомогою довірчого інтервалу), але у нас є його оцінка Х пор,обчислена на основі вибірки,яку можна використати.

Другий параметр – стандартне відхилення вибіркового середнього будемо вважати відомим, Він дорівнює σ/√n.

Т.к. ми не знаємо μ, то будуватимемо інтервал +/- 2 стандартних відхиленьне від середнього значення, а від відомої його оцінки Х ср. Тобто. при розрахунку довірчого інтервалуми не будемо вважати, що Х српотрапить в інтервал +/- 2 стандартних відхиленьвід μ з ймовірністю 95%, а вважатимемо, що інтервал +/- 2 стандартних відхиленьвід Х срз ймовірністю 95% накриє μ - Середня генеральна сукупність,з якого взято вибірка. Ці два твердження еквівалентні, але друге твердження нам дозволяє побудувати довірчий інтервал.

Крім того, уточнимо інтервал: випадкова величина, розподілена по нормальному закону, з ймовірністю 95% потрапляє в інтервал +/- 1,960 стандартних відхилень,а не+/- 2 стандартних відхилень. Це можна розрахувати за допомогою формули =НОРМ.СТ.ОБР((1+0,95)/2), Див. файл прикладу Лист Інтервал.

Тепер ми можемо сформулювати ймовірнісне твердження, яке послужить нам для формування довірчого інтервалу:
«Ймовірність того, що середня генеральна сукупністьзнаходиться від середньої вибіркив межах 1,960 « стандартних відхилень вибіркового середнього», дорівнює 95%».

Значення ймовірності, згадане у твердженні, має спеціальну назву , який пов'язаний зрівнем значимості α (альфа) простим виразом рівень довіри =1 . У нашому випадку рівень значущості α =1-0,95=0,05 .

Тепер на основі цього ймовірнісного твердження запишемо вираз для обчислення довірчого інтервалу:

де Z α/2 стандартного нормального розподілу(Таке значення випадкової величини z, що P(z>=Z α/2 )=α/2).

Примітка: Верхній α/2-квантильвизначає ширину довірчого інтервалув стандартних відхиленнях вибіркового середнього. Верхній α/2-квантиль стандартного нормального розподілузавжди більше 0, що дуже зручно.

У нашому випадку при α=0,05, верхній α/2-квантиль дорівнює 1,960. Для інших рівнів значення α (10%; 1%) верхній α/2-квантиль Z α/2 можна обчислити за допомогою формули =НОРМ.СТ.ОБР(1-α/2) або, якщо відомий рівень довіри, =НОРМ.СТ.ОБР((1+ур.довіри)/2).

Зазвичай при побудові довірчих інтервалів для оцінки середньоговикористовують тільки верхній α/2-квантильі не використовують нижній α/2-квантиль. Це можливо тому, що стандартне нормальний розподілсиметрично щодо осі х ( щільність його розподілусиметрична щодо середнього, тобто. 0). Тому немає потреби обчислювати нижній α/2-квантиль(його називають просто α /2-квантиль), т.к. він дорівнює верхньому α/2-квантилюзі знаком мінус.

Нагадаємо, що, незважаючи на форму розподілу величини х, відповідна випадкова величина Х сррозподілено приблизно нормально N(μ;σ 2 /n) (див. статтю про ). Отже, у загальному випадку, вищезгадане вираз для довірчого інтервалує лише наближеним. Якщо величина х розподілена по нормальному закону N(μ;σ 2 /n), то вираз для довірчого інтервалує точним.

Розрахунок довірчого інтервалу в MS EXCEL

Розв'яжемо завдання.
Час відгуку електронного компонента на вхідний сигнал є важливою характеристикою пристрою. Інженер хоче побудувати довірчий інтервал для середнього відгуку при рівні довіри 95%. З попереднього досвіду інженер знає, що стандартне відхилення часу відгуку складає 8 мсек. Відомо, що з оцінки часу відгуку інженер зробив 25 вимірів, середнє значення становило 78 мсек.

Рішення: Інженер хоче знати час відгуку електронного пристрою, але він розуміє, що час відгуку є не фіксованою, а випадковою величиною, яка має свій розподіл. Отже, найкраще, на що він може розраховувати, це визначити параметри та форму цього розподілу.

На жаль, з умови завдання форма розподілу часу відгуку нам не відома (вона не обов'язково має бути нормальним). , цього розподілу також невідомо. Відомо лише його стандартне відхиленняσ=8. Тому, поки ми не можемо порахувати ймовірності та побудувати довірчий інтервал.

Однак, незважаючи на те, що ми не знаємо розподілу часу окремого відгуку, ми знаємо, що згідно ЦПТ, вибірковий розподіл середнього часу відгукує приблизно нормальним(вважатимемо, що умови ЦПТвиконуються, т.к. розмір вибіркидосить великий (n=25)) .

Більш того, середняцього розподілу дорівнює середнього значеннярозподілу одиничного відгуку, тобто. μ. А стандартне відхиленняцього розподілу (σ/√n) можна обчислити за формулою =8/КОРІНЬ(25) .

Також відомо, що інженером було отримано точкова оцінкапараметра μ дорівнює 78 мсек (Х пор). Тому, ми можемо обчислювати ймовірності, т.к. нам відома форма розподілу ( нормальне) та його параметри (Х ср і σ/√n).

Інженер хоче знати математичне очікуванняμ розподілу часу відгуку. Як було сказано вище, це μ дорівнює математичному очікуванню вибіркового розподілу середнього часу відгуку. Якщо ми скористаємося нормальним розподілом N(Х ср; σ/√n), то шукане μ перебуватиме в інтервалі +/-2*σ/√n з ймовірністю приблизно 95%.

Рівень значущостідорівнює 1-0,95 = 0,05.

Нарешті, знайдемо лівий та правий кордон довірчого інтервалу.
Ліва межа: =78-НОРМ.СТ.ОБР(1-0,05/2)*8/КОРІНЬ(25) = 74,864
Права межа: =78+НОРМ.СТ.ОБР(1-0,05/2)*8/КОРІНЬ(25)=81,136

Ліва межа: =НОРМ.ОБР(0,05/2; 78; 8/КОРІНЬ(25))
Права межа: =НОРМ.ОБР(1-0,05/2; 78; 8/КОРІНЬ(25))

Відповідь: довірчий інтервалпри рівні довіри 95% та σ=8мсекдорівнює 78+/-3,136 мсек.

У файл прикладу на аркуші Сигмавідома створена форма для розрахунку та побудови двостороннього довірчого інтервалудля довільних вибірокіз заданим σ та рівнем значимості.

Функція ДОВЕРИТ.НОРМ()

Якщо значення вибіркизнаходяться в діапазоні B20: B79 , а рівень значущостідорівнює 0,05; то формула MS EXCEL:
=СРЗНАЧ(B20:B79)-ДОВЕРИТ.НОРМ(0,05;σ; РАХУНОК(B20:B79))
поверне лівий кордон довірчого інтервалу.

Цей же кордон можна обчислити за допомогою формули:
=СРЗНАЧ(B20:B79)-НОРМ.СТ.ОБР(1-0,05/2)*σ/КОРІНЬ(РАХУНОК(B20:B79))

Примітка: Функція ДОВЕРИТ.НОРМ() з'явилася в MS EXCEL 2010. У попередніх версіях MS EXCEL використовувалася функція ДОВЕРИТ() .

Довірчий інтервал прийшов до нас із галузі статистики. Це певний діапазон, який слугує для оцінки невідомого параметра з високим ступенем надійності. Найпростіше це пояснити на прикладі.

Припустимо, слід досліджувати якусь випадкову величину, наприклад, швидкість відгуку сервера на запит клієнта. Щоразу, коли користувач набирає адресу конкретного сайту, сервер реагує з різною швидкістю. Таким чином, час відгуку, що досліджується, має випадковий характер. Так ось, довірчий інтервал дозволяє визначити межі цього параметра, і потім можна буде стверджувати, що з ймовірністю 95% сервера буде знаходитися в розрахованому нами діапазоні.

Або потрібно дізнатися, якій кількості людей відомо про торгову марку фірми. Коли буде підрахований довірчий інтервал, можна буде, наприклад, сказати що з 95% часткою ймовірності частка споживачів, знають про цю перебуває у діапазоні від 27% до 34%.

З цим терміном тісно пов'язана така величина як довірча ймовірність. Вона є ймовірністю того, що шуканий параметр входить у довірчий інтервал. Від цієї величини залежить те, наскільки більшим виявиться наш пошуковий діапазон. Що більше значення вона набуває, то вже стає довірчий інтервал, і навпаки. Зазвичай її встановлюють 90%, 95% або 99%. Величина 95% найпопулярніша.

На цей показник також впливає дисперсія спостережень і Його визначення ґрунтується на тому припущенні, що досліджувана ознака підкоряється. Це твердження відоме також як Закон Гауса. Згідно з ним, нормальним називається такий розподіл усіх ймовірностей безперервної випадкової величини, який можна описати щільністю ймовірностей. Якщо припущення про нормальний розподіл виявилося помилковим, то оцінка може виявитися неправильною.

Спочатку розберемося з тим, як обчислити довірчий інтервал. Тут можливі два випадки. Дисперсія (ступінь розкиду випадкової величини) може бути відома чи ні. Якщо вона відома, то наш довірчий інтервал обчислюється за допомогою наступної формули:

хср - t*σ / (sqrt(n))<= α <= хср + t*σ / (sqrt(n)), где

α - ознака,

t - параметр таблиці розподілу Лапласа,

σ – квадратний корінь дисперсії.

Якщо дисперсія невідома, її можна розрахувати, якщо нам відомі всі значення шуканої ознаки. Для цього використовується така формула:

σ2 = х2ср - (хср)2 де

х2ср - середнє значення квадратів досліджуваної ознаки,

(ХСР)2 - квадрат даної ознаки.

Формула, за якою в цьому випадку розраховується довірчий інтервал, трохи змінюється:

хср - t * s / (sqrt (n))<= α <= хср + t*s / (sqrt(n)), где

хср - вибіркове середнє,

α - ознака,

t - параметр, який знаходять за допомогою таблиці розподілу Стьюдента t = t(?;n-1),

sqrt(n) - квадратний корінь загального обсягу вибірки,

s – квадратний корінь дисперсії.

Розглянь такий приклад. Припустимо, що за результатами 7 вимірів було визначено досліджуваного ознаки, що дорівнює 30 і дисперсія вибірки, що дорівнює 36. Потрібно знайти з ймовірністю 99% довірчий інтервал, який містить справжнє значення параметра, що вимірюється.

Спочатку визначимо чому t: t = t (0,99; 7-1) = 3.71. Використовуємо наведену вище формулу, отримуємо:

хср - t * s / (sqrt (n))<= α <= хср + t*s / (sqrt(n))

30 - 3.71*36 / (sqrt(7))<= α <= 30 + 3.71*36 / (sqrt(7))

21.587 <= α <= 38.413

Довірчий інтервал дисперсії розраховується як у випадку з відомим середнім, так і тоді, коли немає жодних даних про математичне очікування, а відомо лише значення точкової незміщеної оцінки дисперсії. Ми не наводитимемо тут формули його розрахунку, оскільки вони досить складні і за бажання їх завжди можна знайти в мережі.

Відзначимо лише, що довірчий інтервал зручно визначати за допомогою програми Excel або мережевого сервісу, що так і називається.



Останні матеріали розділу:

Список відомих масонів Закордонні знамениті масони
Список відомих масонів Закордонні знамениті масони

Присвячується пам'яті митрополита Санкт-Петербурзького та Ладозького Іоанна (Сничева), який благословив мою працю з вивчення підривної антиросійської...

Що таке технікум - визначення, особливості вступу, види та відгуки Чим відрізняється інститут від університету
Що таке технікум - визначення, особливості вступу, види та відгуки Чим відрізняється інститут від університету

25 Московських коледжів увійшли до рейтингу "Топ-100" найкращих освітніх організацій Росії. Дослідження проводилося міжнародною організацією...

Чому чоловіки не стримують своїх обіцянок Невміння говорити «ні»
Чому чоловіки не стримують своїх обіцянок Невміння говорити «ні»

Вже довгий час серед чоловіків ходить закон: якщо назвати його таким можна, цього не може знати ніхто, чому ж вони не стримують свої обіцянки. По...