Основи аналізу даних. Методи математичної статистики

Регресійний аналіз лежить в основі створення більшості економетричних моделей, до яких слід віднести і моделі оцінки вартості. Для побудови моделей оцінки цей метод можна використовувати, якщо кількість аналогів (порівняних об'єктів) та кількість факторів вартості (елементів порівняння) співвідносяться між собою таким чином: п> (5-г-10) х до,тобто. аналогів має бути у 5-10 разів більше, ніж факторів вартості. Ця ж вимога до співвідношення кількості даних та кількості факторів поширюється і на інші завдання: встановлення зв'язку між вартістю та споживчими параметрами об'єкта; обґрунтування порядку розрахунку коригувальних індексів; з'ясування трендів цін; встановлення зв'язку між зносом та змінами впливових факторів; отримання залежностей до розрахунку нормативів витрат тощо. Виконання цієї вимоги необхідне для того, щоб зменшити ймовірність роботи з вибіркою даних, яка не задовольняє вимогу до нормальності розподілу випадкових величин.

Регресійний зв'язок відображає лише усереднену тенденцію зміни результуючої змінної, наприклад вартості, від зміни однієї або декількох факторних змінних, наприклад, розташування, кількості кімнат, площі, поверху і т.п. У цьому полягає відмінність регресійного зв'язку від функціонального, при якому значення результуючої змінної суворо визначено при заданому значенні факторних змінних.

Наявність регресійного зв'язку / між результуючою ута факторними змінними х р ..., х до(факторами) свідчить про те, що цей зв'язок визначається не тільки впливом відібраних факторних змінних, а й впливом змінних, одні з яких взагалі невідомі, інші не піддаються оцінці та обліку:

Вплив неврахованих змінних позначається другим складником даного рівняння ?, яке називають помилкою апроксимації.

Розрізняють такі типи регресійних залежностей:

  • ? парна регресія - зв'язок між двома змінними (результуючою та факторною);
  • ? множинна регресія - залежність однієї результуючої змінної та двох або більше факторних змінних, включених у дослідження.

Основне завдання регресійного аналізу - кількісне визначення тісноти зв'язку між змінними (при парній регресії) та безліччю змінних (при множинні регресії). Тіснота зв'язку кількісно виражається коефіцієнтом кореляції.

Застосування регресійного аналізу дозволяє встановити закономірність впливу основних факторів (гедоністичних характеристик) на показник, що вивчається як в їх сукупності, так і кожного з них окремо. За допомогою регресійного аналізу, як методу математичної статистики, вдається, по-перше, знайти та описати форму аналітичної залежності результуючої (шуканої) змінної від факторних та, по-друге, оцінити тісноту цієї залежності.

Завдяки розв'язанню першого завдання отримують математичну регресійну модель, за допомогою якої потім розраховують показник, що шукається, при заданих значеннях факторів. Розв'язання другого завдання дозволяє встановити надійність розрахованого результату.

Таким чином, регресійний аналіз можна визначити як сукупність формальних (математичних) процедур, призначених для вимірювання тісноти, напряму та аналітичного виразу форми зв'язку між результуючою та факторними змінними, тобто. на виході такого аналізу має бути структурно та кількісно визначена статистична модель виду:

де у -середнє значення результуючої змінної (пошукового показника, наприклад, вартості, оренди, ставки капіталізації) за пїї спостережень; х - значення факторної змінної (/-й фактор вартості); до -кількість факторних змінних.

Функція f(x l ,...,x lc),описує залежність результуючої змінної від факторних, називається рівнянням (функцією) регресії. Термін «регресія» (regression (лат.) - відступ, повернення до чогось) пов'язаний зі специфікою однієї з конкретних завдань, вирішених на стадії становлення методу, і в даний час не відображає всієї сутності методу, але продовжує застосовуватися.

Регресійний аналіз у загальному випадку включає такі етапи:

  • ? формування вибірки однорідних об'єктів та збір вихідної інформації про ці об'єкти;
  • ? відбір основних факторів, що впливають на результуючу змінну;
  • ? перевірка вибірки на нормальність із використанням х 2 або біномінального критерію;
  • ? прийняття гіпотези про форму зв'язку;
  • ? математичну обробку даних;
  • ? отримання регресійної моделі;
  • ? оцінку її статистичних показників;
  • ? перевірочні розрахунки за допомогою регресійної моделі;
  • ? аналіз результатів.

Зазначена послідовність операцій має місце при дослідженні як парного зв'язку між факторною змінною та однією результуючою, так і множинного зв'язку між результуючою змінною та декількома факторними.

Застосування регресійного аналізу пред'являє до вихідної інформації певні вимоги:

  • ? статистична вибірка об'єктів має бути однорідною у функціональному та конструктивно-технологічному відносинах;
  • ? досить численною;
  • ? досліджуваний вартісний показник - результуюча змінна (ціна, собівартість, витрати) - повинен бути приведений до умов його обчислення у всіх об'єктів у вибірці;
  • ? факторні змінні мають бути виміряні досить точно;
  • ? факторні змінні повинні бути незалежними або мінімально залежними.

Вимоги однорідності і повноти вибірки перебувають у протиріччі: що жорсткіше ведуть відбір об'єктів з їхньої однорідності, тим менше отримують вибірку, і, навпаки, для укрупнення вибірки доводиться включати до неї дуже схожі між собою об'єкти.

Після того як зібрані дані щодо групи однорідних об'єктів, проводять їх аналіз для встановлення форми зв'язку між результуючою та факторними змінними у вигляді теоретичної лінії регресії. Процес знаходження теоретичної лінії регресії полягає в обґрунтованому виборі апроксимуючої кривої та розрахунку коефіцієнтів її рівняння. Лінія регресії являє собою плавну криву (в окремому випадку пряму), що описує за допомогою математичної функції загальну тенденцію досліджуваної залежності і згладжує незакономірні, випадкові викиди від впливу побічних факторів.

Для відображення парних регресійних залежностей у завданнях оцінки найчастіше використовують такі функції: лінійну - у - а 0 + арс + сстатечну - у - aj&i + споказову - у -лінійно-показову - у - а 0 + ар * + с.Тут - епомилка апроксимації, обумовлена ​​дією неврахованих випадкових факторів.

У цих функціях у - результуюча змінна; х – факторна змінна (фактор); а 0 , а р а 2 -параметри регресійної моделі; коефіцієнти регресії.

Лінійно-показова модель відноситься до класу так званих гібридних моделей виду:

де

де х (i = 1, /) – значення факторів;

b t (i = 0, /) – коефіцієнти регресійного рівняння.

У цьому рівнянні складові А, Ві Zвідповідають вартості окремих складових оцінюваного активу, наприклад, вартості земельної ділянки та вартості поліпшень, а параметр Qє загальним. Він призначений для коригування вартості всіх складових активу, що оцінюється на загальний фактор впливу, наприклад, місцезнаходження.

Значення факторів, що перебувають у ступені відповідних коефіцієнтів, є бінарними змінними (0 або 1). Чинники, що у основі ступеня, - дискретні чи безперервні змінні.

Чинники, пов'язані з коефіцієнтами знаком множення, також є безперервними чи дискретними.

Специфікація здійснюється, як правило, з використанням емпіричного підходу та включає два етапи:

  • ? нанесення на графік точок регресійного поля;
  • ? графічний (візуальний) аналіз виду можливої ​​апроксимуючої кривої.

Тип кривої регресії який завжди можна вибрати відразу. Для визначення спочатку наносять на графік точки регресійного поля за вихідними даними. Потім візуально проводять лінію за положенням точок, прагнучи з'ясувати якісну закономірність зв'язку: рівномірне зростання або рівномірне зниження, зростання (зниження) зі зростанням (зменшенням) темпу динаміки, плавне наближення до деякого рівня.

Цей емпіричний підхід доповнюють логічним аналізом, відштовхуючись від уже відомих уявлень про економічну та фізичну природу досліджуваних факторів та їх взаємовплив.

Наприклад, відомо, що залежності результуючих змінних - економічних показників (ціни, оренди) від ряду факторних змінних - ціноутворюючих факторів (відстань від центру поселення, площі та ін.) мають нелінійний характер, і досить суворо їх можна описати статечною, експоненційною або квадратичною функціями . Але при невеликих діапазонах зміни факторів прийнятні результати можна отримати за допомогою лінійної функції.

Якщо все ж таки неможливо відразу зробити впевнений вибір якоїсь однієї функції, то відбирають дві-три функції, розраховують їх параметри і далі, використовуючи відповідні критерії тісноти зв'язку, остаточно вибирають функцію.

Теоретично регресійний процес знаходження форми кривої називається специфікацієюмоделі, а її коефіцієнтів - калібруванняммоделі.

Якщо виявлено, що результуюча змінна залежить від декількох факторних змінних (факторів) х ( , х 2 , ..., х до,то вдаються до побудови множинної регресійної моделі. Зазвичай при цьому використовують три форми множинного зв'язку: лінійну - у - а 0 + а х х х + а х 2 + ... + а до х до,показову - у - а 0 a*i а х т-а х ь,статечну - у - а 0 х ix 2 a 2. .х^або їх комбінації.

Показова і статечна функції більш універсальні, тому що апроксимують нелінійні зв'язки, якими є більшість досліджуваних в оцінці залежностей. Крім того, вони можуть бути застосовані при оцінці об'єктів і методі статистичного моделювання при масовій оцінці, і в методі прямого порівняння в індивідуальній оцінці при встановленні корегувальних коефіцієнтів.

На етапі калібрування параметри регресійної моделі розраховують методом найменших квадратів, суть якого полягає в тому, що сума квадратів відхилень обчислених значень результуючої змінної у., тобто. розрахованих за обраним рівнянням зв'язку, від фактичних значень має бути мінімальною:

Значення j) (. і у.відомі, тому Qє функцією лише коефіцієнтів рівняння. Для пошуку мінімуму Sпотрібно взяти приватні похідні Qза коефіцієнтами рівняння та прирівняти їх до нуля:

В результаті одержуємо систему нормальних рівнянь, число яких дорівнює кількості визначених коефіцієнтів шуканого рівняння регресії.

Припустимо, потрібно знайти коефіцієнти лінійного рівняння у - а 0+арс.Сума квадратів відхилень має вигляд:

/=1

Диференціюють функцію Qза невідомими коефіцієнтами а 0та і прирівнюють приватні похідні до нуля:

Після перетворень одержують:

де п -кількість вихідних фактичних значень уїх (кількість аналогів).

Наведений порядок розрахунку коефіцієнтів регресійного рівняння застосуємо й у нелінійних залежностей, якщо ці залежності можна лінеаризувати, тобто. призвести до лінійної форми за допомогою заміни змінних. Ступінна та показова функції після логарифмування та відповідної заміни змінних набувають лінійної форми. Наприклад, статечна функція після логарифмування набуває вигляду: In у = 1пя 0 +а х 1пх. Після заміни змінних Y- In у, Л 0 - In а № X- In х отримуємо лінійну функцію

Y=A 0 + cijX,коефіцієнти якої знаходять описаним вище способом.

Метод найменших квадратів застосовують і розрахунку коефіцієнтів множинної регресійної моделі. Так, система нормальних рівнянь для розрахунку лінійної функції із двома змінними Xjі х 2після ряду перетворень має такий вигляд:

Зазвичай цю систему рівнянь вирішують, використовуючи методи лінійної алгебри. Множинну статечну функцію приводять до лінійної форми шляхом логарифмування та заміни змінних таким же чином, як і парну статечну функцію.

При використанні гібридних моделей коефіцієнти множинної регресії знаходяться з використанням чисельних процедур методу послідовних наближень.

Щоб зробити остаточний вибір із кількох регресійних рівнянь, необхідно перевірити кожне рівняння на тісноту зв'язку, яка вимірюється коефіцієнтом кореляції, дисперсією та коефіцієнтом варіації. Для оцінки можна використовувати також критерії Стьюдента та Фішера. Чим більшу тісноту зв'язку виявляє крива, тим вона краща за інших рівних умов.

Якщо вирішується завдання такого класу, коли треба встановити залежність вартісного показника від факторів вартості, то зрозуміло прагнення врахувати якнайбільше факторів, що впливають, і побудувати тим самим більш точну множинну регресійну модель. Однак розширенню числа факторів перешкоджають два об'єктивні обмеження. По-перше, для побудови множинної регресійної моделі потрібна значно об'ємніша вибірка об'єктів, ніж для побудови парної моделі. Вважають, що кількість об'єктів у вибірці має перевищувати кількість пфакторів принаймні в 5-10 разів. Звідси випливає, що для побудови моделі з трьома факторами, що впливають, треба зібрати вибірку приблизно з 20 об'єктів з різним набором значень факторів. По-друге, фактори, що відбираються для моделі, у своєму впливі на вартісний показник повинні бути досить незалежні один від одного. Це забезпечити непросто, оскільки вибірка зазвичай об'єднує об'єкти, які стосуються одному сімейству, які мають місце закономірне зміна багатьох чинників від об'єкта до об'єкта.

Якість регресійних моделей зазвичай перевіряють з використанням наступних статистичних показників.

Стандартне відхилення помилки рівняння регресії (помилка оцінки):

де п -обсяг вибірки (кількість аналогів);

до -кількість факторів (чинників вартості);

Помилка, яка не пояснюється регресійним рівнянням (рис. 3.2);

у. -фактичне значення результуючої змінної (наприклад, вартості); y t -розрахункове значення результуючої змінної.

Цей показник також називають стандартною помилкою оцінки (СКО помилки). На малюнку точками позначені конкретні значення вибірки, символом позначено лінію середнього значень вибірки, похилу штрихпунктирну лінію - це лінія регресії.


Мал. 3.2.

Стандартне відхилення помилки оцінки вимірює величину відхилення фактичних значень від відповідних розрахункових значень у( , Отримані за допомогою регресійної моделі. Якщо вибірка, на якій побудована модель, підпорядкована нормальному закону розподілу, то можна стверджувати, що 68% реальних значень узнаходяться в діапазоні у ± & евід лінії регресії, а 95% - у діапазоні у ± 2d e. Цей показник зручний тим, що одиниці виміру сг?збігаються з одиницями виміру у,. У цьому його можна використовуватиме вказівки точності одержуваного у процесі оцінки результату. Наприклад, у сертифікаті вартості можна вказати, що отримане з використанням регресійної моделі значення ринкової вартості Vз ймовірністю 95% знаходиться в діапазоні від (V -2d,.)до + 2d s).

Коефіцієнт варіації результуючої змінної:

де у -середнє значення результуючої змінної (рис. 3.2).

У регресійному аналізі коефіцієнт варіації var є стандартним відхиленням результату, виражене у вигляді відсоткового відношення до середнього значення результуючої змінної. Коефіцієнт варіації може бути критерієм прогнозних якостей отриманої регресійної моделі: що менше величина var, тим паче високими є прогнозні якості моделі. Використання коефіцієнта варіації краще показника & е, так як він є відносним показником. При практичному використанні цього показника можна порекомендувати не застосовувати модель, коефіцієнт варіації якої перевищує 33%, тому що в цьому випадку не можна говорити про те, що ці вибірки підпорядковані нормальному закону розподілу.

Коефіцієнт детермінації (квадрат коефіцієнта множинної кореляції):

Цей показник використовується для аналізу загальної якості отриманої регресійної моделі. Він показує, який відсоток варіації результуючої змінної пояснюється впливом всіх включених у модель факторних змінних. p align="justify"> Коефіцієнт детермінації завжди лежить в інтервалі від нуля до одиниці. Чим ближче значення коефіцієнта детермінації до одиниці, краще модель описує вихідний ряд даних. Коефіцієнт детермінації можна уявити інакше:

Тут-помилка, що пояснюється регресійною моделлю,

а - помилка, незрозуміла

регресійною моделлю. З економічної погляду даний критерій дозволяє судити у тому, який відсоток варіації цін пояснюється регресійним рівнянням.

Точну межу прийнятності показника R 2всім випадків вказати неможливо. Потрібно брати до уваги і обсяг вибірки, і змістовну інтерпретацію рівняння. Як правило, при дослідженні даних про однотипні об'єкти, отримані приблизно в той самий момент часу величина R 2не перевищує рівня 06-07. Якщо помилки прогнозування рівні нулю, тобто. коли зв'язок між результуючою та факторними змінними є функціональним, то R 2 =1.

Коригований коефіцієнт детермінації:

Необхідність запровадження скоригованого коефіцієнта детермінації пояснюється тим, що зі збільшенням числа факторів дозвичайний коефіцієнт детермінації практично завжди збільшується, але зменшується кількість ступенів свободи (п - до- 1). Введене коригування завжди зменшує значення R 2 ,оскільки (п - 1) > (п-до - 1). В результаті величина R 2 CKOf)навіть може стати негативною. Це означає, що величина R 2була близька до нуля до коригування та пояснюється за допомогою рівняння регресії частка дисперсії змінної удуже мала.

З двох варіантів регресійних моделей, які відрізняються величиною скоригованого коефіцієнта детермінації, але мають однаково хороші інші критерії якості, кращий варіант з більшим значенням скоригованого коефіцієнта детермінації. Коригування коефіцієнта детермінації не проводиться, якщо (п - до): до> 20.

Коефіцієнт Фішера:

Цей критерій використовується з метою оцінки значущості коефіцієнта детермінації. Залишкова сума квадратів є показником помилки передбачення за допомогою регресії відомих значень вартості у..Її порівняння з регресійною сумою квадратів показує, у скільки разів регресійна залежність прогнозує результат краще, ніж середнє у. Існує таблиця критичних значень F Rкоефіцієнта Фішера, які залежать від числа ступенів свободи чисельника - до, знаменника v 2 = п - до- 1 рівня значимості а. Якщо обчислене значення критерію Фішера F Rбільше табличного значення, то гіпотеза про незначущість коефіцієнта детермінації, тобто. про невідповідність закладених у рівнянні регресії зв'язків реально існуючим, з ймовірністю р = 1 – а відкидається.

Середня помилка апроксимації(Середнє відсоткове відхилення) обчислюється як середня відносна різниця, виражена у відсотках, між фактичними і розрахунковими значеннями результуючої змінної:

Чим менше значення даного показника, тим кращі прогнозні якості моделі. При значенні цього показника не вище 7% говорять про високу точність моделі. Якщо 8 > 15%, говорять про незадовільну точність моделі.

Стандартна помилка коефіцієнта регресії:

де (/I) -1.- діагональний елемент матриці (Х Г Х) ~ 1 до -кількість факторів;

X -матриця значень факторних змінних:

X 7 -транспонована матриця значень факторних змінних;

(ЖЛ) _| - матриця, обернена до матриці.

Чим менші ці показники кожного коефіцієнта регресії, тим надійніше оцінка відповідного коефіцієнта регресії.

Критерій Стьюдента (t-статистика):

Цей критерій дозволяє виміряти ступінь надійності (суттєвості) зв'язку, зумовленого цим коефіцієнтом регресії. Якщо обчислене значення t. більше табличного значення

t av , де v - п - до - 1 - число ступенів свободи, гіпотеза про те, що даний коефіцієнт є статистично незначним, відкидається з ймовірністю (100 - а)%. Існують спеціальні таблиці /-розподілу, що дозволяють за заданим рівнем значущості а та числу ступенів свободи v визначати критичне значення критерію. Найчастіше вживане значення дорівнює 5%.

Мультиколлінеарність, тобто. ефект взаємних зв'язків між факторними змінними призводить до необхідності задовольнятися обмеженим їх числом. Якщо це не врахувати, то можна отримати нелогічну регресійну модель. Щоб уникнути негативного ефекту мультиколлінеарності, до побудови множинної регресійної моделі розраховуються коефіцієнти парної кореляції r xjxjміж відібраними змінними х.і х

Тут XjX; -середнє значення добутку двох факторних змінних;

XjXj -добуток середніх значень двох факторних змінних;

Оцінка дисперсії факторної змінної х.

Вважається, що дві змінні регресійно пов'язані між собою (тобто колінеарні), якщо коефіцієнт їхньої парної кореляції за абсолютною величиною строго більше 0,8. У цьому випадку якусь із цих змінних треба виключити з розгляду.

З метою розширення можливостей економічного аналізу отримуваних регресійних моделей використовуються середні коефіцієнти еластичності,обумовлені за такою формулою:

де Xj -середнє значення відповідної факторної змінної;

у -середнє значення результуючої змінної; a i -коефіцієнт регресії за відповідної факторної змінної.

Коефіцієнт еластичності показує, наскільки відсотків у середньому зміниться значення результуючої змінної за зміни факторної змінної на 1 %, тобто. як реагує результуюча змінна зміну факторної змінної. Наприклад, як реагує вартість кв. м площі квартири на відстані від центру міста.

Корисною з точки зору аналізу значущості того чи іншого коефіцієнта регресії є оцінка приватного коефіцієнта детермінації:

Тут – оцінка дисперсії результуючої

змінної. Даний коефіцієнт показує, на скільки відсотків варіація результуючої змінної пояснюється варіацією /-й факторної змінної, що входить до рівняння регресії.

  • Під гедоністичними характеристиками розуміються характеристики об'єкта, що відбивають його корисні (цінні) з погляду покупців та продавців якості.

А) Графічний аналіз простої лінійної регресії.

Просте лінійне рівняння регресії y = a + bx. Якщо між випадковими величинами У та X існує кореляційний зв'язок, то значення у = ý + ,

де y – теоретичне значення у, отримане з рівняння y = f(x),

 – похибка відхилення теоретичного рівняння від фактичних (експериментальних) даних.

Рівняння залежності середньої величини від х, тобто ý = f(x) називають рівнянням регресії. Регресійний аналіз складається з чотирьох етапів:

1) постановка завдання та встановлення причин зв'язку.

2) обмеження об'єкта досліджень, збирання статистичної інформації.

3) вибір рівняння зв'язку на основі аналізу та характеру зібраних даних.

4) розрахунок числових значень, показників кореляційного зв'язку.

Якщо дві змінні пов'язані таким чином, що зміна однієї змінної відповідає систематичній зміні іншої змінної, то для оцінки та вибору рівняння зв'язку між ними застосовують регресійний аналіз, якщо ці змінні відомі. На відміну від регресійного аналізу кореляційний аналіз застосовують для аналізу тісноти зв'язку між X і У.

Розглянемо знаходження прямої при регресійному аналізі:

Теоретичне рівняння регресії.

Термін «проста регресія» вказує на те, що величина однієї змінної оцінюється на основі знань про іншу змінну. На відміну від простої, багатофакторна регресія застосовується для оцінки змінної на основі знання двох, трьох і більше змінних. Розглянемо графічний аналіз простої лінійної регресії.

Припустимо, є результати відбіркових випробувань за попереднім наймом на роботу та продуктивністю праці.

Результати відбору (100 балів), x

Продуктивність (20 балів), y

Нанісши крапки на графік, отримаємо діаграму (поле) розсіювання. Використовуємо її для аналізу результатів відбірних випробувань та продуктивності праці.

За діаграмою розсіювання проаналізуємо лінію регресії. У регресійному аналізі завжди вказуються хоча б дві змінні. Систематичне зміна однієї змінної пов'язані з зміною інший. основна ціль регресійного аналізуполягає в оцінці величини однієї змінної, якщо величина іншої змінної відома. Для повної задачі важливою є оцінка продуктивності праці.

Незалежною змінноюу регресійному аналізі називається величина, яка використовується як основа для аналізу іншої змінної. У разі – це результати відбіркових випробувань (по осі X).

Залежною змінноюназивається оцінювана величина (по осі У). У регресійному аналізі може бути лише одна залежна змінна та кілька незалежних змінних.

Для простого регресійного аналізу залежність можна у двокоординатної системі (х і у), по осі X – незалежна змінна, по осі У – залежна. Наносимо точки перетину таким чином, щоб на графіку було представлено пару величин. Графік називають діаграмою розсіювання. Її побудова – це другий етап регресійного аналізу, оскільки перший – це вибір аналізованих величин та збір даних вибірки. Отже, регресійний аналіз застосовується для статистичного аналізу. Зв'язок між вибірковими даними діаграми лінійний.

Для оцінки величини змінної у на основі змінної х необхідно визначити положення лінії, яка найкраще представляє зв'язок між х і у на основі розташування точок діаграми розсіювання. У прикладі це аналіз продуктивності. Лінія, проведена через точки розсіювання – лінія регресії. Одним із способів побудови лінії регресії, заснованому на візуальному досвіді, є спосіб побудови від руки. На нашій лінії регресії можна визначити продуктивність праці. При знаходженні рівняння лінії регресії

Найчастіше застосовують критерій найменших квадратів. Найбільш підходящою є та лінія, де сума квадратів відхилень мінімальна

Математичне рівняння лінії зростання представляє закон зростання арифметичної прогресії:

у = аbх.

Y = а + bх– наведене рівняння з одним параметром є найпростішим видом рівняння зв'язку. Воно прийнятне для середніх величин. Щоб точніше висловити зв'язок між хі у, вводиться додатковий коефіцієнт пропорційності bщо вказує нахил лінії регресії.

Б) Побудова теоретичної лінії регресії.

Процес її знаходження полягає у виборі та обґрунтуванні типу кривої та розрахунків параметрів а, b, зі т.д. Процес побудови називають вирівнюванням і запас кривих, пропонованих мат. аналізом, різноманітний. Найчастіше в економічних завданнях використовують сімейство кривих, рівняння, які виражаються багаточленами цілих позитивних ступенів.

1)
- Рівняння прямої,

2)
- Рівняння гіперболи,

3)
- Рівняння параболи,

де - ординати теоретичної лінії регресії.

Вибравши тип рівняння, необхідно знайти параметри, від яких це рівняння залежить. Наприклад, характер розташування точок у полі розсіювання показав, що теоретична лінія регресії є прямою.

Діаграма розсіювання дозволяє уявити продуктивність праці з допомогою регресійного аналізу. В економіці за допомогою регресійного аналізу передбачаються багато показників, що впливають на кінцевий продукт (з урахуванням ціноутворення).

В) Критерій найменших кадратів знаходження прямої лінії.

Один із критеріїв, які ми могли б застосувати для відповідної лінії регресії на діаграмі розсіювання, заснований на виборі лінії, для якої сума квадратів похибок буде мінімальною.

Близькість точок розсіювання до прямої вимірюється ординатами відрізків. Відхилення цих точок можуть бути позитивними та негативними, але сума квадратів відхилень теоретичної прямої від експериментальної завжди позитивна і має бути мінімальною. Факт розбіжності всіх точок розсіювання зі становищем лінії регресії свідчить про існування розбіжності між експериментальними і теоретичними даними. Таким чином, можна сказати, що жодна інша лінія регресії, крім тієї, яку знайшли, не може дати меншу суму відхилень між експериментальними та досвідченими даними. Отже, знайшовши теоретичне рівняння ý та лінію регресії, ми задовольняємо вимогам найменших квадратів.

Це робиться за допомогою рівняння зв'язку
, використовуючи формули для знаходження параметрів аі b. Взявши теоретичне значення
і позначивши ліву частину рівняння через f, отримаємо функцію
від невідомих параметрів аі b. Значення аі bбудуть задовольняти мінімум функції fта перебувають з рівнянь приватних похідних
і
. Це необхідна умоваОднак для позитивної квадратичної функції це є і достатньою умовою для знаходження аі b.

Виведемо з рівнянь похідних формули формули параметрів аі b:



отримаємо систему рівнянь:

де
- Середньоарифметичні похибки.

Підставивши числові значення, знайдемо параметри аі b.

Існує поняття
. Це коефіцієнт апроксимації.

Якщо е < 33%, то модель приемлема для дальнейшего анализа;

Якщо е> 33%, то беремо гіперболу, параболу тощо. Це дає право на аналіз у різних ситуаціях.

Висновок: за критерієм коефіцієнта апроксимації найбільш підходящою є та лінія, для яких

і жодна інша лінія регресії для нашого завдання не дає мінімум відхилень.

Г) Квадратична помилка оцінки, перевірка їхньої типовості.

Стосовно сукупності, у якої число параметрів дослідження менше 30 ( n < 30), для проверки типичности параметров уравнения регрессии используется t-Критерій Стьюдента. При цьому обчислюється фактичне значення t-критерія:

Звідси

де - Залишкова середньоквадратична похибка. Отримані t aі t bпорівнюють із критичним t kіз таблиці Стьюдента з урахуванням прийнятого рівня значущості ( = 0,01 = 99% або  = 0,05 = 95%). P = f = k 1 = m- Число параметрів досліджуваного рівняння (ступінь свободи). Наприклад, якщо y = a + bx; m = 2, k 2 = f 2 = p 2 = n – (m+ 1), де n– кількість досліджуваних ознак.

t a < t k < t b .

Висновок: за перевіреними на типовість параметрами рівняння регресії проводиться побудова математичної моделі зв'язку
. При цьому параметри застосованої в аналізі математичної функції (лінійна, гіпербола, парабола) набувають відповідних кількісних значень. Смисловий зміст одержаних таким чином моделей полягає в тому, що вони характеризують середню величину результативної ознаки
від факторної ознаки X.

Д) Криволінійна регресія.

Досить часто зустрічається криволінійна залежність, коли між змінними встановлюється співвідношення, що змінюється. Інтенсивність зростання (зменшення) залежить від рівня перебування X. Криволінійна залежність буває різних видів. Наприклад, розглянемо залежність між урожаєм та опадами. Зі збільшенням опадів за рівних природних умов інтенсивне збільшення врожаю, але до певної межі. Після критичної точки опади виявляються зайвими і врожайність катастрофічно падає. З прикладу видно, що спочатку зв'язок був позитивним, а потім негативним. Критична точка - оптимальний рівень ознаки X, якому відповідає максимальне чи мінімальне значення ознаки У.

В економіці такий зв'язок спостерігається між ціною та споживанням, продуктивністю та стажем.

Параболічна залежність.

Якщо дані показують, що збільшення факторної ознаки призводить до зростання результативної ознаки, то як рівняння регресії береться рівняння другого порядку (парабола).

. Коефіцієнти a,b,c перебувають з рівнянь приватних похідних:

Отримуємо систему рівнянь:

Види криволінійних рівнянь:

,

,

Має право припускати, що між продуктивністю праці та балами відбіркових випробувань існує криволінійна залежність. Це означає, що зі зростанням бальної системи продуктивність почне на якомусь рівні зменшуватися, тому пряма модель може бути криволінійною.

Третьою моделлю буде гіпербола, і у всіх рівняннях замість змінної х стоятиме вираз.

Регресійний та кореляційний аналіз – статистичні методи дослідження. Це найпоширеніші способи показати залежність будь-якого параметра від однієї чи кількох незалежних змінних.

Нижче на конкретних практичних прикладах розглянемо ці два дуже популярні серед економістів аналізу. А також наведемо приклад отримання результатів при їх об'єднанні.

Регресійний аналіз у Excel

Показує вплив одних значень (самостійних, незалежних) на залежну змінну. Наприклад, як залежить кількість економічно активного населення кількості підприємств, величини зарплати та інших. властивостей. Або як впливають іноземні інвестиції, ціни на енергоресурси та ін на рівень ВВП.

Результат аналізу дає змогу виділяти пріоритети. І ґрунтуючись на головних чинниках, прогнозувати, планувати розвиток пріоритетних напрямів, приймати управлінські рішення.

Регресія буває:

  • лінійної (у = а + bx);
  • параболічній (y = a + bx + cx 2);
  • експоненційною (y = a * exp (bx));
  • статечної (y = a * x ^ b);
  • гіперболічної (y = b/x + a);
  • логарифмічної (y = b * 1n(x) + a);
  • показовою (y = a * b^x).

Розглянемо з прикладу побудова регресійної моделі в Excel і інтерпретацію результатів. Візьмемо лінійний тип регресії.

Завдання. На 6 підприємствах була проаналізована середньомісячна заробітна плата і кількість співробітників, що звільнилися. Необхідно визначити залежність кількості співробітників, що звільнилися, від середньої зарплати.

Модель лінійної регресії має такий вигляд:

У = а 0 + а 1 х 1 + ... + а до х к.

Де а – коефіцієнти регресії, х – що впливають змінні, до – число чинників.

У нашому прикладі як У виступає показник працівників, що звільнилися. фактор, що впливає - заробітна плата (х).

У Excel існують інтегровані функції, з допомогою яких можна розрахувати параметри моделі лінійної регресії. Але найшвидше це зробить надбудова «Пакет аналізу».

Активуємо потужний аналітичний інструмент:

Після активації надбудова буде доступна на вкладці "Дані".

Тепер візьмемося безпосередньо регресійним аналізом.



Насамперед звертаємо увагу на R-квадрат та коефіцієнти.

R-квадрат – коефіцієнт детермінації. У прикладі – 0,755, чи 75,5%. Це означає, що розрахункові параметри моделі на 75,5% пояснюють залежність між параметрами, що вивчаються. Що коефіцієнт детермінації, то якісніша модель. Добре – понад 0,8. Погано – менше 0,5 (такий аналіз навряд можна вважати резонним). У нашому прикладі - "непогано".

Коефіцієнт 64,1428 показує, яким буде Y, якщо всі змінні в моделі будуть дорівнювати 0. Тобто на значення аналізованого параметра впливають і інші фактори, не описані в моделі.

p align="justify"> Коефіцієнт -0,16285 показує вагомість змінної Х на Y. Тобто середньомісячна заробітна плата в межах даної моделі впливає на кількість звільнених з вагою -0,16285 (це невеликий ступінь впливу). Знак «-» вказує на негативний вплив: що більше зарплата, то менше звільнених. Що слушно.



Кореляційний аналіз у Excel

Кореляційний аналіз допомагає встановити, чи між показниками в одній або двох вибірках є зв'язок. Наприклад, між часом роботи верстата та вартістю ремонту, ціною техніки та тривалістю експлуатації, зростанням та вагою дітей тощо.

Якщо зв'язок є, то чи тягне збільшення одного параметра підвищення (позитивна кореляція) чи зменшення (негативна) іншого. Кореляційний аналіз допомагає аналітику визначитися, чи можна за величиною одного показника передбачити можливе значення іншого.

Коефіцієнт кореляції позначається r. Варіюється в межах від +1 до -1. Класифікація кореляційних зв'язків для різних сфер відрізнятиметься. При значенні коефіцієнта 0 лінійної залежності між вибірками немає.

Розглянемо, як з допомогою засобів Excel визначити коефіцієнт кореляції.

Для знаходження парних коефіцієнтів застосовується функція Корел.

Завдання: Визначити, чи є взаємозв'язок між часом роботи токарного верстата та вартістю його обслуговування.

Ставимо курсор у будь-яку комірку і натискаємо кнопку fx.

  1. У категорії «Статистичні» вибираємо функцію КОРРЕЛ.
  2. Аргумент "Масив 1" - перший діапазон значень - час роботи верстата: А2: А14.
  3. Аргумент "Масив 2" - другий діапазон значень - вартість ремонту: В2: В14. Тиснемо ОК.

Щоб визначити тип зв'язку, потрібно подивитися абсолютну кількість коефіцієнта (для кожної сфери діяльності є своя шкала).

Для кореляційного аналізу кількох параметрів (більше 2) зручніше застосовувати "Аналіз даних" (надбудова "Пакет аналізу"). У списку потрібно вибрати кореляцію та позначити масив. Усе.

Отримані коефіцієнти відобразяться у кореляційній матриці. На кшталт такий:

Кореляційно-регресійний аналіз

Насправді ці дві методики часто застосовуються разом.

Приклад:


Тепер стали помітні й дані регресійного аналізу.

Основна особливість регресійного аналізу: за його допомогою можна отримати конкретні відомості про те, яку форму та характер має залежність між досліджуваними змінними.

Послідовність етапів регресійного аналізу

Розглянемо коротко етапи регресійного аналізу.

    Формулювання задачі. На цьому етапі формуються попередні гіпотези щодо залежності досліджуваних явищ.

    Визначення залежних та незалежних (пояснюючих) змінних.

    Збір статистичних даних. Дані мають бути зібрані для кожної із змінних, включених до регресійної моделі.

    Формулювання гіпотези про форму зв'язку (просте або множинне, лінійне або нелінійне).

    Визначення функції регресії (полягає у розрахунку чисельних значень параметрів рівняння регресії)

    Оцінка точності регресійного аналізу.

    Інтерпретація одержаних результатів. Отримані результати регресійного аналізу порівнюються із попередніми гіпотезами. Оцінюється коректність та правдоподібність отриманих результатів.

    Пророцтво невідомих значень залежною змінною.

За допомогою регресійного аналізу можливе вирішення завдання прогнозування та класифікації. Прогнозні значення обчислюються шляхом підстановки рівняння регресії параметрів значень пояснюючих змінних. Розв'язання задачі класифікації здійснюється таким чином: лінія регресії ділить все безліч об'єктів на два класи, і та частина множини, де значення функції більше за нуль, належить до одного класу, а та, де воно менше нуля, - до іншого класу.

Завдання регресійного аналізу

Розглянемо основні завдання регресійного аналізу: встановлення форми залежності, визначення функції регресії, оцінка невідомих значень залежної змінної

Встановлення форми залежності.

Характер і форма залежності між змінними можуть утворювати такі різновиди регресії:

    позитивна лінійна регресія (виявляється у рівномірному зростанні функції);

    позитивна рівноприскорено зростаюча регресія;

    позитивна рівногайно зростаюча регресія;

    негативна лінійна регресія (виявляється у рівномірному падінні функції);

    негативна рівноприскорено спадна регресія;

    негативна рівногайно спадна регресія.

Проте описані різновиди зазвичай зустрічаються над чистому вигляді, а поєднанні друг з одним. У такому разі говорять про комбіновані форми регресії.

Визначення функції регресії.

Друге завдання зводиться до з'ясування впливу на залежну змінну головних факторів або причин, за незмінних інших рівних умов, та за умови виключення впливу на залежну змінну випадкових елементів. Функція регресіївизначається як математичного рівняння тієї чи іншої типу.

Оцінка невідомих значень залежною змінною.

Розв'язання цієї задачі зводиться до розв'язання задачі одного з типів:

    Оцінка значень залежної змінної усередині аналізованого інтервалу вихідних даних, тобто. пропущених значень; у своїй вирішується завдання інтерполяції.

    Оцінка майбутніх значень залежної змінної, тобто. знаходження значень поза заданим інтервалом вихідних даних; при цьому вирішується завдання екстраполяції.

Обидві завдання вирішуються шляхом підстановки рівняння регресії знайдених оцінок параметрів значень незалежних змінних. Результат рішення рівняння є оцінкою значення цільової (залежної) змінної.

Розглянемо деякі припущення, куди спирається регресійний аналіз.

Припущення лінійності, тобто. передбачається, що зв'язок між аналізованими змінними є лінійним. Так, у прикладі ми побудували діаграму розсіювання і змогли побачити явний лінійний зв'язок. Якщо ж діаграмі розсіювання змінних бачимо явне відсутність лінійного зв'язку, тобто. є нелінійний зв'язок, слід використовувати нелінійні методи аналізу.

Припущення про нормальність залишків. Воно припускає, що розподіл різниці передбачених та спостережуваних значень є нормальним. Для візуального визначення характеру розподілу можна скористатися гістограмами залишків.

З використанням регресійного аналізу слід враховувати його основне обмеження. Воно у тому, що регресійний аналіз дозволяє виявити лише залежності, а чи не зв'язку, що у основі цих залежностей.

Регресійний аналіз дає можливість оцінити ступінь зв'язку між змінними шляхом обчислення передбачуваного значення змінної виходячи з кількох відомих значень.

Рівняння регресії.

Рівняння регресії виглядає так: Y=a+b*X

За допомогою цього рівняння змінна Y виражається через константу a та кут нахилу прямої (або кутовий коефіцієнт) b, помножений на значення змінної X. Константу a також називають вільним членом, а кутовий коефіцієнт - коефіцієнтом регресії або B-коефіцієнтом.

У більшості випадків (якщо не завжди) спостерігається певний розкид спостережень щодо регресійної прямої.

Залишок - Це відхилення окремої точки (спостереження) від лінії регресії (передбаченого значення).

Для вирішення задачі регресійного аналізу у MS Excel вибираємо в меню Сервіс"Пакет аналізу"та інструмент аналізу "Регресія". Задаємо вхідні інтервали X та Y. Вхідний інтервал Y – це діапазон залежних аналізованих даних, він повинен включати один стовпець. Вхідний інтервал X – це діапазон незалежних даних, які необхідно проаналізувати. Число вхідних діапазонів має бути не більше 16.

На виході процедури у вихідному діапазоні отримуємо звіт, наведений у таблиці 8.3а-8.3в.

ВИСНОВОК ПІДСУМКІВ

Таблиця 8.3. Регресійна статистика

Регресійна статистика

Множинний R

R-квадрат

Нормований R-квадрат

Стандартна помилка

Спостереження

Спочатку розглянемо верхню частину розрахунків, подану в таблиці 8.3а, – регресійну статистику.

Величина R-квадрат, називана також мірою визначеності, характеризує якість отриманої регресійної прямої. Ця якість виражається ступенем відповідності між вихідними даними та регресійною моделлю (розрахунковими даними). Міра визначеності завжди знаходиться в межах інтервалу.

У більшості випадків значення R-квадратзнаходиться між цими значеннями, які називають екстремальними, тобто. між нулем та одиницею.

Якщо значення R-квадратублизько до одиниці, це означає, що побудована модель пояснює майже всю мінливість відповідних змінних. І навпаки, значення R-квадрату, близьке до нуля, означає погану якість збудованої моделі.

У нашому прикладі міра визначеності дорівнює 0,99673, що говорить про дуже хороше припасування регресійної прямої до вихідних даних.

множинний R - Коефіцієнт множинної кореляції R - виражає ступінь залежності незалежних змінних (X) і залежної змінної (Y).

Множинний Rдорівнює квадратному кореню з коефіцієнта детермінації, ця величина набуває значення в інтервалі від нуля до одиниці.

У простому лінійному регресійному аналізі множинний Rдорівнює коефіцієнту кореляції Пірсона. Справді, множинний Rу разі дорівнює коефіцієнту кореляції Пірсона з попереднього прикладу (0,998364).

Таблиця 8.3б. Коефіцієнти регресії

Коефіцієнти

Стандартна помилка

t-статистика

Y-перетин

Змінна X 1

* Наведено усічений варіант розрахунків

Тепер розглянемо середню частину розрахунків, подану в таблиці 8.3б. Тут дано коефіцієнт регресії b (2,305454545) і усунення осі ординат, тобто. константа a (2,694545455).

Виходячи з розрахунків, можемо записати рівняння регресії таким чином:

Y = x * 2,305454545 +2,694545455

Напрямок зв'язку між змінними визначається виходячи з знаків (негативний чи позитивний) коефіцієнтів регресії (коефіцієнта b).

Якщо знак при коефіцієнті регресії - позитивний, зв'язок залежної змінної з незалежною буде позитивним. У нашому випадку знак коефіцієнта регресії позитивний, отже, зв'язок також є позитивним.

Якщо знак при коефіцієнті регресії - негативний, зв'язок залежної змінної з незалежною є негативним (зворотним).

У таблиці 8.3в. представлені результати висновку залишків. Для того, щоб ці результати з'явилися у звіті, необхідно при запуску інструменту "Регресія" активувати чекбокс "Залишки".

ВИСНОВОК ЗАЛИШКУ

Таблиця 8.3 ст. Залишки

Спостереження

Передбачене Y

Залишки

Стандартні залишки

За допомогою цієї частини звіту ми можемо бачити відхилення кожної точки від збудованої лінії регресії. Найбільше абсолютне значення залишкуу разі - 0,778, найменше - 0,043. Для кращої інтерпретації цих даних скористаємося графіком вихідних даних та побудованою лінією регресії, представленими на Мал. 8.3. Як бачимо, лінія регресії досить точно "підігнана" під значення вихідних даних.

Слід враховувати, що приклад, що розглядається, є досить простим і далеко не завжди можлива якісна побудова регресійної прямої лінійного вигляду.

Мал. 8.3.Вихідні дані та лінія регресії

Залишилося нерозглянутим завдання оцінки невідомих майбутніх значень залежної змінної виходячи з відомих значень незалежної змінної, тобто. Завдання прогнозування.

Маючи рівняння регресії, завдання прогнозування зводиться до вирішення рівняння Y = x * 2,305454545 +2,694545455 з відомими значеннями x. Результати прогнозування залежної змінної Y на шість кроків уперед представлені у таблиці 8.4.

Таблиця 8.4. Результати прогнозування змінної Y

Y(прогнозується)

Таким чином, в результаті використання регресійного аналізу в пакеті Microsoft Excel ми:

    збудували рівняння регресії;

    встановили форму залежності та напрямок зв'язку між змінними - позитивна лінійна регресія, яка виражається в рівномірному зростанні функції;

    встановили напрямок зв'язку між змінними;

    оцінили якість отриманої регресійної прямої;

    змогли побачити відхилення розрахункових даних від даних вихідного набору;

    передбачили майбутні значення залежної змінної.

Якщо функція регресіївизначено, інтерпретовано і обґрунтовано, і оцінка точності регресійного аналізу відповідає вимогам, можна вважати, що побудована модель і прогнозні значення мають достатню надійність.

Прогнозні значення, отримані в такий спосіб, є середніми значеннями, які можна очікувати.

У цій роботі ми розглянули основні характеристики описової статистикиі серед них такі поняття, як середнє значення,медіана,максимум,мінімумта інші характеристики варіації даних.

Також було коротко розглянуто поняття викидів. Розглянуті показники належать до так званого дослідницького аналізу даних, його висновки можуть належати не до генеральної сукупності, а лише до вибірки даних. Дослідницький аналіз даних використовується для отримання первинних висновків та формування гіпотез щодо генеральної сукупності.

Також було розглянуто основи кореляційного та регресійного аналізу, їх завдання та можливості практичного використання.

Після того, як за допомогою кореляційного аналізу виявлено наявність статистичних зв'язків між змінними та оцінено ступінь їх тісноти, зазвичай переходять до математичного опису конкретного виду залежностей з використанням регресійного аналізу. З цією метою підбирають клас функцій, що пов'язує результативний показник у і аргументи х 1, х 2, ..., х к відбирають найбільш інформативні аргументи, обчислюють оцінки невідомих значень параметрів рівняння зв'язку та аналізують властивості отриманого рівняння.

Функція f(х 1, х 2, ..., х к) описує залежність середнього значення результативної ознаки від заданих значень аргументів, називається функцією (рівнянням) регресії. Термін «регресія» (лат. -Regression-відступ, повернення до чого-небудь) введений англійським психологом і антропологом Ф.Гальтон і пов'язаний виключно зі специфікою одного з перших конкретних прикладів, в якому це поняття було використано. Так, обробляючи статистичні дані у зв'язку з аналізом спадковості зростання, Ф. Гальтон виявив, що й батьки відхиляються від середнього зростання всіх батьків на x дюймів, їх сини відхиляються від середнього зростання всіх синів менше, ніж x дюймів. Виявлену тенденцію було названо «регресією до середнього стану». З того часу термін «регресія» широко використовується в статистичній літературі, хоча в багатьох випадках він недостатньо точно характеризує поняття статистичної залежності.

Для точного опису рівняння регресії необхідно знати закон розподілу результативного показника. У статистичній практиці зазвичай доводиться обмежуватися пошуком відповідних апроксимацій для невідомої істинної функції регресії, так як дослідник не має в своєму розпорядженні точного знання умовного закону розподілу ймовірностей аналізованого результатуючого показника при заданих значеннях аргументу х.

Розглянемо взаємини між істинною f(х) = М(у1х), мо дельною регресією? та оцінкою y регресії. Нехай результативний показник пов'язаний з аргументом х співвідношенням:

де - е випадкова величина, має нормальний закон розподілу, причому Ме = 0 і D е = у 2 . Справжня функція регресії у разі має вигляд: f(х) = М(у/х) = 2х 1.5 .

Припустимо, що точний вид істинного рівняння регресії нам не відомий, але ми маємо дев'ять спостережень над двовимірною випадковою величиною, пов'язаною співвідношенням уi = 2х1,5 + е, і представленої на рис. 1

Малюнок 1 - Взаємне розташування істиною f(х) та теоретичної? моделі регресії

Розташування крапок на рис. 1 дозволяє обмежитися класом лінійних залежностей виду? = 0 + 1 x. З допомогою методу найменших квадратів знайдемо оцінку рівняння регресії у = b 0 +b 1 x. Для порівняння на рис. 1 наводяться графіки істинної функції регресії у=2х 1,5 , теоретичної апроксимуючої функції регресії? = 0 + 1 x .

Оскільки ми помилилися у виборі класу функції регресії, а це досить часто зустрічається у практиці статистичних досліджень, то наші статистичні висновки та оцінки виявляться помилковими. І як би ми не збільшували обсяг спостережень, наша вибіркова оцінка не буде близька до справжньої функції регресії f (х). Якщо ми правильно вибрали клас функцій регресії, то неточність в описі f(х) за допомогою? пояснювалася б лише обмеженістю вибірки.

З метою найкращого відновлення за вихідними статистичними даними умовного значення результативного показника у(х) та невідомої функції регресії f(х) = М(у/х) найчастіше використовують такі критерії адекватності (функції втрат).

Метод найменших квадратів. Відповідно до нього мінімізується квадрат відхилення значень результативного показника у, (i = 1,2,..., п) від модельних значень,? = f(х i), де, х i - значення вектора аргументів у i-му спостереженні: ?

Метод найменших модулів. Згідно з ним мінімізується сума абсолютних відхилень значень результативного показника від модульних значень. І отримуємо? = f(х i), середньоабсолютну медіанну регресію? |y i - f(x i)| >min.

Регресійним аналізом називається метод статистичного аналізу залежності випадкової величини від змінних х j = (j=1,2,..., к), що розглядаються в регресійному аналізі як невипадкові величини, незалежно від істинного закону розподілу х j.

Зазвичай передбачається, що випадкова величина має нормальний закон розподілу з умовним математичним очікуванням у, що є функцією від аргументів х/ (/= 1, 2,..., к) і постійною, не залежить від аргументів, дисперсією у 2 .

Загалом лінійна модель регресійного аналізу має вигляд:

Y = У k j=0в jц j(x 1 , x 2 . . .. ,x k)+Е

де ц j - деяка функція його змінних - x1, x2. . .. , x k , Е - випадкова величина з нульовим математичним очікуванням та дисперсією у 2 .

У регресійному аналізі вид рівняння регресії вибирають виходячи з фізичної сутності досліджуваного явища та результатів спостереження.

Оцінки невідомих параметрів рівняння регресії знаходять зазвичай шляхом найменших квадратів. Нижче зупинімося докладніше на цій проблемі.

Двовимірне лінійне рівняння регресії. Нехай на підставі аналізу досліджуваного явища передбачається, що в «середньому» є лінійна функція від х, тобто є рівняння регресії

у = М (у / х) = в 0 + в 1 х)

де М(у1х) - умовне математичне очікування випадкової величини при заданому х; 0 і 1 - невідомі параметри генеральної сукупності, які слід оцінити за результатами вибіркових спостережень.

Припустимо, що з оцінки параметрів 0 і 1 з двовимірної генеральної сукупності (х, у) взята вибірка обсягом n, де (х, у,) результат i-го спостереження (i = 1, 2,..., n) . У цьому випадку модель регресійного аналізу має вигляд:

y j = 0 + 1 x+е j .

де е j .- незалежні нормально розподілені випадкові величини з нульовим математичним очікуванням та дисперсією у 2, тобто М е j. = 0;

D е j .= у 2 всім i = 1, 2,..., n.

Відповідно до методу найменших квадратів як оцінки невідомих параметрів в 0 і 1 слід брати такі значення вибіркових характеристик b 0 і b 1 , які мінімізують суму квадратів відхилень значень результативної ознаки у i від умовного математичного очікування? i

Методику визначення впливу показників маркетингу з прибутку підприємства розглянемо з прикладу сімнадцяти типових підприємств, мають середні розміри і показники господарську діяльність.

При розв'язанні задачі враховувалися такі характеристики, виявлені в результаті анкетного опитування як найбільш значущі (важливі):

* інноваційна діяльність підприємства;

* планування асортименту виробленої продукції;

* формування цінової політики;

* Взаємини з громадськістю;

* Система збуту;

* Система стимулювання працівників.

На основі системи порівнянь за факторами були побудовані квадратні матриці суміжності, в яких обчислювалися значення відносних пріоритетів за кожним фактором: інноваційна діяльність підприємства, планування асортименту продукції, формування цінової політики, реклама, взаємини з громадськістю, система збуту, система стимулювання працівників.

Оцінки пріоритетів за фактором «відносини з громадськістю» отримані в результаті анкетування фахівців підприємства. Прийнято такі позначення: > (краще), > (краще або однаково), = (однаково),< (хуже или одинаково), <

Далі вирішувалося завдання комплексної оцінки рівня маркетингу підприємства. При розрахунку показника було визначено значимість (вага) розглянутих приватних ознак і вирішувалося завдання лінійного згортання приватних показників. Обробка даних проводилася за спеціально розробленими програмами.

p align="justify"> Далі розраховується комплексна оцінка рівня маркетингу підприємства - коефіцієнт маркетингу, який вноситься в таблиці 1. Крім того, в названу таблицю включені показники, що характеризують підприємство в цілому. Дані таблиці будуть використані щодо регресійного аналізу. Результативною ознакою є прибуток. Як факторні ознаки поряд з коефіцієнтом маркетингу використані такі показники: обсяг валової продукції, вартість основних фондів, чисельність працівників, коефіцієнт спеціалізації.

Таблиця 1 - Вихідні дані для регресійного аналізу


За даними таблиці та на основі факторів з найбільш суттєвими значеннями коефіцієнтів кореляції були побудовані регресійні функції залежності прибутку від факторів.

Рівняння регресії в нашому випадку набуде вигляду:

Про кількісний вплив розглянутих вище чинників на величину прибутку говорять коефіцієнти рівняння регресії. Вони показують, скільки тисяч рублів змінюється її величина за зміни факторного ознаки однією одиницю. Як випливає з рівняння, збільшення коефіцієнта комплексу маркетингу одну одиницю дає приріст прибутку на 1547,7 тис. крб. Це свідчить, що у вдосконаленні маркетингової діяльності криється величезний потенціал поліпшення економічних показників підприємств.

При дослідженні ефективності маркетингу найбільш цікавою і найважливішою факторною ознакою є фактор Х5 - коефіцієнт маркетингу. Відповідно до теорії статистики гідність наявного рівняння множинної регресії є можливість оцінювати ізольований вплив кожного фактора, у тому числі фактора маркетингу.

Результати проведеного регресійного аналізу мають і ширше застосування, ніж розрахунку параметрів рівняння. Критерій віднесення (КЕФ) підприємств до відносно кращих або відносно гірших грунтується на відносному показнику результату:

де Y фактi – фактична величина i-го підприємства, тис. руб.;

Y розчі - величина прибутку i-го підприємства, отримана розрахунковим шляхом за рівнянням регресії

У термінах розв'язуваного завдання величина зветься «коефіцієнт ефективності». Діяльність підприємства можна визнати ефективною у випадках, коли величина коефіцієнта більше одиниці. Це означає, що фактичний прибуток більший за прибуток, усереднений за вибіркою.

Фактичні та розрахункові значення прибутку представлені в табл. 2.

Таблиця 2 - Аналіз результативної ознаки у регресійній моделі

Аналіз таблиці показує, що в нашому випадку діяльність підприємств 3, 5, 7, 9, 12, 14, 15, 17 за період, що розглядається, можна визнати успішною.



Останні матеріали розділу:

Дати та події великої вітчизняної війни
Дати та події великої вітчизняної війни

О 4-й годині ранку 22 червня 1941 року війська фашистської Німеччини (5,5 млн осіб) перейшли кордони Радянського Союзу, німецькі літаки (5 тис) почали...

Все, що ви повинні знати про радіацію Джерела радіації та одиниці її виміру
Все, що ви повинні знати про радіацію Джерела радіації та одиниці її виміру

5. Дози випромінювання та одиниці виміру Дія іонізуючих випромінювань є складним процесом. Ефект опромінення залежить від величини...

Мізантропія, або Що робити, якщо я ненавиджу людей?
Мізантропія, або Що робити, якщо я ненавиджу людей?

Шкідливі поради: Як стати мізантропом і всіх радісно ненавидіти Ті, хто запевняє, що людей треба любити незалежно від обставин або...