Метод зважених найменших квадратів у excel. Лінійний парний регресійний аналіз

4.1. Використання вбудованих функцій

Обчислення коефіцієнтів регресіїздійснюється за допомогою функції

Лінейн(Значення_y; Значення_x; Конст; статистика),

Значення_y- масив значень y,

Значення_x- необов'язковий масив значень x, якщо масив хопущений, то передбачається, що це масив (1; 2; 3; ...) такого ж розміру, як і Значення_y,

Конст- логічне значення, яке вказує, чи потрібно, щоб константа bдорівнювала 0. Якщо Констмає значення ІСТИНАабо опущено, то bобчислюється звичайним чином. Якщо аргумент Констмає значення брехня, то bналежить рівним 0 і значення aпідбираються так, щоб виконувалось співвідношення y=ax.

Статистика- логічне значення, яке вказує, чи потрібно повернути додаткову статистику щодо регресії. Якщо аргумент Статистикамає значення ІСТИНА, то функція Лінейнповертає додаткову регресійну статистику. Якщо аргумент Статистикамає значення Брехняабо опущений, то функція Лінейнповертає лише коефіцієнт aта постійну b.

Необхідно пам'ятати, що результатом функцій ЛІНІЙН()є безліч значень масив.

Для розрахунку коефіцієнта кореляціївикористовується функція

Корел(Масив1;Масив2),

повертає значення коефіцієнта кореляції, де Масив1- масив значень y, Масив2- масив значень x. Масив1і Масив2мають бути однієї розмірності.

ПРИКЛАД 1. Залежність y(x) представлена ​​у таблиці. Побудувати лінію регресіїта обчислити коефіцієнт кореляції.

y 0.5 1.5 2.5 3.5
x 2.39 2.81 3.25 3.75 4.11 4.45 4.85 5.25

Введемо таблицю значень у аркуш MS Excel і побудуємо точковий графік. Робочий лист набуде вигляду зображеного на рис. 2.

Щоб розрахувати значення коефіцієнтів регресії аі bвиділення ячейки A7:B7,звернімося до майстра функцій та в категорії Статистичнівиберемо функцію Лінейн. Заповнимо діалогове вікно, що з'явилося так, як показано на рис. 3 і натиснемо ОK.


В результаті обчислене значення з'явиться тільки в осередку A6(Рис.4). Для того щоб значення з'явилося і в осередку B6необхідно увійти в режим редагування (клавіша F2), а потім натиснути комбінацію клавіш CTRL+SHIFT+ENTER.



Для розрахунку значення коефіцієнта кореляції в комірку С6було введено таку формулу:

С7=КОРРЕЛ(B3:J3;B2:J2).


Знаючи коефіцієнти регресії аі bобчислимо значення функції y=ax+bдля заданих x. Для цього введемо формулу

B5=$A$7*B2+$B$7

і скопіюємо її в діапазон С5:J5(Рис. 5).

Зобразимо лінію регресії на діаграмі. Виділимо експериментальні точки на графіку, клацніть правою кнопкою миші та оберемо команду Початкові дані. У діалоговому вікні, що з'явилося (рис. 5) виберемо вкладку Ряді клацніть по кнопці Додати. Заповнимо поля введення, оскільки показано на рис. 6 і натиснемо кнопку ОК. До графіку експериментальних даних буде додано лінію регресії. За замовчуванням її графік буде зображений у вигляді точок, не з'єднаних лініями, що згладжують.

Рис. 6

Щоб змінити вигляд лінії регресії, виконаємо наведені нижче дії. Клацніть правою кнопкою миші по точках, що зображають графік лінії, виберемо команду Тип діаграмиі встановимо вид точкової діаграми, оскільки показано на рис. 7.

Тип лінії, її колір та товщину можна змінити наступним чином. Виділити лінію на діаграмі, натиснути праву кнопку миші та у контекстному меню вибрати команду Формат рядів даних…Далі зробити установки, наприклад, оскільки показано на рис. 8.

В результаті всіх перетворень отримаємо графік експериментальних даних та лінію регресії в одній графічній галузі (рис. 9).

4.2. Використання лінії тренду.

Побудова різних апроксимуючих залежностей у MS Excel реалізовано як властивості діаграми – лінія тренду.

ПРИКЛАД 2. В результаті експерименту було визначено деяку табличну залежність.

0.15 0.16 0.17 0.18 0.19 0.20
4.4817 4.4930 5.4739 6.0496 6.6859 7.3891

Вибрати та побудувати апроксимуючу залежність. Побудувати графіки табличної та підібраної аналітичної залежності.

Розв'язання задачі можна розбити на такі етапи: введення вихідних даних, побудова точкового графіка та додавання до цього графіка лінії тренду.

Розглянемо цей процес докладно. Введемо вихідні дані у робочий лист і побудуємо графік експериментальних даних. Далі виділимо експериментальні точки на графіку, клацніть правою кнопкою миші та скористаємося командою Додатил інію тренду(Рис. 10).

Діалогове вікно, що з'явилося, дозволяє побудувати апроксимуючу залежність.

На першій вкладці (рис. 11) цього вікна вказується вид апроксимуючої залежності.

На другому (рис. 12) визначаються параметри побудови:

· Назва апроксимуючої залежності;

· Прогноз вперед (назад) на nодиниць (цей параметр визначає, скільки одиниць вперед (назад) необхідно продовжити лінію тренда);

· Чи показувати точку перетину кривої з прямою y=const;

· Показувати апроксимуючу функцію на діаграмі чи ні (параметр показувати рівняння на діаграмі);

· поміщати чи діаграму величину среднеквадратичного відхилення чи ні (параметр помістити на діаграму величину достовірності апроксимації).

Виберемо як апроксимуючу залежність поліном другого ступеня (рис. 11) і виведемо рівняння, що описує цей поліном на графік (рис. 12). Отримана діаграма представлена ​​на рис. 13.

Аналогічно за допомогою лінії трендуможна підібрати параметри таких залежностей як

· Лінійна y=a∙x+b,

· логарифмічна y=a∙ln(x)+b,

· Експонентна y=a∙e b,

· статечна y=a∙x b,

· поліноміальна y=a∙x 2 +b∙x+c, y=a∙x 3 +b∙x 2 +c∙x+dі так далі, до полінома 6-го ступеня включно,

· Лінійна фільтрація.

4.3. Використання вирішального блоку

Значний інтерес представляє реалізація у MS Excel підбору параметрів методом найменших квадратів із використанням вирішального блоку. Ця методика дозволяє підібрати параметри функції будь-якого виду. Розглянемо цю можливість з прикладу наступного завдання.

ПРИКЛАД 3. В результаті експерименту отримана залежність z(t) представлена ​​в таблиці

0,66 0,9 1,17 1,47 1,7 1,74 2,08 2,63 3,12
38,9 68,8 64,4 66,5 64,95 59,36 82,6 90,63 113,5

Підібрати коефіцієнти залежності Z(t)=At 4 +Bt 3 +Ct 2 +Dt+Kшляхом найменших квадратів.

Це завдання еквівалентне задачі знаходження мінімуму функції п'яти змінних

Розглянемо процес розв'язання задачі оптимізації (рис. 14).

Нехай значення А, У, З, Dі Дозберігаються в осередках A7:E7. Розрахуємо теоретичні значення функції Z(t)=At 4 +Bt 3 +Ct 2 +Dt+Kдля заданих t(B2:J2). Для цього в осередок B4введемо значення функції в першій точці (комірка B2):

B4=$A$7*B2^4+$B$7*B2^3+$C$7*B2^2+$D$7*B2+$E$7.

Скопіюємо цю формулу в діапазон С4: J4і отримаємо очікуване значення функції у точках, абсциси яких зберігається в осередках B2:J2.

У осередок B5введемо формулу, що обчислює квадрат різниці між експериментальними та розрахунковими точками:

B5=(B4-B3)^2,

і скопіюємо її в діапазон С5:J5. У осередку F7зберігатимемо сумарну квадратичну помилку (10). Для цього введемо формулу:

F7 = СУМ(B5: J5).

Скористайтеся командою Сервіс®Пошук рішеннята вирішимо задачу оптимізації без обмежень. Заповнимо відповідним чином поля введення в діалоговому вікні, показаному на рис. 14 і натиснемо кнопку Виконати. Якщо рішення буде знайдено, з'явиться вікно, зображене на рис. 15.

Результатом роботи вирішального блоку буде виведення в комірки A7:E7значень параметрівфункції Z(t)=At 4 +Bt 3 +Ct 2 +Dt+K. У осередках B4:J4отримаємо очікуване значення функціїу вихідних точках. У осередку F7буде зберігатися сумарна квадратична помилка.

Зобразити експериментальні точки та підібрану лінію в одній графічній області можна, якщо виділити діапазон B2:J4, викликати Майстер діаграма потім відформатувати зовнішній вигляд отриманих графіків.

Рис. 17 відображає робочий лист MS Excel після проведених обчислень.


5. СПИСОК ЛІТЕРАТУРИ

1. Алексєєв Є.Р., Чеснокова О.В., Розв'язання задач обчислювальної математики в пакетах Mathcad12, MATLAB7, Maple9. - НТ Прес, 2006.-596с. :іл. - (Самовчитель)

2. Алексєєв Є.Р., Чеснокова О.В., Є.А. Рудченко, Scilab, рішення інженерних та математичних завдань. -М., БІНОМ, 2008.-260с.

3. Березін І.С., Жидков Н.П., Методи обчислень.-М.: Наука, 1966.-632с.

4. Гарнаєв А.Ю., Використання MS EXCEL та VBA в економіці та фінансах. - СПб.: БХВ - Петербург, 1999.-332с.

5. Демидович Б.П., Марон І А., Шувалова В.З., Чисельні методи аналізу.-М.: Наука, 1967.-368с.

6. Корн Г., Корн Т., Довідник з математики для науковців та інженерів.-М., 1970, 720с.

7. Алексєєв Є.Р., Чеснокова О.В. Методичні вказівки до виконання лабораторних робіт у MS EXCEL. Для студентів усіх спеціальностей. Донецьк, ДонНТУ, 2004. 112 с.

Метод найменших квадратів є математичною процедурою побудови лінійного рівняння, яке б найбільш точно відповідало набору двох рядів чисел. Метою застосування цього способу є мінімізація загальної квадратичної помилки. У Excel є інструменти, за допомогою яких можна застосовувати цей метод при обчисленнях. Давайте розберемося, як це робиться.

· Використання методу в Екселі

o Увімкнення надбудови «Пошук рішення»

o Умови завдання

o Рішення

Використання методу в Екселі

Метод найменших квадратів (МНК) є математичним описом залежності однієї змінної від другої. Його можна використовувати під час прогнозування.

Увімкнення надбудови «Пошук рішення»

Для того, щоб використовувати МНК в Екселі, потрібно увімкнути надбудову "Пошук рішення", яка за замовчуванням вимкнена.

1. Переходимо у вкладку "Файл".

2. Клацаємо по найменуванню розділу «Параметри».

3. У вікні зупиняємо вибір на підрозділі «Надбудови».

4. У блоці «Управління», який розташований у нижній частині вікна, встановлюємо перемикач у позицію «Надбудови Excel»(якщо в ньому виставлено інше значення) і тиснемо на кнопку "Перейти ...".

5. Відкривається невелике віконце. Ставимо в ньому галочку біля параметра "Пошук рішення". Тиснемо на кнопку "OK".

Тепер функція Пошук рішенняв Excel активовано, а її інструменти з'явилися на стрічці.

Урок:Пошук рішення в Екселі

Умови завдання

Опишемо застосування МНК на конкретному прикладі. Маємо два ряди чисел xі y, Послідовність яких представлена ​​на зображенні нижче.

Найбільш точно цю залежність може описати функція:

При цьому відомо що при x=0 yтеж одно 0 . Тому це рівняння можна описати залежністю y=nx.

Нам належить знайти мінімальну суму квадратів різниці.

Рішення

Перейдемо до опису безпосереднього застосування методу.

1. Зліва від першого значення xставимо цифру 1 . Це буде наближена величина першого значення коефіцієнта n.

2. Праворуч від стовпця yдодаємо ще одну колонку - nx. У першу комірку даного стовпця записуємо формулу множення коефіцієнта nна комірку першої змінної x. При цьому посилання на поле з коефіцієнтом робимо абсолютною, оскільки це значення не змінюватиметься. Клацаємо по кнопці Enter.

3. Використовуючи маркер заповнення, копіюємо цю формулу весь діапазон таблиці в стовпці нижче.

4. В окремому осередку вираховуємо суму різниць квадратів значень yі nx. Для цього клацаємо по кнопці "Вставити функцію".



5. У відкритому «Майстро функцій»шукаємо запис «СУМКВРАЗН». Вибираємо її та тиснемо на кнопку "OK".

6. Відкриється вікно аргументів. В полі «Масив_x» y. В полі «Масив_y»вводимо діапазон осередків стовпця nx. Для того, щоб ввести значення, просто встановлюємо курсор у полі та виділяємо відповідний діапазон на аркуші. Після введення тиснемо на кнопку "OK".

7. Переходимо у вкладку «Дані». На стрічці у блоці інструментів «Аналіз»тиснемо на кнопку "Пошук рішення".

8. Відкриється вікно параметрів інструмента. В полі "Оптимізувати цільову функцію"вказуємо адресу осередку з формулою «СУМКВРАЗН». У параметрі «До»обов'язково виставляємо перемикач у позицію «Мінімум». В полі «Змінюючи осередки»вказуємо адресу зі значенням коефіцієнта n. Тиснемо на кнопку "Знайти рішення".

9. Рішення буде відображатися в комірці коефіцієнта n. Саме це значення буде найменшим квадратом функції. Якщо результат задовольняє користувача, слід натиснути кнопку "OK"у додатковому вікні.

Як бачимо, застосування методу найменших квадратів є досить складною математичною процедурою. Ми показали її у дії на найпростішому прикладі, а існують набагато складніші випадки. Втім, інструментарій Microsoft Excel покликаний максимально спростити обчислення, що виробляються.

http://multitest.semico.ru/mnk.htm

загальні положення

Чим менше числа за абсолютною величиною, краще підібрана пряма (2). Як характеристику точності підбору прямої (2) можна прийняти суму квадратів

Умови мінімуму S будуть

(6)
(7)

Рівняння (6) та (7) можна записати в такому вигляді:

(8)
(9)

З рівнянь (8) і (9) легко знайти a та b за досвідченими значеннями x i та y i . Пряма (2), що визначається рівняннями (8) і (9), називається прямою, отриманою за методом найменших квадратів (цієї назви підкреслюється те, що сума квадратів S має мінімум). Рівняння (8) та (9), з яких визначається пряма (2), називаються нормальними рівняннями.

Можна вказати простий та загальний спосіб складання нормальних рівнянь. Використовуючи дослідні точки (1) та рівняння (2), можна записати систему рівнянь для a та b

y 1 =ax 1 +b,
y 2 =ax 2 +b, ... (10)
y n =ax n +b,

Помножимо ліву і праву частини кожного з цих рівнянь на коефіцієнт за першої невідомої a (тобто на x 1 , x 2 , ..., x n) і складемо отримані рівняння, в результаті вийде перше нормальне рівняння (8).

Помножимо ліву та праву частини кожного з цих рівнянь на коефіцієнт за другої невідомої b, тобто. на 1 і складемо отримані рівняння, в результаті вийде друге нормальне рівняння (9).

Цей спосіб отримання нормальних рівнянь є загальним: він придатний, наприклад, для функції

є постійна величина і її потрібно визначити за досвідченими даними (1).

Систему рівнянь для k можна записати:

Знайти пряму (2) методом найменших квадратів.

Рішення.Знаходимо:

X i = 21, y i = 46,3, x i 2 = 91, x i y i = 179,1.

Записуємо рівняння (8) та (9)91a+21b=179,1,

21a+6b=46,3, звідси знаходимо
a = 0,98 b = 4,3.

Яке знаходить найширше застосування у різних галузях науки та практичної діяльності. Це може бути фізика, хімія, біологія, економіка, соціологія, психологія і таке інше. Волею долі мені часто доводиться мати справу з економікою, і тому сьогодні я оформлю вам путівку до дивовижної країни під назвою Економетрика=) …Як це не хочете?! Там дуже добре – треба тільки наважитися! …Але ось те, що ви, напевно, точно хочете – так це навчитися вирішувати завдання методом найменших квадратів. І особливо старанні читачі навчаться вирішувати їх не тільки безпомилково, але ще й ДУЖЕ ШВИДКО;-) Але спочатку загальна постановка задачі+ супутній приклад:

Нехай у деякій предметної області досліджуються показники, які мають кількісне вираз. У цьому є підстави вважати, що показник залежить від показника . Це може бути як наукової гіпотезою, і грунтуватися на елементарному здоровому глузді. Залишимо, проте, науку осторонь і досліджуємо більш апетитні області - зокрема, продовольчі магазини. Позначимо через:

– торгову площу продовольчого магазину, кв.м.,
- Річний товарообіг продовольчого магазину, млн. руб.

Цілком зрозуміло, що чим більша площа магазину, тим у більшості випадків буде більшим його товарообіг.

Припустимо, що після проведення спостережень/дослідів/підрахунків/танців з бубном у нашому розпорядженні виявляються числові дані:

З гастрономами, гадаю, все зрозуміло: - це площа 1-го магазину, - його річний товарообіг, - площа 2-го магазину, - його річний товарообіг і т.д. До речі, зовсім не обов'язково мати доступ до секретних матеріалів – досить точну оцінку товарообігу можна отримати засобами математичної статистики. Втім, не відволікаємось, курс комерційного шпигунства – він уже платний =)

Табличні дані також можна записати у вигляді точок та зобразити у звичній для нас декартовій системі .

Відповімо на важливе питання: скільки точок потрібно якісного дослідження?

Чим більше тим краще. Мінімально допустимий набір складається з 5-6 пікселів. Крім того, при невеликій кількості даних у вибірку не можна включати «аномальні» результати. Так, наприклад, невеликий елітний магазин може рятувати на порядки більше «своїх колег», спотворюючи тим самим загальну закономірність, яку потрібно знайти!

Якщо дуже просто - нам потрібно підібрати функцію, графікякою проходить якомога ближче до точок . Таку функцію називають апроксимуючою (апроксимація – наближення)або теоретичною функцією . Взагалі кажучи, тут одразу з'являється очевидний «претендент» – багаточлен високого ступеня, графік якого проходить через всі точки. Але цей варіант складний, а часто й просто некоректний (т.к. графік буде весь час «петляти» і погано відображатиме головну тенденцію).

Таким чином, розшукувана функція повинна бути досить простою і в той же час відображати залежність адекватно. Як ви здогадуєтеся, один із методів знаходження таких функцій і називається методом найменших квадратів. Спочатку розберемо його суть у загальному вигляді. Нехай деяка функція наближає експериментальні дані:


Як оцінити точність наближення? Обчислимо і різниці (відхилення) між експериментальними та функціональними значеннями (Вивчаємо креслення). Перша думка, яка спадає на думку – це оцінити, наскільки велика сума, але проблема полягає в тому, що різниці можуть бути і негативні. (наприклад, ) та відхилення внаслідок такого підсумовування будуть взаємознищуватись. Тому як оцінка точності наближення напрошується прийняти суму модуліввідхилень:

або в згорнутому вигляді: (раптом хто не знає: – це значок суми, а – допоміжна змінна-«лічильник», яка набуває значення від 1 до ).

Наближаючи експериментальні точки різними функціями, ми отримуватимемо різні значення , і очевидно, де ця сума менша – та функція і точніше.

Такий метод існує і називається він методом найменших модулів. Однак на практиці набув значно більшого поширення метод найменших квадратів, В якому можливі негативні значення ліквідуються не модулем, а зведенням відхилень у квадрат:

, після чого зусилля спрямовані на підбір такої функції, щоб сума квадратів відхилень була якнайменше. Власне, звідси й назва методу.

І зараз ми повертаємося до іншого важливого моменту: як зазначалося вище, функція, що підбирається, повинна бути досить проста - але ж і таких функцій теж чимало: лінійна , гіперболічна, експоненційна, логарифмічна, квадратична і т.д. І, звичайно, тут одразу б хотілося «скоротити поле діяльності». Який клас функцій вибрати на дослідження? Примітивний, але ефективний прийом:

- Найпростіше зобразити точки на кресленні та проаналізувати їх розташування. Якщо вони мають тенденцію розташовуватися по прямій, слід шукати рівняння прямої з оптимальними значеннями та . Іншими словами, завдання полягає у знаходженні ТАКИХ коефіцієнтів – щоб сума квадратів відхилень була найменшою.

Якщо ж точки розташовані, наприклад, по гіперболі, то свідомо зрозуміло, що лінійна функція даватиме погане наближення. У цьому випадку шукаємо найбільш «вигідні» коефіцієнти для рівняння гіперболи – ті, що дають мінімальну суму квадратів .

А тепер зверніть увагу, що в обох випадках мова йде про функції двох змінних, аргументами якої є параметри залежностей, що розшукуються:

І по суті нам потрібно вирішити стандартне завдання – знайти мінімум функції двох змінних.

Згадаймо про наш приклад: припустимо, що «магазинні» точки мають тенденцію розташовуватися по прямій лінії і є підстави вважати наявність лінійної залежностітоварообігу від торгової площі Знайдемо ТАКІ коефіцієнти «а» та «бе», щоб сума квадратів відхилень була найменшою. Все як завжди - спочатку приватні похідні 1-го порядку. Згідно правилу лінійностідиференціювати можна прямо під значком суми:

Якщо хочете використовувати дану інформацію для реферату або курсовика - буду дуже вдячний за посилання в списку джерел, такі докладні викладки знайдете мало де:

Складемо стандартну систему:

Скорочуємо кожне рівняння на «двійку» і, крім того, «розвалюємо» суми:

Примітка : самостійно проаналізуйте, чому «а» та «бе» можна винести за значок суми До речі, формально це можна зробити і із сумою

Перепишемо систему у «прикладному» вигляді:

після чого починає промальовуватися алгоритм розв'язання нашого завдання:

Координати точок ми знаємо? Знаємо. Суми знайти можемо? Легко. Складаємо найпростішу систему двох лінійних рівнянь із двома невідомими(«а» та «бе»). Систему вирішуємо, наприклад, методом Крамера, у результаті отримуємо стаціонарну точку . Перевіряючи достатня умова екстремумуможна переконатися, що в даній точці функція досягає саме мінімуму. Перевірка пов'язана з додатковими викладками і тому залишимо її за кадром (при необхідності кадр, що бракує, можна подивитися ). Робимо остаточний висновок:

Функція найкращим чином (принаймні, порівняно з будь-якою іншою лінійною функцією)наближає експериментальні точки . Грубо кажучи, її графік відбувається максимально близько до цих точок. У традиціях економетрикиотриману апроксимуючу функцію також називають рівнянням парної лінійної регресії .

Розглянуте завдання має велике практичне значення. У ситуації з нашим прикладом, рівняння дозволяє прогнозувати, який товарообіг («Ігрек»)буде біля магазину при тому чи іншому значенні торгової площі (Тому чи іншому значенні «ікс»). Так, отриманий прогноз буде лише прогнозом, але у багатьох випадках він виявиться досить точним.

Я розберу лише одне завдання з «реальними» числами, оскільки жодних труднощів у ній немає – всі обчислення на рівні шкільної програми 7-8 класу. У 95 відсотків випадків вам буде запропоновано знайти саме лінійну функцію, але в самому кінці статті я покажу, що нітрохи не складніше знайти рівняння оптимальної гіперболи, експоненти та деяких інших функцій.

По суті, залишилося роздати обіцяні плюшки – щоб ви навчилися вирішувати такі приклади не лише безпомилково, а ще й швидко. Уважно вивчаємо стандарт:

Завдання

В результаті дослідження взаємозв'язку двох показників отримані такі пари чисел:

Методом найменших квадратів знайти лінійну функцію, яка найкраще наближає емпіричні (досвідчені)дані. Зробити креслення, на якому в декартовій прямокутній системі координат побудувати експериментальні точки та графік апроксимуючої функції . Знайти суму квадратів відхилень між емпіричними та теоретичними значеннями. З'ясувати, чи буде функція кращою (з погляду методу найменших квадратів)наближати експериментальні точки.

Зауважте, що «іксові» значення – натуральні, і це має характерний змістовний зміст, про який я розповім трохи згодом; але вони, зрозуміло, можуть і дробовими. Крім того, залежно від змісту того чи іншого завдання як «іксові», так і «ігрові» значення повністю або частково можуть бути негативними. Ну а у нас дане «безлике» завдання, і ми починаємо його Рішення:

Коефіцієнти оптимальної функції знайдемо як розв'язання системи:

З метою більш компактного запису змінну-«лічильник» можна опустити, оскільки і так зрозуміло, що підсумовування здійснюється від 1 до .

Розрахунок потрібних сум зручніше оформити у табличному вигляді:


Обчислення можна провести на мікрокалькуляторі, але краще використовувати Ексель - і швидше, і без помилок; дивимося короткий відеоролик:

Таким чином, отримуємо наступну систему:

Тут можна помножити друге рівняння на 3 та від 1-го рівняння почленно відняти 2-е. Але це везіння - на практиці системи частіше не подарункові, і в таких випадках рятує метод Крамера:
Отже, система має єдине рішення.

Виконаємо перевірку. Розумію, що не хочеться, але навіщо пропускати помилки там, де їх можна стовідсотково не пропустити? Підставимо знайдене рішення в ліву частину кожного рівняння системи:

Отримано праві частини відповідних рівнянь, отже система вирішена правильно.

Таким чином, шукана апроксимуюча функція: – з всіх лінійних функційекспериментальні дані найкраще наближає саме вона.

На відміну від прямий залежності товарообігу магазину від його площі, знайдена залежність є зворотній (Принцип «що більше – тим менше»), і цей факт відразу виявляється по негативному кутовому коефіцієнту. Функція повідомляє нам про те, що зі збільшення якогось показника на 1 одиницю значення залежного показника зменшується в середньомуна 0,65 одиниць. Як то кажуть, що вище ціна на гречку, то менше її продано.

Для побудови графіка апроксимуючої функції знайдемо два її значення:

і виконаємо креслення:


Побудована пряма називається лінією тренду (а саме – лінією лінійного тренду, тобто у загальному випадку тренд – це не обов'язково пряма лінія). Всім знайомий вислів «бути в тренді», і, гадаю, що цей термін не потребує додаткових коментарів.

Обчислимо суму квадратів відхилень між емпіричними та теоретичними значеннями. Геометрично – це сума квадратів довжин «малинових» відрізків (два з яких настільки малі, що їх навіть не видно).

Обчислення зведемо до таблиці:


Їх можна знову ж таки провести вручну, про всяк випадок наведу приклад для 1-ї точки:

але набагато ефективніше вчинити вже відомим чином:

Ще раз повторимо: у чому сенс отриманого результату?З всіх лінійних функційу функції показник є найменшим, тобто у своїй родині це найкраще наближення. І тут, до речі, невипадкове заключне питання завдання: а раптом запропонована експоненційна функція краще наближати експериментальні точки?

Знайдемо відповідну суму квадратів відхилень – щоб розрізняти, я позначу їх літерою «епсілон». Техніка така сама:


І знову на будь-який пожежний обчислення для 1-ї точки:

В Екселі користуємося стандартною функцією EXP (Синтаксис можна подивитися в екселевський Довідці).

Висновок: , отже, експоненційна функція наближає експериментальні точки гірше, ніж пряма .

Але тут слід зазначити, що «гірше» – це ще не означає, що погано. Зараз збудував графік цієї експоненційної функції – і він теж проходить близько до точок - Так, що без аналітичного дослідження і сказати важко, яка функція точніше.

На цьому рішення закінчено, і я повертаюся до питання про натуральні значення аргументу. У різних дослідженнях, зазвичай, економічних чи соціологічних, натуральними «іксами» нумерують місяці, роки чи інші рівні часові проміжки. Розглянемо, наприклад, таке завдання.

Метод найменших квадратів (МНК) ґрунтується на мінімізації суми квадратів відхилень обраної функції від досліджуваних даних. У цій статті апроксимуємо наявні дані за допомогою лінійної функціїy = a x + b .

Метод найменших квадратів(англ. Ordinary Least Squares , OLS) є одним із базових методів регресійного аналізу в частині оцінки невідомих параметрів регресійних моделейза вибірковими даними.

Розглянемо наближення функціями, що залежать лише від однієї змінної:

  • Лінійна: y=ax+b (ця стаття)
  • : y=a*Ln(x)+b
  • : y=a*x m
  • : y=a*EXP(b*x)+с
  • : y=ax 2 +bx+c

Примітка: Випадки наближення поліномом з 3-го до 6-го ступеня розглянуті в цій статті Наближення тригонометричним поліномом розглянуто тут.

Лінійна залежність

Нас цікавить зв'язок 2-х змінних хі y. Є припущення, що yзалежить від хза лінійним законом y = ax + b. Щоб визначити параметри цього взаємозв'язку дослідник провів спостереження: для кожного значення х i проведено вимір y (див. файл прикладу). Відповідно, нехай є 20 пар значень (х i; y i).

Примітка:Якщо крок зміни по х постійний, то для побудови діаграми розсіюванняможна використовувати , якщо ні, необхідно використовувати тип діаграми Крапкова .

З діаграми очевидно, що зв'язок між змінними близька до лінійної. Щоб зрозуміти яка з множини прямих ліній найбільш «правильно» описує залежність між змінними, необхідно визначити критерій, за яким будуть порівнюватися лінії.

Як такий критерій використовуємо вираз:

де ŷ i = a * x i + b ; n – число пар значень (у разі n=20)

Вищезгадане вираз являє собою суму квадратів відстаней між спостереженими значеннями y i ŷ i і часто позначається як SSE ( Sum of Squared Errors (Residuals), сума квадратів помилок (залишків)) .

Метод найменших квадратівполягає у підборі такої лінії ŷ = ax + b, Для якої вищезгадане вираз набуває мінімального значення.

Примітка:Будь-яка лінія у двовимірному просторі однозначно визначається значеннями 2-х параметрів: a (нахил) та b (Зрушення).

Вважається, що менше сума квадратів відстаней, тим відповідна лінія краще апроксимує наявні дані і може бути надалі використана для прогнозування значень y від змінної х. Зрозуміло, що навіть якщо насправді ніякого взаємозв'язку між змінними немає чи зв'язок нелінійний, то МНК все одно підбере найкращу лінію. Таким чином, МНК нічого не говорить про наявність реального взаємозв'язку змінних, метод просто дозволяє підібрати такі параметри функції a і b , Для яких вищезгадане вираз мінімально.

Виконавши не дуже складні математичні операції (докладніше див.), можна обчислити параметри a і b :

Як видно з формули, параметр a являє собою відношення коваріації і тому в MS EXCEL для обчислення параметра а можна використовувати такі формули (див. файл приклад лист Линійна):

= КОВАР(B26:B45;C26:C45)/ ДИСП.Г(B26:B45)або

= КОВАРІАЦІЯ.В(B26:B45;C26:C45)/ДИСП.В(B26:B45)

Також для обчислення параметра а можна використовувати формулу = Нахил (C26: C45; B26: B45). Для параметра b використовуйте формулу = ВІДРІЗОК(C26:C45;B26:B45) .

І нарешті, функція Лінейн() дозволяє обчислити відразу обидва параметри. Для введення формули Лінейн (C26: C45; B26: B45)необхідно виділити у рядку 2 комірки та натиснути CTRL + SHIFT + ENTER(Див. статтю про ). У лівому осередку буде повернено значення а , у правій – b .

Примітка: Щоб не зв'язуватися із введенням формул масивупотрібно додатково використовувати функцію ІНДЕКС() . Формула = ІНДЕКС(ЛІНЕЙН(C26:C45;B26:B45);1)або просто = Лінейн (C26: C45; B26: B45)поверне параметр, відповідальний нахил лінії, тобто. а . Формула = ІНДЕКС(ЛІНЕЙН(C26:C45;B26:B45);2)поверне параметр, відповідальний за перетин лінії з віссю Y, тобто. b .

Обчисливши параметри, діаграмі розсіюванняможна збудувати відповідну лінію.

Ще одним способом побудови прямої лінії за методом найменших квадратів є інструмент діаграми Лінія тренду. Для цього виділіть діаграму, у меню виберіть вкладку Макет, в групі Аналізнатисніть Лінія тренду, потім Лінійне наближення .

Поставивши в діалоговому вікні галочку в полі «показувати рівняння на діаграмі» можна переконатися, що знайдені параметри збігаються зі значеннями на діаграмі.

Примітка: Для того, щоб параметри збігалися необхідно, щоб тип діаграми був . Справа в тому, що при побудові діаграми Графікзначення осі Х не можуть бути задані користувачем (користувач може вказати тільки підписи, які не впливають на розташування точок). Замість значень використовується послідовність 1; 2; 3; …(для нумерації категорій). Тому, якщо будувати лінію трендуна діаграмі типу Графік, замість фактичних значень Х будуть використані значення цієї послідовності, що призведе до невірного результату (якщо, звичайно, фактичні значення Х не збігаються з послідовністю 1; 2; 3; …).

Метод найменших квадратіввикористовується для оцінки параметрів рівняння регресії.

Одним із методів вивчення стохастичних зв'язків між ознаками є регресійний аналіз.
Регресійний аналіз є висновок рівняння регресії, за допомогою якого знаходиться середня величина випадкової змінної (ознака-результату), якщо величина іншої (або інших) змінних (ознак-факторів) відома. Він включає такі етапи:

  1. вибір форми зв'язку (виду аналітичного рівняння регресії);
  2. оцінку параметрів рівняння;
  3. оцінку якості аналітичного рівняння регресії
Найчастіше для опису статистичного зв'язку ознак використовується лінійна форма. Увага до лінійного зв'язку пояснюється чіткою економічною інтерпретацією її параметрів, обмеженою варіацією змінних і тим, що здебільшого нелінійні форми зв'язку до виконання розрахунків перетворять (шляхом логарифмування чи заміни змінних) в лінійну форму.
У разі лінійного парного зв'язку рівняння регресії набуде вигляду: y i =a+b·x i +u i . Параметри даного рівняння а та b оцінюються за даними статистичного спостереження x та y. Результатом такої оцінки є рівняння: , де - оцінки параметрів a і b - значення результативної ознаки (змінної), отримане за рівнянням регресії (розрахункове значення).

Найчастіше для оцінки параметрів використовують Метод найменших квадратів (МНК).
Метод найменших квадратів дає найкращі (заможні, ефективні та незміщені) оцінки параметрів рівняння регресії. Але тільки в тому випадку, якщо виконуються певні передумови щодо випадкового члена (u) та незалежної змінної (x) (див. передумови МНК).

Завдання оцінювання параметрів лінійного парного рівняння методом найменших квадратівполягає в наступному: отримати такі оцінки параметрів , при яких сума квадратів відхилень фактичних значень результативної ознаки - y i від розрахункових значень - мінімальна.
Формально критерій МНКможна записати так: .

Класифікація методів найменших квадратів

  1. Метод найменших квадратів.
  2. Метод максимальної правдоподібності (для нормальної класичної лінійної моделі регресії постулюється нормальність регресійних залишків).
  3. Узагальнений метод найменших квадратів ОМНК застосовується у разі автокореляції помилок та у разі гетероскедастичності.
  4. Метод зважених найменших квадратів (частка ОМНК з гетероскедастичними залишками).

Проілюструємо суть класичного методу найменших квадратів графічно. Для цього побудуємо точковий графік за даними спостережень (x i , y i , i = 1; n) у прямокутній системі координат (такий точковий графік називають кореляційним полем). Спробуємо підібрати пряму лінію, яка найближче розташована до точок кореляційного поля. Відповідно до методу найменших квадратів лінія вибирається так, щоб сума квадратів відстаней по вертикалі між точками кореляційного поля та цією лінією була б мінімальною.

Математичний запис даної задачі: .
Значення y i x i =1...n нам відомі, це дані спостережень. У функції S вони є константи. Змінними у цій функції є оцінки параметрів - , . Щоб визначити мінімум функції двох змінних потрібно обчислити приватні похідні цієї функції у кожному з властивостей і прирівняти їх нулю, тобто. .
В результаті отримаємо систему з двох нормальних лінійних рівнянь:
Вирішуючи цю систему, знайдемо шукані оцінки параметрів:

Правильність розрахунку параметрів рівняння регресії може бути перевірена порівнянням сум (можлива деяка розбіжність через заокруглення розрахунків).
Для розрахунку оцінок параметрів можна побудувати таблицю 1.
Знак коефіцієнта регресії b вказує напрямок зв'язку (якщо b >0, зв'язок прямий, якщо b<0, то связь обратная). Величина b показывает на сколько единиц изменится в среднем признак-результат -y при изменении признака-фактора - х на 1 единицу своего измерения.
Формально значення параметра - середнє значення y при х рівному нулю. Якщо ознака-фактор немає і може мати нульового значення, то вищевказане трактування параметра немає сенсу.

Оцінка тісноти зв'язку між ознаками здійснюється за допомогою коефіцієнта лінійної парної кореляції - r x, y. Він може бути розрахований за формулою: . Крім того, коефіцієнт лінійної парної кореляції може бути визначений через коефіцієнт регресії b: .
Область допустимих значень лінійного коефіцієнта парної кореляції від -1 до +1. Знак коефіцієнта кореляції вказує напрямок зв'язку. Якщо r x, y >0, то зв'язок прямий; якщо r x, y<0, то связь обратная.
Якщо цей коефіцієнт по модулю близький до одиниці, то зв'язок між ознаками може бути інтерпретований як досить тісний лінійний. Якщо його модуль дорівнює одиниці r x , y = 1, то зв'язок між ознаками функціональна лінійна. Якщо ознаки х і y лінійно незалежні, то r x y близький до 0.
Для розрахунку r x, y можна також використовувати таблицю 1.

Для оцінки якості отриманого рівняння регресії розраховують теоретичний коефіцієнт детермінації - R 2 yx:

,
де d 2 - Пояснена рівнянням регресії дисперсія y;
e 2 - залишкова (непояснена рівнянням регресії) дисперсія y;
s 2 y - загальна (повна) дисперсія y.
Коефіцієнт детермінації характеризує частку варіації (дисперсії) результативної ознаки y, що пояснюється регресією (а, отже, і фактором х), у загальній варіації (дисперсії) y. Коефіцієнт детермінації R 2 yx набуває значення від 0 до 1. Відповідно величина 1-R 2 yx характеризує частку дисперсії y , викликану впливом інших неврахованих у моделі факторів та помилками специфікації.
При парній лінійній регресії R 2 yx = r 2 yx.



Останні матеріали розділу:

Перше ополчення у смутні часи презентація
Перше ополчення у смутні часи презентація

Слайд 1Смутний час Слайд 2На початку XVII століття Російська держава була охоплена пожежею громадянської війни та глибокою кризою. Сучасники...

Слова паразити у дитячій мові
Слова паразити у дитячій мові

Однією з найважливіших проблем сучасного суспільства є проблема мови. Ні для кого не секрет, що останнім часом наша мова зазнала...

Презентація для уроків літературного читання у початковій школі про Е
Презентація для уроків літературного читання у початковій школі про Е

Слайд 2 04.11.2009р. Н.С. Папулова 2 Олена Олександрівна Благініна. (1903-1989) – російський поет, перекладач. Слайд 3 Дочка багажного касира на...