Оцінка параметра показового розподілу методом максимальної правдоподібності. Методи отримання оцінок

У роботах, призначених для початкового знайомства з математичною статистикоюзазвичай розглядають оцінки максимальної правдоподібності(скорочено ЗМП):

Таким чином, спочатку будується щільність розподілу ймовірностей, що відповідає вибірці. Оскільки елементи вибірки незалежні, то ця щільність представляється у вигляді добутку щільностей для окремих елементіввибірки. Спільна щільність розглядається у точці, що відповідає спостеріганим значенням. Цей вираз як функція параметра (при заданих елементах вибірки) називається функцією правдоподібності. Потім у той чи інший спосіб шукається значення параметра, у якому значення спільної щільності максимально. Це і є оцінка максимальної правдоподібності.

Добре відомо, що оцінки максимальної правдоподібності входять до класу найкращих асимптотично нормальних оцінок. Проте за кінцевих обсягах вибірки у низці завдань ЗМУ неприпустимі, т.к. вони гірші (дисперсія та середній квадрат помилки більші), ніж інші оцінки, зокрема, незміщені. Саме тому ГОСТ 11.010-81 для оцінювання параметрів негативного біномного розподілувикористовуються незміщені оцінки, а чи не ЗМУ. Зі сказаного слід апріорно віддавати перевагу ЗМУ іншим видам оцінок можна - якщо можна - лише на етапі вивчення асимптотичного поведінки оцінок.

В окремих випадках ЗМУ знаходяться явно, у вигляді конкретних формул, придатних для обчислення.

В більшості випадків аналітичних рішеньне існує, для знаходження ЗМЗ необхідно застосовувати чисельні методи. Така ситуація, наприклад, із вибірками з гамма-розподілу або розподілу Вейбулла-Гніденка. У багатьох роботах будь-яким ітераційним методом вирішують систему рівнянь максимальної правдоподібності або безпосередньо максимізують функцію правдоподібності.

Однак застосування чисельних методівпороджує численні проблеми. Схожість ітераційних методів потребує обґрунтування. У ряді прикладів функція правдоподібності має багато локальних максимумівА тому природні ітераційні процедури не сходяться. Для даних ВНДІ залізничного транспортуза втомними випробуваннями сталі рівняння максимальної правдоподібності має 11 коренів. Який з одинадцяти використовувати як оцінку параметра?

Як наслідок усвідомлення зазначених труднощів стали з'являтися роботи з доказу збіжності алгоритмів знаходження оцінок максимальної правдоподібності для конкретних ймовірнісних моделей і конкретних алгоритмів.

Проте теоретичний доказ збіжності ітераційного алгоритму - це ще все. Виникає питання про обґрунтований вибір моменту припинення обчислень у зв'язку з досягненням необхідної точності. Найчастіше він не вирішено.

Але це не все. Точність обчислень необхідно пов'язувати з обсягом вибірки - що він більше, тим точніше треба шукати оцінки параметрів, інакше не можна говорити про спроможність методу оцінювання. Більше того, при збільшенні обсягу вибірки необхідно збільшувати і кількість розрядів, що використовуються в комп'ютері, переходити від одинарної точності розрахунків до подвійної і далі - знову-таки задля досягнення спроможності оцінок.

Таким чином, за відсутності явних формул для оцінок максимальної правдоподібності знаходження ЗМЗ наштовхується на низку проблем обчислювального характеру. Фахівці з математичної статистикидозволяють собі ігнорувати всі ці проблеми, розмірковуючи про ЗМУ в теоретичному плані. Проте прикладна статистика неспроможна їх ігнорувати. Зазначені проблеми ставлять під питання доцільність практичного використанняЗМП.

приклад 1.У статистичних завданнях стандартизації та управління якістю використовують сімейство гамма-розподілів. Щільність гамма-розподілу має вигляд

Щільність ймовірності у формулі (7) визначається трьома параметрами a, b, c, де a>2, b>0. При цьому aє параметром форми, b- параметром масштабу та з -параметром зсуву. Множник 1/Г(а)є нормувальним, він введений, щоб

Тут Г(а)- одна з використовуваних у математиці спеціальних функцій, так звана "гамма-функція", за якою названо і розподіл, що задається формулою (7),

Детальні рішення задач оцінювання параметрів для гамма-розподілу містяться у розробленому нами державному стандарті ГОСТ 11,011-83 «Прикладна статистика. Правила визначення оцінок та довірчих меж для параметрів гамма-розподілу». В даний час ця публікація використовується як методичного матеріалудля інженерно-технічних працівників промислових підприємствта прикладних науково-дослідних інститутів.

Оскільки гамма-розподіл залежить від трьох параметрів, є 2 3 - 1 = 7 варіантів постановок завдань оцінювання. Вони описані у табл. 1. У табл. 2 наведені реальні дані про напрацювання різців до граничного стану в годинах. Упорядкована вибірка ( варіаційний ряд) обсягу n= 50 взято з державного стандарту. Саме ці дані служитимуть вихідним матеріаломдемонстрації тих чи інших методів оцінювання параметрів.

Вибір «найкращих» оцінок у певній параметричній моделі прикладної статистики- Науково-дослідна робота, розтягнута в часі. Виділимо два етапи. Етап асимптотики: оцінки будуються та порівнюються за їх властивостями при безмежному зростанні обсягу вибірки На цьому етапі розглядають такі характеристики оцінок, як спроможність, асимптотична ефективність та ін. Етап кінцевих обсягів вибірки:оцінки порівнюються, скажімо, при n= 10. Зрозуміло, дослідження починається з етапу асимптотики: щоб порівнювати оцінки, треба спочатку їх побудувати і бути впевненими, що вони є абсурдними (таку впевненість дає доказ спроможності).

приклад 2.Оцінювання методом моментів параметрів гамма-розподілу у разі трьох невідомих параметрів (рядок 7 таблиці 1).

Відповідно до проведених вище міркувань для оцінювання трьох параметрів достатньо використовувати три вибіркові моменти - вибіркове середнє арифметичне:

вибіркову дисперсію

та вибірковий третій центральний момент

Прирівнюючи теоретичні моменти, виражені через параметри розподілу, та вибіркові моменти, отримуємо систему рівнянь методу моментів:

Вирішуючи цю систему, знаходимо оцінки способу моментів. Підставляючи друге рівняння в третє, отримуємо оцінку методу моментів для параметра зсуву:

Підставляючи цю оцінку на друге рівняння, знаходимо оцінку методу моментів для параметра форми:

Нарешті, з першого рівняння знаходимо оцінку параметра зсуву:

Для реальних даних, наведених вище у табл. 2, вибіркове середнє арифметичне = 57,88, вибіркова дисперсія s 2 = 663,00, вибірковий третій центральний момент m 3 = 14927,91. Відповідно до щойно отриманих формул оцінки методу моментів такі: a* = 5,23; b* = 11,26, c* = - 1,01.

Оцінки параметрів гамма-розподілу, отримані методом моментів є функціями від вибіркових моментів. Відповідно до сказаного вище, вони є асимптотично нормальними випадковими величинами. У табл. 3 наведено оцінки методу моментів та їх асимптотичні дисперсії при різних варіантахпоєднання відомих та невідомих параметрів гамма-розподілу.

Усі оцінки методу моментів, наведені у табл. 3, включені в державний стандарт. Вони охоплюють всі постановки задач оцінювання параметрів гамма-розподілу (див. табл. 1), крім тих, коли невідомий лише один параметр - aабо b. Для цих виняткових випадків розроблено спеціальні методиоцінювання.

Оскільки асимптотичний розподіл оцінок методу моментів відомий, то не важко формулювати правила перевірки статистичних гіпотезщодо значень параметрів розподілу, а також побудова довірчих меж для параметрів. Наприклад, в імовірнісної моделі, коли всі три параметри невідомі, відповідно до третього рядка таблиці 3 нижня довірча межа для параметра а, відповідна довірчої ймовірностіг = 0,95, в асимптотиці має вигляд

а верхня довірча межа для тієї ж довірчої ймовірності така

де а* - Оцінка методу моментів параметра форми (табл. 3).

приклад 3.Знайдемо ЗМП для вибірки з нормального розподілукожен елемент якої має щільність

Таким чином, треба оцінити двовимірний параметр ( m, У 2).

Добуток щільностей ймовірностей елементів вибірки, тобто. функція правдоподібності, має вигляд

Потрібно вирішити задачу оптимізації

Як і багатьох інших випадках, завдання оптимізації простіше вирішується, якщо прологарифмувати функцію правдоподібності, тобто. перейти до функції

званою логарифмічною функцією правдоподібності. Для вибірки із нормального розподілу

Необхідною умовою максимуму є рівність 0 приватних похідних логарифмічної функції правдоподібності за параметрами, тобто.

Система (10) називається системою рівнянь максимальної правдоподібності. У загальному випадкучисло рівнянь дорівнює кількості невідомих параметрів, а кожне з рівнянь виписується шляхом прирівнювання 0 приватної похідної логарифмічної функції правдоподібності за тим чи іншим параметром.

При диференціюванні по mперші два доданки у правій частині формули (9) звертаються в 0, а останній доданок дає рівняння

Отже, оцінкою m* максимальної правдоподібності параметра mє вибіркове середнє арифметичне,

Для визначення оцінки дисперсії необхідно вирішити рівняння

Легко бачити, що

Отже, оцінкою (2)* максимальної правдоподібності для дисперсії у 2 з урахуванням знайденої раніше оцінки для параметра mє вибіркова дисперсія,

Отже, система рівнянь максимальної правдоподібності вирішена аналітично, ЗМЗ для математичного очікування та дисперсії нормального розподілу – це вибіркове середнє арифметичне та вибіркова дисперсія. Відмітимо, що остання оцінкає зміщеною.

Зазначимо, що в умовах прикладу 3 оцінки методу максимальної правдоподібності збігаються з оцінками методу моментів. Причому вид оцінок методу моментів очевидний і вимагає проведення будь-яких міркувань.

приклад 4.Спробуємо проникнути в таємний змістНаступна фраза засновника сучасної статистики Рональда Фішера: "немає нічого простішого, ніж придумати оцінку параметра". Класик іронізував: він мав на увазі, що легко вигадати погану оцінку. Гарну оцінкуне треба вигадувати (!) – її треба отримувати стандартним чином, використовуючи принцип максимальної правдоподібності.

Завдання. Відповідно до H 0 математичні очікування трьох незалежних пуассонівських випадкових величин пов'язані лінійною залежністю: .

Дано реалізації цих величин. Потрібно оцінити два параметри лінійної залежностіта перевірити H 0 .

Для наочності можна уявити лінійну регресію, Яка в точках набуває середніх значень. Нехай отримано значення. Що можна сказати про величину та справедливість H 0 ?

Наївний підхід

Здавалося б, оцінити параметри можна з здорового глузду. Оцінку нахилу прямої регресії отримаємо, поділивши збільшення при переході від x 1 =-1 до x 3 = +1 на, а оцінку значення знайдемо як середнє арифметичне:

Легко перевірити, що математичні очікування оцінок рівні (оцінки незміщені).

Після того, як оцінки отримані, H 0 перевіряють як зазвичай за допомогою хі-квадрат критерію Пірсона:

Оцінки очікуваних частот можна отримати, виходячи з оцінок:

При цьому, якщо наші оцінки ”правильні”, то відстань Пірсона буде розподілена як випадкова величинахі-квадрат з одним ступенем свободи: 3-2=1. Нагадаємо, що ми оцінюємо два параметри, підганяючи дані під нашу модель. При цьому сума не фіксована, тому додаткову одиницю віднімати не потрібно.

Однак, підставивши, отримаємо дивний результат:

З одного боку ясно, що для даних частот немає підстав відкидати H 0 але ми не в змозі це перевірити за допомогою хі-квадрат критерію, так як оцінка очікуваної частоти в першій точці виявляється негативною. Отже, знайдені з “здорового глузду” оцінки неможливо вирішити завдання у випадку.

Метод максимальної правдоподібності

Випадкові величини є незалежними і мають пуассонівський розподіл. Імовірність отримати значення дорівнює:

Відповідно до принципу максимальної правдоподібності значення невідомих параметрів треба шукати, вимагаючи, щоб можливість отримати значення була максимальною:

Якщо постійні, ми маємо справу зі звичайною ймовірністю. Фішер запропонував новий термін "правдоподібність" для випадку, коли постійні, а змінними вважаються. Якщо правдоподібність виявляється твором ймовірностей незалежних подій, то природно перетворити твір на суму і далі мати справу з логарифмом правдоподібності:

Тут всі доданки, які не залежать від, позначені і в остаточному виразі відкинуті. Щоб знайти максимум логарифму правдоподібності, прирівняємо похідні до нуля:

Вирішуючи ці рівняння, отримаємо:

Такі “правильні” висловлювання оцінок. Оцінка середнього значення збігається з тим, що пропонував здоровий глузд, проте оцінки нахилу различаются: . Що можна сказати з приводу формули для?

  • 1) Здається дивним, що відповідь залежить від частоти в середній точці, оскільки величина визначає кут нахилу прямої.
  • 2) Проте, якщо справедлива H 0 (лінія регресії - пряма), то при великих значенняхспостерігаються частоти, вони стають близькими до своїх математичним очікуванням. Тому: і оцінка максимальної правдоподібності стає близька до результату, отриманого зі здорового глузду.

3) Переваги оцінки починають відчуватися, коли ми помічаємо, що всі очікувані частоти тепер виявляються завжди позитивними:

Це було не так для "наївних" оцінок, тому застосувати хі-квадрат критерій можна було не завжди (спроба замінити негативну або рівну нулюочікувану частоту на одиницю не рятує положення).

4) Чисельні розрахунки показують, що наївними оцінками можна використовувати лише, якщо очікувані частоти досить великі. Якщо використовувати їх при малих значеннях, то обчислена відстань Пірсона часто виявлятиметься надмірно великою.

Висновок : Правильний вибіроцінки важливий, тому що в іншому випадку перевірити гіпотезу за допомогою критерію хі-квадрат не вдасться. Оцінка, здавалося б, очевидна може виявитися непридатною!

Крім методу моментів, що викладено у попередньому параграфі, існують й інші методи точкової оцінки невідомих параметрів розподілу. До них відноситься метод найбільшої правдоподібності, запропонований Р. Фішером.

А. Дискретні випадкові величини.Нехай X - дискретна випадкова величина, яка в результаті n випробувань набула значення х 1 ,х 2 , ...,х п . Припустимо, що вид закону розподілу величини X заданий, але невідомий параметр θ , Яким визначається цей закон. Потрібно знайти його точкову оцінку.

Позначимо ймовірність того, що в результаті випробування величина X набуде значення х i (i= 1 , 2, . . . , n), через p(х i ; θ ).

Функцією правдоподібності дискретної випадкової величиниX називають функцію аргументу θ :

L (х 1 х 2 , ..., х п ; θ ) = p (х 1 ; θ ) р(х 2 ; θ ) . . . p (х n ; θ ),

де х 1 ,х 2 , ...,х п - фіксовані числа.

В якості точкової оцінкипараметра θ приймають таке його значення θ * = θ * (х 1 х 2 , ..., х п), при якому функція правдоподібності досягає максимуму. Оцінку θ * називають оцінкою найбільшої правдоподібності.

Функції Lта ln Lдосягають максимуму при тому самому значенні θ тому замість відшукання максимуму функції L шукають (що зручніше) максимум функції ln L.

Логарифмічною функцією правдоподібностіназивають функцію ln L. Як відомо, точку максимуму функції ln Lаргументу θ можна шукати, наприклад, так:

3) знайти другу похідну; якщо друга похідна при θ = θ * негативна, то θ * - точка максимуму.

Знайдену точку максимуму θ * приймають як оцінку найбільшої правдоподібності параметра θ .

Метод найбільшої правдоподібності має ряд переваг: оцінки найбільшої правдоподібності, взагалі кажучи, спроможні (але вони можуть бути зміщеними), розподілені асимптотично нормально (при великих значеннях n приблизно нормальні) і мають найменшу дисперсію в порівнянні з іншими асимптотично нормальними оцінками; якщо для оцінюваного параметра θ існує ефективна оцінка θ *, то рівняння правдоподібності має єдине рішення θ *; цей метод найбільш повно використовує дані вибірки про параметр, що оцінюється, тому він особливо корисний у разі малих вибірок.

Недолік методу у тому, що часто вимагає складних обчислень.

Зауваження 1.Функція правдоподібності – функція від аргументу θ ; оцінка найбільшої правдоподібності – функція від незалежних аргументів х 1 ,х 2 , ...,х п .

Примітка 2.Оцінка найбільшої правдоподібності який завжди збігається з оцінкою, знайденої методом моментів.

приклад 1.λ розподілу Пуассона

де m- Число проведених випробувань; x i - Число появи події в i-м ( i=1, 2, ..., n) досвіді (досвід складається з твипробувань).

Рішення.Складемо функцію правдоподібності з огляду на те, що. θ= λ :

L = p (х 1 ; λ :) p (х 2 ; λ :) . . .p (х n ; λ :),=

.

Напишемо рівняння правдоподібності, для чого прирівняємо першу похідну нулю:

Знайдемо критичну точку, для чого вирішимо отримане рівняння щодо λ:

Знайдемо другу похідну по λ:

Легко бачити, що за λ = друга похідна негативна; отже, λ = - точка максимуму і, отже, як оцінка найбільшої правдоподібності параметра λ розподілу Пуассона треба прийняти вибіркову середню λ* = .

приклад 2.Знайти методом найбільшої правдоподібності оцінку параметра p біномного розподілу

якщо в n 1 незалежних випробуваннях подія Аз'явилося х 1 = m 1 раз і в п 2 незалежних випробуваннях подія Аз'явилося х 2 = т 2 разів.

Рішення.Складемо функцію правдоподібності, враховуючи, що θ = p:

Знайдемо логарифмічну функціюправдоподібності:

Знайдемо першу похідну за р:

.

.

Знайдемо критичну точку, для чого вирішимо отримане рівняння щодо p:

Знайдемо другу похідну за p:

.

Легко переконатися, що при друга похідна негативна; отже, - точка максимуму і, отже, її треба прийняти як оцінку найбільшої правдоподібності невідомої ймовірності p біномного розподілу:

Б. Безперервні випадкові величини.Нехай X - безперервна випадкова величина, яка в результаті n випробувань набула значення х 1 ,х 2 , ..., x п . Припустимо, що вид густини розподілу f(x) заданий, але не відомий параметр θ , Яким визначається ця функція.

Функцією правдоподібності безперервної випадкової величиниX називають функцію аргументу θ :

L (х 1 ,х 2 , ...,х п ; θ ) = f (х 1 ; θ ) f (х 2 ; θ ) . . . f (x n ; θ ),

де х 1 ,х 2 , ..., x п - Фіксовані числа.

Оцінку найбільшої правдоподібності невідомого параметра розподілу безперервної випадкової величини шукають так само, як у разі дискретної величини.

приклад 3.Знайти методом найбільшої правдоподібності оцінку параметра λ, показового розподілу

(0< х< ∞),

якщо в результаті n випробувань випадкова величина X, розподілена за показовим законом, прийняла значення х 1 ,х 2 , ...,х п .

Рішення.Складемо функцію правдоподібності, враховуючи, що θ= λ:

L= f (х 1 ; λ ) f (х 2 ; λ ) . . . f (х n ; λ ) =.

Знайдемо логарифмічну функцію правдоподібності:

Знайдемо першу похідну по λ:

Напишемо рівняння правдоподібності, для чого прирівняємо першу похідну нулю:

Знайдемо критичну точку, для чого вирішимо отримане рівняння щодо λ:

Знайдемо другу похідну по λ :

Метод максимальної правдоподібності.

Цей метод полягає в тому, що в якості точкової оцінки параметра приймається значення параметра , при якому функція правдоподібності досягає свого максимуму.

Для випадкового напрацювання вщент із щільністю ймовірності f(t, ) функція правдоподібності визначається формулою 12.11: , тобто. являє собою спільну щільність імовірності незалежних виміріввипадкової величини τ із щільністю ймовірності f(t, ).

Якщо випадкова величина дискретна і набуває значення Z 1 ,Z 2…, відповідно до ймовірностей P 1 (α),P 2 (α)…, , то функція правдоподібності береться в іншому вигляді, а саме: , Де індекси у ймовірностей показують, що спостерігалися значення .

Оцінки максимальної правдоподібності параметра визначаються з рівняння правдоподібності (12.12).

Значення методу максимальної правдоподібності з'ясовується двома припущеннями:

Якщо для параметра існує ефективна оцінка, то рівняння правдоподібності (12.12) має єдине рішення.

За деяких загальних умоваханалітичного характеру, накладених на функції f(t, )рішення рівняння правдоподібності сходиться при істинному значеннюпараметра.

Розглянемо приклад використання методу максимальної правдоподібності параметрів нормального розподілу.

Приклад:

Маємо: , , t i (i=1..N)вибірка із сукупності із щільністю розподілу.

Потрібно знайти оцінку максимальної подоби.

Функція правдоподібності: ;

.

Рівняння правдоподібності: ;

;

Вирішення цих рівнянь має вигляд: - Статистичне середнє; - Статистична дисперсія. Оцінка є зміщеною. Не зміщеною оцінкою буде оцінка: .

Основним недоліком методу максимальної правдоподібності є обчислювальні труднощі, що виникають при вирішенні рівнянь правдоподібності, які, як правило, трансцендентні.

Спосіб моментів.

Цей метод запропонований К.Пірсоном і є першим загальним методом точкової оцінки невідомих параметрів. Він досі широко використовується у практичній статистиці, оскільки нерідко призводить до порівняно нескладної обчислювальної процедури. Ідея цього методу полягає в тому, що моменти розподілу, що залежать від невідомих параметрів, прирівнюються до емпіричних моментів. Взявши кількість моментів, рівну числуневідомих параметрів і склавши відповідні рівняння, ми отримаємо необхідну кількість рівнянь. Найчастіше обчислюються перші два статистичні моменти: вибіркове середнє; та вибіркова дисперсія . Оцінки, отримані з допомогою методу моментів, є найкращими з погляду їх ефективності. Однак дуже часто вони використовуються як перші наближення.

Розглянемо приклад використання методу моментів.

Приклад: Розглянемо експоненційний розподіл:

t>0; λ<0; t i (i=1..N) - Вибірка з сукупності з щільністю розподілу . Потрібно знайти оцінку параметра λ.

Складаємо рівняння: . Таким чином, інакше.

Метод квантилів.

Це такий самий емпіричний метод, як і метод моментів. Він у тому, що квантиль теоретичного розподілу прирівнюються до емпіричної квантили. Якщо оцінці підлягають кілька параметрів, відповідні рівності пишуться для кількох квантилей.

Розглянемо випадок, коли закон розподілу F(t,α,β)з двома невідомими параметрами α, β . Нехай функція F(t,α,β) має безперервно диференційовану щільність, що приймає позитивні значення для будь-яких можливих значень параметрів α, β. Якщо випробування проводити за планом , r>>1, то момент появи - го відмови можна як емпіричну квантиль рівня , i=1,2… , - емпірична функціярозподілу. Якби t lі t r – моменти появи l-го та r-го відмов відомі точно, значення параметрів α і β можна було б знайти з рівнянь

та іншими).

Оцінка максимальної правдоподібності є популярним статистичним методом, який використовується для створення статистичної моделі на основі даних та забезпечення оцінки параметрів моделі.

Відповідає багатьом відомим методам оцінки у галузі статистики. Наприклад, припустимо, що ви зацікавлені зростанням українців. Припустимо, у вас дані зростання деякої кількості людей, а не всього населення. Крім того, передбачається, що зростання є нормально розподіленою величиною з невідомою дисперсією та середнім значенням. Середнє значення та дисперсія зростання вибірки є максимально правдоподібною до середнього значення та дисперсії всього населення.

Для фіксованого набору даних і базової ймовірнісної моделі, використовуючи метод максимальної правдоподібності, ми отримаємо значення параметрів моделі, які роблять дані «ближчими» до реальних. Оцінка максимальної правдоподібності дає унікальний та простий спосіб визначити рішення у разі нормального розподілу.

Метод оцінки максимальної правдоподібності застосовується для широкого кола статистичних моделей, в тому числі:

  • лінійні моделі та узагальнені лінійні моделі;
  • факторний аналіз;
  • моделювання структурних рівнянь;
  • багато ситуації, в рамках перевірки гіпотези та довірчого інтервалуформування;
  • дискретні моделі вибору

Сутність методу

називається оцінкою максимального правдоподібностіпараметра. Таким чином, оцінка максимальної правдоподібності - це така оцінка, яка максимізує функцію правдоподібності при фіксованій реалізації вибірки.

Часто замість функції правдоподібності використовують логарифмічну функцію правдоподібності. Так як функція монотонно зростає по всій області визначення, максимум будь-якої функції є максимумом функції , і навпаки. Таким чином

,

Якщо функція правдоподібності диференційована, то необхідна умова екстремуму - рівність нуля її градієнта:

Достатня умоваекстремуму може бути сформульовано як негативна визначеність гесіана - матриці других похідних:

Важливе значеннядля оцінки властивостей оцінок методу максимальної правдоподібності грає так звана інформаційна матриця, рівна за визначенням:

У оптимальній точці інформаційна матриця збігається з математичним очікуванням гесіана, взятим зі знаком мінус:

Властивості

  • Оцінки максимальної правдоподібності, взагалі кажучи, можуть бути зміщеними (див. приклади), але є заможними, асимптотично ефективними та асимптотично нормальнимиоцінками. Асимптотична нормальність означає, що

де - асимптотична інформаційна матриця

Асимптотична ефективність означає, що асимптотична ковараційна матриця є нижнім кордономдля всіх заможних асимптотично нормальних оцінок.

Приклади

Остання рівність може бути переписана у вигляді:

де , Звідки видно, що свого максимуму функція правдоподібності досягає в точці . Таким чином

. .

Щоб знайти її максимум, прирівняємо до нуля приватні похідні:

- вибіркове середнє, а - вибіркова дисперсія.

Умовний метод максимальної правдоподібності

Умовний метод максимальної правдоподібності (Conditional ML)використовується у регресійних моделях. Суть методу полягає в тому, що використовується не повне спільний розподілвсіх змінних (залежної та регресорів), а тільки умовнерозподіл залежної змінної за чинниками, тобто фактично розподіл випадкових помилок регресійної моделі. Повна функціяправдоподібності є твір « умовної функціїправдоподібності» та щільності розподілу факторів. Умовний ММП еквівалентний повному варіантіММП у тому випадку, коли розподіл факторів ніяк не залежить від параметрів, що оцінюються. Ця умова часто порушується в моделях часових рядів, наприклад в авторегресійній моделі. У даному випадку, регресорами є попередні значення залежної змінної, отже їх значення також підпорядковуються тієї ж AR-модели, тобто розподіл регресорів залежить від параметрів, що оцінюються. У таких випадках результати застосування умовного та повного методумаксимальної правдоподібності відрізнятимуться.

Див. також

Примітки

Література

  • Магнус Я.Р., Катишев П.К., Пересецький А.А.Економетрики. Початковий курс. – М.: Справа, 2007. – 504 с. - ISBN 978-5-7749-0473-0

Wikimedia Foundation. 2010 .

  • Маршак, Борис Ілліч
  • Порядок байтів

Дивитись що таке "Метод максимальної правдоподібності" в інших словниках:

    метод максимальної правдоподібності- метод максимальної правдоподібності У математичній статистиці метод оцінювання параметрів розподілу, заснований на максимізації так званої функції правдоподібності.

    МЕТОД МАКСИМАЛЬНОЇ ПРАВДОПОДІБИ- метод оцінки щодо вибірки невідомих параметрів функції розподілу F(s; α1,..., αs), де α1, ..., αs невідомі параметри. Якщо вибірка п спостережень розбита на r непересікаються груп s1, ..., sr; р1,..., pr… … Геологічна енциклопедія

    Метод максимальної правдоподібності- у математичній статистиці метод оцінювання параметрів розподілу, заснований на максимізації так званої функції правдоподібності (спільної щільності ймовірності спостережень при значеннях, що становлять… Економіко-математичний словник

    метод максимальної правдоподібності- Maximaliojo tikėtinumo metodas statusas T sritis automatika atitikmenys: angl. maximum likelihood method vok. Methode der maksimalen Mutmaßlichkeit, f rus. метод максимальної правдоподібності, m pranc. methode de maximum de vraisemblance, f;… … Automatikos terminų žodynas

    метод максимальної правдоподібності з частковим відгуком- Метод виявлення сигналів по Вітербі, за якого забезпечується мінімальний рівень міжсимвольних спотворень. Див тж. Viterbi algorithm. [Л.М. Невдяєв. Телекомунікаційні технології. Англо російська тлумачний словникдовідник. За редакцією Ю.М. Довідник технічного перекладача

    виявник послідовності, що використовує метод максимальної правдоподібності- Пристрій обчислення оцінки найбільш ймовірної послідовності символів, що максимізує функцію правдоподібності сигналу, що приймається. [Л.М. Невдяєв. Телекомунікаційні технології. Англо-російський тлумачний словник довідник. За редакцією Ю.М. Довідник технічного перекладача

    метод найбільшої правдоподібності- метод максимальної правдоподібності - [Л.Г.Суменко. Англо-російський словник з інформаційних технологій. М.: ДП ЦНДІС, 2003.] Тематики інформаційні технологіїв цілому Синоніми метод максимальної правдоподібності EN maximum likelihood method … Довідник технічного перекладача

    метод максимуму правдоподібності - Загальний методобчислення оцінок параметрів. Шукаються оцінки, які максимізують функцію правдоподібності вибірки, рівну добуткузначень функції розподілу кожному за спостереженого значення даних. Метод максимальної правдоподібності кращий… Словник соціологічної статистики

Відомий таксономіст Джо Фельзенштейн (Felsenstein, 1978) був першим, хто запропонував оцінювати філогенетичні теорії не на основі парсимо-

ні, а засобами математичної статистистики. В результаті було розроблено метод максимальної правдоподібності (maximum likelihood) .

Цей метод ґрунтується на попередніх знаннях про можливих шляхахеволюції, тобто вимагає створення моделі змін ознак перед проведенням аналізу. Саме для побудови цих моделей залучаються закони статистики.

Під правдоподібним розуміється можливість спостереження даних у разі прийняття певної моделі подій. Різні моделіможуть робити спостережувані дані більш менш ймовірними. Наприклад, якщо ви підкидаєте монету і отримуєте "орлів" тільки в одному випадку зі ста, тоді ви можете припустити, що ця монета бракована. У разі прийняття вами даної моделі правдоподібність отриманого результату буде досить високою. Якщо ж ви ґрунтуєтеся на моделі, згідно з якою монета є небракованою, то ви могли б очікувати побачити «орлів» у п'ятдесяти випадках, а не в одному. Отримати лише одного «орла» при ста підкиданні небракованої монети статистично малоймовірно. Іншими словами, правдоподібність отримання результату один «орел» на сто «решок» є в моделі небракованої монети дуже низьким.

Правдоподібність – це математична величина. Зазвичай воно обчислюється за такою формулою:

де Pr(D|H) – це можливість отримання даних D у разі прийняття гіпотези H . Вертикальна характеристика у формулі читається як «для цієї». Оскільки L часто виявляється невеликою величиною, то зазвичай у дослідженнях використовується натуральний логарифмправдоподібності.

Дуже важливо розрізняти ймовірність отримання даних, що спостерігаються, і ймовірність того, що прийнята модель подій правильна. Правдоподібність даних нічого не говорить про можливість моделі самої по собі. Філософ-біолог Е. Собер (Sober) використав наступний прикладдля того, щоб зробити ясним цю різницю. Уявіть, що ви чуєте сильний гомін у кімнаті над вами. Ви могли б припустити, що це викликано грою гномів у боулінг на горищі. Для даної моделі ваше спостереження (сильний шум над вами) має високу правдоподібність (якби гноми справді грали в боулінг над вами, ви майже напевно почули б це). Однак, ймовірність того, що ваша гіпотеза є істинною, тобто, що саме гноми викликали цей шум, – щось зовсім інше. Майже, напевно, це були не гноми. Отже, у цьому випадку ваша гіпотеза забезпечує наявним даним високу правдоподібність, але сама по собі в вищого ступенямалоймовірна.

Використовуючи цю системуМіркування, метод максимальної правдоподібності дозволяє статистично оцінювати філогенетичні дерева, отримані засобами традиційної кладистики. По суті, цей метод укладається.

ється в пошуку кладограми, що забезпечує найбільш високу ймовірність наявного набору даних.

Розглянемо приклад, що ілюструє застосування методу максимальної правдоподібності. Припустимо, що у нас є чотири таксони, для яких встановлені послідовності нуклеотидів певного сайту ДНК (рис.16).

Якщо модель передбачає можливість реверсій, ми можемо вкоренити це дерево у будь-якому вузлі. Одне із можливих кореневих дерев зображено на рис. 17.2.

Ми не знаємо, які нуклеотиди були присутні в розглянутому локусі у спільних предківтаксонів 1-4 (ці предки відповідають на кладограмі вузлам X та Y). Для кожного з цих вузлів існує по чотири варіанти нуклеотидів, які могли знаходитися там у предкових форм, що в результаті дає 16 філогенетичних сценаріїв, що призводять до дерева 2. Один з таких сценаріїв зображений на рис. 17.3.

Імовірність цього сценарію може бути визначена за формулою:

де P A – ймовірність присутності нуклеотиду A у корені дерева, що дорівнює середній частоті нуклеотиду А (загалом = 0,25); P AG - ймовірність заміни А на G; P AC – ймовірність заміни А С; P AT - ймовірність заміни А на T; останні два множники – це ймовірність дозрівання нуклеотиду T у вузлах X та Y відповідно.

Ще один можливий сценарій, який дозволяє отримати ті ж дані, показані на рис. 17.4. Оскільки існує 16 подібних сценаріїв, може бути визначена можливість кожного з них, а сума цих можливостей буде ймовірністю дерева, зображеного на рис. 17.2:

Де P tree 2 – це можливість спостереження даних у локусі, позначеному зірочкою, для дерева 2.

Імовірність спостереження всіх даних у всіх локусах даної послідовності є добутком ймовірностей для кожного локусу i від 1 до N:

Оскільки ці значення дуже малі, використовується й інший показник – натуральний логарифм правдоподібності lnL i для кожного локусу i. У цьому випадку логарифм правдоподібності дерева є сумою логарифмів правдоподібності для кожного локусу:

Значення lnL tree – це логарифм правдоподібності спостереження даних при виборі певної еволюційної моделі та дерева з характерною для нього

послідовністю розгалуження та довжиною гілок. Комп'ютерні програми, що застосовуються в методі максимальної правдоподібності (наприклад, вже згадуваний кладовий пакет PAUP), ведуть пошук дерева з максимальним показником lnL. Подвоєна різниця логарифмів правдоподібностей двох моделей 2Δ (де Δ = lnL tree A-lnL treeB) підпорядковується відомому статистичного розподілух 2 . Завдяки цьому можна оцінити, чи справді одна модель достовірно краща, ніж інша. Це робить спосіб максимальної правдоподібності сильним засобом тестування гіпотез.

У разі чотирьох таксонів потрібно обчислення lnL для 15 дерев. При великому числіТаксон оцінити всі дерева виявляється неможливим, тому для пошуку використовуються евристичні методи (див. вище).

У розглянутому прикладі ми використали значення ймовірностей заміни (субституції) нуклеотидів у процесі еволюції. Обчислення цих ймовірностей є самостійно статистичним завданням. Для того, щоб реконструювати еволюційне дерево, ми повинні зробити певні припущення щодо процесу субституції та висловити ці припущення у вигляді моделі.

У найпростішій моделі ймовірності заміни будь-якого нуклеотиду на будь-який інший нуклеотид визнаються рівними. Ця проста модельмає тільки один параметр - швидкість субституції та відома як однопараметрична модель Джукса - Кантора або JC (Jukes, Cantor, 1969). При використанні цієї моделі нам потрібно знати швидкість, з якою відбувається субституція нуклеотидів. Якщо ми знаємо, що в момент часу t= 0 в деякому сайті присутній нуклеотид G, то ми можемо обчислити ймовірність того, що в цьому сайті через деякий проміжок часу t нуклеотид G збережеться, і ймовірність того, що в цьому сайті відбудеться заміна на інший нуклеотид, наприклад, A. Ці ймовірності позначаються як P(gg) та P(ga) відповідно. Якщо швидкість субституції дорівнює деякому значенню α в одиницю часу, тоді

Оскільки відповідно до однопараметричної моделі будь-які субституції рівноймовірні, більш загальне твердження буде виглядати наступним чином:

Розроблено і складніші еволюційні моделі. Емпіричні спостереження свідчать, що деякі субституції можуть відбуватися

частіше, ніж інші. Субституції, у яких один пурин заміщується іншим пурином, називаються транзиціями,а заміни пурину піримідином або піримідину пурином називаються трансверсії.Можна було б очікувати, що трансверсії відбуваються частіше, ніж транзиції, оскільки лише одна з трьох можливих субституцій для будь-якого нуклеотиду є транзицією. Проте зазвичай відбувається зворотне: транзиції, як правило, відбуваються частіше, ніж трансверсії. Це, зокрема, характерно для мітохондріальної ДНК.

Іншою причиною того, що деякі субституції нуклеотидів відбуваються частіше за інші, є нерівне співвідношення підстав. Наприклад, мітохондріальна ДНК комах більш багата на аденін і тимін у порівнянні з хребетними. Якщо деякі підстави більш поширені, очікується, що деякі субституції відбуваються частіше, ніж інші. Наприклад, якщо послідовність містить дуже небагато гуаніну, малоймовірно, що відбуватимуться субституції цього нуклеотиду.

Моделі відрізняються тим, що в одних певний параметр або параметри (наприклад, співвідношення основ, швидкості субституції) залишаються фіксованими та варіюють в інших. Існують десятки еволюційних моделей. Нижче ми наведемо найвідоміші з них.

Вже згадана Модель Джукса – Кантора (JC) характеризується тим, що частоти основ однакові: π A = π C = π G = π T , трансверсії та транзиції мають однакові швидкості α=β, і всі субституції однаково ймовірні.

Двопараметрична модель Кімури (K2P) припускає рівні частотипідстав π A =π C =π G =π T , а трансверсії та транзиції мають різні швидкості α≠β.

Модель Фельзенштейну (F81) передбачає, що частоти основ різні π A ≠π C ≠π G ≠π T , а швидкості субституції однакові?

Загальна оборотна модель (REV) передбачає різні частоти основ π A ≠π C ≠π G ≠π T , а всі шість пар субституцій мають різні швидкості.

Згадані вище моделі мають на увазі, що швидкості субституції однакові у всіх сайтах. Однак у моделі можна врахувати і відмінності швидкостей субституції у різних сайтах. Значення частот основ та швидкостей субституції можна як призначити апріорно, так і отримати ці значення з даних за допомогою спеціальних програмнаприклад PAUP.

Байєсовський аналіз

Метод максимальної правдоподібності оцінює можливість філогенетичних моделей після того, як вони створені на основі наявних даних. Проте знання загальних закономірностейЕволюція цієї групи дозволяє створити серію найбільш ймовірних моделей філогенезу без залучення основних даних (наприклад, нуклеотидних послідовностей). Після того, як ці дані отримані, з'являється можливість оцінити відповідність між ними та заздалегідь побудованими моделями, та переглянути ймовірність цих вихідних моделей. Метод, який дозволяє це здійснити називається байєсівським аналізом , і є найновішим із методів вивчення філогенії (див. докладний огляд: Huelsenbeck та ін., 2001).

Відповідно до стандартної термінології, початкові ймовірності прийнято називати апріорними ймовірностями (оскільки вони приймаються перш, ніж отримані дані) а переглянуті ймовірності – апостеріорними (оскільки вони обчислюються після отримання даних).

Математичною основоюБайєсовського аналізу є теорема Байєса, в якій апріорна ймовірність дерева Pr[ Tree] та правдоподібність Pr[ Data|Tree] використовуються, щоб обчислити апостеріорну ймовірність дерева Pr[ Tree | Data]:

Апостеріорна ймовірність дерева може розглядатися як ймовірність того, що це дерево відбиває справжній перебіг еволюції. Дерево з найвищою апостеріорною ймовірністю вибирається як найбільш ймовірна модель філогенезу. Розподіл апостеріорних ймовірностей дерев обчислюється з допомогою методів комп'ютерного моделювання.

Метод максимальної правдоподібності та байєсівський аналіз потребують еволюційних моделей, що описують зміни ознак. створення математичних моделей морфологічної еволюціїв даний час неможливо. З цієї причини статистичні методиФілогенетичні аналізи застосовуються тільки для молекулярних даних.



Останні матеріали розділу:

Малі сторожові кораблі пр
Малі сторожові кораблі пр

Хоча радянське надводне кораблебудування почалося з будівництва сторожів (СКР) типу «Ураган», кораблям цього класу мало уваги приділялося...

Найбільші російські богатирі (16 фото) Чурила Пленкович - Богатир заїжджий
Найбільші російські богатирі (16 фото) Чурила Пленкович - Богатир заїжджий

Київ-град стояв на трьох горах і височів над усіма російськими містами. Словом, столиця. Великим та мудрим був київський князь Володимир. Його...

Новини модернізації крейсерів «Орлан
Новини модернізації крейсерів «Орлан

Тяжкий атомний ракетний крейсер (ТАРКР). У 1964 р. в СРСР розпочато дослідження можливості будівництва великого військового надводного...