Статистичні моделі є описом процесів. Статистичні моделі

Статистичне моделювання

чисельний спосіб розв'язання математичних завдань, у якому шукані величини представляють вероятностными характеристиками якогось випадкового явища, це явище моделюється, після чого необхідні показники приблизно визначають шляхом статистичної обробки «спостережень» моделі. Наприклад, потрібно розрахувати потоки тепла в тонкої металевій пластині, що нагрівається, на краях якої підтримується нульова температура. Розподіл тепла описується тим самим рівнянням, що і розпливання плями фарби у шарі рідини (див. Теплопровідність, Дифузія). Тому моделюють плоский Броунівський рух частинок «фарби» по пластині, стежачи за їх положеннями в моменти. kτ, k= 0, 1, 2,... Приблизно приймають, що за малий інтервал τ частка переміщується на крок hрівноймовірно у всіх напрямках. Щоразу напрямок вибирається випадковим чином, незалежно від попереднього. Співвідношення між τ та hвизначається коефіцієнтом теплопровідності. Рух починається в джерелі тепла і закінчується при першому досягненні краю (спостерігається налипання "фарби" на край). Потік Q (C) тепла через ділянку З кордону вимірюється кількістю фарби, що налипла. За загальної кількості Nчастинок згідно Великих чисел закон у така оцінка дає випадкову відносну помилку порядку h (через дискретність обраної моделі).

Шукану величину представляють математичним очікуванням числової функції fвід випадкового результату ω явища: , т. е. інтегралом імовірнісною мірою Р (див. міра множини). на оцінку , де ω 1 ,..., ω N -змодельовані наслідки, можна дивитися як на квадратурну формулу для зазначеного інтеграла з випадковими вузлами ω kта випадковою похибкою R N зазвичай приймають , вважаючи велику похибку дуже малоймовірною; Дисперсія Dfможе бути оцінена в ході спостережень (див. Помилка теорія).

У розібраному вище прикладі f(ω) = 1 , коли траєкторія закінчується С; інакше f(ω) = 0. Дисперсія

Проведення кожного «експерименту» розпадається на дві частини: «розіграш» випадкового результату і подальше обчислення функції f(В). Коли простір всіх результатів і ймовірнісна міра Р занадто складні, розіграш проводиться послідовно кілька етапів (див. приклад). Випадковий вибір на кожному етапі проводиться за допомогою випадкових чисел, наприклад, що генеруються яким-небудь фізичним датчиком; уживана також їх арифметична імітація - псевдовипадкові числа (див. Випадкові та псевдовипадкові числа). Аналогічні процедури випадкового вибору використовуються у математичній статистиці та теорії ігор.

С. м. широко застосовується для вирішення на ЕОМ інтегральних рівнянь, наприклад при дослідженні великих систем. Вони зручні своєю універсальністю, зазвичай, вимагають великого обсягу пам'яті. Недолік - великі випадкові похибки, що занадто повільно убувають при збільшенні кількості експериментів. Тому розроблені прийоми перетворення моделей, що дозволяють знижувати розкид величин і обсяг модельного експерименту.

Літ.:Метод статистичних випробувань (Метод Монте-Карло), М., 1962; Єрмаков С. М., Метод Монте-Карло та суміжні питання, М., 1971.

Н. Н. Ченцов.


Велика Радянська Енциклопедія. - М: Радянська енциклопедія. 1969-1978 .

Дивитись що таке "Статистичне моделювання" в інших словниках:

    Статистичне та економетричне моделювання дослідження об'єктів пізнання на їх статистичних моделях; побудова та вивчення моделей реально існуючих предметів, процесів чи явищ (наприклад: економічних процесів у… … Вікіпедія

    Статистичне моделювання- спосіб дослідження процесів поведінки імовірнісних систем за умов, коли невідомі внутрішні взаємодії у цих системах. Він полягає в машинній імітації досліджуваного процесу, який ніби копіюється на ... Економіко-математичний словник

    Метод прикладної та обчислювальної математики, що полягає у реалізації на ЕОМ спеціально розроблюваних стохастич. моделей досліджуваних явищ чи об'єктів. Розширення сфери застосування С. м. пов'язане зі швидким розвитком техніки і особливо… Математична енциклопедія

    Моделювання ситуацій з використанням статистичних закономірностей, властивих явищу, що розглядається. Словник бізнес термінів. Академік.ру. 2001 … Словник бізнес-термінів

    Моделювання дослідження об'єктів пізнання з їхньої моделях; побудова та вивчення моделей реально існуючих об'єктів, процесів чи явищ з метою одержання пояснень цих явищ, а також для передбачення явищ, що цікавлять… Вікіпедія

    МОДЕЛЮВАННЯ ІМІТАЦІЙНЕ в соціології- вид моделювання математичного, що у відтворенні на ЕОМ соціального процесу чи функціонування соціальної системи. Майже завжди передбачає відтворення випадкових факторів, що впливають на явище, що вивчається, і, як наслідок,… … Соціологія: Енциклопедія

    МОДЕЛЮВАННЯ, СТАТИСТИЧНЕ- розробка різноманітних моделей, що відображають статистичні закономірності об'єкта, що описується, явища. Загальною специфічною рисою цих моделей є облік випадкових збурень чи відхилень. Об'єктами С.М. є різні… Великий економічний словник

    МОДЕЛЮВАННЯ СТАТИСТИЧНЕ- уявлення чи опис деякого феномена чи системи взаємозв'язків між явищами у вигляді набору змінних (показників, ознак) і статистичних взаємозв'язків з-поміж них. Ціль М.С. (як і будь-якого іншого моделювання) уявити… Соціологія: Енциклопедія

    Для покращення цієї статті бажано?: Виправити статтю згідно з стилістичними правилами Вікіпедії. Імітаційне моделювання (ситуаційне … Вікіпедія

    ІМІТАЦІЙНЕ МОДЕЛЮВАННЯ- (...від франц. modele зразок) метод дослідження будь-яких явищ і процесів методом статистичних випробувань (метод Монте Карло) за допомогою ЕОМ. Метод заснований на розіграші (імітації) впливу випадкових факторів на явище, що вивчається, або… Енциклопедичний словник з психології та педагогіки

Книги

  • Статистичне моделювання. Методи Монте-Карло. Навчальний посібник для бакалаврату та магістратури, Михайлов Г.А.. Навчальний посібник присвячений особливостям моделювання випадкових величин, процесів та полів. Особлива увага приділяється чисельному інтегруванню, зокрема методу Монте-Карло. Дається рішення.

Ідея випадкового вибору.Перш ніж розпочати опис статистичних гіпотез, обговоримо ще раз поняття випадкового вибору.

Якщо опустити деталі та деякі (хоча і важливі) винятки, можна сказати, що весь статистичний аналіз ґрунтується на ідеї випадкового вибору.Ми приймаємо тезу, що дані з'явилися як результат випадкового вибору з деякої генеральної сукупності, нерідко - уявної. Зазвичай ми вважаємо, що цей випадковий вибір зроблено природою. Втім, у багатьох завданнях ця генеральна сукупність є цілком реальною, і вибір з неї зроблений активним спостерігачем.

Для стислості будемо говорити, що всі дані, які ми збираємося вивчити як єдине ціле, є одне спостереження.Природа цього збірного спостереження може бути різноманітною. Це може бути одне число, послідовність чисел, послідовність символів, числова таблиця тощо. Позначимо на якийсь час це збірне спостереження через х.Раз ми вважаємо хрезультатом випадкового вибору ми повинні вказати і ту генеральну сукупність, з якої хбув вибраний. Це означає, що ми маємо вказати ті значення, які могли б з'явитися замість реального х.Позначимо цю сукупність через X.Безліч Хназивають також вибірковим простором,або простором вибірок.

Ми припускаємо далі, що вказаний вибір відбувся відповідно до певного розподілу ймовірностей на безлічі X,згідно з яким кожен елемент з Хмає певні шанси бути обраним. Якщо Х -кінцева множина, то у кожного його елемента x; є позитивна ймовірність р(х) бути обраним. Випадковий вибір за таким ймовірним законом легко розуміти буквально. Для складніше влаштованих нескінченних множин Хдоводиться визначати ймовірність не для окремих його точок, а для підмножини. Випадковий вибір однієї з безлічі можливостей уявити важче, він схожий на вибір точки хз відрізка або просторової області X.

Співвідношення між спостереженням хта вибірковим простором X,між елементами якого розподілена ймовірність, - точно таке ж, як між елементарними наслідками та простором елементарних наслідків, з яким має справу теорія ймовірностей. Завдяки цьому теорія ймовірностей стає основою математичної статистики, і тому, зокрема, ми можемо застосовувати ймовірні міркування до завдання перевірки статистичних гіпотез.

Прагматичне правило.Ясно, що якщо ми прийняли імовірнісну точку зору на походження наших даних (тобто вважаємо, що вони отримані шляхом випадкового вибору), то всі подальші судження, засновані на цих даних, матимуть імовірнісний характер. Будь-яке твердження буде вірним лише з деякою ймовірністю, а з деякою позитивною ймовірністю воно може виявитися невірним. Чи корисні такі висновки, і чи можна взагалі на такому шляху отримати достовірні результати?



На ці питання слід відповісти позитивно. По-перше, знання ймовірностей подій корисне, оскільки в дослідника швидко виробляється імовірнісна інтуїція, що дозволяє йому оперувати ймовірностями, розподілами, математичними очікуваннями і т.п., витягуючи з цього користь. По-друге, і суто ймовірнісні результати можуть бути цілком переконливими: висновок можна вважати практично достовірним, якщо його ймовірність близька до одиниці.

Можна висловити таке прагматичне правило,яким керуються люди та яке поєднує теорію ймовірностей з нашою діяльністю.

Ми вважаємо практично достовірною подію, ймовірність якої близька до 1;

Ми вважаємо практично неможливою подію, ймовірність якої близька до 0.

І ми не тільки так думаємо, а й чинимо відповідно до цього!

Викладене прагматичне правило, у строгому сенсі, звичайно, неправильне, оскільки воно не захищає повністю від помилок. Але помилки при використанні будуть рідкісні. Правило корисне тим, що дозволяє практично застосовувати ймовірні висновки.

Іноді те правило висловлюють трохи інакше: в одноразовому випробуванні малоймовірна подія не відбувається(і навпаки - обов'язково відбувається подія, ймовірність якої близька до 1). Слово «одноразовий» вставлено задля уточнення, бо в досить довгій послідовності незалежних повторень досвіду згадана малоймовірна (в одному досвіді!) подія зустрінеться майже обов'язково. Але це вже зовсім інша ситуація.

Залишається ще не роз'ясненим, яку ймовірність слід вважати малою. На це питання не можна дати кількісної відповіді, придатної у всіх випадках. Відповідь залежить від того, якою небезпекою загрожує нам помилка. Досить часто - при перевірці статистичних гіпотез, наприклад, про що див. нижче - вважають малими ймовірності, починаючи з 0.01?0.05. Інша справа – надійність технічних пристроїв, наприклад, гальм автомобіля. Тут неприпустимо великою буде ймовірність відмови, скажімо, 0.001, оскільки вихід з ладу гальм один раз на тисячу гальмування спричинить велику кількість аварій. Тому при розрахунках надійності нерідко вимагають, щоб ймовірність безвідмовної роботи була б 1-10 -6 . Ми не обговорюватимемо тут, наскільки реалістичними є подібні вимоги: чи може забезпечити таку точність у розрахунку ймовірності неминуче наближена математична модель і як потім зіставити розрахункові та реальні результати.

Попередження. 1. Слід дати кілька порад, як треба будувати статистичні моделі, причому найчастіше у завданнях, які мають явного статистичного характеру. Для цього треба властиві риси, що обговорюється проблемі, висловити в термінах, що належать до вибіркового простору і розподілу ймовірностей. На жаль, загалом цей процес описати неможливо. Більше того, цей процес є творчим, і його неможливо завчитияк, скажімо, таблицю множення. Але йому можна навчитися,вивчаючи зразки та приклади та дотримуючись їх духу. Ми розберемо кілька прикладів. Надалі ми також приділятимемо особливу увагу цій стадії статистичних досліджень.

2. При формалізації реальних завдань можуть бути дуже різноманітні статистичні моделі. Проте математичною теорією підготовлено кошти на дослідження лише обмеженого числа моделей. Для ряду типових моделей теорія розроблена дуже докладно, і там можна отримати відповіді на основні питання, що цікавлять дослідника. Деяку частину таких стандартних моделей, з якими практично доводиться мати справу найчастіше, ми обговоримо у цій книзі. Інші можна знайти у більш спеціальних та докладних посібниках та довідниках.

3. Про обмеженість математичних засобів слід пам'ятати і за математичної формалізації експерименту. Якщо можливо, треба звести справу до типового статистичного завдання. Ці міркування особливо важливі при плануванніексперименту чи дослідження; при збиранні інформації, якщо йдеться про статистичне обстеження; при постановці дослідів, якщо ми говоримо про активний експеримент.

З кн.: Плавінський С.Л. Біостатистика.Планування, обробка та подання результатів біомедичних досліджень за допомогою системиSAS. СПб: Видавничий дім СПб МАПО.- 2005

Під час проведення будь-якого наукового дослідження достовірності висновків загрожують три основні причини:

1. Систематичні помилки

2. Випадкові помилки

3. Вплив третіх змінних (конфаундінг)

Вплив систематичних помилок мінімізується на етапі вибору дизайну дослідження, статистична обробка, спрямована на тестування статистичних гіпотез, намагається усунути вплив випадкових помилок (мінімізація випадкових помилок - відповідний обсяг вибірки), а ось спроба опису впливу третіх змінних часто є причиною для роботи зі статистичними моделями.

Статистичні моделі побудовані на тому, що спочатку робиться припущення про характер зв'язків між аналізованими змінними, потім перевіряється відповідність даних моделі та залежно від ступеня цієї відповідності робляться певні висновки.

Найпростішою формою статистичної моделі є лінійна регресія. При її використанні робиться припущення про те, що два показники пов'язані один з одним лінійно і саме ця гіпотеза і перевіряється (крім того, робиться припущення про те, що одна змінна залежить від іншої). Таким чином, статистичні моделі базуються на двох типах припущень - як і методи тестування статистичних гіпотез вони припускають, що дані розподілені певним чином (найчастіше за нормальним законом розподілу), і на додаток до цього робиться припущення про характер зв'язку. Тому зробити помилку при використанні статистичних моделей вдвічі легше і вони зазвичай розглядаються як інструментарій, що вимагає додаткової підготовки в галузі статистики.

Так само, як і у випадку з тестуванням гіпотез, для простоти розуміння нам слід розглянути окремо моделі для якісних та кількісних змінних. Хоча медичні дослідники зараз частіше працюють із якісними показниками, статистичні моделі краще розроблені для кількісних змінних.

У принципі можливі такі варіанти, у яких ми можемо захотіти використовувати статистичні моделі:

1. Залежна змінна кількісна, незалежні змінні теж кількісні – основний тип моделі – множинна (лінійна) регресія

2. Залежна змінна кількісна, незалежні змінні якісні – основний тип моделі – багатофакторний дисперсійний аналіз

3. Залежна змінна кількісна, незалежні змінні як кількісні, так і якісні – основний тип моделі – загальна лінійна модель

4. Залежна змінна якісна, незалежні змінні теж якісні – основний тип моделі – логлінійний аналіз

5. Залежна змінна якісна, незалежні кількісні змінні - основний тип моделі - дискримінантний аналіз

6. Залежна змінна якісна, незалежні змінні як якісні, і кількісні - основний тип моделі - логістична регресія.

Як видно з наведеного вище списку, загалом існують дві найбільш загальні процедури – загальна лінійна модель для залежних кількісних змінних та логістична регресія для залежних якісних змінних, а всі інші моделі є окремими випадками цих двох.

Для ряду додатків, наприклад аналізу виживання пацієнтів у проспективному дослідженні, описані вище методики виявились недостатньо прийнятними, оскільки в цьому випадку є більше однієї залежної змінної (одна – що сталося з пацієнтом, друга – коли це сталося). Тому для аналізу виживання були розроблені спеціальні форми статистичних моделей, найбільш відомими з них є параметричні регресійні методи (Вейбулла) та непараметричні регресійні моделі (модель Коксу).

Існують ще спеціальні форми статистичних моделей, які намагаються знайти приховані зв'язки між включеними до аналізу змінними та спостереженнями. Ці методики прийшли в біостатистику з психометрії і до них належать:

1. Факторний аналіз - методика виявлення неспостережуваних безпосередньо факторів, які відповідають за зв'язки між кількісними змінними

2. Кластерний аналіз - методика об'єднання спостережень чи змінних у групи виходячи з " однаковості " виміряних кількісних характеристик

3. Кореспондентський аналіз – аналог факторного аналізу для багатовимірних таблиць

4. Багатовимірне шкалювання - методика, яка намагається розмістити змінні один щодо одного в просторі меншої розмірності (створити аналог географічної карти)

Останнім часом, у зв'язку з переходом у зберіганні даних на комп'ютерні носії і, у зв'язку з цим, з різким збільшенням даних, що рутинно збираються, з'явилися нові статистичні моделі, спрямовані на виявлення закономірностей у великих і поганоструктурованих базах даних. До них відносяться:

1. Деревоподібне моделювання (regression trees) – методика сегментування даних, знаходження точок, які найкраще поділяють спостереження на групи залежно від значення підсумкової змінної (наприклад, визначення групи ризику лікарняної летальності залежно від великого набору біохімічних показників, виміряних при госпіталізації)

2. Нейросетевое моделювання (neural networks) - методика визначення зв'язків між набором вхідних параметрів і залежною змінною, яка робить припущень про справжню форму цих зв'язків (як, наприклад, лінійна регресія). Для статистиків нейромережеве моделювання – це множинна нелінійна регресія. Програми нейромережевого моделювання формують структуру, яка, працюючи за принципом "чорної скриньки", може досить точно передбачити вихідні параметри на підставі набору вхідних величин.

Слід зазначити, що це методики, особливо нейромережевого моделювання, знайшли широке застосування у технічних додатках. Системи машинного бачення, оптичного розпізнавання символів, біометричні системи безпеки, майже всі вони використовують алгоритми нейромережевого моделювання. Однак у медичних дослідженнях використання цих методів після короткого періоду захоплення широко не поширилося. Причиною є необхідність наявності величезних масивів даних якщо є бажання отримати реальну, працюючу модель. Зазвичай для нейромережевої та деревоподібної моделей потрібні тисячі спостережень, причому спостереження мають бути досить гомогенними. У разі невеликих груп часто виникає т.зв. Припасування моделі під дані (overfitting), коли модель чудово описує даний набір результатів, але абсолютно не застосовується на людом іншому наборі даних.

Дуже легко уявити, чому це відбувається. Нейромережеве моделювання базується на спробі розділити дані на групи за умови наявності великої кількості вхідних параметрів. Припустимо, що ми хочемо навчити комп'ютер відрізняти чоловіків від жінок, і представляємо йому групу, яка складається з викладача біостатистики та трьох аспіранток. Тоді, проаналізувавши дані, комп'ютер легко знайде правило, що диференціює чоловіків і жінок: якщо викладач, то він чоловік. У цій групі поділ буде кращим, ніж за будь-якими іншими параметрами, такими як тембр голосу, охоплення талії та стегон, довжина волосся тощо. Однак, чи буде подібний результат генералізуємо?

Саме через залежність від великої кількості спостережень, методи нейромережевого та деревоподібного моделювання не знаходять великого поширення в медичній наукі, а враховуючи той сумний факт, що вітчизняна наука останнім часом взагалі воліє працювати з невеликими вибірками, до широкого застосування їх ще можна чекати досить довго. (Можливо, ситуація зміниться з повсюдним впровадженням комп'ютеризованих регістрів захворювань, наприклад ракових регістрів).

Допущення, втілені у статистичному моделюванні, описують набір ймовірнісних розподілів, деякі з яких, як передбачається, адекватно наближають розподіл. З визначення відбирається конкретний набір даних. Розподіли ймовірностей, властиві статистичного моделювання, - те, що відрізняє статистичні моделі з інших, не статистичних, математичних моделей.

Зв'язок із математикою

Цей науковий метод коріниться насамперед у математиці. Статистичне моделювання систем зазвичай визначається математичними рівняннями, які пов'язують одну або кілька випадкових величин і, можливо, інших невипадкових змінних. Отже, статистична модель є «формальним поданням теорії» (Герман Адер, цитуючи Кеннета Боллена).

Усі статистичні перевірки гіпотез та всі статистичні оцінки отримані зі статистичних моделей. У загальному сенсі, статистичні моделі є частиною основи статистичного висновку.

Методи статистичного моделювання

Неформально статистична модель може розглядатися як статистичне припущення (або набір статистичних припущень) із певною властивістю: це припущення дозволяє нам обчислювати ймовірність будь-якої події. Як приклад, розглянемо пару звичайних шестигранних кубиків. Ми будемо вивчати два різні статистичні припущення про кістку.

Перше статистичне припущення становить статистичну модель, оскільки лише з одним припущенням ми можемо обчислити ймовірність будь-якої події. Альтернативне статистичне припущення не становить статистичної моделі, тому що тільки з одним припущенням ми не можемо розрахувати ймовірність кожної події.

У наведеному вище прикладі з першим припущенням обчислити ймовірність події легко. Однак у деяких інших прикладах розрахунок може бути складним або навіть непрактичним (наприклад, це може вимагати мільйонів обчислень). Для припущення, що становить статистичну модель, така складність є прийнятною: виконання обчислення повинно бути практично здійсненним, просто теоретично можливим.

Приклади моделей

Припустимо, що маємо населення школярів з рівномірно розподіленими за віком дітьми. Зростання дитини буде стохастично пов'язане з віком: наприклад, коли ми знаємо, що дитині 7 років, це впливає на ймовірність того, що дитина буде ростом 5 футів (приблизно 152 см). Ми могли б формалізувати цей взаємозв'язок у моделі лінійної регресії, наприклад: ріст = b0 + b1agei + εi, де b0 – перетин, b1 – параметр, на який множиться вік при отриманні прогнозу зростання, εi – термін помилки. Це має на увазі, що зростання передбачається віком з деякою помилкою.

Допустима модель повинна відповідати всім точкам даних. Таким чином, пряма лінія (heighti = b0 + b1agei) не може бути рівнянням для моделі даних - якщо вона точно не відповідає всім точкам даних, тобто всі точки даних ідеально лежать на лінії. Член помилки εi має бути включений у рівняння, щоб модель відповідала всім точкам даних.

Щоб зробити статистичний висновок, нам спочатку необхідно прийняти деякі ймовірні розподіли для εi. Наприклад, ми можемо припустити, що розподіли εi є гауссівськими, з нульовим середнім параметром. У цьому випадку модель матиме 3 параметри: b0, b1 та дисперсію розподілу Гаусса.

Загальний опис

Це особливий клас математичної моделі. Що відрізняє статистичну модель від інших математичних моделей, то це те, що вона недетермінована. З її допомогою здійснюється моделювання статистичних даних. Таким чином, у статистичній моделі, визначеній за допомогою математичних рівнянь, деякі змінні не мають конкретних значень, а натомість мають розподіл ймовірностей; тобто деякі змінні є стохастичними. У наведеному вище прикладі є стохастичної змінної; без цієї змінної модель була б детермінованою.

Статистичні моделі часто використовуються в статистичному аналізі та моделюванні, навіть якщо фізичний процес, що моделюється, є детермінованим. Наприклад, підкидання монет у принципі є детермінованим процесом; все ж таки це зазвичай моделюється як стохастичний (через процес Бернуллі).

Параметричні моделі

Є найчастіше використовуваними статистичними моделями. Що стосується напівпараметричних та непараметричних моделей, сер Девід Кокс сказав: «Як правило, вони включають менше припущень про структуру та форму розподілу, але зазвичай містять сильні припущення про незалежність». Як і всі інші згадані моделі, часто використовуються в статистичному методі математичного моделювання.

Багаторівневі моделі

Багаторівневі моделі (так само відомі як ієрархічні лінійні моделі, моделі з вкладеними даними, змішані моделі, випадкові коефіцієнти, моделі з випадковими ефектами, моделі з випадковими параметрами або моделі з поділом на ділянки) є статистичними моделями параметрів, які варіюються на більш ніж одному рівні. Прикладом може бути модель успішності учнів, що містить показники окремих учнів, і навіть показники для класних кімнат, у яких згруповані студенти. Ці моделі можна як узагальнення лінійних моделей (зокрема, лінійної регресії), хоча вони також можуть поширюватися на нелінійні моделі. Ці моделі стали набагато популярнішими після того, як стали доступні достатні обчислювальні потужності та програмне забезпечення.

Багаторівневі моделі особливо підходять для дослідницьких проектів, де дані для учасників організовані більш ніж на одному рівні (тобто вкладені дані). Одиницями аналізу зазвичай є окремі особи (на нижчому рівні), які вкладені у контекстні/сукупні одиниці (на вищому рівні). У той час як найнижчий рівень даних у багаторівневих моделях, як правило, індивідуальний, повторні виміри окремих осіб також можуть бути розглянуті. Таким чином, багаторівневі моделі надають альтернативний тип аналізу одномірного або багатовимірного аналізу повторних вимірювань. Індивідуальні відмінності в кривих зростання можна розглядати. Крім того, багаторівневі моделі можуть використовуватися як альтернатива ANCOVA, де бали за залежною змінною коригуються для коваріат (наприклад, індивідуальних відмінностей) перед тестуванням відмінностей у лікуванні. Багаторівневі моделі здатні аналізувати ці експерименти без припущення про однорідність нахилів регресії, що потрібна ANCOVA.

Багаторівневі моделі можна використовувати для даних з багатьма рівнями, хоча дворівневі моделі є найпоширенішими, і решта цієї статті присвячена лише цим. Залежна змінна має бути досліджена на найнижчому рівні аналізу.

Вибір моделі

Вибір моделі - це завдання вибору набору моделей-кандидатів з урахуванням даних, що здійснюється в рамках статистичного моделювання. У найпростіших випадках розглядається вже наявний набір даних. Тим не менш, завдання може також включати планування експериментів таким чином, щоб зібрані дані добре підходили для завдання вибору моделі. Враховуючи моделі-кандидати з аналогічною передбачувальною чи пояснювальною силою, найпростіша модель, швидше за все, буде найкращим вибором (бритва Оккама).

Представники компанії Konishi & Kitagawa заявляють: "Більшість проблем статистичного висновку можна вважати проблемами, пов'язаними зі статистичним моделюванням". Аналогічно Кокс сказав: «Як здійснюється переведення предметної проблеми в статистичну модель, часто є найбільш важливою частиною аналізу».

Вибір моделі може також ставитися до проблеми вибору кількох репрезентативних моделей з великого набору обчислювальних моделей для прийняття рішень або оптимізації в умовах невизначеності.

Графічні моделі

Графічна модель, або імовірнісна графічна модель (PGM) або структурована імовірнісна модель, - це імовірнісна модель, для якої графік висловлює структуру умовної залежності між випадковими величинами. Вони зазвичай використовуються в теорії ймовірностей, статистиці (особливо в байєсівській статистиці), та в машинному навчанні.

Економетричні моделі

Економетричні моделі – це статистичні моделі, що використовуються в економетриці. Економетрична модель визначає статистичні відносини, які, як вважають, існують між різними економічними величинами, що належать до конкретного економічного явища. Економетрична модель може бути отримана з детермінованої економічної моделі, що враховує невизначеність, або з економічної моделі, яка є стохастичною. Проте також можна використовувати економетричні моделі, які не прив'язані до будь-якої конкретної економічної теорії.

Математична статистика - розділ прикладної математики, що безпосередньо примикає і заснований на теорії ймовірностей. Як і будь-яка математична теорія, математична статистика розвивається у межах певної моделі, що описує певне коло реальних явищ. Щоб визначити статистичну модель та пояснити специфіку задач математичної статистики, нагадаємо деякі положення з теорії ймовірностей.

Математична модель випадкових явищ, що вивчаються в теорії ймовірностей, ґрунтується на понятті імовірнісного простору. При цьому в кожній конкретній ситуації ймовірність вважається повністю відомою числовою функцією на алгебрі, тобто для будь-якого повністю визначено число. Основним завданням теорії ймовірностей є розробка методів знаходження ймовірностей різних складних подій за відомими ймовірностями більш простих (наприклад, за відомими законами розподілу випадкових величин визначаються їх числові характеристики та закони розподілу функцій від випадкових величин).

Проте на практиці щодо конкретного випадкового експерименту ймовірність , як правило, невідома або відома частково. Можна лише припустити, що справжня ймовірність є елементом певного класу ймовірностей (в гіршому випадку - Клас різноманітних ймовірностей, які можна задати на ). Клас називають сукупністю допустимих для опису даного експерименту ймовірностей, а набір - статистичною моделлю експерименту. У загальному випадку завданням математичної статистики є уточнення імовірнісної моделі досліджуваного випадкового явища (тобто відшукання істинної або близької до неї ймовірності), використовуючи інформацію, що доставляється спостерігаються результатами експерименту, які називають статистичними даними.

У класичній математичній статистиці, вивченням якої ми займатимемося далі, мають справу з випадковими експериментами, які перебувають у проведенні nповторних незалежних спостережень над деякою випадковою величиною , має невідомий розподіл ймовірностей, тобто. невідому функцію розподілу. У цьому випадку безліч всіх можливих значень випадкової величини, що спостерігаються, називають генеральною сукупністю , що має функцію розподілу або розподіленої відповідно до . Числа , що є результатом незалежних спостережень над випадковою величиною вибіркою з генеральної сукупності або вибірковими (статистичними) даними. Число спостережень називається обсягом вибірки.

Основне завдання математичної статистики полягає в тому, як за вибіркою з генеральної сукупності, витягуючи з неї максимум інформації, зробити обґрунтовані висновки щодо невідомих імовірнісних характеристик випадкової величини, що спостерігається.

Під статистичною моделлю, що відповідає повторним незалежним спостереженням над випадковою величиною, природно, замість розуміти набір, де - генеральна сукупність, - алгебра борелевських підмножин з, - клас допустимих функцій розподілу для даної випадкової величини, якому належить і справжня невідома функція розподілу.

Часто трійку називають статистичним експериментом.

Якщо функції розподілу із задані з точністю до значень деякого параметра, тобто (-параметричне безліч), то така модель називається параметричною . Кажуть, що у цьому випадку відомий тип розподілу випадкової величини, що спостерігається, а невідомий тільки параметр, від якого розподіл залежить. Параметр може бути як скалярним, і векторним.

Статистична модель називається безперервний або дискретний , якщо такими є всі складові класу функції розподілу відповідно.

Приклад 1. Припустимо, що розподіл випадкової величини, що спостерігається, є гауссовським з відомою дисперсією і невідомим математичним очікуванням .

У цьому випадку статистична модель є безперервною і має вигляд:

Якщо дисперсія невідома, то статистична модель має вигляд:

а функція розподілу має густину ймовірностей

Це так звана загальна нормальна модель, що позначається .

Приклад 2. Припустимо, що розподіл випадкової величини, що спостерігається, є пуассонівським з невідомим параметром . У цьому випадку статистична модель є дискретною і має вигляд: випадковими величинами (при цьому кажуть, що випадкові величини - копії ), і який ще не прийняв конкретного значення в результаті експерименту. Перехід від вибірки конкретної до вибірці випадкової буде неодноразово використовуватися далі під час вирішення теоретичних питань і завдань отримання висновків, справедливих будь-якої вибірки з генеральної сукупності.

Основні завдання, що розглядаються в математичній статистиці, можна розбити на дві великі групи:

1. Завдання, пов'язані з визначенням невідомого закону розподілу випадкової величини, що спостерігається, і параметрів до нього вхідних (вони розглядаються в рамках статистичної теорії оцінювання).

2. Завдання, пов'язані з перевіркою гіпотез щодо закону розподілу випадкової величини, що спостерігається (вирішуються в рамках теорії перевірки статистичних гіпотез).



Останні матеріали розділу:

Лєсков зачарований мандрівник короткий зміст
Лєсков зачарований мандрівник короткий зміст

«Зачарований мандрівник» – повість Миколи Семеновича Лєскова, що складається з двадцяти глав і створена ним у 1872-1873 роках. Написана простим...

Сліпий музикант, короленко Володимир Галактіонович
Сліпий музикант, короленко Володимир Галактіонович

Назва твору: Сліпий музикант Рік написання: 1886 Жанр: повістьГоловні герої: Петро - сліпий хлопчик, Максим - дядько Петра, Евеліна -...

Викриття суспільних та людських вад у байках І
Викриття суспільних та людських вад у байках І

Даний матеріал є методичною розробкою на тему "Марні пороки суспільства"(за казкою М.Є. Салтикова-Щедріна "Повість про те, що...