Поняття оперантне обумовлення ввів у наукову психологію. Оперантне обумовлення

У класичному зумовленні умовна реакціячасто нагадує нормальну реакцію на безумовний стимул. Слиновиділення, наприклад, - нормальна реакціясобаки на їжу. Але якщо ви хочете навчити організм чогось нового, наприклад навчити собаку новому трюку, класичне обумовлення вам не допоможе. Який безумовний стимул змусить собаку сидіти чи перекочуватися? Щоб навчити собаку, вам доведеться спочатку переконати її зробити потрібний трюк, а потім винагородити її похвалою або їжею. Якщо так робити, собака з часом навчиться цьому трюку.

Багато з поведінки в реального життясхоже на це: реакції навчаються тому, що вони діють, або впливають на оточення. Такий тип навчання, званий оперантним обумовленням, властивий і людині, і тваринам. Залишений один у ліжечку, дитина може спонтанно брикатися, крутитися або клопотати. Собака, залишившись один у кімнаті, може метатися туди-сюди, щось винюхувати, може підібрати м'ячик, впустити його або пограти з ним. Жоден організм не реагує появу чи зникнення конкретного зовнішнього стимулу. Усі вони впливають на своє оточення. Але якщо організм уже здійснює певна поведінка, Імовірність того, що він повторить цю дію, залежить від того, що слідує за останнім. Дитина частіше клопотатиме, якщо за кожною такою дією слід батьківська увага, і собака частіше підніматиме м'ячик, якщо за цим слідує ласка або винагорода їжею. Якщо вважати, що дитина має на меті викликати батьківську увагу, а у собаки мета - їжа, то оперантне обумовлення зводиться до навчання тому, що певна поведінка веде до досягнення певної мети(Rescorla, 1987).

Закон ефекту

Вивчення оперантного обумовлення почалося межі ХХ століття з низки експериментів Торндайка (Е. L. Thorndike, 1898). Торндайк, якого сильно вплинула дарвінівська теорія еволюції, прагнув показати, що в тварин невідривно від навчання в людини. Типовий експеримент проходив так. Голодного кота садили в клітку, дверцята якої були зачинені на просту засувку, а зовсім поряд із кліткою клали шматочок риби. Спочатку кіт намагався дістатися риби, простягаючи лапи між прутів. Коли це не виходило, кітпереміщався по клітці, роблячи самі різні дії. Якоїсь миті він випадково зачіпав засувку, виходив на волю і з'їдав рибу. Потім кота садили назад у клітку і кидали зовні новий шматочок риби. Кіт робив приблизно ту ж послідовність дій, поки йому знову не вдавалося відкрити засувку. Ця процедура повторювалася знову і знову. Продовжуючи проби, кіт відкидав багато хто марні діїпоступово досягаючи вдалого відкривання засувки і виходу на волю, як тільки його поміщали в клітину. Цей кіт навчився відкривати засувку, щоби отримати їжу.

Все це виглядає так, ніби кіт діє розумно, але Торндайк стверджував, що тут є мало «інтелекту». За весь час не було такого моменту, щоб у кота з'явився здогад про вирішення цього завдання. Натомість досягнення кота поступово покращувалися з продовженням проб. Кіт не здогадується, а просто веде себе на кшталт спроб і помилок, і коли після здійснення якоїсь дії негайно слідує винагорода, навчання цієї дії закріплюється. Це закріплення Торндайк називав законом ефекту. Він стверджував, що при оперантному навчанні через закон ефекту з набору випадкових реакцій вибирається та, за якою йдуть позитивні наслідки. Цей процес подібний до еволюції, в якій закон виживання самого пристосованого вибирає з набору випадкових варіацій виду саме ті зміни, які сприяють виживанню цього виду. Закон ефекту, таким чином, проголошує виживання найпристосованіших реакцій(Schwartz, 1989).

Експерименти Скіннера

Б. Ф. Скиннер - винуватець цілого ряду змін у уявленнях про те, що таке оперантне обумовлення та як його вивчати. Його метод дослідження оперантного обумовлення був простішим, ніж у Торндайка (наприклад, використовувалася лише одна реакція), і став широко прийнятим.

< Рис. Б. Ф. Скиннер явился основоположником изучения оперантного обуславливания.>

Варіація експерименту. В експерименті Скіннера голодну тварину (зазвичай щура або голуба) поміщають у ящик, подібний до зображеного на рис. 7.6, з популярною назвою «ящик Скіннера».

Рис. 7.6. Пристрій для оперантного обумовлення.На фото показано ящик Скіннера з касетою для подачі харчових кульок. Комп'ютер використовується для управління експериментом та реєстрації реакцій щура.

Ящик усередині порожній, якщо не брати до уваги виступаючого важеля, під яким стоїть тарілка для їжі. Невелика лампочка над важелем може включатися на розсуд експериментатора. Залишена одна в ящику, щур пересувається і досліджує його. Випадково вона виявляє важіль та натискає на нього. Частота, з якою щур спочатку натискає на важіль, – фоновий рівень. Після встановлення фонового рівня експериментатор запускає касету з їжею, розташовану зовні ящика. Тепер щоразу, коли щур натискає на важіль, невелика кулька їжі випадає у тарілку. Пацюк з'їдає його і незабаром знову натискає на важіль; їжа підкріплює натискання на важіль, і частота натискань стрімко зростає. Якщо касету з їжею від'єднати, так що при натисканні на важіль їжа більше не подається, частота натискань зменшуватиметься. Отже, оперантно обумовлена реакція (або просто операнта) при непідкріпленні згасає так само, як і класично обумовлена реакція. Експериментатор може встановити критерій диференціювання, подаючи їжу тільки тоді, коли щур натискає на важіль при лампочці, що горить, і тим самим виробляючи умовну реакцію у щура шляхом вибіркового підкріплення. У цьому прикладі світло служить диференціювальним стимулом, який контролює реакцію.

Отже, оперантне обумовлення підвищує ймовірність деякої реакції, коли певна поведінка супроводжується підкріпленням (зазвичай як їжі чи води). Оскільки в ящику Скіннера важіль є завжди, щур може натискати на нього так часто або не часто, як сам вибере. Таким чином, частота реакції служить зручною мірою сили операнти: чим частіше відбувається реакція за даний часовий інтервал, тим більша її сила.

Слід зазначити ставлення між термінами «винагороду» і «покарання», з одного боку, і «позитивне» і «негативне підкріплення», з іншого. Термін «винагорода» може використовуватися синонімічно з терміном «позитивний підкріплюючий фактор» - подія, яка збільшує ймовірність тієї чи іншої форми поведінки, якщо вона слідує за цією формою поведінки. Однак покарання - це не те ж саме, що негативний фактор, що підкріплює. Термін "негативне підкріплення" означає припинення настання небажаних подій, що йдуть за тією чи іншою формою поведінки; як і позитивне підкріплення, воно збільшує ймовірність відповідної форми поведінки. Покарання має протилежний ефект: воно зменшує ймовірність караної поведінки. Покарання може бути як позитивним (вплив неприємного стимулу), і негативним (позбавлення позитивного стимулу) (див. табл. 7.3).

Таблиця 7.3. Типи підкріплення та покарання

Тип	Визначення	Ефект	приклад
Позитивне підкріплення	Приємний стимул, який слідує за бажаною формою поведінки		Висока оцінка на іспиті
Негативне підкріплення	Припинення впливу неприємного стимулу за бажаною формою поведінки	Збільшує ймовірність бажаної форми поведінки	Дозвіл дитині піти погуляти після того, як вона припинила істерику
Позитивне покарання	Вплив неприємного стимулу за небажаною формою поведінки		Низька оцінка на іспиті
Негативне покарання	Припинення впливу приємного стимулу за небажаною формою поведінки	Зменшує ймовірність небажаної форми поведінки	Заборона дивитися телевізор дитині, яка погано поводиться

Застосування до дітей. Хоча в оперантному обумовленні улюбленими експериментальними тваринами були щури та голуби, воно застосовується до багатьох біологічних видів, включаючи нас самих. Справді, воно може багато сказати нам про виховання дітей. Особливо яскравим прикладом цього є такий випадок. У маленького хлопчика були спалахи гнівного роздратування, якщо він не отримував достатньої уваги від батьків, особливо перед сном. Оскільки батьки рано чи пізно відгукувалися, виявлена ними увага підкріплювала гнів дитини. Щоб зняти цю гнівну дратівливість, батькам порадили виконувати звичайний ритуал укладання спати, а потім ігнорувати протести дитини, хоча це може бути болісно. При утриманні від підкріплення (приділення уваги) спалахи гніву мають згасати; саме це й сталося. Усього за 7 днів час, протягом якого ця дитина плакала в ліжку, скоротився з 45 хвилин до нуля(Williams, 1959).

< Рис. Склонность детей к истерикам можно ослабить, если их поведение не подкреплять родительским вниманием.>

Ще одне застосування оперантного зумовлення виховання дітей стосується тимчасового співвідношення між реакцією та її підкріпленням. Лабораторні експериментипоказали, що негайне підкріплення ефективніше, ніж затримане; чим більше часу проходить між оперантною реакцією та підкріпленням, тим менша сила реакції. Багато фахівців із психології розвитку зазначали, що затримка підкріплення - важливий фактордогляду за маленькими дітьми. Якщо дитина по-доброму ставиться до домашньої тварини, її дії найкраще можна закріпити винагородою (похвалою, наприклад) негайно, не відкладаючи це потім. Подібним чином, якщо дитина б'є когось без провокації на свою адресу, то таке агресивна поведінкабуде виключено з більшою ймовірністю, якщо покарати його негайно, не відкладаючи на потім.

Формування.Припустимо, ви хочете використовувати оперантне обумовлення, щоб навчити вашу собаку трюку - наприклад, натискати носом на дзвінок. Ви не можете чекати, поки собака зробить це сама собою (і тоді підкріпити це), оскільки чекати можна вічно. Якщо потрібна поведінка дійсно нова, ви повинні зумовити її, використовуючи перевагу природних варіацій у діях тварини. Щоб навчити собаку натискати дзвінок носом, можна давати їй харчове підкріплення щоразу, коли він наближається до зони дзвінка, змушуючи її з кожним підкріпленням підходити ближче і ближче до потрібного місця, поки нарешті ніс собаки не торкнеться дзвінка. Така техніка, коли підкріплюються ті відхилення у реакціях, які потрібні експериментатору, називається формуванням поведінки тварини.

Застосовуючи метод формування, тварин можна навчити відпрацьовувати трюки та послідовності дій. Два психологи зі співробітниками підготували тисячі тварин багатьох видів для телевізійних шоу, реклами та окружних ярмарків.(Breland & Breland, 1966). В одному популярному шоу брала участь «Прісцілла, вибаглива свинка». Присцила включала телевізор, їла сніданок за столом, підбирала брудний одяг і клала його. кошик, пилососила підлогу, вибирала свою улюблену їжу (серед продуктів, що конкурують із продукцією її спонсора!) і брала участь у вікторині, відповідаючи на запитання аудиторії натисканням на вимикачі лампочок, що показували «так» чи «ні». Вона не була особливо обдарованою свинею: насправді, оскільки свині ростуть дуже швидко, нову Прісциллу готували кожні 3-5 місяців. Справжньою винахідливістю відрізнялися все ж таки не свині, а експериментатори, які використовували оперантне обумовлення і формували поведінку, щоб досягти бажаного результату. Шляхом формування оперантних реакцій голубів тренували знаходити людей, які загубилися в морі (рис. 7.7), а морських свинок тренували знаходити підводне обладнання.

< Рис. Оперантне обумовленняі формування поведінки використовуються в дресируванні тварин для навчання їх виконанню різноманітних трюків.

Рис. 7.7 Пошук та порятунок за допомогою голубів.Берегова охорона використовувала голубів для пошуку людей, які загубилися у морі. Застосовуючи методи формування, голубів тренували розпізнавати помаранчевий колір- міжнародний колір рятувальних жакетів. Три голуби пристебнуті у ящику з оргскла, прикріпленому до днища вертольота. Ящик поділений на секції, так що кожен птах дивиться у своєму напрямку. Коли голуб виявляє помаранчевий об'єкт або будь-який інший об'єкт, він клює ключ і у пілота дзвенить дзвінок. Тоді пілот розгортається в напрямку, вказаному птахом, що зреагував. Для виявлення віддалених об'єктів у морі голуби підходять більше, ніж люди. Вони можуть дивитися на воду протягом тривалого часу, не страждаючи від втоми очей: у них чудовий колірний зір, а зона фокусування у них 60-80 градусів, тоді як у людини – 2-3 градуси (по: Simmons, 1981).

Феномени та їх застосування

Існує ряд явищ, які значно розширюють сферу дії оперантного обумовлення і вказують на можливе його застосування до поведінки людини.

Умовне підкріплення. Більшість із розглянутих нами підкріплень називаються первинними, оскільки, як і їжа, вони задовольняють основні потреби. Якби оперантне обумовлення відбувалося тільки з первинними підкріпленнями, воно не було б таким поширеним у нашому житті, оскільки первинні підкріплення не такі часті. Однак практично будь-який стимул може стати вторинним або умовним підкріпленням, якщо його послідовно поєднувати з первинним підкріпленням; умовні підкріплення значно розширюють діапазон оперантного обумовлення (як і обумовлення другого порядку значно розширює діапазон класичного обумовлення).

Невелика варіація типового експерименту з оперантного обумовлення ілюструє роботу умовного підкріплення. Коли щур у ящику Скіннера натискає на важіль, моментально звучить тон, за яким невдовзі дається їжа (їжа - первинне підкріплення; звук стане умовним підкріпленням). Після того, як у тварини виробилася умовна реакція, експериментатор переходить до її гасіння, так що коли щур натискає на важіль, не з'являється ні їжі, ні звуку. Через якийсь час щур перестає натискати на важіль. Потім відновлюється звук, але не їжа. Коли тварина виявляє, що при натисканні важеля включається звук, частота натискань помітно зростає, долаючи згасання, хоча ніякої їжі за цим не слідує. Звук придбав якість підкріплення сам собою шляхом класичного обумовлення; стійко поєднуючись із їжею, він сам став сигналом їжі.

Наше життя рясніє умовними підкріпленнями. Домінують із них два: гроші та похвала. Імовірно, гроші є сильним підкріпленням тому, що часто поєднуються з первинними підкріпленнями: можна купити їжу, випивку, зручності - це лише кілька очевидних прикладів. І похвала – навіть без обіцянки первинного підкріплення – може багато в чому підтримувати діяльність.

< Рис. Похвала является эффективным подкрепляющим фактором для многих людей.>

Генералізація та диференціювання. Те, що було правильне для класичного обумовлення, вірно і для оперантного: організми генералізують те, що вони вивчили, і генералізацію можна обмежити тренуванням на диференціювання. Якщо батьки підкріплюють маленької дитиниза пестіння домашнього собачки, він незабаром генералізує цю реакцію ласки на інших собак. Оскільки це може бути небезпечно (сусідський песик може виявитися лютим сторожовим псом), батьки дитини можуть провести деяке диференціювальне тренування, так щоб він пестив свого собаку, але не сусідського.

Диференціювальна тренування буде ефективна в тій мірі, якою є диференційований стимул (або набір стимулів), що дозволяє чітко відрізняти випадки, де реакція повинна мати місце, від випадків, де її потрібно придушити. Вищезгаданій маленькій дитині буде легше навчитися, якого собаку пестити, якщо його батьки зможуть вказати на ознаку собаки, що сигналізує про її дружність (виляння хвостом, наприклад). Взагалі, диференціювальний стимул буде корисний тією мірою, якою його присутність передбачає, що з реакцією піде підкріплення, яке відсутність передбачає, що з реакцією підкріплення не піде (чи навпаки). Так само, як і в класичному зумовленні, передбачувана сила стимулу має вирішальне значеннядля обумовлення.

Режими підкріплення. У реальному житті окремі епізоди поведінки підкріплюються рідко; іноді за старанну роботу хвалять, але часто вона залишається невизнаною. Якби оперантне обумовлення відбувалося лише за постійному підкріпленні, його роль нашому житті була обмеженою. Виявляється, однак, що після того, як поведінка виникла, вона може підтримуватися, якщо її підкріплювати лише частину всього часу. Це явище відоме як часткове підкріплення, і його можна проілюструвати у лабораторії на прикладі голуба, який навчається клювати ключ, щоб отримувати їжу. Після того як ця операнта сформувалася, голуб продовжує клювати ключ з високою частотою, навіть якщо він отримує підкріплення тільки час від часу. Іноді голуби, які винагороджувалися їжею в середньому один раз за 5 хвилин (12 разів на годину), клювали ключ 6000 разів на годину! Крім того, згасання, що йде за підтриманням реакції на часткове підкріплення їжею, йде набагато повільніше, ніж згасання, що йде за підтримкою реакції на безперервне підкріплення. Це явище відоме як ефект часткового підкріплення. Цей ефект зрозумілий на чисто інтуїтивному рівні, оскільки якщо підкріплення підтримки реакції є лише частковим, випадки згасання і підтримки реакції важче відрізнити друг від друга.

Коли підкріплення здійснюється лише частину всього часу, нам потрібно знати, який точно його розпорядок: після кожної третьої реакції? чи кожні п'ять секунд? Виявляється, режим підкріплення визначає схему реагування. Деякі розклади підкріплення називають пропорційним режимом, оскільки підкріплення залежить від кількості скоєних реакцій. Це як на заводі, коли робітнику платять за певний обсяг роботи. Коефіцієнт пропорційності може бути фіксованим чи змінним. При режимі з фіксованою пропорцією (його називають режимом ФП) число реакцій, які повинні відбутися, дорівнює певній величині. Якщо це число становить 5 (ФП 5), то це означає, що підкріплення піде після здійснення 5 реакцій, якщо воно дорівнює 50 (ФП 50), потрібно зробити 50 реакцій, і т. д. Взагалі, чим вища пропорція, тим з більшою частотою організм реагує, особливо якщо його спочатку тренували при відносно низькому коефіцієнті (скажімо, ФП 5), а потім безперервно збільшували коефіцієнт до величини, скажімо, ФП 100. Це як би на заводі робітнику спочатку платили по 5 доларів за кожні 5 зашитих швів , але потім настали тяжкі часи, і йому довелося за ті самі 5 доларів робити 100 швів. Але, мабуть, найпомітніша особливість поведінки при режимі з ФП полягає в тому, що відразу після чергового підкріплення зростання реакцій настає пауза (див. ліву частинуРис. 7.8). Заводському робітнику важко розпочати нову серіюшвів відразу після того, як він зробив їх достатньо, щоб отримати винагороду.

Рис. 7.8. Типові схемиреакцій на чотири основні режими підкріпленняКожна крива відображає сукупну кількість реакцій тварини залежно від часу; нахил кривої відбиває частоту його реакцій. Криві зліва належать до пропорційного режиму. Зверніть увагу на горизонтальні ділянки кривої для режиму з ФП: вони відповідають паузам (немає зростання сукупного числа реакцій). Криві праворуч відображають умови інтервального режиму. Крива для режиму з фіксованим інтервалом (ФІ) знову містить горизонтальні ділянки, що відповідають паузам (Schwartz, 1989). ФП – фіксована пропорція; ПП – змінна пропорція, ФІ – фіксований інтервал; ПІ – змінний інтервал.

При режимі зі змінною пропорцією (ПП) підкріплення також дається після здійснення певної кількостіреакцій, та їх кількість варіюється непередбачувано. Так, при режимі ПП 5 кількість реакцій, необхідних для підкріплення, іноді становить 1, іноді 10, а в середньому 5. На відміну від поведінки при режимі з ФП, при режимі з ПП не спостерігається пауз зростання реакцій (див. ліву частину рис 7.8), ймовірно тому, що в організму немає можливості визначити, що підкріплення з'явиться нескоро. Хороший приклад режиму з ПП повсякденному житті- робота грального автомата. Кількість реакцій (ігор), необхідне для видачі підкріплення (виграшу), постійно змінюється, і у гравця немає способу передбачити, коли підкріплення. Режим ПП може породжувати дуже високу частоту реакцій (як, певне, і розрахували власники казино).

Крім пропорційних існують інтервальні режими, у яких підкріплення видається лише після певного часу. Такі режими теж бувають фіксованими та змінними. При фіксованому інтервалі (ФІ) організм отримує підкріплення за першу реакцію після певного часу з моменту її останнього підкріплення. Наприклад, при режимі ФІ 2 (2 хвилини) підкріплення дається тільки через 2 хвилини після останньої підкріпленої реакції; реакції протягом цього двохвилинного інтервалу відбуваються без наслідків. Особливість реагування при режимі ФІ - пауза, що виникає відразу після підкріплення (вона може бути довша, ніж пауза при режимі ФП). Ще одна особливість реагування при режимі ФІ - це зростання частоти реакцій з наближенням закінчення періоду (див. праву частинуРис. 7.8). Хороший приклад режиму ФІ у повсякденному житті - доставка пошти, яка надходить лише раз на день (ФІ 24 години) або, в деяких місцях, двічі на день (ФІ 12 годин). Так, відразу після доставки пошти ви не перевірятимете її знову (у вас пауза), але в міру наближення закінчення інтервалу доставки пошти ви знову починаєте її перевіряти.

При режимі зі змінним інтервалом (ПІ) винагорода все ще залежить від проходження певного інтервалу, але його тривалість коливається непередбачувано. При розкладі ПІ 10 (10 хвилин), наприклад, критичний інтервал іноді може бути 2 хвилини, іноді 20 і т.д. середній величині 10 хвилин. Якщо за режимі ФІ частота реакцій змінюється, то за режимі ПІ 1 організми реагують однаково високої частотою (див. праву частину рис. 7.8). Як приклад режиму ПІ у повсякденному житті можна навести додзвонювання за зайнятим номером. Щоб отримати підкріплення (додзвонитися), треба зачекати якийсь час після останньої реакції (набору номера); скільки доведеться чекати загалом - непередбачувано (див. табл. 7.4).

Таблиця 7.4. Режими підкріплення

Пропорційні режими
Режим із фіксованою пропорцією	Підкріплення дається після певної кількості реакцій
Режим із змінною пропорцією	Підкріплення дається після певної кількості реакцій, кількість яких непередбачено
Інтервальні режими
Режим із фіксованим інтервалом	Підкріплення дається через певний час, що минув після попереднього підкріплення
Режим зі змінним інтервалом	Підкріплення дається через певний час, що минув після попереднього підкріплення, при цьому тривалість інтервалів непередбачувано

Обумовлення неприємними стимулами

Ми говорили про підкріплення так, ніби воно завжди позитивне (їжа, наприклад). Але негативні чи неприємні події, наприклад, удар струмом або нестерпний шум, теж часто використовуються для обумовлення. Існують різні видиобумовлення неприємними стимулами, залежно від цього, чи застосовуються вони послаблення наявної реакції чи заучування нової. [ Варто звернути увагу на співвідношення термінів винагороду та покарання, з одного боку, і позитивне та негативне підкріплення, з іншого. Винагорода може використовуватися як синонім позитивного підкріплення - події, поява якого за реакцією підвищує ймовірність цієї реакції. Але покарання - це не те саме, що негативне підкріплення. Останнє означає припинення неприємної події за реакцією. Покарання має протилежний ефект: воно зменшує ймовірність реакції. -Прим. автора.]

Покарання.При тренуваннях з покаранням за реакцією слід неприємний стимул чи подія, що веде до ослаблення реакції чи придушення її проявів. Припустимо, маленька дитина, що вчиться користуватися кольоровими олівцями, починає малювати на стіні (це небажана реакція); якщо його шльопають по руці, коли він це робить (покарання), він навчається так не робити. Подібним чином, якщо щур, який навчається проходити лабіринт, отримує удар струмом щоразу, коли він йде не туди, він скоро навчиться уникати минулих помилок. В обох випадках покарання використовується для зниження ймовірності небажаної поведінки. [ Інакше кажучи, відбувається згасання орієнтовної реакцію безумовний стимул.- Прим. ред.]

Покарання може придушити небажану реакцію, але має кілька недоліків. По-перше, його ефект менш передбачуваний, як ефект винагороди. Винагорода, по суті, каже: "Повтори те, що ти вже зробив"; покарання каже «Перестань!» і може запропонувати альтернативу. В результаті організм може замінити карну реакцію ще менш бажаною. По-друге, побічні результати покарання можуть бути шкідливими. Покарання часто веде до антипатії або страху перед карою (батьком, учителем або наймачем) і перед самою ситуацією (будинком, школою або офісом), де відбувалося покарання. Нарешті, вкрай суворе чи болюче покарання може викликати агресивну поведінку, серйознішу, ніж первісне небажане.

Ці перестороги не означають, що покарання ніколи не повинно застосовуватись. Воно може ефективно знімати небажану реакцію, якщо винагороджується інша реакція. Щури, які навчилися знаходити більш короткий з двох шляхів у лабіринті, щоб дістатися до їжі, швидко перемикаються на довший, якщо в короткому шляхуїх б'є струмом. Тимчасове придушення, що викликається покаранням, дає щуру можливість навчитися йти довгим шляхом. У цьому випадку покарання служить ефективним засобом переорієнтувати поведінку, оскільки вона є інформативною, а це і є ключем до гуманного і ефективному застосуваннюпокарання. Дитина, яка отримала удар струмом від електроприладу, може навчитися тому, які з'єднання безпечні, а які – ні.

< Рис. Угроза наказания - ефективний засібмотивації. Напис на дорожньому знаку: НЕ СИГНАЛИТИ Штраф 50 $.

Уникнення та запобігання. Неприємні події можуть також використовуватися при навчанні нових реакцій. Організм може навчитися реагувати так, щоб припинити неприємну подію, наприклад коли дитина навчається закривати кран, щоб гаряча водане лилася у його ванну. Це називається навченням уникнення подій. Організм може реагувати і так, щоб запобігти неприємній події до її початку, наприклад, коли ми навчаємося зупинятися на червоне світло, щоб запобігти нещасним випадкам (і одержанню штрафних квитанцій). Це називається навченням запобігання подіям.

Навчання уникнення часто передує навчанню запобігати подіям. Це ілюструє наступний експеримент. Пацюк поміщають у ящик, що складається з двох відділень, розділених бар'єром. У кожній пробі тварину поміщають до одного з відділень. У деякий момент звучить попереджувальний звук, а через п'ять секунд до підлоги цього відділення подається струм; щоб уникнути удару струмом, тварина повинна перестрибнути через бар'єр в інше відділення. Спочатку тварина робить це, коли струм уже включений, - тут має місце навчення уникнення. Але в міру тренування тварина навчається стрибати, почувши попереджувальний звук, і тим самим уникає удару струмом - це навчення запобіганню.

Навчання запобіганню викликало широкий інтерес, частково тому, що в ньому є щось дуже загадкове. Що є підкріплення реакції запобігання? У цьому дослідженні - що підкріплює стрибок щура через бар'єр? Інтуїтивно здається, це відсутність роздратування струмом, але відсутність чогось можна розглядати як неподію. Як може недія служити підкріпленням? В одному з рішень цієї загадки передбачається, що у такому навчанні є дві стадії. На першій стадії відбувається класичне обумовлення: при неодноразовому поєднанні попередження (УС) і події, що карає, тобто удару струмом (БУС), тварина заучує реакцію страху на попередження. На другій стадії відбувається оперантне обумовлення: тварина навчається, що певна реакція (перестрибування бар'єру) усуває неприємну подію, тобто страх. Коротше те, що спочатку здається неподією, насправді - страх, і запобігання можна представляти як припинення страху(Rescorla & Solomon, 1967; Mowrer, 1947).

Контроль та когнітивні фактори

У аналізі оперантного обумовлення підкреслювалася роль чинників оточення: за реакцією незмінно слідувала подкрепляющее подія, і організм навчався асоціювати цю реакцію з цим підкріпленням. Але в когнітивній теорії запобігання, про яку ми говорили, передбачається, що в оперантному зумовленні, так само як і в класичному, важливу рольграють когнітивні чинники. Як ми побачимо, іноді корисно розглянути ситуацію оперантного обумовлення організму як набуття ним нового знання взаємозв'язку між реакцією і підкріпленням.

Одночасність чи контроль? Як і у випадку класичного обумовлення, ми хочемо знати, який фактор є вирішальним, щоб відбулося оперантне обумовлення. Знов-таки один із варіантів - збіг за часом: операнта стає умовною, коли підкріплення негайно слідує за поведінкою(Skinner, 1948). Більше когнітивний варіант відповіді, близько пов'язаний з передбачуваністю, - це фактор контролю: операнта стає умовною, тільки коли організм інтерпретує підкріплення як подія, контрольована його реакцією. Деякі важливі експерименти(Maier & Seligman, 1976) більше говорять на користь фактора контролю, ніж на користь фактора збігу за часом (див. також обговорення контролю та стресу у гл. 15).

Основний експеримент складається із двох стадій. На першій стадії деякі собаки дізнаються, що роздратування струмом або його відсутність залежить від їхньої поведінки (або контролюється ним), а інші собаки навчаються тому, що у них немає контролю над роздратуванням струмом. Собак випробовують парами. Обидва члени пари знаходяться в упряжі, що обмежує їх рух, і несподівано вони отримують удар струмом. Один член пари - «ведучий» собака - може вимкнути електрику, натиснувши носом поруч розташований вимикач; інший член пари - "відомий" собака - ніяк не може контролювати удар струмом. Щоразу, коли ведучий собака отримує удар, те ж дістається і веденому собаці; і кожного разу, коли ведучий собака вимикає струм, у веденого собаки він теж припиняється. Таким чином, і ведучий і ведений собаки отримують однакову кількість ударів струмом.

Щоб дізнатися, що вивчили собаки на першій стадії, потрібна друга стадія, на якій експериментатор поміщає обох собак у новий пристрій – ящик, розділений бар'єром на дві половини. Це такий самий пристрій для тесту на запобігання події, який ми розглядали трохи вище. Як і раніше, у кожній пробі спочатку звучить тон, що вказує, що відділення, яке займає зараз тварина, ось-ось піддасться впливу електрики; щоб уникнути роздратування, тварина повинна навчитися при запобіжному звуку стрибати через бар'єр до іншого відділення. Провідні собаки швидко навчаються цій реакції. Але з веденими собаками відбувається зовсім інше. Вони з самого початку не роблять руху через бар'єр, і в міру продовження проб їх поведінка стає дедалі пасивнішою, поки собака під кінець не впадає в повну безпорадність. Чому? Тому що на першій стадії ведені собаки дізналися, що удари струмом - поза їхнім контролем, і це переконання в безконтрольності зробило обумовлення на другій стадії неможливим. Якщо переконання в безконтрольності унеможливлює оперантне обумовлення, то, можливо, саме переконаність у контролі робить його можливим. Багато інших експериментів свідчать на користь того, що оперантне обумовлення відбувається лише коли організм сприймає підкріплення як щось, що він може контролювати(Seligman, 1975). Докладніше про набуту безпорадність буде сказано в гол. 15.

Навчання залежності. Про наведені результати можна говорити і в термінах залежностей. Можна сказати, що оперантне обумовлення відбувається лише тоді, коли організм сприймає залежність між своїми реакціями та підкріпленням. На першій стадії згаданого вище дослідження відповідна залежність мала місце між натисканням вимикача та закінченням подразнення струмом; сприйняття цієї залежності рівнозначне з'ясування того, що, коли вимикач натиснутий, ймовірність закінчення подразнення більше, ніж колись він не натиснутий. Собаки, які не сприймають цю залежність на першій стадії експерименту, не шукають жодних залежностей і на другій стадії. У світлі чинника залежності ясно, що це результати вивчення оперантного обумовлення сходяться з даними про роль передбачуваності в класичному обумовлюванні: знання, що УС пророкує БУС, можна інтерпретувати як вираз того, що організм виявив залежність між цими двома стимулами. Таким чином і в класичному, і в оперантному обумовленні організм засвоює саме залежність між двома подіями. У класичному обумовленні поведінка визначається конкретними стимулами; в оперантному обумовленні поведінка визначається конкретними очікуваними реакціями.

Наша здатність дізнаватися про залежність розвивається дуже рано, як показує наступне дослідження 3-місячних немовлят. Усі немовлята в експерименті лежали у своїх ліжечках, голови на подушках. Під кожною подушкою був вимикач, який замикався щоразу, коли немовля повертало голову. Для випробуваних контрольної групи щоразу, коли вони повертали голову і замикали вимикач, протилежному боціліжечка включалася іграшка, що рухається. Для цих немовлят мала місце залежність між поворотом голови та рухом іграшки: з поворотом голови рух іграшки був вірогіднішим, ніж без нього. Ці немовлята швидко навчилися повертати голову та реагували на рух іграшки знаками радості (вони посміхалися та лопотали). Зовсім інша картина була у випробуваних експериментальної групи. Для цих немовлят іграшка рухалася приблизно так само часто, як і у контрольних піддослідних, але рухалася вона чи ні - було поза їхнім контролем: тут була відсутня залежність між поворотами голови і рухом іграшки. Ці немовлята не навчилися рухати головою частіше. Крім того, через якийсь час вони вже не демонстрували ознак насолоди від руху іграшки. За відсутності контролю над нею іграшка, мабуть, втратила частину своєї функції, що підкріплює.

Біологічні обмеження

Як і у випадку класичного обумовлення, біологія накладає обмеження те, що можна вивчити шляхом оперантного обумовлення. Ці обмеження стосуються співвідношень між реакцією та підкріпленням. Для ілюстрації розглянемо голубів у двох експериментальних ситуаціях: навчення з винагородою, коли тварина набуває реакцію, що підкріплюється їжею, і навчання з припиненням, коли тварина набуває реакції, що підкріплюється припиненням ударів струмом. У разі винагороди голуби навчаються набагато швидше, якщо в якості реакції потрібно клюнути ключ, а не ляскати крилами. У разі припинення роздратування струмом відбувається навпаки: голуби навчаються швидше, якщо умовна реакція - це ляскання крилами, а не клювання(Bolles, 1970).

Як і у випадку класичного обумовлення, наведені результати розходяться з припущенням, що у всіх ситуаціях працюють одні й самі закони навчання, і це цілком зрозуміло. Випадок із винагородою, коли їжа поєднується з клюванням (але не лясканням крил), є частиною природної активності птахів, пов'язаної з їжею. Значить, розумно припустити, що існує генетично заданий зв'язок між клюванням та їжею. Подібним чином, у варіанті з припиненням подразнення струмом є небезпечна ситуація, А природною реакцією голуба на небезпеку є ляскання крилами (але не клювання). Як відомо, у птахів невеликий репертуар оборонних реакцій, і вони швидко вчаться припинення лише у тому випадку, якщо відповідна реакція належить до природних оборонних реакцій.

Описані вище етологічні дослідження демонструють нам новий можливий спосібвзаємодії біологічної тапсихологічних підходів. Етологічні концепції допомагають нам надати сенс отриманим раніше результатам психологічних досліджень. Наприклад, вони пояснюють нам, чому голуби навчаються швидше у ситуації, що включає винагороду, якщо реакцією є клювання, однак у ситуації, що включає уникнення, вони навчаються швидше, якщо реакцією є ляскання крилами.

Оперантне обумовлення . У цирку дресирувальники спонукають звірів вчинити якусь дію, а потім хвалять їх та дають маленький шматочокїжі. Після того як тварина навчилася робити цю нову дію, її спонукають до здійснення наступної дії. Якщо дія не те, що потрібне дресирувальнику, то він не дає тварині шматочка їжі, тобто не заохочує його. Тварина починає робити різні спроби й у результаті реалізує необхідну дію.

· Оперантне обумовлення -навчання, у ході якого набуття нового досвіду та реалізація його в поведінці призводять до досягнення певної мети.

Якщо ми спостерігаємо за поведінкою власного собаки, коли він у дворі грається з м'ячем, то ми помітимо, що він може його кусати, притискати до землі і відпускати чи підкидати його. У природних умовах існування організми не тільки відповідають на стимули, а й впливають на середовище. Але як тільки організм зробив нову дію, подальша поява цієї дії в поведінковому репертуарі залежатиме від того, яким був його результат. Так, собака частіше буде підкидати м'яч, якщо ми заохочуватимемо цю дію погладжуванням або шматочком ласої їжі.

Оперантне зумовлення (від лат. о peratic - дію) означає таке навчання, у ході якого набуття певного нового досвіду та реалізація його поведінки призводять до досягнення певної мети. Воно дозволяє нам впливати на середовище і притаманне не тільки людям, але й простішим істотам, оскільки павук чи тарган. Сам термін було введено Б. Ф. Скіннером, хоча процедуру o п e рантного обумовлення використовували століттями для дресирування тварин. У Скіннера також був попередник, який наблизився до опису цієї форми навчання.

на рубежі XIXта XX ст. американський дослідник Е. Торндайк намагався з'ясувати, чи існує у тварин розум, чи інтелект. Для цього він побудував «проблемну скриньку» (рис. 6-2), в яку поміщав голодних котів. Поза клітиною знаходилася їжа, як правило, риба. Тварина могла відчинити дверцята ящика тільки в тому випадку, якщо вона натиснула на педаль усередині ящика або потягла за важіль. Але коти спочатку намагалися дістати приманку, просовуючи лапи крізь клітки. Після серії невдач вони зазвичай обстежували все всередині, робили різноманітні дії. Зрештою тварина наступала на важіль, і дверцята відчинялися. Внаслідок численних повторних процедур тварини поступово переставали здійснювати зайві дії та одразу натискали на педаль.

Торндайк назвав це навчанням шляхом спроб і помилок, оскільки перед тим, як тварина навчається здійснювати потрібний акт, вона реалізує безліч помилкових. Таке навчання можна уявити графічно. На рис. 6-3 зображено графік, чи крива навчання, де з лінії абсцис відкладено кількість процедур, а з лінії ординат - час, протягом якого тварина відкриває дверку. Але йому можна побачити, що чим більше разів тварина потрапляла в проблемний ящик, тим швидше вона звідти виходила або, іншими словами, тим менше помилок перед реалізацією потрібної дії.

Важливо зупинитися на одному моменті, який був відзначений американським дослідником та зведений до рангу закону. Він виявив, що ті дії, які заохочуються, тобто підкріплюються, з більшою ймовірністю виникали в наступних пробах, а ті, які не підкріплювалися, не використовували тварин у наступних пробах. Інакше кажучи, тварина навчалося здійснювати ті дії, що їх слід було підкріплення - і є закон ефекту.

Які ж були висновки Торндайка щодо розумної поведінки тварин? Дослідник заперечував наявність у них якихось ознак інтелекту, оскільки навчання відбувається шляхом «сліпих» спроб і помилок, а механізм навчання полягає у встановленні зв'язків між стимулами та реакціями. Не вдаючись у теоретичні подробиці, зазначимо тільки, що напрямок, що вже згадувався, - біхевіоризм - став формуватися після публікації робіт Торндайка.

Найрадикальніший представник біхевіоризму, Б. Ф. Скиннер, вважав, що оперантна поведінка спонтанна і виникає без будь-яких очевидних стимулів, а реактивна поведінкає наслідком якогось стимулу. Оперантну поведінку можна модифікувати шляхом підкріплення. По суті, поведінку можна контролювати і можна керувати, створивши відповідний порядок підкріплення. Скиннер багато експериментував, переважно з пацюками і голубами, і стверджував, що закономірності навчання однакові як тварин, так людини.

Розберемо типовий експеримент Скіннера. Голодного голуба саджають у так звану «ящик Скіннера» (рис. 6-4). Усередині ящика немає нічого, крім кнопки і годівниці, що знаходиться під нею. Голодний птах, потрапивши в клітку, починає все обстежувати, розглядати і в результаті ударяє дзьобом по кнопці. Знову повторюється пошук: голуб клює підлогу або годівницю, у результаті знову клює кнопку. Так тварина протягом деякого часу кілька разів клює кнопку. Кількість клювання за кнопкою, скажімо, за півгодини, умовно приймають за вихідний оперантний рівень. Далі включають годівницю, і тепер голуб після кожного удару по кнопці отримує зернятко. Через деякий час птах навчається клювати кнопку, оскільки ця дія підкріплюється. Чим більше вона клює кнопку, тим більше вона отримує їжі. Якщо голуб буде клювати кнопку з високою частотою, то ця дія характеризується високим оперантним рівнем, якщо буде клювати її рідко, то дія матиме низький оперантний рівень.

Оперантний рівень, таким чином, показує рівень навченості акту, що підкріплюється. Але що буде, якщо припинити подавати підкріплення? Як і в класичному зумовленні, відбудеться згасання оперантної поведінки. Наведемо приклад. Маленький хлопчик виявляв істеричні форми поведінки, якщо батьки не приділяли йому потрібної уваги, особливо перед сном. Оскільки батьків така поведінка сильно турбувала, вони весь час заспокоювали її і цим підкріплювали подальшу істерику. Їм порадили перестати звертати увагу на дитину, хоч би як сильно плакав. Скасування підкріплення у вигляді уваги мала призвести до гноблення, т. е. до зникнення всіх істеричних проявів, що й сталося. Плач хлопчика зник уже за один тиждень.

Процедуру оперантного обумовлення застосовують для навчання тварин складним формам поведінки, які б не виникли в природних умов. Наприклад, ведмедя можна навчити водити мопед, а дельфіна - стрибати через коло, що горить. Поведінка такої складності можна виробити у тварин, застосовуючи процедуру формування поведінки. Наприклад наведемо ситуацію навчання кролика потягу кільця.

У невеликій клітці в одному кутку знаходиться автоматична годівниця, навпаки, в іншому кутку - кільце. Голодний кролик, потрапивши в клітку, у перші хвилини все обнюхує, стає на задні лапи й визирає з клітки. Експериментатор починає подавати годівницю з їжею. Годівниця працює з шумом, тому тварина не одразу залазить до неї. Після того, як кролик звик до шуму, він уже пов'язує його з появою їжі і сміливо залазить у годівницю за нею. Через деякий час перестають подавати їжу, після чого кролик знову починає здійснювати пошукову поведінку. Коли тварина повертає убік кільця, знову подають годівницю з їжею. Після безлічі реалізацій повороту кролику починають давати їжу тільки в тому випадку, якщо він підходить до кільця. Коли підхід до обручки сформований, знову перестають подавати їжу. Тварина починає пошукову поведінку, повторює всі форми вивчених раніше актів, починає гризти кільце і тягне його. Спрацьовує годівниця. Через деякий час тварина вже навчається потягу за кільце.

У оперантному навчанні особливу роль займає підкріплення. Підкріпленнямназивається будь-який предмет або подія, яка значуща для організму і задля досягнення якої їм відбувається поведінка. Виділяють позитивне підкріплення та негативне підкріплення. Як позитивне підкріплення завжди виступають біологічно необхідні для організму об'єкти, наприклад їжа, вода, статевий партнер і т. д. У людей до біологічно необхідних об'єктів додаються продукти культури або культурні цінності. Негативне підкріплення є небезпечним для життя, тому організм намагається уникнути його або запобігти його дії. Як негативне підкріплення дослідники часто використовують електричний струмабо гучний звука процедуру навчання в таких випадках прийнято називати аверзивним обумовленням (від англ.aversive - Огидний).

· Підкріплення - предмет чи подія, яка є значущою для організму.

Тепер нам стає зрозумілим, чому Скіннер вважав, що поведінкою можна маніпулювати через підкріплення. Але насправді все виявилося набагато складнішим. Мак-Фарленд повідомляє, що деякі дослідники намагалися навчити курчат стояти спокійно на рівній площадці, щоб отримати винагороду, але ті весь час шкрябали підлогу. Інші намагалися навчити свиню вкладати у скарбничку особливу монету. Але свиня ні за яке підкріплення не хотіла навчитися цього, вона багато разів кидала на підлогу монету і піднімала знову. Проводили також дослідження з голубами, під час яких їх навчали клювати кнопку або змахувати крилами. Виявилося, що птахи швидше навчалися клювати кнопку, якщо як підкріплення виступала їжа (позитивне підкріплення), а змахувати крилами - якщо цією поведінкою вони уникали удару електричного струму (негативне підкріплення). З точки зору Скіннера, голуби мали навчитися клювати кнопку або струшувати крилами незалежно від роду підкріплення.

Такий парадокс пояснили етологи – дослідники поведінки тварин у природних умовах. У голубів акт клювання є частиною харчової поведінки, тому голуб швидше навчається клювати кнопку, якщо за цим слідує підкріплення у вигляді їжі. А змахування крилами є частиною уникальної поведінки, оскільки птахи здійснюють цей акт перед тим, як злетіти. Такі обмеження показують, що навчання пов'язане з наявним досвідом тварини, а також з вродженими формами поведінки.

Ґрунтується на сформульованому на початку XX століття американським дослідником процесів навчання Е. Торндайком (1998) «законі ефекту».

Реактивні форми поведінки виникають у результаті подій, у яких організм переважно пасивно відчуває зовнішні впливина відповідні вроджені структури, відповідальні за соматовегетативно-інстинктивний (за В. В. Ковальовим, 1979) рівень нервово-психічного реагування. У міру дозрівання довільної активностіНагромадження поведінкового репертуару людини дедалі більше визначається результатами взаємодії із середовищем. Такі новопридбані форми поведінки отримали назву оперантних(Від лат. operatio -дія), оскільки в цьому випадку первинна дія, що виробляється щодо довкілля. Чи буде ця дія повторюватися або, навпаки, уникати - це залежить від викликаних ним наслідків, їхньої бажаності чи небажаності для організму. І реактивні, і оперантні форми поведінки підпорядковуються одним і тим самим закономірностям; в загальному випадкуобумовлення визначається асоціацією між двома стимулами чи між поведінкою та її результатом.

Е. Торндайк (1898) відкрив тип навчання, названий ним «методом спроб і помилок»: зустрівшись з будь-якою перешкодою, індивід робить спроби подолати його і, поступово відмовляючись від неефективних дій, знаходить рішення задачі. У своїх дослідах Е. Торндайка використав так звані проблемні клітини, в які він поміщав голодних кішок. Клітини відкривалися лише у випадку, якщо тварина, яка намагається вийти до приманки, що лежить зовні, знайде відповідний спосіб - випадковий (потягне за мотузку або підніме гачок) або оптимальний (натисне на педаль, з'єднану з мотузкою, що піднімає запірний гачок). Проаналізувавши дані про кількість спроб, необхідних для знаходження оптимального способу відкривання клітини, і вплив на цей процес попередніх, «ненавмисних» випадків звільнення, дослідник сформулював закон ефекту.Він свідчить, що, якщо якесь дію призводить до бажаним результатам, ймовірність його повторення зростає, і якщо до небажаним - то знижується. Якщо бути ще точніше, зв'язок між дією та її результатом для індивідуума тим сильніше, чим більше задоволення доставляє цей результат. Небажаний чи байдужий результат цей зв'язок послаблює.

Слід констатувати, що навчання методом спроб і помилок саме собою не дуже ефективно і що одним випадковим «винаходом» нових форм поведінки важко пояснити швидке набуття нових навичок людьми і свійськими тваринами. Поряд з даним способом вироблення навичок, що існували протягом мільйонів років, в еволюції людини безперечно складалися й інші, більш досконалі способи формування та передачі нових типів поведінки.

У 40-ті роки XX ст. американський психологБ. Ф. Скиннер розвинув концепцію Е. Торндайка, відмовившись від таких необ'єктивних понять, як задоволення і незадоволення, і сформулювавши принцип підкріплення: та чи інша поведінка частіше повторюється, якщо призводить до певних наслідків - до ситуацій, що відіграють роль підкріплення. Таким чином, у теорії Скіннера підкріплення - це подія, що підвищує ймовірність повторення у майбутньому поведінкової реакції. Б. Ф. Скиннер розробив спосіб формування складних форм поведінки шляхом послідовних наближень,який склав основу концепції та методу оперантного обумовлення.

Суть методу «оперантного обумовлення» (Skinner У. Є, 1984) полягає у створенні зв'язку між поведінкою та її результатом з допомогою повторюваних «підкріплень», т. е. пропонованих чи усуваних позитивних і негативних наслідків. У цьому весь шлях від вихідної реакції (ще початку навчання) до кінцевої поведінкової моделі, розбивається кілька етапів, кожен із яких послідовно і систематично підкріплюється.

В експериментах Б. Ф. Скіннера голуб, що сидить у клітці, нагороджувався зерном спочатку кожного разу, коли опинявся в потрібній її половині, потім тільки тоді, коли, перебуваючи на цій половині клітини, повертав голову в потрібному напрямку, Далі тільки в тому випадку, якщо ці дві умови супроводжувалися напрямом його дзьоба у бік пластмасового кружка, розташованого на стінці. Наступний етап полягав у підкріпленні випадків торкання кухля дзьобом, і, нарешті, підкріплювалася лише кінцева мета навчання - удар дзьобом по кухлі.

Принципово важливо приступати до чергового етапу навчання лише за сформульованої поведінкової реакції, вироблення якої було присвячено попередній етап. Такий спосіб моделювання складних формповедінки широко застосовується при дресируванні тварин.

Аналогічний шлях освоєння людського лексикону простежується в дитини. Перші членороздільні звуки викликають бурхливе захоплення оточуючих, стимулюючи їх повторення. Потім ентузіазм дорослих остигає до тих пір, поки в белькоті дитини не з'являться поєднання звуків, що нагадують слово «мама» тощо. соціального підкріплення,та зберігати ті, які близькі до очікуваного результату. Аналогічним чином, ігнорування дитини в той момент, коли вона прагне привернути до себе увагу капризами, ниттям, «істериками», і позитивне спілкування з нею при демонстрації соціально схвалюваних вчинків забезпечує диференційований відбір до його поведінкового репертуару більш зрілих шаблонів.

Різними сторонами процесу підкріплення є розглянуті вище механізми згасання, диференціюванняі генералізаціїабо іррадіації (за І. П; Павлову).

Інструментальні (оперантні) умовні рефлекси від класичних (павловських) активністю відбору поведінкового стереотипу, більшої природністю. Класичний умовний рефлекс формує «експериментатор» (дресирувальник, батько, вихователь, терапевт), який би повторне попарне пред'явлення нейтрального стимулу і специфічного стимулу вродженої реакції. В експериментах Скіннера тварина сама (під впливом дискримінантного стимулу,сигналізує про можливість отримати нагороду чи покарання) здійснює відбір потрібного поведінкового зразка зі свого репертуару, орієнтуючись на результат. Стимул визначається самим «життям» (реаліями природного довкілля, законами суспільства, принципами колективу, традиціями сім'ї), що відповідає на активну поведінку суб'єкта задоволенням або фрустрацією його потреб (як уроджених, так і сформованих після народження).

На думку Б. Ф. Скіннера та інших біхевіористів, саме таким чином відбувається вироблення більшості поведінкових реакційу людини. Подібна абсолютизація ролі зовнішньої мотивації, що створюється підкріпленням, та ігнорування значення внутрішньої мотивації зустрічає справедливу критику з боку представників як когнітивної, так і гуманістичної психології(Годфруа Ж., 1992). При ідентифікації контексту попереднього (дискримінантного) стимулу (що є по суті когнітивним актом) задіяні мозкові структури вищого рівня, ніж при спрацюванні умовного рефлексу. Рівень має забезпечувати організму можливість використовуватиме навчання власний досвід.

У 1960-ті роки парадигма оперантного обумовлення у формі «планів оперантного підкріплення» широко застосовувалася для корекції порушеної поведінки госпіталізованих дітей, а також у школах у формі «програмованих уроків».

Прикладом поєднання класичного умовного рефлексу та оперантного навчання є експерименти з дослідження поведінки уникнення (Mourer О. Н., 19б5; Miller H.E. , 1963, цит. за А.П. Федорову, 2002). Після того як слідом за умовним сигналом включався струм, тварина в результаті хаотичних стрибків по клітині випадково виявляла рятівний майданчик, на який привчалося застрибувати, не чекаючи початку больової стимуляції. Поведінка уникнення стійко здійснювалося щоразу після включення умовного сигналу, й у подальших дослідах, як і раніше, що струм більше не включали, подібна реакція стала безглуздою. Щоб тварина про це «дізналася» і поведінка уникнення перестала підкріплювати саму себе, експериментатори змушені були внести зміни до процедури досвіду: дія умовного подразника (звукового сигналу) тривала і після початку демонстрації реакції уникнення, тобто умовний сигнал небезпеки «знецінювався» реально безпечну обстановку. Інший спосіб швидкого погашення реакції уникнення – віддалення від тварини «майданчика безпеки». Це зумовлювало форсоване тестування реальності, оскільки за час, явно достатній для виникнення больового підтвердження доцільності стереотипної поведінки, підкріплення не наступало.

Описані механізми погашення реакції уникнення, що зафіксувалась, використовуються при лікуванні фобій і нав'язливих ритуалів, зокрема у формі представлення жахливих об'єктів у суб'єктивно комфортній ситуації та позбавлення можливості реалізувати уникну поведінку в лякаючій, але реально безпечній обстановці (методика «повені»).

Третій спосіб гальмування реакції уникнення - імітує моделювання, яке здійснюється за допомогою тварини, що не зазнавала впливу електричного струму. Нову тварину запускають у ту саму скриньку, і вона демонструє спокійну «реалістичну» поведінку. Терапія та профілактика неофобії (страху нового), типової для аутистів та дітей молодшого віку, включає як звикання до незнайомої і тому страшної обстановці, а й спостереження тим, як інші діти поводяться у умовах. Адаптація до нового колективу відбувається успішніше, коли людина має можливість «придивитися» до неї.

Теорія-інструментального, або оперантного, обумовлення пов'язана з іменами Е. Л. Торндайка (Е. L. Thorn-dike) та Б. Ф. Скіннера (В. Е. Skinner). Скиннер і Торн-дайк – найвизначніші представники біхевіоризму – показали, що вплив навколишнього середовища визначає поведінку людини. Вони розглядають як головний фактор формування людської поведінки культуру, зміст якої виражається в певному наборікомплексів підкріплень. З їх допомогою можна створювати та модифікувати людська поведінкау потрібному напрямку. На такому розумінні засновані методи модифікації поведінки, що використовуються не тільки в психотерапевтичній практиці, а й, наприклад, під час виховних впливів.

Терміни «інструментальне навчання» і «оперант-ное обумовлення» означають, що реакція організму, яка формується методом спроб і помилок, є інструментом отримання заохочення і передбачає оперування середовищем, тобто поведінка є функція його наслідків. Відповідно до принципу оперантного обумовлення, поведінка контролюється його результатом та наслідками. Модифікація поведінки здійснюється за рахунок впливу на його результати та наслідки. Відповідно до схеми оперантного обумовлення експериментатор, спостерігаючи поведінку, фіксує випадкові прояви бажаної, «правильної» реакції і відразу ж підкріплює її. Таким чином, стимул слідує після поведінкової реакції, використовується пряме підкріплення через заохочення та покарання. Результатом такого навчання є оперантне навчання, або оперант. У цьому випадку підкріплюється не стимул, а реакція організму, саме вона викликає підкріплюючий стимул, тому таке навчання позначається як навчання типу R. Оперантна, або інструментальна, поведінка (поведінка типу R) - це поведінка, викликана підкріпленням, наступним за поведінкою. Скіннер, підкреслюючи різницю між респондентним і оперантним поведінкою, показує, що респондентне поведінка викликано стимулом, попереднім поведінці, а оперантне поведінка - стимулом, наступним за поведінкою. Іншими словами, у класичному зумовленні стимул передує поведінковій реакції, а в оперантному - слідує за нею.

Необхідно звернути увагу на співвідношення таких понять, як позитивне та негативне підкріплення та покарання, розрізняти покарання та негативне підкріплення. Позитивне чи негативне підкріплення посилює поведінку, покарання – послаблює. Позитивне підкріплення ґрунтується на пред'явленні стимулів (нагород), які посилюють поведінкову реакцію. Негативне підкріплення полягає у посиленні поведінки за рахунок видалення негативних стимулів. Тобто будь-яке підкріплення (і позитивне, і негативне) посилює частоту реакції і поведінку, а покарання, навпаки, зменшує частоту реакції, послаблює поведінку. (Наприклад, позитивне підкріплення: тварина знаходить вихід з лабіринту і отримує їжу; негативне підкріплення: тварина знаходить вихід з лабіринту, де діє електричний струм, і струм вимикають; покарання: тварина в лабіринті впирається в глухий кут, і струм включають. Таким чином, перші два види впливу експериментатора посилюють реакцію, оскільки є підкріпленням, а третій - зменшує, будучи покаранням.

Для розрізнення стимулу класичного умовного рефлексу і стимулу оперантного умовного рефлексу Скіннер запропонував позначати перший як Sd (дискримінантний стимул), а другий - як Sr (респондентний стимул). Дискримінантний стимул за часом передує певній поведінковій реакції, респондентами стимул, що підкріплює певну поведінкову реакцію, слідує за нею.

Отже, порівняльні характеристикикласичного та оперантного обумовлення:
Класичне зумовлення S-R. Навчання типу S. Класична парадигма Павлова. Реакція виникає лише у відповідь вплив будь-якого стимулу. Стимул передує реакції. Підкріплення пов'язане із стимулом. Респондентне поведінка - поведінка, викликане певним стимулом, йому попереднім.

Оперантне зумовлення R-S. Навчання типу R. Оперантна парадигма Скіннера. Бажана реакція може виникнути спонтанно. Стимул слідує за поведінковою реакцією. Підкріплення пов'язане із реакцією. Оперантна поведінка - поведінка, викликана підкріпленням, за ним наступним.

ОПЕРАНТНЕ обумовлення

ОПЕРАНТНЕ ОБУЗМОВЛЕННЯ. Теорія інструментального, або О. о. пов'язана з іменами Торндайка (Thorndike E. L.) та Скіннера (Skinner В. F.). На відміну від принципу класичного обумовлення (S-> R), вони розробили принцип О. о. (R->S), згідно з яким поведінка контролюється його результатами та наслідками. Основний шлях на поведінка, з цієї формули, - впливом геть його результати.
Для розрізнення стимулу класичного умовного рефлексу та стимулу інструментального умовного рефлексу Скиннер запропонував позначати перший як Sd (дискримінантний стимул), а другий - Sr (pecпондентний стимул). Sd - стимул, за часом попередній певної поведінкової реакції, Sr - стимул, що підкріплює певну поведінкову реакцію та за часом наступний за нею. Хоча в повсякденному житті ці стимули часто поєднані в одному об'єкті, вони можуть бути розділені шляхом аналізу з метою систематизації та визначення послідовності заходів впливу на поведінку, що модифікується. При використанні оперантних методів управління результатами поведінки здійснюється для на саму поведінку. Тому тут дуже важливий етап функціонального аналізучи поведінкової діагностики. Завдання цього етапу полягає у визначенні підкріплюючої значущості навколишніх пацієнта об'єктів, встановленні ієрархії їхньої підкріплювальної сили. Це робиться шляхом прямого спостереження за поведінкою людини і встановлення зв'язку між частотою і інтенсивністю поведінки (залежна змінна) і наявними в цей час об'єктами і подіями, що відбуваються в оточенні (незалежна змінна).
Оперантні методи можуть бути використані для вирішення низки завдань.
1. Формування нового стереотипу поведінки, якого раніше був у репертуарі поведінкових реакцій людини (наприклад, кооперативне поведінка дитини, поведінка самостверджуючого типу в пасивного дитини тощо. буд.). Для вирішення цього завдання можна використовувати кілька стратегій вироблення нового поведінки.
Під шейпінгом розуміється поетапне моделювання складної поведінки, яке було властиво раніше індивіду. У ланцюзі послідовних впливів важливим є перший елемент, який, хоч і віддалено, пов'язаний з кінцевою метою шейпінгу, проте з великим ступенем ймовірності спрямовує поведінку в потрібне русло. Цей перший елемент має бути точно диференційований, а критерії оцінки досягнення чітко визначені. Для полегшення прояву першого елемента бажаного стереотипу має бути обрана умова, яка може бути досягнута найшвидше і найлегше. Для цього використовується різноманітне підкріплення, що варіює, від матеріальних предметівдо соціального підкріплення (схвалення, похвала та ін.). Наприклад, при навчанні дитини навичкам самостійного одягання першим елементом може бути привернення уваги до одягу.
У разі "зчеплення" використовується уявлення про поведінковий стереотип як ланцюг окремих поведінкових актів, при цьому кінцевий результаткожного акта є дискримінантним стимулом, який запускає новий поведінковий акт. При реалізації стратегії зчеплення слід починати з формування та закріплення останнього поведінкового акту, що знаходиться найближче до кінця ланцюга, до мети. Розгляд складної поведінки як ланцюга послідовних поведінкових актів дозволяє зрозуміти, яка частина ланцюга добре сформована, а яка має бути створена за допомогою шейпінгу. Тренінг повинен тривати до того моменту, поки бажана поведінка всього ланцюга не здійснюється за допомогою звичайних стимулів, що підкріплюють.
Фейдинг - це поступове зменшення величини стимулів, що підкріплюють. При досить міцно сформованому стереотипі пацієнт повинен реагувати на мінімальне підкріплення тим самим. Фейдинг відіграє важливу роль при переході від тренувань з психотерапевтом до тренувань у повсякденному оточенні, коли стимули, що підкріплюють, виходять від інших людей, що заміщають психотерапевта.
Сприяння є варіантом вербального або невербального підкріплення, який підвищує у того, хто навчається, рівень уваги і фокусування на бажаному стереотипі поведінки. Підкріплення може виражатися в демонстрації цієї поведінки, прямих інструкціях, центрованих або потрібних діях, або об'єкті дії тощо.
2. Закріплення вже наявного репертуарі індивіда бажаного стереотипу поведінки. Для вирішення цієї задачі може використовуватися позитивне підкріплення, негативне підкріплення, контроль стимулу.
3. Зменшення чи згасання небажаного стереотипу поведінки. Досягається за допомогою методик покарання, погашення, насичення.
4. Позбавлення всіх позитивних підкріплень.
5. Оцінка відповіді.
також Біхевіоризм, Поведінкова психотерапія, Позитивне та негативне підкріплення.