Теорія перекладу та комп'ютерна лінгвістика. Історія розвитку комп'ютерної лінгвістики

На філфаку Вищої школи економіки запускається нова магістерська програма, присвячена комп'ютерній лінгвістиці: тут чекають на абітурієнтів з гуманітарною та математичною базовою освітою та всіх, кому цікаво вирішувати завдання в одній із найперспективніших галузей науки. Її керівник Анастасія Бонч-Осмоловська розповіла «Теоріям та практикам», що таке комп'ютерна лінгвістика, чому роботи не замінять людину і чого навчатимуть у магістратурі ВШЕ з комп'ютерної лінгвістики.

Ця програма - чи не єдина такого роду в Росії. А де ви самі вчилися?

Я навчалася у МДУ на відділенні теоретичної та прикладної лінгвістики філологічного факультету. Потрапила туди не відразу, спочатку вступила на російське відділення, але потім серйозно захопилася лінгвістикою, і мене привабила атмосфера, яка й досі залишається на кафедрі. Найголовніше там - добрий контакт між викладачами та студентами та їхня взаємна зацікавленість.

Коли в мене народилися діти і треба було заробляти життя, я пішла у сферу комерційної лінгвістики. У 2005 році було не дуже зрозуміло, що являє собою ця сфера діяльності як така. Я працювала в різних лінгвістичних фірмах: починала з невеликої фірми за сайтом Public.ru - це така бібліотека ЗМІ, там я почала займатися лінгвістичними технологіями. Потім рік працювала в Роснанотеху, де була ідея зробити аналітичний портал, щоб дані на ньому автоматично структурувалися. Потім я керувала лінгвістичним відділом у компанії «Авікомп» - це вже серйозне виробництво в галузі комп'ютерної лінгвістики та семантичних технологій. Паралельно я вела курс з комп'ютерної лінгвістики в МДУ і намагалася зробити його сучаснішим.

Два ресурси для лінгвіста: - сайт, створений лінгвістами для наукових та прикладних досліджень, пов'язаних із російською мовою. Це модель російської, представлена ​​з допомогою величезного масиву текстів різних жанрів і періодів. Тексти забезпечені лінгвістичною розміткою, за допомогою якої можна отримувати інформацію про частотність тих чи інших мовних явищ. Ворднет - величезна лексична база англійської мови, головна ідея Ворднета - пов'язати в одну велику мережу не слова, але їх смисли. Ворднет можна завантажувати та використовувати для власних проектів.

А чим займається комп'ютерна лінгвістика?

Це дуже міждисциплінарна область. Тут найголовніше розуміти, що відбувається в електронному світі і хто тобі допоможе зробити конкретні речі.

Нас оточує дуже багато дигітальної інформації, існує безліч бізнес-проектів, успіх яких залежить від обробки інформації, ці проекти можуть ставитися до сфери маркетингу, політики, економіки і чого завгодно. І дуже важливо вміти поводитися з цією інформацією ефективно - головне не лише швидкість обробки інформації, але й легкість, з якою ти можеш, відсіявши шум, дістати ті дані, які тобі потрібні, і створити цільну картину.

Раніше з комп'ютерною лінгвістикою були пов'язані якісь глобальні ідеї, наприклад: люди думали, що машинний переклад замінить на людський, замість людей працюватимуть роботи. Але зараз це здається утопією, і машинний переклад використовується в пошукових системах для швидкого пошуку незнайомою мовою. Тобто зараз лінгвістика рідко займається абстрактними завданнями - переважно якимись маленькими штучками, які можна вставити у великий продукт і на цьому заробити.

Одне з великих завдань сучасної лінгвістики - семантичний web, коли пошук відбувається не просто за збігом слів, а за змістом, а всі сайти так чи інакше розмічені семантикою. Це може бути корисним, наприклад, для поліцейських або медичних звітів, які пишуться щодня. Аналіз внутрішніх зв'язків дає багато потрібної інформації, а читати та рахувати це вручну неймовірно довго.

У двох словах, у нас є тисяча текстів, треба розкласти їх за купками, подати кожен текст у вигляді структури та отримати таблицю, з якою вже можна працювати. Це називається обробка неструктурованої інформації. З іншого боку, комп'ютерна лінгвістика займається, наприклад, створенням штучних текстів. Є така компанія, яка вигадала механізм генерації текстів на теми, на які людині писати нудно: зміна цін на нерухомість, прогноз погоди, звіт про футбольні матчі. Замовляти людині ці тексти набагато дорожче, причому комп'ютерні тексти написані зв'язною людською мовою на такі теми.

Розробками в галузі пошуку неструктурованої інформації в Росії активно займається Яндекс, Лабораторія Касперського наймає дослідницькі групи, які вивчають машинне навчання. Хтось на ринку намагається вигадати щось нове в галузі комп'ютерної лінгвістики?

**Книги з комп'ютерної лінгвістики:**

Daniel Jurafsky, Speech and Language Processing

Крістофер Маннінг, Прабхакар Рагхаван, Хайнріх Шютце, "Введення в інформаційний пошук"

Яків Тестелець, «Вступ до загального синтаксису»

Більшість лінгвістичних розробок є власністю великих компаній, практично нічого не можна знайти у відкритому доступі. Це гальмує розвиток галузі, ми не маємо вільного лінгвістичного ринку, коробкових рішень.

Крім того, бракує повноцінних інформаційних ресурсів. Є такий проект, як Національний корпус російської мови. Це один із найкращих національних корпусів у світі, який стрімко розвивається та відкриває неймовірні можливості з наукових та прикладних досліджень. Різниця приблизно як у біології - до ДНК-досліджень та після.

Але багато ресурсів не існують російською мовою. Так, немає аналога такому чудовому англомовному ресурсу, як Framenet - це така концептуальна мережа, де формально представлені всі можливі зв'язки якогось конкретного слова з іншими словами. Наприклад, є слово "літати" - хто може літати, куди, з яким приводом вживається це слово, з якими словами воно поєднується і таке інше. Цей ресурс допомагає пов'язати мову з реальним життям, тобто простежити, як поводиться конкретне слово лише на рівні морфології та синтаксису. Це дуже корисно.

У компанії Avicomp зараз розробляється плагін для пошуку близьких за змістом статей. Тобто, якщо вас зацікавила якась стаття, ви можете оперативно подивитися історію сюжету: коли тема виникла, що писалося і коли був пік інтересу до цієї проблеми. Наприклад, за допомогою цього плагіна можна буде, відштовхнувшись від статті, присвяченої подіям у Сирії, дуже швидко побачити, як протягом останнього року там розвивалися події.

Як буде побудовано процес навчання в магістратурі?

Навчання у Вишці організовано за окремими модулями – як у західних університетах. Студенти будуть поділені на маленькі команди, міні-стартапи – тобто на виході ми маємо отримати кілька готових проектів. Ми хочемо отримати реальні продукти, які потім відкриємо людям та залишимо у відкритому доступі.

Окрім безпосередніх керівників проектів студентів, ми хочемо знайти їм кураторів з-поміж їхніх потенційних роботодавців - з того ж «Яндекса», наприклад, які теж гратимуть у цю гру і давати студентам якісь поради.

Я сподіваюся, що до магістратури прийдуть люди з різних областей: програмісти, лінгвісти, соціологи, маркетологи. У нас буде кілька адаптаційних курсів з лінгвістики, математики та програмування. Потім у нас буде два серйозні курси з лінгвістики, і вони будуть пов'язані з найактуальнішими лінгвістичними теоріями, ми хочемо, щоб наші випускники могли читати і розуміти сучасні лінгвістичні статті. Те саме і з математикою. У нас буде курс, який називатиметься «Математичні основи комп'ютерної лінгвістики», де викладатимуться ті розділи математики, на яких ґрунтується сучасна комп'ютерна лінгвістика.

Для того, щоб вступити до магістратури, потрібно скласти вступний іспит з мови та пройти конкурс портфоліо.

Крім основних курсів будуть лінійки предметів на вибір Ми запланували кілька циклів - два з них орієнтовані на більш глибоке вивчення окремих тем, до яких належать, наприклад, машинний переклад і корпусна лінгвістика, і, а один, навпаки, пов'язаний із суміжними областями: такими як , соціальні мережі, машинне навчання або Digital Humanities – курс, який, як ми сподіваємося, будемо прочитаний англійською мовою.

Тимофєєва Марія Кирилівна
Лікар філологічних наук, старший науковий співробітник лабораторії логічних систем Інституту математики ім. С.Л. Соболєва СО РАН, завідувач кафедри фундаментальної та прикладної лінгвістики Гуманітарного інституту НГУ. Закінчила відділення математичної лінгвістики Гуманітарного факультету Новосибірського державного університету.
Сфера наукових інтересів: філософсько-методологічні засади лінгвістики, логічні проблеми семантики та прагматики природної мови, функціональні математичні моделі природної мови, природні та формальні мови.

Стукачов Олексій Ілліч
Кандидат фізико-математичних наук, доцент старший науковий співробітник Інституту математики ім. С.Л. Соболєва СО РАН, доцент кафедри дискретної математики та інформатики Механіко-математичного факультету НГУ, доцент кафедри фундаментальної та прикладної лінгвістики Гуманітарного інституту НГУ
Сфера наукових інтересів: математична логіка, теорія обчислюваності (узагальнена обчислюваність, обчислюваність у допустимих множинах, HF-обчислюваність), теорія моделей (конструктивні моделі, ефективні уявлення систем, ступеня репрезентації), обчислюваний аналіз. Математична лінгвістика: формальна семантика, семантика Монтегю, дистрибутивна семантика.

Барахнін Володимир Борисович
Провідний науковий співробітник лабораторії інформаційних ресурсів Інституту обчислювальних технологій СВ РАН, професор кафедри математичного моделювання Механіко-математичного факультету НГУ, професор кафедри систем інформатики та загальної інформатики Факультету інформаційних технологій НГУ.
Сфера наукових інтересів: побудова моделей розподілених інформаційних систем, створення алгоритмів опрацювання слабоструктурованих текстових документів, автоматизація комплексного аналізу поетичних текстів, методологічні питання інформатики.

Бручес Олена Павлівна
Аспірант Інституту інформатики ім. А. П. Єршова СО РАН, асистент кафедри фундаментальної та прикладної лінгвістики Гуманітарного інституту НГУ, комп'ютерний лінгвіст у компанії OnPositive.
Сфера наукових інтересів: опрацювання природних мов, машинне навчання, штучний інтелект.

Павловський Євгеній Миколайович
Кандидат фізико-математичних наук, член Ради молодих науковців та спеціалістів при Уряді НСО, член експертної ради Технопарку новосибірського Академмістечка, голова оргкомітету конференції Siberian Symposium on Data Science and Engineering.
Професійна мета: систематизація підходів до формалізації бізнес-вимог у проектах великих даних.

Пальчунов Дмитро Євгенович
Провідний науковий співробітник Інституту математики ім. С. Л. Соболєва СО РАН, завідувач кафедри загальної інформатики НГУ, завідувач відділу "Інститут дискретної математики та інформатики" Механіко-математичного факультету НГУ.
Сфера наукових інтересів: Отримано основні результати дослідження булевих алгебр з виділеними ідеалами (I-алгебр).

Свириденко Дмитро Іванович
Співробітник Інституту математики СО РАН та НГУ, бізнесмен, організатор та співвласник високотехнологічних компаній, що працюють у галузі інформаційних, комунікаційних та цифрових технологій. Бере участь у дослідженнях із семантичного моделювання, що фінансуються грантом РНФ.
Сфера наукових інтересів: філософія, методологія, прикладна математична логіка. Автор концепції та математичної теорії семантичного моделювання, висунутої спільно з академіками РАН С.С.Гончаровим та Ю.Л.Єршовим у 80-ті роки минулого століття. В даний час продовжує активно розвивати методологію та математичну теорію даної концепції, а також займається додатками цієї концепції до різних галузей. Працює над створенням методології, математичної теорії та мови семантичних розумних угод і контрактів, застосуванням ідей семантичного моделювання стосовно ТРВЗ та інших областей.

Савостьянов Олександр Миколайович
Провідний науковий співробітник у лабораторії диференціальної психофізіології Науково-дослідного інституту фізіології та фундаментальної медицини, завідувач лабораторії психологічної генетики Інституту цитології та генетики СО РАН, професор кафедри загальної інформатики, кафедри інформаційної технології НГУ, профес.
Наукові інтереси: нейрофізіологія, психогенетика, нейролінгвістика, методи комп'ютерної обробки біологічних сигналів. Дослідження спрямовані на виявлення факторів ризику появи та розвитку афективних патологій у людини залежно від соціальних та кліматичних умов життєдіяльності. В рамках досліджень проводяться експедиції до різних регіонів Росії (Новосибірська область, Тива, Якутія, Республіка Алтай) та сусідніх країн (Монголія, Китай) для збору біологічного матеріалу та колекції ЕЕГ-записів у різних експериментальних умовах. Метою досліджень є створення діагностичних систем, що дозволяють оцінити ризик порушення емоційного регулювання поведінки людини в умовах підвищеного стресогенного навантаження.

Зміст статті

КОМП'ЮТЕРНА ЛІНГВІСТИКА,напрям у прикладній лінгвістиці, орієнтований використання комп'ютерних інструментів – програм, комп'ютерних технологій організації та обробки даних – для моделювання функціонування мови у тих чи інших умовах, ситуаціях, проблемних сферах тощо., і навіть вся сфера застосування комп'ютерних моделей мови у лінгвістиці та суміжних дисциплінах. Власне, тільки в останньому випадку йдеться про прикладну лінгвістику в строгому сенсі, оскільки комп'ютерне моделювання мови може розглядатися і як сфера застосування інформатики та теорії програмування до вирішення завдань науки про мову. Насправді, проте, до комп'ютерної лінгвістиці відносять практично, що пов'язані з використанням комп'ютерів у мовознавстві.

Як особливий науковий напрямок комп'ютерна лінгвістика оформилася в 1960-і роки. Російський термін "комп'ютерна лінгвістика" є калькою з англійської computational linguistics. Оскільки прикметник computational російською може перекладатися і як «обчислювальний», у літературі зустрічається також термін «обчислювальна лінгвістика», проте у вітчизняній науці він набуває більш вузького значення, що наближається до поняття «квантитативної лінгвістики». Потік публікацій у цій галузі дуже великий. Окрім тематичних збірок, у США щокварталу виходить журнал «Комп'ютерна лінгвістика». Велику організаційну та наукову роботу проводить Асоціація з комп'ютерної лінгвістики, яка має регіональні структури (зокрема європейське відділення). Кожні два роки відбуваються міжнародні конференції з комп'ютерної лінгвістики – COLING. Відповідна проблематика зазвичай буває широко представлена ​​також різних конференціях з штучному інтелекту.

Інструментарій комп'ютерної лінгвістики

Комп'ютерна лінгвістика як спеціальна прикладна дисципліна виділяється передусім інструментом – тобто. щодо використання комп'ютерних засобів обробки мовних даних. Оскільки комп'ютерні програми, що моделюють ті чи інші аспекти функціонування мови, можуть використовувати різні засоби програмування, то про загальний понятійний апарат комп'ютерної лінгвістики говорити начебто не доводиться. Однак, це не так. Існують загальні принципи комп'ютерного моделювання мислення, які так чи інакше реалізуються у будь-якій комп'ютерній моделі. В їх основі лежить теорія знань, що спочатку розроблялася в галузі штучного інтелекту, а надалі стала одним із розділів когнітивної науки. Найважливішими понятійними категоріями комп'ютерна лінгвістика є такі структури знань, як «фрейми» (понятійні, або, як заведено говорити, концептуальні структури для декларативного подання знань про типизовану тематично єдину ситуацію), «сценарії» (концептуальні структури для процедурного представлення знань про стереотипну ситуацію або стереотипному поведінці), «плани» (структури знань, що фіксують уявлення про можливі дії, що ведуть до досягнення певної мети). Тісно пов'язані з категорією кадру поняття «сцена». Категорія сцени переважно використовується в літературі з комп'ютерної лінгвістики як позначення концептуальної структури для декларативного подання актуалізованих у мовному акті та виділених мовними засобами (лексемами, синтаксичними конструкціями, граматичними категоріями та ін.) ситуацій та їх частин.

Певним чином організований набір структур знань формує модель світу когнітивної системи та її комп'ютерної моделі. У системах штучного інтелекту модель світу утворює особливий блок, до якого залежно від обраної архітектури можуть входити загальні знання про світ (у вигляді простих пропозицій типу «взимку холодно» або у вигляді правил продукцій «якщо на вулиці йде дощ, то треба надіти плащ або взяти парасольку»), деякі специфічні факти («Найвища вершина у світі – Еверест»), а також цінності та їхні ієрархії, що іноді виділяються в особливий «аксіологічний блок».

Більшість елементів понять інструментарію комп'ютерної лінгвістики омонімічні: вони одночасно позначають деякі реальні сутності когнітивної системи людини та способи представлення цих сутностей, що використовуються при їхньому теоретичному описі та моделюванні. Іншими словами, елементи понятійного апарату комп'ютерної лінгвістики мають онтологічний та інструментальний аспекти. Наприклад, в онтологічному аспекті поділ декларативних і процедурних знань відповідає різним типам знань, що є у людини – так званим знанням ЩО (декларативним; таке, наприклад, знання поштової адреси будь-якого NN), з одного боку, та знанням ЯК (процедурним; таке , наприклад, знання, що дозволяє знайти квартиру цього NN, навіть не знаючи її формальної адреси) – з іншого. В інструментальному аспекті знання може бути втілене в сукупності дескрипцій (описів), у наборі даних, з одного боку, та в алгоритмі, інструкції, яку виконує комп'ютерна або інша модель когнітивної системи, з іншого.

Напрями комп'ютерної лінгвістики.

Сфера КЛ дуже різноманітна і включає такі галузі, як комп'ютерне моделювання спілкування, моделювання структури сюжету, гіпертекстові технології подання тексту, машинний переклад, комп'ютерна лексикографія. У вузькому значенні проблематика КЛ часто пов'язується з міждисциплінарним прикладним напрямом із дещо невдалою назвою «обробка природної мови» (переклад англійської терміну Natural Language Processing). Воно виникло наприкінці 1960-х років та розвивалося в рамках науково-технологічної дисципліни «штучний інтелект». За своєю внутрішньою формою словосполучення «обробка природної мови» охоплює всі області, у яких комп'ютери використовуються обробки мовних даних. Тим часом у практиці закріпилося більш вузьке розуміння цього терміна – розробка методів, технологій та конкретних систем, що забезпечують спілкування людини з ЕОМ природною або обмеженою природною мовою.

Бурхливий розвиток напряму «обробки природної мови» посідає 1970-ті роки, що було з несподіваним експоненційним зростанням кількості кінцевих користувачів ЕОМ. Оскільки навчання мов та технології програмування всіх користувачів неможливе, виникла проблема організації взаємодії з комп'ютерними програмами. Вирішення цієї проблеми комунікації йшло двома основними шляхами. У першому випадку робилися спроби адаптації мов програмування та операційних систем до кінцевого користувача. В результаті з'явилися мови високого рівня типу Visual Basic, а також зручні операційні системи, побудовані в концептуальному просторі звичних людині метафор - ПИСЬМОВИЙ СТІЛ, БІБЛІОТЕКА. Другий шлях – розробка систем, які дозволяли б взаємодіяти з ЕОМ у конкретній проблемної області природною мовою чи якомусь його обмеженому варіанті.

Архітектура систем обробки природної мови у випадку включає блок аналізу мовного повідомлення користувача, блок інтерпретації повідомлення, блок породження сенсу відповіді і блок синтезу поверхневої структури висловлювання. Особливою частиною системи є діалоговий компонент, у якому зафіксовано стратегії ведення діалогу, умови застосування цих стратегій, способи подолання можливих комунікативних невдач (збоїв у спілкуванні).

Серед комп'ютерних систем обробки природної мови зазвичай виділяються питання-відповідні системи, діалогові системи вирішення завдань та системи обробки зв'язкових текстів. Спочатку питання-відповідальні системи стали розроблятися як реакція на погану якість кодування запитів при пошуку інформації в інформаційно-пошукових системах. Оскільки проблемна область таких систем була сильно обмежена, це дещо спрощувало алгоритми перекладу запитів у подання формальною мовою та зворотну процедуру перетворення формального подання у висловлювання природною мовою. p align="justify"> З вітчизняних розробок до програм такого типу відноситься система ПОЕТ, створена колективом дослідників під керівництвом Е.В.Попова. Система обробляє запити російською (з невеликими обмеженнями) та синтезує відповідь. Блок-схема програми передбачає проходження всіх етапів аналізу (морфологічного, синтаксичного та семантичного) та відповідних етапів синтезу.

Діалогові системи вирішення завдань, на відміну від систем попереднього типу, відіграють у комунікації активну роль, оскільки їх завдання полягає в тому, щоб отримати вирішення проблеми на основі тих знань, які представлені в ній самій, та інформації, яку можна отримати від користувача. Система містить структури знань, у яких фіксуються типові послідовності дій на вирішення завдань у цій проблемної області, і навіть інформацію про необхідні ресурси. Коли користувач ставить запитання або ставить певне завдання, активізується відповідний сценарій. Якщо якісь компоненти сценарію пропущені чи відсутні ресурси, система виступає ініціатором комунікації. Так працює, наприклад, система SNUKA, яка вирішує завдання планування військових операцій.

Системи обробки зв'язкових текстів досить різноманітні структурою. Їх загальною рисою вважатимуться широке використання технологій уявлення знань. Функції систем такого роду полягають у розумінні тексту та відповідях на питання про його зміст. Розуміння розглядається не як універсальна категорія, бо як процес отримання інформації з тексту, який визначається конкретним комунікативним наміром. Іншими словами, текст «прочитується» тільки з установкою на те, що потенційний користувач захоче дізнатися про нього. Тим самим було й системи обробки зв'язкових текстів виявляються зовсім універсальними, а проблемно-ориентированными. Типовими прикладами систем обговорюваного типу можуть бути системи RESEARCHER і TAILOR, що утворюють єдиний програмний комплекс, що дозволяє користувачеві отримати інформацію з патентів рефератів, що описують складні фізичні об'єкти.

Найважливішим напрямком комп'ютерної лінгвістики є розробка інформаційно-пошукових систем (ІПС). Останні з'явилися наприкінці 1950-х – початку 1960-х як відповідь різке зростання обсягів науково-технічної інформації. За типом інформації, що зберігається і обробляється, а також за особливостями пошуку ІПС поділяються на дві великі групи - документальні і фактографічні. У документальних ІПС зберігаються тексти документів чи його описи (реферати, бібліографічні картки тощо.). Фактографічні ІПС мають справу з описом конкретних фактів, причому необов'язково у текстовій формі. Це можуть бути таблиці, формули та інші види представлення даних. Існують і змішані ІПС, що включають як документи, так і фактографічну інформацію. Нині фактографічні ІПС будуються з урахуванням технологій баз даних (БД). Для забезпечення інформаційного пошуку в ІПС створюються спеціальні інформаційно-пошукові мови, основу яких лежать інформаційно-пошукові тезауруси. Інформаційно-пошукова мова – це формальна мова, призначена для опису окремих аспектів плану змісту документів, що зберігаються в ІПС, та запиту. Процедура опису документа інформаційно-пошуковою мовою називається індексуванням. У результаті індексування кожному документу приписується його формальний опис інформаційно-пошуковою мовою – пошуковий образ документа. Аналогічно індексується і запит, якому приписується пошуковий образ запиту та пошукове розпорядження. Алгоритми інформаційного пошуку засновані на порівнянні пошукового розпорядження з пошуковим чином запиту. Критерій видачі документа на запит може полягати у повному чи частковому збігу пошукового образу документа та пошукового розпорядження. У ряді випадків користувач може сам сформулювати критерії видачі. Це визначається його інформаційною потребою. В автоматизованих ІПС найчастіше використовуються дескрипторні інформаційно-пошукові мови. Тематика документа описується сукупністю дескрипторів. Як дескриптори виступають слова, терміни, що позначають прості, досить елементарні категорії та поняття проблемної області. У пошуковий образ документа вводиться стільки дескрипторів, скільки різних тем торкається документа. Кількість дескрипторів не обмежується, що дозволяє описати документ у багатовимірній матриці ознак. Часто в дескрипторній інформаційно-пошуковій мові накладаються обмеження на поєднання дескрипторів. У цьому випадку можна говорити про те, що інформаційно-пошукова мова має синтаксис.

Однією з перших систем, що працювали з дескрипторною мовою, була американська система УНІТЕРМ, створена М.Таубе. Як дескриптори в цій системі функціонували ключові слова документа – унітерми. Особливість цієї ІПС полягає в тому, що спочатку словник інформаційної мови не ставив, а виникав у процесі індексування документа та запиту. Розвиток сучасних інформаційно-пошукових систем пов'язаний із розробкою ІПС безтезаурусного типу. Такі ІПС працюють з користувачем обмеженою природною мовою, а пошук здійснюється за текстами рефератів документів, за їх бібліографічними описами, а часто і за самими документами. Для індексування в ІПС безтезаурусного типу використовуються слова та словосполучення природної мови.

До галузі комп'ютерної лінгвістики певною мірою можуть бути віднесені роботи в галузі створення гіпертекстових систем, що розглядаються як особливий спосіб організації тексту і навіть як принципово новий вид тексту, протиставлений за багатьма своїми властивостями звичайному тексту, сформованому в гутенбергівській традиції друкарства. Ідея гіпертексту пов'язується з ім'ям Ванневара Буша – радника президента Ф.Рузвельта з науки. В.Буш теоретично обґрунтував проект технічної системи «Мемекс», яка дозволяла користувачеві пов'язувати тексти та їх фрагменти за різними типами зв'язків, переважно за асоціативними відносинами. Відсутність комп'ютерної техніки зробило проект важкореалізованим, оскільки механічна система виявилася надмірно складною для практичного втілення.

Ідея Буша у 1960-ті роки отримала друге народження у системі «Ксанаду» Т. Нельсона, яка вже передбачала використання комп'ютерної техніки. «Ксанаду» дозволяв користувачу прочитувати сукупність введених у систему текстів різними способами, у різній послідовності, програмне забезпечення давало можливість як запам'ятовувати послідовність переглянутих текстів, і вибирати їх практично будь-який у довільний час. Безліч текстів із зв'язуючими їх відносинами (системою переходів) було названо Т. Нельсоном гіпертекстом. Багато дослідників розглядають створення гіпертексту як початок нової інформаційної доби, протиставленої ері друкарства. Лінійність письма, що зовні відображає лінійність мови, виявляється фундаментальною категорією, що обмежує мислення людини та розуміння тексту. Світ сенсу нелінійний, тому стиснення смислової інформації в лінійному мовному відрізку вимагає використання спеціальних «комунікативних упаковок» – членування на тему та рему, поділ плану змісту висловлювання на експліцитні (ствердження, пропозиція, фокус) та імпліцитні (пресупозиція, слідство, імп . Відмова від лінійності тексту і в процесі його подання читачеві (тобто при читанні та розумінні) та в процесі синтезу, на думку теоретиків, сприяла б «звільненню» мислення і навіть виникненню його нових форм.

У комп'ютерній системі гіпертекст представлений як графа, у вузлах якого перебувають традиційні тексти чи його фрагменти, зображення, таблиці, відеоролики тощо. Вузли пов'язані різноманітними відносинами, типи яких задаються розробниками програмного забезпечення гіпертексту чи самим читачем. Відносини задають потенційні можливості пересування, або навігації гіпертекстом. Відносини можуть бути односпрямованими або двоспрямованими. Відповідно, двоспрямовані стрілки дозволяють рухатися користувачеві в обидві сторони, а односпрямовані - тільки в одну. Ланцюжок вузлів, якими проходить читач під час перегляду компонентів тексту, утворює шлях, чи маршрут.

Комп'ютерні реалізації гіпертексту бувають ієрархічними чи мережевими. Ієрархічна – деревоподібна – будова гіпертексту суттєво обмежує можливості переходу між його компонентами. У такому гіпертексті відносини між компонентами нагадують структуру тезаурусу, заснованого на родовидових зв'язках. Мережевий гіпертекст дозволяє використовувати різні типи відносин між компонентами, не обмежуючись відносинами «рід – вид». За способом існування гіпертексту виділяються статичні та динамічні гіпертексти. Статичний гіпертекст не змінюється у процесі експлуатації; у ньому користувач може фіксувати свої коментарі, проте вони не змінюють суть справи. Для динамічного гіпертексту зміна є нормальною формою існування. Зазвичай динамічні гіпертексти функціонують там, де потрібно постійно аналізувати потік інформації, тобто. в інформаційних службах різноманітних. Гіпертекстовий є, наприклад, Арізонська інформаційна система (AAIS), яка щомісяця поповнюється на 300-500 рефератів на місяць.

Відносини між елементами гіпертексту можуть спочатку фіксуватися творцями, а можуть породжуватися щоразу, коли відбувається звернення користувача до гіпертексту. У першому випадку йдеться про гіпертексти жорсткої структури, а в другому – про гіпертексти м'якої структури. Жорстка структура технологічно цілком зрозуміла. Технологія організації м'якої структури має ґрунтуватися на семантичному аналізі близькості документів (або інших джерел інформації) один до одного. Це нетривіальне завдання комп'ютерної лінгвістики. В даний час поширене використання технологій м'якої структури на ключових словах. Перехід від одного вузла до іншого в мережі гіпертексту здійснюється внаслідок пошуку ключових слів. Оскільки набір ключових слів щоразу може відрізнятися, щоразу змінюється структура гіпертексту.

Технологія побудови гіпертекстових систем робить різниці між текстової і нетекстовой інформацією. Тим часом включення візуальної та звукової інформації (відеороликів, картин, фотографій, звукозаписів тощо) вимагає суттєвої зміни інтерфейсу з користувачем та більш потужної програмної та комп'ютерної підтримки. Такі системи отримали назву гіпермедіа або мультимедіа. Наочність мультимедійних систем зумовила їхнє широке використання у навчанні, у створенні комп'ютерних варіантів енциклопедій. Існують, наприклад, чудово виконані CD-роми з мультимедійними системами з дитячих енциклопедій видавництва «Дорлін Кіндерслі».

У межах комп'ютерної лексикографії розробляються комп'ютерні технології складання та експлуатації словників. Спеціальні програми – бази даних, комп'ютерні картотеки, програми обробки тексту – дозволяють автоматично формувати словникові статті, зберігати словникову інформацію та обробляти її. Багато різних комп'ютерних лексикографічних програм поділяються на дві великі групи: програми підтримки лексикографічних робіт і автоматичні словники різних типів, що включають лексикографічні бази даних. Автоматичний словник – це словник у спеціальному машинному форматі, який призначений для використання на ЕОМ користувачем або комп'ютерною програмою обробки тексту. Іншими словами, різняться автоматичні словники кінцевого користувача-людини та автоматичні словники для програм обробки тексту. Автоматичні словники, призначені для кінцевого користувача, за інтерфейсом та структурою словникової статті суттєво відрізняються від автоматичних словників, включених до систем машинного перекладу, системи автоматичного реферування, інформаційного пошуку тощо. Найчастіше вони є комп'ютерними версіями добре відомих звичайних словників. На ринку програмного забезпечення є комп'ютерні аналоги тлумачних словників англійської мови (автоматичний Вебстер, автоматичний тлумачний словник англійської видавництва Коллінз, автоматичний варіант Нового великого англо-російського словника під ред. Ю.Д.Апресяна та Е.М.Медникової), існує і комп'ютерна версія словника Ожегова. Автоматичні словники для програм обробки тексту можна назвати автоматичними словниками точно. Вони зазвичай не призначені для звичайного користувача. Особливості їхньої структури, сфера охоплення словникового матеріалу задаються тими програмами, які з ними взаємодіють.

Комп'ютерне моделювання структури сюжету – ще один перспективний напрямок комп'ютерної лінгвістики. Вивчення структури сюжету відноситься до проблематики структурного літературознавства (у широкому значенні), семіотики та культурології. Наявні комп'ютерні програми моделювання сюжету ґрунтуються на трьох базових формалізмах уявлення сюжету – морфологічному та синтаксичному напрямках уявлення сюжету, а також на когнітивному підході. Ідеї ​​про морфологічний устрій структури сюжету сягають відомих робіт В.Я.Проппа ( см.) про російську чарівну казку. Пропп зауважив, що з великої кількості персонажів та подій чарівної казки кількість функцій персонажів обмежена, і запропонував апарат для опису цих функцій. Ідеї ​​Проппа лягли основою комп'ютерної програми TALE, моделюючої породження сюжету казки. В основу алгоритму програми TALE покладено послідовність функцій персонажів казки. Фактично функції Проппа задавали безліч типізованих ситуацій, упорядкованих з урахуванням аналізу емпіричного матеріалу. Можливості зчеплення різних ситуацій у правилах породження визначалися типовою послідовністю функцій – у вигляді, у якому вдається встановити з текстів казок. У програмі типові послідовності функцій описувалися як типові сценарії зустрічей персонажів.

Теоретичну основу синтаксичного підходу до сюжету тексту склали "сюжетні граматики", або "граматики оповідання" (story grammars). Вони з'явилися в середині 1970-х років в результаті перенесення ідей граматики Н.Хомського, що породжує, на опис макроструктури тексту. Якщо найважливішими складовими синтаксичної структури в граматиці, що породжує, були дієслівні та іменні групи, то в більшості сюжетних граматик в якості базових виділялися експозиція (setting), подія та епізод. Теоретично сюжетних граматик широко обговорювалися умови мінімальності, тобто обмеження, визначали статус послідовності з елементів сюжету як нормальний сюжет. Виявилося, що чисто лінгвістичними методами це зробити неможливо. Багато обмежень мають соціокультурний характер. Сюжетні граматики, суттєво відрізняючись набором категорій у дереві породження, допускали дуже обмежений набір правил модифікації оповідальної (наративної) структури.

На початку 1980-х років однією з учениць Р.Шенка – В.Ленерт у рамках робіт зі створення комп'ютерного генератора сюжетів було запропоновано оригінальний формалізм емоційних сюжетних одиниць (Affective Plot Units), який виявився потужним засобом представлення структури сюжету. При тому, що він спочатку був розроблений для системи штучного інтелекту, цей формалізм використовувався в суто теоретичних дослідженнях. Сутність підходу Ленерт у тому, що сюжет описувався як послідовна зміна когнітивно-емоційних станів персонажів. Тим самим у центрі уваги формалізму Ленерт стоять не зовнішні компоненти сюжету – експозиція, подія, епізод, мораль, – а його змістовні характеристики. У цьому плані формалізм Ленерт частково виявляється поверненням до ідеям Проппа.

До компетенції комп'ютерної лінгвістики належить і машинний переклад, який переживає нині друге народження.

Література:

Попов Е.В. Спілкування з ЕОМ природною мовою. М., 1982
Садур В.Г. Мовленнєве спілкування з електронно-обчислювальними машинами та проблеми їх розвитку. – У кн.: Мовленнєве спілкування: проблеми та перспективи. М., 1983
Баранов О.М. Категорії штучного інтелекту у лінгвістичній семантиці. Фрейми та сценарії. М., 1987
Кобозєва І.М., Лауфер Н.І., Сабурова І.Г. Моделювання спілкування в людино-машинних системах. - Лінгвістичне забезпечення інформаційних систем. М., 1987
Олкер Х.Р. Чарівні казки, трагедії та способи викладу світової історії. – У кн.: Мова та моделювання соціальної взаємодії. М., 1987
Городецький Б.Ю. Комп'ютерна лінгвістика: моделювання мовного спілкування
Макк'юїн К. Дискурсивні стратегії для синтезу тексту природною мовою. – Нове у закордонній лінгвістиці. Вип. XXIV, Комп'ютерна лінгвістика. М., 1989
Попов Е.В., Преображенський А.Б. . Особливості реалізації ЕЯ-систем
Преображенський А.Б. Стан розвитку сучасних ЕЯ-систем. - Штучний інтелект. Кн. 1, Системи спілкування та експертні системи. М., 1990
Суботін М.М. Гіпертекст. Нова форма письмової комунікації. - ВІНІТІ, Сер. Інформатика, 1994, т. 18
Баранов О.М. Введення в прикладну лінгвістику. М., 2000



КУРСОВА РОБОТА

з дисципліни «Інформатика»

на тему: «Комп'ютерна лінгвістика»


ВСТУП

1. Місце та роль комп'ютерної лінгвістики у лінгвістичних дослідженнях

2. Сучасні інтерфейси комп'ютерної лінгвістики

ВИСНОВОК

ЛІТЕРАТУРА


Вступ

У житті сучасного суспільства важливе значення мають автоматизовані інформаційні технології. З часом їх значення безперервно зростає. Але розвиток інформаційних технологій відбувається дуже нерівномірно: якщо сучасний рівень обчислювальної техніки та засобів зв'язку вражає уяву, то в галузі смислової обробки інформації успіхи значно скромніші. Ці успіхи залежать, перш за все, від досягнень у вивченні процесів людського мислення, процесів мовного спілкування між людьми та від уміння моделювати ці процеси на ЕОМ.

Коли йдеться про створення перспективних інформаційних технологій, то проблеми автоматичної обробки текстової інформації, представленої природними мовами, виступають на передній план. Це визначається тим, що мислення людини тісно пов'язане з її мовою. Понад те, природна мова є інструментом мислення. Він є також універсальним засобом спілкування для людей – засобом сприйняття, накопичення, зберігання, обробки та передачі. Проблемами використання природної мови в системах автоматичного оброблення інформації займається наука комп'ютерна лінгвістика. Ця наука виникла порівняно недавно – на рубежі п'ятдесятих та шістдесятих років минулого сторіччя. За минулі півстоліття в галузі комп'ютерної лінгвістики були отримані значні наукові та практичні результати: були створені системи машинного перекладу текстів з одних природних мов на інші, системи автоматизованого пошуку інформації в текстах, системи автоматичного аналізу та синтезу мовлення та багато інших. Ця робота присвячена побудові оптимального комп'ютерного інтерфейсу засобами комп'ютерної лінгвістики під час проведення лінгвістичних досліджень.


У світі під час проведення різних лінгвістичних досліджень дедалі більше активно використовується комп'ютерна лінгвістика.

Комп'ютерна лінгвістика – це область знань, пов'язана з вирішенням завдань автоматичного оброблення інформації, представленої природною мовою. Центральними науковими проблемами комп'ютерної лінгвістики є проблема моделювання процесу розуміння сенсу текстів (переходу від тексту до формалізованого уявлення його сенсу) та проблема синтезу мови (переходу від формалізованого уявлення сенсу до текстів природною мовою). Ці проблеми виникають при вирішенні ряду прикладних завдань і, зокрема, задач автоматичного виявлення та виправлення помилок при введенні текстів в ЕОМ, автоматичного аналізу та синтезу мовлення, автоматичного перекладу текстів з одних мов на інші, спілкування з ЕОМ природною мовою, автоматичної класифікації та індексування текстових документів, їх автоматичного реферування, пошуку документів у повнотекстових базах даних.

Лінгвістичні засоби, що створюються та використовуються в комп'ютерній лінгвістиці, можна умовно розділити на дві частини: декларативну та процедурну. До декларативної частини відносяться словники одиниць мови та мови, тексти та різного роду граматичні таблиці, до процедурної частини – засоби маніпулювання одиницями мови та мови, текстами та граматичними таблицями. Комп'ютерний інтерфейс відноситься до процедурної частини комп'ютерної лінгвістики.

Успіх у вирішенні прикладних завдань комп'ютерної лінгвістики залежить, насамперед, від повноти та точності представлення у пам'яті ЕОМ декларативних засобів та від якості процедурних засобів. На сьогоднішній день необхідний рівень вирішення цих завдань поки що не досягнуто, хоча роботи в галузі комп'ютерної лінгвістики ведуться у всіх розвинених країнах світу (Росія, США, Англія, Франція, Німеччина, Японія та ін.).

Тим не менш, можна відзначити серйозні наукові та практичні досягнення у галузі комп'ютерної лінгвістики. Так у ряді країн (Росія, США, Японія, та ін.) побудовано експериментальні та промислові системи машинного перекладу текстів з одних мов на інші, побудовано низку експериментальних систем спілкування з ЕОМ природною мовою, ведуться роботи зі створення термінологічних банків даних, тезаурусів, двомовних та багатомовних машинних словників (Росія, США, Німеччина, Франція та ін.), будуються системи автоматичного аналізу та синтезу мовлення (Росія, США, Японія та ін.), ведуться дослідження в галузі побудови моделей природних мов.

p align="justify"> Важливою методологічною проблемою прикладної комп'ютерної лінгвістики є правильна оцінка необхідного співвідношення між декларативною та процедурною компонентами систем автоматичної обробки текстової інформації. Чому віддати перевагу: потужним обчислювальним процедурам, що спираються на відносно невеликі словникові системи з багатою граматичною та семантичною інформацією, чи потужною декларативною компонентою за відносно простих комп'ютерних інтерфейсів? Більшість вчених вважають, що другий шлях кращий. Він швидше призведе до досягнення практичних цілей, тому що при цьому менше зустрінеться глухих кутів і важко подоланих перешкод і тут можна буде в ширших масштабах використовувати ЕОМ для автоматизації досліджень і розробок.

Необхідність мобілізації зусиль насамперед на розвитку декларативної компоненти систем автоматичної обробки текстової інформації підтверджується півстолітнім досвідом розвитку комп'ютерної лінгвістики. Адже тут, незважаючи на безперечні успіхи цієї науки, захоплення алгоритмічними процедурами не дало очікуваного успіху. Настало навіть деяке розчарування у можливостях процедурних засобів.

У світлі вищевикладеного, є перспективним такий шлях розвитку комп'ютерної лінгвістики, коли основні зусилля будуть спрямовані на створення потужних словників одиниць мови та мови, вивчення їх семантико-синтаксичної структури та на створення базових процедур морфологічного, семантико-синтаксичного та концептуального аналізу та синтезу текстів. Це дозволить у подальшому вирішувати широкий спектр прикладних завдань.

Перед комп'ютерною лінгвістикою стоять передусім завдання лінгвістичного забезпечення процесів збирання, накопичення, обробки та пошуку інформації. Найбільш важливими є:

1. Автоматизація складання та лінгвістичної обробки машинних словників;

2. Автоматизація процесів виявлення та виправлення помилок під час введення текстів в ЕОМ;

3. Автоматичне індексування документів та інформаційних запитів;

4. Автоматична класифікація та реферування документів;

5. Лінгвістичне забезпечення процесів пошуку інформації в одномовних та багатомовних базах даних;

6. Машинний переклад текстів з одних мов на інші;

7. Побудова лінгвістичних процесорів, які забезпечують спілкування користувачів з автоматизованими інтелектуальними інформаційними системами (зокрема, з експертними системами) природною мовою, або мовою, близькою до природної;

8. Вилучення фактографічної інформації з неформалізованих текстів.

Детально зупинимося на проблемах, що найбільше стосуються теми дослідження.

У практичній діяльності інформаційних центрів є необхідність вирішення задачі автоматизованого виявлення та виправлення помилок у текстах при їх введенні в ЕОМ. Ця комплексна задача може бути умовно розчленована на три завдання – завдання орфографічного, синтаксичного та семантичного контролю текстів. Перша їх може бути вирішена з допомогою процедури морфологічного аналізу, використовує досить потужний еталонний машинний словник основ слів. У процесі орфографічного контролю слова тексту піддаються морфологічному аналізу, і якщо основи ототожнюються з основами еталонного словника, всі вони вважаються правильними; якщо не ототожнюються, то вони у супроводі мікроконтексту видаються на перегляд людині. Людина виявляє та виправляє спотворені слова, а відповідна програмна система вносить ці виправлення до тексту, що коректується.

Завдання синтаксичного контролю текстів з метою виявлення в них помилок суттєво складніше за завдання їхнього орфографічного контролю. По-перше, тому, що вона включає у свій склад і завдання орфографічного контролю як свою обов'язкову компоненту, а по-друге, тому, що проблема синтаксичного аналізу неформалізованих текстів у повному обсязі ще не вирішена. Проте частковий синтаксичний контроль текстів цілком можливий. Тут можна йти двома шляхами: або складати досить представницькі машинні словники еталонних синтаксичних структур та порівнювати з ними синтаксичні структури аналізованого тексту; або розробляти складну систему правил перевірки граматичної узгодженості елементів тексту. Перший шлях нам видається перспективнішим, хоча він, звичайно, не виключає і можливості застосування елементів другого шляху. Синтаксична структура текстів повинна описуватись у термінах граматичних класів слів (точніше – у вигляді послідовностей наборів граматичної інформації до слів).

Завдання семантичного контролю текстів із виявлення у яких смислових помилок слід зарахувати до класу завдань штучного інтелекту. У повному обсязі вона може бути вирішена лише на основі моделювання процесів людського мислення. При цьому, мабуть, доведеться створювати потужні енциклопедичні бази знань та програмні засоби маніпулювання знаннями. Тим не менш, для обмежених предметних областей і для формалізованої інформації це завдання можна вирішити. Вона має ставитися і вирішуватись як завдання семантико-синтаксичного контролю текстів.

КОМП'ЮТЕРНА ЛІНГВІСТИКА (калька з англійської computational linguistics), один із напрямків прикладної лінгвістики, в якому для дослідження мови та моделювання функціонування мови в тих чи інших умовах, ситуаціях та проблемних сферах розробляються та використовуються комп'ютерні програми, комп'ютерні технології організації та обробки даних. З іншого боку, це сфера застосування комп'ютерних моделей мови у лінгвістиці та суміжних з нею дисциплінах. Як особливий науковий напрямок комп'ютерна лінгвістика оформилася у європейських дослідженнях у 1960-х роках. Оскільки англійське прикметник computational може перекладатися і як «обчислювальний», у літературі зустрічається також термін «обчислювальна лінгвістика», проте у вітчизняній науці він набуває більш вузького значення, що наближається до поняття «квантитативна лінгвістика».

Часто до комп'ютерної лінгвістики відносять термін «квантитативна лінгвістика», який характеризує міждисциплінарний напрямок у прикладних дослідженнях, де як основний інструмент вивчення мови та мови використовуються кількісні чи статистичні методи аналізу. Іноді квантитативна (або кількісна) лінгвістика протиставляється комбінаторній лінгвістиці. В останній домінуючу роль займає «кількісний» математичний апарат - теорія множин, математична логіка, теорія алгоритмів і т.д. модель, що має значний пояснювальний потенціал. У прикладній області квантитативна лінгвістика представлена ​​насамперед використанням фрагментів цієї моделі, що використовуються для лінгвістичного моніторингу функціонування мови, дешифрування кодованого тексту, авторизації/атрибуції тексту тощо.

Термін «комп'ютерна лінгвістика» і проблематика цього напряму часто пов'язуються з моделюванням спілкування, і насамперед - із забезпеченням взаємодії людини з ЕОМ природною або обмеженою природною мовою (для цього створюються спеціальні системи обробки природної мови), а також з теорією та практикою інформаційно- пошукових систем (ІПС) Забезпечення спілкування людини з ЕОМ природною мовою іноді позначається терміном «обробка природної мови» (переклад з англійської терміна Natural Language Processing). Цей напрямок комп'ютерної лінгвістики виник наприкінці 1960-х років за кордоном і розвивався в рамках науково-технологічної дисципліни, що називається штучним інтелектом (роботи Р. Шенка, М. Лебовиця, Т. Винограда та ін.). За змістом словосполучення «обробка природної мови» має охоплювати всі області, у яких комп'ютери використовуються обробки мовних даних. Насправді, проте, закріпилося вужче розуміння терміна - розробка методів, технологій і конкретних систем, які забезпечують спілкування людини з ЕОМ природним чи обмеженою природною мовою.

До комп'ютерної лінгвістиці певною мірою можуть бути віднесені роботи в галузі створення гіпертекстових систем, що розглядаються як особливий спосіб організації тексту і навіть як принципово новий вид тексту, протиставлений за багатьма своїми властивостями звичайному тексту, сформованому в гутенбергівській традиції друкарства (дивись Гутенберг).

До компетенції комп'ютерної лінгвістики і автоматичний переклад.

У рамках комп'ютерної лінгвістики виник і порівняно новий напрямок, що активно розвивається з 1980-90-х років - корпусна лінгвістика, де розробляються загальні принципи побудови лінгвістичних корпусів даних (зокрема, корпусів текстів) з використанням сучасних комп'ютерних технологій. Корпуси текстів – це колекції спеціально підібраних текстів книг, журналів, газет тощо, перенесені на машинні носії та призначені для автоматичної обробки. Один із перших корпусів текстів був створений для американського варіанта англійської мови в Браунівському університеті (так званий Браунівський корпус) у 1962-63 під керівництвом У. Френсіса. У Росії з початку 2000-х років в Інституті російської мови імені В. В. Виноградова РАН розробляється Національний корпус російської мови, що складається з представницької вибірки російськомовних текстів обсягом близько 100 мільйонів слововжитків. Крім конструювання корпусів даних, корпусна лінгвістика займається створенням комп'ютерних інструментів (комп'ютерних програм), призначених для отримання різноманітної інформації з текстових корпусів. З погляду користувача, до корпусів текстів пред'являються вимоги представництва (репрезентативності), повноти та економічності.

Комп'ютерна лінгвістика активно розвивається і в Росії, і за кордоном. Потік публікацій у цій галузі дуже великий. Крім тематичних збірок, у США з 1984 року щоквартально виходить журнал «Computational Linguistics» («Комп'ютерна лінгвістика»). Велику організаційну та наукову роботу проводить Асоціація з комп'ютерної лінгвістики (The Association for Computational Linguistics), яка має регіональні структури в усьому світі (зокрема, європейське відділення). Кожні два роки відбуваються міжнародні конференції КОЛІНТ (у 2008 році конференція проходила в Манчестері). Основні напрямки комп'ютерної лінгвістики обговорюються також на щорічній міжнародній конференції «Діалог», що організується Російським НДІ штучного інтелекту, філологічним факультетом МДУ, Яндексом та іншими організаціями. Відповідна проблематика широко представлена ​​також на міжнародних конференціях із штучного інтелекту різних рівнів.

Літ.: Звегінцев В. А. Теоретична та прикладна лінгвістика. М., 1968; Піотровський Р. Р., Бектаєв К. Б., Піотровська А. А. Математична лінгвістика. М., 1977; Городецький Б. Ю. Актуальні проблеми прикладної лінгвістики // Нове у зарубіжній лінгвістиці. М., 1983. Вип. 12; Кібрик А. Є. Прикладна лінгвістика // Кібрик А. Є. Нариси із загальних та прикладних питань мовознавства. М., 1992; Kennedy G. An introduction to corpus linguistics. L., 1998; Bolshakov I.А., Gelbukh А. Computational linguistics: models, resources, applications. Мех., 2004; Національний корпус російської: 2003-2005. М., 2005; Баранов А. Н. Введення у прикладну лінгвістику. 3-тє вид. М., 2007; Комп'ютерна лінгвістика та інтелектуальні технології. М., 2008. Вип. 7.



Останні матеріали розділу:

Дати та події великої вітчизняної війни
Дати та події великої вітчизняної війни

О 4-й годині ранку 22 червня 1941 року війська фашистської Німеччини (5,5 млн осіб) перейшли кордони Радянського Союзу, німецькі літаки (5 тис) почали...

Все, що ви повинні знати про радіацію Джерела радіації та одиниці її виміру
Все, що ви повинні знати про радіацію Джерела радіації та одиниці її виміру

5. Дози випромінювання та одиниці виміру Дія іонізуючих випромінювань є складним процесом. Ефект опромінення залежить від величини...

Мізантропія, або Що робити, якщо я ненавиджу людей?
Мізантропія, або Що робити, якщо я ненавиджу людей?

Шкідливі поради: Як стати мізантропом і всіх радісно ненавидіти Ті, хто запевняє, що людей треба любити незалежно від обставин або...