Найважливішим напрямком комп'ютерної лінгвістики є технологія. Західні вчені: Йорік Вілкс, Грегорі Грефенштетт, Гревіл Корбетт, Джон Керолл, Діана Маккарті, Луїс Маркес, Дан Молдован, Йоакім Нівре, Віктор Раскін, Едуард Хові

Лінгвістика (від лат. lingua -
мова), мовознавство, мовознавство - наука,
вивчає мови.
Це наука про природну людську мову взагалі
і про всі мови світу як його
індивідуалізованих представників.
У широкому значенні слова, лінгвістика
підрозділяється на наукову та практичну. Частіше
всього під лінгвістикою мається на увазі саме
наукова лінгвістика. Є частиною семіотики як
науки про знаки.
Лінгвістикою професійно займаються вчені лінгвісти.

Лінгвістика та Інформатика.
У житті сучасного суспільства важливу роль відіграють автоматизовані
інформаційні технології. Але розвиток інформаційних технологій відбувається
дуже нерівномірно: якщо сучасний рівень обчислювальної техніки та
засобів зв'язку вражає уяву, то в області смислової обробки
інформації успіхи значно скромніші. Ці успіхи залежать, перш за все, від
досягнень у вивченні процесів людського мислення, процесів мовного
спілкування між людьми та від уміння моделювати ці процеси на ЕОМ. А це завдання надзвичайної складності. Коли йдеться про створення перспективних
інформаційних технологій, то проблеми автоматичної обробки текстової
інформації, представленої природними мовами, виступають на передній план.
Це визначається тим, що мислення людини тісно пов'язане з її мовою. Більше
того, природна мова є інструментом мислення. Він є також
універсальним засобом спілкування для людей – засобом сприйняття,
накопичення, зберігання, обробки та передачі інформації.
Проблемами використання природної мови у системах автоматичної
Опрацювання інформації займається наука комп'ютерна лінгвістика. Ця наука
виникла порівняно недавно - на рубежі п'ятдесятих та шістдесятих років
минулого сторіччя. Спочатку, у період свого становлення, вона мала різні
назви: математична лінгвістика, обчислювальна лінгвістика, інженерна
лінгвістика. Але на початку вісімдесятих років за нею закріпилася назва
комп'ютерна лінгвістика

Комп'ютерна лінгвістика - це сфера знань, пов'язана з вирішенням завдань
автоматичної обробки інформації, представленої природною мовою.
Центральними науковими проблемами комп'ютерної лінгвістики є проблема
моделювання процесу розуміння сенсу текстів (переходу від тексту до
формалізованому уявленню його сенсу) та проблема синтезу мови (переходу від
формалізованого уявлення сенсу до текстів природною мовою). Ці проблеми
виникають під час вирішення низки прикладних завдань:
1) автоматичного виявлення та виправлення помилок при введенні текстів в ЕОМ,
2) автоматичного аналізу та синтезу усного мовлення,
3) автоматичного перекладу текстів з одних мов на інші,
4) спілкування з ЕОМ природною мовою,
5) автоматичної класифікації та індексування текстових документів, їх
автоматичного реферування, пошуку документів у повнотекстових базах даних.
За минулі півстоліття в галузі комп'ютерної лінгвістики було отримано
значні наукові та практичні результати: були створені системи машинного
перекладу текстів з одних природних мов на інші, системи автоматизованого
пошуку інформації в текстах, системи автоматичного аналізу та синтезу мовлення та
багато інших. Але були й розчарування. Наприклад, проблема машинного перекладу
текстів з одних мов іншими виявилася значно складніше, ніж це представляли
собі піонери машинного перекладу та його послідовники. Те ж саме можна сказати про
автоматизованому пошуку інформації в текстах та задачі аналізу та синтезу усної
промови. Вченим та інженерам доведеться ще чимало потрудитися, щоб
досягти необхідних результатів.

Обробка природної мови (англ. natural language processing; синтаксичний,
морфологічний, семантичний аналіз тексту). Сюди включають також:
Корпусна лінгвістика, створення та використання електронних корпусів текстів
Створення електронних словників, тезаурус, онтологій. Наприклад, Lingvo. Словники
використовують, наприклад, для автоматичного перекладу, перевірки орфографії.
Автоматичний переклад тексту. Серед російських перекладачів популярним
є Промт. Серед безкоштовних відомий перекладач Google Translate
Автоматичне вилучення фактів із тексту (витяг інформації) (англ. fact
extraction, text mining)
Автореферування (англ. automatic text summarization). Ця функція увімкнена,
наприклад, у Microsoft Word.
Побудова систем керування знаннями. Див Експертні системи
Створення запитально-відповідальних систем (англ. question answering systems).
Оптичне розпізнавання символів (англ. OCR). Наприклад, програма FineReader
Автоматичне розпізнавання мови (англ. ASR). Є платне та безкоштовне ПЗ
Автоматичний синтез мови

Вступ

Що таке комп'ютерна лінгвістика?

КОМП'ЮТЕРНА ЛІНГВІСТИКА , напрям у прикладній лінгвістиці, орієнтований використання комп'ютерних інструментів – програм, комп'ютерних технологій організації та обробки даних – для моделювання функціонування мови у тих чи інших умовах, ситуаціях, проблемних сферах тощо., і навіть вся сфера застосування комп'ютерних моделей мови в лінгвістиці та суміжних дисциплінах. Власне, тільки в останньому випадку йдеться про прикладну лінгвістику в строгому сенсі, оскільки комп'ютерне моделювання мови може розглядатися і як сфера застосування інформатики та теорії програмування до вирішення завдань науки про мову. Насправді, проте, до комп'ютерної лінгвістиці відносять практично, що пов'язані з використанням комп'ютерів у мовознавстві.

Як особливий науковий напрямок комп'ютерна лінгвістика оформилася в 1960-і роки. Російський термін "комп'ютерна лінгвістика" є калькою з англійської computational linguistics. Оскільки прикметник computational російською може перекладатися і як «обчислювальний», у літературі зустрічається також термін «обчислювальна лінгвістика», проте у вітчизняній науці він набуває більш вузького значення, що наближається до поняття «квантитативної лінгвістики». Потік публікацій у цій галузі дуже великий. Окрім тематичних збірок, у США щокварталу виходить журнал «Комп'ютерна лінгвістика». Велику організаційну та наукову роботу проводить Асоціація з комп'ютерної лінгвістики, яка має регіональні структури (зокрема європейське відділення). Кожні два роки відбуваються міжнародні конференції з комп'ютерної лінгвістики – COLING. Відповідна проблематика зазвичай буває широко представлена ​​також різних конференціях з штучному інтелекту.

Завдання

Комп'ютерна лінгвістика перебирає власне лінгвістичні проблеми комп'ютерного моделювання мовної діяльності. Її завдання – побудова точніших і повніших лінгвістичних моделей і досконаліших алгоритмів аналізу та синтезу.

Як основні напрями можна виділити:

1) Взаємодія людини та ЕОМ: управління – мови програмування, передача інформації – інтерфейс.

2) Робота з текстами: індексування, аналіз та класифікація, автоматичне редагування (виправлення помилок), виявлення знань, машинний переклад.

Історія

Просте породження підмножини англійської мови для звернення до баз даних було забезпечено однією з ранніх американських систем LIFER (Languag Interface Facility wich Elipsis and Recursion), створеної в 70-і роки. Слідом за нею на комп'ютерному ринку з'явилися й інші, гнучкіші системи, що забезпечують обмежений природничо-мовний інтерфейс з ЕОМ.

У 80-ті роки у США утворилася низка компаній, що займаються розробкою та продажем природно-мовних інтерфейсів з базами даних, експертними системами. У 1985р. Корпорація Семантек представила такий пакет програм Q&A, компанія Карнегі Група запропонувала аналогічний пакет LanguageCraft.

Ведуться активні роботи зі створення систем автоматичного перекладу. Набула поширення система автоматичного перекладу SYSTRAN, розроблена під керівництвом Д. Тома на замовлення військово-повітряних сил США. Протягом 1974 – 1975 гг. система була використана аерокосмічною асоціацією NASA для перекладу документів за проектом Аполлон-Союз. Нині вона перекладає з кількох мов близько 100 000 сторінок щорічно.

У Європі роботи зі створення комп'ютерних систем перекладу стимулювалися утворенням Європейської інформаційної мережі (EURONET DIANA). У 1982 р. Європейське економічне співтовариство оголосило створення європейської програми EUROTRA, мета якої – розробка системи комп'ютерного перекладу всім європейських мов. Спочатку проект оцінювався у 12 млн доларів, у 1987 р. фахівці визначили сумарні витрати по цьому проекту більш ніж у 160 млн доларів.

У Японії дослідження з комп'ютерної лінгвістики концентруються навколо загальнонаціональної програми створення комп'ютерів п'ятого покоління, оголошеної 1981 року.

Існує ряд військових проектів створення людино-машинних інтерфейсів природною мовою. У вони ведуться в основному в рамках стратегічної комп'ютерної ініціативи - десятирічної програми, прийнятої міністерством оборони в 1983 р. Мета її - створення нового покоління "інтелектуальних" зброї та військових систем з метою забезпечити багаторічну технологічну перевагу США.

Природно, що фахівці з штучного інтелекту, які чудово знаються на комп'ютерах і мовах програмування, енергійно взялися за вирішення проблеми розуміння мови своїми методами. Йшов пошук алгоритмів природної мови. Було створено складні програми розуміння мови для дуже вузьких спеціальних областей, реалізовано програми часткового машинного перекладу та інших. Але вирішального поступу у вирішенні проблеми розуміння мови так і не було. Мова і людина настільки пов'язані, що вченим довелося зайнятися проблемою розуміння світу людиною. А це вже сфера філософії.

Базові поняття лінгвістики

КУРСОВА РОБОТА

з дисципліни «Інформатика»

на тему: «Комп'ютерна лінгвістика»


ВСТУП

1. Місце та роль комп'ютерної лінгвістики у лінгвістичних дослідженнях

2. Сучасні інтерфейси комп'ютерної лінгвістики

ВИСНОВОК

ЛІТЕРАТУРА


Вступ

У житті сучасного суспільства важливе значення мають автоматизовані інформаційні технології. З часом їх значення безперервно зростає. Але розвиток інформаційних технологій відбувається дуже нерівномірно: якщо сучасний рівень обчислювальної техніки та засобів зв'язку вражає уяву, то в галузі смислової обробки інформації успіхи значно скромніші. Ці успіхи залежать, перш за все, від досягнень у вивченні процесів людського мислення, процесів мовного спілкування між людьми та від уміння моделювати ці процеси на ЕОМ.

Коли йдеться про створення перспективних інформаційних технологій, то проблеми автоматичної обробки текстової інформації, представленої природними мовами, виступають на передній план. Це визначається тим, що мислення людини тісно пов'язане з її мовою. Понад те, природна мова є інструментом мислення. Він є також універсальним засобом спілкування для людей – засобом сприйняття, накопичення, зберігання, обробки та передачі. Проблемами використання природної мови в системах автоматичного оброблення інформації займається наука комп'ютерна лінгвістика. Ця наука виникла порівняно недавно – на рубежі п'ятдесятих та шістдесятих років минулого сторіччя. За минулі півстоліття в галузі комп'ютерної лінгвістики були отримані значні наукові та практичні результати: були створені системи машинного перекладу текстів з одних природних мов на інші, системи автоматизованого пошуку інформації в текстах, системи автоматичного аналізу та синтезу мовлення та багато інших. Ця робота присвячена побудові оптимального комп'ютерного інтерфейсу засобами комп'ютерної лінгвістики під час проведення лінгвістичних досліджень.


У світі під час проведення різних лінгвістичних досліджень дедалі більше активно використовується комп'ютерна лінгвістика.

Комп'ютерна лінгвістика – це область знань, пов'язана з вирішенням завдань автоматичного оброблення інформації, представленої природною мовою. Центральними науковими проблемами комп'ютерної лінгвістики є проблема моделювання процесу розуміння сенсу текстів (переходу від тексту до формалізованого уявлення його сенсу) та проблема синтезу мови (переходу від формалізованого уявлення сенсу до текстів природною мовою). Ці проблеми виникають при вирішенні ряду прикладних завдань і, зокрема, задач автоматичного виявлення та виправлення помилок при введенні текстів в ЕОМ, автоматичного аналізу та синтезу мовлення, автоматичного перекладу текстів з одних мов на інші, спілкування з ЕОМ природною мовою, автоматичної класифікації та індексування текстових документів, їх автоматичного реферування, пошуку документів у повнотекстових базах даних.

Лінгвістичні засоби, що створюються та використовуються в комп'ютерній лінгвістиці, можна умовно розділити на дві частини: декларативну та процедурну. До декларативної частини відносяться словники одиниць мови та мови, тексти та різного роду граматичні таблиці, до процедурної частини – засоби маніпулювання одиницями мови та мови, текстами та граматичними таблицями. Комп'ютерний інтерфейс відноситься до процедурної частини комп'ютерної лінгвістики.

Успіх у вирішенні прикладних завдань комп'ютерної лінгвістики залежить, насамперед, від повноти та точності представлення у пам'яті ЕОМ декларативних засобів та від якості процедурних засобів. На сьогоднішній день необхідний рівень вирішення цих завдань поки що не досягнуто, хоча роботи в галузі комп'ютерної лінгвістики ведуться у всіх розвинених країнах світу (Росія, США, Англія, Франція, Німеччина, Японія та ін.).

Тим не менш, можна відзначити серйозні наукові та практичні досягнення у галузі комп'ютерної лінгвістики. Так у ряді країн (Росія, США, Японія, та ін.) побудовано експериментальні та промислові системи машинного перекладу текстів з одних мов на інші, побудовано низку експериментальних систем спілкування з ЕОМ природною мовою, ведуться роботи зі створення термінологічних банків даних, тезаурусів, двомовних та багатомовних машинних словників (Росія, США, Німеччина, Франція та ін.), будуються системи автоматичного аналізу та синтезу мовлення (Росія, США, Японія та ін.), ведуться дослідження в галузі побудови моделей природних мов.

p align="justify"> Важливою методологічною проблемою прикладної комп'ютерної лінгвістики є правильна оцінка необхідного співвідношення між декларативною та процедурною компонентами систем автоматичної обробки текстової інформації. Чому віддати перевагу: потужним обчислювальним процедурам, що спираються на відносно невеликі словникові системи з багатою граматичною та семантичною інформацією, чи потужною декларативною компонентою за відносно простих комп'ютерних інтерфейсів? Більшість вчених вважають, що другий шлях кращий. Він швидше призведе до досягнення практичних цілей, тому що при цьому менше зустрінеться глухих кутів і важко подоланих перешкод і тут можна буде в ширших масштабах використовувати ЕОМ для автоматизації досліджень і розробок.

Необхідність мобілізації зусиль насамперед на розвитку декларативної компоненти систем автоматичної обробки текстової інформації підтверджується півстолітнім досвідом розвитку комп'ютерної лінгвістики. Адже тут, незважаючи на безперечні успіхи цієї науки, захоплення алгоритмічними процедурами не дало очікуваного успіху. Настало навіть деяке розчарування у можливостях процедурних засобів.

У світлі вищевикладеного, є перспективним такий шлях розвитку комп'ютерної лінгвістики, коли основні зусилля будуть спрямовані на створення потужних словників одиниць мови та мови, вивчення їх семантико-синтаксичної структури та на створення базових процедур морфологічного, семантико-синтаксичного та концептуального аналізу та синтезу текстів. Це дозволить у подальшому вирішувати широкий спектр прикладних завдань.

Перед комп'ютерною лінгвістикою стоять передусім завдання лінгвістичного забезпечення процесів збирання, накопичення, обробки та пошуку інформації. Найбільш важливими є:

1. Автоматизація складання та лінгвістичної обробки машинних словників;

2. Автоматизація процесів виявлення та виправлення помилок під час введення текстів в ЕОМ;

3. Автоматичне індексування документів та інформаційних запитів;

4. Автоматична класифікація та реферування документів;

5. Лінгвістичне забезпечення процесів пошуку інформації в одномовних та багатомовних базах даних;

6. Машинний переклад текстів з одних мов на інші;

7. Побудова лінгвістичних процесорів, які забезпечують спілкування користувачів з автоматизованими інтелектуальними інформаційними системами (зокрема, з експертними системами) природною мовою, або мовою, близькою до природної;

8. Вилучення фактографічної інформації з неформалізованих текстів.

Детально зупинимося на проблемах, що найбільше стосуються теми дослідження.

У практичній діяльності інформаційних центрів є необхідність вирішення задачі автоматизованого виявлення та виправлення помилок у текстах при їх введенні в ЕОМ. Ця комплексна задача може бути умовно розчленована на три завдання – завдання орфографічного, синтаксичного та семантичного контролю текстів. Перша їх може бути вирішена з допомогою процедури морфологічного аналізу, використовує досить потужний еталонний машинний словник основ слів. У процесі орфографічного контролю слова тексту піддаються морфологічному аналізу, і якщо основи ототожнюються з основами еталонного словника, всі вони вважаються правильними; якщо не ототожнюються, то вони у супроводі мікроконтексту видаються на перегляд людині. Людина виявляє та виправляє спотворені слова, а відповідна програмна система вносить ці виправлення до тексту, що коректується.

Завдання синтаксичного контролю текстів з метою виявлення в них помилок суттєво складніше за завдання їхнього орфографічного контролю. По-перше, тому, що вона включає у свій склад і завдання орфографічного контролю як свою обов'язкову компоненту, а по-друге, тому, що проблема синтаксичного аналізу неформалізованих текстів у повному обсязі ще не вирішена. Проте частковий синтаксичний контроль текстів цілком можливий. Тут можна йти двома шляхами: або складати досить представницькі машинні словники еталонних синтаксичних структур та порівнювати з ними синтаксичні структури аналізованого тексту; або розробляти складну систему правил перевірки граматичної узгодженості елементів тексту. Перший шлях нам видається перспективнішим, хоча він, звичайно, не виключає і можливості застосування елементів другого шляху. Синтаксична структура текстів повинна описуватись у термінах граматичних класів слів (точніше – у вигляді послідовностей наборів граматичної інформації до слів).

Завдання семантичного контролю текстів із виявлення у яких смислових помилок слід зарахувати до класу завдань штучного інтелекту. У повному обсязі вона може бути вирішена лише на основі моделювання процесів людського мислення. При цьому, мабуть, доведеться створювати потужні енциклопедичні бази знань та програмні засоби маніпулювання знаннями. Тим не менш, для обмежених предметних областей і для формалізованої інформації це завдання можна вирішити. Вона має ставитися і вирішуватись як завдання семантико-синтаксичного контролю текстів.

Комп'ютерна лінгвістика(також: математичнаабо обчислювальна лінгвістика, англ. computational linguistics) - науковий напрямок у галузі математичного та комп'ютерного моделювання інтелектуальних процесів у людини та тварин при створенні систем штучного інтелекту, який ставить за мету використання математичних моделей для опису природних мов.

Комп'ютерна лінгвістика частково перетинається з обробкою природних мов. Проте в останній акцент робиться не на абстрактні моделі, а на прикладні методи опису та обробки мови для комп'ютерних систем.

Полем діяльності комп'ютерних лінгвістів є розробка алгоритмів та прикладних програм для обробки мовної інформації.

Витоки

Математична лінгвістика є гілкою науки штучного інтелекту. Її історія розпочалася у Сполучених Штатах Америки у 1950-х роках. З винаходом транзистора та появою нового покоління комп'ютерів, а також перших мов програмування, почалися експерименти з машинним перекладом, особливо російських наукових журналів. У 1960-х роках подібні дослідження проводилися і в СРСР (наприклад, стаття про переведення з російської на вірменську в сб. «Проблеми кібернетики» за 1964). Проте якість машинного перекладу досі сильно поступається якістю перекладу, зробленого людиною.

З 15 по 21 травня 1958 року в I МДПІІІ відбулася перша Всесоюзна конференція з машинного перекладу. Оргкомітет очолювали В. Ю. Розенцвейг та відповідальний секретар Оргкомітету Г. В. Чернов. Повністю програму конференції опубліковано у збірнику «Машинний переклад та прикладна лінгвістика», вип. 1, 1959 (він же «Бюлетень Об'єднання з машинного перекладу № 8»). Як згадує В. Ю. Розенцвейг, опублікована збірка тез конференції потрапила до США і справила там велике враження.

У квітні 1959 року в Ленінграді відбулася І Всесоюзна нарада з математичної лінгвістики, скликана Ленінградським університетом та комітетом прикладної лінгвістики. Головним організатором Наради був Н. Д. Андрєєв. У Нараді взяли участь ряд відомих математиків, зокрема, С. Л. Соболєв, Л. В. Канторович (згодом - Нобелівський лауреат) та А. А. Марков (останні двоє виступали у дебатах). В. Ю. Розенцвейг виступив у день відкриття Наради з програмною доповіддю «Загальна лінгвістична теорія перекладу та математична лінгвістика».

Напрями комп'ютерної лінгвістики

  • Обробка природної мови (англ. natural language processing; синтаксичний, морфологічний, семантичний аналіз тексту). Сюди включають також:
  1. Корпусна лінгвістика, створення та використання електронних корпусів текстів
  2. Створення електронних словників, тезаурусів, онтологій. Наприклад, Lingvo. Словники використовують, наприклад, для автоматичного перекладу, перевірки орфографії.
  3. Автоматичний переклад тексту. Серед російських перекладачів популярним є Промт. Серед безкоштовних відомий перекладач Google Translate
  4. Автоматичне вилучення фактів із тексту (витяг інформації) (англ. fact extraction, text mining)
  5. Автореферування (англ. автоматичний текст summarization). Ця функція увімкнена, наприклад, у Microsoft Word .
  6. Побудова систем управління знаннями. Див Експертні системи
  7. Створення питання-відповідальних систем (англ. question answering systems).
  • Оптичне розпізнавання символів (англ. OCR). Наприклад, програма FineReader
  • Автоматичне розпізнавання мови (англ. ASR). Є платне та безкоштовне ПЗ
  • Автоматичний синтез мови

Великі асоціації та конференції

Навчальні програми у Росії

Див. також

Напишіть відгук про статтю "Комп'ютерна лінгвістика"

Примітки

Посилання

  • (реферат)
  • - база знань з лінгвістичних ресурсів для російської мови
  • - відкриті вихідні джерела деяких утиліт комп'ютерної лінгвістики
  • - онлайн доступ до програм комп'ютерної лінгвістики

Уривок, що характеризує Комп'ютерна лінгвістика

- Візьми, візьми дитину, - промовив П'єр, подаючи дівчинку і наказово і поспішно звертаючись до баби. - Ти віддай їм, віддай! - закричав він майже на бабу, саджаючи дівчину, що закричала на землю, і знову озирнувся на французів і на вірменське сімейство. Старий уже сидів босий. Маленький француз зняв з нього останній чобіт і поплескував чоботами один про одного. Старий, схлипуючи, говорив щось, але П'єр тільки мигцем бачив це; вся увага його була звернена на француза в капоті, який у цей час, повільно розгойдуючись, посунувся до молодої жінки і, вийнявши руки з кишень, взявся за її шию.
Красуня вірменка продовжувала сидіти в тому ж нерухомому становищі, з опущеними довгими віями, і ніби не бачила і не відчувала того, що робив із нею солдат.
Поки П'єр пробіг ті кілька кроків, які відділяли його від французів, довгий мародер у капоті вже рвав з шиї вірменки намисто, яке було на ній, і молода жінка, хапаючись руками за шию, кричала пронизливим голосом.
- Laissez cette femme! [Залишіть цю жінку!] – шаленим голосом прохрипів П'єр, схоплюючи довгого, мідного солдата за плечі і відкидаючи його. Солдат упав, підвівся і побіг геть. Але товариш його, кинувши чоботи, вийняв тесак і грізно насунувся на П'єра.
- Voyons, pas de betises! [Ну ну! Не дури!] – крикнув він.
П'єр був у тому захопленні сказу, в якому він нічого не пам'ятав і в якому сили його вдесятьох. Він кинувся на босого француза і, перш ніж той встиг вийняти свій тесак, уже збив його з ніг і молотив кулаками. Почувся схвальний крик навколишнього натовпу, в той же час з-за рогу з'явився кінний роз'їзд французьких уланів. Улани риссю під'їхали до П'єра та француза і оточили їх. П'єр нічого не пам'ятав, що було далі. Він пам'ятав, що він бив когось, його били і що під кінець він відчув, що руки його пов'язані, що натовп французьких солдатів стоїть навколо нього і обшукує його сукню.
— Il a un poignard, lieutenant, — були перші слова, які зрозумів П'єр.
- Ah, une arme! [А, зброя!] – сказав офіцер і звернувся до босого солдата, якого взяли з П'єром.
— Добре, добре, на суді все розкажеш, — сказав офіцер. І потім повернувся до П'єра: — Parlez vous francais vous? [Чи говориш французькою? ]
П'єр озирався навколо себе очима, що налилися кров'ю, і не відповідав. Ймовірно, обличчя його здалося дуже страшним, бо офіцер щось пошепки сказав, і ще чотири улани відокремилися від команди і стали по обидва боки П'єра.
– Parlez vous francais? - повторив йому запитання офіцер, тримаючись далеко від нього. [Faites venir l"interprete.] - З-за лав виїхав маленький чоловічок у цивільному російському платті.
— Він не схожий на простолюдина, — сказав перекладач, оглянувши П'єра.
– Oh, oh! ca 'a bien l'air d'un des incendiaires, – змастив офіцер. – Demandez lui ce qu'il est? [О, о! він дуже схожий на палія. Запитайте його, хто він?] – додав він.
- Ти хто? – спитав перекладач. - Ти маєш відповідати начальство, - сказав він.
- Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [Я не скажу вам, хто я. Я ваш полонений. Виводьте мене,] – раптом французькою мовив П'єр.
– Ah, Ah! - промовив офіцер, насупившись. - Marchons!
Біля уланів зібрався натовп. Ближче за всіх до П'єра стояла ряба баба з дівчинкою; коли об'їзд рушив, вона посунулася вперед.
- Куди ж це ведуть тебе, голубчику ти мій? - сказала вона. - Дівчинку то, дівчинку то куди я подіну, коли вона не їхня! – казала баба.
– Qu'est ce qu'elle veut cette femme? [Чого їй потрібно?] - Запитав офіцер.
П'єр був як п'яний. Захоплений стан його ще посилився побачивши дівчинки, яку він врятував.
- Ce qu'elle dit? - промовив він. - Adieu! [Чого їй потрібно? Вона несе мою дочку, яку я врятував з вогню. Прощай!] – і він, сам не знаючи, як вирвалася в нього ця безцільна брехня, рішучим урочистим кроком пішов між французами.
Роз'їзд французів був один із тих, які були послані за розпорядженням Дюронеля різними вулицями Москви для припинення мародерства і особливо для затримання паліїв, які, за загальним, в той день виявився, думку у французів вищих чинів, були причиною пожеж. Об'їхавши кілька вулиць, роз'їзд забрав ще чоловік п'ять підозрілих росіян, одного крамаря, двох семінаристів, мужика та дворового чоловіка та кількох мародерів. Але з усіх підозрілих людей найпідозріліше здавався П'єр. Коли їх усіх привели на нічліг до великого будинку на Зубівському валу, в якому було засновано гауптвахту, то П'єра під суворою варти помістили окремо.

У Петербурзі в цей час у вищих колах, з великим жаром, ніж коли-небудь, точилася складна боротьба партій Румянцева, французів, Марії Феодорівни, цесаревича та інших, що заглушується, як завжди, трубінням придворних трутнів. Але спокійне, розкішне, стурбоване лише привидами, відображеннями життя, петербурзьке життя йшло по старому; і з-за цього життя треба було робити великі зусилля, щоб усвідомлювати небезпеку і той важкий стан, в якому знаходився російський народ. Ті самі були виходи, бали, той самий французький театр, самі інтереси дворів, самі інтереси служби та інтриги. Тільки найвищих колах робилися зусилля у тому, щоб нагадувати труднощі справжнього становища. Розповідалося пошепки про те, як протилежно одна одній вчинили, за таких важких обставин, обидві імператриці. Імператриця Марія Феодорівна, стурбована добробутом підвідомчих їй богоугодних та виховних закладів, зробила розпорядження про відправлення всіх інститутів до Казані, і речі цих закладів уже було укладено. Імператриця ж Єлизавета Олексіївна питанням, які їй завгодно створити розпорядження, з властивим їй російським патріотизмом зволила відповісти, що державні установи вона може робити розпоряджень, оскільки це стосується государя; про те, що особисто залежить від неї, вона хотіла сказати, що вона остання виїде з Петербурга.

В Інституті лінгвістики РДГУ з 2012 року здійснюється підготовка магістрів за програмою магістратури Комп'ютерна лінгвістика(напрямок Фундаментальна та прикладна лінгвістика). Ця програма призначена для підготовки професійних лінгвістів, що володіють як основами мовознавства, так і сучасними методами науково-дослідної, експертно-аналітичної, інженерної роботи та здатні ефективно брати участь у розробці інноваційних мовних комп'ютерних технологій.

В освітньому процесі беруть участь розробники великих дослідницьких та комерційних систем у галузі автоматичної обробки тексту, що забезпечує зв'язок навчання магістрів із мейнстримом сучасної комп'ютерної лінгвістики. Особлива увага приділяється участі магістрів у російських та міжнародних конференціях.

Серед викладачів автори базових підручників з лінгвістичних спеціальностей, спеціалісти світового рівня, керівники проектів великих систем автоматичного опрацювання мови: Я.Г. Тестелець, І.М. Богуславський, В.І. Бєліков, В.І. Підліська, В.П. Селегій, Л.Л. Йомдін, А.С. Старостін, С.А. Шаров, а також співробітники компаній, що є світовими лідерами у галузі комп'ютерної лінгвістики: IBM (система Watson), Яндекс, ABBYY (системи Lingvo, FineReader, Compreno).

Основою підготовки магістрів за цією програмою є проектний підхід. Залучення магістрантів до науково-дослідної роботи в галузі комп'ютерної лінгвістики відбувається на базі РДГУ та на базі компаній, що займаються розробкою програм у галузі АОТ (ABBYY, IBM та ін), що, безумовно, є великим плюсом як для самих магістрів, так і для їхніх можливих роботодавців. Зокрема здійснюється прийом до магістратури цільових магістрів, навчання яких забезпечується майбутніми роботодавцями.

Вступні іспити: "Формальні моделі та методи сучасної лінгвістики" Точну інформацію про час іспиту можна отримати на сайті відділу магістратури РДГУ.

Керівники магістратури – зав. Навчально-науковим центром комп'ютерної лінгвістики, директор з лінгвістичних досліджень компанії ABBYY Володимир Павлович Селегейта д.ф.н., професор Віра Ісааківна Підліська .

Програма вступного іспиту та співбесіди з дисципліни «Формальні моделі та методи сучасної лінгвістики».

Коментарі до програми

  • Будь-яке питання програми може супроводжуватися завданнями, пов'язаними з описами конкретних мовних явищ, що стосуються розділу питання: побудови структур, опису обмежень, можливих алгоритмів побудови та/або ідентифікації.
  • Запитання, відзначені зірочками, є факультативними (у квитках стоять за №3). Володіння матеріалом є серйозним бонусом для кандидатів, але не обов'язково.
  • Окрім теоретичних питань у квитках на іспиті буде запропоновано невеликий фрагмент спеціального (лінгвістичного) тексту англійською мовою – для перекладу та обговорення. Від вступників потрібно продемонструвати задовільний рівень володіння англомовною науковою термінологією та навичками аналізу наукового тексту. Як приклад тексту, який не повинен викликати у вступника серйозних труднощів, нижче наводиться фрагмент статті https://en.wikipedia.org/wiki/Anaphora_(linguistics) :

У лінгвістиках, anaphora (/əˈnæfərə/) є використанням усвідомлення, що можливе, щоб interpretation depends upon another expression in context (its antecedent or postcedent). У неповноцінному стилі, anaphora є використання певного розміру, що depends specifically upon antecedent expression and thus is contrasted with cataphora, which is the use of expression that depends upon postcedent expression. anaphoric (referring) Термін називається anaphor. Для прикладу, в сенсі Sally arrived, але nobody saw her, pronoun her is anaphor, referring back to the antecedent Sally. У положенні до його arrival, незважаючи на хитрощів Sally, прославляють його refers forward до доповіді Sally, так вона є новим катапhor (і anaphor в broader, але не narrower, sense). Зазвичай, anaphoric expression is a proform or some other kind of deictic (contextually-dependent) expression. Боти anaphora і cataphora є видом endophora, referring до деякого mentioned elsewhere in a dialog or text.

Anaphora is an important concept for different reasons and on different levels: first, anaphora indicates how discourse is constructed and maintained; second, anaphora binds different syntactical elements дозавжди на рівні рівня sentence; тридцять, анапhora presents a challenge to natural language processing в computational linguistics, без визначення речей може бути різним; and fourth, anaphora tells some things o how language is understood and processed, which is relevant to fields of linguistics interested in cognitive psychology.

ТЕОРЕТИЧНІ ПИТАННЯ

ЗАГАЛЬНІ ПИТАННЯ МОВИЗНАННЯ

  • Об'єкт лінгвістики. Мова та мова. Синхронія та діахронія.
  • рівні мови. Формальні моделі рівнів мови.
  • Синтагматика та парадигматика. Концепція дистрибуції.
  • Підстави міжмовних порівнянь: типологічна, генеалогічна та ареальна лінгвістика.
  • *Математична лінгвістика: об'єкт та методи досліджень

Фонетика

  • Предмет фонетики. Артикуляційна та акустична фонетика.
  • Сегментна та супрасегментна фонетика. Просодія та інтонація.
  • Основні поняття фонології. Типологія фонологічних систем та їх фонетичних реалізацій.
  • *Комп'ютерні інструменти та методи фонетичних досліджень
  • *Аналіз та синтез мови.

МОРФОЛОГІЯ

  • Предмет морфології. Морфи, морфеми, аломорфи.
  • Словозміна та словотвори.
  • Граматичні значення та способи їх реалізації. Граматичні категорії та грамеми. Морфологічні та синтаксичні граматичні значення.
  • Поняття словоформи, основи, леми та парадигми.
  • Частини мови; основні підходи до виділення частин мови.
  • *Формальні моделі опису словозміни та словотвору.
  • *Морфологія в задачах автоматичної обробки мови: перевірка орфографії, лематизація, POS-tagging

СИНТАКСИС

  • Предмет синтаксису. Способи вираження синтаксичних відносин.
  • Способи подання синтаксичної структури речення. Переваги та недоліки дерев залежностей та складових.
  • Методи опису лінійного порядку. Непроектність та розрив складових. Концепція трансформації; трансформації, пов'язані з лінійним порядком
  • Зв'язок між синтаксисом та семантикою: валентності, моделі управління, актанти та сирконстанти.
  • Діатеза та застава. Актантна деривація.
  • Комунікативна організація висловлювання. Тема і рема, це і нове, контрастивність.
  • *Основні синтаксичні теорії: МСТ, генеративізм, функціональна граматика, HPSG
  • *Математичні моделі синтаксису: класифікація формальних мов за Хомським, алгоритми розпізнавання та їх складність.

СЕМАНТИКА

  • Предмет семантики. Наївна та наукова мовні картини світу. Гіпотеза Сепіра - Уорфа.
  • Значення в мові та мові: зміст та референт. Тип референції (денотативний статус).
  • Лексична семантика. Методи опису семантики слова.
  • Граматична семантика. Основні категорії з прикладу російської.
  • Семантика речення. Пропозиційний компонент. Дейксис та анафора. Квантори та зв'язки. Модальність.
  • Ієрархія та системність лексичних значень. Полісемія та омонімія. Семантична структура багатозначного слова. Концепція інваріант і прототип.
  • Парадигматичні та синтагматичні відносини в лексиці. Лексичні функції.
  • Тлумачення. Мова тлумачень. Московська семантична школа
  • Семантика та логіка. Істинне значення висловлювання.
  • Теорія мовних актів. Висловлювання та його іллокутивна сила. Перформативи. Класифікація мовних актів.
  • Фразеологія: інвентар та способи опису фразеологічних одиниць.
  • *Моделі та методи формальної семантики.
  • *Моделі семантики у сучасній комп'ютерній лінгвістиці.
  • *Дистрибутивна та операційна семантики.
  • *Основні ідеї граматики конструкцій.

ТИПОЛОГІЯ

  • Традиційні типологічні класифікації мов.
  • Типологія граматичних категорій імені та дієслова.
  • Типологія простої пропозиції. Основні типи конструкцій: акузативна, ергативна, активна.
  • Типологія порядку слів та грінбергівські кореляції. Ліво- і праворозгалужені мови.

ЛЕКСИКОГРАФІЯ

  • Лексика як інвентар культури; соціальне варіювання лексики, лексичні узуси, норма, кодифікація.
  • Типологія словників (російською матеріалі). Відображення лексики у словниках різних типів.
  • Двомовна лексикографія із залученням російської мови.
  • Дескриптивна та прескриптивна лексикографія. Професійні лінгвістичні словники.
  • Специфіка основних російських тлумачних словників. Структура словникової статті. Тлумачення та енциклопедична інформація.
  • Лексика та граматика. Уявлення про інтегральну модель мови у Московській семантичній школі.
  • *Методика роботи лексикографа.
  • *Корупні методи в лексикографії.

ЛІНГВІСТИКА ТЕКСТА І ДИСКУРС

  • Поняття тексту та дискурсу.
  • Механізми міжфразового зв'язку. Основні різновиди засобів їхньої мовної реалізації.
  • Пропозиція як одиниця мови та як елемент тексту.
  • Надфразові єдності, принципи формування та виділення, основні властивості.
  • Основні категорії класифікації текстів (жанр, стиль, регістр, предметна область тощо)
  • *Методи автоматичної жанрової класфікації.

СОЦІОЛІНГВІСТИКА

  • Проблема предмета та меж соціолінгвістики, її міждисциплінарний характер. Основні поняття соціології та демографії. Рівні мовної структури та соціолінгвістика. Основні поняття та напрямки соціолінгвістики.
  • Мовні контакти. Білінгвізм та диглосія. Дивергентні та конвергентні процеси в історії мови.
  • Соціальна диференціація мови. Форми існування мови. Літературна мова: узус-норма-кодифікація. Функціональні галузі мови.
  • Мовна соціалізація. Ієрархічний характер соціальної та мовної ідентичності. Мовна поведінка індивіда та його комунікативний репертуар.
  • Методи соціолінгвістичних досліджень.

КОМП'ЮТЕРНА ЛІНГВІСТИКА

  • Завдання та методи комп'ютерної лінгвістики.
  • Корпусна лінгвістика. Основні характеристики корпусу.
  • Подання знань. Основні ідеї теорії фреймів М. Мінського. Система FrameNet.
  • Тезауруси та онтології. WordNet.
  • Основи статистичного аналізу текстів. Частотні словники. Аналіз колокацій.
  • *Поняття машинного навчання.

ЛІТЕРАТУРА

Навчальна (базовий рівень)

Баранов О.М.Введення у прикладну лінгвістику. М.: Едиторіал УРРС, 2001.

Баранов О.М., Добровольський Д.О.Основи фразеології (короткий курс) Навчальний посібник. 2-ге видання. Москва: Флінта, 2014 року.

Бєліков В.А., Крисін Л.П.Соціолінгвістика. М., РДГУ, 2001.

Бурлак С.А., Старостін С.А.Порівняльно-історичне мовознавство. М: Академія. 2005

Вахтін Н.Б., Головко О.В.Соціолінгвістика та соціологія мови. СПб., 2004.

Князєв С. В., Пожарицька С. К.Сучасна російська літературна мова: Фонетика, графіка, орфографія, орфоепія. 2 вид. М., 2010

Кобозєва І.М.Лінгвістична семантика. М: Едіторіал УРСС. 2004.

Кодзасов С.В., Кривнова О.Ф.Загальна фонетика. М.: РДГУ, 2001.

Кронгауз М.А.Семантика. М.: РДГУ. 2001.

Кронгауз М.А.Семантика: Завдання, завдання, тексти. М: Академія. 2006.

Маслов Ю.С.Ведення у мовознавство. Вид. 6-е, стер. М: Академія, філ. фак. СПбГУ,

Плунгян В.А.Загальна морфологія: Введення у проблематику. Вид. 2-ге. М.: Едиторіал УРСС, 2003.

Тестелець Я.Г.Введення у загальний синтаксис. М., 2001.

Шайкевич А.Я.Введення у лінгвістику. М: Академія. 2005.

Наукова та довідкова

Апресян Ю.Д.Вибрані праці, тому I. Лексична семантика: 2-ге вид., Вик. та дод. М.: Школа " Мови російської культури " , 1995.

Апресян Ю.Д.Вибрані праці, тому II. Інтегральний опис мови та системна лексикографія. М.: Школа " Мови російської культури " , 1995.

Апресян Ю.Д.(ред.) Новий пояснювальний словник синонімів російської. Москва - Відень: "Мови російської культури", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Апресян Ю.Д.(ред.) Мовна картина світу та системна лексикографія (відп. ред. Ю. Д. Апресян). М.: "Мови слов'янських культур", 2006, Передмова та гол. 1, с.26 - 74.

Булигіна Т.В., Шмельов А.Д.Мовна концептуалізація світу (на матеріалі російської граматики). М.: Школа " Мови російської культури " , 1997.

Вайнрайх У.Мовні контакти. Київ, 1983.

Вежбицька О.Семантичні універсалії та опис мов. М.: Школа " Мови російської культури " . 1999.

Гальперін І.Р.Текст як об'єкт лінгвістичного дослідження. 6-те вид. М.: ЛКІ, 2008 ("Лінгвістична спадщина XX століття")

Залізняк О.О."Російське іменне словозміна" з додатком обраних робіт з сучасної російської мови та загального мовознавства. М: Мови слов'янської культури, 2002.

Залізняк О.О., Падучова О.В.До типології відносної пропозиції. / Семіотика та інформатика, вип. 35. М., 1997, с. 59-107.

Іванов В'яч. Нд..Лінгвістика третього тисячоліття. Запитання до майбутнього. М., 2004. С. 89-100 (11. Мовна ситуація світу та прогноз на найближче майбутнє).

Кібрик А.Є.Нариси із загальних та прикладних питань мовознавства. М.: Вид-во МДУ, 1992.

Кібрик А.Є.Константи та змінні мови. СПб: Алетейя, 2003.

Лабов У.Про механізм мовних змін // Нове у лінгвістиці. Вип.7. М., 1975. С.320-335.

Лайонз Дж.Лінгвістична семантика: Введення. М: Мови слов'янської культури. 2003.

Лайонс Джон.Мова та лінгвістика. Вступний курс. М: УРСС, 2004

Лакофф Дж.Жінки, вогонь та небезпечні речі: Що категорії мови говорять нам про мислення. М: Мови слов'янської культури. 2004.

Лакофф Дж., Джонсон М. Метафори, якими живемо. Пров. з англ. Вид.2. М: УРСС. 2008.

Лінгвістичний енциклопедичний словник/За ред. В.І. Ярцевий. М.: Наукове вид-во «Велика російська енциклопедія», 2002.

Мельчук І.О.Курс загальної морфології. Тт. І-ІV. Москва-Відень: "Мови слов'янської культури", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

Мельчук І. О.Досвід теорії лінгвістичних моделей «СМЕР ↔ ТЕКСТ». М.: Школа " Мови російської культури " , 1999.

Федорова Л.Л.Семіотика. М., 2004.

Філіппов К. А.Лінгвістика тексту: Курс лекцій – 2-ге вид., Вик. та дод. Вид. С.-Петерб. ун-ту, 2007.

Haspelmath, M., et al. (eds.). World Atlas of Language Structures. Oxford, 2005.

Dryer, M.S. і Haspelmath, M.(eds.) The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology, 2013. (http://wals.info)

Croft W.Типологія та Universals. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.). Language Typology and Syntactic Description. 2nd edition. Cambridge, 2007

В. І. Бєліков. Про словниках, «що містять норми сучасної російської літературної мови при його використанні як державна мова Російської Федерації». 2010 // Портал Грамота.Ру (http://gramota.ru/biblio/research/slovari-norm)

Комп'ютерна лінгвістика та інтелектуальні технології: За матеріалами щорічної Міжнародної конференції «Діалог». Вип. 1-11. - М: Вид-во Наука, з-во РДГУ, 2002-2012. (Статті з комп'ютерної лінгвістики, http://www.dialog-21.ru).

Національний корпус російської: 2006-2008. Нові результати та перспективи. / Відп. ред. В. А. Плунгян. – СПб.: Нестор-Історія, 2009.

Нове у закордонній лінгвістиці. Вип. XXIV, Комп'ютерна лінгвістика / Упоряд. Б. Ю. Городецький. М: Прогрес, 1989.

Шимчук Е. Г. Російська лексикографія: Навчальний посібник. М: Академія, 2009.

Національний корпус російської: 2003-2005. Збірник статей. М: Індрік, 2005.

Для контактів:

Навчально-науковий центр комп'ютерної лінгвістики Інституту лінгвістики РДГУ



Останні матеріали розділу:

Отримання нітросполук нітруванням
Отримання нітросполук нітруванням

Електронна будова нітрогрупи характеризується наявність семи полярного (напівполярного) зв'язку: Нітросполуки жирного ряду – рідини, що не...

Хроміт, їх відновлювальні властивості
Хроміт, їх відновлювальні властивості

Окисно-відновні властивості сполук хрому з різним ступенем окиснення. Хром. Будова атома. Можливі ступені окислення.

Чинники, що впливають на швидкість хімічної реакції
Чинники, що впливають на швидкість хімічної реакції

Питання №3 Від яких чинників залежить константа швидкості хімічної реакції? Константа швидкості реакції (питома швидкість реакції) - коефіцієнт...