Комп'ютерна лінгвістика 2 1 концепції. Що таке комп'ютерна лінгвістика? Машинна лексикографія займається автоматизацією підготовки словників та вирішує завдання розробки електронних словників

КОМП'ЮТЕРНА ЛІНГВІСТИКА (калька з англійської computational linguistics), один із напрямків прикладної лінгвістики, в якому для дослідження мови та моделювання функціонування мови в тих чи інших умовах, ситуаціях та проблемних сферах розробляються та використовуються комп'ютерні програми, комп'ютерні технології організації та обробки даних. З іншого боку, це сфера застосування комп'ютерних моделей мови у лінгвістиці та суміжних з нею дисциплінах. Як особливий науковий напрямок комп'ютерна лінгвістика оформилася у європейських дослідженнях у 1960-х роках. Оскільки англійське прикметник computational може перекладатися і як «обчислювальний», у літературі зустрічається також термін «обчислювальна лінгвістика», проте у вітчизняній науці він набуває більш вузького значення, що наближається до поняття «квантитативна лінгвістика».

Часто до комп'ютерної лінгвістики відносять термін «квантитативна лінгвістика», який характеризує міждисциплінарний напрямок у прикладних дослідженнях, де як основний інструмент вивчення мови та мови використовуються кількісні чи статистичні методи аналізу. Іноді квантитативна (або кількісна) лінгвістика протиставляється комбінаторній лінгвістиці. В останній домінуючу роль займає «кількісний» математичний апарат - теорія множин, математична логіка, теорія алгоритмів і т.д. модель, що має значний пояснювальний потенціал. У прикладній області квантитативна лінгвістика представлена ​​насамперед використанням фрагментів цієї моделі, що використовуються для лінгвістичного моніторингу функціонування мови, дешифрування кодованого тексту, авторизації/атрибуції тексту тощо.

Термін «комп'ютерна лінгвістика» і проблематика цього напряму часто пов'язуються з моделюванням спілкування, і насамперед - із забезпеченням взаємодії людини з ЕОМ природною або обмеженою природною мовою (для цього створюються спеціальні системи обробки природної мови), а також з теорією та практикою інформаційно- пошукових систем (ІПС) Забезпечення спілкування людини з ЕОМ природною мовою іноді позначається терміном «обробка природної мови» (переклад з англійської терміна Natural Language Processing). Цей напрямок комп'ютерної лінгвістики виник наприкінці 1960-х років за кордоном і розвивався в рамках науково-технологічної дисципліни, що називається штучним інтелектом (роботи Р. Шенка, М. Лебовиця, Т. Винограда та ін.). За змістом словосполучення «обробка природної мови» має охоплювати всі області, у яких комп'ютери використовуються обробки мовних даних. Насправді, проте, закріпилося вужче розуміння терміна - розробка методів, технологій і конкретних систем, які забезпечують спілкування людини з ЕОМ природним чи обмеженою природною мовою.

До комп'ютерної лінгвістиці певною мірою можуть бути віднесені роботи в галузі створення гіпертекстових систем, що розглядаються як особливий спосіб організації тексту і навіть як принципово новий вид тексту, протиставлений за багатьма своїми властивостями звичайному тексту, сформованому в гутенбергівській традиції друкарства (дивись Гутенберг).

До компетенції комп'ютерної лінгвістики і автоматичний переклад.

У рамках комп'ютерної лінгвістики виник і порівняно новий напрямок, що активно розвивається з 1980-90-х років - корпусна лінгвістика, де розробляються загальні принципи побудови лінгвістичних корпусів даних (зокрема, корпусів текстів) з використанням сучасних комп'ютерних технологій. Корпуси текстів – це колекції спеціально підібраних текстів книг, журналів, газет тощо, перенесені на машинні носії та призначені для автоматичної обробки. Один із перших корпусів текстів був створений для американського варіанта англійської мови в Браунівському університеті (так званий Браунівський корпус) у 1962-63 під керівництвом У. Френсіса. У Росії з початку 2000-х років в Інституті російської мови імені В. В. Виноградова РАН розробляється Національний корпус російської мови, що складається з представницької вибірки російськомовних текстів обсягом близько 100 мільйонів слововжитків. Крім конструювання корпусів даних, корпусна лінгвістика займається створенням комп'ютерних інструментів (комп'ютерних програм), призначених для отримання різноманітної інформації з текстових корпусів. З погляду користувача, до корпусів текстів пред'являються вимоги представництва (репрезентативності), повноти та економічності.

Комп'ютерна лінгвістика активно розвивається і в Росії, і за кордоном. Потік публікацій у цій галузі дуже великий. Крім тематичних збірок, у США з 1984 року щоквартально виходить журнал «Computational Linguistics» («Комп'ютерна лінгвістика»). Велику організаційну та наукову роботу проводить Асоціація з комп'ютерної лінгвістики (The Association for Computational Linguistics), яка має регіональні структури в усьому світі (зокрема, європейське відділення). Кожні два роки відбуваються міжнародні конференції КОЛІНТ (у 2008 році конференція проходила в Манчестері). Основні напрямки комп'ютерної лінгвістики обговорюються також на щорічній міжнародній конференції «Діалог», що організується Російським НДІ штучного інтелекту, філологічним факультетом МДУ, Яндексом та іншими організаціями. Відповідна проблематика широко представлена ​​також на міжнародних конференціях із штучного інтелекту різних рівнів.

Літ.: Звегінцев В. А. Теоретична та прикладна лінгвістика. М., 1968; Піотровський Р. Р., Бектаєв К. Б., Піотровська А. А. Математична лінгвістика. М., 1977; Городецький Б. Ю. Актуальні проблеми прикладної лінгвістики // Нове у зарубіжній лінгвістиці. М., 1983. Вип. 12; Кібрик А. Є. Прикладна лінгвістика // Кібрик А. Є. Нариси із загальних та прикладних питань мовознавства. М., 1992; Kennedy G. An introduction to corpus linguistics. L., 1998; Bolshakov I.А., Gelbukh А. Computational linguistics: models, resources, applications. Мех., 2004; Національний корпус російської: 2003-2005. М., 2005; Баранов А. Н. Введення у прикладну лінгвістику. 3-тє вид. М., 2007; Комп'ютерна лінгвістика та інтелектуальні технології. М., 2008. Вип. 7.

Сучасна комп'ютерна лінгвістика дуже орієнтована використання математичних моделей. Є навіть поширена думка, що лінгвісти не дуже потрібні для автоматичного моделювання природної мови. Відомий крилатий вислів Фредеріка Елінека, керівника центру розпізнавання мови університету Джона Хопкінса: " Anytime a linguist leaves the group, the recognition rate goes up"- щоразу, коли лінгвіст залишає робочу групу, якість розпізнавання підвищується.

Однак, чим складніші та багаторівневі завдання лінгвістичного моделювання ставляться перед розробниками автоматичних систем, тим очевиднішим стає, що їхнє рішення неможливе без урахування лінгвістичної теорії, розуміння того, як функціонує мова, лінгвістичної експертної компетенції. У той же час, стало очевидно, що автоматичні методи аналізу та моделювання мовних даних можуть суттєво збагатити теоретичні лінгвістичні дослідження, будучи засобом для збирання мовних даних та інструментом перевірки спроможності тієї чи іншої лінгвістичної гіпотези.

Форум з оцінки систем автоматичного оброблення тексту

С.Ю.Толдова, О.М. Ляшевська, А.А. Бонч-Осмолівська

Як формалізувати лексичне значення, зробити його "машиночитаним"? Відповідь на це дають дистрибуційні моделі мови, в яких значення слова є сумою його контекстів у досить великому корпусі. Штучні нейронні мережі дозволяють швидко та якісно навчати такі моделі.

Денис Кір'янов, Таня Панова (науковий керівник Б.В. Оріхів)

Ця програма має дві функції: а) нормалізація тексту на ідиші, б) транслітерація з квадратного листа до латиниці. Ці проблеми дуже актуальні: досі не існувало жодного нормалізатора, якщо не вважати такими спелл-чекери. Тим часом, практично кожне видавництво, яке випускало книги на ідиші, слідувало своїй орфографічній практиці. Нормалізатор необхідний для роботи над корпусом мови ідиш: для всіх текстів до єдиної орфографії, що розпізнається парсером. Транслітерація дозволить працювати з матеріалом ідишу та типологам.

ВІДЕО співробітників Школи лінгвістики:

На вибір; 3-й курс, 2, 3 модуль

Обов'язковий; 1-й курс, 2 модуль

На вибір; 3-й курс, 3 модуль

Обов'язковий; 4-й курс, 1-3 модуль

Обов'язковий; 4-й курс, 2 модуль

Обов'язковий; 2-й курс, 1, 2, 4 модуль

На філфаку Вищої школи економіки запускається нова магістерська програма, присвячена комп'ютерній лінгвістиці: тут чекають на абітурієнтів з гуманітарною та математичною базовою освітою та всіх, кому цікаво вирішувати завдання в одній із найперспективніших галузей науки. Її керівник Анастасія Бонч-Осмоловська розповіла «Теоріям та практикам», що таке комп'ютерна лінгвістика, чому роботи не замінять людину і чого навчатимуть у магістратурі ВШЕ з комп'ютерної лінгвістики.

Ця програма - чи не єдина такого роду в Росії. А де ви самі вчилися?

Я навчалася у МДУ на відділенні теоретичної та прикладної лінгвістики філологічного факультету. Потрапила туди не відразу, спочатку вступила на російське відділення, але потім серйозно захопилася лінгвістикою, і мене привабила атмосфера, яка й досі залишається на кафедрі. Найголовніше там - добрий контакт між викладачами та студентами та їхня взаємна зацікавленість.

Коли в мене народилися діти і треба було заробляти життя, я пішла у сферу комерційної лінгвістики. У 2005 році було не дуже зрозуміло, що являє собою ця сфера діяльності як така. Я працювала в різних лінгвістичних фірмах: починала з невеликої фірми за сайтом Public.ru - це така бібліотека ЗМІ, там я почала займатися лінгвістичними технологіями. Потім рік працювала в Роснанотеху, де була ідея зробити аналітичний портал, щоб дані на ньому автоматично структурувалися. Потім я керувала лінгвістичним відділом у компанії «Авікомп» - це вже серйозне виробництво в галузі комп'ютерної лінгвістики та семантичних технологій. Паралельно я вела курс з комп'ютерної лінгвістики в МДУ і намагалася зробити його сучаснішим.

Два ресурси для лінгвіста: - сайт, створений лінгвістами для наукових та прикладних досліджень, пов'язаних із російською мовою. Це модель російської, представлена ​​з допомогою величезного масиву текстів різних жанрів і періодів. Тексти забезпечені лінгвістичною розміткою, за допомогою якої можна отримувати інформацію про частотність тих чи інших мовних явищ. Ворднет - величезна лексична база англійської мови, головна ідея Ворднета - пов'язати в одну велику мережу не слова, але їх смисли. Ворднет можна завантажувати та використовувати для власних проектів.

А чим займається комп'ютерна лінгвістика?

Це дуже міждисциплінарна область. Тут найголовніше розуміти, що відбувається в електронному світі і хто тобі допоможе зробити конкретні речі.

Нас оточує дуже багато дигітальної інформації, існує безліч бізнес-проектів, успіх яких залежить від обробки інформації, ці проекти можуть ставитися до сфери маркетингу, політики, економіки і чого завгодно. І дуже важливо вміти поводитися з цією інформацією ефективно - головне не лише швидкість обробки інформації, але й легкість, з якою ти можеш, відсіявши шум, дістати ті дані, які тобі потрібні, і створити цільну картину.

Раніше з комп'ютерною лінгвістикою були пов'язані якісь глобальні ідеї, наприклад: люди думали, що машинний переклад замінить на людський, замість людей працюватимуть роботи. Але зараз це здається утопією, і машинний переклад використовується в пошукових системах для швидкого пошуку незнайомою мовою. Тобто зараз лінгвістика рідко займається абстрактними завданнями - переважно якимись маленькими штучками, які можна вставити у великий продукт і на цьому заробити.

Одне з великих завдань сучасної лінгвістики - семантичний web, коли пошук відбувається не просто за збігом слів, а за змістом, а всі сайти так чи інакше розмічені семантикою. Це може бути корисним, наприклад, для поліцейських або медичних звітів, які пишуться щодня. Аналіз внутрішніх зв'язків дає багато потрібної інформації, а читати та рахувати це вручну неймовірно довго.

У двох словах, у нас є тисяча текстів, треба розкласти їх за купками, подати кожен текст у вигляді структури та отримати таблицю, з якою вже можна працювати. Це називається обробка неструктурованої інформації. З іншого боку, комп'ютерна лінгвістика займається, наприклад, створенням штучних текстів. Є така компанія, яка вигадала механізм генерації текстів на теми, на які людині писати нудно: зміна цін на нерухомість, прогноз погоди, звіт про футбольні матчі. Замовляти людині ці тексти набагато дорожче, причому комп'ютерні тексти написані зв'язною людською мовою на такі теми.

Розробками в галузі пошуку неструктурованої інформації в Росії активно займається Яндекс, Лабораторія Касперського наймає дослідницькі групи, які вивчають машинне навчання. Хтось на ринку намагається вигадати щось нове в галузі комп'ютерної лінгвістики?

**Книги з комп'ютерної лінгвістики:**

Daniel Jurafsky, Speech and Language Processing

Крістофер Маннінг, Прабхакар Рагхаван, Хайнріх Шютце, "Введення в інформаційний пошук"

Яків Тестелець, «Вступ до загального синтаксису»

Більшість лінгвістичних розробок є власністю великих компаній, практично нічого не можна знайти у відкритому доступі. Це гальмує розвиток галузі, ми не маємо вільного лінгвістичного ринку, коробкових рішень.

Крім того, бракує повноцінних інформаційних ресурсів. Є такий проект, як Національний корпус російської мови. Це один із найкращих національних корпусів у світі, який стрімко розвивається та відкриває неймовірні можливості з наукових та прикладних досліджень. Різниця приблизно як у біології - до ДНК-досліджень та після.

Але багато ресурсів не існують російською мовою. Так, немає аналога такому чудовому англомовному ресурсу, як Framenet - це така концептуальна мережа, де формально представлені всі можливі зв'язки якогось конкретного слова з іншими словами. Наприклад, є слово "літати" - хто може літати, куди, з яким приводом вживається це слово, з якими словами воно поєднується і таке інше. Цей ресурс допомагає пов'язати мову з реальним життям, тобто простежити, як поводиться конкретне слово лише на рівні морфології та синтаксису. Це дуже корисно.

У компанії Avicomp зараз розробляється плагін для пошуку близьких за змістом статей. Тобто, якщо вас зацікавила якась стаття, ви можете оперативно подивитися історію сюжету: коли тема виникла, що писалося і коли був пік інтересу до цієї проблеми. Наприклад, за допомогою цього плагіна можна буде, відштовхнувшись від статті, присвяченої подіям у Сирії, дуже швидко побачити, як протягом останнього року там розвивалися події.

Як буде побудовано процес навчання в магістратурі?

Навчання у Вишці організовано за окремими модулями – як у західних університетах. Студенти будуть поділені на маленькі команди, міні-стартапи – тобто на виході ми маємо отримати кілька готових проектів. Ми хочемо отримати реальні продукти, які потім відкриємо людям та залишимо у відкритому доступі.

Окрім безпосередніх керівників проектів студентів, ми хочемо знайти їм кураторів з-поміж їхніх потенційних роботодавців - з того ж «Яндекса», наприклад, які теж гратимуть у цю гру і давати студентам якісь поради.

Я сподіваюся, що до магістратури прийдуть люди з різних областей: програмісти, лінгвісти, соціологи, маркетологи. У нас буде кілька адаптаційних курсів з лінгвістики, математики та програмування. Потім у нас буде два серйозні курси з лінгвістики, і вони будуть пов'язані з найактуальнішими лінгвістичними теоріями, ми хочемо, щоб наші випускники могли читати і розуміти сучасні лінгвістичні статті. Те саме і з математикою. У нас буде курс, який називатиметься «Математичні основи комп'ютерної лінгвістики», де викладатимуться ті розділи математики, на яких ґрунтується сучасна комп'ютерна лінгвістика.

Для того, щоб вступити до магістратури, потрібно скласти вступний іспит з мови та пройти конкурс портфоліо.

Крім основних курсів будуть лінійки предметів на вибір Ми запланували кілька циклів - два з них орієнтовані на більш глибоке вивчення окремих тем, до яких належать, наприклад, машинний переклад і корпусна лінгвістика, і, а один, навпаки, пов'язаний із суміжними областями: такими як , соціальні мережі, машинне навчання або Digital Humanities – курс, який, як ми сподіваємося, будемо прочитаний англійською мовою.

Комп'ютерні лінгвісти займаються розробкою алгоритмів розпізнавання тексту та мовлення, що звучить, синтезом штучної мови, створенням систем семантичного перекладу і самим розвитком штучного інтелекту (у класичному сенсі слова - як заміна людському - він навряд чи коли-небудь з'явиться, але зате виникнуть різні експертні системи, засновані на аналізі даних).

Алгоритми розпізнавання мовлення все більше використовуватимуться в побуті - у «розумних будинків» та електронних приладів не буде пультів та кнопок, а замість них використовуватиметься голосовий інтерфейс. Ця технологія відточується, але викликів ще багато: комп'ютеру складно розпізнати людську мову, бо різні люди говорять по-різному. Тому, як правило, системи розпізнавання працюють добре або коли вони натреновані на одного диктора і вже підлаштовані під його особливості вимови, або коли фрази, які може розпізнати система, обмежена (як, наприклад, у голосових командах для телевізора).

У фахівців зі створення програм семантичного перекладу попереду ще багато роботи: на даний момент непогані алгоритми розроблені тільки для перекладу англійською та англійською. Тут багато проблем - різні мови по-різному влаштовані в семантичному плані, це навіть на рівні побудови фраз, і всі змісти однієї мови можна передати з допомогою семантичного апарату іншого. Крім того, програма повинна розрізняти омоніми, правильно розпізнавати частини мови, вибрати правильне значення багатозначного слова, яке підходить до контексту.

Синтез штучного мовлення (наприклад, для домашніх роботів) - теж копітка робота. Складно зробити так, щоб штучно створена мова звучала природно для людського вуха, адже є мільйони нюансів, на які ми не звертаємо уваги, але без яких усе вже не те - фальстарти, паузи, затримки тощо. Мовний потік безперервний і водночас дискретний: ми говоримо, не роблячи паузи між словами, але нам неважко зрозуміти, де закінчується одне слово і починається інше, а для машини це буде велика проблема.

Найбільший напрямок у комп'ютерній лінгвістиці пов'язаний із Big Data. Адже існують величезні корпуси текстів типу стрічок новин, з яких потрібно виокремлювати певну інформацію - наприклад, виділяти інфоприводи або заточувати RSS під смаки певного користувача. Такі технології є вже зараз і розвиватимуться далі, тому що обчислювальні потужності стрімко зростають. Лінгвістичний аналіз текстів використовується і для забезпечення безпеки в інтернеті, пошуку необхідної інформації для спецслужб.

Де навчатись на комп'ютерного лінгвіста? У нас, на жаль, досить сильно розділені спеціальності, пов'язані з класичною лінгвістикою, та програмування, статистика, аналіз даних. А для того, щоб стати цифровим лінгвістом, потрібно розбиратися і в тому, і в іншому. У закордонних вишах є програми вищої освіти з комп'ютерної лінгвістики, а в нас поки що оптимальний варіант - здобути базову лінгвістичну освіту, а потім освоїти основи IT. Добре, що зараз багато різних онлайн-курсів, на жаль, у мої студентські роки такого не було. Я навчалася на факультеті прикладної лінгвістики в МДЛУ, де в нас були курси зі штучного інтелекту та розпізнавання усного мовлення - але все-таки в недостатньому обсязі. Наразі IT-компанії активно намагаються взаємодіяти з інститутами. Ми з колегами з Лабораторії Касперського теж намагаємося брати участь в освітньому процесі: читаємо лекції, проводимо студентські конференції, даємо гранти аспірантам. Але поки що ініціатива більше виходить від роботодавців, ніж від університетів.

План:

1. Що таке комп'ютерна лінгвістика?

2. Об'єкт та предмет комп'ютерної лінгвістики

4. Завдання комп'ютерної лінгвістики

5. Методи дослідження комп'ютерної лінгвістики

6. Історія та причини виникнення комп'ютерної лінгвістики

7. Основні терміни комп'ютерної лінгвістики

8. Вчені, які займалися проблемою комп'ютерної лінгвістики

9. Асоціації та конференції з комп'ютерної лінгвістики

10. Використана література.


Комп'ютерна лінгвістика –самостійний напрямок у прикладній лінгвістиці, орієнтований використання комп'ютерів на вирішення завдань, що з використанням природної мови. (Щіліхіна К.М.)


Комп'ютерна лінгвістика– будучи одним із напрямків прикладної лінгвістики, вивчає лінгвістичні основи інформатики та всі аспекти зв'язку мови та мислення, моделювання мови та мислення у комп'ютерному середовищі за допомогою комп'ютерних програм, а її інтереси лежать у галузі: 1) оптимізації комунікації на основі лінгвістичних знань; 2) створення природно-мовного інтерфейсу та типологій розуміння мови для спілкування людини з машиною 3) створення та моделювання інформаційних комп'ютерних систем (Сосніна Є.П.)


Об'єкт комп'ютерної лінгвістики– аналіз мови у його природному стані у процесі використання людьми у різних ситуаціях спілкування, а як особливості мови може бути сформульовані.


Завдання комп'ютерної лінгвістики:


Методи дослідження комп'ютерної лінгвістики:

1. метод моделювання-спеціальний об'єкт вивчення, який недоступний у прямому спостереженні. За визначенням математика К. Шеннона модель є уявленням об'єкта у певній формі, відмінну від форми їхнього реального існування.

2. метод теорії подання знаньмає на увазі методи представлення знань, спрямовані на автоматичну обробку сучасними комп'ютерами.

3. метод теорії мови програмування(programming language theory) – це область інформатики, пов'язана з проектуванням, аналізом, визначенням характеристик та класифікацією мов програмування та вивченням їх індивідуальних особливостей.


Причини виникнення комп'ютерної лінгвістики

1. Поява ЕОМ

2. Проблема спілкування з комп'ютерами непідготовлених користувачів


1.Система пошуку за словником, розроблена у коледжі Беркбек у Лондоні 1948г.

2. Меморандум Уоррена Уівера

3. Початок впровадження перших обчислювальних машин у сфері машинного перекладу

4. Джорджтаунський проект у 1954


1. ALPAC (Automatic Language Processing Advisory Committee) / Консультативний Комітет з автоматичної обробки мови 2. новий етап у розвитку комп'ютерних технологій та їх активне використання у лінгвістичних завданнях 3. створення нового покоління комп'ютерів та мов програмування 4. 60

-70-ті роки ХХ століття


Кінець 80х - початок 90х років ХХ століття

    Поява та активний розвиток мережі Інтернет

  • Бурхливе зростання обсягів текстової інформації в електронному вигляді

  • Необхідність автоматичної обробки текстів природною мовою


1. Продукти компанії PROMT та ABBY (Lingvo) 2. Технології машинного перекладу 3. Технології Translation Memory

Сучасні комерційні системи

  • Пожвавлення текстів

  • Моделі комунікації

  • Комп'ютерна лексикографія

  • Машинний переклад

  • Корпус текстів


Аналіз текстів природною мовою

3 рівні структури тексту:
  • Поверхнева синтаксична структура

  • Глибинна синтаксична структура

  • Семантичний рівень


Завдання синтезу зворотне по відношенню до аналізу

Пожвавлення тексту

1. Обмін текстами за допомогою візуальних образів на екрані дисплея

2. 2 модальності мислення людини: символьна та зорова.


1.Імітація процесу спілкування 2. Створення ефективної моделі діалогу Моделі комунікації


Гіпертекст-особливий спосіб організації та подання тексту, у якому кілька текстів чи фрагментів тексту може бути пов'язані між собою з різних типів зв'язків.


Відмінності гіпертексту від традиційного тексту

Гіпертекст

    1. обробка усного мовлення

  • 2. обробка письмового тексту


Обробка мовлення

1. автоматичний синтез мови

А) розвиток синтезаторів типу «текст-мова». Включає 2 блоки: блок лінгвістичної обробки текстуі блок акустичного синтезу

2. автоматичне розпізнавання мови


1) розпізнавання тексту

2) аналіз тексту

3) синтез тексту


ІПС (інформаційно-пошукова система)– це програмні системи для зберігання, пошуку та видачі інформації, що цікавить.

Захаров В.П. вважає, що, ІПС– це впорядкована сукупність документів та інформаційних технологій, призначених для зберігання та пошуку інформації – текстів чи даних.


3 види ІПС

3 види ІПС

    Ручні- Це пошук у бібліотеці.

  • МеханізованіІПС є технічні засоби, які забезпечують відбір потрібних документів

  • Автоматичні- пошук інформації за допомогою комп'ютерів


Комп'ютерна лексикографія

Комп'ютерна лексикографія– один із важливих напрямів прикладної лінгвістики, що займається теорією та практикою складання словників.

У лексикографії виділяють 2 напрямки:
  • Традиційна лексикографіязаймається складанням традиційних словників

  • Машинна лексикографіязаймається автоматизацією підготовки словників та вирішує завдання розробки електронних словників


Завдання комп'ютерної лексикографії

  • Автоматичне отримання з різних словників

  • Створення словників, які є електронними версіями традиційних словників або комплексних електронних лінгвістичних словників для традиційних словникових робіт, наприклад LINGVO

  • Розробка теоретичних та практичних аспектів складання спеціальних комп'ютерних словників, наприклад для інформаційного пошуку, машинного перекладу


Машинний переклад

Машинний переклад- Перетворення тексту однією природною мовою на іншу природну мову за допомогою комп'ютера.

Види машинного перекладу
  • FAMT(Fully Automated Machine Translation) – повністю автоматичний переклад

  • HAMT(Human Aided machine Translation) – машинний переклад за участю людини

  • MAHT(Machine Aided Human Translation) – переклад, який здійснюється людиною із залученням допоміжних програмних та лінгвістичних засобів.


  • 2) професійний МП- Більш якісний переклад з наступним редагуванням людиною

  • 3) інтерактивний МП– вважається перекладом у спеціальних системах підтримки, проходить у режимі діалогу з комп'ютерною системою. Якість МП залежить від можливостей налаштування, ресурсів, типу текстів.

Корпус текстів

Корпус текстів- це деяке зібрання текстів, основу якого лежить логічний задум, логічна ідея, об'єднує ці тексти.

Мовний корпус-великий, представлений електронному вигляді, уніфікований, структурований, розмічений, філологічно компетентний масив мовних даних, призначений на вирішення конкретних лінгвістичних завдань.


Репрезентативність – найважливіша властивість корпусу


Призначення мовного корпусу – показати функціонування лінгвістичних одиниць у їхньому природному контекстному середовищі



На основі корпусу можна отримати дані:

1. про частоту граматичних категорій

2. про зміни частот

3. про зміни контекстів у різні періоди часу

5. про спільну зустрічальність лексичних одиниць

6. про особливості їх поєднання


Браунівський корпус


Корпус текстів - це деяке зібрання текстів, основу якого лежить логічний задум, логічна ідея, об'єднує ці тексти. Втілення цієї логічної ідеї: правила організації текстів у корпус алгоритми та програми аналізу корпусу текстів пов'язана з цим ідеологія та методологія. Національний корпус представляє цю мову на певному етапі (або етапах) її існування і в усьому різноманітті жанрів, стилів, територіальних та соціальних варіантів тощо. Основні терміни комп'ютерної лінгвістики

    Мови програмування (ЯП) – це клас штучних мов, призначених для обробки інформації за допомогою комп'ютера. Будь-яка мова програмування – це строга (формальна) знакова система, з якої записуються комп'ютерні програми. За різними оцінками, в даний час існує від тисячі до десяти тисяч мов програмування.

  • Інформатика(Computer Science) -наука про закономірності запису, зберігання, переробки, передачі та використання інформації за допомогою технічних засобів.



Пошук інформації (Information Retrieval) – це процес відшукання в деякій системі зберігання інформації таких документів (текстів, записів та

т. д.), які відповідають запиту, що надійшов.

« Інформаційно-пошукова система (ІПС) – це впорядкована сукупність документів (масивів документів) та інформаційних технологій, призначених для зберігання та пошуку інформації – текстів (документів) або даних (фактів).

Машинна лексикографія(Сomputational Lexicography)займається автоматизацією підготовки словників та вирішує завдання розробки електронних

словників.

Машинний переклад – це перетворення комп'ютером тексту однією

природною мовою в еквівалентний за змістом текст іншою

природною мовою.

Гіпертекст - це технологія організації інформації та особливим чином структурований текст, розбитий на окремі блоки, що має нелінійне уявлення, для ефективної презентації інформації в комп'ютерних середовищах.


    Фрейм - це структура уявлення декларативного знання типизованої тематично єдиної ситуації, тобто. структура даних про стереотипну ситуацію.

  • Сценарій – це послідовність кількох епізодів у часі, це також уявлення стереотипної ситуації чи стереотипному поведінці, лише елементами сценарію є кроки алгоритму чи інструкції.
  • План – уявлення знань про можливі дії, необхідні для досягнення певної мети.



Вчені в галузі комп'ютерної лінгвістики:

  • Радянські та російські вчені: Олексій Ляпунов, Ігор Мельчук, Ольга Кулагіна, Ю.Д. Апресян, Н.М. Леонтьєва, Ю.С. Мартем'янов, З.М. Шаляпіна, Ігор Богуславський, А.С. Наріньяні, А.Є. Кібрик, Баранов О.М.

  • Західні вчені: Йорік Вілкс, Грегорі Грефенштетт, Гревіл Корбетт, Джон Керолл, Діана Маккарті, Луїс Маркес, Дан Молдован, Йоакім Нівре, Віктор Раскін, Едуард Хові.


Асоціації та конференції з комп'ютерної лінгвістики:
  • «Діалоґ»- головна російська конференція з комп'ютерної лінгвістикиз міжнародною участю.

Пріоритетом Діалогу є комп'ютерне моделюванняросійської мови. Робочі мови конференції російська та англійська. Для залучення зарубіжних рецензентів основна частина прикладних робіт подається англійською мовою.

Основні напрямки конференції:
  • Лінгвістична семантиката семантичний аналіз

  • Формальні моделі мови та їх застосування

  • Теоретична та комп'ютерна лексикографія

  • Методи оцінки (evaluation) систем аналізу текстів та машинного перекладу

  • Корпусна лінгвістика. Створення, застосування, оцінка корпусів

  • Інтернетяк лінгвістичний ресурс. Лінгвістичні технології в Інтернеті

  • Онтології. Вилучення знаньз текстів

  • Комп'ютерний аналіз документів: реферування, класифікація, пошук

  • Автоматичний аналіз тональності текстів

  • Машинний переклад

  • Моделі спілкування. Комунікація, діалог та мовний акт

  • Аналіз та синтез мови



2. Асоціація з Комп'ютерної лінгвістики (ACL)є міжнародним науковим та професійним суспільством людей, які працюють над проблемами, що включають природну мову та обчислення. Річні збори проводяться щоліта у місцях, де значне дослідження комп'ютерної лінгвістики виконано. Заснована в 1962, спочатку назвали Асоціацією для Машинного перекладу та Комп'ютерної лінгвістики (AMTCL). У 1968 році це стало ACL.
  • УACL є європейська (EACL)та північноамериканська (NAACL)гілки.

  • Журнал ACL, Комп'ютерна лінгвістика, є основним форумом для дослідження в галузі комп'ютерної лінгвістики та обробки природної мови. З 1988 року журнал був виданий для ACL MIT Press.
  • Книжкова серія ACL Дослідження в обробці природної мови, видана видавництвом Кембриджського університету.

  • Щороку ACL та його глави організовують міжнародні конференції у різних країнах.

ACL 2014 проводився у Балтіморі, США.

  • Використана література:

  • 1. Марчук Ю.М. Комп'ютерна лінгвістика: навчальний посібник/Ю.М. Марчук.- М.: АСТ: Схід - Захід, 2007-317 с.

  • 2. Шіліхіна К.М. Основи прикладної лінгвістики: навчальний посібник зі спеціальності 021800 (031301) - Теоретична та прикладна лінгвістика, Воронеж, 2006.

  • 3. Боярський К.К. Введення у комп'ютерну лінгвістику. Навчальний посібник. - СПб: НДУ ІТМО, 2013. - 72 с.

  • 4. Щіпіціна Л.Ю. Інформаційні технології у лінгвістиці: навчальний посібник/Л.Ю. Щіпіціна. - М.: ФЛІНТА: наука, 2013. - 128 с.

  • 5. Сосніна Є.П. Введення в прикладну лінгвістику: навчальний посібник/Е.П.Сосніна. - 2-ге вид., Випр. та дод. - Ульяновськ: УлГТУ, 2012. -110 с.

  • 6. Баранов О.М. Введення в прикладну лінгвістику: Навчальний посібник. - М.: Едіторіал УРСС, 2001. - 360 с.

  • 7. Прикладне мовознавство: Підручник/Л.В. Бондарко, Л.А. Вербицька, Г.Я. Мартиненко та ін; Відп. Редактор О.С. Герд. СПб.: Вид-во С.-Петербург. Ун-та, 1996. - 528 с.

  • 8. Шемякін Ю.І. Початки комп'ютерної лінгвістики: Навчальний посібник. М.: Изд-во МГОУ, А/О «Росвузнаука», 1992.



Останні матеріали розділу:

Отримання нітросполук нітруванням
Отримання нітросполук нітруванням

Електронна будова нітрогрупи характеризується наявність семи полярного (напівполярного) зв'язку: Нітросполуки жирного ряду – рідини, що не...

Хроміт, їх відновлювальні властивості
Хроміт, їх відновлювальні властивості

Окисно-відновні властивості сполук хрому з різним ступенем окиснення. Хром. Будова атома. Можливі ступені окислення.

Чинники, що впливають на швидкість хімічної реакції
Чинники, що впливають на швидкість хімічної реакції

Питання №3 Від яких чинників залежить константа швидкості хімічної реакції? Константа швидкості реакції (питома швидкість реакції) - коефіцієнт...