Важнейшим направлением компьютерной лингвистики является разработка. Западные ученые: Йорик Вилкс, Грегори Грефенштетт, Грэвил Корбетт, Джон Кэролл, Диана Маккарти, Луис Маркес, Дан Молдован, Йоаким Нивре, Виктор Раскин, Эдуард Хови

Лингви́стика (от лат. lingua -
язык), языкозна́ние, языкове́дение - наука,
изучающая языки.
Это наука о естественном человеческом языке вообще
и обо всех языках мира как его
индивидуализированных представителях.
В широком смысле слова, лингвистика
подразделяется на научную и практическую. Чаще
всего под лингвистикой подразумевается именно
научная лингвистика. Является частью семиотики как
науки о знаках.
Лингвистикой профессионально занимаются учёныелингвисты.

Лингвистика и Информатика.
В жизни современного общества важную роль играют автоматизированные
информационные технологии. Но развитие информационных технологий происходит
весьма неравномерно: если современный уровень вычислительной техники и
средств связи поражает воображение, то в области смысловой обработки
информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от
достижений в изучении процессов человеческого мышления, процессов речевого
общения между людьми и от умения моделировать эти процессы на ЭВМ. А это задача чрезвычайной сложности.Когда речь идет о создании перспективных
информационных технологий, то проблемы автоматической обработки текстовой
информации, представленной на естественных языках, выступают на передний план.
Это определяется тем, что мышление человека тесно связано с его языком. Более
того, естественный язык является инструментом мышления. Он является также
универсальным средством общения между людьми – средством восприятия,
накопления, хранения, обработки и передачи информации.
Проблемами использования естественного языка в системах автоматической
обработки информации занимается наука компьютерная лингвистика. Эта наука
возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов
прошлого столетия. Поначалу, в период своего становления, она имела различные
названия: математическая лингвистика, вычислительная лингвистика, инженерная
лингвистика. Но в начале восьмидесятых годов за ней закрепилось название
компьютерная лингвистика.

Компьютерная лингвистика - это область знаний, связанная с решением задач
автоматической обработки информации, представленной на естественном языке.
Центральными научными проблемами компьютерной лингвистики являются проблема
моделирования процесса понимания смысла текстов (перехода от текста к
формализованному представлению его смысла) и проблема синтеза речи (перехода от
формализованного представления смысла к текстам на естественном языке). Эти проблемы
возникают при решении ряда прикладных задач:
1) автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ,
2) автоматического анализа и синтеза устной речи,
3) автоматического перевода текстов с одних языков на другие,
4) общения с ЭВМ на естественном языке,
5) автоматической классификации и индексирования текстовых документов, их
автоматического реферирования, поиска документов в полнотекстовых базах данных.
За прошедшие полвека в области компьютерной лингвистики были получены
значительные научные и практические результаты: были созданы системы машинного
перевода текстов с одних естественных языков на другие, системы автоматизированного
поиска информации в текстах, системы автоматического анализа и синтеза устной речи и
многие другие. Но были и разочарования. Например, проблема машинного перевода
текстов с одних языков на другие оказалась значительно сложнее, чем это представляли
себе пионеры машинного перевода и их последователи. То же самое можно сказать об
автоматизированном поиске информации в текстах и о задаче анализа и синтеза устной
речи. Ученым и инженерам придется по-видимому еще немало потрудиться, чтобы
достигнуть нужных результатов.

Обработка естественного языка (англ. natural language processing; синтаксический,
морфологический, семантический анализы текста). Сюда включают также:
Корпусная лингвистика, создание и использование электронных корпусов текстов
Создание электронных словарей, тезаурусов, онтологий. Например, Lingvo. Словари
используют, например, для автоматического перевода, проверки орфографии.
Автоматический перевод текстов. Среди русских переводчиков популярным
является Промт. Среди бесплатных известен переводчик Google Translate
Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact
extraction, text mining)
Автореферирование (англ. automatic text summarization). Эта функция включена,
например, в Microsoft Word.
Построение систем управления знаниями. См. Экспертные системы
Создание вопросно-ответных систем (англ. question answering systems).
Оптическое распознавание символов (англ. OCR). Например, программа FineReader
Автоматическое распознавание речи (англ. ASR). Есть платное и бесплатное ПО
Автоматический синтез речи

Введение

Что такое компьютерная лингвистика?

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА , направление в прикладной лингвистике, ориентированное на использование компьютерных инструментов – программ, компьютерных технологий организации и обработки данных – для моделирования функционирования языка в тех или иных условиях, ситуациях, проблемных сферах и т.д., а также вся сфера применения компьютерных моделей языка в лингвистике и смежных дисциплинах. Собственно, только в последнем случае и идет речь о прикладной лингвистике в строгом смысле, поскольку компьютерное моделирование языка может рассматриваться и как сфера приложения информатики и теории программирования к решению задач науки о языке. На практике, однако, к компьютерной лингвистике относят практически все, что связано с использованием компьютеров в языкознании.

Как особое научное направление компьютерная лингвистика оформилась в 1960-е годы. Русский термин «компьютерная лингвистика» является калькой с английского computational linguistics. Поскольку прилагательное computational по-русски может переводиться и как «вычислительный», в литературе встречается также термин «вычислительная лингвистика», однако в отечественной науке он приобретает более узкое значение, приближающееся к понятию «квантитативной лингвистики». Поток публикаций в этой области очень велик. Кроме тематических сборников, в США ежеквартально выходит журнал «Компьютерная лингвистика». Большую организационную и научную работу проводит Ассоциация по компьютерной лингвистике, которая имеет региональные структуры (в частности, европейское отделение). Каждые два года проходят международные конференции по компьютерной лингвистике – COLING. Соответствующая проблематика обычно бывает широко представлена также на различных конференциях по искусственному интеллекту.

Задачи

Компьютерная лингвистика берет на себя собственно лингвистические проблемы компьютерного моделирования языковой деятельности. Ее задачи – построение более точных и более полных лингвистических моделей и более совершенных алгоритмов анализа и синтеза.

В качестве основных направлений можно выделить:

1) Взаимодействие человека и ЭВМ: управление – языки программирования, передача информации – интерфейс.

2) Работа с текстами: индексирование, анализ и классификация, автоматическое редактирование (исправление ошибок), выявление знаний, машинный перевод.

История

Простое порождение подмножества английского языка для обращения к базам данных было обеспечено одной из ранних американских систем LIFER (Languagе Interface Facility wich Elipsis and Recursion), созданной в 70-е годы. Вслед за ней на компьютерном рынке появились и другие, более гибкие системы, обеспечивающие ограниченный естественно-языковой интерфейс с ЭВМ.

В 80-е годы в США образовался ряд компаний, занимающихся разработкой и продажей естественно-языковых интерфейсов с базами данных, экспертными системами. В 1985г. Корпорация "Семантек" представила такой пакет программ Q&A, компания "Карнеги Группа" предложила аналогичный пакет LanguageCraft.

Ведутся активные работы по созданию систем автоматического перевода. Получила распространение система автоматического перевода SYSTRAN, разработанная под руководством Д. Тома по заказу военно-воздушных сил США. В течение 1974 - 1975 гг. система была использована аэрокосмической ассоциацией NASA для перевода документов по проекту Аполлон-Союз. В наше время она переводит с нескольких языков около 100 000 страниц ежегодно.

В Европе работы по созданию компьютерных систем перевода стимулировались образованием Европейской информационной Сети (EURONET DIANA). В 1982 г. Европейское экономическое сообщество объявило о создании европейской программы EUROTRA, цель которой – разработка системы компьютерного перевода для всех европейских языков. Первоначально проект оценивался в 12 млн долларов, в 1987 г. специалисты определили суммарные расходы по этому проекту более чем в 160 млн долларов.

В Японии исследования по компьютерной лингвистике концентрируются вокруг общенациональной программы создания компьютеров пятого поколения, объявленной в 1981 г.

Существует ряд военных проектов создания человеко-машинных интерфейсов на естественном языке. В США они ведутся в основном в рамках стратегической компьютерной инициативы - десятилетней программы, принятой министерством обороны в 1983 г. Цель ее - создание нового поколения "интеллектуальных" оружия и военных систем с целью обеспечить многолетнее технологическое превосходство США.

Естественно, что специалисты по искусственному интеллекту, прекрасно разбирающиеся в компьютерах и языках программирования, энергично принялись за решение проблемы понимания языка своими методами. Шел поиск алгоритмов естественного языка. Были созданы сложные программы понимания языка для очень узких специальных областей, реализованы программы частичного машинного перевода и ряд других. Но решающего продвижения в решении проблемы понимания языка так и не было. Язык и человек настолько связаны, что ученым пришлось заняться проблемой понимания мира человеком. А это уже область философии.

Базовые понятия лингвистики

КУРСОВАЯ РАБОТА

по дисциплине «Информатика»

по теме: «Компьютерная лингвистика»


ВВЕДЕНИЕ

1. Место и роль компьютерной лингвистики в лингвистических исследованиях

2. Современные интерфейсы компьютерной лингвистики

ЗАКЛЮЧЕНИЕ

ЛИТЕРАТУРА


Введение

В жизни современного общества важную роль играют автоматизированные информационные технологии. С течением времени их значение непрерывно возрастает. Но развитие информационных технологий происходит весьма неравномерно: если современный уровень вычислительной техники и средств связи поражает воображение, то в области смысловой обработки информации успехи значительно скромнее. Эти успехи зависят, прежде всего, от достижений в изучении процессов человеческого мышления, процессов речевого общения между людьми и от умения моделировать эти процессы на ЭВМ.

Когда речь идет о создании перспективных информационных технологий, то проблемы автоматической обработки текстовой информации, представленной на естественных языках, выступают на передний план. Это определяется тем, что мышление человека тесно связано с его языком. Более того, естественный язык является инструментом мышления. Он является также универсальным средством общения между людьми – средством восприятия, накопления, хранения, обработки и передачи информации. Проблемами использования естественного языка в системах автоматической обработки информации занимается наука компьютерная лингвистика. Эта наука возникла сравнительно недавно – на рубеже пятидесятых и шестидесятых годов прошлого столетия. За прошедшие полвека в области компьютерной лингвистики были получены значительные научные и практические результаты: были созданы системы машинного перевода текстов с одних естественных языков на другие, системы автоматизированного поиска информации в текстах, системы автоматического анализа и синтеза устной речи и многие другие. Данная работа посвящена построению оптимального компьютерного интерфейса средствами компьютерной лингвистики при проведении лингвистических исследований.


В современном мире при проведении различных лингвистических исследований все более активно используется компьютерная лингвистика.

Компьютерная лингвистика – это область знаний, связанная c решением задач автоматической обработки информации, представленной на естественном языке. Центральными научными проблемами компьютерной лингвистики являются проблема моделирования процесса понимания смысла текстов (перехода от текста к формализованному представлению его смысла) и проблема синтеза речи (перехода от формализованного представления смысла к текстам на естественном языке). Эти проблемы возникают при решении ряда прикладных задач и, в частности, задач автоматического обнаружения и исправления ошибок при вводе текстов в ЭВМ, автоматического анализа и синтеза устной речи, автоматического перевода текстов с одних языков на другие, общения с ЭВМ на естественном языке, автоматической классификации и индексирования текстовых документов, их автоматического реферирования, поиска документов в полнотекстовых базах данных.

Лингвистические средства, создаваемые и применяемые в компьютерной лингвистике, можно условно разделить на две части: декларативную и процедурную. К декларативной части относятся словари единиц языка и речи, тексты и различного рода грамматические таблицы, к процедурной части – средства манипулирования единицами языка и речи, текстами и грамматическими таблицами. Компьютерный интерфейс относится к процедурной части компьютерной лингвистики.

Успех в решении прикладных задач компьютерной лингвистики зависит, прежде всего, от полноты и точности представления в памяти ЭВМ декларативных средств и от качества процедурных средств. На сегодняшний день необходимый уровень решения этих задач пока еще не достигнут, хотя работы в области компьютерной лингвистики ведутся во всех развитых странах мира (Россия, США, Англия, Франция, Германия, Япония и др.).

Тем не менее, можно отметить серьезные научные и практические достижения в области компьютерной лингвистики. Так в ряде стран(Россия, США, Япония, и др.) построены экспериментальные и промышленные системы машинного перевода текстов с одних языков на другие, построен ряд экспериментальных систем общения с ЭВМ на естественном языке, ведутся работы по созданию терминологических банков данных, тезаурусов, двуязычных и многоязычных машинных словарей (Россия, США, Германия, Франция и др.), строятся системы автоматического анализа и синтеза устной речи (Россия, США, Япония и др.), ведутся исследования в области построения моделей естественных языков.

Важной методологической проблемой прикладной компьютерной лингвистики является правильная оценка необходимого соотношения между декларативной и процедурной компонентами систем автоматической обработки текстовой информации. Чему отдать предпочтение: мощным вычислительным процедурам, опирающимся на относительно небольшие словарные системы с богатой грамматической и семантической информацией, или мощной декларативной компоненте при относительно простых компьютерных интерфейсах? Большинство ученых считают что, второй путь предпочтительнее. Он быстрее приведет к достижению практических целей, так как при этом меньше встретится тупиков и трудно преодолимых препятствий и здесь можно будет в более широких масштабах использовать ЭВМ для автоматизации исследований и разработок.

Необходимость мобилизации усилий, прежде всего, на развитии декларативной компоненты систем автоматической обработки текстовой информации подтверждается полувековым опытом развития компьютерной лингвистики. Ведь здесь, несмотря на бесспорные успехи этой науки, увлечение алгоритмическими процедурами не принесло ожидаемого успеха. Наступило даже некоторое разочарование в возможностях процедурных средств.

В свете вышеизложенного, представляется перспективным такой путь развития компьютерной лингвистики, когда основные усилия будут направлены на создание мощных словарей единиц языка и речи, изучение их семантико-синтаксической структуры и на создание базовых процедур морфологического, семантико-синтаксического и концептуального анализа и синтеза текстов. Это позволит в дальнейшем решать широкий спектр прикладных задач.

Перед компьютерной лингвистикой стоят, прежде всего, задачи лингвистического обеспечения процессов сбора, накопления, обработки и поиска информации. Наиболее важными из них являются:

1. Автоматизация составления и лингвистической обработки машинных словарей;

2. Автоматизация процессов обнаружения и исправления ошибок при вводе текстов в ЭВМ;

3. Автоматическое индексирование документов и информационных запросов;

4. Автоматическая классификация и реферирование документов;

5. Лингвистическое обеспечение процессов поиска информации в одноязычных и многоязычных базах данных;

6. Машинный перевод текстов с одних естественных языков на другие;

7. Построение лингвистических процессоров, обеспечивающих общение пользователей с автоматизированными интеллектуальными информационными системами (в частности, с экспертными системами) на естественном языке, или на языке, близком к естественному;

8. Извлечение фактографической информации из неформализованных текстов.

Подробно остановимся на проблемах, наиболее относящихся к теме исследования.

В практической деятельности информационных центров есть необходимость решения задачи автоматизированного обнаружения и исправления ошибок в текстах при их вводе в ЭВМ. Эта комплексная задача может быть условно расчленена на три задачи – задачи орфографического, синтаксического и семантического контроля текстов. Первая из них может быть решена с помощью процедуры морфологического анализа, использующей достаточно мощный эталонный машинный словарь основ слов. В процессе орфографического контроля слова текста подвергаются морфологическому анализу, и если их основы отождествляются с основами эталонного словаря, то они считаются правильными; если не отождествляются, то они в сопровождении микроконтекста выдаются на просмотр человеку. Человек обнаруживает и исправляет искаженные слова, а соответствующая программная система вносит эти исправления в корректируемый текст.

Задача синтаксического контроля текстов с целью обнаружения в них ошибок существенно сложнее задачи их орфографического контроля. Во-первых, потому, что она включает в свой состав и задачу орфографического контроля как свою обязательную компоненту, а, во-вторых, потому, что проблема синтаксического анализа неформализованных текстов в полном объеме еще не решена. Тем не менее, частичный синтаксический контроль текстов вполне возможен. Здесь можно идти двумя путями: либо составлять достаточно представительные машинные словари эталонных синтаксических структур и сравнивать с ними синтаксические структуры анализируемого текста; либо разрабатывать сложную систему правил проверки грамматической согласованности элементов текста. Первый путь нам представляется более перспективным, хотя он, конечно, не исключает и возможности применения элементов второго пути. Синтаксическая структура текстов должна описываться в терминах грамматических классов слов (точнее – в виде последовательностей наборов грамматической информации к словам).

Задачу семантического контроля текстов с целью обнаружения в них смысловых ошибок следует отнести к классу задач искусственного интеллекта. В полном объеме она может быть решена только на основе моделирования процессов человеческого мышления. При этом, по-видимому, придется создавать мощные энциклопедические базы знаний и программные средства манипулирования знаниями. Тем не менее, для ограниченных предметных областей и для формализованной информации эта задача вполне разрешима. Она должна ставиться и решаться как задача семантико-синтаксического контроля текстов.

Компью́терная лингви́стика (также: математи́ческая или вычисли́тельная лингви́стика , англ. computational linguistics ) - научное направление в области математического и компьютерного моделирования интеллектуальных процессов у человека и животных при создании систем искусственного интеллекта , которое ставит своей целью использование математических моделей для описания естественных языков .

Компьютерная лингвистика частично пересекается с обработкой естественных языков . Однако в последней акцент делается не на абстрактные модели, а на прикладные методы описания и обработки языка для компьютерных систем.

Полем деятельности компьютерных лингвистов является разработка алгоритмов и прикладных программ для обработки языковой информации.

Истоки

Математическая лингвистика является ветвью науки искусственного интеллекта . Её история началась в Соединённых Штатах Америки в 1950-х годах. С изобретением транзистора и появлением нового поколения компьютеров, а также первых языков программирования, начались эксперименты с машинным переводом , особенно русских научных журналов. В 1960-х годах подобные исследования проводились и в СССР (например, статья о переводе с русского на армянский в сб. «Проблемы кибернетики» за 1964 год). Однако качество машинного перевода до сих пор сильно уступает качеству перевода, произведённого человеком.

С 15 по 21 мая 1958 года в I МГПИИЯ состоялась первая Всесоюзная конференция по машинному переводу. Оргкомитет возглавляли В. Ю. Розенцвейг и ответственный секретарь Оргкомитета Г. В. Чернов . Полностью программа конференции опубликована в сборнике «Машинный перевод и прикладная лингвистика», вып. 1, 1959 г. (он же «Бюллетень Объединения по машинному переводу № 8»). Как вспоминает В. Ю. Розенцвейг , опубликованный сборник тезисов конференции попал в США и произвел там большое впечатление.

В апреле 1959 года в Ленинграде состоялось I Всесоюзное совещание по математической лингвистике, созванное Ленинградским университетом и комитетом прикладной лингвистики. Главным организатором Совещания был Н. Д. Андреев . В Совещании приняли участие ряд видных математиков, в частности, С. Л. Соболев , Л. В. Канторович (впоследствии - Нобелевский лауреат) и А. А. Марков (последние двое выступали в прениях). В. Ю. Розенцвейг выступил в день открытия Совещания с программным докладом «Общая лингвистическая теория перевода и математическая лингвистика».

Направления компьютерной лингвистики

  • Обработка естественного языка (англ. natural language processing ; синтаксический, морфологический, семантический анализы текста). Сюда включают также:
  1. Корпусная лингвистика , создание и использование электронных корпусов текстов
  2. Создание электронных словарей , тезаурусов , онтологий . Например, Lingvo . Словари используют, например, для автоматического перевода, проверки орфографии.
  3. Автоматический перевод текстов. Среди русских переводчиков популярным является Промт . Среди бесплатных известен переводчик Google Translate
  4. Автоматическое извлечение фактов из текста (извлечение информации) (англ. fact extraction, text mining )
  5. Автореферирование (англ. automatic text summarization ). Эта функция включена, например, в Microsoft Word .
  6. Построение систем управления знаниями . См. Экспертные системы
  7. Создание вопросно-ответных систем (англ. question answering systems ).
  • Оптическое распознавание символов (англ. OCR ). Например, программа FineReader
  • Автоматическое распознавание речи (англ. ASR ). Есть платное и бесплатное ПО
  • Автоматический синтез речи

Крупные ассоциации и конференции

Учебные программы в России

См. также

Напишите отзыв о статье "Компьютерная лингвистика"

Примечания

Ссылки

  • (реферат)
  • - база знаний по лингвистическим ресурсам для русского языка
  • - открытые исходники некоторых утилит компьютерной лингвистики
  • - онлайн доступ к программам компьютерной лингвистики

Отрывок, характеризующий Компьютерная лингвистика

– Возьми, возьми ребенка, – проговорил Пьер, подавая девочку и повелительно и поспешно обращаясь к бабе. – Ты отдай им, отдай! – закричал он почти на бабу, сажая закричавшую девочку на землю, и опять оглянулся на французов и на армянское семейство. Старик уже сидел босой. Маленький француз снял с него последний сапог и похлопывал сапогами один о другой. Старик, всхлипывая, говорил что то, но Пьер только мельком видел это; все внимание его было обращено на француза в капоте, который в это время, медлительно раскачиваясь, подвинулся к молодой женщине и, вынув руки из карманов, взялся за ее шею.
Красавица армянка продолжала сидеть в том же неподвижном положении, с опущенными длинными ресницами, и как будто не видала и не чувствовала того, что делал с нею солдат.
Пока Пьер пробежал те несколько шагов, которые отделяли его от французов, длинный мародер в капоте уж рвал с шеи армянки ожерелье, которое было на ней, и молодая женщина, хватаясь руками за шею, кричала пронзительным голосом.
– Laissez cette femme! [Оставьте эту женщину!] – бешеным голосом прохрипел Пьер, схватывая длинного, сутоловатого солдата за плечи и отбрасывая его. Солдат упал, приподнялся и побежал прочь. Но товарищ его, бросив сапоги, вынул тесак и грозно надвинулся на Пьера.
– Voyons, pas de betises! [Ну, ну! Не дури!] – крикнул он.
Пьер был в том восторге бешенства, в котором он ничего не помнил и в котором силы его удесятерялись. Он бросился на босого француза и, прежде чем тот успел вынуть свой тесак, уже сбил его с ног и молотил по нем кулаками. Послышался одобрительный крик окружавшей толпы, в то же время из за угла показался конный разъезд французских уланов. Уланы рысью подъехали к Пьеру и французу и окружили их. Пьер ничего не помнил из того, что было дальше. Он помнил, что он бил кого то, его били и что под конец он почувствовал, что руки его связаны, что толпа французских солдат стоит вокруг него и обыскивает его платье.
– Il a un poignard, lieutenant, [Поручик, у него кинжал,] – были первые слова, которые понял Пьер.
– Ah, une arme! [А, оружие!] – сказал офицер и обратился к босому солдату, который был взят с Пьером.
– C"est bon, vous direz tout cela au conseil de guerre, [Хорошо, хорошо, на суде все расскажешь,] – сказал офицер. И вслед за тем повернулся к Пьеру: – Parlez vous francais vous? [Говоришь ли по французски?]
Пьер оглядывался вокруг себя налившимися кровью глазами и не отвечал. Вероятно, лицо его показалось очень страшно, потому что офицер что то шепотом сказал, и еще четыре улана отделились от команды и стали по обеим сторонам Пьера.
– Parlez vous francais? – повторил ему вопрос офицер, держась вдали от него. – Faites venir l"interprete. [Позовите переводчика.] – Из за рядов выехал маленький человечек в штатском русском платье. Пьер по одеянию и говору его тотчас же узнал в нем француза одного из московских магазинов.
– Il n"a pas l"air d"un homme du peuple, [Он не похож на простолюдина,] – сказал переводчик, оглядев Пьера.
– Oh, oh! ca m"a bien l"air d"un des incendiaires, – смазал офицер. – Demandez lui ce qu"il est? [О, о! он очень похож на поджигателя. Спросите его, кто он?] – прибавил он.
– Ти кто? – спросил переводчик. – Ти должно отвечать начальство, – сказал он.
– Je ne vous dirai pas qui je suis. Je suis votre prisonnier. Emmenez moi, [Я не скажу вам, кто я. Я ваш пленный. Уводите меня,] – вдруг по французски сказал Пьер.
– Ah, Ah! – проговорил офицер, нахмурившись. – Marchons!
Около улан собралась толпа. Ближе всех к Пьеру стояла рябая баба с девочкою; когда объезд тронулся, она подвинулась вперед.
– Куда же это ведут тебя, голубчик ты мой? – сказала она. – Девочку то, девочку то куда я дену, коли она не ихняя! – говорила баба.
– Qu"est ce qu"elle veut cette femme? [Чего ей нужно?] – спросил офицер.
Пьер был как пьяный. Восторженное состояние его еще усилилось при виде девочки, которую он спас.
– Ce qu"elle dit? – проговорил он. – Elle m"apporte ma fille que je viens de sauver des flammes, – проговорил он. – Adieu! [Чего ей нужно? Она несет дочь мою, которую я спас из огня. Прощай!] – и он, сам не зная, как вырвалась у него эта бесцельная ложь, решительным, торжественным шагом пошел между французами.
Разъезд французов был один из тех, которые были посланы по распоряжению Дюронеля по разным улицам Москвы для пресечения мародерства и в особенности для поимки поджигателей, которые, по общему, в тот день проявившемуся, мнению у французов высших чинов, были причиною пожаров. Объехав несколько улиц, разъезд забрал еще человек пять подозрительных русских, одного лавочника, двух семинаристов, мужика и дворового человека и нескольких мародеров. Но из всех подозрительных людей подозрительнее всех казался Пьер. Когда их всех привели на ночлег в большой дом на Зубовском валу, в котором была учреждена гауптвахта, то Пьера под строгим караулом поместили отдельно.

В Петербурге в это время в высших кругах, с большим жаром чем когда нибудь, шла сложная борьба партий Румянцева, французов, Марии Феодоровны, цесаревича и других, заглушаемая, как всегда, трубением придворных трутней. Но спокойная, роскошная, озабоченная только призраками, отражениями жизни, петербургская жизнь шла по старому; и из за хода этой жизни надо было делать большие усилия, чтобы сознавать опасность и то трудное положение, в котором находился русский народ. Те же были выходы, балы, тот же французский театр, те же интересы дворов, те же интересы службы и интриги. Только в самых высших кругах делались усилия для того, чтобы напоминать трудность настоящего положения. Рассказывалось шепотом о том, как противоположно одна другой поступили, в столь трудных обстоятельствах, обе императрицы. Императрица Мария Феодоровна, озабоченная благосостоянием подведомственных ей богоугодных и воспитательных учреждений, сделала распоряжение об отправке всех институтов в Казань, и вещи этих заведений уже были уложены. Императрица же Елизавета Алексеевна на вопрос о том, какие ей угодно сделать распоряжения, с свойственным ей русским патриотизмом изволила ответить, что о государственных учреждениях она не может делать распоряжений, так как это касается государя; о том же, что лично зависит от нее, она изволила сказать, что она последняя выедет из Петербурга.

В Институте лингвистики РГГУ с 2012 года осуществляется подготовка магистров по программе магистратуры Компьютерная лингвистика (направление Фундаментальная и прикладная лингвистика ). Эта программа предназначена для подготовки профессиональных лингвистов , владеющих как основами языкознания, так и современными методами научно-исследовательской, экспертно-аналитической, инженерной работы и способных эффективно участвовать в разработке инновационных языковых компьютерных технологий.

В образовательном процессе участвуют разработчики крупных исследовательских и коммерческих систем в области автоматической обработки текста, что обеспечивает связь обучения магистров с мейнстримом современной компьютерной лингвистики. Особое внимание уделяется участию магистров в российских и международных конференциях.

Среди преподавателей авторы базовых учебников по лингвистическим специальностям, специалисты мирового уровня, руководители проектов крупных систем автоматической обработки языка: Я.Г. Тестелец, И.М. Богуславский, В.И. Беликов, В.И. Подлесская, В.П. Селегей, Л.Л. Иомдин, А.С. Старостин, С.А. Шаров, а также сотрудники компаний, являющихся мировыми лидерами в области компьютерной лингвистики: IBM (система Watson), Яндекс, ABBYY (системы Lingvo, FineReader, Compreno).

Основой подготовки магистров по данной программе является проектный подход. Привлечение магистрантов к научно-исследовательской работе в области компьютерной лингвистики происходит на базе РГГУ и на базе компаний, занимающихся разработкой программ в области АОТ (ABBYY, IBM и др.), что, безусловно, является большим плюсом как для самих магистров, так и для их возможных работодателей. В частности, осуществляется приём в магистратуру целевых магистров, обучение которых обеспечивается будущими работодателями.

Вступительные испытания : "Формальные модели и методы современной лингвистики". Точную информацию о времени экзамена можно получить на сайте отдела магистратуры РГГУ .

Руководители магистратуры - зав. Учебно-научным центром компьютерной лингвистики, директор по лингвистическим исследованиям компании ABBYY Владимир Павлович Селегей и д.ф.н., профессор Вера Исааковна Подлесская .

Программа вступительного экзамена и собеседования по дисциплине «Формальные модели и методы современной лингвистики».

Комментарии к программе

  • Любой вопрос программы может сопровождаться задачами, связанными с описаниями конкретных языковых явлений, относящихся к разделу вопроса: построению структур, описанию ограничений, возможным алгоритмам построения и/или идентификации.
  • Вопросы, отмеченные звездочками, являются факультативными (в билетах стоят под №3). Владение соответствующим материалом является серьезным бонусом для кандидатов, но не обязательно.
  • Помимо теоретических вопросов в билетах на экзамене будет предложен небольшой фрагмент специального (лингвистического) текста на английском языке – для перевода и обсуждения. От поступающих требуется продемонстрировать удовлетворительный уровень владения англоязычной научной терминологией и навыками анализа научного текста. В качестве примера текста, который не должен вызвать у поступающего серьезных трудностей, ниже приводится фрагмент статьи https://en.wikipedia.org/wiki/Anaphora_(linguistics) :

In linguistics, anaphora (/əˈnæfərə/) is the use of an expression whose interpretation depends upon another expression in context (its antecedent or postcedent). In a narrower sense, anaphora is the use of an expression that depends specifically upon an antecedent expression and thus is contrasted with cataphora, which is the use of an expression that depends upon a postcedent expression. The anaphoric (referring) term is called an anaphor. For example, in the sentence Sally arrived, but nobody saw her, the pronoun her is an anaphor, referring back to the antecedent Sally. In the sentence Before her arrival, nobody saw Sally, the pronoun her refers forward to the postcedent Sally, so her is now a cataphor (and an anaphor in the broader, but not the narrower, sense). Usually, an anaphoric expression is a proform or some other kind of deictic (contextually-dependent) expression. Both anaphora and cataphora are species of endophora, referring to something mentioned elsewhere in a dialog or text.

Anaphora is an important concept for different reasons and on different levels: first, anaphora indicates how discourse is constructed and maintained; second, anaphora binds different syntactical elements together at the level of the sentence; third, anaphora presents a challenge to natural language processing in computational linguistics, since the identification of the reference can be difficult; and fourth, anaphora tells some things about how language is understood and processed, which is relevant to fields of linguistics interested in cognitive psychology.

ТЕОРЕТИЧЕСКИЕ ВОПРОСЫ

ОБЩИЕ ВОПРОСЫ ЯЗЫКОЗНАНИЯ

  • Объект лингвистики. Язык и речь. Синхрония и диахрония.
  • Уровни языка. Формальные модели уровней языка.
  • Синтагматика и парадигматика. Понятие дистрибуции.
  • Основания межъязыковых сравнений: типологическая, генеалогическая и ареальная лингвистика.
  • *Математическая лингвистика: объект и методы исследований

ФОНЕТИКА

  • Предмет фонетики. Артикуляционная и акустическая фонетика.
  • Сегментная и супрасегментная фонетика. Просодия и интонация.
  • Основные понятия фонологии. Типология фонологических систем и их фонетических реализаций.
  • *Компьютерные инструменты и методы фонетических исследований
  • *Анализ и синтез речи.

МОРФОЛОГИЯ

  • Предмет морфологии. Морфы, морфемы, алломорфы.
  • Словоизменение и словообразование.
  • Грамматические значения и способы их реализации. Грамматические категории и граммемы. Морфологические и синтаксические грамматические значения.
  • Понятия словоформы, основы, леммы и парадигмы.
  • Части речи; основные подходы к выделению частей речи.
  • *Формальные модели описания словоизменения и словообразования.
  • *Морфология в задачах автоматической обработки языка: проверка орфографии, лемматизация, POS-tagging

СИНТАКСИС

  • Предмет синтаксиса. Способы выражения синтаксических отношений.
  • Способы представления синтаксической структуры предложения. Достоинства и недостатки деревьев зависимостей и составляющих.
  • Способы описания линейного порядка. Непроективность и разрыв составляющих. Понятие трансформации; трансформации, связанные с линейным порядком.
  • Связь между синтаксисом и семантикой: валентности, модели управления, актанты и сирконстанты.
  • Диатеза и залог. Актантная деривация.
  • Коммуникативная организация высказывания. Тема и рема, данное и новое, контрастивность.
  • *Основные синтаксичеcкие теории: МСТ, генеративизм, функциональная грамматика, HPSG
  • *Математические модели синтаксиса: классификация формальных языков по Хомскому, алгоритмы распознавания и их сложность.

СЕМАНТИКА

  • Предмет семантики. Наивная и научная языковые картины мира. Гипотеза Сепира – Уорфа.
  • Значение в языке и речи: смысл и референт. Тип референции (денотативный статус).
  • Лексическая семантика. Способы описания семантики слова.
  • Грамматическая семантика. Основные категории на примере русского языка.
  • Семантика предложения. Пропозициональный компонент. Дейксис и анафора. Кванторы и связки. Модальность.
  • Иерархия и системность лексических значений. Полисемия и омонимия. Семантическая структура многозначного слова. Понятия инварианта и прототипа.
  • Парадигматические и синтагматические отношения в лексике. Лексические функции.
  • Толкование. Язык толкований. Московская семантическая школа
  • Семантика и логика. Истинностное значение высказывания.
  • Теория речевых актов. Высказывание и его иллокутивная сила. Перформативы. Классификация речевых актов.
  • Фразеология: инвентарь и способы описания фразеологических единиц.
  • *Модели и методы формальной семантики.
  • *Модели семантики в современной компьютерной лингвистике.
  • *Дистрибутивная и операциональная семантики.
  • *Основные идеи грамматики конструкций.

ТИПОЛОГИЯ

  • Традиционные типологические классификации языков.
  • Типология грамматических категорий имени и глагола.
  • Типология простого предложения. Основные типы конструкций: аккузативная, эргативная, активная.
  • Типология порядка слов и гринберговские корреляции. Лево- и правоветвящиеся языки.

ЛЕКСИКОГРАФИЯ

  • Лексика как инвентарь культуры; социальное варьирование лексики, лексические узус, норма, кодификация.
  • Типология словарей (на русском материале). Отражение лексики в словарях различных типов.
  • Двуязычная лексикография с привлечением русского языка.
  • Дескриптивная и прескриптивная лексикография. Профессиональные лингвистические словари.
  • Специфика основных русских толковых словарей. Структура словарной статьи. Толкование и энциклопедическая информация.
  • Лексика и грамматика. Представление об интегральной модели языка в Московской семантической школе.
  • *Методика работы лексикографа.
  • *Корпусные методы в лексикографии.

ЛИНГВИСТИКА ТЕКСТА И ДИСКУРС

  • Понятие текста и дискурса.
  • Механизмы межфразовой связи. Основные разновидности средств их языковой реализации.
  • Предложение как единица языка и как элемент текста.
  • Сверхфразовые единства, принципы их формирования и выделения, основные свойства.
  • Основные категории классификации текстов (жанр, стиль, регистр, предметная область и т.д)
  • *Методы автоматической жанровой классфикации.

СОЦИОЛИНГВИСТИКА

  • Проблема предмета и границ социолингвистики, ее междисциплинарный характер. Основные понятия социологии и демографии. Уровни языковой структуры и социолингвистика. Основные понятия и направления социолингвистики.
  • Языковые контакты. Билингвизм и диглоссия. Дивергентные и конвергентные процессы в истории языка.
  • Социальная дифференциация языка. Формы существования языка. Литературный язык: узус-норма-кодификация. Функциональные сферы языка.
  • Языковая социализация. Иерархический характер социальной и языковой идентичности. Языковое поведение индивида и его коммуникативный репертуар.
  • Методы социолингвистических исследований.

КОМПЬЮТЕРНАЯ ЛИНГВИСТИКА

  • Задачи и методы компьютерной лингвистики.
  • Корпусная лингвистика. Основные характеристики корпуса.
  • Представление знаний. Основные идеи теории фреймов М. Минского. Система FrameNet.
  • Тезаурусы и онтологии. WordNet.
  • Основы статистического анализа текстов. Частотные словари. Анализ коллокаций.
  • *Понятие машинного обучения.

ЛИТЕРАТУРА

Учебная (базовый уровень)

Баранов А.Н. Введение в прикладную лингвистику. М.: Едиториал УРРС, 2001.

Баранов А.Н., Добровольский Д.О. Основы фразеологии (краткий курс) Учебное пособие. 2-е издание. Москва: Флинта, 2014.

Беликов В.А., Крысин Л.П. Социолингвистика. М., РГГУ, 2001.

Бурлак С.А., Старостин С.А. Сравнительно-историческое языкознание. М.: Академия. 2005

Вахтин Н.Б., Головко Е.В.. Социолингвистика и социология языка. СПб., 2004.

Князев С. В., Пожарицкая С. К. Современный русский литературный язык: Фонетика, графика, орфография, орфоэпия. 2 изд. М., 2010

Кобозева И.М. Лингвистическая семантика. М.: Едиториал УРСС. 2004.

Кодзасов С.В., Кривнова О.Ф. Общая фонетика. М.: РГГУ, 2001.

Кронгауз М.А. Семантика. М.: РГГУ. 2001.

Кронгауз М.А. Семантика: Задачи, задания, тексты. М.: Академия. 2006..

Маслов Ю.С. Ведение в языкознание. Изд. 6-е, стер. М.: Академия, фил. фак. СПбГУ,

Плунгян В.А. Общая морфология: Введение в проблематику. Изд. 2-е. М.: Едиториал УРСС, 2003.

Тестелец Я.Г. Введение в общий синтаксис. М., 2001.

Шайкевич А.Я. Введение в лингвистику. М.: Академия. 2005.

Научная и справочная

Апресян Ю.Д. Избранные труды, том I. Лексическая семантика: 2-е изд., исп. и доп. М.: Школа "Языки русской культуры", 1995.

Апресян Ю.Д. Избранные труды, том II. Интегральное описание языка и системная лексикография. М.: Школа "Языки русской культуры", 1995.

Апресян Ю.Д. (ред.) Новый объяснительный словарь синонимов русского языка. Москва - Вена: "Языки русской культуры", Wiener Slavistischer Almanach, Sonderband 60, 2004.

Апресян Ю.Д. (ред.) Языковая картина мира и системная лексикография (отв. ред. Ю. Д. Апресян). М.: "Языки славянских культур", 2006, Предисловие и гл. 1, с.26 -- 74.

Булыгина Т.В., Шмелев А.Д. Языковая концептуализация мира (на материале русской грамматики). М.: Школа "Языки русской культуры", 1997.

Вайнрайх У. Языковые контакты. Киев, 1983.

Вежбицкая А. Семантические универсалии и описание языков. М.: Школа "Языки русской культуры". 1999.

Гальперин И.Р. Текст как объект лингвистического исследования. 6-е изд. М.: ЛКИ, 2008 ("Лингвистическое наследие XX века")

Зализняк А.А. “Русское именное словоизменение” с приложением избранных работ по современному русскому языку и общему языкознанию. М.: Языки славянской культуры, 2002.

Зализняк А.А., Падучева Е.В. К типологии относительного предложения. / Семиотика и информатика, вып. 35. М., 1997, с. 59-107.

Иванов Вяч. Вс.. Лингвистика третьего тысячелетия. Вопросы к будущему. М., 2004. С. 89-100 (11. Языковая ситуация мира и прогноз на ближайшее будущее).

Кибрик А.Е. Очерки по общим и прикладным вопросам языкознания. М.: Изд-во МГУ, 1992.

Кибрик А.Е. Константы и переменные языка. СПб: Алетейя, 2003.

Лабов У. О механизме языковых изменений // Новое в лингвистике. Вып.7. М., 1975. С.320-335.

Лайонз Дж. Лингвистическая семантика: Введение. М.: Языки славянской культуры. 2003.

Лайонс Джон. Язык и лингвистика. Вводный курс. М: УРСС, 2004

Лакофф Дж. Женщины, огонь и опасные вещи: Что категории языка говорят нам о мышлении. М.: Языки славянской культуры. 2004.

Лакофф Дж., Джонсон М . Метафоры, которыми мы живем. Пер. с англ. Изд.2. М.: УРСС. 2008.

Лингвистический энциклопедический словарь / Под ред. В.И. Ярцевой. М.: Научное изд-во «Большая российская энциклопедия», 2002.

Мельчук И.А. Курс общей морфологии. Тт. I-IV. Москва-Вена: "Языки славянской культуры", Wiener Slavistischer Almanach, Sonderband 38/1-38/4, 1997-2001.

Мельчук И. А. Опыт теории лингвистических моделей «СМЫСЛ ↔ ТЕКСТ». М.: Школа "Языки русской культуры", 1999.

Фёдорова Л.Л. Семиотика. М., 2004.

Филиппов К. А. Лингвистика текста: Курс лекций - 2-е изд., исп. и доп. Изд. С.-Петерб. ун-та, 2007.

Haspelmath, M., et al . (eds.). World Atlas of Language Structures. Oxford, 2005.

Dryer, M.S. and Haspelmath, M. (eds.) The World Atlas of Language Structures Online. Leipzig: Max Planck Institute for Evolutionary Anthropology, 2013. (http://wals.info)

Croft W. Typology and Universals. Cambridge: Cambridge University Press, 2003. Shopen, T. (ed.) . Language Typology and Syntactic Description. 2nd edition. Cambridge, 2007.

В. И. Беликов. О словарях, «содержащих нормы современного русского литературного языка при его использовании в качестве государственного языка Российской Федерации». 2010 // Портал Грамота.Ру (http://gramota.ru/biblio/research/slovari-norm)

Компьютерная лингвистика и интеллектуальные технологии: По материалам ежегодной Международной конференции «Диалог». Вып. 1-11. - М.: Изд-во Наука, из-во РГГУ, 2002-2012. (Статьи по компьютерной лингвистике, http://www.dialog-21.ru) .

Национальный корпус русского языка: 2006-2008. Новые результаты и перспективы. / Отв. ред. В. А. Плунгян. - СПб.: Нестор-История, 2009.

Новое в зарубежной лингвистике. Вып. XXIV, Компьютерная лингвистика / Сост. Б. Ю. Городецкий. М.: Прогресс, 1989.

Шимчук Э. Г. Русская лексикография: Учебное пособие. М.: Академия, 2009.

Национальный корпус русского языка: 2003-2005. Сборник статей. М.: Индрик, 2005.

Для контактов:

Учебно-научный центр компьютерной лингвистики Института лингвистики РГГУ



Последние материалы раздела:

Развитие критического мышления: технологии и методики
Развитие критического мышления: технологии и методики

Критическое мышление – это система суждений, способствующая анализу информации, ее собственной интерпретации, а также обоснованности...

Онлайн обучение профессии Программист 1С
Онлайн обучение профессии Программист 1С

В современном мире цифровых технологий профессия программиста остается одной из самых востребованных и перспективных. Особенно высок спрос на...

Пробный ЕГЭ по русскому языку
Пробный ЕГЭ по русскому языку

Здравствуйте! Уточните, пожалуйста, как верно оформлять подобные предложения с оборотом «Как пишет...» (двоеточие/запятая, кавычки/без,...