Частотний словник російської. Визначення терміна "частотний словник"

Аналіз повісті «Княжна Мері». 1 урок. Запис від 11 травня. Дія починається з опису прекрасного пейзажу, що передає почуття, думки, та й духовний світ героя, і цим автор хіба що нагнітає події. Ми бачимо героя цілком життєрадісного, що тонко відчуває красу природи. Місце дії – П'ятигорськ. Екзотичні краєвид. Печорін - оповідач Щоденник Печоріна демонструє його вміння розповісти про побачене і відчуте. Печорин відчуває красу природи, вміє бачити її фарби, чути її звуки, милуватися нею, помічати які відбуваються зміни. Він прислухається до ремств хвиль, милується життям моря. Крім того, він розповідає про природу мовою художника, розкриваючись таким чином перед читачами як талановита людина. Слово Печоріна точно, виразно, лірично: «моя кімната наповнилася запахом квітів, що ростуть у скромному палісаднику»… «Водяне суспільство» Суспільство, що з'їхалося для лікування на водах. Сімейства поміщиків та військові. Княгиня Ліговська з дочкою Юнкер Грушницький Віра та її чоловік Драгунський капітан Який сенс життя представників «водяного суспільства»? Яке місце посідає Печорін серед них? Чи він такий далекий від цього суспільства? Ставлення Печоріна до «водяного суспільства» Скептик - той, хто сумнівається у всьому, до всього ставиться скептично, недовірливо. Цинік - людина, що має демонстративно зневажливе ставлення до певних моральних традицій і етичних ритуалів, як заважають або надлишковим для вирішення практичних завдань. «Водяне суспільство» вульгарність, брудні інтриги. нікчемні інтереси, дріб'язковий егоїзм. корисливі розрахунки Печорин шляхетний, що страждає від своїх недоліків людина. Печорин вже налаштований скептично, він помічає всі дрібниці одягу перехожих і одразу дає точну характеристику зустрічним. Він бачить кілька «сумних груп», що також належать «водяному суспільству», які з обуренням відвернулася від нього, ледве побачивши армійські еполети. Печорін зустрічає ще групу чоловіків, але вже складових інший клас (клас військових), які мріють про столичні вітальні. Печорин не відносить себе до цього класу, він символічно обганяє їх, хоча по суті в ньому є щось - і від них, але він не ставить перед собою таких низьких цілей, він прагне кращого, вважає себе вищим за всіх. Печорин досить коротко описав першу зустріч із «водяним суспільством», проте дуже змістовно та достатньо, щоб зрозуміти його ставлення; хоча риси суспільства викладені їм дуже доказово, але все ж таки повністю погодиться з ним - значить бути «оглушеним» його промовистою мовою і повністю не осмислити, що ж являє собою «водяне суспільство», який сенс життя його представників, яке місце займає Печорін серед них , і, взагалі, чи він далекий від цього суспільства, як здається. Ми дізнаємося, що «водяне суспільство» становлять переважно сімейства поміщиків і військові. Вони ведуть звичайний спосіб життя, трохи нудний, одноманітний, розпливчастий і невиразний, тому й назвав герой це суспільство водяним, через схожість властивостей. Грушницький. Печорін зустрічає Грушницького - старого його знайомого і відразу дає йому точний портрет, трохи іронічно, а потім і зовсім готовий розкрити всі його вульгарні риси. Грушницький. Юнкер. Пародія на розчарування Франт. Проблема сучасної генерації. ФРАНТ 1. Ошатно одягнена людина, чепурунок, модник. Ходить франтом: чоботи рантом. Приказка. У одязі був педант і те, що ми назвали франт. Пушкін. Столичний франт зі скельцем в оці. Некрасов. Тут говорять франти записні своє нахабство, свій жилет. Пушкін. 2. Про незаслужуючу пошану, схвалення людині (пренебр.). Цей франт - приятель затятий мотом, шибеником. Грибоєдов. Інший франт, мало йому однієї точки, візьме і наторкає їх цілий ряд. Чехів. «На вузькій дорозі…» Печорін Грушницький Бажає зробити ефект своїми промовами Вимовляє готові пишні фрази Здатний на щирість Не здатний на «піднесене, глибоко діє на почуття та уяву слово» Складна людина, характер якої залишається неясним навіть після прочитання роману. Це звичайний хлопець, якого легко зрозуміти. Зрештою, у ньому перемагають злість і ненависть. Ставлення Печоріна до Грушницького. Печорін вже знає його майбутнє, він знає всі «слабкі струни» людей і вміло ними користується, що все більше підкреслює його індивідуалізм та егоїзм. Трагедія Грушницького. Грушницький хоч і не ідеальний, але він привабливий і симпатичний нам поки що носить солдатську шинель, Поки їм ще не зовсім опанувало самолюбство. Він вірить у своє щастя з Мері, тим самим він все більше схожий на романтика, але кошти, якими він збирається досягти мети, лише принижують його, і він стає незначним. Його виробляють в офіцери, і він зливається з натовпом, натовпом шанувальників княжни, так по крапельці суспільство все більше розростається і все більше притягує до себе інших, але не цей факт жахливий, а той, що це «безлике» суспільство просто і безцільно існує. На Грушницькому новий мундир, нові еполети і це робить його зарозумілим. Грушницький веде з героєм цілком тямущий діалог, що зачіпає самолюбство Печорина: Грушницький говорить майже його словами, тоді Печорін з легкістю входить у свою «роль» (звичайно ця роль не суть його життя, але як часто доводиться вдаватися до неї з заздрості чи зневаги) і посміхається з нього, дражнить його, описуючи княжну Мері, і відразу передражнює Грушницького, підробляючись під його тон. Але й цього йому мало, він не задоволений собою, для нього це рідкісний випадок угамувати свою нудьгу. Своїми вчинками він просто витрачає свої сили і приносить страждання іншим людям. Але ми знаємо, що він і сам глибоко страждає. Печорин дуже самокритично ставиться до себе, що підносить його в очах читача. Характер героя не так складний, скільки суперечливий і неоднозначний: сумне йому смішно, смішне - сумно. Печорін не хоче турбувати себе спогадами, він не хоче жити минулим, він живе сьогоденням, проте коли дізнається про прибуття Віри, перед нами з'являється другий Печорін. Його почуття борються з розумом (цьому свідчить внутрішній монолог, який веде герой, відчуваючи жахливий смуток), але це лише душевний порив. І все-таки, потрапляючи до чергових умов існування, Печорін веде свою гру, учасниками якої стають: Грушницький, Мері, княгиня Ліговська, Віра та її чоловік Семен Васильович – ті самі представники «водяного суспільства», які стали «жертвами» Печоріна. Княжна Мері Мері - недурна, молода, гарна собою, вона, звичайно, не розважлива і не особливо розуміється на людях, але це не робить її менш романтичною і привабливою. Вона відчуває співчуття до всіх нещасних і бачить своє щастя у щастя свого коханого. Вона здатна на «глибоке» почуття і це виділяє її серед інших, вона лише дитя «водяного суспільства». Досягши своєї мети, вона відразу ж зіллється з цим суспільством. Гра Печоріна з Мері. Злить Мері. Інтригує. Здійснює шляхетний вчинок. Доглядає. Бере владу над Мері, використовує у своїх цілях. Печорін теж нещасливий і про це він особисто говорить у сповіді до Мері: «Всі читали на моєму обличчі ознаки поганих властивостей – і вони народилися. Я був скромний - мене звинувачували в лукавстві: я став потайливим. Я глибоко відчував добро і зло; ніхто мене не пестив, всі ображали: я почував себе вище за них, - мене ставили нижче. Я став заздрісний. Я був готовий любити весь світ, молодість протікала у боротьбі із собою та світлом… Я став моральним калікою: одна половина душі моєї не існувала, вона висохла, зіпсувалася, померла, я її відрізав та кинув… інша жила до послуг кожного». Печорін бере владу над Мері, використовує її просто у вигляді зброї проти Грушницького, але цим він має ще одну мету - йому потрібна Віра, яку він все-таки любить. Печорін бачить їжу в стражданнях інших, інакше він не може жити, він не здатний приносити себе в жертву, він не має наміру схилятися перед ким-небудь, його життєва енергіяне знаходить застосування у цьому житті, серед цього суспільства, і він завдає біль оточуючим. У дуелі з ним гине Грушницький. Для Печоріна це всього лише експеримент, при цьому він абсолютно байдужий до свого життя... Надії Мері про кохання зазнають краху: Печорін досить холодно пояснюється з нею і їде, а трагедія Мері - це така ж трагедія і для княгині. Печорін втручається в життя Віри і, можливо, зруйнував би її, якби вона не поїхала. Він розпоряджається долями людей, він переступає межі добра та зла. Автор не дає своєї оцінки ні Печоріну, ні «водяному суспільству». "Хвороба вказана, а як її вилікувати - це вже бог знає", - скаже Лермонтов у передмові, яка була написана після всього роману. І що ж якщо Печорін – «це портрет, складений із пороків нашого покоління», то, може, «водяне суспільство» – це портрет, складений із наших уявлень про щасливе життя? Тоді нам треба змінити свої погляди життя; «багато завзяті щодо раз обраного шляху, небагато - щодо мети». Так Печорін завжди у дії, він шукає сенс життя, його енергія не знаходить застосування, його переповнюють ідеї, а «той у чиїй голові народилося більше ідей, той більше за інших діє…». А «водяне суспільство» – воно не діє. Чому Печорін веде щоденник? Для Печоріна за його самотності щоденник, «журнал», - єдиний «гідний співрозмовник», із якими може бути цілком щирим. І ще одна цінність журналу: Це – душевна пам'ять Печоріна. Життя його, здається, розмінюється на дрібниці, і тому йому особливо важливо побачити сенс подій, що відбуваються, зберегти їх слід, щоб не опинитися в становищі людини, стан якої передано у вірші «І нудно, і сумно…».

053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 345 Труды международной конференции «Диалог 2008» ЧАСТОТНЫЙ СЛОВАРЬ НАЦИОНАЛЬНОГО КОРПУСА РУССКОГО ЯЗЫКА: КОНЦЕПЦИЯ И ТЕХНОЛОГИЯ СОЗДАНИЯ FREQUENCY DICTIONARY OF THE RUSSIAN NATIONAL CORPUS: PRINCIPLES AND TECHNOLOGY Ляшевская О.Н. ( [email protected]), Інститут російської мови ім. В.В. Виноградова РАН Шаров С.А. ( [email protected]), Університет Лідса, Великобританія Словник містить представницький базовий словарь сучасної російської мови (2-а половина XX – початок XXIст.), з інформацією про частотність вживання, статистичний розподіл за текстами і жанрами, за часом створення текстів. Словник ґрунтується на текстах Національного корпусу російської мови обсягом 100 млн. слововжитку. 1. Введение Для російської було розроблено кілька частотних словників. Піонером був словник Г. Йоссельсона, виданий 1953 року в Детройті на матеріалі мови переважно дореволюційної Росії. Словники Е.А. Штейнфельд (1963), Л.М. Засоріної (1977), Л. Леннгрена (1993) та інших. були створені з урахуванням щодо невеликих колекцій текстів (400 тисяч - 1 мільйон слів) й у значною мірою відбивають специфіку російської. радянського періоду: частоти слів товариш і партія в них можна порівняти зі службовими словами, а слово гребінця відсутнє. Існують також спеціалізовані словники, Зокрема, словник Е.М. Степанової (1976), присвячений загальнонауковій лексиці. Окрему галузь статистичних словників становлять словники мови Пушкіна, Достоєвського, Грибоєдова, Цвєтаєвої (Виноградов 1956-1961, Шайкевич та інших. 2003, Поляків 1999, Белякова та інших. 1996), які повністю описують мову даного письменника. Новий частотний словник універсальний. Незважаючи на те, що останній його прямий попередник був випущений 15 років тому (Леннгрен 1993), очевидно, що за цей час багато що змінилося – як сама мова, так і технологія підготовки частотних словників. Наш словник покликаний подати статистичну картину сучасного слововживання (1950-2005 р.), заповнивши, зокрема, лакуну останніх двох десятиліть, а також показати зміни, що відбулися у мові з 1950 року. Словник базується на 100-мільйонному корпусі, тоді як попередні словники спиралися на матеріал обсягом від 400 тис. до 1 млн. слововжитків. Національний корпус (www.ruscorpora.ru, НКРЯ 2005) більш представницький по охопленню матеріалу, оскільки містить збалансовану колекцію текстів різних типів, жанрів та стилів, у тому числі й тексти російського зарубіжжя. Розподіл текстів у підкорпусі сучасної російської мови (з 1950 року) по функціональним стилямпоказано в таблиці 1. Тексти нехудожньої літератури відносяться до більш ніж 50 предметних областей (економіка та фінанси, право, подорожі та ін.), а їх типологія варіюється від законів та наукових статей до інтерв'ю, інструкцій та оголошень (загалом понад 100 типів ). Художні тексти включають романи, повісті, оповідання, нариси, п'єси, казки, есеї, літературні листи та ін. Художня література 36% Публіцистика 42% Інша нехудожня література 17% Усна література 5% Таблиця 1. Функціональні стилі підкорпусу сучасної російської мови Великий розмір та стилістична збалансованість корпусу є передумовою того, що він даватиме надійні статистичні результатидля найчастіших слів: так, склад перших 20 000 елементів нічого очікувати істотно змінюватися, якщо, зберігши пропорцію, замінити дані тексти іншими чи порівняти кілька підвибірок корпусу. Це свідчить досвід складання частотних словників інших 100-мільйонних Ляшевська О.М., Шаров С.А. національних корпусів, таких як британський, чеський (Leech et al. 2001, Čermák & Křen 2004), а також корпуси іспанської мови(Davies 2005). Звичайно, частотний словник НКРЯ багато в чому, і в технологічних питаннях, і змістовно, орієнтується на ці зразки. 2. Розмір корпусу та надійність вибірки Існуючі частотні словники для російської були побудовані на порівняно невеликих корпусах: ЕОМ перших поколінь не могли працювати з корпусами більшого розміру. Цікаво, що теоретичні рекомендації, вироблені в 1970-ті роки (Піотровський та ін. 1972), також доводили, що для достовірного опису 1600-1700 найчастіших слів достатньо використовувати корпус розміром 400 тис. слововжитків. Ця аргументація будувалася на понятті довірчого інтервалу, який широко використовується в статистиці та соціології: якщо ми знаємо розмір вибірки та експериментальну ймовірність події у цій вибірці (тобто частоту слова нашому корпусі), то ми можемо обчислити довірчий інтервалймовірності цієї події на всій популяції (тобто частоту вживання того ж слова у всьому просторі мови). У таблиці 2 наводяться приклади частоти окремих сліву словниках Леннгрена, Засоріної та Штейнфельд у порівнянні з частотами НКРЯ та 150-мільйонного корпусу російської мови, зібраного з Інтернету (про останній див. Sharoff 2006). Незважаючи на те, що слова думати, завдання, любити безумовно відносяться до ядра мови (входять до числа 200-500 найчастіших лем), у невеликих корпусах навіть їхня частота відрізняється дуже істотно. Частота порівняно менш частотних слів (забруднення, вивчення, милий) варіюється в ще більших межах. Хоча склад Інтернет-корпусу досить суттєво відрізняється від НКРЯ (великою кількістю технічних текстіві форумів і меншою кількістю художньої літератури), відмінності у частоті цих одиниць між ними не такі великі. Лемма Леннгрен Засоріна Штейнф. НКРЯ Интернет власть 202 364 138 422 428 думать 609 1094 1058 865 818 загрязнение 69 1 0 9 11 задача 499 421 250 228 292 изучение 193 110 0 63 78 любить 415 632 595 549 650 милый 58 242 135 129 110 Таблица 2. Сравнение частоты отдельных слів (середнє на мільйон слововжитків). Як бачимо, теоретичні рекомендації щодо достатнього розміру корпусу даному випадкувиявляються не надто достовірними. Причина цього полягає у вихідних припущеннях на нормальний Гауссовий розподіл частоти слів, відповідно до якого кожне слово зустрічається з однаковою частотою у всіх текстах. Якщо слово зустрілося в тексті один раз, то при нормальному розподіліце не впливає на можливість його вживання там вдруге. Але насправді це не так. Кожен текст має деяку власну тему, слова якої у цьому тексті вживатимуться набагато частіше за середній. У тексті про хобітів слово хобіт буде вживатися так само часто, як і багато службових слів, що істотно підвищить його частоту в корпусі, який включатиме хоча б один такий текст1. В результаті частотний список, побудований на основі корпусу, відображає специфіку текстів, які потрапили в нього при його складанні. Таблиця 2 показує недосконалість частотних словників, побудованих відносно невеликих корпусах, але просте збільшення розміру корпусу також не гарантує стабільності результатів. При інтерпретації списків частотного словника слід пам'ятати, що будь-який корпус, хоч би яким великим він був, є кінцевим підмножиною потенційно нескінченної множини текстів цією мовою. Будь-яка інша вибірка цієї підмножини породить дещо інший список, який відрізнятиметься у своїх менш частотних елементах. Корпус більшого розміру, що відбиває Велика кількістьтим і функціональних стилів (кор-1 Кеннет Черч називав цю ситуацію проблемою Норьєгі (Church 2000), Адам Кілгарріфф - whelk problem, від порівняно рідкісного англійського слова, що позначає вид молюска (Kilgarriff 1997). 346 053-Lyjavska. .2008 22:07 Page 347 Частотний словник Національного корпусу російської мови (пус типу BNC або НКРЯ), забезпечує хорошу надійність для найбільш частотних елементів. Тим не менш, подальше збільшення обсягу текстів на шкоду їх різноманітності (див., наприклад, проекти створення Гіга-корпусів англійської та китайської мов, що містять більше мільярда слововживання новинних текстів, Cieri & Liberman 2002), може призводити до меншої надійності частотного списку на таких корпусах за рахунок зсуву їх словника у бік лексики новин. Оскільки завданням частотного словника є не просто ранжувати слова за їх частотою в окремому корпусі, а й визначити лексичне ядро ​​мови, необхідно відокремити слова, що часто зустрічаються в багатьох текстах, від тих, чия лексична поведінка подібна до слів Норьєга або хобіт, і які випадково опинилися в тієї чи іншої позиції частотного списку. Так у Чеському національному корпусі використовується поняття середньої зменшеної частоти (ARF, Average Reduced Frequency), у якому частота слова зважується на відстані між окремими слововживаннями (Čermak & Křen 2005). У багатьох частотних словниках (Леннгрена, Британського національного корпусу, словника французької лексики в галузі бізнесу) використовується коефіцієнт D, введений А. Жуйаном (Juilland et al. 1970), який бере до уваги як кількість документів, у яких зустрічається слово, і його відносну частоту у цих документах: де µ – середня частота слова у всьому корпусу, σ – середнє квадратичне відхилення цієї частоти окремих документах, n – число документів, у яких зустрічається це слово. Значення D у слів, що зустрічаються в більшості документів, близько 100, а слів, що часто зустрічаються лише в невеликій кількості документів, близько 0. Частотний список словника Леннгрена навіть відсортований за значенням твору цього коефіцієнта на середню частоту слова. У зв'язку з тим, що теоретичний статус цього твору незрозумілий, ми не вважали за доцільне сортувати наш словник за ним. Однак його вказівка ​​для кожного слова дає можливість оцінити, наскільки воно є специфічним для окремих предметних областей. Наприклад, слова моторошна, специфічна та сировина мають приблизно рівну частоту(21 вживання на мільйон слів), але при цьому коефіцієнт D у специфічний - 66, сировина - 18, а у моторошний - 78, що означає, що останнє словозначимо для більшого числапредметних областей та (за інших рівних умов) має великі шанси на місце в неспеціалізованому словнику. 3. Структура словника Концепція словника передбачає видання «паперової» версії з супутнім їй електронним варіантом, що представляє частотний словник у повному обсязі. Словникова частинамістить такі розділи: I. Загальна лексика● алфавітний список лем ● частотний список лем ● розподіл лем за функціональними стилями: частотний словник художньої літератури, словник значної лексикихудожньої літератури частотний словник публіцистики, словник значущої лексики усного мовлення, словник значущої лексики живого мовлення ● алфавітний список словоформ II. Частини мови ● список іменників ● список дієслів ● список імен прикметників ● список прислівників та предикативів ● список займенників (займенники-іменники, прикметники, прислівники, предикативи) ● частотний список лем службових частин промови ІІІ. Допоміжні таблиці Ляшевська О.М., Шаров С.А. ● дані про частотність часткових класів та інша статистична інформація IV. Імена власні та абревіатури ● алфавітний список лем В алфавітному списку лем наводиться ім'я леми, частина мови, загальна частота леми, число документів, в яких вона зустрілася і коефіцієнт варіації D. Загальна частота характеризує кількість вживань на мільйон слів корпусу, або ipmin million words). Це робиться для того, щоб спростити порівняння частоти слова в різних корпусах, які можуть дуже відрізнятися за своїми розмірами. Наприклад, якщо слово влада зустрічається 55 разів у корпусі розміром 400 тис. слів, 364 рази у мільйонному корпусі та 40598 разів у 100-мільйонному корпусі сучасної російської мови та 55673 рази у великому 135-мільйонному корпусі НКРЯ, то його частота у ipm становитиме. , 364.0, 372.06 та 412.39, відповідно. Алфавітний список електронного видання містить 60 000 найбільш частотних лем. У списку лем, упорядкованому за частотністю, вказуються ім'я леми, частина мови, загальна частота леми, число документів, коефіцієнт D та розподіл частотності за десятиліттями. Частотний список включає 20 000 найчастіших лем. Частотні словники функціональних стилів складені на основі підкорпусів художньої літератури, публіцистики, іншої нехудожньої літератури та мовлення. До списку включено 5 000 найчастіших лем цих підкорпусів. Список найбільш типових лем для кожного типу текстів був виділений на основі порівняння частоти лем у таких текстах та в іншому корпусі. Як метрика порівняння був використаний критерій відношення правдоподібності (log-likelihood), що обчислюється на основі наступної матриці: Підкорпус Інші тексти Весь корпус Частота а b а+b Розмір з d c+d На основі цієї матриці значення відношення правдоподібності G2 можна обчислити за наступною Формулі (Rayson & Garside 2000): Словники значущої лексики для різних функціональних стилів включають по 500 лем. Алфавітний список словоформ включає всі словоформи корпусу із частотою понад 0.1 ipm (загалом близько 15 тис.); наводиться загальна частота словоформи. Омонімічні словоформи позначаються знаком *. У розділі «Частини мови» частотний список лем розбитий на шість підписів: іменники, дієслова, прикметники, прислівники та предикативи, займенники та службові частини мови. Для кожної леми зазначена її загальна частота та ранг ( порядковий номер) у загальному списку. Кожен список містить по 1 тисячі найбільш частотних лем. Допоміжні таблиці включають дані про частотність часткових класів, інших граматичних категорій, а також інформацію про покриття тексту лексемами, середньої довжинислова, словоформи та речення. Завершує словник абетковий список власних назв і абревіатур. Імена власні відокремлені від основної частини словника, оскільки утворюють значно менш стабільну у статистичному відношенні групу, які частотність великою мірою залежить від вибору текстів у корпусі та його хронотопу. У Леннгрен 1993 висловлено думку, що включення власних назв у частотний словник на загальних підставах неминуче призводить до його передчасного старіння. Для отримання списку власних назв і абревіатур з конкордансу корпусу були виділені іменники та скорочення, написання яких у текстах з великої літериперевищувало 95-відсотковий поріг, порівн. Росія, Смирнов, ДРЕС, МЗС, КЗоТ.2 У словник включена ядерна частина цього списку, що налічує 3000 найчастіших одиниць. За традицією, що склалася для такого роду видань, на сторінках словника представлена ​​рубрика « Цікаві факти»: публікуються списки самих популярних сліврізних лексичних груп(дні тижня, погодні явища , кольори, дієслова руху тощо), а також найдовші словоформи та частотний список знаків пунктуації. 2 Особливо зазначимо, що прикметники типу Христів, Петін, Костромської/Костромської відносяться до загальної лексики. 348 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 349 Частотный словарь Национального корпуса русского языка 6429 костюм 2288 плащ 4890 сапог 2179 юбка 3696 пальто 1904 шинель 3696 рубашка 1894 наряд* 3410 куртка 1822 туфля 3396 шапка 1668 рубаха 3126 ботинок 1633 джинси 3041 хустка 1585 рукавичка 2962 піджак 1522 шуба 2955 штани 1356 мундир 2840 штани 1251 кашкет 2686 капелюх 1235 светр 2113 Як приклад у таблиці 3 ми наводимо частоти іменників, що позначають одяг та взуття. Як можна очікувати, список відображає, з одного боку, «типовість» елементів гардеробу (валянки займають лише 26 місце у списку), а з іншого боку, їхня «значимість» при описі зовнішності людини в текстах (костюм – більш перцептивно) виділена річ, ніж черевики). 4. Підготовка словникового матеріалу Базові списки частотного словника були отримані в автоматичному режимі, при цьому використовувалась метатекстова та лексико-граматична розмітка корпусу. На основі метатекстової інформації були побудовані та порівнювалися між собою частотні списки на окремих вибірках корпусу (за функціональними стилями, за часом створення тексту). Інший вид розмітки, лексико-граматична, дозволяє встановити вихідну форму слова (лему), її частину мови та такі граматичні характеристики, як відмінок, число, час і т. д.3 Це дало можливість зібрати дані про частотність не тільки окремих словоформ, але та лексем, а також про вживаність тих чи інших граматичних категорій. При створенні справжнього словника було використано варіант лексико-граматичної розмітки корпусу з автоматичним дозволом морфологічної омонімії. Російська мова як мова з багатою словозміною створює додаткові труднощі для упорядників частотного словника, так як багато словоформ у текстах омонімічні (СР словоформу стали як форму дієслова стати і іменника; Віра). Проте, у частотному словнику вихідна форма слова, чи лема, має бути приписана будь-якій словоформі однозначно. У словниках попереднього покоління (Засорина 1977, Леннгрен 1993) омонімія дозволялася вручну, оскільки об'єм корпусу був незначний. Очевидно, що для 100-мільйонного корпусу таке рішення не підходить. При складанні справжнього словника було враховано досвід чеських колег, яким довелося доопрацьовувати морфологічний аналізатор, поповнювати словник та проводити ручну редактуру. Спочатку корпус НКРЯ було розмічено морфологічним аналізатором Mystem (Сегалович, Маслов 1998). Неоднозначність у лексико-граматичній розмітці було дозволено з допомогою програми А.В. Сокирко, що використовує модель триграм та тренувальний підкорпус зі знятою вручну омонімією (Сокірко, Толдова 2005). Істотну проблему для лематизації є також несловникові слова (Ляшевська та ін. 2007). Якщо слово відсутнє в граматичного словникаморфологічного парсера, то йому приписуються одна або кілька гіпотез про вихідної формислова та його граматичні характеристики. У результаті частот- 3 Принципи лематизації і склад частин мови визначаються морфологічним стандартом корпусу (НКРЯ 2005), який загалом відповідає принципам Граматичного словника російської (Залізняк 1977). Деякі особливості лематизації пов'язані з тим, що збір даних відбувається переважно в автоматичному режимі. Зазначимо, що враховується лише послівна розмітка: стійкі обороти, складові прийменникита інші неоднослівні лексичні одиниці (порівн. Новий рік, протягом, проте, один одного) не включаються до словника. Ляшевська О.М., Шаров С.А. ний словник потрапляють такі «леми», як подякою (пор. словоформу подякою), Янсний (пор. Янсен), Барклаїва (пор. Барклай). Тим часом частка несловникових словоформ у НКРЯ складає 3% усіх слововживання і 45% списку словоформ корпусу. Для частотних несловникових словоформ використовувалися програми постобробки морфологічної розмітки НКРЯ, складені Б.П. Кобрицовим та Г.К. Бронниковим, і навіть результати валідації роботи цих програм, отримані О.Н. Ляшевської та Д.К. Бронникова (Ляшевська 2007, Броннікова 2007). Найбільш ефективними виявилися два підходи до лематизації несловникових слів: кластеризація гіпотез про лему і тип парадигми (найбільш ймовірним для словоформи вважається той розбір, який зустрічається і в інших несловникових словоформ, таким чином, словоформи «шукають» собі сусідів по словозмінній парад ) та виділення найбільш продуктивних приставок. Оскільки автоматичний дозвіл омонімії та інтерпретація несловникових форм допускають певну, хоч і незначну, похибку, омоніми, що входять у перші 20 тисяч частотних слів, зазнали додаткової ручної перевірки. *** Автори висловлюють подяку В.А. Плунгяну, А.Я. Шайкевичу, і навіть Е.А. Гришин, Б.П. Кобрицову, Є.В. Рахілін, Д.В. Січінаве та іншим учасникам семінару НКРЯ, які брали участь в обговоренні принципів створення словника. Ми дякуємо О. Урюпіну, Д. та Г. Бронніковим, Б. Кобрицову, співробітникам ТОВ «Яндекс» А. Аброскіну, М. Григор'єву, А. Сокирку за допомогу в зборі та обробці матеріалу. Список литературы 1. Бронникова Д.К. Порівняння алгоритмів лематизаціі на матеріалі Національного корпусу російської мови. Дипломна робота. М.: РДГУ, 2007. 2. Білякова І.Ю., Олов'яннікова І.П., Ревзіна О.Г. (сост.). Словник поетичної мовиМарини Цвєтаєвої. У 4-х томах. М: Будинок-музей Марини Цвєтаєвої, 1996. 3. Виноградов В.В. (Відп. ред.). Словник мови Пушкіна. Т. I – IV. М., 1956-1961. 4. Залізняк А.А. Граматичний словник російської: Словозміна. М., 1977; 4-те вид.: М.: Російські словники, 2003. 5. Засоріна Л.М. (Ред.). Частотний словник російської. Москва: Російська мова, 1977. 6. Льоннгрен Л. (ред.). Частотний словник сучасної російської. Uppsala, 1993. 7. Ляшевська О.Н.. До проблеми лематизації несловникових слів // Комп'ютерна лінгвістика та інтелектуальні технології: Праці міжнародної конференції «Діалог 2007». М, 2007. 8. Ляшевська О.М., Кобрицов Б.П., Січінава Д.В. Автоматизація побудови словника на матеріалі масиву несловникових словоформ // Інтернет-математика 2007. Єкатеринбург, 2007. 9. НКРЯ: Національний корпус російської 2003-2005: Результати та перспективи. М.: Індрік, 2005. 10. Піотровський Р.Г., Бектаєв К.Б., Піотровська А.А.. Математична лінгвістика. М.: Вища школа, 1972. 11. Поляков А.Є. Електронний словникмови письменника (з прикладу мови А.С. Грибоєдова) // Праці Міжнародного семінару Діалог-99 з комп'ютерної лігвістики та її додатків. Тарус, 1999. М., 1999. Т. 2. С. 230-236. 12. Сегалович І., Маслов М.. Російський морфологічний аналіз та синтез із генерацією моделей словозміни для не описаних у словнику слів // Праці міжнародної семінару Діалог'98 з комп'ютерної лінгвістики та її додатків. Казань, 1998. Т.2. С. 547-552. 13. Сокирко А.В., Толдова С.Ю. Порівняння ефективності двох методик зняття лексичної та морфологічної неоднозначності для російської мови // Міжнародна конференція «Корпусна лінгвістика 2004». З.- Пб., 2004. 14. Степанова Є.М. Частотний словник загальнонаукової лексики. М., 1976. 15. Шайкевич А.Я., Андрющенко В.М., Ребецька Н.А. Статистичний словник Достоєвського. М.: Мови слов'янської культури, 2003. 16. Штейнфельд Е.А. Частотний словник сучасної російської літературної мови. Таллінн, 1963. 17. Čermák F., Kren M. (eds.). Frekvenční slovník češtiни (Frequency dictionary of Czech). Praha: NLN, 2004. 18. Čermák F., Kren M. New generation corpus-based frequency dictionaries: 10, 2005. P. 453-467. 19. Church K.W. Empirical estimates of adaptation: change of two Noriegas is closer to p/2 than p2 // Proceedings of the 18th Conference on Computational Linguistics (COLING). Saarbrücken, Німеччина, 2000. Vol. 1. P. 180-186. 20. Cieri Ch., Liberman M. Language resources creation and distribution at Linguistic Data Consortium // Proceedings of LREC 02. Las Palmas, Spain, 2002. C. 1327-1333. 350 053-Ljashevskaja-SharovSA:_Layout 1 13.05.2008 22:07 Page 351 Частотний словник Національного корпусу російської мови 21. Davies M. for Learners. London - N. Y.: Routledge, 2005. 22. Josselson H.H. Російський Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian. Detroit: Wayne University Press, 1953. 23. Juilland A., Brodin D., Davidovitch C. Frequency Dictionary of French Words. The Hague-Paris: Mouton, 1970. 24. Kilgarriff A. Putting frequencies in the dictionary // International Journal of Lexicography, 10 (2), 1997. P. 135-155. 25. Leech G., Rayson P., Wilson A. Word Frequencies in Written and Spoken English: на основі British National Corpus. London: Longman, 2001. 26. Rayson P., Garside R. Comparing corpora using frequency profiling // Proceedings of the Comparing Corpora Workshop в ACL 2000. Hong Kong, 2000. P. 1-6. 27. Sharoff S. Creating general-purpose corpora using automated search engine queries // Baroni M., Bernardini S. (eds.), WaCky! Working papers on the Web як Corpus. Bologna: Gedit, 2006. http://wackybook.sslmit.unibo.it. 351

Друга версія частотного списку

На цій сторінці Ви можете отримати списки найчастіших слів російської мови. Дотепер Частотний словник російської під ред. Л.Н.Засориной (1977) найчастіше використовувався як джерело інформації про частоті російських слів. Однак корпус, на основі якого було підраховано частоту слів у цьому словнику, за сучасними стандартами дуже малий (близько мільйона слів). Крім того, список суттєво застарів: він відповідає частоті використання слів у період з 20-х до 60-х років. В результаті корпус включає велику кількість ідеологічних джерел, наприклад, твори Леніна та Калініна, Матеріали 22 та 23 з'їздів КПРС, радянські газети. Слова радянськийі товаришвходять у першу сотню російських слів, поряд зі службовими словами (вони зустрічаються частіше за слова де, тут, ваш), слова партія, революція, комуністичнийзустрічаються частіше ніж назад, навколо, кращеі т.д. Зрештою, список слів із словника Засоріної не існує в електронному вигляді.

Список слів, доступний з цієї сторінки, містить приблизно 35000 слів із частотою більшою за 1 ipm (входження на мільйон слів, instances per million words). Є також більше короткий списокз 5000 найчастіших російських слів. Списки використовують кодування кирилиці utf8 і упаковані утилітою WinZip (користувачі Linux або Mac можуть використовувати StuffIt для розпакування).

Структура списків відповідає формату лематизованих списків з British National Corpus (BNC), створених Адамом Кілгарифом, а саме:
порядковий номер, частота (IPM), лема, частина мови (класифікація BNC).

Слова із частотою більше 1 ipm

  • - словоформи, відсортовані за частотою

Список 5000 найчастіших слів

  • - леми, відсортовані в алфавітному порядку
  • - леми, відсортовані за частотою

Деякі статистичні дані про використання російських слів

  • Середня довжина слова 5.28 символ.
  • Середня довжина речення 10.38 слів.
  • 1000 найбільш частотних лем покриває 64.0708% тексту.
  • 2000 найбільш частотних лем покривають 71.9521% тексту.
  • 3000 найбільш частотних лем покривають 76.5104% тексту.
  • 5000 найбільш частотних лем покривають 82.0604% тексту.

Більше повна інформаціяпро відповідність між частотою слова та покриттям корпусу знаходиться .

Список збудований на основі представницького корпусу сучасної російської мови. Він включає добірку сучасної прози, політичних мемуарів, сучасних газет і науково-популярної літератури (близько 40 мільйонів слів, проза становить приблизно трохи більше половини обсягу). Всі тексти корпусу були написані російською у проміжку між 1970 і 2002; більшість між 1980 та 1995, газетний корпус 1997-1999 (корпус заснований на текстах з Бібліотеки Мошкова та корпусу сучасної публіцистики А.В.Баранова).

Добре відомо, що великі тексти є проблемою для складання частотних списків, оскільки відносно довгий текст може містити велика кількістьвходжень деякого рідкісного слова, що значно збільшить його частоту у підсумковому списку. Наприклад, корпус, використаний для складання цього списку, містить варіацію на тему Толкієновського "Володаря Кільця" (автор Нік Перумов). Незважаючи на те, що довжина цього роману складає 250 тис. слів, менше одного відсотка всього корпусу, частота використання слова хобіту цьому романі ставить його в першу тисячу російських слів, якщо частоту рахувати за всіма текстами без обмежень на їхню довжину. Тому частотні списки були складені за умови, що вибірка з великих текстів обмежена 10 тис. слів, і вибірка з текстів одного автора становить менше 100 тис. слів. В результаті підмножина повного корпусу, використана при підрахунку частоти, становить близько 16 мільйонів слів.

Розподіл слів у текстах далекий від рівномірного. Деякі слова (наприклад, прийменники) зустрічаються у багатьох текстах із цілком передбачуваною частотою. Частота інших (наприклад, займенників або ментальних дієслів) істотно залежить від автора або жанру тексту, тоді як багато слів відносяться до "заразних": якщо це слово (наприклад, власне ім'я, позначення людини за званням або посадою або технічний термін) зустрілося у тексті один раз, ймовірно, що воно повториться там ще багато разів, таким чином, істотно підвищуючи його частоту в документі. Сущують різні способивимірювання такої варіації (Church, K. and Gale, W. (1995) Poisson Mixtures, Journal of Natural Language Engineering, 1:2). Найпростіший спосібдля оцінки поведінки слова: порахувати коефіцієнт варіації, що обчислюється як середньоквадратичне відхилення, поділене на середнє значення. Середньоквадратичне відхилення дає абсолютне значенняваріації набору даних (воно збільшується для слів із більшою середньою частотою), тоді як коефіцієнт варіації дозволяє порівняти розподіл слів із нерівною середньою частотою. Значення відхилень для 5000 найчастіших слів можна переглянути. Структура файлу:
лема, середня частота (ipm), число текстів, у яких це слово зустрічається, середньоквадратичне відхилення частоти за всі текстами, коефіцієнт варіації, дисперсія.

Корпус, засоби роботи з ним, а також паралельний англо-російський корпус (вирівняння на основі пропозиції) описані, зокрема, в наступній публікації автора:

Sharoff, Serge, (2002). Meaning as use: exploitation of aligned corpora for the contrastive study of lexical semantics. Proc. з Language Resources and Evaluation Conference (LREC02). May, 2002, Las Palmas, Spain.

Також окремі частотні списки є для таких класів слів:

Створення корпусу, розробка відповідних програмних засобів та частотних списків було підтримано грантом, наданим автору Фондом імені Гумбольдта, Німеччина. Лематизація для аналізу словоформ у корпусі була проведена за допомогою морфологічного аналізатора Діалінгу. Оскільки багато словоформ неоднозначні (наприклад, дорогий, були, стали, для, три, вже), частота деяких слів не цілком достовірна, наприклад, длярозглядалося як дієслово, тільки якщо за ним не слід іменник, прикметник або займенник, стализавжди розглядалося як іменник, для подружжязавжди вибиралося дружиназа можливих чоловікі подружжя(Мн.ч). Критеріями для вибору словоформи були:

  1. частота відповідної леми ( забрав, стану, податияк іменник вкрай малоймовірно, тому в цих випадках вибирається дієслово);
  2. порівняльна частота конкретної форми (обидві леми для сталидосить частотні, але іменник на відміну дієслова часто вживається саме у цій формі; форму часдоводиться вважати предикативном вживанні, тоді як іменник виступає переважають у всіх своїх інших формах).
Подібно до словника Засориного прізвища, імена та по батькові були відфільтровані з лематизованих частотних списків, але географічні назви залишені, оскільки складно виправдати чому у словнику Засоріної залишені московськийабо американський, але не Москваі Америка. Частотний список словоформ не був відфільтрований.

ЧАСТОТНИЙ СЛОВНИК
НАЦІОНАЛЬНОГО КОРПУСУ РОСІЙСЬКОЇ МОВИ: КОНЦЕПЦІЯ ТА ТЕХНОЛОГІЯ СТВОРЕННЯ

FREQUENCY DICTIONARY OF THE RUSSIAN NATIONAL CORPUS: PRINCIPLES AND TECHNOLOGY

Ляшевська О.М. ([email protected] ) , Інститут російської ім. В.В.Виноградова, Москва
Шаров С.А.
([email protected] ), Університет Лідса, Великобританія

Словник містить представницький базовий словник сучасної російської мови (2-я половина XX – початок XXI ст.), з інформацією про частотність вживання, статистичний розподіл за текстами і жанрами, за часом створення текстів. Словник заснований на текстах Національного корпусу російської обсягом 100 млн. слововжитку.

1. Введення

Для російської було розроблено кілька частотних словників. Піонером був словник Р.Йоссельсона, виданий 1953 року в Детройті на матеріалі мови переважно дореволюційної Росії. Словники Е.А. Штейнфельд (1963), Л.М. Засоріною (1977), Л. Леннгрена (1993) та інших. були створені з урахуванням щодо невеликих колекцій текстів (400 тисяч - 1 мільйон слів) й у значною мірою відбивають специфіку російської мови радянського періоду: частоти слів товариші партіяу них можна порівняти зі службовими словами, а слово гребінецьВідсутнє. Існують також спеціалізовані словники, зокрема словник О.М. Степанової (1976), присвячений загальнонауковій лексиці. Окрему галузь статистичних словників становлять словники мови Пушкіна, Достоєвського, Грибоєдова, Цвєтаєвої (Виноградов 1956-1961, Шайкевич та інших. 2003, Поляків 1999, Белякова та інших. 1996), які повністю описують мову даного письменника.

Новий частотний словник універсальний. Незважаючи на те, що останній його прямий попередник був випущений 15 років тому (Леннгрен 1993), очевидно, що за цей час багато що змінилося – як сама мова, так і технологія підготовки частотних словників. Наш словник покликаний представити статистичну картину сучасного слововживання (1950-2005 р.), заповнивши зокрема лакуну останніх двох десятиліть, а також показати зміни, що відбулися в мові з 1950 року.

Словник базується на 100-мільйонному корпусі, тоді як попередні словники спиралися на матеріал обсягом від 400 до 1 млн. слововжитків. Національний корпус (www.ruscorpora.ru, НКРЯ 2005) більш представницький по охопленню матеріалу, оскільки містить збалансовану колекцію текстів різних типів, жанрів та стилів, у тому числі й тексти російського зарубіжжя. Розподіл текстів у підкорпусі сучасної російської мови (з 1950 року) за функціональними стилями показано в таблиці 1. Тексти нехудожньої літератури відносяться до більш ніж 50 предметних областей (економіка та фінанси, право, подорожі та ін.), а їх типологія варіюється від законів та наукових статей до інтерв'ю, інструкцій та оголошень (загалом понад 100 типів). Художні тексти включають романи, повісті, оповідання, нариси, п'єси, казки, есеї, літературні листи та ін.

Художня література

Публіцистика

Інша нехудожня література

Усна література

Табл. 1. Функціональні стилі підкорпусу сучасної української мови

Великий розмір і стилістична збалансованість корпусу є передумовою того, що він даватиме надійні статистичні результати для найбільш частотних слів: так, склад перших 20 000 елементів не буде істотно змінюватися, якщо, зберігши пропорцію, замінити ці тексти іншими або порівняти кілька підвибірок корпусу. Це показує досвід упорядкування частотних словників інших 100-мільйонних національних корпусів, таких як британський, чеська ( Leech та ін. 2001, Čermák & Kren 2004), а також корпуси іспанської мови ( Davies 2005) . Звичайно, частотний словник НКРЯ багато в чому, і в технологічних питаннях, і змістовно, орієнтується на ці зразки.

2. Розмір корпусу та надійність вибірки

Існуючі частотні словники для російської були побудовані порівняно невеликих корпусах: ЕОМ перших поколінь було неможливо працювати з корпусами більшого розміру. Цікаво, що теоретичні рекомендації, вироблені 1970-ті роки (Піотровський та інших. 1972), також доводили, що з достовірного описи 1600-1700 найбільш частотних слів досить використовувати корпус розміром 400 тис. слововжитків. Ця аргументація будувалася на понятті довірчого інтервалу, який широко використовується в статистиці та соціології: якщо ми знаємо розмір вибірки та експериментальну ймовірність події у цій вибірці (тобто частоту слова нашому корпусі), то ми можемо обчислити довірчий інтервал ймовірності цієї події на всій популяції (тобто. частоту вживання тієї самої слова у всьому просторі мови).

У таблиці 2 наводяться приклади частоти окремих слів у словниках Леннгрена, Засоріної та Штейнфельд у порівнянні з частотами НКРЯ та 150-мільйонного корпусу російської мови, зібраного з Інтернету (про останній див. Sharoff 2006). Незважаючи на те, що слова думати, завдання, любитиБезумовно ставляться до ядра мови (входять до числа 200-500 найчастіших лем), у невеликих корпусах навіть їх частота відрізняється дуже значно. Частота порівняно менш частотних слів ( забруднення, вивчення, милий) варіюється в ще більших межах. Хоча склад Інтернет-корпусу досить суттєво відрізняється від НКРЯ (великою кількістю технічних текстів та форумів та меншою кількістю художньої літератури), відмінності у частоті цих одиниць між ними не такі великі.

Лемма

Леннгрен

Засоріна

Штейнф.

НКРЯ

Інтернет

влада

думати

1094

1058

забруднення

завдання

вивчення

кохати

милий

Табл. 2: Порівняння частоти окремих слів (середнє на мільйон слововжитків).

Як бачимо, теоретичні рекомендації щодо достатнього розміру корпусу в даному випадку виявляються не надто достовірними. Причина цього полягає у вихідних припущеннях на нормальний Гауссовий розподіл частоти слів, відповідно до якого кожне слово зустрічається з однаковою частотою у всіх текстах. Якщо слово зустрілося в тексті один раз, то при нормальному розподілі це не впливає на ймовірність його вживання вдруге. Але насправді це не так. Кожен текст має деяку власну тему, слова якої у цьому тексті вживатимуться набагато частіше за середній. У тексті про хобітів слово хобітбуде вживатися так само часто, як і багато службових слів, що істотно підвищить його частоту в корпусі, який включатиме хоча б один такий текст. складанні.

Таблиця 2 показує недосконалість частотних словників, побудованих відносно невеликих корпусах, але просте збільшення розміру корпусу також не гарантує стабільності результатів. При інтерпретації списків частотного словника треба пам'ятати, що будь-який корпус, хоч би яким великим він був, є кінцевим підмножиною потенційно нескінченного безлічі текстів цією мовою. Будь-яка інша вибірка цього підмножини породить дещо інший список, який відрізнятиметься у своїх менш частотних елементах. Корпус більшого розміру, що відображає більше тем і функціональних стилів (корпус типу BNC або НКРЯ), забезпечує хорошу надійність для найбільш частотних елементів. Тим не менш, подальше збільшення обсягу текстів на шкоду їх різноманітності (див., наприклад, проекти створення Гіга-корпусів англійської та китайської мов, що містять більше мільярда слововжитків текстів новин, Cieri & Liberman 2002), може призводити до меншої надійності частотного списку на таких корпусах за рахунок зсуву їх словника у бік лексики новин.

Оскільки завданням частотного словника є не просто ранжувати слова за їх частотою окремому корпусі, але й визначити лексичне ядро ​​мови, необхідно відокремити слова, що часто зустрічаються в багатьох текстах, від тих, чия лексична поведінка подібно до слів Норьєгаабо хобіті які випадково опинилися в тій чи іншій позиції частотного списку. Так у Чеському національному корпусі використовується поняття середньої зменшеної частоти (ARF, Average Reduced Frequency), у якому частота слова зважується на відстані між окремими слововживаннями (Čermak & Křen 2005). У багатьох частотних словниках (Леннгрена, Британського національного корпусу, словника французької лексики у сфері бізнесу) використовується коефіцієнт D, введений А. Жуйаном (Juilland et al. 1970), який бере до уваги як кількість документів, у яких зустрічається слово, і його відносну частоту у цих документах:


де μ – середня частота слова по всьому корпусу, σ – середнє відхилення цієї частоти на окремих документах,n- Число документів, в яких зустрічається це слово.

Значення D у слів, які у більшості документів, близько до 100, а й у слів, що часто зустрічаються лише у невеликій кількості документів, близько до 0.Частотний список словника Леннгрена навіть відсортований за значенням твори цього коефіцієнта на середню частоту слова. У зв'язку з тим, що теоретичний статус цього твору незрозумілий, ми не вважали за доцільне сортувати наш словник за ним. Однак його вказівка ​​для кожного слова дає можливість оцінити, наскільки воно є специфічним для окремих предметних областей. Наприклад, слова моторошний, специфічний і сировина мають приблизно рівну частоту (21 вживання на мільйон слів), але при цьому коефіцієнт D у специфічний - 66, сировина - 18, а у моторошний - 78, що означає, що останнє слово значимо для більшого числа предметних областей та (за інших рівних умов) має великі шанси на місце в неспеціалізованому словнику.

3. Структура словника

Концепція словника передбачає видання «паперової» версії з супутнім їй електронним варіантом, що представляє частотний словник більш повному обсязі. Словникова частина містить такі розділи:

I. Загальна лексика

алфавітний список лем

частотний список лем

розподіл лем за функціональними стилями:

Ø частотний словник художньої літератури,

словник значимої лексики художньої литературы

Ø частотний словник публіцистики,

словник значної газетно-новинної лексики

Ø частотний словник іншої нехудожньої літератури,

словник значної лексики

Ø частотний словник живого мовлення,

словник значимої лексики живого мовлення

алфавітний список словоформ

ІІ. Частини мови

частотний список іменників

частотний список дієслів

частотний список прикметників

частотний список прислівників та предикативів

частотний список займенників (займенники-іменники, прикметники, прислівники, предикативи)

частотний список лем службових частин мови

III. Допоміжні таблиці

дані про частотність часткових класів та інша статистична інформація

IV . Імена власні та абревіатури

алфавітний список лем

У алфавітному списку лем наводиться ім'я леми, частина мови, загальна частота леми, число документів, у яких вона зустрілася і коефіцієнт варіації D. Загальна частота характеризує кількість вживань на мільйон слів корпусу, або ipm (instances per million words). Це робиться для того, щоб спростити порівняння частоти слова в різних корпусах, які можуть дуже відрізнятися за своїми розмірами. Наприклад, якщо слово влада зустрічається 55 разів у корпусі розміром 400 тис. слів, 364 рази у мільйонному корпусі та 40598 разів у 100-мільйонному корпусі сучасної російської мови та 55673 рази у великому 135-мільйонному корпусі НКРЯ, то його частота складе 137.5, 364.0, 372.06 та 412.39, відповідно. Алфавітний список електронного видання включає 60000 найбільш частотних лем.

У списку лем, упорядкованому за частотністю, вказуються ім'я леми, частина мови, загальна частота леми, число документів, коефіцієнт D та розподіл частотності за десятиліттями. Частотний список включає 20 000 найчастіших лем.

Частотні словники функціональних стилів складені на основі підкорпусів художньої літератури, публіцистики, іншої нехудожньої літератури та мовлення. До списку включено 5 000 найчастіших лем цих підкорпусів. Список найбільш типових лем для кожного типу текстів був виділений на основі порівняння частоти лем у таких текстах та в іншому корпусі. Як метрика порівняння був використаний критерій відношення правдоподібності (log-likelihood), що обчислюється на основі наступної матриці:

Підкорпус

Інші тексти

Весь корпус

Частота

а+b

Розмір


На основі цієї матриці значення відношення правдоподібності G2 можна обчислити за такою формулою (Rayson & Garside 2000):

Словники значної лексики щодо різних функціональних стилів включають по 500 лем.

Алфавітний список словоформ включає всі словоформи корпусу із частотою понад 0.1 ipm (загалом близько 15 тис.); наводиться загальна частота словоформи. Омонімічні словоформи позначаються знаком *.

У розділі «Частини мови» частотний список лем розбитий на шість підписів: іменники, дієслова, прикметники, прислівники та предикативи, займенники та службові частини мови. Для кожної леми вказано її загальну частоту та ранг (порядковий номер) у загальному списку. Кожен список містить по 1 тисячі найбільш частотних лем.

Допоміжні таблиці включають дані про частотність часткових класів, інших граматичних категорій, а також інформацію про покриття тексту лексемами, середню довжину слова, словоформи і речення.

Завершує словник абетковий список власних назв і абревіатур. Імена власні відокремлені від основної частини словника, оскільки утворюють значно менш стабільну у статистичному відношенні групу, які частотність великою мірою залежить від вибору текстів у корпусі та його хронотопу. У Леннгрен 1993 висловлено думку, що включення власних назв у частотний словник на загальних підставах неминуче призводить до його передчасного старіння.

Для отримання списку власних назв і абревіатур з конкордансу корпусу були виділені іменники та скорочення, написання яких у текстах з великої літери перевищувало 95-відсотковий поріг, порівн. Росія, Смирнов, ДРЕС, МЗС, КЗпП. У словник включена ядерна частина цього списку, що налічує 3000 найчастіших одиниць.

За традицією, що склалася для такого роду видань, на сторінках словника представлена ​​рубрика «Цікаві факти»: публікуються списки найпопулярніших слів різних лексичних груп (дні тижня, погодні явища, кольори, дієслова руху тощо), а також найдовші словоформи та частотний список знаків пунктуації.

6429

костюм

2288

плащ

4890

чобіт

2179

спідниця

3696

пальто

1904

шинель

3696

сорочка

1894

вбрання*

3410

куртка

1822

туфель

3396

шапка

1668

сорочка

3126

черевик

1633

джинси

3041

хустка

1585

рукавичка

2962

піджак

1522

шуба

2955

штани

1356

мундир

2840

штани

1251

кашкет

2686

капелюх

1235

светр

2617

бере

1134

валянок

Табл. 3: Частотний список позначень одягу та взуття.

Як приклад у таблиці 3 ми наводимо частоти іменників, що позначають одяг та взуття. Як очікується, список відображає, з одного боку, «типовість» елементів гардеробу ( валянкизаймають лише 26 місце у списку), а з іншого боку, їх «значимість» при описі зовнішності людини в текстах ( костюм– більш перцептивно виділена річ, ніж черевики).

4. Підготовка словникового матеріалу

Базові списки частотного словника були отримані в автоматичному режимі, при цьому використовувалася метатекстова та лексико-граматична розмітка корпусу. На основі метатекстової інформації були побудовані та порівнювалися між собою частотні списки на окремих вибірках корпусу (за функціональними стилями, за часом створення тексту). Інший вид розмітки, лексико-граматична, дозволяє встановити вихідну форму слова (лему), її частину мови та такі граматичні характеристики, як відмінок, число, час і т. д. Це дало можливість зібрати дані про частотність не тільки окремих словоформ, але й лексем, і навіть про вживаність тих чи інших граматичних категорій. При створенні справжнього словника було використано варіант лексико-граматичної розмітки корпусу з автоматичним дозволом морфологічної омонімії.

Російська мова як мова з багатою словозміною створює додаткові труднощі для упорядників частотного словника, оскільки багато словоформ у текстах омонімічні (пор. словоформу сталияк форму дієслова статиі іменника сталь, словоформу банку, що представляє леми банкі банку, слова типу віраі Віра). Проте, у частотному словнику вихідна форма слова, чи лема, має бути приписана будь-якій словоформі однозначно.

У словниках попереднього покоління (Засоріна 1977, Леннгрен 1993) омонімія дозволялася вручну, оскільки обсяг корпусу, що обробляється, був незначний. Очевидно, що для 100-мільйонного корпусу таке рішення не підходить. При складанні справжнього словника було враховано досвід чеських колег, яким довелося доопрацьовувати морфологічний аналізатор, поповнювати словник та проводити ручну редактуру. Спочатку корпус НКРЯ було розмічено морфологічним аналізатором Mystem (Сегалович, Маслов 1998). Неоднозначність у лексико-граматичній розмітці було дозволено з допомогою програми А.В. Сокирко, що використовує модель триграм та тренувальний підкорпус зі знятою вручну омонімією (Сокірко, Толдова 2005).

Істотну проблему для лематизації є також несловникові слова (Ляшевська та ін. 2007). Якщо слово відсутнє в граматичній словнику морфологічного парсера, то йому приписуються одна або кілька гіпотез про вихідну форму слова та його граматичні характеристики. У результаті частотний словник потрапляють такі «леми», як подяки(СР словоформу подякою), Янсний(порівн. Янсен), Барклаювати(порівн. Барклай). Тим часом частка несловникових словоформ у НКРЯ становить 3% всіх слововжитків та 45% списку словоформ корпусу. Для частотних несловникових словоформ використовувалися програми постобробки морфологічної розмітки НКРЯ, складені Б.П. Кобрицовим та Г.К. Бронниковим, і навіть результати валідації роботи цих програм, отримані О.Н. Ляшевської та Д.К. Бронникова (Ляшевська 2007, Броннікова 2007). Найбільш ефективними виявилися два підходи до лематизації несловникових слів: кластеризація гіпотез про лему і тип парадигми (найбільш вірогідним для словоформи вважається той розбір, який зустрічається і в інших несловникових словоформ, таким чином словоформи «шукають» собі сусідів за словозмінною парадигмою) та виділення продуктивних приставок.

Оскільки автоматичний дозвіл омонімії та інтерпретація несловникових форм допускають певну, хоч і незначну, похибку, омоніми, що входять до перших 20 тисяч частотних слів, зазнали додаткової ручної перевірки.

***

Автори висловлюють подяку В.А. Плунгяну, А.Я. Шайкевичу, і навіть Е.А. Гришин, Б.П. Кобрицову, Є.В. Рахілін, Д.В. Січінаве та іншим учасникам семінару НКРЯ, які брали участь в обговоренні принципів створення словника. Ми дякуємо О. Урюпіну, Д. та Г. Бронніковим, Б. Кобрицову, співробітникам ТОВ «Яндекс» А. Аброскіну, М. Григор'єву, А. Сокирку за допомогу в зборі та обробці матеріалу.

О.Г. (сост.). Словник поетичної мови Марини Цвєтаєвої. У 4-х томах. М: Будинок-музей Марини Цвєтаєвої, 1996.

Виноградів В.В. (Відп. ред.). Словник мови Пушкіна. Т. I - IV. М., 1956-1961.

Залізняк А.А. Граматичний словник російської: Словозміна. М., 197 7 ; 4-те вид.: М.: Російські словники, 2003.

Засоріна Л.М. (Ред.). Частотний словник російської.Москва: Російська мова, 1977 .

Льоннгрен Л. (Ред.). Частотний словник сучасної російської [ Lönngren, Lennart. The Frequency Dictionary of Modern Russian. Acta Univ. Ups., Studia Slavica Upsaliensia Uppsala 32]. Uppsala, 1993.

Ляшівська О.М.. До проблеми лематизації несловникових слів // Комп'ютерна лінгвістика та інтелектуальні технології: Праці міжнародної конференції «Діалог 2007». М, 2007.

Ляшевська О.М., Кобрицов Б.П., Січінава Д.В. Автоматизація побудови словника на матеріалі масиву несловникових словоформ // Інтернет-математика 2007. Єкатеринбург, 2007.

НКРЯ: Національний корпус російської мови 2003-2005: Результати та перспективи. М.: Індрік, 2005.

Піотровський Р.Г., Бектаєв К.Б., ПіотровськаА.А. Математична лінгвістика. М.:вища школа, 1972.

Поляків А.Е.. Електронний словник мови письменника (з прикладу мови А.С. Грибоєдова) // Праці Міжнародного семінару Діалог-99 з комп'ютерної лігвістики та її додатків. Таруса, 1999. М., 1999 . Т. 2. С. 230-236.

Сегалович І., Маслов М.. Російський морфологічний аналіз та синтез з генерацією моделей словозміни для не описаних у словнику слів // Праці міжнародної семінару Діалог "98 з комп'ютерної лінгвістики та її додатків. Казань, 1998. Т.2. С. 547-552.

Сокирко А.В., Толдова С.Ю. Порівняння ефективності двох методик зняття лексичної та морфологічної неоднозначності для російської // Міжнародна конференція «Корпусна лінгвістика 2004». С.-Пб. , 2004.

Степанова Є.М. Частотний словник загальнонаукової лексики. М., 1976 .

Шайкевич А.Я., Андрющенко В.М., Ребецька Н.А. Статистичний словник Достоєвського. М.: Мови слов'янської культури, 2003.

Штейнфельд Е.А. Частотний словник сучасної російської мови.Таллінн, 1963 .

Čermák F. , Kren M. (eds.). Frekvenční slovník češtiни (Frequency dictionary of Czech). Praha: NLN, 2004 .

Čermák F., Kren M. New generation corpus-based frequency dictionaries: The case of Czech // International Journal of Corpus Linguistics, 10, 2005. 453-467.

Church K.W. Empirical estimates of adaptation: the chance of 2 Noriegas is closer to p/2 than p 2 // Proceedings of the 18thЗ onference on Computational Linguistics (COLING). Saarbrücken, Німеччина, 2000. Vol. 1. P. 180-186.

Cieri Ch., Liberman M. Language resources creation and distribution at Linguistic Data Consortium // Proceedings of LREC 02. Las Palmas, Spain, 2002. C. 1327-1333.

Davies M. A Frequency Dictionary of Spanish: Core Vocabulary для Learners. London – N.Y.: Routledge, 2005.

Josselson H.H. Російський Word Count and Frequency Analysis of Grammatical Categories of Standard Literary Russian. Detroit: Wayne University Press, 1953.

Juilland A., Brodin D., Davidovitch C. Frequency Dictionary of French Words. The Hague- Paris: Mouton, 1970.

Kilgarriff A. Putting frequencies in the dictionary // International Journal of Lexicography, 10 (2), 1997. P. 135-155.

Leech G., Rayson P., Wilson A. Word Frequencies in Written and Spoken English: на основі British National Corpus. London: Longman, 2001.

Rayson P., Garside R. Comparing corpora using frequency profiling // Proceedings of the Comparing Corpora Workshop в ACL 2000. Hong Kong, 2000. P. 1-6.

Sharoff S. Creating general-purpose corpora using automated search engine queries // Baroni M., Bernardini S. (eds.), WaCky! Working papers on the Web як Corpus. Bologna: Gedit, 2006.

Частотний словник(або частотний список) - набір слів цієї мови (або підмови) разом з інформацією про частоту їхньої зустрічальності. Словник може бути відсортований за частотою, за алфавітом (тоді для кожного слова буде вказана його частота), за групами слів (наприклад, перша тисяча найбільш частотних слів, за нею друга тощо), за типовістю (слова, частотні для більшості текстів), і т. д. Частотні списки використовуються для викладання мови, створення нових словників, додатків комп'ютерної лінгвістики, досліджень у галузі лінгвістичної типології, і т.д.

Побудова частотних списків

Зазвичай частотні словники будуються на основі корпусів текстів: береться набір текстів, представницький для мови в цілому, для деякої предметної областіабо даного автора (див. Частотний словник Грибоєдова) і з нього витягуються словоформи, леми та частини мови (останні витягуються у разі, якщо корпус має морфологічну розмітку).

Проблеми при створенні частотних списків полягають у:

  • відтворюваності (чи будуть результати ідентичні на іншому аналогічному корпусі),
  • сплеска частоти окремих слів (частота слова в одному тексті може вплинути на його позицію в частотному списку),
  • складності визначення позиції менш частотних слів, що дає можливості ранжувати їх раціонально; наприклад, слово білібердавходить до 20 000 найбільш частотних слів, тоді як слово хрюкнутизнаходиться поза списком перших 40 тисяч.

Всі ці проблеми пов'язані з тим, що зі статистичного погляду мова є великою кількістю рідкісних подій (Закон Ципфа), внаслідок чого невелика кількість слів зустрічається дуже часто, а переважна більшість слів мають дуже невисоку частоту. Частота слова і(найчастішого слова російської мови) приблизно в 10 разів вище частоти слова про, яке у свою чергу зустрічається у 100 разів частіше за такі звичайні слова як подорож, старістьабо мода.

Для опису сплесків частоти можна використовувати метафору хобіту (Адам Кілгарріфф спочатку використовував відносно рідкісне англійське слово whelk, вид морського молюска, англ. whelk): якщо кілька текстів у корпусі про хобіти, це слово вживатиметься майже у кожному реченні. В результаті його частота в цих текстах буде порівнянна з частотою службових слів, але й у частотному списку великого корпусу, до якого входять такі тексти, це слово матиме неправдоподібно високий ранг. Такі сплески частоти можна оцінювати за допомогою коефіцієнта варіації: відношення стандартного відхилення до середньої частоти.

Порівняння корпусів

Частотні словники забезпечують можливість порівняти два корпуси, щоб визначити слова найбільш характерні для кожного з них. У зв'язку з тим, що розміри корпусів можуть бути різні, більш надійна оцінка частоти слів полягає в приведенні їх до чмс (частота мільйон словоформ, англ. ipm, instances per million words). Слово імає частоту близько 30 000 год. старість- близько 30.

Для визначення набору ключових слів, Що відрізняють один корпус від іншого можна використовувати різні статистичні заходи: хі-квадрат, відношення правдоподібності (англ. Likelihood-ratio test) і т.п.

Див. також

Література

  • Adam Kilgarriff. Putting Frequencies in the Dictionary // International Journal of Lexicography. - 1997. - № 10 (2). – P. 135-155.
  • Ляшевська О. Н., Шаров С. А.


Останні матеріали розділу:

Атф та її роль в обміні речовин У тварин атф синтезується в
Атф та її роль в обміні речовин У тварин атф синтезується в

Способи отримання енергії в клітці У клітці існують чотири основні процеси, що забезпечують вивільнення енергії з хімічних зв'язків при...

Вестерн блотінг (вестерн-блот, білковий імуноблот, Western bloting) Вестерн блоттинг помилки під час виконання
Вестерн блотінг (вестерн-блот, білковий імуноблот, Western bloting) Вестерн блоттинг помилки під час виконання

Блоттінг (від англ. "blot" - пляма) - перенесення НК, білків та ліпідів на тверду підкладку, наприклад, мембрану та їх іммобілізація. Методи...

Медіальний поздовжній пучок Введення в анатомію людини
Медіальний поздовжній пучок Введення в анатомію людини

Пучок поздовжній медіальний (f. longitudinalis medialis, PNA, BNA, JNA) П. нервових волокон, що починається від проміжного і центрального ядра.