І.В. Данилевський, Закон Ципфа-Парето, нові квантові технології та філософія несвідомого

Перший раз із описом законом Ципфа я зустрівся, читаючи . Суть закону: якщо слова будь-якого тексту ранжувати за частотою використання, то добуток рангу на частоту є постійна:

F*R =C, де:

F - Частота появи слова в тексті;

R – ранг слова (найчастіше вживане слово отримує ранг 1, наступне – 2 тощо.);

С – константа.

Для тих, хто ще хоч трохи пам'ятає алгебру:), у наведеній вище формулі легко дізнається про рівняння гіперболи. Ципф експериментально визначив, що ≈ 0,1. Так що графічне зображеннязакону Ципфа приблизно таке:

Рис. 1. Гіперболу закону Ципфа.

Завантажити замітку у форматі, приклади у форматі

У гіпербол є чудова властивість. Якщо для обох осей взяти логарифмічний масштаб, то гіпербола матиме вигляд прямої:

Рис. 2. Та ж гіпербола, але на графіку з логарифмічними шкалами

Може виникнути питання: до чого тут пошукова оптимізація? Отже, виявляється, що спеціально згенеровані тексти, що містять підвищену кількість ключових слів, не вписуються в закон. Пошукові машини (Google, Yandex) перевіряють тексти на «природність», тобто дотримання закону Ципфа і знижують рейтинг сайтів з «підозрілими» текстами, або взагалі лазять такі сайти.

Вдруге я зустрівся із законом Ципфа у Бенуа Мандельброта у його книзі. І цей невеликий розділ мені так сподобався, що дозвольте навести його повністю.

Несподіваний статечний закон

У 1950 році я був молодим студентом-математиком Паризького університету, який шукав тему для своєї дисертації. Мої дядько Золем був місцевим хрестоматійним зразком професора математики: глибокий теоретик, дуже консервативний і, незважаючи на те, що народиться в Польщі, стовп французької наукової спільноти. Вже у 31-річному віці його обрали професором на повній ставціпрестижного Французького коледжу.

Те побуту епоха Ніколя Бурбаки; за цим збірним псевдонімом ховався математичний «клуб», який, подібно до Дада в мистецтві чи екзистенціалізму в літературі, поширився з Франції і став на якийсь час надзвичайно впливовим на світовій сцені. Абстракція і чиста математика, математика для математики, були зведені в ранг культу; члени «клубу» зневажали прагматизм, прикладну математикуі навіть математику як інструмент науки. Такий підхід був для французьких математиків догмою, а для мене, мабуть, причиною виїхати з Франції та вступити на роботу до IBM. Я був, на жах мого дядька, молодим бунтарем. Працюючи над своєю докторською дисертацією, я часто наприкінці дня заходив до нього в кабінет поговорити, і нерідко ці розмови переростали в дискусію. Якось, намагаючись якось скрасити майбутню довгу і нудну поїздку на метро додому, я попросив у нього в дорогу щось почитати. Він сунув руку в кошик для сміття і витяг звідти кілька зім'ятих аркушів паперу.

– Ось, візьми, – буркнув дядько. - Дурна стаття, з тих, які ти любиш.

То був огляд книги соціолога Джорджа Кінгслі Ціпфа. Ципф, досить багата людина, щоб не думати про шматок хліба насущного, читав у Гарвардському університетілекції з ним же вигаданої дисципліни, що він назвав статистичної людської екологією. У його книзі Human Behavior and the Principle of Least Effort (Поведінка людини та принцип найменших зусиль) статечні закони розглядалися як всюдисущі структури суспільних наук. У фішці статечні закони цілком звичайні і виступають формою того, що я нині називаю фрактальним самоповторенням у масштабі. У сейсмологів є математична формуластатечної залежності кількості землетрусів від їхньої сили за знаменитою шкалою Ріхтера. Або, іншими словами: слабкі землетруси звичайні, тоді як сильні рідкісні, а частота та сила землетрусів пов'язані точною формулою. На той час було небагатьох таких прикладів, та й відомі вони були лише декільком людям. Ципф, енциклопедист, був одержимий нав'язливою ідеєю, ніби статечні закони діють не тільки в фізичних наук; їм підкоряються всі прояви поведінки, організації та анатомії людини – навіть розміри статевих органів.

На щастя, огляд книги, який мені дав дядько, обмежувався лише одним надзвичайно витонченим прикладом: частотою слів. У тексті або мови деякі слова, такі як англійські the (визначений артикль) або this («це»), зустрічаються часто; інші, milreis чи momus, з'являються рідко чи взагалі ніколи (для найцікавіших: перше означає давню португальську монету, друге – синонім слова «критик»). Ципф запропонував наступна вправа: взяти будь-який текст і порахувати, скільки разів у ньому з'являється кожне слово Потім присвоїти кожному слову ранг: 1 - для найчастіше вживаних слів, 2 - для тих, хто займає друге місце за частотою появи і т.д. Нарешті, побудувати графік, у якому кожному рангу вказати кількість появі цього слова. Ми отримаємо дивовижний малюнок. Крива не меншає поступово від самого звичайного словав даному текстідо найрідкіснішого. Спочатку вона обрушується з запаморочливою швидкістю, після чого починає зменшуватися повільніше, повторюючи траєкторію лижника, що стрибнув з трампліну, а потім приземлився і спускається по пологому схилу засніженої гори. Зразок класичної нерівномірної шкали. Ципф, підігнавши під свої діаграми криву, вигадав для неї формулу.

Я був приголомшений. До кінця моєї довгої подорожі на метро я вже мав тему для половини моєї докторської дисертації. Я точно знав, як пояснити математичні підстави частотного розподілу слів, чого Ципф, не будучи математиком, не зміг би зробити. У наступні місяці на мене чекали дивовижні відкриття. Використовуючи згадане рівняння, можна створити потужний інструмент соціальних досліджень. Поліпшений варіант формули Ципфа дозволяв кількісно оцінити та ранжувати багатство словникового запасу будь-якої людини: високе значення– багатий лексикон; низьке значення– бідний. Маючи таку шкалу, можна виміряти відмінності по словниковому запасу між текстами або говорящими. З'являється можливість кількісно оцінити ерудицію. Правда, мої друзі та консультанти були в жаху від моєї рішучості зайнятися цією дивною темою. Ципф, казали вони мені, людина з чудасії. Мені показали його книгу, і я погодився, що вона огидна. Підрахунок слів – це справжня математика, переконували мене. Зайнявшись цією темою, я ніколи не знайду гарну роботу; і професором стати мені також буде нелегко.

Але я залишався глухим до мудрим порадам. Мало того, я написав дисертацію взагалі без консультантів і навіть умовитиме одного з університетських бюрократів завірити її печаткою. Я був виконаний рішучості пройти обраний шлях до кінця і застосувати ідеї Ципфа в економіці, адже не тільки можна звести мова до статечного закону. Багаті ми чи бідні, процвітаємо чи голодуємо - все це теж здавалося мені об'єктом статечного закону.

Мандельброт трохи модифікував формулу Ципфа:

F = C * R -1/a, де

a – коефіцієнт, що характеризує багатство словникового запасу; чим більше значення a, тим багатшим словниковий запастексту, оскільки крива залежності частоти появи кожного слова від його рангу зменшується повільніше, і, наприклад, рідкісні словаз'являються частіше, ніж при менших значеннях a. Саме цю властивість Мандельброт припускав використовуватиме оцінки ерудиції.

Із законом Ципфа не все так гладко, і в конкретних застосуванняхспиратися на експериментально певний коефіцієнт a який завжди виходить. У той же час закон Ципфа є нічим іншим, як законом Парето «навпаки», оскільки і той і інший – окремі випадки статечних рядів, або… прояв фрактальної природи економічних і соціальних систем.

Для себе суть фрактальної природи економічних систем я сформулював так. З одного боку, є ігрова випадковість: рулетка, кидання кісток. З іншого, технологічна/фізична випадковість: розкид діаметра валу, що виготовляється на токарному верстаті, розкид зростання дорослої людини Усі перелічені явища описуються. Так ось, є цілий рядявищ, що не підкоряються цьому розподілу: багатство країн і окремих людей, Коливання цін на акції, курси валют, частота використання слів, сила землетрусів ... Для таких явищ характерним є те, що середнє значення дуже залежить від вибірки. Наприклад, якщо взяти сто випадкових людей різного зростання, то додавання до них самого високої людиниЗемлі не сильно змінить середнє зростання цієї групи. Якщо ж порахувати середній дохід ста випадкових людей, то додавання найбагатшої людини планети – Карлоса Слім Елу (а не Білла Гейтса, як багато хто міг би подумати:)) значно збільшить середнє багатство кожного приблизно до 500 млн. доларів!

Іншим проявом фрактальності є значне розшарування вибірки. Розглянемо, наприклад,

Погодьтеся, представлена ​​закономірність як дві краплі води схожа на криву Ципфа!

Одна з властивостей фрактальності – це самоповторення. Так ось, зі 192 країн світу, перерахованих у списку, 80% світового багатства зосереджена всього в 18 країнах - 9,4% (18/192). Якщо ж тепер розглянути лише ці 18 країн, то їхнє сумарне багатство – 46 трлн. дол. – розподілено так само нерівномірно. 80% цих 46 трлн. Зосереджено менш ніж у половині країн, і т.д.

Ви можете запитати: який практичний висновок із усього сказаного? Я сказав би так:

  1. Соціальні та економічні системине описуються гауссіаною. Ці закономірності підпорядковуються статечним рядам[Синонім - фрактальна природа].
  2. Викиди від середнього істотно більш вірогідні, ніж відповідно до передбачень дзвоноподібною кривою Гауса. Більше того, викиди внутрішньо притаманні системі; вони випадкові, а закономірні.
  3. Оцінки ризиків не можна будувати на основі нормального розподілуймовірностей рідкісних небажаних подій.
  4. … не лукавитиму, поки більше нічого придумати не можу… але це не означає, що практичних висновківбільше ні… просто мої знання цим обмежуються…

…але погодьтеся, адже гарні закономірності!

Про фрактальність див. Бенуа Мандельброт

Треба відзначити, що дані з різних джерел сильно відрізняються, але це не має відношення до теми, що розглядається тут.

Чому «Закон Ципфа» у Росії не працює? March 11th, 2017

"Закон Ципфа" був вперше застосований для опису розподілу розмірів міст німецьким фізиком Феліксом Ауербахом у роботі "Закон концентрації населення" у 1913 році. Він носить ім'я американського лінгвіста Джорджа Ципфа, який 1949 року активно популяризував цю закономірність, вперше запропонувавши використовувати її для опису розподілу економічних силта соціального статусу.

У Росії цей закон не працює.


Повернемося 1949 року. Лінгвіст Джордж Ціпф (Зіпф) помітив дивну тенденцію у використанні людьми певних слів у мові. Він виявив, що невелика кількість слів використовується постійно, а переважна більшість дуже рідко. Якщо оцінити слова за популярністю, відкривається разюча річ: слово першого розряду завжди використовується вдвічі частіше, ніж слово другого розряду і втричі частіше ніж слово третього розряду.

Ципф виявив, що це правило діє в розподілі доходів людей у ​​країні: найбагатша людина має вдвічі більше грошей, ніж наступний багатій і таке інше.

Згодом стало зрозуміло, що цей закон також працює щодо розміру міст. Місто з самим великим населеннямв будь-якій країні вдвічі більше, ніж наступне за розміром місто і таке інше. Неймовірно, але закон Ципфа діяв абсолютно у всіх країнах світу протягом минулого сторіччя.

Просто погляньте на список самих великих містСполучених Штатів. Отже, відповідно до перепису 2010-го року населення самого великого містаСША, Нью-Йорка, становить 8175133 людини. Номер два - Лос-Анджелес з населенням в 3792621 чоловік. Наступні три міста, Чикаго, Х'юстон і Філадельфія, можуть похвалитися населенням у 2695598, 2100263 і 1526006 осіб відповідно. Очевидно, ці числа неточні, але вони дивовижно відповідають закону Ципфа.

Пол Кругман, який писав про застосування закону Ципфа до міст, чудово помітив: часто економічну теоріюзвинувачують у створенні сильно спрощених моделейскладної, безладної дійсності. Закон Ципфа показує, що все відбувається з точністю до навпаки: ми застосовуємо дуже складні, безладні моделі, а реальність вражає акуратна і проста.

Закон сили

1999 року економіст Ксав'є Габе написав наукова праця, У якій описував закон Ципфа як “закон сили”.

Габе зазначив, що цей закон зберігається, навіть якщо міста ростуть у хаотичному порядку. Але ця рівна структура ламається, як тільки ви переходите до міст, що не входять до розряду мегаполісів. Невеликі містаз чисельністю населення близько ста тисяч осіб, мабуть, підкоряються іншому закону і показують більш зрозумілий розподіл розмірів.

Чи можна запитати, що ж мається на увазі під визначенням «місто»? Адже, наприклад, Бостон і Кембридж вважаються двома різними містами, як і Сан-Франциско і Окленд, розділені водою. У двох шведських географів теж виникло таке питання, і вони почали розглядати так звані «природні» міста, об'єднані населенням та дорожніми зв'язками, а не політичними мотивами. І вони виявили, що навіть такі «природні» міста підпорядковуються закону Ципфа.


Чому закон Ципфа працює у містах?

То що змушує міста бути настільки передбачуваними у кількості населення? Ніхто точно не може це пояснити. Нам відомо, що міста розширюються за рахунок імміграції, іммігранти стікаються у великі мегаполіси, бо там більше можливостей. Але імміграції недостатньо, щоб пояснити цей закон.

Є також економічні мотиви, оскільки в великих містахроблять великі гроші, а закон Ципфа працює й у розподілу доходів. Проте, чіткої відповіді питання це як і не дає.

Минулого року група дослідників виявила, що закон Ципфа все ж має винятки: закон працює, тільки якщо розглянуті міста пов'язані економічно. Це пояснює, чому закон діє, наприклад, для окремої європейської країни, але не для всього ЄС.

Як же ростуть міста

Існує ще одне дивне правило, Що стосується міст, воно має відношення до того, яким способом міста споживають ресурси, коли ростуть. Виростаючи, міста стають стабільнішими. Наприклад, якщо місто подвоюється в розмірі, потрібне йому число бензоколонок не збільшується вдвічі.

Місто цілком комфортно житиме, якщо кількість бензоколонок збільшиться приблизно на 77%. У той час, як закон Ципфа слідує певним соціальним законам, цей закон ближчий до природних, наприклад, до того, як тварини споживають енергію, стаючи дорослішими.

Математик Стівен Строгац описує це так:

Скільки калорій на день потрібно миші порівняно зі слоном? Обидва вони ссавці, таким чином, можна припустити, що на клітинному рівнівони повинні сильно відрізнятися. Якщо виростити в лабораторії клітини десяти різних ссавців, у всіх цих клітин буде однакова швидкість метаболізму, вони не запам'ятовують на генетичному рівні, якого розміру насправді їх господар.

Але якщо взяти слона або мишу як повноцінну тварину, що функціонує скупчення мільярдів клітин, то на одну і ту ж дію клітини слона витрачатимуть набагато менше енергії, ніж клітини миші. Закон метаболізму, названий законом Кляйбера, стверджує, що метаболічні потреби ссавця зростають пропорційно до його маси тіла в 0,74 рази.

Ці 0,74 дуже близькі до 0,77, які спостерігаються у закону, який управляє кількістю бензоколонок у місті. Збіг? Можливо, але швидше за все немає.

У Росії її населення найбільшого міста, Москви, офіційно становить близько 11,5 млн. людина. Чисельність другого міста, Санкт-Петербурга, - 5,2 млн. Як бачимо, співвідношення чисельності населення двох міст приблизно відповідає «закону Ципфа». За ним третє за чисельністю місто в Росії повинне мати близько 4 млн. чоловік, а четверте — близько 3 млн. Проте таких міст у Росії немає. Насправді третє місто у Росії, Новосибірськ, має чисельність 1,6 млн. людина (у 2,5 разу менше норми), а четверте, Єкатеринбург, 1,4 млн., що у 2 разу нижче норми «по Ципфу».

Чому «закон Ципфа» не працює у Росії? Американський соціологРічард Флорида у книзі «Креативний клас» дає відповідь на це запитання. Він пише, що «закон Ципфа» не працює в імперіях (або країнах, які мають рецидив імперій) та планових економіках. Він називає три такі країни-виключення: Англію (де після Лондона немає навіть другого міста, меншого за населенням у 2 рази), Росію та Китай.

Дослідження щодо «закону Ципфа» проводилося і Фінансовим університетомза уряду Росії. Висновок у ньому був такий:

«Реальний розподіл міст Росії за чисельністю населення не повною мірою відповідає кривій Ципфа ні для розвинених, ні для країн, що розвиваються. Частина реальної кривої Ципфа для Росії розташована вище ідеальної, що відповідає розподілу міст розвинених країн, а частина нижче - відповідає розподілу міст у країнах, що розвиваються. Таким чином, за правилом Ципфа виходить, що в Росії домінуючу роль відіграють найбільші міста та міста-мільйонники. Відхилення реальної кривої від ідеальної пов'язано з великою територієюкраїни та різними соціально-економічними та природно-кліматичними факторами».

Два мегаполіси та малі та середні міста (до 250 тис. осіб) цілком укладаються у тип західної урбанізації. А ось великі міста та міста-мільйонники — ні.

Висновок ще одного дослідження:

«Виявлені тенденції не відповідають висловленим у літературі припущенням, що причиною відхилення Росії від закономірності Ципфа є централізоване планування просторового розвитку, яке включало підтримку середніх та малих міст у радянський період. Перехід до ринку мав усунути ці спотворення та наблизити залежність ранг - розмір до канонічної формиоднак, незважаючи на підключення ринкових механізмівдо формування простору економічної активності, у країні спостерігалося подальше відхилення від неї».


(Кружками позначено чисельність населення областей Росії)

Тобто. відхилення від «закону Ципфа» в Росії не є результатом планової економіки (як у Китаї), а наслідком імперської країни (коли одне або два міста відіграють роль метрополії).

Виходячи з цих тенденцій, ймовірність розвитку/регресу міст у Росії така:

— Більшість міст Росії лежить вище за ідеальну криву Ципфа, тому очікувана тенденція — продовження скорочення чисельності та людності середніх і малих міст за рахунок міграції у великі міста.

- 7 міст-мільйонників (Санкт-Петербург, Новосибірськ, Єкатеринбург, Нижній Новгород, Казань, Челябінськ, Омськ), що знаходяться нижче ідеальної кривої Ципфа, мають суттєвий резерв зростання населення і очікують на приріст населення.

— Існують ризики депопуляції першого міста в ранзі (Москви), оскільки друге місто (Санкт-Петербург) та наступні великі міста сильно відстають від ідеальної кривої Ципфа через зниження попиту на робочу силупри одночасному зростанні вартості проживання, включаючи насамперед вартість купівлі та оренди житла».

(У СРСР «закон Ципфа» теж не працював — видно відхилення міст від кривої Ципфа, де вони мали б перебувати)

Річард Флорида у книзі «Креативний клас» зауважує ще одну відмінність американських і російських міст. У США концентрація креативного класу — середніх містах, розкиданих по всій території країни. Так, найвища частка креативного класу в таких містах, як Сан-Хосе, Боулдер (штат Колорадо), Хантсвіл (штат Алабама), Корвалліс (штат Орегон) і т.д. - У них ця частка становить 40-48%. А ось самий велике містоСША, Нью-Йорк серед середняків за часткою креативного класу — 35% від загальної кількостіпрацівників та 34-е місце у рейтингу, друге місто країни, Лос-Анджелес – взагалі 60-е місце. Схожа тенденція спостерігається і в інших країнах, де працює закон Ципфа (Німеччина, Франція, Італія, Швеція і т.д.).

У Росії майже весь креативний клас країни зосереджений у Москві, інші міста так і залишаються зоною індустріального часу зразка середини ХХ століття.

Все це дуже захоплююче, але, мабуть, менш таємниче, ніж закон Ципфа. Не так складно зрозуміти, чому місто, яке є, по суті, екосистемою, хоч і побудованою людьми, має підкорятися природним законам природи. Але закон Ципфа немає аналога у природі. Це соціальне явище і воно має місце лише протягом останніх ста років.

Все, що ми знаємо, це те, що закон Ципфа діє і для інших соціальних систем, включаючи економічну та лінгвістичну. Таким чином, можливо, є якісь спільні соціальні правила, що створюють цей дивний закон, і колись ми зможемо їх зрозуміти. Той, хто розгадає цей ребус, можливо, виявить ключ до передбачення набагато важливіших речей, ніж зростання міст. Закон Ципфа може бути лише невеликим аспектом глобального правила соціальної динаміки, яке визначає те, як ми спілкуємося, торгуємо, утворюємо спільноти та багато іншого.

П.С. особисто мені здається, що закон з такими приблизними припущеннями до цифр і купою винятків взагалі законом назвати складно. Просто випадковий збіг.

А що ви думаєте?

джерела

Світ SEO постійно розвивається, і оптимізація не стоїть на місці. З'являються нові методи написання текстів, їхня підготовка для кращого індексування. Одним із параметрів, на який оптимізатори звернули пильну увагу, є природність тексту за законом Ципфа У чому ж полягає закон Ципфа та його роль у SEO-просуванні?

Відповідно до формулювання, закон Ципфа є встановлену досвідченим шляхом закономірність розташування частоти слів у тексті. Відповідно до закону, частота слова у тексті майже обернено пропорційна його місцю у списку. Тобто, якщо відштовхуватися від закону, друге за частотою згадки у тексті слово має використовуватися вдвічі рідше, ніж перше, а третє - втричі рідше, тощо.

Для простоти розуміння цієї закономірності варто звернути увагу до розташування літер на комп'ютерній клавіатурі. Воно не випадково: літери будь-якої мови, що найбільш часто вживаються, розташовуються зручніше, ніж вживані рідше. Ситуація зі словами ідентична: існують слова, що часто вживаються, і рідко вживані, більш значущі слова, що визначають тематику тексту

Розподіл за значимістю слів використовується при ранжируванні сайтів в алгоритмах пошукових систем. З цим урахуванням відмінність слів за смисловим навантаженням і частотою вживання допомагає розділити слова при написанні SEO-текстів на 3 групи:

  • Допоміжні. До цієї групи належать слова, що не несуть самостійного смислового навантаження, наприклад спілки, прийменники, займенники, частки. всі допоміжні словасприймаються пошуковими системами як інформаційний шум та ігноруються при ранжируванні.
  • Важливі. Такі слова рідше зустрічаються в текстах і несуть суттєву смислове навантаження. Пошукові системи сприймають слова цієї групи як ключові.
  • Випадкові. Слова цієї групи нечасто використовуються для текстів конкретної тематики та практично не впливають на пошукове ранжування.

На думку SEO-фахівців, американський лінгвіст Джордж Ципф визначив закони, які почали використовувати пошуковики для визначення природності та унікальності текстів за частотою слів.

Оптимізатори часто стикаються з проблемами просування тексту за високих показників унікальності та релевантності. Тобто текст може бути унікальним на 100%, оптимізованим під ключовий запит із високою релевантністю, і при цьому не вийти в топ або, що гірше, залишитися поза увагою програм для аналізу позицій.

Непросто встановити, наскільки закон Ципфа окремо впливає результати пошукової видачі. Найімовірніше, пошукові системи враховують сукупність багатьох факторів, серед яких є і перевірка на природність за Ципфом. На сьогоднішній день, у пошуковому просуванні контент грає одну з найважливіших ролейТому при створенні SEO-текстів рекомендується ретельно стежити за показниками унікальності та природності. Існує безліч послуг для перевірки текстів. Зупинимося на двох найбільш популярних сайтах, що зарекомендували себе - 1y.ru і pr-cy.ru.

Сервіс 1y.ru

Сайт дозволяє перевірити на природність контенту окремі веб-сторінки, сайти повністю або тексти обсягом від 100 до 5000 слів. Обмеження для анонімних користувачів дозволяє перевіряти до 2000 текстів на день. Недолік сайту полягає в тому, що неможливо перевірити веб-сторінку без спотворення результатів, оскільки сервіс сканує всю знайдену текстову інформацію, включаючи рубрикатор, віджети, меню та інші види допоміжного тексту.

Після перевірки тексту 1y.ru видає статистику за змістом з рекомендаціями щодо зменшення повторюваних слів і надає графік з трьома кривими: крива значень тексту, що проверяється, крива рекомендованих значень і крива ідеальних значень.

Сервіс pr-cy.ru

Цей ресурс також надає можливість оцінити природність текстів та веб-сторінок. Сервіс відфільтровує стоп-слова, розраховує відсоток нудоти тексту, а також надає рекомендації щодо зменшення чи збільшення кількості входжень згідно із законом Ципфа.


Висновок

Різниця результатів під час перевірки одного тексту у різних сервісах може бути значною. Так, перші три абзаци тексту, який ви читаєте, показали 59% за 1y.ru та 88% за pr-cy.ru. Висновок напрошується лише один: при написанні текстів не варто приділяти зайву увагу вписуванню в тіло статті ключових входжень. Писати потрібно цікаво і доступно, а якщо все ж таки буде необхідно впровадити в текст ключові слова, варто перевірити текст за методом Ципфа.

Джордж Ціпф

Основним джерелом інформації в Інтернеті є тексти. Природно, що і просування сайтів у пошукові ТОПи здебільшого пов'язане з правильним написаннямподібного контенту. Але написати текст мало – треба ще й оформити його відповідно до різноманітних SEO правил та рекомендацій. З них можна виділити найбільш популярні та всіма використовувані:

  • Мінімум нудоти, води та спаму.
  • Правильна структура матеріалу, що розміщується (заголовки, списки).
  • Вписування ключів.

Це все ази, тому їх використовує більша частинаоптимізаторів. Але сайтів на просторах інтернету стає все більше, тому деякі з їхніх власників шукають інші варіанти для успішного просування свого продукту. І тут частина з них згадують про закон Ципфа. Але мало того, що вони починають заточувати власні творипід сервіс, що працює на основі тверджень англійського вченого, який жив хрін знає скільки років тому, так вони ще й змушують найманих копірайтерів ламати собі голову над ним!

Але доктор Айтупіт бдить, тому, як Чорний Плащ, поспішає на допомогу інтернет писакам, щоб розібратися з ефективністю даного методуз просування сайтів в Топи найвідоміших пошукових систем.

Перевірка згідно із законом Ципфа

По суті, лише дві найважливіші характеристики:

  • Нудоту контенту, що перевіряється.
  • Природність.

Перший мінус цього продукту полягає саме у показниках нудоти: розробники явно не врахували, що існує класична та академічна варіація цієї SEO характеристики. А більшості людей, які працюють у цій сфері, відомо, що для зниження показників кожного з варіантів використовуються абсолютно різні способи(Про це доктор Айтупіт постарається розповісти в одній з наступних своїх). Але «Ципфо-сервіс» не повідомляє про це своїм користувачам, що іноді може призвести до деяких труднощів. Не довго мучитиму і скажу, що в даному випадкумається на увазі лише класична нудота.

Переходимо до "Природності". Що таке? Я довго шукав адекватну інформацію з цього питання. Але знайшов лише постійне переписування якихось хитромудрих слів, зрозуміти зміст яких неможливо без пари пляшок пива. Ні, звичайно, може бути я і тупий, але кожен із вас здатний зрозуміти це:

«..емпірична закономірність розподілу частоти слів природної мови: якщо всі слова мови (або просто достатньо довгого тексту) упорядкувати за зменшенням частоти їх використання, то частота n-го слова в такому списку виявиться приблизно обернено пропорційною його порядковому номеру n (так званому рангу цього слова, див. шкала порядку). Наприклад, друге по використаності слово зустрічається приблизно вдвічі рідше, ніж перше, третє - втричі рідше, ніж перше, і так далі.

Емпірична, млинець, закономірність... Це ж треба було таке написати! Ну та гаразд – Сатана йому не пробачить. Не це найцікавіше! Цікаво те, що автором цього вислову є американський лінгвіст, який жив у середині минулого століття, коли про інтернет знав лише Джордж Лукас та Леонід Ілліч Брежнєв. Тобто існують люди, які вважають, що сучасні пошукові системи просто зобов'язані виконувати аналіз згідно із законом Ципфа? Пардонте, Мусьє, але з хрону?..

Напевно, деякі читачі після вищенаписаних слів вирішать, що автор цього опусу є типовим балаболом? Я намагатимусь навести гідні аргументи, щоб переконати вас!

– Вимога відповідності параметрів тексту закону Ципфа або, якщо бути точним, усіляким “сервісам”, які нібито перевіряють тексти на таку відповідність – профанація чистої води. Така умова безглузда як з точки зору якості тексту, так і з точки зору його оптимізації для пошукових систем.

- Перевірка по Ципфу - це схоже на SEO-амулети і фен-шую - чув дзвін, та не знаю, де він. А оскільки в SEO взагалі багато псевдонаукової містифікації через початкову закритість алгоритмів пошукових систем, то перевірка по Ципфу дуже гармонійно приєдналася до більш релевантних показників якості – щільності ключів та унікальності, результати яких у свою чергу теж потрібно приймати остільки.

Жодних домислів з мого боку – чесно комунізовані слова, написані з приводу цього закону!

І я готовий підписатися під кожним словом Жекі з Адвего. Давайте пофантазуємо. Уявіть, що перед вами стоїть автомат. Вам потрібно підійти та набрати на його табло довільну комбінацію цифр. Правильного числаніхто не знає, тому щоразу розмір виграшу відрізняється. Деякі люди просто вводять значення і йдуть, інші починають винаходити якісь системи: танцюють румбу, три рази плюють строго під кутом у п'ятнадцять градусів, з'їдають козюльку, що засохла три дні тому і таке інше. І тут одну з останніх таланить – він зриває куш! Чому йому пощастило – хрін знає. Може, просто вгадав комбінацію, а може, козюлька чарівна була. Але наступного дня ця людина приходить до автомата і встановлює поруч столик, за яким пропонує всім охочим обов'язково спробувати перед набором цифри його методику.

Все одно не переконав? Тоді скористаюсь важкою артилерією – проведу експеримент.

Наочна перевірка тексту згідно із законом Ципфа

Для майбутньої роботия вирішив взяти кілька різних ключових фразта перевірити тексти на відповідність закону Ципфа, розташовані у різних місцях ТОПу нашої вітчизняної пошукової системи Yandex. Приступимо.

Перший ключ - "Будівництво додому з бруса".

Вибираю сайт, який розташований угорі пошукового рейтингу, роблю аналіз:

Що маємо: природність – 80, нудота – 5.9.

Переходжу на сторінку нижче в пошуковій системі, вибираю сайт з третього десятка, проводжу аналіз:

Результат: природність – 82, нудота – 6.16.

Опускаюся на десяток позицій нижче та повторюю процедуру:

Підсумок: Е – 86, Т – 8.6.

Але в ТОПі щось інше стоїть! Мало? Повторюємо перевірку. Беремо наступний ключ. Допустимо – лікування геморою.

Результат: Е - 70, Т - 11.23.

Нижче на два десятки позицій:

Підсумок: Е – 91, Т – 4.90.

Ще на сторінку нижче:

Результат: Е - 91, Т - 4.12.

Висновок

Як видно з проведеного аналізу, найкращі показники природності текстових матеріалів за законом Ципфа не дають гарантію на успішність конкуренції з текстами, розташованими на інших інтернет-ресурсах. Втім, вирішувати все одно вам...


Всім привіт! У Останнім часомвсе частіше від колег чую про вимогу до ТЗ оцінювати якість тексту згідно із законом Ципфа. І не всі розуміють, як потрібно редагувати текст під цей закон. У сьогоднішній статті спробую розповісти, як найбільше простим способомпокращити параметр, а також уточню чому добрим авторамнасправді, це не потрібно.

Визначити якість тексту за законом Ципфа можна за кількома сервісами. Але найбільш адекватним я вважаю PR-CY, тут поєднується правильна формулаз простим та зрозумілим інтерфейсом. Саме його я й використав під час підготовки цього матеріалу.

Що таке закон Ципфа

Спочатку варто розібратися, що це таке. Якщо вірити Вікіпедії, сформулював цю закономірність в 1908 Жан-Батист Есту, спочатку ставився цей закон до стенографії. Перше відоме широкому загалу застосування закономірності відноситься до демографії, а точніше до розподілу чисельності населення в містах, використовував її Фелікс Ауербах.

Сучасну назву закономірність отримала в 1949 завдяки лінгвісту Джорджу Ципфу. Він показав із її допомогою градацію розподілу багатства серед населення. І лише потім закон почали застосовувати визначення читабельності текстів.

Як розраховується

Щоб правильно використати цей закон, потрібно розуміти, як він працює. Розберемо формулу до розрахунку.

На практиці зручнішою виявляється інша формула, вона виглядає зрозуміліше.

Зручніше такий підхід оскільки ми маємо дані за кількістю повтору максимально поширеного слова. Саме від цієї кількості й відштовхуються.

Якщо спростити, то в нашому тексті друге за повторюваністю слово має зустрічатися вдвічі рідше, ніж перше. Ті, що йде на третьому місці, втричі і так далі.

Приклад припасування тексту

З теорією дещо розібралися. Залишилося розібратися із практикою. Як піддослідний текст взяв статтю з Т-Ж. Чому саме звідти? Все просто. На даний момент це один з найкращих зразків улюбленого багатьма інфостилями. Ну і було цікаво, що покаже текст, написаний під керівництвом Максима Ілляхова. Скажу відразу, тексти за цим показником на рівні, хоча, перелопативши понад 40 сайтів, взагалі не знайшов жодної статті з поганою природністю. Також, відразу забігу вперед і скажу, що піддослідний текст після припасування став набагато гіршим, незважаючи на покращений показник по Ципфа, не варто сильно морочитися через надмірне підвищення природності.

Ось що показав аналізатор після перевірки.

Розберемо, що там вказано. Як бачимо, є стовпець зі словами, а також незрозумілі цифри. У стовпці «входження» (1) зазначено, скільки разів зустрічаються словоформи в тексті. У стовпці «за Ципфом» (2) рекомендована кількість входжень. Маркерами 3 і 4 позначені ідеальні показники для другої та третьої позиції. Також варто звернути увагу на рекомендації, тут зазначено, скільки слів потрібно прибрати для досягнення ідеального поєднання.

Для більшого розуміння розберемо, що нарахував аналізатор. За основу візьмемо цифру 39 (C), також нам знадобиться порядковий номер, звернемо увагу на 2 (F) позицію. Беремо формулу.

Підставляємо.

F=39/2=19,5

Округлюємо у велику сторону та отримуємо 20, це і буде необхідною кількістювходжень. Що підтверджує аналізатор. У нас друге за популярністю слово вживається 28 разів, відповідно 8 повторів потрібно буде видалити або замінити.

Розібравшись із принципом роботи закону, починаємо редагувати. Для цього видаляємо або замінюємо на синоніми слова, у яких більше входжень, ніж це потрібно щодо Ципфа. В результаті отримуємо таку картину.

Як бачите, мені вдалося збільшити показник із 83% до 88%. Але при цьому значно постраждала якість тексту. Не варто прагнути збільшення цього показника до 100%. За фактом, якщо у вас вже є 75%, це добре і далі перекручуватися не варто.

Корисна порада

Приділяйте увагу не лише першим рядкам. Починайте припасування з останніх позицій у списку, вони часто мають більший вплив на загальний показникніж перший десяток слів.

Ципфа та SEO

Тепер перейдемо до того, навіщо потрібне знання цієї закономірності копірайтеру. Сеошники, замовляючи тексти, прагнуть зробити їх найбільш зручними для пошукових систем. Вважається (щоправда, незрозуміло ким), що закон Ципфа активно використовується пошуковими алгоритмами. Довести чи спростувати це твердження складно. Жодних осудних досліджень та експериментів на цю тему мені знайти не вдалося.

Вирішив перевірити самостійно. Для цього взяв видачу за таким конкурентним запитом «пластикові вікна», в Яндексі бралася московська видача, в Гуглі довелося почаклувати, і він мене нібито теж визначив, як жителя столиці (принаймні рекламу мені показав із московською геолокацією). Брав першу сторінку видачі, плюс 49 місце. Вийшла така табличка.

Якщо подивитися уважніше, можна звернути увагу, що в Яндексі видача більш рівна, якщо дивитися на досліджувану закономірність. Але, при цьому більше високий показникне гарантує перемоги у боротьбі за перше місце у топі.

На підставі цього можна сказати, якщо пошукові системи і застосовують даний закон, є лише одним із чинників. І не головним.

Висновки

Ну от і все. Тепер ви знаєте, що така якість тексту згідно із законом Ципфа, а також можете коригувати цей показник. Насправді, тут немає нічого складного, все досить просто. Достатньо одного разу зрозуміти принцип роботи цієї закономірності.



Останні матеріали розділу:

Список відомих масонів Закордонні знамениті масони
Список відомих масонів Закордонні знамениті масони

Присвячується пам'яті митрополита Санкт-Петербурзького та Ладозького Іоанна (Сничова), який благословив мою працю з вивчення підривної антиросійської...

Що таке технікум - визначення, особливості вступу, види та відгуки Чим відрізняється інститут від університету
Що таке технікум - визначення, особливості вступу, види та відгуки Чим відрізняється інститут від університету

25 Московських коледжів увійшли до рейтингу "Топ-100" найкращих освітніх організацій Росії. Дослідження проводилося міжнародною організацією...

Чому чоловіки не стримують своїх обіцянок Невміння говорити «ні»
Чому чоловіки не стримують своїх обіцянок Невміння говорити «ні»

Вже довгий час серед чоловіків ходить закон: якщо назвати його таким можна, цього не може знати ніхто, чому ж вони не стримують свої обіцянки. По...