Где применяется закон Ципфа Зипфа?

Иосиф Ольшаницкий
Приятно похвастаться, что и мои публикации по лингвистике нужны именно профессионалам.
 
Поэтому не под, а над текстом помещаю список полезных ссылок, рекомендованный в интересной мне статье, встреченой мною сегодня в интернете.
Там упомянута (выделенная здесь мною) и моя публикация о применении закона Зипфа.
                Иосиф Ольшаницкий.

 
October 13th, 8:51
Статья опубликована на сайте Школа жизни




Полезные ссылки:


Частотный словарь русского языка
Частотные словари английского языка
Закон Ципфа. Условная энтропия. Свойства иерархической аддитивности
Законы царства документов
Фрактальная модель информационного пространства
Закон Ципфа и фрактальная природа социальных и экономических явлений
Закон Ципфа – вводная
Интерпретация текста музыки
Эрец Эйден Жан-Батист Мишель. Неизведанная территория [Как «большие данные» помогают раскрывать тайны прошлого и предсказывать будущее нашей культуры]
Бенуа Мандельброт
Национальный корпус русского языка
.......
Закон Зипфа в случайных текстах.
 
   -!-  ИОСИФ ОЛЬШАНИЦКИЙ. Закон Зипфа и шифры Новой Машинописи
.......
Ramon Ferrer i Cancho - On the universality of Zipf’s law for word frequencies
Евин Игорь Алексеевич. Синергетика и языкознание
Kenji Kawamura; Naomichi Hatano - Universality of Zipf's Law


Tags: закон Зипфа, школа жизни

ГДЕ ПРИМЕНЯЕТСЯ ЗАКОН ЗИПФА?


Открытие закона Ципфа стало началом инфометрии, науки об измерении количественных характеристик информации. Эта наука сейчас очень востребована. На ее основе работают алгоритмы поисковых систем вроде Google и Yandex, определяющие популярность сайтов и степень их соответствие поисковому запросу.

Главная задача хозяев Интернет-сайта состоит в том, чтобы продвинуть свой сайт в число самых первых по соответствию какой-нибудь поисковой фразе.  В своей борьбе за первые места в топе некоторые из этих ребят не брезгуют откровенным жульничеством. Например, относительно недавно был в ходу такой прием: вставлять в текст сайта желаемую поисковую фразу везде, где можно. И где нельзя, тоже, маскируя это безобразие нечитаемым шрифтом. Например, писали поисковую фразу белыми буквами по белому фону или употребляли очень мелкий шрифт. Зачем? Затем, чтобы доказать поисковым системам, что их сайт лучше других соответствует данному поисковому запросу. Чем чаще встречается поисковый запрос на их странице, тем лучше. Вероятно, жулики считали, что кашу маслом не испортишь.

Но современные поисковые системы эту хитрость легко обнаруживают и обезвреживают. И помогает им в этом закон Ципфа.

Естественно, что закон Ципфа должен соблюдаться и для всего языка и для некоторого его подмножества, небольшого текста, находящегося на сайте. Поисковым  системам не сложно определить частоту встречаемости слов на проверяемом сайте. При этом частота слов, «накручиваемых» с помощью недобросовестных приемов, будет значительно превышать значения частот, какие соответствовали бы закону Ципфа. Таким образом, обман довольно легко обнаруживается, и сайты, создатели которых хотели обмануть поисковые системы, этими системами вообще блокируются.

В языкознании, как в любой науке, вопросов больше, чем ответов. Распределение слов по частотам только констатирует уже сложившееся в языке положение: одни слова встречаются чаще, чем другие. С помощью закона Ципфа можно определить некоторые количественные зависимости в частоте встречаемости слов.

Но можно ли ответить на вопрос, почему одни слова становятся более популярными, чем другие? Примеров того, как одни слова вдруг начинают употребляться чаще, чем другие, и очень быстро занимают высокие места в частотных словарях, мы знаем множество. Один из самых головокружительных взлетов претерпело английское слово yahoo. До 1994 года это слово встречалось, пожалуй, только в одной книге, в «Путешествиях Гулливера» Дж.Свифта. В третьем своем путешествии капитан Гулливер попадает в страну, где люди – дикие и неразумные существа, которых называют yahoo (в русском переводе «йеху»). В 1994 году образовалась
компания Yahoo!, занимавшаяся бизнесом в сфере Интернета. Параллельно росту и коммерческим успехам этой компании слово yahoo становилось все более популярным и, главное, поменяло свой смысл. Теперь, произнося это слово, мы только в последнюю очередь вспомним о первоисточнике, английской книге 17-го столетия.

Оказывается, закон Ципфа позволяет дать, хотя бы качественно, ответ на вопрос о том, как происходит рост популярности тех или иных слов.



В начале графика
В «хвосте» графика

Если не слишком вдаваться в математические тонкости, то объяснение будет таким.

Как уже было сказано, зависимость между частотой встречаемости слова в тексте, f, и его местом в частотном словаре (рангом), r, обратно пропорциональная. Чем больше ранг слова (чем дальше оно находится от начала словаря), тем меньше частота его встречаемости в тексте. График такой зависимости - гипербола, которая при небольших значениях рангов очень резко спадает, а затем, в области малых значений частоты встречаемости, f, тянется очень далеко, постепенно, но очень незаметно, уменьшаясь по мере роста ранга, r.  В самом деле, если частота встречаемости одного слова 4 на миллион, а частота другого - 3 на миллион, не имеет значения, что ранги этих слов различаются в тысячу раз. Эти слова употребляются настолько редко, что многие носители языка их даже не слышали. Вспомните тантамареску и тинтамар.

Однако эта дальняя область примечательна тем, что слово, находящееся здесь, может очень легко многократно уменьшить значение своего ранга. Даже самое маленькое увеличение частоты встречаемости слова резко сдвигает его положение к началу частотного словаря. Например, начинающий артист будет рад упоминанию своего имени даже

В терминах этого закона мерой популярности слова является его положение в частотном словаре языка. Более популярное слово находится ближе к началу словаря, чем менее популярное.

Сам закон Ципфа отражает зависимость частоты использования слова в языке от его места в частотном словаре. Популярные слова языка употребляются чаще. С математической точки зрения график этой зависимости является гиперболой с резким подъемом по мере приближения к началу координат и длинным, пологим, почти горизонтальным, «хвостом». БОльшая  часть слов языка размещается именно в этом «хвосте». Здесь место слова в частотном словаре, если и изменяет частоту использования этого слова в языке, то совсем не на много.

Обратный процесс тоже имеет место. Совсем небольшое изменение частоты встречаемости слова в языке может сильно сдвинуть это слово в частотном словаре к началу, то есть значительно повысить его популярность. Еще одно небольшое изменение частоты встречаемости слова – снова большое повышение популярности. Причем в начале рост популярности слова не требует значительных усилий.  Все происходит как бы само собой. Слово, о котором много говорят, без видимых усилий становится все более популярным.

Но как только положение слова в частотном словаре достигает того места на гиперболе закона Ципфа, где по мере приближения к началу координат начинается существенный подъем кривой, ситуация изменяется. Теперь небольшое изменение частоты встречаемости слова уже не приводит к значительным изменениям его ранга, то есть положение слова в частотном словаре перестает изменяться. Значит, рост популярности слова затормозился. Для того, чтобы он продолжался, следует предпринять специальные меры для того, чтобы повысить частоту встречаемости слова. Например, если слово – название товара, необходимо потратить средства на рекламную компанию. Если это – имя киноактера, этот актер должен сняться в каком-нибудь блокбастере или совершить некий экстравагантный поступок, чтобы о нем снова заговорили. И не просто заговорили, а заговорили гораздо громче, чем прежде. Только тогда он сможет сдвинуться вверх в рейтинге себе подобных. Но это перемещение будет достигаться, чем дальше, тем с большим трудом. И, наконец, остановится. Дальнейшие затраты на рекламу в целях повышения популярности имени станут неэффективными. Более того, излишняя реклама может привести к результатам, противоположным ожидаемым. Так, слишком назойливая реклама консервов «Ветчина со специями», SPAM («SPiced hAM») привела к тому, что эту торговую марку в 1969 году осмеяли в телевизионном скетче комик-группы «Монти Пайтон». А потом эта торговая марка превратилась в имя нарицательное, обозначающее любую назойливую и неуместную рекламу. Это – самое худшее, что может произойти с торговой маркой. Впрочем, для актеров и для политиков тоже небольшая радость, когда их имя превращается в нарицательное. Может статься, что, в конце концов, имя Ю.В.Андропова станет ассоциироваться только с дешевой водкой, «андроповкой», выпущенной во время его недлинного правления Советским Союзом.

Как видим, закон Ципфа, казалось бы, академический и абстрактный, может помочь нам понять некоторые очень конкретные процессы, происходящие в окружающем нас мире, который все более и более становится миром информационным.

 
Статья опубликована на сайте Школа жизни