К теме от Буквы к Точке. Новая машинопись (Иосиф Ольшаницкий) / Проза.ру

13.02.09.
Иосиф Ольшаницкий

УТОЧНЕНИЯ

к теме НОВАЯ МАШИНОПИСЬ (или "от Буквы к Точке")

Сегодня в Новостях «Рассылки@mail.ru» прочёл:

«В русском языке около 500 тыс. слов. Но наиболее употребительных слов всего от 2000 до 2500. Даже у Пушкина, великого знатока и мастера русского языка, в его литературной речи были не все полмиллиона слов, а всего 21197. Учёные обнаружили, что 100 наиболее часто встречающихся слов составляют 20% устной и письменной речи. У выпускника средней школы словарный состав составляет от 1500 до 4000 слов. У человека с высшим образованием – до 8000 слов».

Что-то лень проверять, но, похоже, что почти всю первую сотню наиболее часто употребляемых слов составляют слова, длиною не более двух букв, из которых 11 слов имеют по одной букве:
У, О, А, Э, И, Я, Б, В, Ж, К, С.

Слова из двух и трёх букв я однажды как-то выписал из Орфографического словаря и где-то показал их в одной из своих публикаций в Интернете. Зашифрованные знаками «ольшаницы» эти слова разгадываются в тексте легче лёгкого.

А шифровки чуть более длинных слов распознаются в тексте ещё проще. И так далее.

Наиболее часто встречающиеся слова – это, по закону Зипфа, самые короткие слова, состоящие из одной, двух или трёх букв, а именно слова служебные, - такие как союзы, частицы, предлоги, местоимения.

В словах этих имеются не более двух согласных букв, которые разгадать в шифровке «ольшаница» проще простого даже без помощи компьютера, - хотя бы путём отбрасывания всех бессмысленных буквосочетаний, коих всего-то совсем не много.

Список слов, длиною не более трёх букв, значительно больше, чем сотня. И составляют они не 20% текста, а больше, - предположим, треть текста.
Слова длиною в 4-5 букв, но тех, где тоже не более двух согласных, разгадать ещё проще, потому что в шифровке «ольшаницей» обозначения разные остальных 13 букв алфавита служат подсказками и метками для отбрасывания неподходящих вариантов. Осторожно предположим, что слова длиною до 5-ти букв, из которых согласных не более двух, составляют не менее 40% текста. Но уже эти 40% слов сами являются дальнейшими подсказками в разгадывании остальных слов зашифрованного текста.

Что же мы видим пока уже на этом этапе дешифрования?
Если даже все 60% оставшихся слов были бы пока неразгаданны, то всего, лишь половину букв в них, как и во всём тексте составляют согласные. Остальные 13 букв алфавита почти всегда очевидны в шифровке «ольшаница», и служат подсказками и фильтрами. Короче, пока как бы не разгадано всего-то не более 30% букв текста, - все они буквы согласные. И пока мы с компьютером проделали только совсем «безмозглую» работу, то есть как бы еще не воспользовались никакими иными приёмами отбрасывания и разгадывания слов в шифровке «ольшаница». На самом деле мы одновременно с этим и даже чуть раньше успели обратить внимание уже на многое и опознать многое. Так и лица людей, и походку, и силуэт человека мы узнаём разом, мгновенно, по множеству признаков, неописуемых словами, да и вообще непонятно как именно.

Теперь в словах, имеющих три согласные и более, мы обратим внимание на приставки и окончания. Они почти всегда очевидны по своим характерным шифровкам, прочтение которых помнит не только компьютер, но и человек без компьютера. Даже не соображать, а просто запомнить почти все шифровки этих частей слова – задача не более трудная, чем запомнить сколько-то характерных начертаний в стенографии.

И вот, компьютер или глаза человека видят, где находятся корни и суффиксы слов, даже пусть ещё не разгаданные. Что далее?
По всяким уже ранее найденным приметам (таким как: разгаданные слова, разгаданные части слова ещё не разгаданных слов, знаки препинания, уже понятый порядок слов в предложении, выяснение, какими членами предложения являются уже прочтённые и ещё не прочтённые слова) нам становится понятно, какой частью речи является каждое ещё не прочтённое слово.

Любые числительные в любой своей грамматической форме распознаются без разночтений по своим всегда сугубо характерным шифровкам, которые помнит компьютер (или даже иногда память человека). Эти шифрованные слова угадываются лишь по некоторым первым признакам, как угадываются рисунки обычных букв и слов без их внимательного разглядывания при быстром чтении.

Из десяти частей речи почти все слова большинства из них распознаются очень быстро и так просто, что сейчас повторяться мне уже не хочется.

Для чтения художественной литературы, всяческих газет, журналов и прочих текстов, не по узкоспециальным темам достаточно знать пару тысяч слов.
В тексте какого-либо конкретного сюжета повторяются одни и те же слова, где употребляется какая-нибудь всего лишь одна тысяча из списка лишь этих разных слов. То же относится и к тексту по узкоспециальной какой-нибудь теме, где употребляется лишь сотня-другая одних и тех же терминов, понятных только специалистам по такой теме.
В конкретном тексте число разных используемых шифровок слов не может превышать число используемых там разных слов. Наоборот, под одну шифровку могут попадать разные слова. Надо выбрать правильный вариант. Проблематично ли это?

Из всего-то списка какой-нибудь лишь одной тыщёнки слов, циркулирующих
• только в данном тексте
• такой-то тематики,
• такой-то темы,
• такого-то сюжета
• сколько слов относится только к такой-то части речи (из всех 10-и частей речи)?
• Из них, сколько слов состоит только из такого-то числа букв? (Чем больше в слове букв, тем реже – по закону Зипфа – слова именно такой длины встречаются в тексте)
• Из них, сколько слов имеют именно такую-то приставку (или хотя бы такую же её шифровку)?
• Из них, сколько слов имеют именно такое-то окончание?
• Из них, сколько слов имеют такой же суффикс или хотя бы такую же его шифровку?
• Из них, сколько слов имеют такую-то примету (например, две какие-то простые гласные подряд – из группы букв алфавита УОАЭ, причем именно на порядковых местах 3 и 4)?
• Из них, сколько слов имеет две или даже три согласных подряд, причём именно на таких-то порядковых номерах букв в слове?
• Из них, сколько слов имеет именно такое-то взаиморасположение согласных, простых и йотированных гласных, мягких или разделительных знаков, буквы Й сдвоенных или даже строенных согласных… и т.п. признаков?

Компьютер помнит все значения встречавшихся ему шифровок слов. Если под шифровку подпадают разные слова, то имеется, в принципе, бесконечное множество приёмов для всё более тонких или продолжительных процедур дешифрования слов.

Подчеркну, что сейчас я рассматриваю «сверхзадачу». Под ней я здесь подразумеваю, дешифрование текста, в котором слова зашифрованы не постепенно, - не по одной букве с конца слова при каждом последующем его упоминании. Если же текст шифровался с упоминанием слов поначалу явными буквами алфавита, разгадывание их существенно упрощается.

Ещё раз напомню о следующей возможной сложности в дешифровании «ольшаницы». Предположим, под шифровку подпадают два существующих слова (или более).
Тогда компьютер ищет по всему тексту эти предполагаемые слова во всех их грамматических формах. В каком-то месте текста грамматическая форма слова указывает на то, что один из двух предполагавшихся вариантов не подходит.
Может оказаться, что в том месте, где выявилось несоответствие, имеется в виду совсем иное слово, которое имеет в других своих грамматических формах такую же шифровку, как и сопоставленное с ним слово. Человек-то бессмыслицу сюжета увидит сразу. А компьютер имеет свои возможности разобраться со сложным для него вопросом. При особой необходимости он может проверять, не бессмысленное ли словосочетание во фразе, построенной грамматически правильно. Компьютер может проверять, существуют ли где-либо в Интернете грамматически и тематически допустимые словосочетания, вызвавшие сомнения в правильности дешифрованной фразы.
Компьютер, в принципе, может сам проанализировать то, какие именно тематические словари наиболее актуальны при расшифровке «ольшаницы» (суть которой – графически упростить письмо с 33-х до меньшего числа буквенных знаков, например, всего до 3-х).

Короче говоря, читать письмо, где в каждой строчке только точки (в два ряда, в основном, лишь по одной на букву), в принципе, не проблема для компьютера. И, как оказывается, даже для человека – без компьютера – тоже. Этому можно будет научиться даже проще, чем освоить иностранный язык. Зачем это нужно, я уже декларировал не единожды.

Точка вместо буквы, это не меньше, чем буквенное письмо вместо наскальных рисунков.
______