Что же такое - разумное послание в геномах?

Михаил Курносов
 ЧТО ЖЕ ТАКОЕ - РАЗУМНОЕ ПОСЛАНИЕ В ГЕНОМАХ? МОИ РАЗМЫШЛЕНИЯ.2013.
 Главы из книги: Курносов М.Н "Новая генетика и ДНК-информатика".

 Я предполагаю найти в ДНК именно РАЗУМНОЕ послание в виде текста.
В начальном появлении человека пока точно не ясно, как он произошел, как новый вид. Возможно это простая мутация плюс влияние среды. Тем не менее, человек резко вырос в своем развитии по сравнении с другими приматами. Не случайно, поэтому, некоторые ученые, изучающие появление человека, предполагают, что
он продукт генных операций какой-то более высокой цивилизации. Иногда даже точковые мутации могут резко менять фенотип и приводить к появлению нового
вида. Многие гены человека схожи с высшими приматами, но могут ли быть эти точковые мутации или транслокации продуктом генных операций. Почему бы нет?
Все можно предположить. Если это так, то должны остаться разные участки ДНК, которые несут технологическую информацию, например, метки для ПЦР,
аномальные повторы, возможные дубликаты и копии генов или транспортных систем, какие-то гены или регуляторы для преимущественной эволюции нового вида и так далее. Все технологические метки и остатки ДНК, необходимые для создания и продвижения нового вида ничем особо не отличаются от остального массива ДНК.
И хотя они продукт работы высшей цивилизации, они не являются разумными
посланиями для будущих цивилизаций. Разумное послание - это текст, который высшая цивилизация хочет передать последующей цивилизации, сохранив его
через много поколений и многие тысячелетия. В этом и есть смысл жизни - сохранение и распространение информации, заложенной в ДНК.
При этом предполагается, что последующая цивилизация достигнет уровня науки,
при котором возможна работа с генами и ДНК. Самое главное в разумности
послания - это обращение внимания ученого на необычность участков ДНК и
легкий алгоритм шифрования текста. Предполагается, что текст будет введен
именно в разумный вид, то есть в человека. Хотя им может быть любой из других миллионов видов.
Итак, необычность участков ДНК в виде каких-то искусственных построений
последовательности ДНК. Можно подобрать такую последовательность из 15-20 нуклеотидов, что она будет в полном виде встречаться в одном экземпляре на
весь геном, то есть оригинальных участков очень много, но это не будут
признаком метки текста, поскольку никак не обратит на себя внимание. Метка разумного текста должне его сразу выделить из массива ДНК. Для подтверждения этого можно рассчитать вероятность появления этого необычного участка.
Но, скорее всего теорию информации применять будет не нужно,так как вид метки
будет настолько необычен, что случайными событиями объяснить его образование
не возможно. Также он не должен быть естественного происхождения, то есть не должно быть биологического процесса, который формирует, использует или
сохраняет какие-то структуры ДНК, которые решено сделать меткой разумного текста. Я делаю одновременно две вещи - это разрабатываю способ вложения послания в ДНК и способ поиска такого послания. Конечно, логику работы высшей цивилизации предположить трудно и поэтому могут быть сложности с нахождением
меток текста и большая случайность этого события.
Далее будут показаны некоторые метки текста, которые я бы применил при разработке послания от нашей цивилизации той, что придет после нас.

 Кодоны в ДНК и разумность последовательности. 2013.

 В ДНК, как известно, имеется 64 кодона по 3 нуклеотида. То есть, можно закодировать каких-то 64 знака, присвоив каждому кодону букву или знак. Количество возможных кодонов слишком избыточно для кодирования какого-то
языка. Приведу короткий пример о количество слов в простом языке.
Я принимаю следующие условия.
1. Чередование согласных и гласных.
2. Букв в алфавите 21.
3. Согласных 14 , гласных 7.
Пусть слова в языке будут только по 5 букв с чередованием:
сгсгс, что составит 14*7*14*7*14=134456, гсгсг, что составит
7*14*7*14*7=67228.
Итого 201684 слов в этом условном языке.
Таким образом, только для этих условий, словарь языка огромен. Поэтому, если каждой букве языка присвоить один кодон, то хватит около 20 кодонов или
меньше. Если перейти на биологический принцип подобия, то, конечно, лучше
всего количество букв в языке принять равным числу аминокислот в белках.
То есть , по принципу вырожденности кода, один знак может иметь несколько кодонов. Если транслировать такую ДНК, то полученный текст ни чем не будет отличаться от других белковых транслятов и определить, что здесь написан
какой-то текст-послание будет не возможно.
Поэтому главным признаком разумности последовательности ДНК, я думаю, будет наличие в ней сниженного количества использованных кодонов. То есть, будет использовано 20 кодонов из 64. Этот принцип разумности я предлагаю
использовать для записи в ДНК каких-то текстов или для поиска посланий.
Известна общая статистика числа разных кодонов для человека и других
организмов. Конечно, на каких-то участках ДНК, особенно небольших, процент кодонов может отличаться от среднего. Но не настолько, чтобы отсутствовали совсем десятки кодонов. Для анализа числа разных кодонов можно использовать
следующие программы. Программа CODONS14, расположена по адресу:
ftp://ftp ebi. ac. uk/pub/software/dos/.
Особенностью этой программы, что она выдает результат в виде листа всей последовательности ДНК, кодоны которой разделены пробелами. Пример показан в приложении 10. Для примера дана только верхушка гена PUSHKIN, в котором
зашифровано стихотворение Пушкина "Осень". Такое разделение кодонов позволяет проводить удаление или замены ВСЕХ одинаковых кодонов, не затрагивая
остальных. То есть разбивка последовательности на кодоны очень нужное
свойство этой программы. Програма выводит абсолютное число разных кодонов в
участке ДНК. Количество кодонов в гене PUSHKIN, который я создал,
представлено в приложении 10. Видно, что при кодировании стиха "Осень" в этом гене я использовал только 35 кодонов, приспособив кодоны для русского
алфавита. Остальные кодоны не использованы. Таким образом, если кто-то через много лет найдет в ДНК этот ген и определит в нем число разных кодонов, то
сразу будет ясно, что это не природное, а искусственное образование. Еще один признак разумности текста – это большое количество разделителей слов в языке.
В этом примере это кодон разделитель AAA, которого содержится больше, чем
всех остальных знаков. Ген PUSHKIN я создал для примера. Количество использованных кодонов легко можно было уменьшить до 20. При этом текст стиха "Осень" также можно было понять.
Также можно использовать форму для поиска редких кодонов, по адресу: http://molbiol. ru/scripts/01_11. html,
но в ней определяются только промилле разных кодонов, а лучше сразу иметь их абсолютное число.
Можно использовать форму с сайта:
http://www. kazusa. or. jp/codon/countcodon. html. Программа COUNTCODON.
В окно формы надо вставить последовательность ДНК и отослать. Через несколько минут всплывет окно с результатом. В таблице будут указаны промилле и
абсолютное число кодонов в участке ДНК.
Для кодировки текста в геном можно использовать два основных способа - кодирование непосредственно в цепь ДНК и кодирование через трансляцию,
подобно рибосоме.
Конечно, возможны и другие кодировки, все зависит от создателя. Для примера,
я мог бы привести кодирование с четырехбуквенным кодом, когда каждой букве текста будет соответствовать четыре рядом расположенных нуклеотида цепи ДНК.
Но этот код никак не связан с биологией клетки и годен скорее для шифрования
в ДНК текстов, которые никто не должен прочитать, чем для легко читаемого послания. То есть мало вероятности, что 4-буквенный код кто-то вообще будет искать и расшифрует.
Первый способ кодирования я осуществил через понятие "единицы", оно описано далее в разделе "ДНК говорит". При втором способе кодирование сложнее, но оно как-то связано с нормальной биологией клетки, что может быть важно для
сохранения неизменной информации. Если тот человек, который кодирует в ДНК
для последующей трансляции ее, как белок, будет и извлекать эту информацию,
то каждому кодону ДНК можно присвоить любую букву. Если же предполагается сделать послание на длительное время или для поиска посланий из прошлого,
надо процесс кодирования сильно упростить для последующей расшифровки.
Для этого надо сократить количество букв в алфавите хотя бы до 20 и сократить количество используемых кодонов. Некоторые кодоны не надо использовать,
если их промилле мало. Надо использовать для одной буквы тот кодон, которого
по статистике больше,а остальные кодоны при вырожденном коде не использовать.
Из 64 кодонов понадобятся всего 20, столько же, сколько и аминокислот, или немного больше. Надо для кодирования не использовать кодоны терминаторы,
иначе невозможно будет распознать разумный текст. Транслят при большом количестве терминаторов будет выглядеть, как некодирующий участок. При их многочисленности он не обратит на себя никакого внимания.
Надо для разбивки текста белка использовать знак пробела между словами. Примерная статистика такова, что из 300 знаков в обычном тексте 50 знаков пробелы. Это составит 167 промилле, что почти в 10 раз выше, чем для встречаемости разных аминокислот в белке.
Для пробела можно взять кодон TTT в ДНК, это фенилаланин, и AAA - это лизин,
а другие их кодоны не привязывать ни к какому знаку.
При расшифровке текста якобы белка, который получится после трансляции, как
на рибосоме, сначала разбить текст на слова с помощью амнокислоты, соответствующей пробелу. Затем расшифровывать слова. При создании гена
PUSHKIN, конечно, надо было лизину выделить только кодон AAA, а кодон AAG
не присваивать ни какому знаку. В любом случае, пример правильного и не очень правильного присвоения кодонам значения букв, также имеет показательное значение.
При этом этот большой белок разбить на отдельные слова по лизину правильно не получится. Пример трансляции в приложении 11. Чтобы закодированный текст правильно выглядел надо присваивать значения букв с учетов вырожденности
кода. Если аминокислота кодируется несколькими кодонами, то брать только один
кодон, а остальные не исползовать. Также не использовать кодоны-терминаторы.
При этом закодированный текст будет выглядеть,как очень большой белок и сразу обратит на себя внимание. Надо, чтобы сам этот текст содержал в этих словах
направление для облегчения расшифровки. При этом можно также, как для кода
ДНК, то есть первого способа кодирования провести ввод чисел, химических
элементов, констант физики , понятий времени, массы, размеров, и так далее. И обязательно словаря. В этом случае этот текст-послание кто-то расшифрует.
Конечно, бесполезно сразу зашифровать в ДНК какие-то тексты вроде
стихотворения Пушкина, расшифровать их без ввода в послание невозможно.
Транслят текста ничем не отличается от какого-то белка, а их десятки тысяч.
Конечно, можно еще сопоставить саму ДНК и транслят. Если выполнять правило об сокращении количества используемых кодонов до 20, или до 25 (точная цифра зависит от целей), то ДНК со сниженным количеством различных используемых
кодонов - это признак разумности текста или его искусственности. ДНК надо транслировать по белковому коду и в этой же ДНК в экзонах определить процент разных кодонов, начиная от кодона инициации - метионина. Если окажется, что какие-то кодоны не встречаются в этом участке ДНК, а какие-то выше среднего
для данной аминокислоты, то можно предположить, что этот участок
искусственного происхождения. Частоты кодонов в ДНК для человека,
цитировано с сайта:
http://www. kazusa. or. jp/codon
Значения в промилле, то есть на 1000 кодонов. Среднее значение без
терминаторов должно быть равно 996, 66 : 61 = 16, 34.Данные о количестве
кодонов приведены в приложении 12.
Если же в кодирующих участках промилле кодонов будет сильно отличаться или,
что еще лучше, более половины кодонов будет отсутствовать, то это важный
признак разумности текста - его отличие от средней статистики. Также, если какая-то одна аминокислота будет превышать средний уровень в несколько раз,то это возможный знак логического раздела слов в тексте, что также признак
разумности текста.
Если после перевода текста в последовательность нуклеотидов, эту последовательность транслировать по обычному коду аминокислот, то возможны 6 последовательностей с разными сдвигами рамки для прямой и обратной цепи.
Буквы обозначения аминокислот и буквы алфавита, слова на котором записаны в
ДНК, не совпадают. При трансляции по биологическому коду получается как бы белок, но прочитать его как слова не возможно. Поэтому при переводе текста,
например стиха Пушкина в ДНК, не надо использовать кодоны терминаторов. Иначе признак разумности текста при его просмотре будет утрачен. Если кодоны терминаторы не использовать, то разумный текст выглядит как очень большой
белок. Иначе говоря, большой белок с непонятной функцией - это и есть
разумный текст. Чтобы его было легче расшифровать как текст, надо буквы алфавита по возможности кодировать с учетом вырожденности кода, то есть несколько кодонов на одну букву. Далее при расшифровке вначале надо найти
знак раздела, В моем примере - это знак f - фенилаланин, кодон пробела - AAA,
при трансляции в обратном направлении. и далее работать со словами,
различными участками белка размером от 1 до 20 аминокислот. Длиннее 20 букв слова в языке человека очень редки.
В приложении приводится пример стиха "Осень" после биологической трансляции
на рибосоме по обратной последовательности со сдвигом -1, отражая код в ДНК,
то есть текст стиха выглядит как большой белок, которые можно
перетранслировать снова в текст стиха. При остальных 5 вариантах трансляции текст из аминокислот имеет очень много терминаторов, и поэтому не производит признака разумности. Хотя, именно в рамке +1, трансляции вперед, и
закодирован текст стиха. В этом случае - это демонстрация ошибки при выборе кодонов.
Данные тексты лишь пример, ничто не может быть однозначно принято, как
какой-то вселенский принцип. Возможны любые изменения, возможны любые
кодировки. Все зависит от автора и конкретной цели. Моя задача лишь обратить внимание читателя на возможные проблемы и их решения.