ДНК говорит (Михаил Курносов) / Проза.ру

ДНК ГОВОРИТ.

ГЛАВЫ ИЗ КНИГИ "НОВАЯ ГЕНЕТИКА И ДНК-ИНФОРМАТИКА".
Тексты были взяты с сайта автора - Курносова М.Н.
Neogermetic.narod.ru.

ДНК ГОВОРИТ. СПОСОБЫ КОДИРОВАНИЯ. ЧАСТЬ 1. 9 МАЯ 2010 Г.

Для ввода информации в ДНК для посланий в будущее, а также для
попыток найти возможные послания из прошлого, надо учесть, что
разные цивилизации имеют разную логику мышления и как свести эти
различные мыслительные особенности к тому, чтобы их можно было
легко понять другим разумным организмам. Это самый важный вопрос.
Я не лингвист, а молекулярщик, поэтому взгляд у меня на эти
проблемы представляет собственную идею и разработку.
И как обычно на стыке разных наук можно найти что-то свежее.
В основе моей идеи об нахождении общей логики или общих
логических элементов между цивилизациями положена идея об общности
понятия числовой единицы.
Любой комплекс предметов, любое множество всегда состоит из
отдельных единиц. Через понятие единицы и вводится все
остальное – цифры, логические действия, физические
константы, а далее алфавит
и словарь,в котором предметы и их взаимодействие в понятиях одной
цивилизации станут понятны другой цивилизации без переводчика,
знающего сразу два языка,разделенных миллионами лет и
миллионами километров.
Может быть это можно применить к радиоволнам во Вселенной,
но мне ближе предположить, что какие-то информационные послания
находятся в биологических молекулах - ДНК,и представлены
генетическим кодом,
практически 64 комбинации 4 нуклеотидов по три достаточны ,
чтобы ввести любой язык и описать любое множество предметов и
явлений во Вселенной, так же как обычным человеческим языком.
Нужно создать информационный модуль для связи языков разных
цивилизаций.
Прежде всего его как-то выделить в геноме, предположим для
выделения этого модуля будет использована длинная
последовательность поли-А, или другая странная или аномальная
последовательность. Далее ввести знаки единицы и знак раздела
единиц.
Пусть знак "единицы" - TTT, а знак "раздела" между знаками или
законченными уравнениями или словами и предложениями - AAA.
Далее вводится простая арифметическая логика - знак "есть" или
знак "равно" - CCC. И далее вводятся цифры, предположим для
десятичной системы исчисления, хотя цифровая система может быть
как двоичной, так и многочисленной, в этом случае наша логика
говорит, что чем проще , тем реальнее, что это будет
использовано.
Вводим арифметические знаки - сложение - CTT, вычитание - CCT,
умножение - CGG , деление - CCG. Показана система исчисления -
десятичная.
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA

В переводе на человечий язык этот модуль означает:TTT - это
единица,TTT есть или равно TTT -- введена единица и знак
равно, TTT плюс (и) TTT - есть цифра два - 2 или TTA --
введена цифра 2 и знак "+",
далее вводится цифра три - 3 или TAA, цифра - 4 или TCA,
цифра - 5 или TGA, цифра – 6 или TAC,
цифра - 7 или TCC, цифра - 8 или TTC, цифра - 9 или TGC,
далее вводится цифра - 0 или TAT и знак минус - CCT, можно
продублировать действия,например 1-1=0, 5-5=0, далее вводится
знак умножения - CGG на примере 2 умножить на 2 = 4, и 4
умножить на 2 = 8,
и деления - CCG на примере 9 : 3 =3 и 8 : 2 = 4.
Далее показана система исчисления - десятичная,
на примере 9 + 1 = 10, 10 умножить на 10 = 100.
Этот информационный модуль вводит единицу, цифры , логические
арифметические действия и систему исчисления.
Все настолько просто, что эти странные по виду
последовательность нуклеотидов легко расшифруется при
любой логике разумных существ.

ДНК ГОВОРИТ. СПОСОБЫ КОДИРОВАНИЯ. ЧАСТЬ 2. 19 МАЯ 2010 Г.

Химический модуль.

Следующий информационный модуль использует кодировки из
цифрового модуля.Производится ввод таблицы Менделеева,
химические элементы, их положение в таблице одинаково для
любых цивилизаций. Эта логика основана на том, что номер
химического элемента - это количество протонов в ядре.

TTTAAAAAAAAAAAAAAAAAAAAATTAAAAAAA
TAAAAATCAAAATGAAAATACAAATCCAAATTCAAATGCAAATTTTATAAAAAA
TCCAAATTATTCAAAAAA
TGAAAATCATACAAAAAA
TAAAAATACTCAAAA
TAAAAATCCTCAAAA
TCCTGAAAATCCTACAAATCCTCCAAATCCTGCAAAAAA
TGAAAATGCTACAAA
TGCTCCAAATGCTTCAAATGCTGCAAA
TTTTATTATAAATTTTATTTTAAA

Этот информационный модуль перечисляет номера химических
элементов от 1 до 101 элемента с периодичностью, равной общему
количеству электронных слоев в атоме.
В местах их повышения стоит двойной раздел - AAAAAA.
Участок поли-A служит для выделения модуля в геноме, он может
быть любым,лишь бы выглядел искусственно.
То, что это именно периодическая таблица элементов говорит
двойной раздел между периодами.
При ссылке на этот модуль каждое число логически связано с
конкретным химическим элементом,
а арифметические знаки с их взаимодействиями.
Например, запись TTC+TTC - означает молекулярный кислород ,
а запись TTT+TTC+TTT - означает вода.
Полная запись соответственно - AAATTCCTTTTCAAA и
AAATTTCTTTTCCTTTTTAAA.

ДНК ГОВОРИТ, СПОСОБЫ КОДИРОВАНИЯ. ЧАСТЬ 3. 29 МАЯ 2010 Г.

Темпоральный модуль.

Модуль использует данные кодировки из числового и химического
модулей.

TACCCCTACAAATACCCCTACAAA
TACTACTACTACTACTACTACTACTACTACTACTACTACTACTACTACAAAGGGAAA
TACTACTACTACTACTACTACTACAAAGGGAAA
TACTACTACTACAAAGGGAAA
TACTACAAAGGGAAA
TACAAAGGGAAA
GGGCCCTTTTTCTATTCCTATTTTTTATTCTATTATTATTATAAAAAAAAA

6=1, 6=2, 6=3, 6=4, 6=5, 6=6, 6=7, 6=8 - перечисляются
все изотопы углерода по порядку массового числа,
6=6, 6=6 - показано, что описывается изотоп 6 углерода
по порядку, это C14. Количество шестого изотопа - 16,
затем 8, 4, 2, 1 - показано уменьшение количества изотопа
в виде полураспада, разделено GGG - по логике это время.
Этот модуль вводит понятие времени.
Для этого используется время полураспада в данном случае изотопа
углерода C14, вначале перечисляются все изотопы по массовому
числу, у углерода известно 8 изотопов,показано , что именно
шестой по порядку изотоп с массовым числом 14 уменьшает свое
количество в геометрической пропорции, соответствующей полураспаду,
то есть уменьшение количества шестого номера в 2 раза.
Промежуток между ними обозначен как GGG, это по логике и есть
время.
Далее время приведено к одной секунде для человеческой цивилизации.
Введено GGG - это одна секунда, эталон времени для данной
кодировки и цивилизации. GGG = 180701280000.
Время полураспада, хотя величина и статистическая, но очень
стабильный отметчик времени.
Аналогично можно ввести время через нестабильные изотопы
других элементов.

Литература для этой главы.

1. Широков Ю. М. , Юдин Н. П. Ядерная физика. Наука. 1972.

ДНК ГОВОРИТ. СПОСОБЫ КОДИРОВАНИЯ. ЧАСТЬ 4. 12 июня 2010 Г.

Человек говорит словами, которые и описывает все
многообразие окружающего мира.
Написанные слова отражают речь, но , конечно, написанные
слова содержат в себе меньше информации, чем произнесенные
речью. Речь несет значительно больше информации для человека,
чем написанные слова.
Это интонация,возраст, пол и другие индивидуальные особенности.
Алфавит современного языка можно сделать и из 50-100 букв,
все зависит от установок и образования, обучения.
И все эти буквы слуховой анализатор человека легко бы различил.
Но необходимо ли это? Знать какие особенности языка могут
быть у другой цивилизации вряд ли возможно, поэтому чем проще,тем
лучше.
Разработанная здесь кодировка букв слов представляет собой
упрощенный язык.
Уменьшено количество букв,схожие буквы по звучанию удалены.
В результате Язык стал более простым, но по звучанию похож
на обычный язык человека.
Речь распознается по слогам, словам и частично интуитивно,
то есть слуховой анализатор человека может понять сказанное,
даже не расслышав часть сказанного.
В языке для ДНК я , напротив, применил разбивку слов на
отдельные элементы-буквы, так как этот язык искусственный.
Также этот язык русифицирован, это тоже искусственно, так как
кодонами можно обозначить буквы любого языка.
Можно сделать переход от модуля времени к буквам, то есть сделать
их похожими на речь и ввести как тональный звук какой-то частоты
звука. Если с гласными звуками это и можно сделать с упрощением,
то согласные звуки ввести через частоту и длительность сложно,
так как звуки слагаются из нескольких частот.
Поэтому буквы текста я обозначил кодонами без привязки к реальной
речи.
Нужно будет после ввода букв алфавита сделать толковый словарь,
в котором начиная с арифметики, затем химии и физики будет
переход к биологии и социологии.
Этот словарь, который будет содержать несколько тысяч слов,
предполагается также записать в ДНК.
И только после этого можно записать в ДНК уже значимую
для длительного сохранения информацию. Модуль букв.

Что означает GTA есть GTA, подразумевается, что это код
буквы, производится перекодирование с 4-буквенного языка,
на 31-буквенный язык. Как звучат эти буквы неважно для
кодирования информации, надо только при этом создать еще
толковый словарь, в котором термины или слова вводятся логически.

Далее для русского языка кодоны означают:
ACA - А, AAG - Б, AAT - В, AAC - Г, GAA - Д, GAG - Е,
GAT - З, GAC - Ж,
TAG - И, TAT - К, CAA - М, CAG - Н, CAT - О, CAC - П,
AGA - Р, AGG - С,
AGT - Т, AGC - У, GGA - Ф, GGC - Ц, GGT - Ч, TGG - Щ,
TGT - Ъ, TGC - Ы,
CGA - Ь, CGT - Ю, CGC - Я, ATA - Х, ATG - Ш, ATT - Л,
ATC – Э.

Во все модули также надо ввести последовательность - участок
для Праймера для быстрого нахождения модуля в геноме
организма методом ПСР.
В данном случае взят участок из 26 нуклеотидов -
ATATAGCAGACAGCATAGGCATAATA, который при синтезе модуля
располагается на некотором расстоянии от информационного участка.
Участок этот написан может слишком длинным, но его можно
будет зацепить с разных концов или посередине.
Вообще можно еще подумать каким сделать сигнальный участок.

Модуль словаря.
GTGAAAAATCATGAAACAAAACCCAAATTTCTTTTCCTTTTTAAAAAA
GTGAAATATTAGAGGATTCATAGACATGAAAAACCCAAATTCCTTTTCAAAAAA
GTGAAAGAGGAATAGCAGTAGGGCACAAAACCCAAATTTAAAAAA
GTGAAAAGAACAGATGAAGAGATTAAACCCAAAAAAAAAAAA
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .
. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .

Это означает GTG есть GTG, означает слово.
Затем вводятся слова, например слово ВОДА означает
TTTCTTTTCCTTTTT, логика этого участка взята из
химического модуля.
Слово КИСЛОРОД означает TTCCTTTTC.
Слово ЕДИНИЦА означает TTT, взято из числового модуля.
Слово РАЗДЕЛ означает AAA.
Таким образом набирается словарный запас,то есть слово,
выраженное в кодонах, его объяснение с помощью математической,
физической или химической логики, а затем оперируя для
объяснения слова комбинацией уже известных слов.
В модуле словаря применен участок для праймера -
ATATCGTCTGTCGTATCCGTATTA.
Осталось еще несколько кодонов без применения, я думаю они будут
использованы при вводе каких-то логических понятий.

Ну вот и все.
Основа общения между цивилизациями планеты Земля или других
галактик заложена.
Дальше надо сделать защиту языка от мутагенеза и
использовать кодоны с наименьшим значением мутагенеза.
Также возможна привязка букв или логических кодонов к какому-то
более глубокому смыслу, например количество букв уменьшить до 20
и каждую букву можно связать с какой-то аминокислотой.
Также надо нарабатывать словарь и применять его для сообщения
какой-то важной информации. То есть работы впереди еще много.
В данных статьях приведен только упрощенный вариант языка, он не
оптимизирован и кодоны взяты произвольно.
В следующей части будет произведен ввод биологической части
словаря.
Как следствие из этой разработки можно использовать повторы или
какие-то странные участки для поиска вложений в ДНК, то есть на
основании этого попробывать найти что-то в геномах разных
организмов.
Логику создания этого языка можно попробывать использовать для
поиска разумных текстов в ДНК, возможно какая-то древняя
цивилизация сообщит нам что-то важное.
Искать для начала надо логические модули ввода в язык,
записанный на ДНК.

Литература для данной главы.

1. Механизмы деятельности мозга человека. Часть 1.
Нейрофизиология человека.
Ред. Бехтерева Н. П. . Л. Наука. 1988. Глава 9.
Психоакустические аспекты изучения речи.
Руководство по физиологии.
2. Слуховая система. Ред. Альтман Я. А. . Л. Наука. 1990.
Руководство по физиологии.

ДНК ГОВОРИТ. СПОСОБЫ КОДИРОВАНИЯ.

ВВОД БИОЛОГИЧЕСКОГО СЛОВАРЯ. 12 ИЮНЯ 2010.

Для биологического словаря надо ввести основные понятия
живой материи.
Часть слов можно ввести через основную молекулу жизни - ДНК.

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAATATCGTCTGTCGTATCCGTATTAAAA
AAAAAAAAAAAA
AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAA
GTGAAA GAACAGTAT AAACCCAAA AGTCAGTCAGTCAGTC AAAAAA

Слово ДНК есть AGTCAGTCAGTCAGTC.
Слово ДНК можно обозначить любой особенной последовательностью,
что при поиске на геноме даст 1-2 копии на весь геном или
отсутствие в геноме.
Если они будут рядом, то сразу обратят внимание, что участок
есть важный маркер или ввод какой-то логики.

GTGAAA ACAGAAGAGCAGTAGCAG AAACCCAAA AAAAAAAAAA AAAAAA.
Слово аденин есть AAAAAAAAAA.

GTGAAA AACAGCACACAGTAGCAG AAACCCAAA GGGGGGGGGG AAAAAA
Слово гуанин есть GGGGGGGGGG.

GTGAAA GGCTAGAGTCATGATTAGCAG AAACCCAAA CCCCCCCCCC AAAAAA
Слово цитозин есть CCCCCCCCCC.

GTGAAA AGTTAGCAATAGCAG AAACCCAAA TTTTTTTTTT AAAAAA
Слово тимин есть TTTTTTTTTT.

GTGAAA TATCATGAA AAACCCAAA TTTCCCTTT AAATCACCCTAAAAA
TAACCCTACTCAAAA TACTCACCCTTATATAAA AAAAAA
Слово код - это 1 есть 1, 4 есть 3, 3 есть 64, 64 есть 20.

Введен код жизни через единицу, количество нуклеотидов,
кодонов и аминокислот через цифровую логику.
GTGAAA TATCATGAACATCAG AAACCCAAA TACTCA AAAAAA
Слово кодон равно 64.

GTGAAA ACACAATAGCAGCATTATTAGAGGATTCATAGTACA AAACCCAAA
TTATAT AAAAAA
Слово аминокислота равно 20.

GTGAAA AAGGAGATTCATTAT AAACCCAAA
ACACAATAGCAGCATTATTAGAGGATTCATAGTACA
AAACTTAAA ACACAATAGCAGCATTATTAGAGGATTCATAGTACA AAAAAA
Слово белок есть аминокислота плюс аминокислота.

GTGAAA GACTAGGATCAGCGA GAACAGTAT AAACTTAAA
AAGGAGATTCATTAT AAAAAA
Слово жизнь есть ДНК плюс белок.

AAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAAA
AAAAAAAAAAAAAAAA
И так далее применяются разные численные и химические
параметры
молекул жизни для ввода слов в биологический словарь.

ДНК ГОВОРИТ. СПОСОБЫ КОДИРОВАНИЯ. ЧАСТЬ 5. 28 июня 2010 Г.

Введение графических изображений с помощью ДНК.

При введении словаря или каких-то понятий можно использовать
логические построения, а можно использовать графические
конструкции.
То есть последовательность нуклеотидов разложить по
горизонтали и по вертикали.
Это идея приходит в голову почти каждому, кто просматривал
секвенс участков генома.
При просмотре последовательности нуклеотидов в любом текстовом
редакторе при движении вниз или вверх строчек видны как бы
меняющиеся картинки, которые образуют последовательность
нуклеотидов.
Особенно интересно, когда видны повторы нуклеотидов.
В это случае картинка секвенса выглядит как кино.
Я несколько раз пробовал выводить последовательность
нуклеотидов
внутренним просмотрщиком Windows Commander - клавиша F3,
с вариациями длины строчки, и затем прокручивать текст по
вертикали. Изменить длину строки можно, изменив в настройках
этого просмотрщика длину строчки
через options/configure/text characters per line.
Иногда можно заметить какие-то картинки, но это только
игра воображения, зрительный анализатор человека может видеть
картинку, даже если ее нет.
Хотя просмотр всего генома имеет очень большие затраты
времени,
но он может указать на интересные повторы или другие участки.
В начале надо закачать из генома человека, какой-то файл в
формате FASTA,затем открыть его блокнотом или другим
просмотрщиком.
После этого удерживать клавишу направления вниз или назад.
Надо сесть на расстояние около метра от монитора и расслабить
глаза.
Теперь понятно, что всякие образы , которые тут возникнут это
не какое-то послание, а просто игра воображения.То есть искать
какое-то разумное послание в этих графических картинках вряд ли
имеет смысл.
Весь этот поиск графики - это шаманство и колдовство, и к науке
мало имеет отношения.
Если длина строчки изменится хотя бы на один нуклеотид, то
рисунки сразу изменятся.
То есть можно увидеть то , чего нет или не увидеть, если рисунок
действительно был. Но реальные повторы генома при этом хорошо
видны и так можно обнаружить повтор, которого нет даже в такой
базе, как для REPEAT MASKER.
Примеры таких повторов приведены в конце книги.
Использование графики вместо логики для ввода понятий в
словарь требует в десятки или сотни раз большего количества
нуклеотидов. Попробуем ввести слово квадрат и треугольник,
как геометрический термины. С помощью этой графики
можно легко ввести только линейные структуры.
При этом нужно небольшое число пикселей.
Так для квадрата 20 на 20 единиц нужно 70 на 22 нуклеотида или
1540.
Для треугольника равностороннего со стороной 16 единиц надо
70 на 18 нуклеотидов или 1360.
Круг , эллипс для хорошей картинки потребуют более чем в 10 раз
большего количества нуклеотидов или единиц изображения,
или пикселей.
Если рассмотреть режим VGA компьютерного монитора 640 на
480 пикселей , при котором удовлетворительно видна
нелинейная графика, то это потребует 307200 нуклеотидов,
что очень много для введения какого-то термина или понятия.
Поэтому , я думаю, что использование графики с помощью
нуклеотидных цепей вряд ли будет использоваться в
генетических посланиях, или только в редком случае,
так как этот способ требует очень длинных цепей для нелинейной
графики.
Также если этот участок ДНК специально не помечен, найти его
практически невозможно.

Модуль введения графики.

Это выражение означает CTC есть CTC - кодон обозначения графики,
CTC - размер графического модуля - 70 на 70 нуклеотидов.
Вначале идет участок для праймера,
а в самом модуле расположен квадрат 20 на 20 нуклеотидов.

CTCCCCCTCAAACTCAAATCCTATCGGTCCTATAAACTCAAATTTTACCTTTTT
TACCTTTTTTACAAAA
Это выражение означает CTC есть CTC - кодон обозначения графики,
CTC - размер графического модуля - 70 на 70 нуклеотидов.
В самом модуле расположена структура 16 + 16 + 16 нуклеотидов,
что означает равносторонний треугольник.
Эти повторы оригинальны, что сразу вызовет мысль о графике,
и кодон CTC будет связан с графикой.

Эти фасты с псевдографикой набрал на компьютере
автор - Курносов Михаил,это чисто искусственные образования.
Длина строчки должна быть 70 нуклеотидов.

ДНК ГОВОРИТ. СПОСОБЫ КОДИРОВАНИЯ. ЧАСТЬ 6.

ВИЗУАЛЬНО-ОСОБЫЕ, МАГИЧЕСКИЕ УЧАСТКИ ГЕНОМА. 12 НОЯБРЯ 2011.

Информация в ДНК должна быть легко обнаружена.
Это один из основных принципов. Можно закодировать что угодно
так, что вложенный текст не будет выделяться среди остального
массива. Но если это ПоСлАнИе, то зашифрованный текст
должен быть помечен текстом, который сразу бросается в глаза
из-за своей оригинальности.
Если просто прокручивать секвенированную ДНК на дисплее
монитора, то оригинальные куски ДНК очень хорошо видны
на общем фоне.
Лучше всего для метки нужного массива закодированных нуклеотидов
использовать короткие повторы, размером модуля от 2 до 10
нуклеотидов и общим размером этих повторяющихся модулей от
нескольких десятков до нескольких сотен нуклеотидов.
Процесс поиска и пометки участков, годных для предполагаемой
дешифровки может быть довольно длительным,
так как неизвестны маркерные участки.
Если на дисплее монитора видно на одной странице текста
около 7500 нуклеотидов, а надо просмотреть 1500 мегабайт
текста при трате на одну страницу 2 секунды,
то это займет времени около 110 часов. Текст лучше
растянуть по горизонтали монитора выбрав в просмотрщике
Windsows Commander опции ширина дисплея - binary и
указать размер строчки , например 180 знаков,
текст просматривать в опции - binary.
Для удобства поиска надо сделать замены блоков повторов
на хорошо видимые участки.
Искать по сплошному тексту , состоящему из CGTA , неудобно.
Например,с помощью редактора WORD сделать замену блока
CCCATCCCAT на блок __________ или десять пробелов,
выбрав опцию - заменить все.
Также облегчает визуальный поиск обработка текста
программой типа RepeatMasker ,
которая выделяет повторы буквами нижнего регистра.
Но она выделеляет также большие повторы типа LINE
или другие, которые вряд ли нужны для маркировки разумного
текста.
Искать возможные метки разумного текста с помощью
программного поиска в нем каких-то особых отличий может
быть неудачным, лучше визуально просмотреть
текст нуклеотидов.
То есть просмотреть всю хромосому от начала до конца.
У разных организмов количество особых участков значительно
различаются.
Я произвел подсчет ярких участков у человека и данио.
При визуальном просмотре хромосомы 1 человека с начала
хромосомы просмотрено 2500000 нуклеотидов.
На этой длине обнаружено 25 участков, которые сразу
бросаются в глаза своей необычностью. Они приведены
в приложениях к статье и расположены в конце книги.
У данио просмотрено в 1 хромосоме с ее начала
1000000 нуклеотидов обнаружено 33 участка.
Визуально у данио очень много мелких однообразных повторов -
от 1 до 5 на 1 страницу текста, но эти участки мало
подходят на роль особых маркерных участков. Приложение 7.
При прогоне последовательности, которые я привел в этой
статье, через Repeatmasker, было показано, что эта программа
определяет лишь часть последовательностей,
которые можно определить при непосредственном просмотре
ДНК глазами.
То есть последовательность выглядит как повтор,
а программа не относит его к каким-то известным повторам ДНК.
Возможно, это не обычные повторы, а какая-то периодическая
доменная структура ДНК, связанная с белками или с РНК.
Так в приведеном мной примере периодических или
ярко-выделяющихся участков ДНК программа нашла, что
только 30 процентов от всех нуклеотидов составляют обычные
классические повторы.
Таким образом, это подтверждает мое заявление в этой статье,
что визуальный поиск повторов или помеченых оригинальными
повторами участков ДНК, может быть полезен для поиска.

Таким образом, визуальный способ просмотра текстов ДНК
может дать важную информацию или указать на неизвестные
повторы.
Это могут быть как простые повторы, так и повторяющиеся
домены в генах.

В литературе показано , что блоки повторов небольшой
длины участвуют в регуляции генов,
регуляторные участки эволюционируют независимо от
структурных генов и могут быть консервативны, не
изменяясь миллионы лет.
Цитата последнего предложения из "Молекулярные основы
геносистематики", изд. МГУ, 1980, стр. 230.

Поэтому надо всегда думать, что магические участки не
метки посланий, а регуляторные участки,
и оценивать сумму характеристик участка ДНК.
Надо надеяться на удачу в этой науке.
Хотя идея говорит, что это может быть, но
пока никто ничего не нашел от прошлых цивилизаций.
Пока моя роль в движении этой моей идеи поиска посланий в
геномах - это разработка методологии их поиска.
Для начала надо искать визуально оригинальные участки ,
которые могут играть роль метки, а затем смотреть ниже или
выше этого участка, для поиска текстов ввода в послание.
Например, это могут быть ряды с переменной периодичностью.
Например, ряд ATAATAAATAAAATAAAAATAAAAAAT или ряды с переменным
количеством одинаковых модулей ACCTTACCTTCCTTACCTTCCTTCCTTA и
тому подобное.
Всякие ряды нуклеотидов с переменной периодичностью могут
указывать на разумность его.

ДНК говорит. Способы кодирования. Часть 7.

Гены-маркеры. 12 декабря 2011.

Я думаю,сами гены можно использовать как маркеры для
пометки участков генома,содержащих текстовые послания.
При этом текст можно расположить выше или ниже гена,
в интергенных участках. Ген, при просмотре текста ДНК, сразу
проявится своей необычной магической структурой - повторами.
Таким образом, он обратит внимание человека, что рядом могут
быть какие-то значимые участки. В этих участках, рядом с
отличившимся структурой геном, и могут быть предполагаемые
разумные тексты.
Особые повторы в экзонах гена могут быть только в одном этом
месте генома.
Для примера просмотрена хромосома 1 у дрожжей.
При визуальном просмотре последовательности обратил внимание
на себя участок заметными повторами движущимися наклонно при
протяжке текста. Это оказался кодирующий участок гена.
Обнаружено всего 13 повторов размером каждого около 139 bp.
Этот пример - ген flo9 S. cerev.
Лектин-подобный белок-флоккулятор через клеточную стенку.
Повторы в белке - структурные и функциональные домены,
а для этого белка участвуют в обороте углекислоты.
Его расположение - хромосома 1, 24001-27969 участок.
Ген книзу на расстоянии 3599 bp- gdh3.
Ген кверху на расстоянии 1314 bp - yal063c-a.
Это размеры интергенов - участков между генами.
Конечно, в эти небольшие интергены вряд ли что-то можно
записать значимое,это только пример.
Если выбрать консервативный ген, то он сохранится
сотни миллионов лет и им можно метить участки с текстовой
разумной информацией.
Многократные копии этого текста позволят его восстановить
полностью, устранив точковые мутации.
Программа UGENE при наведении на участок мыши кажет повторы
разной длины, например здесь - 17, 25, 50, 95, 116 длиной в
комплементарной цепи,в кодирующей цепи кажет только ORF.
Таким образом, если особый магический ген - это маркер,
то рядом надо искать тексты в нескольких копиях.
Это также нужно и для записи информации в ДНК в настоящее
время, чтобы сделать послание в геноме какого-то организма на
миллионы лет вперед.
При сплошном просмотре может быть не видно четкой
периодичности,один участок надо просмотреть с разными длинами
строки от 50 до 80.
Для просмотра использовать фасту. Для расположенного ниже
примера длина строки должна быть более 70.

Последовательность цитирована с http://ncbi. nlm. nih. gov.
ttaaataatt
aaaatatagcagacagcataggcataataaaaaagta

ДНК ГОВОРИТ. СПОСОБЫ КОДИРОВАНИЯ. ЧАСТЬ 8.

СТРУКТУРА ДНК - ВОЗМОЖНЫЙ МАРКЕР ПОСЛАНИЙ. 9-10 МАЯ 2012 Г.

Цепи ДНК могут образовывать более сложные структуры или
структуры, отличные от обычной конформации ДНК - ее
B-структуры.
Вначале предполагалось, что таких структур будет не много в
геноме и эти аномальные структуры будут как бы указывать на
разумные для человека тексты или послания в ДНК.
Однако поиск таких аномальных структур показал, что они очень
сильно распространены в геноме.

Количество не-B-структур ДНК в геноме человека. Цитата из
статьи:
Nucleic Acids Research, 2011, Vol. 39, Database issue,
D383–D391
Non-B DB: a database of predicted non-B DNA-forming motifs
in mammalian genomes.
Regina Z. Cer, Kevin H. Bruce, Uma S. Mudunuri, Ming Yi,
Natalia Volfovsky, Brian T. Luke, Albino Bacolla, Jack R.
Collins and Robert M. Stephens.

G-Quadruplex Forming Repeat(4-цепочные структуры гуанина)374545
Z-DNA Motif (Z конформация) 294320
Direct Repeat (тандемные) 871045
Slipped Motif (2-цепочная ДНК и 1-спиральные петли) 347969
Inverted Repeat (инвертированные) 1044533
Cruciform Motif (крестовидные 2-цепочные мотивы) 197910
Mirror Repeat (зеркальные повторы) 1651723
Triplex Motif (трехцепочная ДНК) 179623
A-Phased Repeat (A структура) 1130731

Можно было предположить, что такое фундаментальное свойство
материи, как симметрия в физике и химии, может быть какой-то
меткой или указателем чего-то необычного в геноме.
Речь идет о зеркальных повторах. Пример такого повтора.
5-ATAGGGACTCTGGAGACT*TCAGAGGTCTCAGGGATA-3 ,
где * - точка зеркальной симметрии для оснований ДНК,
ось симметрии.
Пример показывает 100 процентную симметрию.
Речь идет именно об информационном уровне последовательности,
так как на химическом уровне полной зеркальности нет из-за
разницы положения к оси симметрии 5 и 3 гидроксилов
дезоксирибозы.
Теперь я могу сказать, что моя идея о информационной
значимости таких структур в ДНК, как меток для искусственно
записанной информации в ДНК, оказалась под вопросом из-за
очень большого количества таких структур в геноме.
Поэтому , если все-таки использовать эти структуры для
мечения записываемой информации в ДНК,
то они должны быть сильно отличны
от природных и быть исключительно оригинальными.
В то же время сами эти структуры имеют большое значение для
функционирования генов и эти участки связаны с местами их
регуляции, поэтому знание мест их расположения очень важно.
Я изучаю гены-гиганты уже давно, несколько лет.
Поэтому я сделал таблицу статистики мест расположения
не-B-структур ДНК в следующих генах -
DESC1, NEGR1, DOCK3, NRXN1,ROBO2.
Был использован онлайн-сервис определения этих участков -
HTTP://WWW. NONB. ABCC. NCIFCFR. GOV

Статистика не-B-структур ДНК в них показана ниже.
-----------------------------------------------------------
ПРИМЕРЫ КОЛИЧЕСТВА НЕ-B-СТРУКТУР В ДНК ГЕНОВ-ГИГАНТОВ
ЧЕЛОВЕКА.
ТАБЛИЦУ СОСТАВИЛ КУРНОСОВ М. Н. 10 МАЯ 2012Г.
НА ОСНОВЕ ОНЛАЙН-СЕРВИСА ОПРЕДЕЛЕНИЯ НЕ-В-СТРУКТУР ДНК.

ГЕН DISC1 ROBO2 DOCK3 NEGR1 NRNX1

РАЗМЕР ТПН 415 607 709 880 1108
G-Quadruplex Forming Repeat 47 34 80 25 51
Z-DNA Motif 40 63 35 89 113
Direct Repeat 115 190 165 262 316
Slipped Motif 41 75 63 107 121
Inverted Repeat 123 301 233 426 459
Cruciform Motif 21 59 55 89 104
Mirror Repeat 238 383 358 543 663
Triplex Motif 49 35 17 25 73
A-Phased Repeat 136 230 368 351 407
Примеры зеркальных повторов в гене NRXN1.
Повтор 1.
5-tagtaatttat tgctgtgaacatc attg aat aat atgcaaaacaagtgta ta
----------- ---- --- --
at ctatacttttccactact taa tgt gtta aactaaaacta tatttaatgat-3
-- --- ---- -----------
Концы - зеркала , середина только частично зеркальна.
Зеркальность 38 процентов.

Повтор 2.
5-gtgtgtgtgtgtgtgtgtgtgtg t gtgtgtgtgtgtgtgtgtgtgtg-3
Чередование любых 2 нуклеотидов с центральным спейсером,
зеркальность 100 процентов.

Повтор 6.
5-taaaaattct aaa ta t c at gtt tcttaaaaat-3
---------- -- -- ----------
Зеркальность 75 процентов

Повтор 29.
5-aaatatttat ttttaaaataaagcatgctg at ctg atta actcc
---------- -- ---- -
catat atta cata ta aaatgacaaagctgtga tatttataaat-3
- ---- -- -----------

В спейсере могут быть делеции, инсерции, точковые замены
относительно оси симметрии .
То есть для метки нужно учитывать возможный мутационный
процесс левой и правой частей зеркала.
А консервативные участки зеркал скорее всего функционально
значимы для клетки и они мало мутируют в ее поколениях.
Большинство определяемых зеркал скорее всего случайные
структуры, без информационной составляющей.
А 100 процентная симметрия редко встречается и только на
коротких повторах. Еще раз скажу, что зеркальность это
информационное свойство в последовательности, то есть
признак отношения высшего разума к этому образованию,
если оно не случайное сочетание нуклеотидов в цепи.
Нужно в метке продемонстрировать что-то оригинальное,
не возможное только обычными природными процессами.
Я предлагаю для начала такую конструкцию метки.
Зеркальность плюс арифметические ряды.
Также 100 процентная симметрия для большого участка в
450 нуклеотидов.

Пример искусственной метки,сделал Курносов М.

5-AGAAGAAAGAAAAGAAAAAGAAAAAAGAAAAAAAGAAAAAAAA
GAAAAAAAAAGAAAAAAAAAAG-3
5-TTTTTTTTTTCCCCCCCCCCAAAAAAAAAAGGGGGGGGGG-3
5-TTTTTCCCCCAAAAAGGGGGTTTTTCCCCCAAAAAGGGGG-3 *
5-GGGGGAAAAACCCCCTTTTTGGGGGAAAAACCCCCTTTTT-3
5-GGGGGGGGGGAAAAAAAAAACCCCCCCCCCTTTTTTTTTT-3
5-GAAAAAAAAAAGAAAAAAAAAGAAAAAAAAGAAAAAAAGAAAAAA
GAAAAAGAAAAGAAAGAAGA-3
В этой конструкции метки * - есть точка зеркальной
симметрии. Сколько я не смотрел последовательностей
ДНК, таких структур я не видел.
Дублирование частей метки позволит исключить влияние
мутаций на информацию.

ДНК ГОВОРИТ. ДОПОЛНЕНИЕ ОТ 26 АВГУСТА 2012. ЧАСТЬ 9.

Особенности живой ДНК, как носителя искусственной
текстовой информации,введенной извне. Размышления автора.

Предпринимаются попытки записать текст в не живую,
химическую ДНК, уже без его введения в клетку и
поддержания клеткой.
Так Джордж Черч и группа авторов, создали систему
кодирования информации в ДНК, которая не предполагает
использования клеток.
Специальное устройство располагает фрагменты химически
синтезированной ДНК длиной около 159
нуклеотидов на поверхности чипа. (1).
Я думаю, что какие бы ни были технически хранители
информации, все они имеют временный срок хранения
из-за различных спонтанных разрушений, например радиации.
Я считаю , что только в живых организмах можно сохранить
информацию в ДНК,пока существует жизнь в течение многих
миллионов лет.

В этом и состоит СМЫСЛ ЖИЗНИ, как космического явления.

За это время любые технические устройства в результате
коррозии, Химической модификации, радиации, температуры и
т. п. превратятся в пыль. Еще одно замечание.
Цивилизация в своем развитии накапливает в виде Информации
сначала гигабайты, затем, что характерно для сегодняшнего
времени – терабайты информации, через 10-20 лет - сотни и
тысячи терабайт. Вместить такое количество информации
нельзя в ДНК клетки.
В клетке, я думаю ,реально можно расположить без
существенного влияния на ее биологию 100-300 мегабайт
информации.
Если применить защиту информации в виде ее многократного
копирования, то и того меньше - 10-30 мегабайт.
Можно ожидать, что такое количество информации какой-то
организм и его клетки пронесут через миллионы лет.
Я думаю , в такое небольшое количество информации записывать
какие-то учебники или книги нет смысла,
в них можно записать только какую-то информацию глобального
значения. Например, места расположения разумной жизни во
Вселенной, места расположения на планете Земля хранилища
информации высокоразвитой цивилизации прошлого,
какие-то глобальные предупреждения для человечества в
опасностях развития науки или общества и так далее.
То есть по нашей логике послания в ДНК из прошлого должно
быть Небольшим и давать скорее всего направления
дальнейшего поиска или какие-то глобальные
предупреждения для цивилизаций будущего,
то есть для сегоднешнего человечества.

Можно человеческой цивилизации создать хранилище всей
информации человечества, возможно,
что на каких-то носителях информация
сохранится 10000-20000 лет.
И в какой-то особенный вид живого организма записать
координаты этого хранилища.
Это может быть послание человечества в будущее.
Или в каких-то особенных организмах на Земле , в их ДНК,
поискать по этой же логике координаты хранилища информации
из прошлого от какой-то высокоразвитой цивилизации.

Литература к данной главе.
1. http://dx. doi. org/10. 1126/science. 1226355
Science DOI: 10. 1126/science. 1226355
George M. Church, Yuan Gao, Sriram Kosuri
Next-Generation Digital Information Storage in DNA.

ДНК ГОВОРИТ НА ЯЗЫКЕ ЧЕЛОВЕКА.

КУРНОСОВ МИХАИЛ ПЕРЕВОДИТ ДНК В СЛОВА ТЕКСТА.
01 октября 2006.

Последовательность нуклеотидов в ДНК можно преобразовать в
музыку, о чем написано в разделе о музыке генов, а можно
преобразовать в псевдотекст, состоящий из гласных и
согласных букв, точек и пробелов.
Этот текст можно прочитать или озвучить специальными
программами.
Моя идея заключалась в том, что последовательность
нуклеотидов в ДНК превратить в обычный литературный текст,
а его затем прочитать на компьютере, используя программные
читалки текстовых файлов.
На самом деле речь человека гораздо более сложная звуковая
форма. Звуки гласных состоят не из чистого тона,
а из нескольких формант (наложения нескольких тонов),
гласные и согласные звуки влияют друг на друга,
давая особое звучание.
Слоги в слове (близкое понятие фонема) могут звучать
особо в зависимости от самого слова.
Литература по физиологии речи [15].
Если кратко, то помочь создать хороший алгоритм перевода ДНК
в слова, помогут лингвисты, знающие особенности языков, слов,
букв. Я же, как генетик,предлагаю здесь упрощенный алгоритм
этого перевода. После разбивки ДНК на слова,
возможно потребуется коррекция текста. Для этого надо
попробывать найти на слух слова,
похожие на какой-то настоящий или древний
язык , далее скорректировать кодировку звуков и дополнительно
корректировать код, на котором в ДНК записаны гипотетически
какие-то послания или тексты.
Таким образом, ДНК можно представить в виде слов речи.
Для примера,приведу методику для разбивки ДНК на русскую речь.
Конечно, можно использовать другой алфавит и текст, похожий,
например, на латинский или английский.
К тому же эти алфавиты лучше тем, что количество букв близко к
количеству аминокислот.
Английский алфавит - 26 букв, латинский - 24 буквы.
Пример алгоритма для преобразования текста ДНК.
1. Использование частотного анализа для русского текста.
Поскольку аминокислот 20, а букв в русском алфавите 33,
то буквы со сходным звучанием объединены,так как это
разделение искусственное, связанное с созданием алфавита.
Я подсчитал, что проценты букв, пробелов и знаков русского
алфавита в тексте составляют следующие значения:

а, я - 7,2 о - 7,8 е, э - 7,4 к - 2,4
у, ю - 3.1 и, ы, й - 8,4 н - 5,4 п - 1,9
л - 3,4 м - 3.0 ш, ж - 1,4 т - 4,6
р - 3,4 х, г - 2,3 б - 1,6
ч, щ - 1,2 ц, с, з - 5,8 пробел - 16,7
ф, в - 3,9 д - 2,9 остальные - 6.2

эта таблица приведена для примера.

2. Для составления алгоритма перехода от аминокислот к
буквам я разделил аминокислоты по их свойствам.
Обозначение аминокислоты какой-то буквой латинского алфавита
никак не связано со словами или речью, это просто обычно
первые буквы химического названия.
Для данного примера я разделил аминокислоты
на полярные и неполярные. Принимаю, что полярные
заряженные кислоты соответствуют гласным, а полярные
незаряженные - звонким согласным.
Неполярные кислоты распределены между глухими,шипящими
и гудящими согласными.

Далее можно распределить по молекулярной массе аминокислоты
и буквы - более высокой частоте основной форманты буквы
принять более низкую массу.

3. Составление таблицы алгоритма.
Я присваиваю значение буквы алфавита каждой аминокислоте.
Наборы букв для двух алгоритмов обозначений.
Получаю следующую таблицу:
Аминокислота. Обозначение аминокислоты. Буква алфавита.

Алгоритм 1 2

глютаминовая e а и
глютамин q б и
аспарагиновая d е о
аспарагин n г о
серин s н е
треонин t л а
тирозин y м у
лейцин l к я
лизин k и н
аргинин r о л
гистидин h у м
изолейцин i в в
валин v п г
пролин p ж д
фенилаланин f т б
триптофан w р р
глицин g пробел
аланин a пробел
цистеин c д .
метионин m с ,

Некоторые буквы могут выпадать их общей
закономерности или алгоритм недостаточно хорош.
Приведено два варианта алгоритма.
Эта таблица и алгоритмы приведены только для примера.
Возможны разные сопоставления аминокислот и букв
алфавита, все зависит от ученого.

4. Для трансляции ДНК в белок используются различные
программы. Как правило,в них есть настроечный файл . ini,
в котором есть код аминокислот, и этот файл можно
редактировать вручную, заменив аминокислоты на буквы в
соответствии,как дано выше для принятого алгоритма.
Если программа трансляции написана на Perl или Java,
то текстовым редактором надо в теле файла заменить буквы
аминокислот на буквы принятого алгоритма.
Можно также, используя редактор DOS, заменить в
трансляте буквы вручную.
Также применяется это при отладке полученного текста,
когда надо заменить одну или две буквы на другие.
Для этого надо использовать редактор DOS. В меню ПУСК
WINDOWS выбрать опцию "Выполнить".
Набрать команду EDIT text.txt,
где text.txt - редактируемый файл, или указать путь,
где находится этот файл.
Например, EDIT C:\text. txt. Файл откроется в редакторе DOS.
Кнопкой ALT открыть меню, выбрать "Поиск" - SEARCH,
затем "Изменить" - CHANGE,
в окне указать какую букву заменить на какую,
затем нажимая на TAB дойти до опции "Изменить все" -
CHANGE ALL. В меню "Файл" - FILE, выбрать "Сохранить
как" - SAVE AS. Указать - text1. txt.
В Windows для этих операций замены знаков можно
использовать программу Блокнот.
Для этого надо выбрать в меню "Правка", опцию "Заменить",
выбрать что чем заменить и нажать кнопку "Заменить все".
После этого во всем тексте нужный знак или буква будет
заменен на другой знак или букву или пробел.
Можно менять на любые из 255 знаков кода ASCII.
Нужный знак можно набрать, удерживая кнопку ALT и
набирать нужные цифры на клавиатуре, после отпускания
ALT знак появляется на экране.
Например, запятая появится при удержании ALT и наборе
числа 44. Это знаки кода ASСII. Если работа проводится
в режиме DOS, то перед редакцией надо запустить
русификатор клавиатуры, например KEYRUS. COM,
для переключения алфавитов.
Возможна дополнительная коррекция полученного текста,
замена отдельных букв или дополнительная разбивка слов.
Эта работа по оценке или коррекции
полученного текста скорее всего в компетенции лингвиста.
Если слова в трансляте получаются слишком длинными по
15-20 знаков и более, то скорее алгоритм выбран неверно,
так как короткими словами по 3-6 букв можно записать
тысячи слов, почти полный набор обычного языка.
Еще раз обращаю Ваше внимание, что все эти файлы лишь
примеры, я даю лишь подходы к поиску, облегчаю начальную
работу. Если у Вас что-то не пойдет или будет получаться
непонятный "тарабарский" текст, то отнеситесь к этому
просто с юмором или как к игре.
Я не обещаю, что обязательно все получится,
это всего лишь рабочая гипотеза.
Для примера в этой статье, я выделил из гена
ДНК-полимеразы А - POLA участок ДНК, соответствующий интрону
номер 3.

Цитировано с данных генома человека по адресу
http://ncbi. nlm. nih. gov.

gtaggtggggcggaggtgg
ag

Гены имеют мозаичное строение, то есть участки ,
кодирующие белок - экзоны, перемежаются с некодирующими
участками - интронами.
В описании гена аннотации генома рядом с RNA или РНК и CDS
или кодирующими участками расположены карты JOIN - соединения.
Цифрами показаны нуклеотиды экзонов, а запятая означает
интрон между соседними экзонами в РНК.
Для примера, для гена POLA.
Сама последовательность нуклеотидов прилагается рядом с
нумерацией нуклеотидов в аннотации генома или хромосомы
в полностью закаченном геноме человека.

Цитировано с данных генома человека по адресу
http://ncbi. nlm. nih. gov.

join(16. . 40, 5479. . 5603, 9305. . 9401,
10443. . 10523,
20608. . 20723, 21195. . 21257, 22416. . 22508,
22938. . 23025,
23344. . 23545, 23634. . 23812, 29209. . 29321,
30389. . 30505,
32035. . 32109, 32987. . 33125, 33836. . 33990,
38424. . 38508,
39809. . 39870, 41453. . 41542, 43679. . 43795,
45429. . 45604,
47429. . 47558, 48056. . 48175, 49284. . 49383,
51472. . 51596,
54365. . 54514, 54924. . 55046, 115952. . 115984,
116762. . 116854, 118712. . 118917, 121033. . 121165,
127506. . 127637, 132481. . 132655, 147706. . 147884,
149600. . 149731, 194060. . 194176, 236507. . 236603,
301859. . 302004)

Если кратко , экзоны - это структуры гена,необходимые
для кодирования белка.
Все экзоны объединяются при сплайсинге в единую РНК,
а интроны вырезаются и распадаются.
Назначение интронов до конца не ясно. ДНК в них легко мутирует,
то есть хранит информацию с ошибками,
примерно 1 замена на миллион лет.
Если интрона в каком-то месте не будет,
то для гена обычно ничего не изменится,
если нет регуляторных элементов.
На месте интронов могут даже располагаться другие гены.
Например, у POLA человека внутри двух интронов
расположились два других гена.

Все это я пишу потому, что именно в интронах может
быть расположена любая внешняя или посторонняя информация,
не влияющая на работу гена.
В том числе и предполагаемые информационные послания из
прошлого. Для поиска надо подготовить текст ДНК путем
разбивки гена на экзоны и интроны . Из карты RNA
или CDS – JOIN находим номера крайних нуклеотидов и,
открыв редактором файл текста ДНК, разделяем его и
подписываем по порядку все экзоны и интроны.
После этого легко можно из файла текста вырезать
нужные участки для анализа.
Надо иметь для этого аннотацию к геному.
Для удаления цифр и пробелов, чтобы привести файл к
виду "фаста",можно пользоваться программами Word или Texter.
Для облегчения разделения отмечу, что любой интрон
должен начинаться с GT, а заканчивать AG нуклеотидами,
это его основное свойство, необходимое для сплайсинга РНК.
Еще одно его свойство - это большое количество кодонов -
терминаторов для трансляции РНК.
То есть транслироваться с получением какого-то белка,
как экзоны, они не могут.
Интересно то, что все эти терминаторы похожи на разделы
между словами в предложениях или на точку.
При трансляции интрона обычным кодом я получил следующие
варианты:

Интрон 3 гена POLA Н. sapiens

Трансляция вперед, рамка +1 - 347 кодонов
VGGAEVGAGMLLPRHCVSCFL*ILTHVVELLLCLGKCKALLGSYLWFGFS
FNYLRMRKQNSRTFIWGYFGESRHIPQDVV*ILQVMAV*ELGGAPCLWGQ
CTALGIKECRFGIHHSYFPIL*PWTSHLISLRLRVFICNMGMRKLPSPRV
VRCI*GSRYEN*LGQ*KAPYKGWS*CPVPLLKAHWFSLVGSDFMAM*MLT
TGSM*IVPVTIYVSTCVVGFSYIASFPL*TGISLWACGNLDSFTFYSSGR
VKLL*SILLWQTLILWAKSFPEVT*LGIIYIIWF*LHTCCVDAVHCLTPV
*TEFCCT*K*HRPGKHLSRYKRFFWSWLKYYWPLLEI*SQY*ILSLQ
рамка +2 - 346 кодонов
*VGRRWGRGCCFLGTVLVASCRFSLMWWSCCFAWANVRHC*DLTFGLDFP
LII*G*GSRIAGHLFGDILENLGTYLRM*YKSSR*WLCKNWEEPLVCGAN
AQRLELRNAGSGSIIPTFQFYDLGQVT*SLCALESSSVIWG*ENYLLPEL
*GVYEVLGMKINLVSRKHHTKAGPNVLCPF*KLIGSHL*GLTSWPCEC*P
QGACRLCL*LFMFLLV*LDSAILPVFPCRLGYLSGLVVILILLLFILLVE
*NCYKASYCGRL*SFGPNRFLRSPD*V*YISFGFDSTPAVWMLCIV*HLC
EQNSAALKNSTGQENI*AGIKGFFGHG*NIIGHF*KFDPSIKFCPC
рамка +3 - 346 кодонов
RWGGGGGGDVAS*ALC*LLLVDSHSCGGVAALPGQM*GTVRILPLVWIFL
*LFEDEEAE*QDIYLGIFWRI*AHTSGCSINPPGNGCVRIGRSPLSVGPM
HSAWN*GMQVRDPSFLLSNSMTLDKSLNLSAP*SLHL*YGDEKTTFSQSC
EVYMRF*V*KLTWSVESTIQRLVLMSCAPSESSLVLTCRV*LHGHVNADH
REHVDCACDYLCFYLCSWIQLYCQFSLVDWDISLGLW*S*FFYFLFFW*S
KTAIKHPIVADFDPLGQIVS*GHLTRYNIYHLVLTPHLLCGCCALSDTCV
NRILLHLKIAQARKTSEQV*KVFLVMAKILLATFRNLIPVLNFVPA

Трансляция назад, то есть по второй цепи ДНК,
рамка -1 - 347 кодонов
LQGQNLILGSNF*KWPIIF*P*PKKPFIPAQMFSWPVLFLSAAEFCSHRC
QTMHSIHTAGVESKPNDIYYT*SGDLRKRFGPKDQSLPQ*DAL*QFYSTR
RIKSKRIKITTSPERYPSLQGKTGNIAESNYTSRNINSHRHNLHAPCGQH
SHGHEVRPYK*EPMSFQKGHRTLGPAFVWCFLLTKLIFIPRTSYTPHNSG
RR*FSHPHITDEDSKAQRD*VTCPRS*NWKVGMMDPEPAFLNSKRCALAP
QTRGSSQFLHSHYLEDLYYILRYVPRFSKISPNKCPAILLPHPQIIKGKS
KPKVRS*QCLTFAQAKQQLHHMSENLQEATNTVPRKQHPRPHLRPTY
рамка -2 - 346 кодонов
CRDKI*YWDQISKSGQ*YFSHDQKNLLYLLRCFPGLCYF*VQQNSVHTGV
RQCTASTQQVWSQNQMIYIIPSQVTSGNDLAQRIKVCHNRMLYSSFTLPE
E*KVKESRLPQAQRDIPVYKGKLAI*LNPTTQVET*IVTGTIYMLPVVSI
HMAMKSDPTSENQ*AFRRGTGH*DQPLYGAFY*PS*FSYLEPHIHLTTLG
EGSFLIPILQMKTLRRREIK*LVQGHRIGK*E*WIPNLHSLIPSAVHWPH
RQGAPPNSYTAITWRIYTTS*GMCLDSPKYPQINVLLFCFLILK*LKENP
NQR*DPNSALHLPRQSSNSTT*VRIYKKQLTQCLGSNIPAPTSAPP
рамка -3 - 346 кодонов
AGTKFNTGIKFLKVANNILAMTKKTFYTCSDVFLACAIFKCSRILFTQVS
DNAQHPHSRCGVKTK*YILYLVR*PQETIWPKGSKSATIGCFIAVLLYQK
68
NKK*KNQDYHKPREISQSTRENWQYS*IQLHK*KHK*SQAQSTCSLWSAF
TWP*SQTLQVRTNELSEGAQDIRTSLCMVLSTDQVNFHT*NLIYTSQLWE
KVVFSSPYYR*RL*GAERLSDLSKVIELESRNDGSRTCIP*FQALCIGPT
DKGLLPILTQPLPGGFILHPEVCA*ILQNIPK*MSCYSASSSSNN*RKIQ
TKGKILTVPYICPGKAATPPHE*ESTRSN*HSA*EATSPPPPPPHL
Обнаруженные кодоны терминаторы помечены (*).
При замене этих знаков на буквы по алгоритму 2 получим,
для примера следующий текст с небольшой дополнительной
обработкой.
Введены дополнительные разделы между словами,
в основном между несколькими гласными или несколькими
согласными.

Рамка -2 - 346 кодонов:
лонв уро и вене и у бемо ин ня яуя ялбд яуб ги инегма
глиа еаи игре ин и, вув в де игае ноя ил в нг мнл, яуе
ебаяди и нг ни еляди иловд гун ня в ян да аиг иа вга
аву, ядг гевм, , нео даеини бл л а м оидяу бу де бе у
яидм вмяа ая и ебя в двяи, наял л ливн яги млв н и
рвдня мея вде гм рдм
лид днеуа варл вуа ае , яоед ну див нг я яб бявян янинд
нил одне я мядлие енеа а глвун ния аия енвд дае д д

После того, как выделенный участок ДНК транслирован
по какому-то алгоритму , получается текст русского языка.
Пример для 3 интрона POLA человека.Текст как
бы написан русскими буквами на непонятном языке.
Поэтому его лучше не читать,а слушать.
И здесь уже нужны специалисты по языкам, чтобы уловить в тексте
какие-то сочетания фонем или звуков, похожие на какой-то язык,
может быть древний язык.
Предполагается, что все разговорные слова, особенно простые,
состоящие из 1 - 3 букв, не случайны и во многих разных
языках схожи.
Предварительный вывод такой, что транслирование интронов
дает текст мало похожий на речь,
хотя мной пока слишком мало было обработано материала.
Можно произвести поиск возможных слов и в экзонах,
для этого транслировать РНК гена в 6 возможных вариантах.
Но структура белка направлена на какую-то его биохимическую
функцию, а не на слова. Если предположить, что РНК интронов
может играть какую-то функцию в памяти нервных клеток, то
слова и буквы языка могут иметь отражение в ДНК.
Хотя я сам считаю эту мою гипотезу невероятной.
Скорее имеет значение наличие большого количества
различных повторов в интронах.
Я произвел поиск возможных слов в различных повторах.
При этом слова, полученные по какому-то алгоритму,
будут также повторяться.
Например,трансляция повтора 7 человека из приложения 7
этой книги дает такой текст по алгоритму 2:

"мад мамя оана аиад мамя о марамад иамя оама амад лмая
яоама амад иамя оама амад мам гоама лмад мамя оамар амад
ламя оама амини".

Если отнестись к этому с юмором, то похоже на волшебное
заклинание. Не правда ли?
Если повтор 7 данио из приложения 7 транслировать
по алгоритму 1, то получится текст:

лулулу
жжлулулувулулулулулулжлулулулуожлулулулулулулулулулклу
лулулу
лжлулулулулунулклулулулулжлулжлужулулулулулужулжлулулу
лулулм

Это больше похоже на какую-то песенку - ДНК поет.

Повтор 5 человека дает такой текст:

"сарг сарг сарн сежг саог сарг карг лесг сарг уарг лаог
каре сакг крг уарг сенв сбкгиежи сбрг карг секг сарг
сенг ларг ларг секг варг сениасирг тирг селг лирг сенг
вбргксарлксарг каргола оспрг сарлосаговег садгпсенг ларг
бакгсерг сарл жсад сенг саргпекгсарг сарг саг карг сенг
саргпкакм лакг каог сарг сарг сенг саргакбрг сенгосарг
иенн сарн сенг сарг сенг сажи са".

Повтор 13 человека дает такой текст:
"око ко ркоко ко ококо ко ококо ко ококо ко ококо ко ок
око ко ококо ко ококо ко ококо ко ококо ко ококо ко ок
око ко ококо ко ококо ко ококо ко ококо ко ококо ко ок
око ко ококо ко ококо ко окнко коа".

Этими примерами я показал, что наиболее демонстративно
ДНК говорит именно с помощью разных повторов.
Чтобы транслировать ДНК можно использовать хорошую
форму по адресу http://molbiol. ru/scripts/01_13. html.
В окно формы нужно вставить ДНК и она выдаст его трансляцию.
Эта страница может работать автономно, без подключения
к интернет.
Для разработки других алгоритмов удобна страница по адресу
http://molbiol. ru/appendix/02_01. html.
Она описывает основные свойства аминокислот.
Для прослушивания текстов на компьютере есть несколько
программ. Для примера, "Говорилка" А. Рязанова.
http://www. vector-ski. ru/vecs/govorilka/
До ее использования надо еще установить на WINDOWS
звуковой движок.
Это файлы: microsoftagent
(msagent. exe, lhttsrur. exe, spchcpl. exe).
Также потребуются файл ms_speech_api. exe.
Файлы эти можно найти там же.
Подводя итог для этой статьи, могу сказать,
что ДНК можно преобразовать в
слова какого-то языка, подобно преобразованию ДНК в
ноты музыки генов, но работы эти я только начал
несколько лет назад и каких-то интересных
результатов пока нет.
Надо составлять новые алгоритмы и тестировать их, но
это требует много времени.