Пушкин Осень в виде гена и ДНК

Михаил Курносов
             КУРНОСОВ М.Н.
             ГЛАВА ИЗ КНИГИ:"НОВАЯ ГЕНЕТИКА И ДНК ИНФОРМАТИКА".2013.

             ГЕННОЕ ПРОГРАММИРОВАНИЕ И ДНК ГОВОРИТ.22 мая 2007.

Наступает новая эпоха в генетике.Наступает время,когда живые организмы
будут использоваться для хранения информации.Футурологи прогнозируют
начало этого через 20 лет по статье Деймоса Стренталла "Генное программирование"
на сайте XAKEP.RU .Другой исследователь - Джарон Ланье предлагает переписать
архивы NEW YORK TIMES или библиотек в интроны тараканов и выпустить их.
Предполагается,что тараканы как очень устойчивые насекомые,которым
несколько сотен миллионов лет,сохранят информацию о человечестве в случае
глобальных катастроф.Филипп Кео,директор ЮНЕСКО в Москве в статье
"Электронный кит,электронный кролик и электронный таракан" развивает эти
идеи и предлагает сохранить шедевры искусства в насекомых.
Итак,фантасты,футурологи,изобретатели, как всегда, опережают реальную
науку на много лет.
Мне же интересен больше другой аспект этой проблемы.Если станет возможно
закинуть в будущее информацию в живых организмах на миллионы лет,то
предположив,что предшествующие цивилизации могли это сделать для людей Земли,
надо поискать в современных организмах информацию из далекого прошлого.Этому
и посвящен проект "ДНК говорит".
В геномах организмов много "свободного" места в виде неиспользуемых явно
последовательностей нуклеотидов.Это интроны,интергены,повторы,псевдо-гены
или нуль-аллели, множественные молчащие гены,гены изо-ферментов, остатки
ретровирусов и другие явно не нужные гены и негенные участки.
Информационная емкость неиспользуемых и годных для введения информации в
геном довольно велика и может составить 10-20 процентов генома.
Это для человека составит около 100-200 мегабайт возможного пространства.
Скорее всего на них можно будет записать информацию жизненно важную для
конкретного человека.Это типирование его биометрических,генных, личных и
других характеристик, необходимых для его здоровья и безопасности.
Или же общечеловеческие ценности для избранных организмов.
Забрасывание в будущее информации возможно на время от тысяч лет до сотен
миллионов лет.Неизвестны другие носители информации,которые могли бы
сохраниться неизменными за это время.Только живое вещество для ДНК - белковой
жизни может сохранить информацию навсегда.
Пока создаются только подходы к этой проблеме.Есть несколько сложностей для
ее осуществления.О них будет сказано в другой статье.
Итак, для того,чтобы найти способ расшифровать возможную информацию в ДНК,
надо разработать или знать способ,как ее туда эффективно записать.
Я разработал несколько принципов записи для длительного хранения информации
в геноме.
Текст по выбранному алгоритму превращается в последовательность
нуклеотидов ДНК.Это не сложно.
Для примера приведу стихотворение А.С.Пушкина "Осень" в виде текста и
транслированное мной в вид гена. При способе кодированиия 1 буква - триплет
нуклеотидов возможно закодировать 64 знака,что достаточно для любых текстов.
Это биологически совместимый способ кодирования.
Если для кодирования использовать по 4 нуклеотида,то возможно закодировать
256 знаков,что достаточно для кодирования всех знаков таблицы ASCII.Этот
способ позволит записать любые компьютерные программы и графику на
низкоуровневом компьютерном языке,но этот способ не присущ живым организмам.
Можно конечно изобрести различные способы шифрации на ДНК,но это не нужно
для нашей темы. Принципы кодирования.
1.Главный принцип - это принцип облегченного расшифрования ДНК текста.
То есть информационные посылки создаются именно для того,чтобы их легко мог
расшифровать любой лингвист.
2.Принцип ДНК метки.Участки ДНК,несущие текстовую информацию,
должны быть выделены из общей ДНК генома специальной меткой,в виде
аномальной последовательности,вероятность образования которой случайным или
ферментативным способом близка к нулю.Эта последовательность названа
мной INFOINDICATOR.Именно аномальной последовательностью,сразу попадающей
в глаза после секвенирования,а не участок для праймера.
Эта последовательность нужна для быстрого выделения нужного участка ДНК
для анализа или чтения заложенной информации. С этой же целью применяется
фланкирование ДНК текста участками,показывающими начало и конец чтения.
Пусть это будут просто поли-A блоки размером 30-100 нуклеотидов.Они
названы мной,как STARTINDICATOR и ENDINDICATOR.
3.Принцип биохимической метки.В текст ДНК надо вставить один или
несколько небольших генов - маркеров.Они необходимы для типирования и
отбора стволовых клеток в культуре или эмбрионов на ранних стадиях развития.
Если интеграция в хромосому прошла удачно,то обнаружив продукт
генов - маркеров можно быть уверенными,что и информация на месте для хранения.
Биохимические маркеры можно дополнить оригинальными участками ДНК для ПЦР,
но если особый метаболизм быстро выявляется,то участки для праймеров надо
знать точно,а это,скорее всего, через много лет будет невозможно.
4.Принцип эволюционого превосходства.Организмы,которые предполагается
использовать для посылки информации на миллионы лет,должны иметь особое
эволюционное превосходство перед другими особями этого вида.Без этого метка
будет разбавлена обычными геномами или вообще самоудалится в популяции.
Это касается идеи фантастов вставить информацию в насекомых,а затем их
выпустить.Информация будет утеряна.
Эволюционного превосходства можно достичь какими-то генами,дающими новые
источники пищи (например,ген целлюлазы для превращения клетчатки древесины
до глюкозы или ген фиксации атмосферного азота для исключения белкового
голода),новые ареалы расселения - устойчивость к экстремальным факторам
среды,новых способов защиты от инфекции,усиление способности к размножению
и так далее.
5.Принцип метки для изменения фенотипа организма. Сам внешний вид взрослого
организма должен говорить,что он носитель метки.То есть его внешний вид
должен показывать,что он отличен генетически от себе пободных организмов.
Метки организма - носителя информации желательно интегрировать в
информационный участок.
6.Принцип генетической стабильности информационного участка.Спонтанные
мутации за много лет могут сильно исказить информационную последовательность.
Для генетической стабильности применяется комплексный подход. Он будет
изложет в последующих статьях.
7.Могут быть дополнительные условия,которые возникнут во время
непосредственной работы.
Пример записи текстовой информации в ДНК.Я транслировал текст на русском
языке поэта Пушкина - "Осень" в последовательность нуклеотидов в ДНК.
Каждая буква или знак - триплет нуклеотидов.Программа для транслирования
очень простая и ее может изготовить любой программист на Java,Basic или
другом языке.Перекодировки буква - триплет любые по желанию.
Я принял для себя,например,такие:

catagggagcagcgaatcggcgagaaccataaa
  о  с  е  н  ь  . ч  е  г  о   
aataaacaacatataaaagaaagagagcaataccgttggtagataaaaagtcataacgaa
  в     м  о  й     д  р  е  м  л  ю  щ  и  й     т  о  г  д
acaaaacaggagaaaaatgggcatgaatagagtaaaagccaaatcaaaaaaaaaaaaaaa
  а     н  е     в  х  о  д  и  т     у  м  ?

Где AAA - пробел между словами,ACA - а,AAT - в,GAA - д,и так
далее.   А.С.Пушкин - "Осень".

gtaagtgtcccaagctcacatagaacctcacatggtaacaggggcacatgtagtcttcct
tgtctcttgagatctctgcttatgggcatggtattgtgtctggcacttctttgtttatag
tttagaatgtatttttgtggttgtttggtactgtctccactcatagactatgagctccac
atacttgctactgtaaccacatgcctgcttcatagttgatactcactgaatactgaggga
agagagggaaggcaaaagaaagggtaaagtgaagatttcaggtgccgttacagtcaccga
gtttacattgttatagctttaattagtgtacctccatttataaggagattgatgctatct
tgattattggttcatcttgtctctgtcgctgaaggtattttcatgtcaaatgagaaaaca
tggctttttaacatgaaatttttaatttttaatattcaattcattgtgagaatcctactc
tataappppppp......promotor..............pppppppppppppppppppp
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnn......gene1.................nnnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxx......infoindicator.........xxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaa......startindicator........aaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaacatagggagcagcgaatcggcgagaaccataaa
aataaacaacatataaaagaaagagagcaataccgttggtagataaaaagtcataacgaa
acaaaacaggagaaaaatgggcatgaatagagtaaaagccaaatcaaaaaaaaaaaaaaa
aaaaaaaaaaaagaagagagagacacaaattagcagatccattatagtggcaagagacga
aaaagcgacaaacagacaaggagtagccactagtacaaaactaaaagcgacaaaagacat
tggacaaaacatagtagaggcgggacagagagtcaccataggtacgaggaacagtaggag
aaatactagaggagttgcaaaaggaaacagacaaactaggggaaaaggaatcattagggg
aaaaatgagagtaatgagataatcgaacatgggcagagctacaaacatagggagcagcag
tagataaaagggtacacagaaaaaactaaagaacatagacataacacaaaacacagacat
caagagagataaacagagagtatcgacagcagaggcacaaaagagtgggagaaaaaggag
gactagagtaaataaacaaaacaagagtaccgacagtagggtagcaaaagaagcggcgag
ataattcagcataaacacagaagcgaaaaaagcgacgagaaataaacaaggagttgctac
attaaaaggcatagggaggaaaaacaacatataaaacaccataggcacgagtgaacagag
agtaataaacatagttgtgagtaagactaggagaaacaccattacggcaaaaggaaacat
gggcatagtcatcgtaaaaggaatcatgagataatttagaaaaggagtagaacagacgaa
agcagtaaacattaatagcaatagaaacatagtaaaaaggagtgagagcagcatataaaa
taaacaaagacaaattgcatttagaaaaagagcgaatagagtaaatacacaataaaaagg
cataagacatataaaagcaggcagagcaattgataggagaaagaaagcaagagaacaaat
tgcatcagtgagcacgagagacgaaaacaacatggcaaacaccatagaacaattaaaggc
aaacaggagaaataccgtaagtaccgtaaaaatgagaggcagtgcattaggtatagcggc
cagacaaaacaacaggagaaacatagtagtgagcacgagtaccgaattaaaaatcatcag
cgaattaaaaacagaggctaacgaaaaactaaaaatgagaggcagcatataaaaggcaaa
aagcattacgagcagatttatagacataatcgaaaaaagagacatgaatagagtattaaa
ggcagcaataggagtaatacaattaaaagccaaaaaagtcataggtatcatcgtaaaagg
agtgagaggcaggagcagtgcatcaggagcagacataatcatcgtaaataatagcaacat
ataaaaggcaaaaagcattacgaggagaaagaacataatcattacgagcagatttaccgt
aagtaccgtaaagaggagaaaaggcaggagaacacaattaaaaataaacacagatagagg
agcagtaggagtaattagtagaaatacagccagtgctatacatataaatacgagaactat
tagataaaaaaggagaacaaaaggacacaggagataaaaaggaaacaccatgaaagaagc
aaccatataaaaaagtgcaggagtagaaaatagaaaaatcattacgagcagatttatcat
aacgaaacaaaacaccatgaaaaaaggcataagcattacgagcaaattaaaaggcataac
agagagagtacaaaatagaaaaggaatgaggacacaattcatcagacaaaaaatacacaa
aaaagaagctatagcaaagaccaagagagtattaaacactgctacacaggcaaatagaaa
gaaagacatgacacaatctatacatataaaaatgagagggagtaccatattaaacataag
agcaataaagacgagtacgagtaacatcaaaaacataggagtagatgccaaaaacagcat
aactagattaggtatcattaccgataatagagtcgaaaacaccataaataagagagatat
acatacagcaaaaggagtcatggcggctaggggattaaaagacataatcagtgcgggaaa
agagagtatatcacaaaataatagcaacagtaggggaaacacagaacataagaacagtag
tatcataataaaaagtacgagaggagtggctggtaggagaaaagtagagagaatcataac
tagatcatcatcatccagcataaacagacagaacataaataacagacaagtcgaaaatag
aaaggcgagaggagtcgaatcaaacaccattacaaccatgaaacaaaaaggcaggagaac
aaagaaacaaaaaggcaggagaacattaatgaggaacgaaaacggagtcataaacagaca
tatcatcaggagggtaaatagaaagactagagtgagtaccgtaaaaaggagagataccat
aactagatccaagaggaaaatgaggaacgtaaacagacagaacatgagaggagtatcaaa
caggagtaccgataaggcaaagacgagaaaggtgagtactgcataaaaaatgagtattat
acaagtacaagtcgaaggggcaaacagacacaaaaaaataaaaggacacagggcgggaaa
aggaaaacaagacaataggaaacacaatagaaacaatacacagaatgccaatagatctag
taccgaaaatattagaggcagagcagtcgaaaaagcaaacacgagggcgagataaaataa
acaaaaaggagtgagtattacacacaatagaaagaaaatcatatacagtgccaatagatc
catgggatcaaatacgagagtcataaatatagaacaaggcagcatgagatcaaataccgt
aagtagtacaaaaagtgcaaaggcaaaagtgagaagggcatttatcataacgaaacaaaa
aagaaacaggagaaataacagcatataattaaagaaacaaaacactgctaccgaattaaa
gaaacaaaatatcatcaaacaagatgcattaaagaaacaaaacaaagcgggtagatcagt
tgcattaaaaatagggagaaagaaagctgagagaatcagtgcgagaaaaggcaccatagg
cataagcagcataggagttagaaaaacagcaagggcattcagacaaggaaacaaagcggc
tagtgacgaattaaatatacatataaacaccattacggcattaaacaatgcaaaaggagt
agaacagacgaagagcaaaaacatagtaaataaacaaggagcgggtagatttactagtga
cgaaaatatacatataaaaagtgcaaacagacacaccattagagtcgaattaaagaaaca
aaacataggaatgaggactagagtcgaaaaagggagaagggcaaaacttagcagcatata
aaaaataaacagacaaggaaacaatgcaggtactagaaacaggagagtattaaatagaaa
gacacataccgaaaataatagcaatgcaaaaggagtacaagaagcgggtagatttagatt
aaacacagacataatcatgaatagaataaagaggagaaaaagtactagcagacacaatag
aaatagaaaaattagcagcatcaaattcaccatcaatagcagtattagaaagagataaaa
agtaatcatagatagcaaaaacaacatagacatgacgagcagtgccaaaaatagaaatac
cgagaacatcaaatcgaacagtagaaacaccattaagaacaggagataaaacatagggag
cagtagaaaaagagaacacagggcagtaaacataagtgctatcagcataatgagcagcag
catattcagcataaacaacaggagaaacatcagacaaaacaatagtacacaattaaaggc
tagagtacaagtgagtaccgaaaagaacatagacataaccatataatttatagaacaagg
catcgtaaaagttaggggcatcgtattaaaaagtactagaggagtacacgttgggagata
aaaaggcaatagagagagcagcagcatatcagtacatataaacaggagtaccgtaagtag
caacatgagaaagaatagagtggcaaaaataaaagggagcaacgagagaaaagacatgaa
cagcatatatataaaagggagaaggagaaacaagagcagggcaaaaattacgagggcgag
agtatcaaaaggtatacataaacaagtcgaaaaaatacacaaaaacatagttatagacat
aatgagcagcagcatatttagtaaaaaaaccatgaacataattgcgggaaaaatagagag
caagagcagaaaggcaaaagaacagaaaaatactagtgacgaaaagagataaaacatgaa
cagcatataattaataaacaggagataaaacaacagcataaccataaagaacataagaga
cataaccatattaaataccgtaagcataatcagtagtataaacaggagaaaagttgggag
aggtacacaaatcagtgcataattggcaaacaggagggcagtcataaaaataaacaggag
ataaaacagacatgagagtacaaacaagagggcagtcatcgtaaaaggaatcatgagcag
agaacaaatcagcatataatctatacatataaacggagtcataaacataagtgtggcagg
cagtagagtcgaatcaaacaacaggagaaacagagaacaaattagagtaggggcaaacat
cagacaatttatacatatattaaaaatgagagacatggcagtcagcatattaaaaataca
caaaaaggcacagggcatagtcatggccagacaggcaaagaagagaatacacaccataga
catcgtaaacagagaacaaattagagtaggggcatcaaacagacaaaaaggcaagagaga
agtcgaaaacataggagcgacgaagagcagacaattaaggaggaacagggcgactataca
aaatattaccatcagtagagtaggggcaaaaaggagtaaaaaagacatcaccatagtaca
attaaaaaggagtaaaaaaaccaggagaatacaatcagctactgcaagtatacaaaacag
acaaaaagcaggagtacagggaaaagcaatggccagagcaattgataggggaaaaattag
gaacagacaattcaacataactagtaccgacagcatataaaacacagacatcacacaagg
agttagaaacatcagacaaaacaggagaaaaggtactgctgatagagtaaataagagaat
acaatttagaacagaacagagagtaaacagacaaaatactagggtgagaaagagtgggag
aaaaagacaaacagacataattgcataaaaggtaatgagagtatccatcagacaaaagac
tagaatacaaaagagtgggagaaaagggagaaccatgaacagggcattaaataaacaaat
agtagaacaaaacaggagagtatcagccagtgctacacaggcaaacaccatagaacaatc
aaacatggcgagataaaacatggcacaagacataatacacagcgagagatccacagatag
ggcagtcagacaaaacaacaggagaaaagtaatcatggcaaacacagacattggacatac
cgacagacaggcaaatatagaacaaggacaaaaacttaccgtaagtaccgtaaaggcaaa
cactgctgacagcatgagaaacacagatagagacatgaatgcaaaagcaatggcgaaaca
cagcgagagattaataaaaagacaaacagagagggtaaatagaaaaataaataacattac
catagtcataaacatgaagagagttgcgagaaatacgagaggacaattaataaatagggg
aaaagggagcagggcgggaaaaatgagagtagaacaaaatgaagccaaaaatagaaaagg
aatgaggacgaggagaaagaatgcgggacacagcgagagatttagaaacaaaactaccat
ataaaaaatcattaccagtagaggagtcatcgtaaacaccattatagatgcagttgcaaa
caggagaaggagaggacaatttagaaaagagaggaatattagataaaaaggcattaccag
ggtacaaaatacagcggcattaaatagaaacacgagagaaattgcgagaaacaacataga
cattaatgcatttagaaacatagtgaaacatacgagcagcagtgcgagaaaagggaggaa
catataaaataatagcaatgcaaaagcaacagacattaatgcatctagaaaaggaaatat
acagacgaacatataaaacatagggagcagcgacgtaaaggcaaaagaacaaggggtaat
gagagtacacgtaaaaatcagcataatcgaatttaagaacatagacataatcgacgtaaa
caacatgagcaaagcaaacaccattacgagtaagagcagaaaagaagcaggaggtatcat
ataaaagggcattaccatgaaatttataaacacagatagaattgcggctatacacaaaaa
aagtgcagttagggcaaaaatcagcataatcgaaaaggcagcaataggagtaatagccgt
aaataccgtaagcataatcgaattggcagagaggaacatataaaaaggtacgagagtaca
gagagtaaaaggcatcagattaaaggcagagaggaacatataaaacagacagggcatgaa
tagagtaaaaaccattaccatgaaatttacgagaactatcataaatagaaaagaacagaa
cataggagtcagcataaatagaacagaacagagagtaaaaataaaagggagagagaaggt
gagaaatatagacataatcgaattgacgagtacacacagtagggcaaatattagcacggc
agtaaaactaaaggcaaaaggcagcataatacaaaaaggggcacaaggagttactagaat
attaaacaacattaccatgaaattggcaaaaggcagcataatacaaaagactagtaacag
tagaaacaccattaccagaaaactaaaagtacatatcataataaacaacatataaaacat
agaaacacacagtagtaacaaatttagtaaaatcattaccgaagtgagaaacaacaggag
aaacacagacataggagttagagtcgaaaacaggagcagagcgaccagtgcataaaacac
agacattaaacatagtaacaaattatcaatgaggaaagcagtaaatatcataaacaacag
gagaaatatcatcagggcattaaaaataaaagaacataagaacattactagtagaaacat
agttatagatgcagtcatcaaattcaaacagggacaggcaaaaacagatagaatcatcgt
attaaacatcagaaaaataggacagaacagtagtatacaaaacaggagagggagagtatt
tagaaataaaatcatcagtatcataaacaccatgaaaaagagaaccataaaaagtactag
aggagtacacgttggtagcaaaaatatcatcactgcagtcatcaataaaatgagcagtag
agtaaacacagacatcaagagagataatactgcataaaagaacattacattaaatagaaa
agtagagagaggtatacagagagtaggggcaaatacgaggaaatccagcataaaaacaca
aggcaggagagtaaatatagaacaagttattagataaaagaagagcagcgaattaaatag
aaaaataaatatacacaagagtaccgatatgagaaataaacaaagtgcagtcatcaacat
aaccatcagcgaaaacatcacggcagtcgaaaaaaccatagatagagtaaaactaaaagt
cataaaggcagatattagataaaaaggaatgagagtaaatactaggagagtattagtcat
aaaagttacgaggagagtaaacaagaggaatacgagcagcagcataaaactaaaacaaaa
ggcaaacacagagaggaaaaacagtagcaaaaaggctagagtacacgtatttagtaccga
aaagaaagccaatgcaaagaacattacaactaggagaaaaataaagaaagctgagagaaa
caacatgagataaaacactagagtacacgtatctagaaataaacaaagtgcaatacacgt
aaacaatagagaaaaactaaatagaaaaataaaaggtacacagaatatcatataaaaagt
tagtgatagcaggagggcaaaaggtacacagaatatcataaaagcaggtgccactacgag
cagaaacaacattagcaaaaaaatcatcataagagaacagacgagcagcgagagcaaatt
tagaaacacagacataagagcgacgaaacagagagtaggggcaaacaccatcggtaatag
ggcaaaaatcataaacaacaggagattgaaagctgaacaaaaaggagtgagaggcagggc
gagagtaggggcaaatactagagatagggcgagaggtattagcaaaaaaatcattaccag
gagcagcgagagcaaattagtagagagcacgagtgggagagtaaatagaaataaaatagc
ggctagagtattaaatagaaatagtgggagagtattaaatatacatataaaaatcataaa
aggcaggagatttagtaatactagagtcgaaggggcaaacagacatatcatcaggagggt
aaaaggaatcataagcatgaacagtgccaaaaacacagacatggcaattacgagcagcga
gagcaaaaaacttagaaaagtagcagtaaatatcataaacaacaggagaaataggaagag
agtaaacaggagtaaagatagcaatgcataaaaagacatataaaaaaccataggagtgag
ataatttaacagacatatcatcaaggttgcaaagaaacaaatcagtaggagattaaacac
taccatgaatgcaaacaagagggcagttgcaaacaacatgagataatctagaaacaatgc
aggtactagaaaaataaaaaccattaccataatgagaaaaatcattaccagagccgtagt
aggggcaaaaataaacatagtaatacaaacgagatttagaaaagatagggacaatgcaaa
tacgagaactattaggagaaacagacaaataggagtagagagggcagcaaatagcaaaaa
aaggagaacagcagtatttagaaacacacataccgaggttgcaaacacagacataggggc
agtaggggcaaatataaacacgagagaagcattaaacacgagagacataaatataaaaag
agccaaacaaacgagattcaatagcagagcagtacaaaaactaaatagaaaaggagttag
gggtagaaaaggaatcataagcatgaacagcataaacaccatagtgagtatagcagtatc
agtacatataaagaaagagagcaatacgagagtaaacaggaggaaaattaggactagcaa
aaatatcatagaacaaagtaccgaaaaaataaacaggaggaaaattaggaccagcatata
aaaaattacacaaacgagattcagcataaaggcagcatcaaaactaaacaaacaagtaga
cataggtgcaaaaatgaaagaagcaacaaatattaggaaacacgtagtaggggcattaaa
caccattactaaagcagtaataatgagagagggattaaaaatcagtagtaaaaaactaaa
tagaaacacacaagaagcaggacaaaacagacagaaagctactagaggcgaattaaaaat
gagagtagaacaaaacaccattaccagtgcattaacagacatcaaacagaaacaaaagaa
aattagcagagctacacaaggcgaaaatagaaaagaacaaggagggagtatacagagagt
aaaaatcattaccagtgcatccactactgcaatgagagtatcaaatatagcgaaacaaaa
gacaaacagacacaaaaacactactgcagtcgaatcagtagaacacagaggtactagaga
cataatacatacaaatatagcagacagcataggcataataaacaataggggacatagtac
atccaaacaataaaaagggaggaacgacaacataaccataaaaaccatgaaacaatcaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaa........endindicator........aaaaaaaaaaaaaaaa
aaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaaa
pppppppppppppppp........promotor............pppppppppppppppp
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnnnnnn........gene2............nnnnnnnnnnnnnnnnnnn
nnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnnn
aagggtaaattaaattggttggcctaaaaatgtttcttttctttaattagtttgtggaaa
caaaatagcataaacatgcattgattgatttcttatgttgttttgaatgaaatatggaag
gtatatttggtttcaggattctcagggacattttggcctgtagaatctgtagacccattg
tttttgcacatattttaaatttctgaatttcgaacatcaagaaaaccatgttgcattttg
tctcagatgctgctactgaattttaaccactgaattagattgcaacctacatgctgttaa
ctactgagccaagatgaaatcgactactgcattgaaatcagggttagctgtgtctgcact
tgaaggagttgtaatggcagtgaacctgttttctttaatgggatttttattccctgattt
tattctcagttttaattgtgactttgattttaagagaatttcttagtacacatttatttg
aggttttcattgtaactttaagagaataataaaaaacatcctatcgaagtaggtgcttcc
aaacccatatgttcagtggcatatttctgtgttgtgttgttgcagttacttgttttattt
ataaagtatctcttgtaaaaagagaagtcatttgtccatgtgcttttgagttcaaatggt
tgtgtgtatgtgcatgaatttaaaataattttttgtgggagttttcttctttggggtatt
tttggaatacttttctgaatttgtttttttcttttacattaatag

Это только пример.
А.С.Пушкин - "Осень".

Чего в мой дремлющий тогда не входит ум?
Державин.
Октябрь уж наступил - уж роща отряхает
Последние листы с нагих своих ветвей;
Дохнул осенний хлад - дорога промерзает.
Журча еще бежит за мельницу ручей,
Но пруд уже застыл; сосед мой поспешает
В отъезжие поля с охотою своей,
И страждут озими от бешеной забавы,
И будит лай собак уснувшие дубравы.
Теперь моя пора: я не люблю весны;
Скучна мне оттепель; вонь, грязь - весной я болен;
Кровь бродит; чувства, ум тоскою стеснены.
Суровою зимой я более доволен,
Люблю ее снега; в присутствии луны
Как легкий бег саней с подругой быстр и волен,
Когда под соболем, согрета и свежа,
Она вам руку жмет, пылая и дрожа!
Как весело, обув железом острым ноги,
Скользить по зеркалу стоячих, ровных рек!
А зимних праздников блестящие тревоги?.. .
Но надо знать и честь; полгода снег да снег,
Ведь это наконец и жителю берлоги,
Медведю надоест. Нельзя же целый век
Кататься нам в санях с Армидами младыми,
Иль киснуть у печей за стеклами двойными.
Ох, лето красное! любил бы я тебя,
Когда б не зной, да пыль, да комары, да мухи.
Ты, все душевные способности губя,
Нас мучишь; как поля, мы страждем от засухи;
Лишь как бы напоить, да освежить себя -
Иной в нас мысли нет, и жаль зимы старухи,
И, проводив ее блинами и вином,
Поминки ей творим мороженым и льдом.
Дни поздней осени бранят обыкновенно,
Но мне она мила, читатель дорогой,
Красою тихою, блистающей смиренно.
Так нелюбимое дитя в семье родной
К себе меня влечет. Сказать вам откровенно,
Из годовых времен я рад лишь ей одной,
В ней много доброго; любовник не тщеславный,
Я нечто в ней нашел мечтою своенравной.
Как это объяснить? Мне нравится она,
Как, вероятно, вам чахоточная дева
Порою нравится. На смерть осуждена,
Бедняжка клонится без ропота, без гнева.
Улыбка на устах увянувших видна;
Могильной пропасти она не слышит зева;
Играет на лице еще багровый цвет.
Она жива еще сегодня, завтра нет.
Унылая пора! очей очарованье!
Приятна мне твоя прощальная краса -
Люблю я пышное природы увяданье,
В багрец и в золото одетые леса,
В их сенях ветра шум и свежее дыханье,
И мглой волнистою покрыты небеса,
И редкий солнца луч, и первые морозы,
И отдаленные седой зимы угрозы.
И с каждой осенью я расцветаю вновь;
Здоровью моему полезен русской холод;
К привычкам бытия вновь чувствую любовь:
Чредой слетает сон, чредой находит голод;
Легко и радостно играет в сердце кровь,
Желания кипят - я снова счастлив, молод,
Я снова жизни полн - таков мой организм
(Извольте мне простить ненужный прозаизм).
Ведут ко мне коня; в раздолии открытом,
Махая гривою, он всадника несет,
И звонко под его блистающим копытом
Звенит промерзлый дол, и трескается лед.
Но гаснет краткий день, и в камельке забытом
Огонь опять горит - то яркий свет лиет,
То тлеет медленно - а я пред ним читаю,
Иль думы долгие в душе моей питаю.
И забываю мир - и в сладкой тишине
Я сладко усыплен моим воображеньем,
И пробуждается поэзия во мне:
Душа стесняется лирическим волненьем,
Трепещет и звучит, и ищет, как во сне,
Излиться наконец свободным проявленьем -
И тут ко мне идет незримый рой гостей,
Знакомцы давние, плоды мечты моей.
И мысли в голове волнуются в отваге,
И рифмы легкие навстречу им бегут,
И пальцы просятся к перу, перо к бумаге,
Минута - и стихи свободно потекут.
Так дремлет недвижим корабль в недвижной влаге,
Но чу! - матросы вдруг кидаются, ползут
Вверх, вниз - и паруса надулись, ветра полны;
Громада двинулась и рассекает волны.
Плывет. Куда ж нам плыть?

        Функциональные элементы генома и ДНК информатика.2013.
 
 Несколько лет назад [2011-2012] был в основном осуществлен проект ENCODE,
что означает энциклопедия ДНК элементов.По этому проекту получается,что
80 процентов всей ДНК генома человека имееют биохимическую функцию.
То есть не являются балластом,а участвуют в регуляции.
По ENCODE написано много статей,например [27,28,29].Этот проект и его
результаты подверглись критике [26],
в основном это касалось связи генома и эволюции.Тем не менее, был составлен
список всех регуляторных элементов в геноме.Базы ЭНКОДЕ,находятся по адресу:
http://encodeproject.org,
http://genome.ucsc.edu/ENCODE/,
ftp://ftp.ebi.ac.uk/pub/database/ensembl/encode/,
http://hgdownload.cse.ucsc.edu/goldenPath/hg19/encodeDCC.
Приведены базы различных регуляторных элементов генома,например,базы раздела
протеогеномики wgEncodeUncBsuProt содержат списки пептидов для ядра,
митохондрии,цитозоля и мембран,которые образованы после переваривания
трипсином.В базе эти пептиды привязаны к геному,к местам их кодирования.
В файлах wgEncodeBroadHmm для разных модельных клеток показаны расположенные
по длине генома регуляторные элементы,такие как энхансеры,репрессоры,
инсуляторы,промоторы,участки начала и конца транскрипции,и другие.
Для нахождения ENCODE элементов можно использовать UCSC генный браузер,
который находится на приведенном выше сайте.
У меня возник вопрос,может ли текст,переведенный в последовательность ДНК,
влиять на этот геном? Слова и буквы в стихе Пушкина "Осень" никакого значения
для ДНК не имеют,это случайный набор знаков для генома и биологических
процессов.
Скорее всего,если эту ДНК встроить в геном,то она не будет безразлична для
него и клетки.Даже, если участок ДНК случаен,на нем уже есть небольшие
участки с измененной структурой ДНК.То есть отличные от обычной ДНК в виде
В-формы.Так,я обнаружил в гене PUSHKIN квадруплекс-формирующие G-богатые
участки с помощью программы QGPS,расположенной по адресу:
http://bioinformatics.ramapo.edu/QGRS/index.php.

Position  Length  QGRS                G-Score
399   22  GGGGAAAAGGAATCATTAGGGG         13
574   28  GGCACAAAAGAGTGGGAGAAAAAGGAGG   11
710   30  GGAGTTGCTACATTAAAAGGCATAGGGAGG  7
1439  29  GGAGTGAGAGGCAGGAGCAGTGCATCAGG  11
2182  12  GGCGGCTAGGGG                18
2303  15  GGAGTGGCTGGTAGG                20
2450  30  GGCAGGAGAACAAAGAAACAAAAAGGCAGG  5
2744  20  GGACACAGGGCGGGAAAAGG           19
4927  29  GGCACAGGGCATAGTCATGGCCAGACAGG  17
5998  21  GGGAAAAGGGAGCAGGGCGGG          39
6059  28  GGAATGAGGACGAGGAGAAAGAATGCGG   14
7040  29  GGCAGCATAATACAAAAAGGGGCACAAGG   5
7751  30  GGTATACAGAGAGTAGGGGCAAATACGAGG  8
8498  24  GGGGCAAACACCATCGGTAATAGG       10
8564  26  GGAGTGAGAGGCAGGGCGAGAGTAGG     16
8792  27  GGGGCAAACAGACATATCATCAGGAGG     3
9337  30  GGTTGCAAACACAGACATAGGGGCAGTAGG  4
9473  20  GGAGTTAGGGGTAGAAAAGG           14

Поэтому при переводе текста в ДНК, надо оценивать с помощью разных
программ ее возможное влияние на работу генома,соседних генов,или
какие-то функции клетки.Я обратил внимание на особенность поиска по ДНК,
в которой записан текст.
Если в ней искать какую-то произвольную последовательность,то она
повторяется,хотя не является каким-то повтором.
Она просто отражает повторяющиеся словесные обороты или одни и те же слова.
Например,при использовании программы UGENE,расположенной по адресу:
http://ugene.unipro.ru,
нужно при анализе участка ДНК выбрать поиск по Смит-Ватерману.
Это поиск по шаблону,используя алгоритм,который ищет в случаях,если
есть вставки или делеции,или мутации.
Так вот,при поиске случайного участка,программа нашла еще 8 близких
по составу участков.Это,по-моему,отражает именно поиск по разумному
тексту, когда закодированные в ДНК буквы,слоги,и слова повторяются.
Этот пример расположен ниже.

     G A G A A C A A A T T A G A G T
     G A G A G C A A A T T A G
     G A G A G C A A A TTT A G A G
       A G A A C A A G T T T T A G A
     G A G A A C A A A T T A G A G T
     G A G A A C A A A T C A G
       A G ACA C A CCA T T A G A G T
     G A G A A C ACA A T T A AA
     G A G A A C A A A T TGCATCA G T

Если поиск велся простым поисковиком,то были бы найдены только первый и
четвертый участки.Я перевел последовательность стихотворения Пушкина "Осень"
в последовательность нуклеотидов.Если такую ДНК вставить куда-нибудь
в хромосому на хранение,то что может произойти? Как она себя будет проявлять
или будет полностью нейтральна по отношению к геному.
Был произведен поиск участков ДНК,которые могут быть регуляторными элементами,
так как имеют аномальную структуру.Использовался онлайновый сервис по адресу
https://www.nonb.abcc.ncifcfr.gov/default.
Я обнаружил,что эта последовательность содержит:
Директ повторы      - 5,зеркальные повторы  - 10,Г-квадруплекс мотиф – 1,
короткие тандемы    - 7.
Не найдены:А-фазы повторы,инвертированные и крестообразные,Z-ДНК.
Хотя другие программы для анализа ДНК могут давать другие значения.
То есть я могу  утверждать,что любой текст,транслированный в ДНК
последовательность,не будет нейтрален для генома.Даже,если нет участков
транскрипции,эта ДНК будет иметь потенциально регуляторное влияние на геном,
либо на соседние участки.
Завершая изучение гена PUSHKIN,можно сказать,что получена интересная
информация по записи текста в ДНК и по поиску возможного текста в каком-то
геноме.Моделирование мной записи в ДНК показало,какие могут быть ошибки.
Изучение такой ДНК показало,что может быть признаком разумности для поиска
посланий в ДНК.В следующем разделе "ДНК говорит" будут описаны способы
кодирования текста с помощью только нуклеотидов,путем ввода понятий
специального языка.

                Биоинформатика и белки.2013.

 Ген PUSHKIN,который я сделал,является моделью,для анализа ситуации в
клетке с помощью биоинформатики.Этот ген для записи текста в ДНК не
является конечной разработкой,а служит только для проверочных и отладочных
действий.
Оказалось,что по цепи ДНК,оппозитной к той,где записан текст,
возможна трансляция.Сам транслят показан в приложении 11.Был произведен
элементарный состав этого гипотетического белка.Использована форма по адресу:
http://molbiol.ru/scripts/01-18.html.
По ней получены следующие свойства белка:pI=2,11 ;заряд белка резко
отрицательный -44,349 при pH=7,4;отсутствуют аминокислоты W,E,Q,H,K,R,
G,преобладают неполярные кислоты A=6,7 в процентах;L=24,4;V=7,8;F=18,0;
I=6,4;M=8,1;P=5,3.
Проверка сигналов или доменов в белке с помощью программы PHOBIUS находящейся
по адресу:
http://phobius.binf.ku.dk/index.html,показало,что белок
состоит из чередующихся участков цитоплазматического,трансмембранного и
не цитоплазматического.Для примера,приведу начало этого белка:

FT   SIGNAL        1     18      
FT   REGION        1      2       N-REGION.
FT   REGION        3     14       H-REGION.
FT   REGION       15     18       C-REGION.
FT   TOPO_DOM     19     27       NON CYTOPLASMIC.
FT   TRANSMEM     28     46      
FT   TOPO_DOM     47     52       CYTOPLASMIC.
FT   TRANSMEM     53     79      
FT   TOPO_DOM     80     90       NON CYTOPLASMIC.
FT   TRANSMEM     91    114      
FT   TOPO_DOM    115    125       CYTOPLASMIC.
FT   TRANSMEM    126    147      
FT   TOPO_DOM    148    152       NON CYTOPLASMIC.
FT   TRANSMEM    153    178      
FT   TOPO_DOM    179    189       CYTOPLASMIC.
FT   TRANSMEM    190    212      
FT   TOPO_DOM    213    217       NON CYTOPLASMIC.
FT   TRANSMEM    218    237      
FT   TOPO_DOM    238    243       CYTOPLASMIC.
FT   TRANSMEM    244    266      
FT   TOPO_DOM    267    271       NON CYTOPLASMIC.
FT   TRANSMEM    272    298      
FT   TOPO_DOM    299    304       CYTOPLASMIC.

Таким образом,при трансляции со второй цепи ДНК,образуется белок с очень
аномальными свойствами.Если он будет возможен,то это будет мембранный
белок,скорее всего с якорными свойствами или подобие рецепторного белка.
Он может иметь влияние на функции клетки.
В этом случае биоинформатика позволяет это предположить.
Задача записи текста  в ДНК,наоборот,такая,чтобы информационный участок
не оказывал на клетку никакого влияния.
Таким образом,ген PUSHKIN,выполнил свою модельную задачу,
показав ситуацию,когда возможна трансляция текстового участка.
Можно применить разные способы запрещения трансляции с текстового участка.
Целью этой книги являются не какие-то конкретные решения,а показ возможности
биоинформатики для использования и прогнозирования ситуаций с записью
текста в ДНК.