Введение в современную ДНК информатику

Михаил Курносов
Курносов м.н.
ВВЕДЕНИЕ В СОВРЕМЕННУЮ ДНК ИНФОРМАТИКУ.2013.
Глава из книги.
 
 ДНК информатика нужна для теоретического просчитывания биологического эксперимента.
Работы с генами и ДНК очень дороги, поэтому ученые сначала моделируют опыты на
компьютере, после этого проводят опыты с молекулами, генами и живыми клетками.
Этому и предназначена настоящая книга. На примерах:
проекта по музыке генов,
проекта по изменению митохондрий,
проекта по дефрагментации генов,
проекта по поиску и записи в ДНК текстов,
проекта по управляемому наномашинами мутагенезу в
этой книге проведено теоретическое обоснование подходов к этим экспериментам.
Все эти мои проекты объединены в общий проект, который я назвал "Неогерметик" или
"Neogermetic".
 В этом и заключается моя роль, как автора книги. С одной стороны , я разрабатываю
реальные проекты для будущей генетики, а с другой стороны на их примерах ,
я показываю, как информатика ДНК применяется в биологии и медицине.
Для информационного обеспечения задуманного эксперимента, ученый вначале
накапливает нужную информацию. ДНК информатика в современном мире очень тесно
связана с Интернет ресурсами и уже не мыслима без них. В Интернете находятся
от сотен гигабайт до терабайт информации по разным разделам генетики и
биоинформатики. Такое количество не может вместить ни одна книга, и роль книг
сегодня – это дать общее направление для работы.
В первую очередь надо закачать геномы организмов,  с которыми предстоит работать.
 Их адрес www.ncbi.nlm.nih.gov/genomes, где для нужного вида есть полная
последовательность нуклеотидов в геноме для отдельных хромосом.
Выберем, для примера каталог Homo sapiens (H_sapiens) - человек.
Примеры для человека хромосома 1 генома в виде контигов.
Например, ftp://ftp. ncbi. nlm. nih. gov/genomes/H_sapiens/
hs_alt_HuRef_chr1. fa. gz  - архив хромосомы 1 в формате
фаста, то есть без описаний генов,
hs_alt_HuRef_chr1. gbk. gz - архив последовательности
нуклеотидов в ДНК и описание генов,
hs_alt_HuRef_chr1. gbs. gz - архив только описания генов
в хромосоме 1 или аннотация генома, 
hs_alt_HuRef_chr1. mfa. gz - архив помеченных или
маскер-повторов в ДНК хромосомы.
Собранная в нить хромосома 1, для примера
ftp://ftp. ncbi. nlm. nih. gov/genomes/H_sapiens/
Assembled_chromosomes/seq/hs_ref_GRCh38_alts. fa. gz
ftp://ftp. ncbi. nlm. nih. gov/genomes/H_sapiens/
Assembled_chromosomes/seq/hs_ref_GRCh38_alts. mfa. gz
ftp://ftp. ncbi. nlm. nih. gov/genomes/H_sapiens/
Assembled_chromosomes/gbs/hs_ref_GRCh38_chr1. gbs. gz
Это архивы ДНК в формате фаста и маскер-повторов, и
описание или аннотация всех генов и их места на хромосоме 1.

 Для изучения повторов в геноме или каком-то участке ДНК можно для UNIX-компьютера
использовать программу для поиска повторов - Repeatmasker.
Программа на сайте www.repeatmasker.org , а базы повторов на сайте
www.girinst.org , на этом же сайте есть онлайновый сервис для поиска повторов ДНК.
Для этого надо вставить в окно формы исследуемый участок ДНК, и через несколько
минут подгрузится полная аннотация этого участка.

 Для изучения взаимодействий генов и их продуктов между собой полезны базы
генных сетей в виде граф. Их адрес www. pid. nci. nih. gov ,
а для закачки баз ftp://ftp1. nci. nih. gov/pub/pid.
Там представлены следующие разделы:BIOCARTA,KEGG,NCI-NATURE CURATED,
REACTOME, представляющие собой базы взаимодействия путей.
Это базы различных путей - метаболических, регуляционных, и других. В них
представлены все известные гены и их продукты во взаимодействии с другими
генами и белками.
Представлены файлы с расширением . svg и . jpg, по названию гена определяется индекс
рисунка, а в самом рисунке показаны связи его с другими генами в сети.
Например, ген POT1. Надо поисковиком найти это слово в файлах . svg , получим
индекс - 200074. svg NCI-NATURE CURATED. По этому индексу надо смотреть
рисунок - 200074. jpg. В рисунке находим наглядно в этих генных сетях, где участвует
этот ген в обслуживании теломеры в шелтерин-комплексе.
Видно его взаимодействие с другими генами и их продуктами.

 Для изучения продуктов генов - РНК или белка полезна база находящаяся на NCBI
в каталоге для каждого вида организма - файл protein.gbk , в котором представлены
трансляты генов, и даны функции белка, а также большое
количество литературы для каждого гена. Для РНК, файл аналогично имеет
название rna.gbk.
Чтобы закачивать журнальные статьи по генетике, надо в поисковой системе NCBI,
которую можно открыть на его главной странице, выбрать раздел PubMed или Pub,
и в строку поиска ввести нужный ген, или название статьи, или авторов.
После этого выводится список статей по выбранной теме, хранящихся на NCBI.

 Специализированных баз белков много,к примеру приведу адреса нескольких баз:
http://www.pdb.org,
http://www.uniprot.org,
http://www.genome.ucsc.edu,
http://www.expasy.org.
Последняя работает по ftp-протоколу,например
taxonomic_divisions/uniprot_sprot_human. dat. gz, при этом закачен будет
архив базы белков человека. Открыв его просмотр, для примера, программой
Windows Commander - клавиша F3, в поисковой строке - клавиша F7,
набрать Name=POT1. После чего в файле будет найдено полное описание белка
гена POT1,для примера.

 База сигнальных пептидов, необходимых для направления белка в нужное место в
клетке, например в ядро или митохондрию.  SPDB по адресу:
www.proline.bic.nus.edu.sg/spdb/index.
Как правило, все крупные серверы генетических баз данных имеют доступ по
http-протоколу интернет, при котором открываются обычные страницы интернета
и доступ по ftp-протоколу, по которому идет только обмен файлами.
Для закачки баз данных лучше и быстрее использовать ftp. Для этого надо иметь
на компьютере любой ftp-клиент, программу для закачки файлов.
 Я использую для закачки файлов по ftp обычный файл-менеджер Windows Commander.
Для этого в меню Commands надо выбрать опцию FTP New Connection, в появившемся
окне набрать адрес, например, ftp. ncbi. nlm. nih. gov.
Надо выбрать анонимное соединение, так как пароля не требуется для
общедоступных баз. После соединения будут видны все каталоги и файлы, которые
есть на этом сервере. Можно открыть эти каталоги и посмотреть какие файлы-базы
там есть. В каждом каталоге есть файлы readme. txt для описания баз.
Для копирования надо перетащить файл мышью на соседнюю панель Windows Commander.

 В интернете сотни сайтов, представляющих различную медико-биологическую и
генетическую информацию. Не профессионалам, то есть не медикам и биологам,
часто трудно разобраться в этих данных или базах. Поэтому в конце перечня
полезных по теме сайтов, я рекомендую посетить лучший из рускоязычных форумов.
Его адрес: http://www. molbiol. ru , на котором любому человеку можно задать
вопрос по генетике, молекулярной биологии, биохимии, цитологии,  и так далее,
и получить ответ специалистов и ученых.

 В моей книге я излагаю свои проекты в биоинформатике. Для общего
ознакомления с этой наукой можно рекомендовать книгу по общим вопросам
компьютерной биоинформатики [32].
Методы и протоколы в генетической биоинформатике [33, 34, 35].

 Я работаю в биоинформатике на компьютере, разрабатывая теоретически свои
проекты, но я по образованию лабораторный работник по биохимии или
врач-исследователь широкого профиля.
Я несколько лет работал в лаборатории и хорошо знаю всю биохимическую "кухню".
Примером одной из моих практических работ я могу назвать статью в журнале
"Лабораторное дело", 1991, 3, 34-36. Статья называется "Метод определения
нитритов в слюне". Нитриты в слюне отражают общее поступление нитратов в
организм  с пищей и водой. Контроль нитритов, как одного из главных
мутагенов, может иметь значение для профилактики возникновения рака и
токсического, мутагенного влияния на организм человека.
 Эту статью можно посмотреть на моем сайте.
Если будет финансирование проектов, описанных в этой книге, то практические
работы в лаборатории начнутся немедленно.
Буду благодарен за финансовую и другую помощь. Как мне помочь написано на
моем сайте http://neogermetic.narod.ru.