Руководство по у-днк-генеалогии

Петр Золин 2
Руководство по У-ДНК-генеалогии

Суть.

Руководство указывает среднее число мутаций на маркер-поколение с учётом 25 лет (линейные модели). А годы определяются с учётом возвратных мутаций, где среднее число мутаций на маркер-поколение всё более оказывается иным. Менее 0,002. Например, по 0,500 справедливо отмечено 250 поколений, что дает 6250 лет (25 на 250). Но с учётом возвратных мутаций указано 331 поколение (по таблице 0,5 : 331 = 0,0015 на маркер) и 8275 лет.
При 535 линейных поколениях указано 1037 поколений с учётом возвратных мутаций. И это уже даёт менее 0,001 мутации на маркер-поколение. Или менее 12,5 лет на 25-летний линейный отрезок. При тысяче линейных поколений отмечаются 3280 поколений с возвратными мутациями. Отсюда 0,0006 мутаций на маркер-поколение при учёте возвратных мутаций. Чёрт ногу сломит…

И подсчётам на такой «фундаментальной основе» рекомендуется свято и безропотно верить. «Новый метод (даже якобы наука)», по малолетству нельзя обижать. Или это блеф, фарс и агрессивное завирание ?!


Технологию статистики модного направления в У-ДНК-генеалогии можно найти в появившемся в 2011 г. издании
Введение здесь небольшое. Процитируем

«РУКОВОДСТВО К РАСЧЕТУ ВРЕМЕН ДО ОБЩЕГО ПРЕДКА
ГАПЛОТИПОВ Y-ХРОМОСОМЫ
Практика настоятельно требует создания набора простых приемов,
которые позволят максимально упростить расчет времен до общего предка.
Эти приемы должны включать пять стадий.
Первое – убедиться, что для рассматриваемой выборки гаплотипов есть
всего один предок, или соответствующий ему эквивалент. Эквивалентом
могут быть братья или другие близкие родственники (что уже находится
вне предела разрешения методами ДНК-генеалогии). Суть в том, что
определенное количество поколений или лет назад существовал
определенный базовый, или предковый гаплотип, от которого началась
разветвленная последовательность мутаций, которая и привела к
рассматриваемой выборке гаплотипов потомков предка, общего для данной
выборки. Для того, чтобы убедиться, что выборка «однородная», то есть
происходит от одного общего предка, есть несколько приемов.
Один – это построение дерева гаплотипов, которое должно сходиться к
одному гаплотипу. Это и есть базовый, или предковый гаплотип. Иначе
говоря, при наличии одного предка для всей выборки – в дереве
гаплотипов не должно быть выраженных ветвей, идущих от основания
дерева. Базовый гаплотип может быть равен предковому, и присутствовать
в выборке, причем порой во множественных копиях, а может быть получен
минимизацией мутаций в гаплотипах выборки. В таком случае полученный
базовый гаплотип не обязательно идентичен предковому, и может быть
всего некоторым приближением. Для другого приема необходимо сравнить
времена для общего предка, рассчитанные с применением линейной и
логарифмической модели. Здесь линейной моделью называется вариант
применения формулы n/N/; = t, где t – время до общего предка в
поколениях, n – количество мутаций во всех N гаплотипах выборки, ; –
средняя скорость (частота) мутаций, выраженная в числе мутаций на
гаплотип на поколение. Логарифмическая модель рассматривает не число
мутаций, а число базовых гаплотипов в выборке, то есть основывается на
принципиально другом рассмотрении выборки гаплотипов. В этом случае
627
необходимо сосчитать число базовых, идентичных гаплотипов в выборке,
оценить число поколений до общего предка по формуле ln(N/m)/; = tln,
где m – количество базовых (идентичных) гаплотипов в выборке, tln – время
до общего предка в поколениях, остальные обозначения приведены выше.
Если t = tln (в разумных пределах, например, в пределах 10%), то общий
предок один. Если эти две величины значительно различаются (например,
в 1.5-2 раза и более) – выборка определенно гетерогенна в отношении
общих предков, и таблица ниже, как и формулы выше, неприменимы для
расчетов времен до общего предка. В таких случаях выборки необходимо
разделять, используя дерево гаплотипов, как описано выше.
Другими словами, для однородной выборки, имеющей одного общего
предка, число мутаций в гаплотипах должно согласовываться с числом
базовых гаплотипов в выборке.
Очень важно, что если критерий наличия одного общего предка для
выборки гаплотипов не соблюдается, или просто не расматривался, то
таблицы, данные ниже, применять некорректно. Полученный результат с
большой вероятностью будет относиться к некоему фантомному общему
предку, который на самом деле модет оказаться суперпозицией времен до
разных предков, порой разделенных тысячелетиями.
Второе – это сосчитать число мутаций в данной выборке гаплотипов.
Число мутаций следует считать по отношению к базовому гаплотипу,
выявленному на первой стадии расчетов (см. выше).
Третье – это рассчитать среднее число мутаций на маркер для всех
гаплотипов выборки, имеющей общего предка. Например, если на
двадцать 7-маркерных гаплотипов приходится 65 мутаций, то среднее
числе мутаций на маркер равно 65/20/7 = 0.464.
Четвертое – это пересчитать среднее число мутаций на условную
скорость мутаций, равную 0.00200 мутациям на маркер на поколение.
Дело в том, что каждый маркер имеет свою скорость мутаций, и в
зависимости от набора маркеров в гаплотипе их средняя скорость мутаций
разная. Эти скорости мутаций даны выше в таблице в очерке 13 (стр. 271)
для наиболее часто рассматриваемых гаплотипов. Например, для 7-
маркерных гаплотипов (продолжая пример выше) средняя скорость
мутаций равна не 0.00200, а 0.00186 мутаций на гаплотип на поколение.
Поэтому в пересчете на такую среднюю скорость 65 мутаций в двадцати 7-
маркерных гаплотипах даст не 0.464 мутаций на маркер, а 0.464х2/1.86 (это
– упрощенное 0.464x0.002/0.00186) = 0.499. Это – для условного гаплотипа,
имеющего скорость мутаций 0.002 на маркер на поколение.
628
Пятое – применить таблицу (см. ниже), которая дает поправку на
возвратные мутации. Например, среднему числу мутаций 0.499 на маркер
(при скорости мутаций 0.002 на маркер на поколение) соответствует 331
поколение в таблице ниже, то есть 8275 лет до общего предка для 20
носителей данных гаплотипов.
Без такого пересчета нам пришлось бы давать 11 таблиц по типу
приведенной здесь таблицы, по одной на каждый формат гаплотипа (а их
двадцать в таблице в очерке 13 на стр. 271).
Если ограничиться только линейной моделью, без учета возвратных
мутаций, то 65 мутаций в двадцати 7-маркерных гаплотипах дадут всего
65/20/0.013 = 250 поколений до общего предка, вместо 331 поколений (с
учетом возвратных мутаций). Вместо 8275 лет до общего предка получится
6250 лет, на две с лишним тысячи лет меньше. Если применить скорости
мутаций не на гаплотип, а на маркер, которые тоже даны в таблице в
очерке 13 (стр. 271), то получится 65/140/0.00186 = 250 поколений, то есть то
же самое, с той же большой ошибкой (без учета возвратных мутаций) , что и
при применении скоростей на маркер.
Таблица, приведенная ниже, позволяет вносить вклад возвратных мутаций
и в число поколений до общего предка, рассчитанное с помощью простой
линейной модели, или с помощью логарифмической модели, в которой
тоже не учтены возвратные мутации. Например, находим 250 поколений до
общего предка, рассчитанные выше для 65 мутаций в двадцати 7-
маркерных гаплотипов (линейная модель, без учета возвратных мутаций),
во второй колонке таблицы ниже, и читаем – 331 поколение, или 8275 лет с
учетом возвратных мутаций.
Таблица.
Число поколений (25 лет на условное поколение по калиброванным
данным) и лет, рассчитанные для средних значений мутаций на маркер для
скорости мутаций 0.002 мутаций на маркер на поколение.
Для гаплотипов, для которых средняя скорость мутаций отличается от 0.002
(см. табл. в разделе 13, стр. 271, третья колонка) среднее число мутаций на
маркер должно быть соответственно пересчитано.
Если число поколений до общего предка рассчитано по линейной модели,
без учета возвратных мутаций, и для приведенного выше примера равно
629
65/(20x0.013) = 250 поколений до общего предка, то по таблице ниже
находится, что это число, приведенное во второй колонке, соответствует 331
поколению с учетов возвратных мутаций.
За основу данной таблицы взята сокращенная таблица, опубликованная в
работе (Адамов и Клёсов, 2008).__

(после таблицы: фрагменты её выше – литература)

Клёсов, А.А. (2008) Основные положения ДНК-генеалогии (хромосома Y),
скорости мутаций, их калибровка и примеры расчетов. Вестник Российской
Академии ДНК-генеалогии, т. 1, вып. 2 (июль), стр. 252-348.
Адамов, Д.С. и Клёсов, А.А. (2008) Теоретическая и практическая оценка
возвратных мутаций в гаплотипах Y-хромосомы. Вестник Российской
Академии ДНК-генеалогии, т. 1, вып. 4 (октябрь), стр. 631-645.
645
Chandler, J.F. (2006) Estimating per-locus mutation rates. J. Genetic Genealogy 2,
27-33.»

В итоге, надо сверять и пересчитывать почти все данные, которые опубликованы А.А.Клёсовым и его соратниками вплоть до начала 2011 г., когда окончательно осознана необходимость постоянного учёта возвратных мутаций.

Вспомните пример выше
«Например, среднему числу мутаций 0.499 на маркер (при скорости мутаций 0.002 на маркер на поколение) соответствует 331 поколение в таблице (выше), то есть 8275 лет до общего предка для 20 носителей данных гаплотипов.
Без такого пересчета нам пришлось бы давать 11 таблиц по типу
приведенной здесь таблицы, по одной на каждый формат гаплотипа (а их
двадцать в таблице в очерке 13 на стр. 271).
Если ограничиться только линейной моделью, без учета возвратных
мутаций, то 65 мутаций в двадцати 7-маркерных гаплотипах дадут всего
65/20/0.013 = 250 поколений до общего предка, вместо 331 поколений (с
учетом возвратных мутаций). Вместо 8275 лет до общего предка получится
6250 лет, на две с лишним тысячи лет меньше. Если применить скорости
мутаций не на гаплотип, а на маркер, которые тоже даны в таблице в
очерке 13 (стр. 271), то получится 65/140/0.00186 = 250 поколений, то есть то
же самое, с той же большой ошибкой (без учета возвратных мутаций) , что и
при применении скоростей на маркер».

Слабовато врубаетесь ?!  Да, нет в таблице - 0.499 на маркер. Тем более с указанием, что это – «до общего предка для 20 носителей данных гаплотипов». А если носителей много больше,  (см. табл. в разделе 13, стр. 271, третья колонка) ?!

Ладно, подскажем автору таблицы, что у него 0,499 на маркер в таблице нет, а он берёт данные по строке 0,500 на маркер. И в таблице нет столбца числа лет до общего предка по определению без учёта возвратных мутаций. А ведь пока в работах актива У-ДНК-генеалогии подсчёты именно по линейным моделям доминируют. Сколько же надо данных уже уточнять ?! И кто это будет кроме вас делать ?!

Вот поэтому и говорю – пока нет должного массива натуральных данных, все эти игры со статистикой, да ещё в жёсткой привязке к общей истории (археологии, лингвистике и т.д.),  псу под хвост.

Последние строки таблицы тоже вызывают вопросы
Исследования показали, что Y-хромосомный Адам жил около 60 000 — 90 000 лет назад[1]. http://ru.wikipedia.org/wiki/Y-хромосомный_Адам
http://en.wikipedia.org/wiki/Y-chromosomal_Adam

Где-то выявлены надёжные данные о жизни "Y-хромосомного Адама" 98 – 180 тыс. лет назад ?! Срочно стоит назвать этот научный источник и его популяризировать – всем активом данной группы У-ДНК-генеалогии.

http://evolution.genetics.washington.edu/phylip/software.html
если будут клёсовцы пищать, что они делают неимоверно трудное дело, укажите им этот адрес. И заткнутся.

желающим самостоятельно посчитать=========
eugene
21.2.2011, 16:00
Для постороения деревьев использую многим знакомую программу Network, программа так себе: не очень устаивает интерфейс, т.к. для изменения одного из параметров или одного "таксона" требуется совершение нескольких продолжительных действий, а таксонов как известно надо много.
Деревья в целом получаются приличные, я их использую для визуализации отнесения определенного гаплотипа к определенной ветви, например финнской или южно-балтийской (============== а вот это очень условно: П.З.), но чаще всего решение об отнесении к ветви принимаю вручную анализируя маркеры, как быстрые так и медленные, хотя везуализация дерева в Нетворк подтверждает это решение.

Других программ для построения дерев просто не нашел, поэтому обращаюсь к тем, кто использует другие, огромная просьба дать ссылку на скачивание.

Также вопрос, что послужило в пользу использования той или иной программы? Лично мне пришлось выпытывать интерфейс Network, т.к. других программ просто не нашел.
Skif
21.2.2011, 16:24
Там хорошо на древе видны мутации, можно смотреть, анализировать, выискивать фанмные пары мутаций и на основе этого корректировать программу. Любая программа в каких-то случаях тупит, и требуется живой анализ мозгами.

А что выпытывать, спросили бы меня, я бы показал где все пошагово расписано. Сам когда-то мануалы нетворка промптом переводил.

Да, и еще один плюс - пластичность древа, можно разворачивать в любую сторону, укорачивать ветви, раскрашивать, короче, очень удобно для художественного оформления.
eugene
21.2.2011, 16:41
QUOTE (Skif @ 21.2.2011, 16:24)
Там хорошо на древе видны мутации, можно смотреть, анализировать, выискивать фанмные пары мутаций и на основе этого корректировать программу. Любая программа в каких-то случаях тупит, и требуется живой анализ мозгами.

"Это верно, да и не охота к программе привыкать, а то потом будешь смотреть на гаплотипы а без прогруммы никак. 
А так в ручную построишь и в маркерах ориентируешся.

QUOTE (Skif @ 21.2.2011, 16:24)
А что выпытывать, спросили бы меня, я бы показал где все пошагово расписано. Сам когда-то мануалы нетворка промптом переводил.

Павел, если б знал, то обратился. Просто это тема по филогении и древам давно была закрыта, а та что поднималась раньше не очень информативна, вот я и подумал, что как то не пользуются программы популярностью.
А ведь это очень важно визуализировать дерево гаплотипов, поэтому эта тема должна постоянно обновляться, ведь одним Network все не ограничивается, я надеюсь.

QUOTE (Skif @ 21.2.2011, 16:24)
Да, и еще один плюс - пластичность древа, можно разворачивать в любую сторону, укорачивать ветви, раскрашивать, короче, очень удобно для художественного оформления.

Это да, это тоже интересно, но хотелось бы чтобы программа сама все делала, например вводить аллели вручную, когда больше 20 гаплотипов займет больше часа, т.к. нет унифицированного поля, которое бы само разбивало по локусам и заносило значения, а мы бы их например тоько редактировали слегка.
aklyosov
21.2.2011, 18:35
Цитата(eugene @ 21.2.2011, 8:41)
...хотелось бы чтобы программа сама все делала, например вводить аллели вручную, когда больше 20 гаплотипов займет больше часа, т.к. нет унифицированного поля, которое бы само разбивало по локусам и заносило значения, а мы бы их например тоько редактировали слегка.


Я использую программу Philips (не уверен, что написание правильно), для которой я просто беру список гаплотипов в Excel (или в текст-файле), и за секунды переношу в поле программы.

Я не знаю, лучше или хуже эта программа по сревнению с другими, но она удобная для моих целей, а именно получение общего вида дерева с последующей разбивкой по ветвям.

Я видел графические результаты других програм, и ни разу я не видел, что что-то лучше. Самое худшее, что я видел для этих целей - это программа "Мурка". Она дает избыточно много совершенно ненужной (для меня) информации, причем в графическом поле, что превращает график в свалку, и она - была , по крайней мере - избыточно тяжелая "по весу". Если мне ответят, что избыточную информацию можно снять (наверняка можно, но я видел именно с чудовищно избыточной, когда это людям не нужно было), то и тогда непонятно, чем она лучше. Я ее видел в действии всего один раз, сравнивая с Philips, и она дала явно неверные результаты. Возможно, мне ответят, что она тогда доводилась, но не много ли объяснений на ровном месте?

Короче, я бы Муркой пользоваться категорически не советовал. Много понта и мало результатов.
Igor1961
21.2.2011, 19:07
Правильно PHYLIP (PHYLogeny Inference Package). Я тоже использую ее по более прозаичной причине - она единственная из популярных программ работает с Макинтошем. Для целей отбора ветвей смотрится более надежной, чем другие. Как правило, ее разбивки проходят по логарифмическому критерию. А вот Мурка в этом отношении - наихудшая, дает "прокрустовы" выборки, почти не поддающиеся ручной сортировке.

Как только список ветви составлен, весь дальнейший расчет идет уже в MS Excel. За красивой графикой не гонюсь, куда важнее расчет базовых гаплотипов, возрастов и географии.
Alexander
21.2.2011, 21:14
Цитата(eugene @ 21.2.2011, 16:00)
Других программ для построения дерев просто не нашел, поэтому обращаюсь к тем, кто использует другие, огромная просьба дать ссылку на скачивание...Также вопрос, что послужило в пользу использования той или иной программы?

Все программы ТУТ.
Небогатый опыт сравнения программ:
Различаются алгоритмами работы. По маломаркерным гаплотипам результат дают примерно одинаковый - вернее, разный для одной и той же выборки (при любых укоренениях, с весами и без). Есть условия, когда можно добиться максимального соответствия (процентов на 60-90). Это использование достаточно больших выборок ( от 100-200 и выше). По многомаркерным не специалист.
Phylip - выдаёт единственное решение, неплохая графика, но очень медленно работает. На больших выборках можно не дождаться конца работы (несколько дней). (Впрочем, может быть есть опция для ускорения, не в курсе).
Network - выдаёт очень много вариантов и за секунды, хорошая графика, но распутывать сетевые клубки - убивается времени не меньше, чем считает Phylip. Распутывать и анализировать множество вариантов - ещё дольше. Легче работать с многомаркерными выборками, дающими минимум вариантов.
TNT - пожалуй лучшая программа, считает доли секунды, выдаёт вариантов решений в пределах разумного. Различия большей частью внутриветковые. Незаменима при больших массивах многомаркерных гаплотипов (другие программы могут не справиться с объёмом). Но графика совершенно жестяная.
Мурка - на уровне ТНТ с лучшей графикой. Но не для простого смертного. Отсутствует удобоваримый интерфейс, поэтому справиться с ней может достаточно продвинутый специалист. Обычному пользователю можно отдыхать.
Поэтому для коротких гаплотипов и небольших выборок рекомендовал бы самую простую - Phylip. По многомаркерным он может не справиться с объёмом, поэтому лучше использовать любые другие. Для отображения результатов хороша SplitsTree.
eugene
21.2.2011, 21:26
Анатолию Алексеевичу, Игорю Львовичу и Alexander огромное человеческое спасибо  .

Разбирусь с программами и выложу свой отзыв по поводу наиболее подходящей.
aklyosov
21.2.2011, 23:04
Цитата(Alexander @ 21.2.2011, 13:14)
Phylip - выдаёт единственное решение, неплохая графика, но очень медленно работает. На больших выборках можно не дождаться конца работы (несколько дней). (Впрочем, может быть есть опция для ускорения, не в курсе).
... Поэтому для коротких гаплотипов и небольших выборок рекомендовал бы самую простую - Phylip. По многомаркерным он может не справиться с объёмом, поэтому лучше использовать любые другие.

За несколько дней считает серию из более тысячи 67-маркерных гаплотипов. Но такая задача встречается редко. Серии из полусотни 67-маркерных гаплотипов считает за несколько минут. Серии из 100-200-300 67-маркерных считает за час-два.

Для ускорения работы нужно снять все лишнее (убрав галочки из соответствующих крадратиков). Мне, например, совершеннно не нужны попарные расчеты в отдельной секции результатов, а это намного замедляет общий счет. Мне нужна только матрица, которая в МЕГЕ дает графическое дерево. Все остальное - обуза для счета.
.

И.Л.Рожанский признал неизбежность ошибок в 10 – 12- 20% в своих подсчётах (
± 10% маржи для бесконечного набора данных  гаплотипов [Клесов, 2009]. Это, конечно,
выгодно отличается от типичных ошибок от 30 до 90 (sic!)%, полученные с использованием подходов, популяционной генетики, таких как Batwing программное обеспечение и / или "эволюционного" мутаций Л. Животовский. http://www.proza.ru/2011/02/21/397
Вместе с тем об этом диапазоне постоянно надо помнить, но его активисты У-ДНК-генеалогии нередко не указывают. Нет этого диапазона и в таблице А.А.Клёсова, где он учитывает возвратные мутации.