Несохранившиеся гаплотипы детектив

Петр Золин 2
Несохранившиеся гаплотипы (детектив)

Так как остаюсь «пятидневным героем» сайта Rodstvo.ru
то с «геройских» позиций могу и порассуждать. К примеру, мне нравятся  .дружные усилия актива  Rodstvа.ru в уточнении скорости мутаций и  возраста «общих предков», да и более обоснованной «продолжительности поколения». Правда, остаюсь при мнении, что до построения реальных деревьев по натуральным данным (исследованиям всех известных древних останков – хотя и понятны трудности этого) статистические выкладки останутся лишь в той или иной степени приблизительными научными прогнозами, особенно за историческими глубинами в одну-две тысячи лет. И всё-таки идущий поиск полезен.

Далее перед Вами - по сути - детектив.

================================== (цитирование

Ostan
30.10.2010, 19:17
Не успел обработать и половины запланированных веток и гаплотипов, как столкнулся еще с одной проблемой. Поблема касается точности подсчета количества мутаций в медленных маркерах. Предварительные результаты показали, что если относительное расположение маркеров по скоростям у меня с большой точностью ( не менее 95% ) совпадает с скоростями, определенными Wertner-ом, то абсолютные значения могут отличаться практически на порядок. Это связано с различными методиками подсчета количества мутаций в ветках. Приведу примеры. Для определения медленных маркеров я выбрал ветки с возрастом 2,5-4,0 тыс. лет. Медленными считались те маркеры, которые на зтом промежутке или не мутировали, или мутировали единичным образом. Например, если в выборке было 20 гаплотипов, то 19 показывали нулевую мутацию, а один плюс или минус единицу, либо все двадцать показывали ноль. В этом случае, ясно, что мутация произошла в одной из веток кроны дерева, т.е. в конце рассматриваемого периода. Часть ветвей рассматривались относительно модального значения предыдущей, родительской ветки. В этом случае часто встречался случай 19- (+1), 1-(0). Т.е. мутация происходила в начале рассматриваемой ветки и последующие 19 гаплотипов показывали в этом маркере наличие мутации в +1. Естественно, и этот случай соответствовал единичной мутации, только произошедшей в начале рассматриваемого периода. Тем более, что в этом случае можно изменить модал ветки на единицу и прийти к первому варианту.

На много сложнее оценить количество мутаций, когда они встречаются в середине ветки. Например, случай 11-(0), 9-(+1). Видимых мутаций здесь 9, но фактически это одна мутация, но произошедшая в середине ветки. Такой вывод можно сделать поскольку в других ветках данный маркер вел себя как медленный и в соответствие с Г-распределением в этом маркере не могло произойти более 0-3 мутаций за этот период. Если считать все видимые мутации, то мы получим скорости Wertner-а, которые могут отличаться от истинных на порядок. Оценка времени матожидания для рассматриваемых медленных маркеров по Г-распределению показывала значения 5,0 тыс лет и более, а из таблицы Wertner-а эти же маркеры показывают времена 500-1000 лет.

Такая ошибка в подсчетах количества мутаций может возникать как в медленных, так и в быстрых маркерах. Но в медленных она может составлять сотни процентов, тогда как в быстрых десятки.Если в случае возникновения обратных мутаций мы их не видим, то в этом случае мы видим лишние мутации, которые в действительности не происходили. Оба этих фактора действуют в противоположных направлениях и, хотя частично компенсируют друг друга, но могут приводить к существенным нелинейностям в зависимости от соотношения медленных и быстрых маркеров в гаплотипе.

Единственным способом избежать как тех, так и других ошибок, связанных с неточностью подсчетов количества мутаций, это построение реальных деревьев. В которых, как показал Павел Александрович, медленные маркеры имеют преимущества. И, действительно, среди медленных маркеров практически не наблюдаются обратные мутации. Но в этом случае встает проблема обсчета реальных деревьев.

Если бы нам были известны реальные скорости мутации во всех маркерах, то обсчет реального дерева можно было бы провести следующим образом. Используя интегральное преобразование по типу Лапласа задачу можно перевести в алгебраическую форму. Произвести расчет дерева в алгебраической форме можно достаточно просто. Ближайшая аналогия-расчет электрических цепей. По этой аналогии возраст ветви соответствует разности потенциалов, а количество мутаций -величине тока, которые к основе ветки, также как и отдельные токи, складываясь составят общее количество мутаций в ветке. В этом случае отдельные ветки в дереве будут соответствовать отдельным сопротивлениям в цепи, поэтому определить общее сопротивление всего дерева можно складывая параллельные и последовательные сопротивления цепи. При обратном интегральном преобразовании мы опять получим Г-распределение с матожиданием, рассчитанным исходя из всех веток дерева с учетом их параллельного или последовательного включения в цепи. Существенным, в этом случае, является то, что линейная зависимость возраста дерева от количества мутаций сохраняется. К такому выводу можно прийти и не прибегая к помощи интегральных преобразований и электрических аналогий. Это следует непосредственно из свойств Г-распределения, которое сохраняется при последовательном или параллельном включении различных отрезков и событий. Из этого следует, что не обязательно знать точные значения скоростей по маркерам, достаточно оттарировать интегральную зависимость возраста дерева от количества мутаций и использовать ее в дальнейшем, что мы и делаем на практике.

Таким образом, мы имеем два варианта расчета возраста дерева. По существующей модели мы приравниваем длину всех ветвей возрасту дерева и учитываем все видимые в ветвях мутации. По второй модели учитываем только истинные мутации, а длина ветвей может изменяться от нуля до величины возраста всего дерева ( величина ствола ). Несмотря на кажущиеся существенные различия, обе модели в первом приближении будут давать один и тот же результат. Учитывая только истинные мутации, мы должны их привязать к реальной длине ветвей дерева. А увеличивая в первой модели величину ветвей до величины возраста дерева мы должны дополнить количество истинных мутаций соответствующим числом псевдомутаций, которое также пропорционально длине ветвей. Различия и существенные начинаются только с рассмотрения эффектов второго порядка малости.

Мутации в основе веток, которые в первой модели учитываются несколько раз, это обычные мутации. Но то что они учитываются несколько раз резко повышает их вес. В итоге матожидание резко смещается в сторону этих мутаций и общая сходимость резко ухудшается, точность определения общего возраста ветви падает. Вторая модель лишена этого недостатка. Она, хотя и зависит от типа дерева и длины отдельных ветвей, но эти колебания не столь значительны, т.к. все ветви имеют один и тот же вес. В итоге при увеличении числа гаплотипов в ветви, благодаря лучшей сходимости, возраст ветви будет быстрее приближаться к своему истинному значению. Кроме того, обратные мутации, которые мы вынуждены вводить из-за разных весов медленных и быстрых маркеров в первой модели, во второй вводятся естественным образом по необходимости ( иначе дерево не построишь ). Естественно,тарировка скоростей мутаций по разным моделям будет давать различные результаты и отличаться от скоростей, полученных в парах отец-сын. Но это не должно смущать. После точного определения скоростей в каждом маркере и расчетов реальных деревьев эти скорости совпадут или будут откорректированы.

Приведенные рассуждения показали, что и на медленных маркерах в рамках существующей модели мы не можем получить достаточно линейный гаплотип и оценить погрешности расчетов, связанные с нелинейностью. Для достижения этой цели необходимо переходить на вторую модель и строить реальные деревья. Это существенно усложняет задачу. Но и в этом случае задачу можно упростить перейдя к гаплотипу, составленному из медленных маркеров, поскольку построение дерева используя только медленные маркеры намного проще. Тем более, что поставленную задачу повышения точности расчетов на 10-15% и более, другим путем не представляется возможным.
aklyosov
30.10.2010, 21:57
Уважаемый Ostan,

Я с симпатией, повторяю, отношусь к Вашим эксерсизам и размышлениям в отношении сложностей работы со столь разнообразной системой, как многомаркерные гаплотипы. Но опять повторяю, что Вы идете тем же путем, как десятки (если не сотни) других людей, которые поразмышляли-поразмышляли, но на этом и завершили. Системы эффективного подсчета картин мутаций и заметного вклада в "молекулярную историю" они так и не сделали.

Это мне порой напоминает хрестоматийную историю о сороканожке, которую спросили, а как она управляется со столь многими ногами? В каком порядке их переставляет? Она, которая никогда об этом не думала, призадумалась, и стала анализировать. В итоге запуталась, и ходить не смогла. Не получилось. Слишком сильно думала об этом.

Другой пример. Можно всю жизнь думать о том, как это молекулы с различной энергией колотятся о стенки сосуда, какие там распределения отдельных молекул по энергиям, и как это теоретически рассчитать, а можно взять манометр и просто померить давление на стенки колеса (атомобильного, например). Рукомендую. Просто и надежно, и без этих хлопот.

Еще пример. Я его время от времени здесь привожу. Можно долго (и непродуктивно) переживать о том, что современная термодинамика растворов применима только к бесконечно разбавленным жидкостям, и что на практике ее применять никак нельзя. А можно взять и применить, как деляют тысячи людей к ужасу "пуристов" (которые, кстати, никогда ничего и не применяли в реальных системах, а в основном показывали, что применять никак нельзя). Вы будете смеяться, но неплохо работает. Но при больших концентрациях растворенных веществ в самом деле отклоняется от теории. Ничего страшного, люди к этому морально готовы, так и пишут - "при больших концентациях, таких-то именно, система отклоняется от теоретической". Никто в них камни не бросает.

Вот так и Вы - Вы много пишете о сложностях. Жизнь вообще сложная штука, происхождение жизни вообще неизвестно. Можно по этому поводу расстраиваться, а можно просто жить. И знаете, по секрету, даже получать от жизни удовольствие. При всей нерешенности вопроса о происхождении жизни.

Вот так и у Вас. Вы много пишете про большие погрешности при работе с медленными мутациями. Это у Вас уже стало типа идеи фикс. Но у меня для Вас новость - ничего подобного. Из 200 мутаций (например) в серии гаплотипов хорошо если десяток приходится на медленные мутации. Это значит - 5% от всех. А это вообще в пределах ошибки расчетов. Иначе говоря, медленные мутации практически не влияют на результат расчета. А Вы так и столь много о них пишете.

Вы же опять не дали ни одного конкретного примера расчетов. В этом-то и беда.

А я вот, например, взял и рассчитал целое большое дерево Мак-Доналдов по их кланам, и получил данные по всем ветвям, которые при этом получились. И - представляете! - не заморачивался тем, какие там сложности с быстрыми и медленными маркерами. Направил МакДоналдам, те перенаправили своим штатным генеалогам (у них целая группа "архивных" генеалогов), и те пришли в восторг. В целом совпало с тем, что у них есть, выявило целый ряд "бастардных" линий, над которыми они уже 200 лет ломают голову, и дало свежую и интересную картину. Сейчас они хотят написать большую совместную статью.

А там, где не совпадет - там и будем думать, в чем дело. Может, тогда что и подправим в консерватории. Но - заметьте - не путем общих размышлений, а с ДАННЫМИ в руках.

Чего и Вам советую.

P.S. Я, честно говоря, не знаю, что за "данные Вертнера", на которые Вы столь часто ссылаетесь, и почему Вы им отдаете предпочтение. На какой основе? Я когда-то рассматривал таблицу его скоростей мутаций, она была очень сырая, он упорно отказывался провести ее сопоставление с другими известными скоростей мутаций, и полученв она была на основе довольно искаженных представлений. Я не знаю, может, с тех пор что-то изменилось, но я как-то не видел в литературе ажиотажа по этому поводу. На международных форумах его данные тоже как-то не обсуждаются. Так все-таки, откуда такое предпочтение?
Ostan
31.10.2010, 12:34
Анатолий Алексеевич, это промежуточный отчет о проделанной работе. Просто справка; что сделано и какие выводы получены. Не более. Ничего окончательного пока нет. Появится, напишу. А что касается различных наук, то они могут существовать в классическом виде, когда оперируют математическими моделями, так и в неклассическом виде, когда таких моделей нет. Например, теория упругости существует в классическом виде уже более сотни лет, а теория пластичности такой вид не имеет и сегодня. Но это не означает, что завтра не может появиться хорошая математическая модель, которая переведет теорию пластичности в классический вид

Ostan
12.11.2010, 18:09
Невозможность определения истинных скоростей мутации из реальных деревьев или их моделей предоопределила поиск альтернативных путей решения этой проблемы. В связи с этим, мое внимание привлек модельный эксперимент, проведенный Clavius-ом ранее в другой теме.
http://www.rodstvo.ru/forum/index.php?showtopic=1046

Эффект переноса мутаций, отмеченный Clavius-ом в эксперименте, по своей природе полностью соответствует диффузии в химических системах и подчиняется законам Фика. Только по сравнению со стационарными условиями, где действует первый закон Фика, скорость диффузии неизменна и достаточно легко определить коэффициент диффузии, в нестационарных условиях, определяемым вторым законом Фика, определить коэффициент диффузии несколько сложнее.

Обычно скорость диффузии в нестационарных системах определяют по скорости распространения диффузионной волны. В эксперименте Clavius-а этой волне соответствует волна мутаций, которая распространяется от модального значения маркера до +-5. Таким образом, задача определения скорости мутации по временному разбросу модального значения маркера полностью соответствует задаче определения коэффициента диффузии из второго закона Фика.

Решение уравнения Фика при распространении диффузионной волны от бесконечно быстро растворяющейся пластины приводит к зависимости, описываемой функцией ошибок ( интеграл ошибок ). Аргументом этой функции является величина обратно пропорциональная корню квадратному от произведения Dt, где D- коэффициент диффузии, а t- время. Вследствие этого, считается, что скорость распространения диффузионной волны обратно пропорционально корню квадратному от времени. Это мнение подтверждается тем, что при любом разложении в ряд функции erf, этот множитель выносится за скобки.

С точки зрения статистики, величину разброса модального значения маркера можно оценить параметром "сигма", равному корню квадратному от величины дисперсии. При исключении квадратных корней получаем, что в реальных экспериментах дисперсия разброса модального значения маркера прямо пропорциональна времени, а коэффициент пропорциональности и соответствует скорости мутации.

Данный вывод и является основой для нового, альтернативного метода определения скоростей мутации или времени до общего предка. Этот метод можно назвать, в отличие от логарифмического, дисперсионным. По этому методу определяется не видимое количество мутаций (+-1,+-2,+-3,...) с весами
1,2,3,.., а то же самое количество мутаций, но с весами 1,4,9... Т.е. определяются дисперсии ( моменты второго порядка ). Самым большим преимуществом метода является то, что в нем нет необходимости учитывать обратные мутации, т.к. они уже учтены в соответствующем законе Фика. Кроме того, в этом методе нет разбаланса между медленными и быстрыми маркерами, т.к. обратные мутации учитываются в каждом маркере раздельно, а общая дисперсия гаплотипа соответствует сумме дисперсий маркеров, входящих в гаплотип. Вследствие этого, данный метод обладает лучшими линейными качествами, чем известные.

Для оценки метода использовалась имеющаяся у меня база гаплотипов R1b из пяти основных субкладов R1b1b2a1a, R1b1b2a1a1,...a1a2,...a1b4,...a1b5. Каждая ветвь по примерно 20 гаплотипов. Кроме того субклад R1b1b2a1a ( U106 ) имел две серии по 19 и 22 гаплотипа. Всего использовались 126 гаплотипов. Суммарный возраст данного набора гаплотипов был принят равным 4000 лет ( 160 поколений ), а в случае расчетов отдельно по субкладу U106 4800 лет ( 192 поколения ).

Были получены следующие скорости мутаций:
для 12 маркерных гаплотипов- для общей серии 0,0221, матожидание 1130 лет, отдельно для субклада U106 - 0,0217, матожидание 1151.
для 25 маркерных гаплотипов- общая серия 0,0474, матожидание 527 лет, для U106- 0,051, матожидание 489.
для 37-маркерных гаплотипов- 0,0997, матожидание 250, для U106- 0,0903, матожидание 277.
для 67-маркерных гаплотипов- 0,1069, матожидание 233, для U106- 0,1122, матожидание 223.

Из сопоставления данных скоростей с существующими видно, что по 12-маркерным гаплотипам практически полное совпадение, а по остальным существует некоторый разброс. Часть погрешности можно списать на достаточно небольшую серию экспериментов, но большая часть погрешности обусловлена разбалансом, существующим в различных гаплотипах и связанным с различными скоростями мутации в быстрых и медленных маркерах.

Судя по тому, что значение скорости мутации для 25-маркерных гаплотипов резко сместилось в сторону скоростей, найденных из прямых экспериментов для пар отец-сын, мы действительно приблизились к реальным скоростям мутации. Дальнейшее совершенствование метода позволит не только увеличить точность расчетов, но и определить реальные скорости мутации в отдельных маркерах.

aklyosov
13.11.2010, 1:25
Очень хорошо, уважаемый Ostan. Я, правда, не понял, чем этот метод отличается от квадратичного метода, и почему Вы не увидели, что он сводится к последнему. Далее, первый закон Фика (величина переноса вещества в процессе диффузии, а именно количество вещества, перенесенное в единицу времени через поперечное сечение ) - это по сути уравнение скорости реакции первого порядка, которое мы здесь и применяем. Уравнение-то тоже, просто по другому называется. Там - константа скорости реакции первого порядка, здесь - коэффициент диффузии. Там - константа скорости не зависит от концентрации превращаемого вещества, здесь - коэффициент диффузии не зависит от концентрации диффундирующего вещества.

Поэтому я не очень понимаю, где здесь "альтернативный путь решения проблемы".

Далее, второй закон Фика в простейшем случае (который Вы, видимо, и применяете), исходит из постоянной скорости потока и постоянного коэффициента диффузии, что мы в мутациях и принимаем (и не без оснований). А дальше пошли квадраты, как и в квадратичном способе анализа мутаций в гаплотипах. Вы с ним знакомы? В нем тоже нет поправки на возвратные мутации.


Цитата(Ostan @ 12.11.2010, 10:09)
Таким образом, задача определения скорости мутации по временному разбросу модального значения маркера полностью соответствует задаче определения коэффициента диффузии из второго закона Фика.


Опять, если я правильно понимаю, это и есть квадратичный метод. Только "модальное значение маркера" не разбрасывается, на то оно и модальное (базовое, как принято в нашем лексиконе). Разбрасываются мутированные значения, а не "модальные". То есть Вы опять считаете число мутаций от базовых значений аллелей в каждом маркере.

Цитата(Ostan @ 12.11.2010, 10:09)
Решение уравнения Фика при распространении диффузионной волны от бесконечно быстро растворяющейся пластины приводит к зависимости, описываемой функцией ошибок ( интеграл ошибок ). Аргументом этой функции является величина обратно пропорциональная корню квадратному от произведения Dt, где D- коэффициент диффузии, а t- время.


Да, похоже, это и есть квадратичный способ. Чтобы уйти от квадратного корня произведения "kt" (где k - константа скорости мутации на поколение, a t - число поколений) Вы фактически возводите это в квадрат, и получаете квадраты мутационных "расстояний".

Собственно, другого и быть не может. Вот между логарифмическим и линейным методами есть принципиальная практическая разница, потому что в одном считаются немутированные гаплотипы, в другом - мутации. А Вы просто называете то же самое "диффузия", "коэффициент диффузии", а суть совершенно та же и сводится к подсчету мутаций и возведению их в квадрат.

Так?

Цитата(Ostan @ 12.11.2010, 10:09)
Данный вывод и является основой для нового, альтернативного метода определения скоростей мутации или времени до общего предка. Этот метод можно назвать, в отличие от логарифмического, дисперсионным. По этому методу определяется не видимое количество мутаций (+-1,+-2,+-3,...) с весами
1,2,3,.., а то же самое количество мутаций, но с весами 1,4,9... Т.е. определяются дисперсии ( моменты второго порядка ). Самым большим преимуществом метода является то, что в нем нет необходимости учитывать обратные мутации, т.к. они уже учтены в соответствующем законе Фика. Кроме того, в этом методе нет разбаланса между медленными и быстрыми маркерами, т.к. обратные мутации учитываются в каждом маркере раздельно, а общая дисперсия гаплотипа соответствует сумме дисперсий маркеров, входящих в гаплотип. Вследствие этого, данный метод обладает лучшими линейными качествами, чем известные.


Вы определенно не знакомы с квадратичным методом определения времен до общего предка. Вы его и описываете. Вот эти Ваши "1, 4, 9..." и есть квадраты мутационных расстояний. Потому и не нужны поправки на возвратные мутации.

Последняя фраза верна только в теории. И Игорь Львович, и я иногда считаем этим методом. Метод неплохой, но очень капризный, потому что затесавшийся чужой гаплотип тут же задирает квадраты мутаций, и резко "удревняет" возраст общего предка.

Цитата(Ostan @ 12.11.2010, 10:09)
Суммарный возраст данного набора гаплотипов был принят равным 4000 лет ( 160 поколений ), а в случае расчетов отдельно по субкладу U106 4800 лет ( 192 поколения ).


Проскольку с методом уже разобрались, не стоило его было Вам особенно проверять. У меня, например, этих "проверок" и расчетов с использованием этого метода полно, и статьи опубликованы. Но цитата выше заставляет поднять брови - что такое "был принят 160 поколений"?? "192 поколения"?? То есть Вы взяли уже рассчитанные данные, и неудивительно. что получили те же значения скоростей мутаций, которые были использованы для получения этих 160 и 192 поколений. То есть Вы замкнули цикл, и получили исходные значения.

Цитата(Ostan @ 12.11.2010, 10:09)
Были получены следующие скорости мутаций:
для 12 маркерных гаплотипов- для общей серии 0,0221, матожидание 1130 лет, отдельно для субклада U106 - 0,0217, матожидание 1151.
для 25 маркерных гаплотипов- общая серия 0,0474, матожидание 527 лет, для U106- 0,051, матожидание 489.
для 37-маркерных гаплотипов- 0,0997, матожидание 250, для U106- 0,0903, матожидание 277.
для 67-маркерных гаплотипов- 0,1069, матожидание 233, для U106- 0,1122, матожидание 223.


Ну, так оно и оказалось. То, из чего Вы отталкивались, а именно константы скоростей мутации, уже определенные нами несколько лет назад, такие примерно и равны:

Для 12-маркерных 0.022 (у Вас 0.022)
Для 25-маркерных 0.046 (у Вас 0.047)
Для 37-маркерных 0.09 (у Вас 0.0997 и 0.09)
Для 67-маркерных 0.145 (у Вас 0.107 и 0.112).

Вполне возможно, что для 67-маркерных гаплотипом нам есть смысл подкрутить скорость мутации вниз от 0.145 до 0.10-0.11, после тщательной проверки. Для этого нам надо наконец сравнить времена до общих предков, рассчитанные по всем панелям по отдельности, и такие данные у нас есть. Надо их сопоставить, усреднить, и внести поправки. Возможно, это время настало.

Но это не есть "новый метод". Метод тот же. Потому что все равно считаются мутации и возводятся в квадрат. Просто, повторяю, Вы отталкивались от диффузии, но по сути уравнения те же.

Новый метод - это когда для расчета времен до предков берутся другие исходные данные. Как, например, в логарифмическом и линейном.


Clavis
13.11.2010, 7:51
По поводу квадратичного метода позвольте вставить мои соображения.
Квадратичный метод придуман не для ДНК. Это решение математической задачи, которую шутливо интерпретируют, как движение ничего не соображающего пьяницы: он, случайным образом, может шагнуть вперед, а может назад. Средневероятное расстояние, на которое он удалится от начальной точки, равно корню квадратному от числа сделанных им шагов. То есть если истинное количество шагов (мутаций в отдельно взятом маркере) 25, то от исходной точки пьяница удалится, вероятнее всего, на 5 шагов (пять шагов от исходного до конечного аллеля в маркере).
Что мне в этом методе не нравится?
Крайне редко бывает так, чтобы разница между двумя гаплотипами составила 5 шагов в одном маркере или того же порядка. Обычно или 0, или 1, реже 2.
Если мы квадратичным методом возводим 0 в квадрат, получаем 0. На самом деле за нулем иногда скрывается два шага в разном направлении, то есть истинное средневероятное количество шагов несколько более нуля - например, 0,04. Далее, если наблюдаемая разница 1 шаг, в квадрате так один и будет, на самом деле это величина немножко более одного. А вот два шага при возведении в квадрат дадут четыре, а на самом деле за двумя видимыми шагами скрывается два с десятыми. То есть квадратичный метод для одних маркеров дает ошибку в сторону завышения возраста, для других - занижения, а в среднем по больнице (допустим, у нас 67 маркеров) - в первом приближении можно пользоваться, причем лучше пользоваться на огромных дистанциях времени - порядка одной мутации на маркер и выше. Преимущество относительно используемой нами модели только в простоте: любой школьник посчитает. Я лично за простотой не гонюсь, предпочитаю точность.

aklyosov
13.11.2010, 15:28
Цитата(Clavis @ 12.11.2010, 23:51)
Квадратичный метод придуман не для ДНК. Это решение математической задачи, которую шутливо интерпретируют, как движение ничего не соображающего пьяницы: он, случайным образом, может шагнуть вперед, а может назад. Средневероятное расстояние, на которое он удалится от начальной точки, равно корню квадратному от числа сделанных им шагов.


Уважаемый Clavis,

Естественно, не для ДНК. И логарифмический метод придуман не для ДНК, и пермутационный, и линейный. Об этом и разговор. На самом деле все перечисленные методы решают одну и ту же задачу - переход материи из одного состояния в другое, при котором переход переходит неупорядоченными толчками с одинаковой вероятностью каждого толчка. Так проходят химические реакции первого порядка, так происходит радиоактивный распад, так происходит диффузия, так происходят мутации в нерекомбинированных областях ДНК.

Поскольку математический аппарат один и тот же для все описанных случаев, то в случае "чистых систем" результат обязан получаться один и тот же. Поэтому слова уважаемого Ostan'a про "новый метод" в принципе неверны. Это не новый метод, это просто другая ментальная картина подхода к тому же методу, при котором за исходную позицию принимается другой физический эффект (диффузия). А суть та же. Можно было бы исходить из картины бегания мальчиков за девочками (и наоборот) на лужайке, и сказать, что это "новый метод расчета мутаций в ДНК".

И тем не менее, есть ПРАКТИЧЕСКИ разные подходы, хотя основаны на той же математике, что пояснена выше. Навскидку, есть два критерия, которые могут определять выбор того или иного похода, и вот здесь их можно называть разными "методами". Один критерий я уже пояснил. Это - считать мутации или сами гаплотипы (например, немутированные среди мутированных). Это - практически принципиально разные вещи. Я говорю о линейном и логарифмическом методе. И что важно - это дает принципиально новую информацию - например о том, один предок в серии, или больше. Более того, логарифмический мотод позволяет снмть проблему recLOH мутаций, унаследованных мутаций (когда одна и та же мутация считается несколько раз) и так далее. (В последнем примере есть свои нюансы, но о них в другой раз). Вот это - действительно новый метод в смысле практического исполнения, и это - действительно вклад нашего коллектива в ДНК-генеалогию. Более того, уважаемый Игорь Львович продвинул этот (логарифмический) метод дальше, перейдя к фрагментам гаплотипов и тем самым существенно расширив области го применения. Это показывает, что поиски и разработки новых методов далеко не завершены.

Другой критерий в оценке новых методов - это насколько они подвержены влиянию привходящих факторов, например, примесям чужих гаплотипов, не из этой ДНК-генеалогической линии. А это часто бывает на практике. Здесь квадратичный метод - самый плохой. Потом что затесавшийся чужой гаплотип с тремя "чужими" мутациями сразу превращает из в девять, и резко удревняет общего предка. А в инейном - это будет всего три мутации, искажение меньше. Но в квадратичном не нужны поправки на возвратные мутации. Хотя при наличии таблиц возвратных мутаций это не проблема. Тот факт, что все наши расчеты дают совпадение квадратичного и линейного (и логарифмического) методов - когда все чужие гаплотипы удалены, показывает, что вклад возвратных мутаций учтывается в линейном методе правильно. И здесь, уважаемый Clavis, нужно отдать Вам должное, потому что вопрос обратных мутаций и пути решения этой задачи на количественном уровне подняли именно Вы, несколько лет назад.


Ostan
14.11.2010, 10:53
Анатолий Алексеевич, это хорошо, что квадратичный способ подсчета мутаций уже существует. Этот способ у меня побочный продукт исследования. Мне надо было выделить влияние соотношения быстрых и медленных маркеров на точность. А это, на мой взгляд, удалось. Вот, например, данные подсчета количества мутаций по моментам первого и второго порядка для 126 маркерам из предыдущего примера. Для наглядности я эти данные разбил по панелям.

Маркеры с1 по 12 по стандарту FTDNA: по моментам первого порядка 381, второго -453, превышение в 1,189.
13-25: по моментам первого порядка- 516, второго- 639, превышение в 1,238 раза.
26-37: по моментам первого порядка- 676, второго - 949, превышение в 1,404 раза.
38-52: по моментам первого- 201, второго - 241, превышение в 1,199.
53-67: по моментам первого- 286, второго- 346 , превышение в 1,210.

На первый взгляд кажется, что разницу между методами подсчета мутаций можно компенсировать какой-нибудь кривой и использовать единые скорости мутации. Но это не так. С учетом того, что сходимость обоих методов достаточно хорошая, мы тем самым просто внесем дополнительную погрешность. Логичнее для разных методов подсчета мутаций использовать различные скорости. Тогда и точность расчетов повысится на искомые 10%-15%. Но при этом пострадает линейность.

Другой пример. Можно вообще при подсчете мутаций не использовать плечи, а считать просто по числу позиций ( моменты нулевого порядка ). В этом случае мутация 0-1 это одна мутация, мутация 1-2 тоже одна, 2-3 тоже одна и т.д. Такой метод тоже можно использовать, если скорости мутаций увеличить примерно в 3 раза ( точнее в 2,4-3,3 по отношению к первому методу и еще более по отношению ко второму). Но точность такого метода резко упадет.

Со вторым случаем я столкнулся при попытках подсчета мутаций в медленных маркерах. Но только квадратичный метод дал удовлетворительные результаты, хотя и разброс данных и был велик из-за того, что реальные деревья вносили слишком большие возмущения. Для этого и потребовалась выборка из различных веток, примерно одного возраста. Эту выборку я хотел довести до 10. а число гаплотипов до 200, но пока времени не хватило.

Таким образом, мое сообщение можно рассматривать как еще один промежуточный этап. Появится время, доведу исследование до логического конца.

Ostan
14.11.2010, 10:59
Уважаемый Clavis, Ваш пример с пьяницой весьма убедителен. Но меня бы еще больше бы убедило, если бы вторая шеренга пьяниц разом бы шагнула вперед, когда первый пьяница шагает назад. Здесь возникает резонный вопрос. А откуда возьмется вторая шеренга пьяниц? Единственный ответ на него- они зарождаются, когда первый думает куда ему шагать. Эта задача не такая простая как кажется. Во многом сама функция распределения и параметры волны мутаций определяются еще и граничными условиями.

В связи с этим у меня к Вам просьба. Если ваша программа сохранилась, не могли ли бы Вы смоделировать график зависимости дисперсии распределения от времени. Было бы крайне интересно посмотреть шатание пьяниц в начальные времена и линейность графика с увеличением времени. Да и вообще, будет ли соответствовать тангенс угла наклона графика заданной скорости мутации.

aklyosov
14.11.2010, 18:13
Уважаемый Ostan,

Я уже писал не раз, что с сочувствием и симпатией отношусь к Вашим поискам и упражнениям. Если Вы в итоге найдете подход, который позволит увеличить точность расчетов и облегчит практический расчет (например, не читать вручную сотни и тысячи мутаций в сериях гаплотипов), то я первый Вас поздравлю.

Но пока Вы - как необходимый этап, конечно - заняты размышлениями о том, что лучше - чтобы хвост вытащить, но нос увяз, или нос вытащить, но хвост увяз. Это, конечно, не новые методы расчетов. Это осознание того, что идеала не бывает.

Рано или поздно у Вас наступит самый важный этап - это расчет реальных серий гаплотипов. И вот тогда Вы увидите, что "жизнь сложнее схемы". Пойдут и recLOH мутации, о которых Вы сейчас и не думаете, пойдут смеси общих предков, пойдут рваные и лохматые деревья гаплотипов, которые Вы сейчас и не представляете. Вы сейчас типа в стрелковом тире, а это не настоящее поле боя. Вы пока исходите из кукольных, идеальных, теоретических серий гаплотипов.

А передо мной сейчас реальное дерево гаплотипов гаплогруппы, скажем, О. Это - около тысячи гаплотипов, рваное дерево с двумя десятками (как минимум) ветвей, переходящих одна в другую... Ну, и как Вы собираетесь с ним работать, исходя из Ваших текущих поисков? А вот это и есть настоящая, реальная задача.

Есть три параметра, определяющих точность результата даже в случае только одного общего предка (что бывает РЕДКО). Это - число мутаций в серии гаплотипов, это - выбранная и откалиброванная скорость мутации (куда входит и продолжительность поколения), это - погрешность скорости мутации.

С первым Вы ничего не сделаете, это - данность. Так что точность у Вас уже поехала. Второе Вам еще предстоит определить и выверить. Третье - Вам еще предстоит определить. И тогда Вы увидите, что погрешность финального результата такая, что все Ваши юстировки могут оказаться ничего не определяющими. Но пробовать нужно - почему нет?

Ostan
17.11.2010, 12:08
Михаил Юрьевич, спасибо за присланные материалы по Вашей модели. Модель, в самом деле, достаточно простая и добротная. Уравнения типа второго закона Фика получаются из законов сохранения в дифференциальном виде. В Вашей модели законы сохранения соблюдаются как интегрально, так и дифференциально. Действительно, всегда рассматривается постоянное число гаплотипов, как мутированных, так и не мутированных, и если число не мутированных гаплотипов убывает на единицу, то количество мутированных на эту же величину прибывет, и наоборот. Поэтому при переходе на непрерывные распределения мы получаем те же уравнения, что и при решении уравнений типа второго закона Фика.

Теперь о граничных и начальных условиях. Они в Вашей модели и в моем примере несколько различны. Если при решении уравнений нестационарной диффузии обычно исходят из постоянной концентрации на поверхности растворяющейся пластины, и получают при решении функцию ошибок, то в Вашей модели, количество не мутированных гаплотипов постоянно убывает. Этот случай соответствует импульсному растворению. Мгновенно растворяется определенное количество вещества, принимается за 100%, и затем рассматривается волна диффузии. При таких начальных и граничных условиях при решении уже не получится функция ошибок. Скорее решение будет соответствовать ее первой производной- закону нормального распределения. Но это не важно, так как это распределение мы уже получили в модели.

Из модели хорошо видно как изменяются параметры распределения. Так, число не мутированных гаплотипов убывает со временем по закону, близкому к экспоненциальному. Это также важный вывод, поскольку определяет возраст гаплотипа. Но наиболее важным, на мой взгляд, является то. что дисперсия распределения является строго линейной функцией от времени. На просчитанных Вами 1439 шагах и возрасте 35975 лет, количество мутаций, определенное из дисперсии составляет 282. Соответственно, скорость мутации составляет 0,196 , против заданной 0,2 , матожидание 127,57 лет, против заданного 125 лет. Как видно ошибка не более 2%, но с учетом того, что распределения определялись с точностью до процента, результат очень хороший.

Но интересно насколько модель соответствует действительности. При рассмотрении реальных систем, как это было смоделировано ранее в другой теме, существует естественная убыль и естественная прибыль чистых генеалогических линий. Чтобы их учесть в Вашей модели достаточно после каждого шага выбросить каждый четвертый гаплотип и столько же добавить. На первый взгляд ничего в модели не изменится так как вероятность выбытия мутированных гаплотипов соответствует вероятности их добавления. Но это возможно только при больших массивах носителей гаплотипов в ветках. Если их число больше миллиона, то, естественно, этим эффектом можно принебречь. Но если их число не достаточно велико, то наблюдается случайное перемешивание численности мутированных и не мутированных гаплотипов. А это равносильно, как если бы при диффузионном массопереносе появилась конвективная составляющая массопереноса. Т.е. реально измеренные коэффициенты диффузии были бы завышены, И в нашем случае возможно завышение скоростей мутации, определенных из реальных деревьев.

Поэтому, мне Ваша модель понравилась вдвойне. Так как и этот эффект завышения скорости мутации, определенный из реальных деревьев, по сравнению со скоростями, определенными в парах отец-сын, можно смоделировать. Еще раз спасибо, и, надеюсь, что Вы продолжите усовершенствовать Вашу модель для различных конкретных случаев.

Clavis
24.11.2010, 8:08
Александр Владимирович, извините за задержку с ответом!
>Действительно, всегда рассматривается постоянное число гаплотипов, как мутированных, так и не мутированных

Уточню: в той модели это не число гаплотипов, а число "одномаркерных гаплотипов". Так что если через 42 поколения остается 92% исходных - это вероятность сохранения исходной аллели (числа повторов) в неком усредненном маркере. А если мы рассматриваем 67-маркерный гаплотип (я пренебрегаю пока такими тонкостями, как палиндромы), то 0,92 следует возвести в степень 67. И получим, что исходный гаплотип сохранится в 0,4% случаев. Это, конечно, грубая оценка, потому что если надо найти произведение N чисел (для каждого из N маркеров своя вероятность сохранить исходный вид), а мы взяли среднее арифметическое от этих чисел и возвели в степень N, то получим ошибку, особенно заметную тогда, когда числа могут различаться на порядок (а у нас так и есть!).

>При рассмотрении реальных систем, как это было смоделировано ранее в другой теме, существует естественная убыль и естественная прибыль чистых генеалогических линий

Воля ваша привносить в модель любой фактор, который Вас интересует! Я вот такой чудак (второй чудак - Ken Nordtvedt), что увлекаюсь только неразветвленными цепочками от одного гаплотипа до другого. При этом совершенно фиолетово, сколько генеалогических линий отпочковалось и ушло в сторону - миллион или ни одной, то есть все благополучно умерли или избегают тестироваться.

aklyosov
24.11.2010, 13:55
Цитата(Clavis @ 24.11.2010, 0:08)
Воля ваша привносить в модель любой фактор, который Вас интересует! Я вот такой чудак (второй чудак - Ken Nordtvedt), что увлекаюсь только неразветвленными цепочками от одного гаплотипа до другого. При этом совершенно фиолетово, сколько генеалогических линий отпочковалось и ушло в сторону - миллион или ни одной, то есть все благополучно умерли или избегают тестироваться.


Уважаемый Clavis,

На самом деле это и есть правильный подход. Если провести от Вас до ближайшего общего предка Вашей популяции (представляемой серией гаплотипов в любом количестве, только чтобы от одного ближайшего общего предка), то это будет непрерывная и неразветвленная цепочка. Причем только одна. То же самое - для любого другого современного гаплотипа в серии гаплотипов. То есть никаких разветвлений там просто нет и быть не может, и никаких покойников, не оставивших потомков, там тоже не присутствует, ни в явном, ни в неявном виде. Как и тех, кто не протестировался в настоящее время. Не отражен там и фактор, о котором только и говорят популяционные генетики - это внезапная expansion популяции в какое-то время в прошлом. Эта экспансия могла быть или не могла - не имеет никакого значения, потому что Вы связаны с общим предком в серии все равно прямой и непрерывной линией поколений.

А поскольку, как следует из массы экспериментальных данных, в сумме этих цепочек в среднем мутации идет неупорядоченно, то перед нами простая статистическая модель, которая искажена обратными мутациями (тоже статистическими, так что идет сумма двух статистик), recLOH и прочими привходящими факторами. Плюс общий предок для серии часто бывает не один, плюс наложение одних бутылочных горлышек для одних ветвей и других - для других ветвей. Весь фокус в том, как эту систему разложить на отдельные ветви, по одному общему предку для каждой, и посчитать по отдельности.

В тех (относительно редких) случаях, когда общий предок действительно один (как правило, для относительно молодых серий, или для серий с одним бутылочным горлышком), положение о неупорядоченности мутаций прекрасно проходит. Там и линейная модель совпадает с логарифмической, и воспроизводимость хорошая для разный серий гаплотипов, причем гаплотипов разной протяженности. В параллельной теме я дал пример для серий R1a1.

В этом отношении наша, российская "школа" бесконечно впереди популяционных генетиков, а также, например, дискутантов в RootsWeb и других англоязычных форумов. Там в основной массе народ сидит и ахает, какая сложная система, и что их рассчитывать просто невозможно, и что неупорядоченности мутаций нет или это не доказано. И что неизвестно, какие маркеры брать для расчетов. И так далее. Последняя (очередная) дискуссия на RootsWeb это опять хорошо показала (см. параллельную тему).

Clavis
25.11.2010, 7:18
Анатолий Алексеевич, у нас с Вами, как обычно, полное взаимопонимание.
Но поскольку я хочу поделиться опытом с новичками, которые приходили, приходят и будут приходить, которые строили, строят и будут строить свои модели мутаций (и это замечательно!), то местами буду говорить вещи известные, даже избитые.
Итак.
Неразветвленная цепочка, соединяющая гаплотип потомка и гаплотип предка, неудобна чем? Гаплотип потомка известен, а если нехватает каких маркеров, мы с ним поговорим, он дозакажет, дело житейское.
Для гаплотипа предка сложнее. Некоторые маркеры совершенно очевидны, другие - бабушка надвое сказала, а бывает гадание на кофейной гуще из нескольких вариантов. То есть для длинного гаплотипа всегда есть неопределенность, а для коротенького слишком мало мутаций, чтоб прикинуть число поколений в цепочке.
Другое дело, когда мы соединяем цепочкой два современных гаплотипа, перекидывая цепочку через общего предка. Если мы соединили родных братьев, в цепочке два звена, если двоюродных - четыре звена, стоюродных - двести звеньев. При этом цепочка будет абсолютно одинакова по свойствам (вероятность сохранения исходного гаплотипа, гистограмма числа мутаций, средневероятное количество наблюдаемых и истинно произошедших мутаций) в обоих случаях: между N-юродными братьями или между потомком и его предком 2N поколений назад.
В первом случае мы имеем два надежно зафиксированных конца, например, два 67-маркерных гаплотипа, остается посчитать это N. Но и в случае 67 маркеров точность расчета оставляет желать лучшего.

Однако в базах данных можно найти для каждого из N-юродных братьев более близких родственников, например, по числу мутаций между ними. Получается, от предка пошли две линии, которые потом разветвились: в одном случае на n тестированных потомков, в другом случае на m потомков. Значит, через этого общего предка можно провести mn неразветвленных цепочек, и в каждой будет свое число мутаций, и даже своё число поколений (которое мы, не имея родословной росписи, в точности не знаем). А что общего во всех цепочках? Их длина в годах: от современности до времени жизни общего предка плюс обратно до современности. Значит, один и тот же интервал времени мы можем рассчитать по числу мутаций mn раз, что значительно повысит точность противу однократного расчета.

aklyosov
25.11.2010, 15:25

Ну раз для новичков, уважаемый Clavis, то несколько комментариев.

Цитата(Clavis @ 24.11.2010, 23:18)
Неразветвленная цепочка, соединяющая гаплотип потомка и гаплотип предка, неудобна чем? Гаплотип потомка известен, а если нехватает каких маркеров, мы с ним поговорим, он дозакажет, дело житейское.


Я, признаться, не понял, в чем здесь "неудобство". Может, здесь должно стоять - "удобна чем?"

Цитата(Clavis @ 24.11.2010, 23:18)
Некоторые маркеры совершенно очевидны, другие - бабушка надвое сказала, а бывает гадание на кофейной гуще из нескольких вариантов. То есть для длинного гаплотипа всегда есть неопределенность, а для коротенького слишком мало мутаций, чтоб прикинуть число поколений в цепочке.


Так именно потому мы считаем (я, во всяком случае, считаю, и не только я один) не по отдельным маркерам, а по их общей статистике. Это как в химической кинетике - серия параллельных реакций считается как одна реакция, если ведет от одного вещества к тому же продукту. Иначе пришлось бы для каждой молекулы свою кинетику рассчитывать. А они (молекулы) барабанят каждая по-своему, но в сумме "процесс пошел". Так и в колесе автомобиля - каждая "молекула воздуха" барабанит о внутреннюю стенку колеса по-своему, а манометр показывает всего одно показание давления. Усредненное. Сказала там бабушка надвое или нет, гадание это на кофейной гуще или нет - кому как. А манометр - вот он.

Это же и о "неопределенности", о которой Вы упомянули. Она же и определенность. Опять кому как. Мы вообще живем в неопределенном, статистическом мире, и ничего, справляемся. Так что неопределенность не в длинном гаплотипе как в таковом, а в их количестве. Это как с деньгами - проблема не в них, а в их количестве.

Так и в гаплотипах.

То же и для коротких гаплотипов - мутаций в них вовсе не мало, если их взять много. Я сейчас закончил (предварительный, вводный) вариант работы с китайскими гаплотипами гаплогруппы О. Их - более 800 в списке, то есть даже для коротких - 7-8-маркерных, получаются примерно 6000 маркеров, и вот они дают неплохую статистику. Расчеты получаются четкими и воспроизводимыми. По крайней мере на том уровне вопросов, которые я ставил в этой работе.

Цитата(Clavis @ 24.11.2010, 23:18)
Но и в случае 67 маркеров точность расчета оставляет желать лучшего.


Если это для двух гаплотипов - несомненно оставляет желать лучшего. Поэтому два 67-маркерных гаплотипа - это частный, специальный случай, который дает только сугубо ориентировочный результат. Но иногда и это полезно, а иногда и ответ решающий. Если фамилии к тому же совпадают. А в остальных случаях - почти бесполезно, тем более на уровне 12-маркерных гаплотипов, искать "совпадения". Это - воробьями стрелять по пушкам. Как гласит великая русская поговорка.

Clavis
26.11.2010, 9:02
>Так именно потому мы считаем (я, во всяком случае, считаю, и не только я один) не по отдельным маркерам, а по их общей статистике
Анатолий Алексеевич, Вы-то считаете по группе гаплотипов, восходящих к общему предку, а я сразу оговорил, что буду вести речь о неразветвленной цепочке: два гаплотипа на концах, а остальные в данном расчете не рассматриваются. Тут вся статистика внутри двух гаплотипов.

aklyosov
26.11.2010, 16:01
Цитата(Clavis @ 26.11.2010, 1:02)
Вы-то считаете по группе гаплотипов, восходящих к общему предку, а я сразу оговорил, что буду вести речь о неразветвленной цепочке: два гаплотипа на концах, а остальные в данном расчете не рассматриваются. Тут вся статистика внутри двух гаплотипов.


Это я не очень понимаю, если речь В ИТОГЕ о наборе гаплотипов в серии. А так задача обычно и ставится - найти общего предка популяции гаплотипов.

То, что Вы обрисовали, я решаю для двух БАЗОВЫХ гаплотипов, каждый для своей ветви. Они значительно более устойчивы по сравнению с отдельными, случайными гаплотипами. Тогда у меня в руках три параметра - возраст каждой ветви (т.е. возраст общего предка для каждой ветви) и временнОе расстояние между двумя базовыми гаплотипами, которые и принимаются как неразветвленная цепочка из трех звеньев, как Вы и описали.

Если же Вы о наборе гаплотипов в серии (см. выше), и Вы делаете пермутационный перебор во всех гаплотипах попарно, то это эквивалентно тому, что я делаю в "линейной" модели. То есть выявление базового гаплотипа и числа мутаций от него. Так успешно считаются даже общие предки до 20 тысяч лет назад, как я недавно убедился на многосотенных сериях для китайских гаплотипов гаплогруппы О. Только там из-за древности хвосты по аллелям очень длинные, базовая аллель, например, 15, а диапазон аллелей от 7 до 22, причем часто хорошая гауссовая кривая. За 20 тысяч лет - немудрено.

Ostan
26.11.2010, 20:20
Михаил Юрьевич, прошу прощения, но моя полставочная работа временно ( сезонно ) превратилась в полноставочную, съев субботы и даже воскресенья. Поэтому пока времени нет совсем. Но через неделю, другую полностью освобожусь. А пока немного проясню ситуацию.

Мы пользуемся одной и той же моделью. Только я перешел к непрерывным распределениям, а Вы пользуетесь дискретными. Если использовать Г-распределение, то при параллельных событиях ( мутациях ), происшедших в течении одной временной дистанции, скорости мутаций складываются, давая новое Г-распределение. А при последовательном совершении событий складываются матожидания. Это хорошо видно на Вашем примере. Вы смоделировали распределение ста одномаркерных гаплотипов, мутирующих со скоростью 0,002 и, за 1439 шагов получили 282 мутации. Т.е 2,82 мутации на гаплотип, что соответствует скорости мутации 0,00196. Но такой же результат можно получить для 100-маркерного гаплотипа, мутирующего со скоростью 0,2. В этом случае мы получаем 282 мутации на гаплотип и скорость 0,19597. Это следует непосредственно из свойств Г-распределения, когда мутации в маркерах происходят параллельно и не зависимо друг от друга.

Из свойств Г-распределения следует аналогия с электрическими цепями. Например, рассмотрим цепь из трех сопротивлений R, два из которых соединены параллельно, а одно последовательно к первым двум. Если пропускать ток I через одно из параллельных сопротивлений и конец цепи, то получим два последовательно соединенных сопротивления и напряжение на концах цепи будет U=2IR. При этом третье сопротивление не окажет никакого влияние на ток и напряжение в цепи, поскольку оно не задействовано. То же самое мы получим если пропустим ток через второе параллельное сопротивление, не задействовав первое. Но если пропускать ток через оба сопротивления одновременно, то получим напряжение на концах цепи U=3IR. Это связано с тем, что через последовательное сопротивление пройдут два тока, дав падение потенциала 2IR. Теперь разъединим эти две цепочки в две параллельные. Чтобы сохранить потенциалы ( падение потенциалов ) в каждой цепочке мы должны расщепленное сопротивление увеличить в два раза. Тогда в первой параллельной цепочке падение напряжения будет 3IR. Такое же падение будет и во второй цепочке.

Данный пример показывает, что не все цепочки мутаций можно рассматривать как параллельные и независимые. Если для двух потомков имеем два гаплотипа и они имеют общего предка, то цепочки мутаций от этих двух гаплотипов до общего предка в общем случае не будут параллельными и независимыми, так как эти цепочки могут пройти через общие для обоих гаплотипов ветки.Это не означает, что линейной моделью нельзя пользоваться. Просто скорости мутаций, определенные по линейной модели не совпадут со скоростями мутаций, определенных из пар отец-сын. Этот эффект особенно заметен на медленных маркерах. Так скорости мутаций на медленных маркерах, определенные Вертнером оказались в 4-6 раз больше, чем скорости мутаций на тех же маркерах, определенные мною квадратичным методом. Но об этом напишу позже.

kosmonomad
27.11.2010, 19:45

Цитата
The research paper summary finishes with.......
>>>>>>>
Conclusion
Our findings may be combined into a hypothesis for the emergence of a weak nucleosome-positioning code. According to this hypothesis, consistent nucleosomes may be partly guided by nearby nucleosome-free regions through statistical positioning. Once established, a set of well-positioned consistent nucleosomes may impose secondary constraints which further shape the structure of the underlying DNA. We are able to capture these constraints through the application of a recently introduced structural property that is related to the symmetry of DNA curvature. Furthermore we show that both consistently-positioned nucleosomes and their adjacent nucleosome-free regions show an increased tendency for the conservation of this structural feature.

<<<<<<<

I am not sure that I fully understand this, but I think it is suggests that once certain DNA structural features have developed, there is an increased tendency for the conservation of the structural feature. Does this mean that new mutations are not totally random, but are in some way influenced by a tendency to conserve existing structural features?



This research paper did not relate to humans, and did not relate to Y-DNA. However, it is possible that basic principles apply in a similar way to different types of DNA.
aklyosov
27.11.2010, 20:19
Ну и...

Автор пишет, что это не понимает, что это не относится к людям, и не относится к Y-хромосоме. Однако, возможно...

 

Ostan
2.12.2010, 12:55
Стало появляться время, и я продолжу анализ модельного эксперимента Михаила Юрьевича, который для простоты буду называть распределением Клависа.

С точки зрения дисперсионного анализа, распределение Клависа можно представить как сумму дисперсий независимых, параллельных экспериментов. В этом случае распределение Клависа будет соответствовать распределению Хи-квадрат и достаточно быстро стремиться к нормальному. Искомая средняя дисперсия для одномаркерного гаплотипа может быть найдена делением суммарной дисперсии на число степеней свободы. В примере, приведенном ранее суммарная дисперсия равна 282, а число степеней свободы 100-1=99. В итоге мы получаем дисперсию 2,85 , а скорость мутации 0,00198, которая ближе к заданной 0,002, чем найденная ранее 0,00196. Это лишний раз показывает, что распределение Клависа является результатом Гаусовского случайного процесса и достаточно быстро стремится к нормальному.

Если использовать гипотезу о Гамма-распределении мутаций во времени, то при фиксированном числе поколений ( шагов в модели ), Гамма-распределение ( распределение Эрланга ) превращается в распределение Пуассона. Поэтому представляет интерес сравнить распределения Клависа и соответствующее ему распределение Пуассона. Распределение Пуассона рассчитывалось при параметре "лямбда" ( кси и т.д.), равному числу поколений, деленному на матожидание (величина, обратная скорости 0,002). В нашем случае это 1439/500=2,878. В Пуассоновском распределении "лямбда" соответствует матожиданию количества мутаций а также дисперсии. Получены следующие значения.

p(0)= 0,0563
p(1)= 0,162
p(2)= 0,233
p(3)= 0,223
p(4)= 0,161
p(5)= 0,0734
p(6)= 0,0352
и т.д.
Распределение Клависа для этого случая
p(-4)= 0,01
p(-3)= 0,05
p(-2)= 0,11
p(-1)= 0,20
p(0)= 0,25
p(1)= 0,20
p(2)= 0,11
p(3)= 0,05
p(4)= 0,01

Как видно, эти два распределения не совпадают по существу. Если в распределении Пуассона мутации следуют по схеме 0, 1, 2, 3,... , то в распределении Клависа схема случайная 0,-1, 0, 1, 2, 1.... и т.д. Так, например, число немутированных гаплотипов по распределению Пуассона равно 5,6%, а по распределению Клависа 25%. Это связано с тем, что в распределении Клависа учтены случаи обратных мутаций от -1 к 0, и от 1 к 0, тогда как число гаплотипов, которые в самом деле никогда не мутировали соответствует 5,6%. Единственный параметр, по которому эти оба распределения совпадают, является дисперсия, которая в обоих случаях равна 2,878 ( 2,85 в случае моделирования распределения Клависа ). Это еще раз подчеркивает, что линейный метод подсчета времени до общего предка непосредственно из распределения Клависа даст величины отличные от квадратичного метода. В то же время, если использовать линейный метод при известном распределении Пуассона, то данные, полученные линейным методом и данные, полученные квадратичным методом, совпадут.

aklyosov
2.12.2010, 13:17
Цитата(Ostan @ 2.12.2010, 4:55)
Это еще раз подчеркивает, что линейный метод подсчета времени до общего предка непосредственно из распределения Клависа даст величины отличные от квадратичного метода. В то же время, если использовать линейный метод при известном распределении Пуассона, то данные, полученные линейным методом и данные, полученные квадратичным методом, совпадут.


Если я правильно понимаю, Вы показываете, что линейный и квадратичный методы различаются на величину фактора обратных мутаций. Это правильно. Именно потому в линейном методе нужно вводить поправку на возвратные мутации, а в квадратичном - нет.
eugene
2.12.2010, 14:03
Самый точный способ определения времени жизни общего предка может быть только дифференцирование функции значений аллелей и поколений, но без указания точного времени жизни одного поколения и количества этих поколений мы получим только min и max, который могут показывать очень большой разброс. Вывод такой, наиболее приемлимая схема линейная, основанная как у А. Клесова на статистике, и чем больше гаплотипов и маркеров в определенных выборках тем точнее результат.

aklyosov
2.12.2010, 14:26
Цитата(eugene @ 2.12.2010, 6:03)
...но без указания точного времени жизни одного поколения и количества этих поколений мы получим только min и max, который могут показывать очень большой разброс.


Это не совсем так. У меня поколений в формулах вообще нет, например, это только слово такое, чтобы звучало привычно. А скорость мутации откалибрована фактически в годах. Это не "поколение" у меня, а "четверть века". (===== осознано однако: П.З.)

То есть это в противоположность известной байке, когда слово есть, а предмета нет.

eugene
2.12.2010, 14:35
Цитата(aklyosov @ 2.12.2010, 14:26)
Цитата(eugene @ 2.12.2010, 6:03)
...но без указания точного времени жизни одного поколения и количества этих поколений мы получим только min и max, который могут показывать очень большой разброс.


Это не совсем так. У меня поколений в формулах вообще нет, например, это только слово такое, чтобы звучало привычно. А скорость мутации откалибрована фактически в годах. Это не "поколение" у меня, а "четверть века".

То есть это в противоположность известной байке, когда слово есть, а предмета нет.

Анатолий Алексеевич,
Пускай четверть века, но ведь это несомненно привязка к среднестатистичекому времени жизни между двумя поколениями, по крайне мере последние 3-5 тыс. лет (раньше видимо было меньше 25 лет). Иначе каков смысл расчетов? Мне лично интересно узнать приблизительное время жизни общего предка, и так сказать порадоваться от этого знания, иначе только знать сколько поколений - это всей равно что наслаждаться созерцанием золотого изделия, не зная сколько в нем содержиться именно чистого золота.

Другое дело, что у вас в формуле непосредственная привязка поколения и времени его жизни и коэффициэнта, характеризующего кол-во мутаций в гаплотипе за поколение.
Ostan
2.12.2010, 19:36
Цитата(aklyosov @ 2.12.2010, 16:17)
Цитата(Ostan @ 2.12.2010, 4:55)
Это еще раз подчеркивает, что линейный метод подсчета времени до общего предка непосредственно из распределения Клависа даст величины отличные от квадратичного метода. В то же время, если использовать линейный метод при известном распределении Пуассона, то данные, полученные линейным методом и данные, полученные квадратичным методом, совпадут.


Если я правильно понимаю, Вы показываете, что линейный и квадратичный методы различаются на величину фактора обратных мутаций. Это правильно. Именно потому в линейном методе нужно вводить поправку на возвратные мутации, а в квадратичном - нет.


Анатолий Алексеевич, все правильно. Но нужно заметить, что этот вывод может касаться только случая параллельных и независимых гаплотипов, как в эксперименте Клависа. В общем случае определения общего предка существуют оговорки, показанные выше. Об этом подготовлю материал позже.

aklyosov
3.12.2010, 16:07
Цитата(Ostan @ 2.12.2010, 11:36)
Цитата(aklyosov @ 2.12.2010, 16:17)
Цитата(Ostan @ 2.12.2010, 4:55)
Это еще раз подчеркивает, что линейный метод подсчета времени до общего предка непосредственно из распределения Клависа даст величины отличные от квадратичного метода. В то же время, если использовать линейный метод при известном распределении Пуассона, то данные, полученные линейным методом и данные, полученные квадратичным методом, совпадут.


Если я правильно понимаю, Вы показываете, что линейный и квадратичный методы различаются на величину фактора обратных мутаций. Это правильно. Именно потому в линейном методе нужно вводить поправку на возвратные мутации, а в квадратичном - нет.


Анатолий Алексеевич, все правильно. Но нужно заметить, что этот вывод может касаться только случая параллельных и независимых гаплотипов, как в эксперименте Клависа. В общем случае определения общего предка существуют оговорки, показанные выше. Об этом подготовлю материал позже.


Я не знаю, что такое параллельные гаплотипы, но то, что они должны быть независимые, это совершенно ясно.

А что такое непараллельные и зависимые гаплотипы, для "общего случая"??

Ostan
5.12.2010, 13:14
Случай, когда цепочки гаплотипов могут быть взаимосвязаны и не параллельны рассмотрен в сообщении 189 ранее.

aklyosov
5.12.2010, 14:18
Цитата(Ostan @ 5.12.2010, 5:14)
Случай, когда цепочки гаплотипов могут быть взаимосвязаны и не параллельны рассмотрен в сообщении 189 ранее.


Уважаемый Ostan, я не могу принять (для себя) то, что описано в конце указанного сообщения. То, что кто-то рассчитал что-то и получил нечто, что не совпадает с Вашими расчетами, никак не может быть аргументом. Далее, то, что Вы привели про сына и отца, совершенно растворяется в статистике набора гаплотипов.

Как я уже здесь много раз пояснял, такие мелкие умозрительные "модели" и прочие соображения всегда нужно пояснять на примерах серий гаплотипов, взятых из реальной жизни, из практики. Иначе это просто несерьезно, увы.

Например, Вы так много говорите о медленных маркерах, видимо, не осознавая, что их вклад в баланс числа мутаций обычно пренебрежимо мал, и практически всегда в пределах ошибки измерений и расчетов. Чтобы это осознать, надо посчитать немало реальных серий гаплотипов. Да хотя бы одну серию.

Через день-два выйдет декабрьский выпуск Вестника, посмотрите, как тщательно и на скольких примерах реальных серий гаплотипов мы с уважаемым И.Л. Рожанским обосновываем изменение всего одной расчетной цифры.

===================== жду продолжения:
Интересные продолжения там уже идут, так что каждый самостоятельно может искать правых и "неправых": П.З.)
 
Очень бы специалисты по ДНК-генеалогии помогли историкам, если бы дали общий прогноз, какие гаплогруппы каких гаплотипов (отчасти специально подставляюсь) могли существовать в тех или иных регионах, но вскоре или через века исчезли. Да, это невообразимо много предположений. Но вероятности-то есть. И тогда сами специалисты- ДНК-генеалоги перестанут делать рассуждения типа. Вот по нашим подсчётам, гаплогруппа R1a с Русской равнины ушла, а затем вернулась. А может быть, какие гаплотипы этой гаплогруппы всё-таки оставались и затем в силу разных причин исчезли ?!  Ведь подобное с мужчинами многократно наблюдалось   http://www.proza.ru/2010/11/28/362

==================================== уточнениям продолжаться и продолжаться.
До бесконечности, пока не будет натуральных подтверждений.

Ostan
28.2.2011, 18:50
Игорь Львович недавно подтвердил калибровку Анатолия Алексеевича. Впрочем, в правильности этой калибровки сейчас уже мало кто сомневается. Калибровка относится к области до 2000-2500 лет в которой все существующие методы расчета времен до общих предков совпадают. Однако некоторые разногласия остаются в другой области времен, охватывающей период с 3000 до 6000 и более. В этой области различные методы расчета уже часто дают различные результаты. Попробуем в этом разобраться.

Для оценки времени для анализа области в которой производятся расчеты рационально ввести безразмерный параметр t/m, где t-время, а m- математическое ожидание единичной мутации в маркере . Данный параметр используется в Гамма-распределении, экспоненциальном и т.д. Кроме того, он совпадает с количеством мутаций в маркере. Эта зависимость и лежит в основе определения возраста. Поэтому, область использования того или иного метода и характеризуется, в первую очередь, величиной параметра t/m.

В диапазоне параметра t/m= 0...0,2 все существующие методы расчета практически совпадают. В этом диапазоне зависимости практически линейные. Даже различия между линейным методом и квадратичным невелики. Приведение всех методов расчета к единому результату не представляет сложности. С этим прекрасно справляется логарифмический метод.

Логарифмический метод основан на экспоненциальной зависимости, лежащей в основе экспоненциального распределения. Последнее получается для единичной ( первой ) мутации в рамках как распределения Пуассона, так и непрерывного Гамма-распределения. Это является обоснованным для областей, отстоящих недостаточно далеко от области начальных мутаций. При появлении вторичных мутациях, а тем более последующих, уже возможны небольшие отклонения.

Для определения поправок для линейного метода обычно используют термин "возвратные мутации". Этот термин не совсем корректен, но хорошо характеризует смысл этих поправок. Дело в том, что экспоненциальное и Г-распределения оперируют с осью событий, которая, также как ось времени, имеет только положительные значения. В реальных распределениях мы уже оперируем пространственной осью мутаций, являющейся только фронтальной проекцией оси событий, и значения мутаций на ней могут быть как положительные, так и отрицательные.
Вследствие того, что вторичные мутации на пространственной оси по направлению могут не совпадать с направлением первой мутацией, то при формальном переносе на ось событий они могут рассматриваться как обратные. В этих условиях логарифмический метод дает удовлетворительный результат для расчета поправок для линейного метода.

При определении количества мутаций в реальных гаплотипах следует иметь ввиду, что при среднем количестве мутаций 0,2 , реальные значения параметра t/m для отдельных быстромутирующих маркеров могут отличаться в 10 раз и более. Т.е. приближаться к 2,0 и больше. При таких значениях параметра появляется вероятность появления не только вторичных мутаций, но и 3-х, 4-х и 5-х. А на пространственной оси событий уже начинает формироваться симметричное нормальное распределение. В этих условиях термин "возвратные мутации" теряет смысл.

Как было показано в модельном эксперименте Clavisa, уже со значения параметра t/m=1,0 мы имеем достаточно хорошо сформированное нормальное распределение. При нормальном распределении, моменты распределения также пропорциональны параметру t/m, однако момент первого порядка пропорционален корню квадратному из t/m, момент второго порядка пропорционален t/m, момент третьего порядка пропорционален t/m в степени 3/2 и т.д. А сам параметр t/m полностью совпадает с дисперсией распределения. При t/m=2,87 в модельном эксперименте Clavis-а, определение дисперсии ( второго момента ) дает 2,83, а расчет дисперсии из отношения момента третьего порядка к моменту первого порядка, с использованием рекуррентной формулы, связывающей моменты, дает 2,84, что составляет 97% и 98% соответственно. Т.е. к величине t/m= 2,87 формирование нормального распределения можно считать завершенным.

Представляет интерес оценить в каких областях параметра t/m можно использовать логарифмический метод, а в каких требуется уже использовать соотношения, связанные с нормальным распределением. В нормальном распределении основной функцией является не экспонента, как в экспоненциальном распределении, а интеграл ошибок Erf. Обе функции связаны между собой и представляют первые функции семейства En (x). В частности, E1 (x)= 1- Exp (-x) , а E2 (x) = Erf (x). В диапазоне х до 0,2 обе функции практически совпадают и различие не более 5%. При х= 0,2...0,4 различие составляет уже 10-20%, в диапазоне х= 0,4...0,6 различие достигает 30% и практически не изменяется до 1,0. В диапазоне свыше 1,0 различие начинает уменьшаться.

В реальных задачах определения возраста до общего предка, количество мутаций на маркер редко превышает величину 0,2. Но, как было упомянуто выше, эта величина средняя. Например, для 67-маркерных гаплотипов, около 16 маркеров имеют математическое ожидание в диапазоне 4800- 10 000 лет. Поэтому при определении исследуемого нами диапазона 3000-6000 лет, параметр t/m может изменяться для этих маркеров, от 0,3 до 1,25. Это существенно превышает область использования логарифмического метода. Единственный метод, который возможно использовать в этих условиях, является квадратичный метод, поскольку он основан на закономерностях нормального распределения.

Квадратичный метод основан на том, что дисперсия нормального распределения точно соответствует параметру t/m . Как было показано в модельном эксперименте Clavis-а, это соответствие наблюдается во всем диапазоне параметров. Соответствие существует даже при малых значениях t/m , при которых можно говорить о нормальном распределении, вследствие дискретности характера мутаций, только относительно. Преимущество квадратичного метода проявляется еще и в том, что на результат расчетов не влияют существенные различия в скоростях мутаций в различных маркерах. Несмотря на то, что медленные маркеры вносят значительно меньший вклад, чем быстро мутирующие маркеры, окончательный результат определяется как сумма дисперсий в отдельных маркерах и не зависит от скоростей мутации в отдельных маркерах. Т.е. мутации в маркерах рассматриваются как события не зависящие друг от друга. В отличие от квадратичного, в линейных методах всегда существует опасность недооценки поправки в быстрых, и переоценки в медленных маркерах.

Основным недостатком квадратичного метода обычно называют слишком большой разброс результатов, связанный с выбросами в отдельных маркерах. Это явление иногда объясняют "осцилляциями", исследованными Рыжковым в последнем выпуске "Вестника..." Теоретические решения не дают осциллирующих членов, скорее всего, мы имеем дело с обычными "шатаниями пьяницы". Но факт высокой нестабильности в отдельных диапазонах действительно имеет место. Кроме того, существенное влияние оказывают медленные маркеры, мутации в которых происходят в начале отдельной ветви. В этом случае часть мутаций не характеризуется вероятностью мутаций, а связана с закономерностями увеличения численности представителей этой ветки, имеющих данную мутацию.

Избежать этих сложностей достаточно легко. Если выбрать из общего числа маркеров только быстромутирующие, то точность метода только возрастет. Действительно 16 маркеров из 67 имеют матожидание менее 10 000 лет, и в диапазоне 3000-6000 лет их распределение уже приближается к нормальному. Проверка по критерию согласия Пирсона для этих маркеров показывает. что с вероятностью 0,6- 0,8 распределение в этих маркерах соответствует нормальному. В наиболее быстрых эта вероятность достигает 0,95. Т.о. для исследуемого диапазона распределение вероятности в этих маркерах успокаивается, точность и стабильность результатов возрастает. Естественно, для этих маркеров возможно применять только квадратичный метод, так как логарифмический и линейный методы могут давать ошибку, достигающую 10-15%, а в некоторых случаях и 20%.

К сожалению у нас пока нет точных датировок в диапазоне 3000-6000 лет, и мы не можем непосредственно оценить точность тех или иных методов. Тем не менее некоторые выводы уже можно сделать. Приведем некоторые противоречивые моменты в современном представлении миграции гаплогрупп. Так миграция R1a из Центральной Европы в Причерноморье датируется на базе логарифмического и линейного методов около 5000 лет тому назад. Такая датировка вызывает резкое неприятие археологов, поскольку в это время шло движение ямников в противоположном направлении. Однако датировка на базе 16-маркерного гаплотипа квадратичным методом дает около 6000 лет. Эта датировка лучше согласуется с археологическими данными, поскольку в это время отмечается миграция доликохранных европеоидов в этом направлении.

Другой хорошо известный пример. Это движение фатьяновцев из Европы на Волгу и далее. Исходя из современных датировок мы их просто не видим. Датировка по 16 маркерам квадратичным методом дает для Балто-Карпатской ветви R1a около 4400 лет ( желтые фишки на карте Игоря Львовича ). Таким образом, именно фатьяновской миграцией объясняется появление длинного хвоста этой ветви вплоть до Казахстана.

Но обратимся к более классическим примерам. Это хорошо известная датировка 4700 лет тому назад. В это время представители R1b покидают Северную Африку, причем выделяется субклад U106. Эта дата хорошо согласуется с образованием древнего Египетского государства ( Древнее Царство ). Возникает вопрос, представители какой гаплогруппы его основали? Для субклада E1b1b1a2 датировка на 16 маркерах дает примерно 5300 лет. В то же время для субклада E1b1b1b2 имеем около 4700 лет. Это хорошо согласуется с известным фактом, что Древнее Царство образовали представители ливийской династии, объединив Верхний и Нижний Египты. Эта дата совпадает также с сообщением самих финикийцев, что они появились в районе Библа около 4700 лет тому назад.

Естественно, датировки 3000-6000 лет тому назад будут и далее уточняться и наши представления о миграциях в эти времена изменяться. Но уже сейчас можно сказать, что квадратичный метод будет давать в этом диапазоне более точные датировки.
Slavar
1.3.2011, 0:33
Цитата(Ostan @ 28.2.2011, 17:50)
...Основным недостатком квадратичного метода обычно называют слишком большой разброс результатов, связанный с выбросами в отдельных маркерах. Это явление иногда объясняют "осцилляциями", исследованными Рыжковым в последнем выпуске "Вестника..." Теоретические решения не дают осциллирующих членов, скорее всего, мы имеем дело с обычными "шатаниями пьяницы". Но факт высокой нестабильности в отдельных диапазонах действительно имеет место. Кроме того, существенное влияние оказывают медленные маркеры, мутации в которых происходят в начале отдельной ветви. В этом случае часть мутаций не характеризуется вероятностью мутаций, а связана с закономерностями увеличения численности представителей этой ветки, имеющих данную мутацию...

Уважаемый Ostan, не могли бы пояснить, что Вы имеете ввиду под "обычными шатаниями пьяницы"? Какой-то низкочастотный фон? Какой? Какова его природа? Как он описывается?
Насколько я понимаю, статистический разброс от маркера к маркеру - это высокочастотный фон, т.е. в теории он идет с частотой в интервал одного-двух-трех маркеров, но никак не в один-два десятка. FFT (Fast Fourier Transform) сглаживание очень эффективно убирает высокочастотный фон. Я привел на графиках "спектры", сглаженные по 2-м соседним точкам, что для 60-ти с небольшим точек в спектре довольно жестко. Впрочем, если по таблице 7, где приведены несглаженные частоты, построите спектры и попробуете сгладить их по 5-ти (!) соседним точкам, то все равно увидите колебания (осцилляции), причем с теми же периодами, сходящимися к датировке самого первого рефлекса по выражению: Т1 = 3*Т3 = 5*Т5 = 7*Т7 = ..., а когда ветвь одна, то увидите и провалы с положениями минимумов, сходящимися к той же самой датировке первого рефлекса: Т1 = 2*Т2 = 4*Т4 = ... .
Странные какие-то "шатания", неправда ли? И так для всех гаплогрупп. Более того для разных регионов у одной гаплогруппы самые первые рефлексы вообще совпадают - ещё страннее. Можно продолжать долго, в т.ч. и по поводу сравнения линейных датировок по 2-м случайным форматам гаплотипов, но стоит ли повторять текст статьи?
Касательно того, что "теоретические решения не дают осциллирующих членов", мне трудно согласиться. Посмотрите работы Каржавина 2008 и 2009 гг. Он просто не сделал выводы. А у него в работах представлены таблицы для гаплогрупп американцев по состоянию на 2008 (в формате 12FTDNA, статистика там тысячи гаплотипов) - опять же он просто не ранжировал маркеры по мере изменения констант скоростей мутации. Если Вы ранжируете хотя бы эти 12 маркеров в его таблице, то увидите примерно те же самые осцилляции, что приведены и у меня в формате 67FTDNA, но уже по состоянию на декабрь 2010.
Статистический разброс (высокочастотный шум) для выборок в тысячи гаплотипов очень мал и не объясняет пиковых выбросов от нуля до значений около 0.6-2 мутации на маркер, т.е. 0.6-2*n*1000 = n*600-2000.
Stanislaw
1.3.2011, 11:08
Цитата(Ostan @ 28.2.2011, 18:50)
Игорь Львович недавно подтвердил калибровку Анатолия Алексеевича. Впрочем, в правильности этой калибровки сейчас уже мало кто сомневается. Калибровка относится к области до 2000-2500 лет в которой все существующие методы расчета времен до общих предков совпадают. Однако некоторые разногласия остаются в другой области времен, охватывающей период с 3000 до 6000 и более. В этой области различные методы расчета уже часто дают различные результаты.
Вы, Ostan, прав. Проблемa выявляется уже тогда, когда перед TMRCA, где-то выше 2000 - 4000 лет, надо добавлять пору демографической ”бутылочной шею”.
Причина во возвратных мутациях.
Когда на 67-маркэровым гаплётыпе мы считаем 10 мутаций, обозначит это, что появилось 10/67 шанса для возвратных мутаций. Когда yж 33 мутаций (50%), тогда шанса для новыx и возвратных мутаций 1:1.!!!
Как тогда считать строгие мутации, когда возвратное уничтожают их число?
Когда возвратных мутаций выше 50%, тогда теоретически число мутаций простых, видимых, может уменьшаться, потому что уничтожены через возвратное. Гаплётып тогда кажется очень молодым!!
Можно тогда применять какой-либо коэффициент на возвратные мутации, коль скоро у него отнесение к маленького тогда числа видимых (поличальных) мутаций?
Тогда табулa уважаемого AKlyosova на возвратные мутации уже никакого значения... 
И всё-таки эта проблема нарастает уже по нескольким первым мутациям...
Ли он к решению?
Я думаю... и думаю...

Добавил:
Проблема и в том, что возвратные мутации сначала и многократно появляются в маркерах быстро мутирующих. Как эти мутации посчитать?

eugene
1.3.2011, 11:44
QUOTE (Stanislaw @ 1.3.2011, 11:08)
Добавил:
Проблема и в том, что возвратные мутации сначала и многократно появляются в маркерах быстро мутирующих. Как эти мутации посчитать?

Можно просто задать меньший вес таким маркерам 
Ostan
1.3.2011, 12:43
Уважаемый Slavar, говоря что осцилляции не имеют теоретическое подтверждение, я имел в виду в первую очередь известные решения для нестационарной диффузии, дающие непрерывные распределения. Например
http://ru.wikipedia.org/wiki/%...
Но Вы совершенно правы в том, что в нашем случае мутации дискретны. а теоретического решения для этого случая, к сожалению, нет. Уважаемый Clavis когда моделировал этот процесс отошел от этой проблемы, введя на основании симметрии, половинное решение. Доказать или опровергнуть наличие осцилляции можно только смоделировав этот процесс на компьютере. В этом случае, хотя бы проявятся причины, приводящие к осцилляциям. Термин "шатание пьяницы" не мой. Его ввел в наш оборот Clavis. Если Вы с ним свяжетесь ( я полагаю это будет полезно обоим ), то возможно и появится теоретическое решение, которое будет интересно всем.

В своих же исследованиях, я, сознательно или бессознательно, тщательно избегал этого диапазона. Действительно, для квадратичного метода различные выбросы противопоказаны. Поэтому я и взял более спокойные быстрые маркеры.
Ostan
1.3.2011, 13:09
Уважаемый Stanislaw, говорить об обратных мутациях можно только при начальных мутациях. При нескольких мутациях уже можно говорить про осцилляции ( шатание пьяницы ). А для быстрых маркеров можно уже достаточно уверенно говорить про нормальное распределение. А для нормального распределения линейный метод уже зависит не от параметра t/m, а от его корня квадратного. Можно, конечно, пользоваться линейным методом и в этих условиях. Но какой в этом смысл? Все равно поправки для линейного метода нам придется вводить на базе квадратичного метода. По мне, так проще, сразу использовать квадратичный метод. Другое дело, что его необходимо подработать, что бы его результаты были более точными. Но у него есть достаточно большое преимущество. Для него не требуется выделять быстрые и медленные маркеры. Появляется возможность их считать совместно. Это связано с тем, что в квадратичном методе складываются дисперсии. И скорости мутации в отдельных маркерах не влияют на конечный результат.


============================== но будет ли он близок результатам реальных исследований древних останков той или иной поры ?! С учётом диапазона погрешностей и возвратных мутаций.