Die Völker Europas und die warnende Geschichte der Y-Chromosomenlinie R-M269 / Proceedings of the Royal Society B: Biologische Wissenschaften

Einleitung

Seit den ersten Versuchen, biologische Variation beim Menschen zu nutzen, um unser Verständnis der frühen menschlichen Migrationen zu unterstützen, ist die Bevölkerung Europas ein wichtiger Forschungsschwerpunkt . Nach der Entwicklung der Landwirtschaft im Fruchtbaren Halbmond vor etwa 10 000 Jahren verbreitete sich diese Technologie aus dem Nahen Osten nach Westen nach Europa, was zu einem großen kulturellen Übergang vom wandernden Jägersammeln zur sesshaften Landwirtschaft führte, was zu einem dramatischen Bevölkerungswachstum führte , während dessen, was als neolithischer Übergang bekannt geworden ist . Innerhalb dieses archäologischen Rahmens, Debatte tobt über die relativen Beiträge der ersten Menschen in Europa und derer, die mit dem neolithischen Übergang in die moderne europäische Bevölkerung eingewandert sind, sowohl in Bezug auf ihr genetisches Erbe als auch in Bezug auf die Prozesse der Migration und Nachfolge . Das wahre Szenario ist zweifellos facettenreich und komplex. Sowohl frühe Arbeiten zu ‚klassischen Markern‘ mit Hauptkomponentenanalyse als auch neuere Studien mit dem Y–Chromosom haben gezeigt, dass in Europa, Genetische Variation ist entlang eines Südost-Nordwest-Gradienten verteilt. Solche Beobachtungen wurden vorgeschlagen, um ein Modell der demischen Diffusion für den neolithischen Übergang in Europa zu unterstützen (dh dass die Ausbreitung der Landwirtschaft auch eine damit verbundene Bewegung von Menschen aus dem Nahen Osten mit sich brachte) .

Neue Arbeiten haben sich mit dem neolithischen Übergang in Europa befasst, indem sie sich auf die wichtigste westeuropäische Y-Chromosom-Haplogruppe R1b1b2-M269 (im Folgenden als R-M269 bezeichnet) konzentrierten. Diese Abstammungslinie hatte in diesem Zusammenhang bisher wenig Aufmerksamkeit erhalten, obwohl frühere Arbeiten darauf hindeuteten, dass sich die breitere R-M173-Klade (mit Ausnahme der R1a-M17-Unterlinie) und Haplogruppe 1 (abgeleitet vom Single nucleotide polymorphism oder SNP, 92r7) wahrscheinlich während des Paläolithikums in Europa ausgebreitet haben und daher wahrscheinlich nicht mit den wandernden Bauern nach Europa gebracht wurden. Balaresque et al. (im Folgenden ‚Balaresque‘) verwendete 840 Y-Chromosomen innerhalb der Haplogruppe R-M269, um zu zeigen, dass, obwohl diese Haplogruppe durch eine starke Frequenz-Cline von hoch im Westen bis niedrig im Osten gekennzeichnet ist, die damit verbundene Cline in der Haplotyp-Diversität (gemessen als mittlere kurze Tandem-Wiederholung oder STR-Varianz) in die entgegengesetzte Richtung verläuft. Sie postulierten, dass diese Korrelation durch eine neuere Ausbreitung dieser Linie aus dem Nahen Osten erklärt werden könnte, die mit dem neolithischen Übergang in Europa zusammenfällt. Die Abstammungslinie wurde in verschiedenen Populationen auf ungefähr 6000 Jahre geschätzt, was als konsistent mit diesem Modell angesehen wurde. Dieses Ergebnis, wie in ihrer Einleitung erwähnt, ‚zeigt an, dass die große Mehrheit der Y-Chromosomen der Europäer ihren Ursprung in der Jungsteinzeit Expansion haben‘ (p. 2 in ).

Myres et al. beschrieb mehrere neue SNP-Mutationen stromabwärts von R-M269, die eine starke geografische Strukturierung in einer viel größeren Stichprobe von 2043 R-M269-Chromosomen zeigen. Sie heben eine im Wesentlichen europäische spezifische Gruppe hervor, die durch das Vorhandensein von SNPs M412 (auch bekannt als S167) und L11 (S127) definiert ist, die von hohen Frequenzen (mehr als 70%) in Westeuropa geklingelt wird und nach Osten abnimmt. Diese Studie zeigte, dass die Verteilungen mehrerer nachgeschalteter SNPs auffällige Frequenzmuster aufweisen und sich aus verschiedenen Bereichen hochlokalisierter Frequenzen auszubreiten scheinen, Einige davon wurden auch von Cruciani et al. . In: Myres et al. geschätzte Koaleszenzzeiten für die R-S116-Haplogruppe in verschiedenen Populationen in Europa und schlug in breiter Übereinstimmung mit Balaresque vor, dass sich die R-M269-Haplogruppe mit dem Neolithikum und insbesondere mit der Linearbandkeramik, einer neolithischen Landwirtschaft, verbreitet haben könnte Industrie, die sich vor etwa 7500 Jahren in ganz Nordeuropa von Ungarn nach Frankreich ausbreitete.

Die derzeitige Unsicherheit bezüglich der STR-Mutationsraten zeigt, dass es trotz dieser jüngsten Studien immer noch keinen Konsens darüber geben kann, wann und wo die R-M269-Haplogruppe in Europa entstanden ist und sich verbreitet hat. Auch wenn die Berufung auf die Ursprünge des europäischen Y-Chromosomen-Genpools vorsichtig betrachtet werden muss, insbesondere wenn ein solches Argument auf nur einer einzigen unvollständig aufgelösten Haplogruppe beruht (S. 100 in), ist es von großem Interesse zu verstehen, wie die überwiegende Mehrheit der westeuropäischen Männer (mehr als 100 Millionen) Y-Chromosomen trägt, die zur R-M269-Y-Chromosomen-Haplogruppe gehören.

Folglich haben wir diese Probleme mit unserem eigenen großen R-M269-Datensatz angesprochen, sowohl allein als auch in Kombination mit kompatiblen Daten aus der jüngsten umfassenden Umfrage . Wir zeigen, dass die grundlegende Beziehung zwischen mittlerer Längenvarianz und Längengrad, Dies ist die Grundlage für den jüngsten Anspruch auf Unterstützung der neolithischen Hypothese , gilt nicht für unsere größere und geografisch breitere Stichprobe. Wir erklären auch, wie diese vorherige Analyse zu dieser falschen Assoziation geführt haben könnte. Wir untersuchen schließlich die räumliche Verteilung der genetischen Vielfalt im Zusammenhang mit der europäischen R-M269-spezifischen Unterlinie, definiert durch SNP S127, und zeigen einen im Wesentlichen homogenen Hintergrund der Mikrosatellitenvariation auf mehreren verschiedenen Unterlinienebenen, basierend auf einem gemeinsamen Satz von 10 STRs, die über 2000 R-M269-Chromosomen typisiert sind.

Unter Berücksichtigung der Unsicherheit berichten Forscher normalerweise über das Alter der Y-Chromosomenlinien basierend auf Unterschieden zwischen Individuen über mehrere STRs hinweg, wobei häufig die durchschnittliche quadratische Entfernung (ASD) oder verwandte zusammenfassende Statistiken als unvoreingenommene Schätzer der Koaleszenzzeit verwendet werden, T. Wir haben untersucht, wie sich ASD in unserem Datensatz basierend auf verschiedenen STRS-Sätzen ändert. Entgegen der landläufigen Meinung variieren die Schätzungen von ASD und damit von T stark, wenn verschiedene Teilmengen von STRs mit derselben Stichprobe verwendet werden. Während die jüngsten Beweise die Unterstützung für die neolithische Ausbreitung von R-M269 verstärkt haben, schließen wir daraus, dass es derzeit nicht möglich ist, eine glaubwürdige Schätzung der Divergenzzeit basierend auf den in jüngsten Studien verwendeten Y-STRs-Sätzen vorzunehmen. Darüber hinaus zeigen wir, dass es die Eigenschaften von Y-STRs sind, nicht die an sich verwendete Zahl, die die Genauigkeit von Divergenzzeitschätzungen zu steuern scheinen, Attribute, die in der Praxis selten, wenn überhaupt, berücksichtigt werden.

Material und Methoden

( a) Ethikerklärung

Alle untersuchten Männer gaben nach ethischer Genehmigung durch die Ethikkommissionen der verschiedenen Universitäten, an denen die Proben entnommen wurden, eine Einverständniserklärung ab.

( b) DNA-Proben und Genotypisierung

Wir haben einen Datensatz von 2486 R-M269 Y-Chromosomen aus ganz Europa, dem Nahen Osten und Westasien aus einer Gesamtbevölkerung von 6503 zusammengestellt, der sowohl neuartige als auch zuvor veröffentlichte Y-Chromosomen enthielt. Um die Häufigkeitsverteilung von R-M269 und verschiedenen Sub-Haplogruppen in Europa und Asien zu bewerten, kombinierten wir unsere Daten mit denen von Myres et al. , die einen kombinierten Satz von 4529 R-M269-Chromosomen aus einer Gesamtprobe von 16 298 aus 172 verschiedenen Populationen ergab (elektronisches Ergänzungsmaterial, Tabelle S1 und Abbildung S1). Die Frequenzen der folgenden SNPs, deren Phylogenie in Abbildung 1 dargestellt ist, wurden ermittelt: S127/L11 (rs9786076), S21/U106 (rs16981293), S116 (rs34276300), S145/M529 (rs11799226) und S28/U152 (rs1236440). Die Proben wurden in einer Standard-PCR-Reaktion amplifiziert und das SNaPshot Multiplex System (Life Technologies Corp., Carlsbad, CA, USA) Primer Extension Protocol wurde verwendet, um das an jedem SNP-Loci vorhandene Allel zu charakterisieren. Alle Primer sind im elektronischen Ergänzungsmaterial aufgeführt.

Abbildung 1. Y-Chromosomenbaum, der die Beziehungen von SNPs stromabwärts von R-M269 zeigt, die in dieser Studie getestet wurden. Alternative Nomenklatur für einige SNPs ist kursiv dargestellt.

Für die Mehrheit der in dieser Studie typisierten Personen (2289) standen die folgenden 10 STRs zur Verfügung: DYS19; DYS389I; DYS389b (Subtraktion der bei DYS389I erzielten Allele vom DYS389II-Locus); DYS390; DYS391; DYS392; DYS393; DYS437; DYS438; und DYS439, entweder zuvor veröffentlicht oder von uns selbst mit dem Yfiler Kit (Life Technologies Corp.) oder der Promega Powerplex Assay (Promega Corp., Madison, WI, USA) . Für die Proben von Weale et al. wurden nur fünf STRs zuvor veröffentlicht, und so wurden die restlichen fünf mit einem intern entworfenen und verifizierten Multiplex unter Verwendung von Primern aus der Studie von Butler et al. für DYS391, DYS437, DYS389I und II und DYS439, und primer aus der studie von Gusmao & Alves für DYS438. DYS391-Aufrufe wurden verwendet, um die Konsistenz mit den ursprünglichen Haplotypen von Weale et al. Drei der Weale et al. populationen wurden für diese STRs (114 Personen) nicht weiter typisiert. Personen, die mit dem Yfiler Kit (1035) typisiert wurden, wurden verwendet, um den Effekt der STR-Selektion auf ASD-Berechnungen zu untersuchen (elektronisches Ergänzungsmaterial, Tabelle S2).

Populationen mit einer Gesamtgröße von 30 oder mehr wurden zur Erstellung der Frequenzkarten verwendet (elektronisches Ergänzungsmaterial, Abbildung S1). Die Varianz wurde nur für die Populationen berechnet, in denen Haplotypen für mindestens 10 Personen innerhalb der relevanten Haplogruppe verfügbar waren.

( c) Analyse

Karten von SNP-Frequenzen wurden mit ArcMap GIS (v. 9.2; ESRI) angezeigt. Die Interpolation wurde unter Verwendung des inversen Entfernungsgewichtungsverfahrens durchgeführt. Breiten- und Längengrade für alle Populationen basierten auf dem mit den Proben verbundenen Probenahmezentrum mit der höchsten Auflösung und sind in elektronischem Ergänzungsmaterial, Tabelle S1, angegeben.

Das R-Statistikpaket wurde verwendet, um die mediane STR-Varianz (die Varianz in der Anzahl der Wiederholungen innerhalb eines Locus, gemittelt über alle Loci) zwischen allen Individuen innerhalb einer Population nach 1000 Bootstrap-Replikationen mit Ersatz über Individuen zu berechnen. Die Regressionsanalyse wurde in R durchgeführt, um die durchschnittliche STR-Varianz mit dem Breiten- und Längengrad für die Haplogruppen R-M269, R-M269 (xS127) und R-S127 zu vergleichen.

Wir untersuchten, wie sich ASD-Schätzungen innerhalb unserer Stichprobe ändern, wenn verschiedene Kombinationen von STRs verwendet werden, basierend auf zwei separaten Kriterien: Mutationsrate μ; und beobachtete Linearität θ (R) (Tabelle 1). Wir verwendeten die beobachteten μ, die kürzlich berechnet wurden, um die 15 STRs auf einer Geschwindigkeitsskala zu ordnen, und separat berechnete ASD basierend auf den sieben schnellsten und sieben langsamsten Raten (elektronisches Ergänzungsmaterial, Tabelle S4). Unser zweites Kriterium basierte auf der geschätzten Dauer der Linearität, D, verschiedener STRS-Gruppen. Die Dauer der Linearität ist eine Schätzung der Divergenzzeit, nach der ASD aufhört, linear mit der Zeit zuzunehmen. Für STRs, die unter einem strengen schrittweisen Modell mutieren, Goldstein et al. zeigte, dass ASD anfänglich linear mit der Zeit zunimmt, aber dass diese Linearität durch die maximale Anzahl von Wiederholungen eingeschränkt ist, die ein STR nehmen kann, R. D wird unter Verwendung von θ (R) (eine einfache Transformation von R) und μ und der effektiven Populationsgröße (Ne) (eqns 3 und 4 in) angenähert. Größere Werte von θ (R) / 2μ ergeben erhöhte Schätzungen von D. Die Verwendung von STRs mit größeren Werten von θ (R) / 2μ sollte die Annahme der Linearität weiter in die Vergangenheit ermöglichen, und die aus diesen STRs berechnete ASD sollte aufgrund der Sättigung weniger wahrscheinlich unterschätzt werden. Tabelle 1 und elektronisches Ergänzungsmaterial, Tabelle S4 zeigen die verschiedenen Gruppen von verwendeten STRs und zugehörige Werte von μ, R, θ(R) / 2μ und ASD.

Um zu überprüfen, ob zeitliche Unterschiede zur Schätzung des jüngsten gemeinsamen Vorfahren (TMRCA) nicht spezifisch für auf ASD basierende Methoden sind, verwendeten wir BATWING für die HGDP-Beduinenpopulation, für die eine größere Anzahl von Y-STRs (n = 65) verfügbar waren . Wir verglichen vier verschiedene Sätze von STRs mit unterschiedlichen Graden der Dauer der Linearitätsschätzungen (elektronisches Ergänzungsmaterial).

Ergebnisse

Um die Ursprünge der R-M269-Linie in Europa zu untersuchen, analysierten wir einen großen Datensatz von 4529 R-M269-Chromosomen (von denen 2486 bisher nicht in einer so detaillierten Auflösung veröffentlicht wurden) aus mehreren Populationen in Europa, dem Nahen Osten und Westasien (elektronisches Ergänzungsmaterial, Abbildung S1 und Tabelle S1). Innerhalb Europas beobachteten wir eine Nordwest–Südost-Frequenzlinie für R-M269, ähnlich wie zuvor beobachtet , von hohen Frequenzen in Westeuropa zu niedrigeren Frequenzen im Osten. Innerhalb der Haplogruppe R-M269 haben wir ein neu charakterisiertes SNP, S127 (äquivalent zu L11), genotypisiert, für das die Verteilung in Europa und im Nahen Osten zusammen mit der von R-M269 und R-M269 (xS127) in Abbildung 2 dargestellt ist. Die Verteilungen von R-M269 und R-S127 überschneiden sich weitgehend, aber die Häufigkeit von R-S127 fällt auf dem Balkan ab und erreicht weiter östlich und außerhalb Europas extrem niedrige Werte. Umgekehrt zeigt R-M269(xS127) höhere Frequenzen in östlichen Populationen. Häufigkeitskarten mit drei geografisch lokalisierten R-S127-Sub-Haplogruppen (R-S21, R-S145 und R-S28) sind in Abbildung 3 dargestellt.

Abbildung 2. Häufigkeitsverteilungen und Variation der Y-Chromosom-Haplogruppen R-M269, R-S127 und R-M269(xS127) in Europa. Die drei Tafeln zeigen Konturkarten basierend auf den Häufigkeiten der verschiedenen Haplogruppen in Europa und Westasien: (a) R-M269, (b) R-S127 und (c) R-M269 (xS127). Die Karten auf der linken Seite basieren auf den Häufigkeiten der SNPs in allen auf der Karte markierten Populationen (Daten in elektronischem Ergänzungsmaterial, Tabelle S1 und Abbildung S1). Die Grafiken auf der rechten Seite zeigen die Beziehung zwischen Längengrad und Bootstrap-Varianz basierend auf 10 STRs für alle Populationen mit mindestens 10 Personen, die diesen SNP tragen. Die R2- und zugehörigen p-Werte sind für die Korrelationen in den Diagrammen dargestellt. Die Bevölkerungscodes sind in Tabelle 1 und elektronischem Ergänzungsmaterial, Tabelle S1, aufgeführt.

Abbildung 3. Häufigkeitsverteilungen von R-M269 Sub-Haplogruppen. Konturkarten für Linien, die durch Marker (a) R-S21, (b) R-S145 und (c) R-S28 definiert sind.

Als nächstes berechneten wir die STR-Diversität für jede Population für die gesamte R-M269-Linie und für die Sub-Haplogruppen R-S127 und R-M269 (xS127) und untersuchten die Beziehung zwischen der durchschnittlichen STR-Varianz und dem Längen- und Breitengrad genau wie Balaresque. Wir liefern Schätzungen der Unsicherheit für diese Werte durch Bootstrapping über Einzelpersonen und berichten über den Median der beobachteten Varianzwerte und deren 95-Prozent-KI (Abbildung 2). Wir normalisierten den Breiten- und Längengrad und führten eine lineare Regression zwischen diesen Werten und der mittleren Mikrosatellitenvarianz für die drei R-M269-Sub-Haplogruppen durch. Wir fanden keine Korrelation mit dem Breitengrad (Daten nicht gezeigt) und im Gegensatz zu Balaresque fanden wir keine signifikante Korrelation zwischen Längengrad und Varianz für irgendeine Haplogruppe.

Der Balaresque-Datensatz enthält Genotypdaten nur in der Auflösung von SNP R-M269. Unsere Ergebnisse zeigen, dass die überwiegende Mehrheit der R-M269-Proben in Anatolien, etwa 90 Prozent, zur Sub-Haplogruppe R-M269 (xS127) gehören. Wenn diese türkischen Populationen aus den balaresken Daten entfernt und die Regression wiederholt wird, wird die signifikante Korrelation entfernt (R2 = 0,23, p = 0,09; Details im elektronischen Ergänzungsmaterial und Abbildung S2). Diese Populationen sind daher der signifikanten Korrelation inhärent.

Wir beobachteten, dass die in der balaresken Analyse verwendeten irischen Haplotypen eine sehr geringe STR-Varianz (0,208) im Vergleich zu den in unserer Analyse enthaltenen (0,35; ursprünglich veröffentlicht von Moore et al. ). Balaresque verwendete eine Auswahl irischer Haplotypen, die aus der Online-Datenbank Ysearch (http://www.ysearch.org) heruntergeladen wurden. Um zu testen, ob die Ysearch-Haplotypen repräsentativ für das irische R-M269 von Moore et al. , wir haben unabhängig voneinander Moore et al. datensatz 10 000 mal, Auswahl von Unterstichproben von 75 Haplotypen, aus denen wir die Varianz mit denselben neun STRs geschätzt haben, die im Balaresque-Papier verwendet wurden (detaillierte Methodik und Begründung finden Sie im elektronischen Ergänzungsmaterial). Die mediane Varianz dieser 10 000 Wiederholungen betrug 0,354 mit einem 95-Prozent-KI von (0,285–0,432). Als wir die Regressionsanalyse mit dieser unterschiedlichen Varianzschätzung wiederholten, war die Korrelation nicht mehr signifikant (R2 = 0,09, p = 0,19).

Es wurde gezeigt, dass die mikrosatellitenbasierte ASD linear mit der Zeit ansteigt und als unvoreingenommener Schätzer der mittleren Koaleszenzzeit verwendet wurde, da sie ungefähr 2 µT beträgt . Es wäre zu erwarten, dass die Verwendung verschiedener Sätze von STRs die Schätzung von T nicht dramatisch verändern sollte: asd ändert sich, ASD sollte sich ebenfalls ändern, wobei T konstant bleibt. Tabelle 1 zeigt Schätzungen der Dauer der Linearität auf der Grundlage der beobachteten Mutationsraten, die kürzlich geschätzt wurden, und des Bereichs, der vom YHRD geschätzt wird . Die ASD für R-S127 wurde durch Vergleich der 15 STR-Haplotypen seiner beiden Hauptuntergruppen R-S21 (141 Chromosomen) und R-S116 (717; elektronisches Ergänzungsmaterial, Tabelle S3) berechnet. Abbildung 4a ist ein Diagramm von T (geschätzt als ASD / 2μ) für mehrere verschiedene Sätze von STRs mit unterschiedlichen Eigenschaften (elektronisches Ergänzungsmaterial, Tabelle S4).

Abbildung 4. Beziehung zwischen der Zeit bis zum letzten gemeinsamen Vorfahren, T, und Mutationsrate, μ, für verschiedene STR-Teilmengen. (a) Schätzungen von T für die R-S127-Haplogruppe. Die Punkte sind mit der Teilmenge der STRs gekennzeichnet, die zur Berechnung von T verwendet werden, und sind in elektronischem Ergänzungsmaterial, Tabelle S4, aufgeführt. (b) Dieselben Daten, diesmal jedoch zusammen mit Schätzungen von T, die auf Vergleichen der Haplogruppen Y-Chromosom A und B basieren (siehe Haupttext).

Um die Korrelation zwischen T- und STR-Selektion weiter zu untersuchen, berechneten wir T auf die gleiche Weise wie oben beschrieben basierend auf Chromosomen, die zu den beiden tiefsten Zweigen der Y-Chromosomenphylogenie gehören, AxA1 und B (Abbildung 4b; elektronisches Ergänzungsmaterial, Tabelle S4). Als Vergleich wird ASD, das aus denselben STR-Teilmengen berechnet wurde, für den R-S127 auf demselben Diagramm angezeigt.

Diskussion

Hier haben wir mit der bisher breitesten Analyse bestätigt, dass die räumliche Verteilung der Y-Chromosom-Haplogruppe M269 durch R-S127 in europäische und westeurasische Linien aufgeteilt werden kann. Im Gegensatz zu den Ergebnissen von Balaresque sehen wir für R-M269 keinen Zusammenhang zwischen Diversität und Längengrad (Abbildung 2). Das Vorhandensein von zwei Gruppen von Populationen im balaresken Papier scheint für die beobachtete Beziehung ursächlich zu sein: die unterschätzte Vielfalt der irischen Bevölkerung und die Einbeziehung der türkischen Chromosomen, von denen die Mehrheit möglicherweise zur außereuropäischen Klasse R-M269(xS127) gehört. Wenn diese Elemente gemeinsam oder unabhängig voneinander richtig berücksichtigt werden, besteht die Korrelation nicht mehr. Diese Korrelation ist der zentrale Grundsatz der Hypothese, dass R-M269 mit expandierenden neolithischen Bauern verbreitet wurde.

Morelli et al. (im Folgenden ‚Morelli‘) fand verschiedene Motive, die R-M269 in östliche und westliche Linien aufteilten. Wir beobachteten, dass 71 Prozent der Myres et al. R-M269 (xS127) -Chromosomen, für die STR-Informationen verfügbar sind, haben das östliche Motiv (DYS393-12 / DYS461-10), während 80 Prozent der R-S127-Chromosomen von Myres et al. haben das westliche Motiv (DYS393-13 /DYS461-11). Keine R-S127-Chromosomen zeigten das östliche Motiv, während 5 Prozent der R-M269 (xS127) -Chromosomen das westliche Motiv zeigten (alle waren entweder von L23 (S141) oder M412 (S127) abgeleitet). In beiden Fällen unterschieden sich diese Motive jedoch von den von Morelli vorgeschlagenen, indem sie am Ort DYS461 eine Wiederholung weniger aufwiesen. Die von Morelli beobachtete Dichotomie basierend auf einem zweiteiligen Motiv wird daher zumindest teilweise durch das Vorhandensein dieses SNP bestätigt.

Die Datierung von Y-Chromosomenlinien ist notorisch umstritten , wobei das Hauptproblem darin besteht, dass die Wahl der STR-Mutationsrate zu Altersschätzungen führen kann, die sich um den Faktor drei unterscheiden (d. H. Die evolutionären gegenüber den beobachteten (genealogischen) Mutationsraten). Interessanterweise trotz der Tatsache, dass Myres et al. und Balaresque verwendete verschiedene STR-Mutationsraten und Datierungsansätze, ihre TMRCA-Schätzungen überschneiden sich: 8590-11 950 Jahre mit einer Mutationsrate von 6.9 × 10-4 pro Generation und 4577-9063 Jahre mit einer durchschnittlichen Mutationsrate von 2,3 × 10-3. Unabhängig davon berechnete Morelli den TMRCA nur auf der Grundlage sardischer und anatolischer Chromosomen und schätzte, dass die R-M269-Linie vor 25 000-80 700 Jahren entstanden ist) , basierend auf der gleichen evolutionären Mutationsrate wie Myres et al.

Bei der Suche nach einem geeigneten Satz von STRs, mit dem die durchschnittliche Koaleszenzzeit T der Sub-Haplogruppe R-S127 geschätzt werden kann, haben wir gezeigt, dass nicht alle STRs in diesem Zusammenhang gleich nützlich sind. Wir konzentrierten uns auf die Schätzung der Dauer der Linearität, D, unter Verwendung verschiedener Sätze von STRs. Unsere Analysen legen nahe, dass das D eines STR der Schlüssel zu seiner Fähigkeit ist, tiefe Vorfahren aufzudecken. Die Dauer der Linearität bezieht sich auf die Zeitdauer in der Vergangenheit, in der ASD und T für eine bestimmte STR weiterhin linear verwandt sind. In: Goldstein et al. zeigte, dass D von zwei Eigenschaften der STRs beeinflusst wird, die zur Berechnung der ASD verwendet werden: der Mutationsrate und dem Bereich möglicher Allele, die die STR aufnehmen kann. Wenn wir unsere Wahl des STR-Markers basierend auf θ (R) / 2μ (einem Ersatz für D) manipuliert haben; tabelle 1), fanden wir, dass verschiedene Sätze von STRs unterschiedliche Werte für T. Es ist also klar, dass Koaleszenzschätzungen explizit von den verwendeten STRs abhängen.

Unsere Analyse bestätigt, dass dieses Phänomen weder für die Haplogruppe R-M269 noch für Methoden mit ASD spezifisch ist. Abbildung 4b zeigt, dass STRs mit hohem D größere Schätzungen von T erzeugen. Klar ist, dass Schätzungen von T implizit von den STRs abhängen, die ausgewählt werden, um diese Schlussfolgerung zu ziehen. Mit BATWING an einer HGDP-Population, für die 65 Y-STRs verfügbar sind, haben wir gezeigt, dass sich die mediane Schätzung von TMRCA um mehr als das Fünffache unterscheiden kann, wenn STRs auf der Grundlage der erwarteten Linearitätsdauer ausgewählt werden (elektronisches Ergänzungsmaterial, Abbildung S4). Während Forscher STR-Mutationsraten bei der Schätzung der Divergenzzeit mit ASD berücksichtigen, haben häufig verwendete STRs nicht die spezifischen Attribute, die es erlauben, Linearität weiter in die Vergangenheit anzunehmen. Die Mehrheit der Haplogruppendaten, die auf solchen STRs basieren, wurde daher möglicherweise systematisch unterschätzt.

Schlussfolgerung

Die Verteilungen der wichtigsten R-S127-Sub-Haplogruppen, R-S21, R-S145 und R-S28, zeigen deutlich lokalisierte Konzentrationen (Abbildung 3). Wenn die R-M269-Linie jüngeren Ursprungs ist als die neolithische Expansion, müsste ihre derzeitige Verteilung das Ergebnis großer Bevölkerungsbewegungen seit diesem Ursprung sein. Damit diese Haplogruppe so allgegenwärtig ist, hätte die Population, die R-S127 trägt, die meisten Populationen in Westeuropa nach dem neolithischen landwirtschaftlichen Übergang verdrängt. Alternativ, wenn R-S127 vor der neolithischen Expansionswelle entstand, dann war es entweder bereits in den meisten Teilen Europas vor der Expansion vorhanden, oder die Mutation trat im Osten auf und wurde vor oder nach der Expansion verbreitet, in diesem Fall würden wir eine höhere Vielfalt im Osten erwarten, die näher an den Ursprüngen der Landwirtschaft liegt, was wir nicht beobachten. Die Karten der R-S127 Sub-Haplogruppenfrequenzen für R-S21, R-S145 und R-S28 zeigen radiale Verteilungen von bestimmten europäischen Standorten (Abbildung 3). Diese Zentren haben hohe absolute Frequenzen: R-S21 hat eine Häufigkeit von 44 Prozent in Friesland und R-S28 erreicht 25 Prozent in den Alpen; und in den Populationen, in denen sie am häufigsten vorkommen, gehört die überwiegende Mehrheit von R-S127 zu dieser bestimmten Unterlinie. Zum Beispiel ist die Hälfte aller R-M269 in Südeuropa R-S28-abgeleitet, und rund 60 Prozent der R-M269 in Mitteleuropa ist R-S21-abgeleitet. Auf der Ebene der Sub-Haplogruppen ist R-M269 in geografisch lokalisierte Taschen unterteilt, wobei einzelne R-M269-Sub-Haplogruppen dominieren, was darauf hindeutet, dass die Häufigkeit von R-M269 in ganz Europa mit dem Wachstum mehrerer geografisch spezifischer Unterlinien zusammenhängen könnte, die sich in verschiedenen Teilen Europas unterscheiden.

Eine kürzlich durchgeführte Analyse der Radiokarbondaten von neolithischen Stätten in ganz Europa zeigt, dass die Ausbreitung des Neolithikums keineswegs konstant war und dass in ganz Europa mehrere ‚Zentren erneuter Expansion‘ sichtbar sind, die Kolonisationsgebiete darstellen, von denen drei faszinierend eng mit den Zentren der Subhaplogruppenherde verbunden sind (elektronisches Ergänzungsmaterial, Abbildung S3). Zukünftige Arbeiten mit räumlich expliziten Simulationen, zusammen mit genauen Messungen der Y-Chromosomendiversität, sind erforderlich, um zu untersuchen, wie die aktuelle Verteilung von Sub-Haplogruppen erzeugt worden sein könnte. In diesem Zusammenhang haben jüngste Arbeiten von Sjödin & François eine paläolithische Dispersion für R1b-M269 unter Verwendung räumlicher Simulationen basierend auf dem Datensatz von Balaresque abgelehnt. Nichtsdestotrotz stellen wir fest, dass zusätzliche Arbeit noch notwendig ist, da diese Autoren sich der Einschränkung des hier vorgestellten balaresken Datensatzes nicht bewusst waren und die Auswirkungen der verschiedenen molekularen Eigenschaften der untersuchten Loci auf ihre Analyse nicht vollständig untersuchten.

Altersschätzungen, die auf Sätzen von Y-STRs basieren, die sorgfältig ausgewählt wurden, um die Attribute zu besitzen, die für die Aufdeckung einer tiefen Abstammung erforderlich sind (z. B. aus den fast 200 kürzlich hier charakterisierten), und aus Vergleichen der gesamten Y-Chromosomensequenz, werden in Zukunft robuste Daten für diese Haplogruppe liefern. Im Moment können wir kein Datum für das Alter von R-M269 oder R-S127 angeben, glauben jedoch, dass unsere STR-Analysen darauf hindeuten, dass die jüngsten Altersschätzungen von R-M269 und R-S116 wahrscheinlich jünger sind als die wahren Werte, und die Homogenität der STR-Varianz und die Verteilung der Untertypen auf dem Kontinent stimmen nicht mit der Hypothese der neolithischen Diffusion der R-M269-Y-Chromosomenlinie überein.

Die Völker Europas und die warnende Geschichte der Y-Chromosomenlinie R-M269