Le peuplement de l'Europe et le récit édifiant de la lignée du chromosome Y R-M269 | Actes de la Royal Society B: Sciences biologiques

Introduction

Depuis les premières tentatives d’utilisation de la variation biologique chez l’homme pour faciliter notre compréhension des premières migrations humaines, le peuplement de l’Europe a été un axe de recherche majeur. Après le développement de l’agriculture dans le Croissant Fertile il y a environ 10 000 ans, cette technologie s’est répandue du Proche–Orient vers l’ouest en Europe, provoquant une transition culturelle majeure de la cueillette itinérante de chasseurs à l’agriculture sédentaire, qui a conduit à une croissance démographique spectaculaire, au cours de ce que l’on appelle la transition néolithique. Dans ce cadre archéologique, le débat fait rage sur les contributions relatives aux populations européennes modernes des premiers peuples d’Europe et de ceux qui y ont migré avec la transition néolithique, tant en termes d’héritage génétique que de processus de migration et de succession. Le véritable scénario est sans aucun doute multiforme et complexe. Les premiers travaux sur les « marqueurs classiques » utilisant l’analyse en composantes principales et des études plus récentes utilisant le chromosome Y ont montré qu’en Europe, la variation génétique est répartie le long d’un gradient sud–est-nord-ouest. De telles observations ont été suggérées pour soutenir un modèle de diffusion démique pour la transition néolithique en Europe (c’est-à-dire que la propagation de l’agriculture impliquait également un mouvement associé de personnes du Proche-Orient).

De nouveaux travaux ont abordé la transition néolithique en Europe en se concentrant sur le principal haplogroupe du chromosome Y d’Europe occidentale R1b1b2-M269 (ci-après dénommé R-M269). Cette lignée n’avait jusqu’ici reçu que peu d’attention récente dans ce contexte, bien que des travaux antérieurs aient suggéré que le clade plus large R-M173 (excluant la sous-lignée R1a-M17) et l’Haplogroupe 1 (dérivé au polymorphisme nucléotidique unique, ou SNP, 92r7) se seraient probablement répandus en Europe au cours du Paléolithique, et donc peu susceptibles d’avoir été transportés en Europe avec les agriculteurs migrateurs. Balaresque et al. (ci-après « Balaresque ») a utilisé 840 chromosomes Y au sein de l’haplogroupe R-M269 pour montrer que, bien que cet haplogroupe soit caractérisé par une forte fréquence cline de haut en ouest à bas en est, la cline associée dans la diversité des haplotypes (mesurée en tant que variance moyenne de répétition en tandem courte, ou STR) est dans la direction opposée. Ils ont postulé que cette corrélation pourrait s’expliquer par une dispersion plus récente de cette lignée du Proche-Orient coïncidant avec la transition néolithique en Europe. La lignée a été estimée à environ 6000 ans dans diverses populations, ce qui a été considéré comme cohérent avec ce modèle. Ce résultat, comme indiqué dans leur introduction, « indique que la grande majorité des chromosomes Y des Européens ont leurs origines dans l’expansion néolithique » (p. 2 in).

Myres et al. décrit plusieurs nouvelles mutations SNP en aval de R-M269 qui montrent une forte structuration géographique dans un échantillon beaucoup plus grand de 2043 chromosomes R-M269. Ils mettent en évidence un clade essentiellement spécifique à l’Europe, défini par la présence de SNPs M412 (également connu sous le nom de S167) et L11 (S127), qui est clinal à partir des hautes fréquences (supérieures à 70%) en Europe occidentale, décroissant vers l’est. Cette étude a montré que les distributions de plusieurs SNP en aval présentent des modèles de fréquence frappants et semblent se propager à partir de différentes zones de fréquences très localisées, dont certaines ont également été observées par Cruciani et al. . Myres et coll. estimation des temps de coalescence de l’haplogroupe R-S116 dans différentes populations d’Europe et suggère, en accord avec Balaresque, que l’haplogroupe R-M269 pourrait s’être répandu avec le Néolithique, et plus spécifiquement avec le Linearbandkeramik, une industrie agricole néolithique qui s’est répandue dans tout le nord de l’Europe, de la Hongrie à la France, il y a environ 7500 ans.

L’incertitude actuelle entourant les taux de mutation STR montre qu’en dépit de ces études récentes, il ne peut toujours pas y avoir de consensus sur le moment et l’endroit où l’haplogroupe R-M269 est originaire et s’est propagé en Europe. Même si l’invocation des origines du pool génétique du chromosome Y européen « doit être considérée avec prudence, surtout lorsqu’un tel argument est basé sur un seul haplogroupe incomplètement résolu » (p. 100 in), il est d’un grand intérêt d’essayer de comprendre comment la grande majorité des hommes d’Europe occidentale (plus de 100 millions) portent des chromosomes Y appartenant à l’haplogroupe du chromosome Y R-M269.

Par conséquent, nous avons résolu ces problèmes avec notre propre vaste ensemble de données R-M269, à la fois seul et en combinaison avec des données compatibles de l’enquête complète la plus récente. Nous montrons que la relation fondamentale entre la variance STR moyenne et la longitude, qui est à la base de la récente affirmation de soutien à l’hypothèse néolithique, ne tient pas pour notre échantillon plus vaste et géographiquement plus large. Nous expliquons également comment cette analyse précédente a pu aboutir à cette association fallacieuse. Nous explorons enfin la distribution spatiale de la diversité génétique associée à la sous-lignée spécifique à l’Europe R-M269, définie par SNP S127, montrant un arrière-plan essentiellement homogène de variation de microsatellites à plusieurs niveaux de sous-lignée différents, basé sur un ensemble commun de 10 STD typés sur 2000 chromosomes R-M269.

Tout en reconnaissant l’incertitude, les chercheurs rapportent généralement l’âge des lignées du chromosome Y en fonction des différences entre les individus à travers plusieurs DOD, en utilisant souvent la distance quadratique moyenne (TSA) ou des statistiques sommaires connexes comme estimateurs impartiaux du temps de coalescence, T. Nous avons étudié comment les TSA changent dans notre ensemble de données en fonction de différents ensembles de DOD. Contrairement aux idées reçues, les estimations des TSA, et donc des T, varient considérablement lorsque différents sous-ensembles de DOD sont utilisés avec le même échantillon. Bien que des preuves récentes aient accru le soutien de la propagation néolithique de R-M269, nous concluons qu’à l’heure actuelle, il n’est pas possible de faire une estimation crédible du temps de divergence sur la base des ensembles de Y-STRs utilisés dans des études récentes. De plus, nous montrons que ce sont les propriétés des Y-STRs, et non le nombre utilisé en soi, qui semblent contrôler la précision des estimations de temps de divergence, attributs qui sont rarement, voire jamais, pris en compte dans la pratique.

Matériel et méthodes

( a) Énoncé d’éthique

Tous les hommes échantillonnés ont donné leur consentement éclairé après approbation éthique par les comités d’éthique des différentes universités où les échantillons ont été prélevés.

( b) Échantillons d’ADN et génotypage

Nous avons rassemblé un ensemble de données de 2486 chromosomes Y R-M269 provenant de toute l’Europe, du Proche-Orient et de l’Asie occidentale, sur une population totale de 6503, comprenant à la fois des chromosomes Y nouveaux et des chromosomes Y précédemment publiés. Pour évaluer la distribution de fréquence de R-M269 et de divers sous-haplogroupes en Europe et en Asie, nous avons combiné nos données avec celles de Myres et al. , qui a donné un ensemble combiné de 4529 chromosomes R-M269 sur un échantillon total de 16 298 de 172 populations différentes (matériel supplémentaire électronique, tableau S1 et figure S1). Les fréquences des SNP suivants, dont la phylogénie est illustrée à la figure 1, ont été déterminées : S127/L11 (rs9786076), S21/U106 (rs16981293), S116 (rs34276300), S145/M529 (rs11799226) et S28/U152 (rs1236440). Des échantillons ont été amplifiés dans une réaction PCR standard et le protocole d’extension d’amorces SNaPshot Multiplex System (Life Technologies Corp., Carlsbad, CA, USA) a été utilisé pour caractériser l’allèle présent à chaque loci SNP. Toutes les amorces sont répertoriées dans le matériel supplémentaire électronique.

Figure 1. Arbre chromosomique Y montrant les relations des SNP en aval de R-M269 testés dans cette étude. La nomenclature alternative pour certains SNP est fournie en italique.

Pour la majorité des personnes saisies dans cette étude (2289), les 10 DOD suivantes étaient disponibles : DYS19; DYS389I; DYS389b (en soustrayant les allèles marqués à DYS389I du locus DYS389II); DYS390; DYS391; DYS392; DYS393; DYS437; DYS438; et DYS439, soit en cours de publication antérieure, soit ayant été tapés par nous-mêmes à l’aide du kit Yfiler (Life Technologies Corp.) ou le test Promega Powerplex (Promega Corp., Madison, WI, États-Unis). Pour les échantillons de Weale et al. , seulement cinq DOD ont déjà été publiées, et les cinq autres ont donc été tapées avec un multiplex conçu et vérifié en interne à l’aide d’amorces tirées de l’étude de Butler et coll. pour DYS391, DYS437, DYS389I et II et DYS439, et amorces de l’étude des alves de Gusmao & pour DYS438. Les appels DYS391 ont été utilisés pour vérifier la cohérence avec les haplotypes originaux de Weale et al. Trois des Weale et coll. les populations n’ont pas été plus typées pour ces DOD (114 individus). Les personnes dactylographiées à l’aide du kit Yfiler (1035) ont été utilisées pour étudier l’effet de la sélection des DOD sur les calculs des TSA (matériel supplémentaire électronique, tableau S2).

Les populations d’une taille totale de 30 ou plus ont été utilisées pour établir les cartes de fréquence (matériel supplémentaire électronique, figure S1). La variance a été calculée uniquement pour les populations où des haplotypes étaient disponibles pour au moins 10 individus au sein de l’haplogroupe pertinent.

( c) Analyse

Des cartes des fréquences SNP ont été affichées à l’aide du SIG ArcMap (v. 9.2; ESRI). L’interpolation a été effectuée en utilisant la procédure de pondération de distance inverse. Les latitudes et les longitudes de toutes les populations ont été basées sur le centre d’échantillonnage à la plus haute résolution associé aux échantillons et sont indiquées dans le tableau S1, matériel supplémentaire électronique.

Le package statistique R a été utilisé pour calculer la variance STR médiane (la variance du nombre de répétitions au sein d’un locus moyennée sur tous les loci) entre tous les individus d’une population après 1000 répliques bootstrap avec remplacement sur les individus. Une analyse de régression a été effectuée en R pour comparer la variance moyenne de la STR avec la latitude et la longitude pour les haplogroupes R-M269, R-M269 (xS127) et R-S127.

Nous avons étudié comment les estimations des TSA changent au sein de notre échantillon en utilisant différentes combinaisons de DOD basées sur deux critères distincts : le taux de mutation, μ; et la linéarité observée, θ(R) (tableau 1). Nous avons utilisé le μ observé calculé récemment pour classer les 15 DOD sur une échelle de vitesse, et avons calculé séparément le TSA en fonction des sept taux les plus rapides et des sept taux les plus lents (matériel supplémentaire électronique, tableau S4). Notre deuxième critère était basé sur la durée estimée de linéarité, D, de différents groupes de STR. La durée de linéarité est une estimation du temps de divergence après lequel les TSA cessent d’augmenter linéairement avec le temps. Pour les STR mutant selon un modèle strict par étapes, Goldstein et al. a montré que le TSA augmente initialement linéairement avec le temps, mais que cette linéarité est contrainte par le nombre maximum de répétitions qu’un STR peut prendre, R. D est approximé en utilisant θ(R) (qui est une simple transformation de R) et μ, et la taille effective de la population (Ne) (eqns 3 et 4 in). Des valeurs plus élevées de θ (R) / 2μ donnent des estimations plus élevées de D. L’utilisation de DOD avec des valeurs plus élevées de θ (R) / 2μ devrait permettre de supposer la linéarité plus loin dans le passé, et les TSA calculés à partir de ces DOD devraient être moins susceptibles d’être sous-estimés en raison de la saturation. Le tableau 1 et le matériel supplémentaire électronique, le tableau S4 montrent les différents groupes de DOD utilisés et les valeurs associées de μ, R, θ(R)/2μ et ASD.

Pour vérifier que les différences dans le temps par rapport à l’estimation de l’ancêtre commun le plus récent (TMRCA) ne sont pas spécifiques aux méthodes basées sur les TSA, nous avons utilisé des CHAUVE-souris sur la population bédouine HGDP pour laquelle un plus grand nombre de Y-DOD (n = 65) étaient disponibles. Nous avons comparé quatre ensembles différents de DOD avec différents degrés de durée des estimations de linéarité (matériel supplémentaire électronique).

Résultats

Pour étudier les origines de la lignée R-M269 en Europe, nous avons analysé un vaste ensemble de données de 4529 chromosomes R-M269 (dont 2486 n’ont pas été publiés auparavant avec une résolution aussi détaillée) provenant de plusieurs populations à travers l’Europe, le Proche-Orient et l’Asie occidentale (matériel supplémentaire électronique, figure S1 et tableau S1). En Europe, nous avons observé un cline de fréquence nord–ouest-sud-est pour R-M269, similaire à ceux observés précédemment, des hautes fréquences en Europe occidentale aux basses fréquences à l’est. Au sein de l’haplogroupe R-M269, nous avons génotypé un SNP nouvellement caractérisé, S127 (équivalent à L11), pour lequel la distribution en Europe et au Proche-Orient, ainsi que celle de R-M269 et R-M269 (xS127), sont illustrées à la figure 2. Les distributions de R-M269 et de R-S127 se chevauchent largement, mais la fréquence de R-S127 diminue autour des Balkans, atteignant des valeurs extrêmement faibles plus à l’est et en dehors de l’Europe. Inversement, R-M269 (xS127) montre des fréquences plus élevées dans les populations de l’Est. Les cartes de fréquence montrant trois sous-haplogroupes R-S127 localisés géographiquement (R-S21, R-S145 et R-S28) sont illustrées à la figure 3.

Figure 2. Distributions de fréquence et variation des haplogroupes du chromosome Y R-M269, R-S127 et R-M269 (xS127) en Europe. Les trois panneaux montrent des cartes de contour basées sur les fréquences des différents haplogroupes trouvés en Europe et en Asie occidentale : (a) R-M269, (b) R-S127 et (c) R-M269 (xS127). Les cartes de gauche sont basées sur les fréquences des SNP dans toutes les populations marquées sur la carte (données dans le matériel supplémentaire électronique, tableau S1 et figure S1). Les graphiques de droite montrent la relation entre la longitude et la variance d’amorçage basée sur 10 DOD pour toutes les populations avec au moins 10 individus porteurs de ce SNP. Les valeurs R2 et p associées sont indiquées pour les corrélations dans les graphiques. Les codes de population sont détaillés dans le tableau 1 et les documents supplémentaires électroniques, tableau S1.

Figure 3. Distributions de fréquences des sous-haplogroupes R-M269. Cartes de contour pour les lignées définies par le marqueur (a) R-S21, (b) R-S145 et (c) R-S28.

Nous avons ensuite calculé la diversité STR pour chaque population pour l’ensemble de la lignée R-M269, et pour les sous-haplogroupes R-S127 et R-M269 (xS127), et avons étudié la relation entre la variance moyenne STR et la longitude et la latitude exactement de la même manière que Balaresque. Nous fournissons des estimations de l’incertitude pour ces valeurs par amorçage sur les individus, et rapportons la médiane des valeurs de variance observées et son IC de 95% (figure 2). Nous avons normalisé la latitude et la longitude et effectué une régression linéaire entre ces valeurs et la variance médiane des microsatellites pour les trois sous-haplogroupes R-M269. Nous n’avons trouvé aucune corrélation avec la latitude (données non représentées) et, contrairement à Balaresque, nous n’avons trouvé aucune corrélation significative entre la longitude et la variance pour aucun haplogroupe.

L’ensemble de données Balaresque ne présente les données de génotype qu’à la résolution du SNP R-M269. Nos résultats montrent que la grande majorité des échantillons de R-M269 en Anatolie, soit environ 90%, appartiennent au sous-haplogroupe R-M269 (xS127). La suppression de ces populations turques des données Balaresques et la répétition de la régression supprime la corrélation significative (R2 = 0,23, p = 0,09; détails dans le matériel supplémentaire électronique et la figure S2). Ces populations sont donc intrinsèques à la corrélation significative.

Nous avons observé que les haplotypes irlandais utilisés dans l’analyse Balaresque présentaient une très faible variance STR (0,208) par rapport à ceux inclus dans notre analyse (0,35; initialement publié par Moore et al. ). Balaresque a utilisé un échantillon d’haplotypes irlandais téléchargés à partir de la base de données en ligne Ysearch (http://www.ysearch.org). Pour tester si les haplotypes de Ysearch étaient représentatifs du R-M269 irlandais de Moore et al. , nous avons rééchantillonné indépendamment le Moore et al. ensemble de données 10 000 fois, en sélectionnant des sous-échantillons de 75 haplotypes à partir desquels nous avons estimé la variance en utilisant les neuf mêmes DOD utilisées dans l’article Balaresque (la méthodologie détaillée et la justification peuvent être trouvées dans le matériel supplémentaire électronique). La variance médiane de ces 10 000 répétitions était de 0,354 avec un IC à 95 % de (0,285-0,432). Lorsque nous avons répété l’analyse de régression avec cette estimation de variance différente, la corrélation n’était plus significative (R2 = 0,09, p = 0,19).

Les TSA à base de microsatellites augmentent linéairement avec le temps et ont été utilisés comme estimateur impartial du temps de coalescence moyen, étant donné qu’il se rapproche de 2µT. On s’attendrait à ce que l’utilisation de différents ensembles de DOD ne modifie pas radicalement l’estimation de T : à mesure que μ change, le TSA devrait changer de la même manière, T restant constant. Le tableau 1 présente des estimations de la durée de la linéarité basées sur les taux de mutation observés estimés récemment et la gamme estimée à partir du YHRD. Le TSA pour R-S127 a été calculé en comparant les 15 haplotypes STR de ses deux principaux sous-haplogroupes, R-S21 (141 chromosomes) et R-S116 (717; matériel supplémentaire électronique, tableau S3). La figure 4a est un graphique de T (estimé comme TSA/2μ) pour plusieurs ensembles différents de DOD avec des caractéristiques différentes (matériel supplémentaire électronique, tableau S4).

Figure 4. Relation entre le temps avec l’ancêtre commun le plus récent, T, et le taux de mutation, μ, pour divers sous-ensembles STR. (a) Estimations de T pour l’haplogroupe R-S127. Les points sont étiquetés avec le sous-ensemble des DOD utilisées pour calculer T et sont détaillés dans le tableau S4, matériel supplémentaire électronique. (b) Les mêmes données, mais cette fois avec des estimations de T basées sur des comparaisons des haplogroupes des chromosomes Y A et B (voir texte principal).

Pour explorer davantage la corrélation entre la sélection T et la sélection STR, nous avons calculé T de la même manière que décrit ci-dessus sur la base des chromosomes appartenant aux deux branches les plus profondes de la phylogénie du chromosome Y, AxA1 et B (figure 4b; matériel supplémentaire électronique, tableau S4). À titre de comparaison, l’ASD calculé à partir des mêmes sous-ensembles STR est montré pour le R-S127 sur le même graphique.

Discussion

Ici, nous avons confirmé avec l’analyse la plus large à ce jour que la distribution spatiale de l’haplogroupe du chromosome Y M269 peut être divisée par R-S127 en lignées européennes et eurasiennes occidentales. Contrairement aux résultats de Balaresque, nous ne voyons aucune relation entre la diversité et la longitude (figure 2) pour R-M269. La présence de deux ensembles de populations dans l’article Balaresque semble être causale de la relation observée: la diversité sous-estimée de la population irlandaise et l’inclusion des chromosomes turcs, dont la majorité appartiennent potentiellement au clade non européen R-M269 (xS127). Lorsque ces éléments sont correctement pris en compte, conjointement ou indépendamment, la corrélation n’existe plus. Cette corrélation est le principe central de l’hypothèse selon laquelle R-M269 s’est répandu avec les agriculteurs néolithiques en expansion.

Morelli et coll. (ci-après « Morelli ») a trouvé des motifs STR qui divisent R-M269 en lignées orientales et occidentales. Nous avons observé que 71 % des Myres et al. Les chromosomes R-M269 (xS127) pour lesquels des informations STR sont disponibles ont le motif oriental (DYS393-12 / DYS461-10), tandis que 80% des chromosomes R-S127 de Myres et al. avoir le motif occidental (DYS393-13 / DYS461-11). Aucun chromosome R-S127 ne présentait le motif oriental, tandis que 5 % des chromosomes R-M269 (xS127) présentaient le motif occidental (tous dérivés de L23 (S141) ou de M412 (S127)). Dans les deux cas, cependant, ces motifs différaient de ceux suggérés par Morelli en ayant une répétition de moins au locus DYS461. La dichotomie observée par Morelli sur la base d’un motif à deux STR est donc corroborée, au moins en partie, par la présence de ce SNP.

La datation des lignées du chromosome Y est notoirement controversée, le problème majeur étant que le choix du taux de mutation STR peut conduire à des estimations d’âge qui diffèrent d’un facteur trois (c’est-à-dire les taux de mutation évolutifs par rapport aux taux de mutation (généalogiques) observés). Fait intéressant, malgré le fait que Myres et al. et Balaresque a utilisé différents taux de mutation STR et approches de datation, leurs estimations TMRCA se chevauchent: 8590-11 950 ans en utilisant un taux de mutation de 6.9 × 10-4 par génération, et 4577-9063 ans en utilisant un taux de mutation moyen de 2,3 × 10-3, respectivement. Séparément, Morelli a calculé le TMRCA sur la base uniquement des chromosomes sardes et anatoliens, et a estimé que la lignée R-M269 était née il y a 25 000 à 80 700 ans), sur la base du même taux de mutation évolutive que Myres et al.

En cherchant à trouver un ensemble approprié de STR avec lequel estimer le temps moyen de coalescence, T, du sous-haplogroupe R-S127, nous avons montré que toutes les STR ne sont pas d’une utilité égale dans ce contexte. Nous nous sommes concentrés sur l’estimation de la durée de linéarité, D, en utilisant différents ensembles de DOD. Nos analyses suggèrent que le D d’une STR est la clé de sa capacité à découvrir une ascendance profonde. La durée de linéarité fait référence à la durée dans le passé pendant laquelle les TSA et T continuent d’être liés linéairement pour une DOD spécifique. Goldstein et coll. a montré que D est affecté par deux propriétés des STR utilisées pour calculer les TSA: le taux de mutation et la plage d’allèles possibles que le STR peut prendre. Lorsque nous avons manipulé notre choix de marqueur STR basé sur θ(R) / 2μ (un substitut pour D; tableau 1), nous avons constaté que différents ensembles de DOD donnaient des valeurs différentes pour T. Il est donc clair que les estimations de coalescence dépendent explicitement des DOD que l’on utilise.

Notre analyse confirme que ce phénomène n’est pas spécifique à l’haplogroupe R-M269 ni aux méthodes utilisant les TSA. La figure 4b montre que les DOD avec un D élevé produisent des estimations plus importantes de T. Ce qui est clair, c’est que les estimations de T dépendent implicitement des DOD sélectionnées pour faire cette inférence. En utilisant des CHAUVES-souris sur une population HGDP pour laquelle 65 DOD-Y sont disponibles, nous avons montré que l’estimation médiane de la TMRCA peut différer de plus de cinq fois lorsque les DOD sont sélectionnées sur la base de la durée de linéarité attendue (matériel supplémentaire électronique, figure S4). Alors que les chercheurs prennent en compte les taux de mutation des STR lors de l’estimation du temps de divergence avec les TSA, les DOD couramment utilisées ne possèdent pas les attributs spécifiques permettant de supposer la linéarité plus loin dans le passé. La majorité des dates d’haplogroupes basées sur de tels ensembles de DOD peuvent donc avoir été systématiquement sous-estimées.

Conclusion

Les distributions des principaux sous-haplogroupes R-S127, R-S21, R-S145 et R-S28, montrent des concentrations nettement localisées (figure 3). Si la lignée R-M269 est d’origine plus récente que l’expansion néolithique, alors sa distribution actuelle devrait être le résultat d’importants mouvements de population survenus depuis cette origine. Pour que cet haplogroupe soit si omniprésent, la population porteuse de R-S127 aurait déplacé la plupart des populations présentes en Europe occidentale après la transition agricole néolithique. Alternativement, si R-S127 est né avant la vague d’expansion néolithique, alors soit il était déjà présent dans la majeure partie de l’Europe avant l’expansion, soit la mutation s’est produite à l’est, et s’est propagée avant ou après l’expansion, auquel cas nous nous attendrions à une plus grande diversité à l’est plus proche des origines de l’agriculture, ce qui n’est pas ce que nous observons. Les cartes des fréquences du sous-haplogroupe R-S127 pour R-S21, R-S145 et R-S28 montrent des distributions radiales à partir d’emplacements européens spécifiques (figure 3). Ces centres ont des fréquences absolues élevées: R-S21 a une fréquence de 44% en Frise, et R-S28 atteint 25% dans les Alpes; et dans les populations où ils sont à la fréquence la plus élevée, la grande majorité des R-S127 appartiennent à cette sous-lignée particulière. Par exemple, la moitié de tout le R-M269 en Europe du Sud est dérivé du R-S28 et environ 60% du R-M269 en Europe centrale est dérivé du R-S21. Au niveau du sous-haplogroupe, donc, R-M269 est divisé en poches géographiquement localisées avec des sous-haplogroupes individuels R-M269 dominant, ce qui suggère que la fréquence de R-M269 à travers l’Europe pourrait être liée à la croissance de multiples sous-lignées géographiquement spécifiques qui diffèrent dans différentes parties de l’Europe.

Une analyse récente des datations au radiocarbone des sites néolithiques à travers l’Europe révèle que la propagation du Néolithique n’était nullement constante et que plusieurs « centres d’expansion renouvelée » sont visibles à travers l’Europe, représentant des zones de colonisation, dont trois cartographient de manière curieuse les centres des foyers des sous-haplogroupes (matériel supplémentaire électronique, figure S3). Des travaux futurs impliquant des simulations spatialement explicites, ainsi que des mesures précises de la diversité du chromosome Y, sont nécessaires pour étudier comment la distribution actuelle des sous-haplogroupes a pu être produite. Dans ce contexte, des travaux récents de Sjödin & François ont rejeté une dispersion paléolithique pour R1b-M269 en utilisant des simulations spatiales basées sur le jeu de données de Balaresque. Néanmoins, nous notons que des travaux supplémentaires sont encore nécessaires car ces auteurs n’étaient pas au courant de la limitation de l’ensemble de données Balaresques présenté ici, et n’ont pas exploré complètement l’impact des différentes caractéristiques moléculaires des loci étudiés sur leur analyse.

Les estimations d’âge basées sur des ensembles de STR-Y soigneusement sélectionnés pour posséder les attributs nécessaires à la découverte d’une ascendance profonde (par exemple, parmi les près de 200 caractérisées récemment ici), et à partir de comparaisons de séquences entières du chromosome Y, fourniront des dates robustes pour cet haplogroupe à l’avenir. Pour l’instant, nous ne pouvons fournir aucune date quant à l’âge de R-M269 ou R-S127, mais nous pensons que nos analyses STR suggèrent que les estimations récentes de l’âge de R-M269 et R-S116 sont probablement plus jeunes que les vraies valeurs, et l’homogénéité de la variance STR et de la distribution des sous-types à travers le continent sont incompatibles avec l’hypothèse de la diffusion néolithique de la lignée du chromosome Y R-M269.

Le peuplement de l’Europe et le récit édifiant de la lignée du chromosome Y R-M269