Il popolamento dell'Europa e la triste storia di cromosoma Y lignaggio R-M269 | Proceedings of the Royal Society B: Biological Sciences

Introduzione

Dal momento che i primi tentativi di utilizzare variazione biologica nell’uomo per aiutare la nostra comprensione di inizio delle migrazioni umane, il popolamento dell’Europa è stato uno dei principali focus di ricerca . In seguito allo sviluppo dell’agricoltura nella Mezzaluna Fertile circa 10 000 anni fa , questa tecnologia si diffuse dal Vicino Oriente verso ovest verso l’Europa, causando una grande transizione culturale dalla raccolta di cacciatori itineranti all’agricoltura sedentaria, che ha portato a una crescita drammatica della popolazione , durante quella che è diventata nota come la transizione neolitica . All’interno di questo quadro archeologico, infuria il dibattito sui contributi relativi alle popolazioni europee moderne dei primi popoli d’Europa e di coloro che vi migrarono con la transizione neolitica, sia in termini di eredità genetica che di processi di migrazione e successione . Il vero scenario è indubbiamente sfaccettato e complesso. Sia i primi lavori sui “marcatori classici” utilizzando l’analisi delle componenti principali che studi più recenti utilizzando il cromosoma Y hanno dimostrato che in Europa la variazione genetica è distribuita lungo un gradiente sud–est-nord-ovest. Tali osservazioni sono state suggerite per sostenere un modello di diffusione demica per la transizione neolitica in Europa (cioè che la diffusione dell’agricoltura coinvolgesse anche un movimento associato di persone dal Vicino Oriente) .

Un nuovo lavoro ha affrontato la transizione neolitica in Europa concentrandosi sul principale aplogruppo del cromosoma Y dell’Europa occidentale R1b1b2-M269 (di seguito denominato R-M269). Questo lignaggio aveva finora ricevuto poca attenzione recente in questo contesto, anche se il lavoro precedente ha suggerito che il più ampio clade R-M173 (escludendo il sottolinea R1a-M17) e l’aplogruppo 1 (derivato dal polimorfismo a singolo nucleotide, o SNP, 92r7) probabilmente si sono diffusi in Europa durante il Paleolitico , e quindi è improbabile che siano stati Balaresque et al. (di seguito “Balaresque”) ha utilizzato 840 cromosomi Y all’interno dell’aplogruppo R-M269 per dimostrare che, sebbene questo aplogruppo sia caratterizzato da un forte cline di frequenza da alto a ovest a basso a est, il cline associato nella diversità dell’aplotipo (misurato come media breve ripetizione tandem, o STR, varianza) è nella direzione opposta. Hanno postulato che questa correlazione potrebbe essere spiegata da una più recente dispersione di questo lignaggio dal Vicino Oriente in coincidenza con la transizione neolitica in Europa. Il lignaggio è stato stimato essere di circa 6000 anni in varie popolazioni, che è stato sostenuto per essere coerente con questo modello. Questo risultato, come notato nella loro introduzione, “indica che la grande maggioranza dei cromosomi Y degli europei hanno le loro origini nell’espansione neolitica” (p. 2 in ).

Myres et al. descritto diverse nuove mutazioni SNP a valle di R-M269 che mostrano una forte strutturazione geografica in un campione molto più grande di 2043 cromosomi R-M269. Evidenziano un clade essenzialmente specifico per l’Europa, definito dalla presenza di SNPs M412 (noto anche come S167) e L11 (S127), che è clinale dalle alte frequenze (superiori al 70%) nell’Europa occidentale, decrescente verso est. Questo studio ha dimostrato che le distribuzioni di diversi SNP a valle mostrano modelli di frequenza sorprendenti e sembrano diffondersi da diverse aree di frequenze altamente localizzate, alcune delle quali sono state osservate anche da Cruciani et al. . Myres et al. tempi di coalescenza stimati per l’aplogruppo R-S116 in diverse popolazioni in Europa e suggerito, in largo accordo con Balaresque, che l’aplogruppo R-M269 potrebbe essersi diffuso con il Neolitico, e più specificamente con il Linearbandkeramik, un’industria agricola neolitica che si diffuse in tutto il nord Europa, dall’Ungheria alla Francia, circa 7500 anni fa.

L’attuale incertezza che circonda i tassi di mutazione STR mostra che, nonostante questi recenti studi, non ci può ancora essere consenso su quando e dove l’aplogruppo R-M269 ha avuto origine e si è diffuso in Europa. Anche se invocare le origini del pool genetico del cromosoma Y europeo “deve essere visto con cautela soprattutto quando tale argomento si basa su un singolo aplogruppo non completamente risolto” (p. 100 in ), è di profondo interesse cercare di capire come la stragrande maggioranza degli uomini dell’Europa occidentale (più di 100 milioni) porti cromosomi Y che appartengono all’aplogruppo del cromosoma Y R-M269.

Di conseguenza, abbiamo affrontato questi problemi con il nostro ampio set di dati R-M269, sia da solo che in combinazione con i dati compatibili del più recente sondaggio completo . Mostriamo che la relazione fondamentale tra varianza media e longitudine, che è alla base della recente affermazione di supporto per l’ipotesi neolitica , non regge per il nostro campione più ampio e geograficamente più ampio. Spieghiamo anche come questa precedente analisi possa aver portato a questa associazione spuria. Esploriamo infine la distribuzione spaziale della diversità genetica associata al sottolinea specifico europeo R-M269, definito da SNP S127, che mostra uno sfondo essenzialmente omogeneo di variazione microsatellitica a diversi livelli di sottolinea, basato su un insieme comune di 10 STR digitati su 2000 cromosomi R-M269.

Pur riconoscendo l’incertezza, i ricercatori di solito riportano l’età dei lignaggi del cromosoma Y in base alle differenze tra individui su più STR, spesso usando la distanza media quadrata (ASD) o le statistiche di riepilogo correlate come stimatori imparziali del tempo di coalescenza, T. Abbiamo studiato come l’ASD cambia nel nostro set di dati in base a diversi Contrariamente alla credenza comune, le stime di ASD, e quindi T, variano ampiamente quando diversi sottoinsiemi di STRS vengono utilizzati con lo stesso campione. Mentre prove recenti hanno aumentato il supporto per la diffusione neolitica di R-M269, concludiamo che al momento attuale non è possibile fare alcuna stima credibile del tempo di divergenza sulla base degli insiemi di Y-STR utilizzati in studi recenti. Inoltre, mostriamo che sono le proprietà di Y-STRs, non il numero usato di per sé, che sembrano controllare l’accuratezza delle stime del tempo di divergenza, attributi che raramente, se mai, sono considerati nella pratica.

Materiale e metodi

(a) Dichiarazione etica

Tutti i maschi sottoposti a campionamento hanno dato il consenso informato dopo l’approvazione etica da parte dei comitati etici delle varie università in cui sono stati raccolti i campioni.

(b) Campioni di DNA e genotipizzazione

Abbiamo assemblato un set di dati di 2486 cromosomi Y R-M269 provenienti da tutta Europa, Vicino Oriente e Asia occidentale, da una popolazione totale di 6503, che includeva cromosomi Y nuovi e precedentemente pubblicati. Per valutare la distribuzione di frequenza di R-M269 e vari sotto-aplogruppi in Europa e in Asia, abbiamo combinato i nostri dati con quelli di Myres et al. , che ha dato un insieme combinato di 4529 cromosomi R-M269 da un campione totale di 16 298 da 172 diverse popolazioni (materiale supplementare elettronico, tabella S1 e figura S1). Le frequenze dei seguenti SNP, la cui filogenesi è mostrata in figura 1, sono state accertate: S127/L11 (rs9786076), S21/U106 (rs16981293), S116 (rs34276300), S145/M529 (rs11799226) e S28 / U152 (rs1236440). I campioni sono stati amplificati in una reazione PCR standard e il protocollo di estensione primer Snapshot Multiplex System (Life Technologies Corp., Carlsbad, CA, USA) è stato utilizzato per caratterizzare l’allele presente in ciascun loci SNP. Tutti i primer sono elencati nel materiale supplementare elettronico.

Figura 1. Albero del cromosoma Y che mostra le relazioni di SNPs a valle di R-M269 testato in questo studio. La nomenclatura alternativa per alcuni SNP è fornita in corsivo.

Per la maggior parte delle persone digitato in questo studio (2289), i seguenti 10 segnalazioni di operazioni Sospette sono state disponibili: DYS19; DYS389I; DYS389b (sottraendo gli alleli di una doppietta DYS389I dal DYS389II locus); DYS390; DYS391; DYS392; DYS393; DYS437; DYS438; e DYS439, entrambi pubblicati in precedenza o che ci sia stato digitato da noi utilizzando il Yfiler kit (Life Technologies Corp.) o il Promega Powerplex dosaggio (Promega Corporation, Madison, WI, USA) . Per i campioni di Weale et al. , solo cinque STR sono stati precedentemente pubblicati, e così i restanti cinque sono stati digitati con un multiplex internamente progettato e verificato utilizzando primer dallo studio di Butler et al. per DYS391, DYS437, DYS389I e II e DYS439, e primer dallo studio di Gusmao & Alves per DYS438. Le chiamate DYS391 sono state utilizzate per verificare la coerenza con gli aplotipi originali di Weale et al. Tre dei Weale et al. le popolazioni non sono state digitate ulteriormente per questi STR (114 individui). Gli individui digitati utilizzando il kit Yfiler (1035) sono stati utilizzati per indagare l’effetto della selezione STR sui calcoli ASD (materiale supplementare elettronico, tabella S2).

Popolazioni con una dimensione totale di 30 o superiore sono state utilizzate per costruire le mappe di frequenza (materiale supplementare elettronico, figura S1). La varianza è stata calcolata solo per quelle popolazioni in cui gli aplotipi erano disponibili per almeno 10 individui all’interno dell’aplogruppo pertinente.

(c) Analisi

Le mappe delle frequenze SNP sono state visualizzate utilizzando ArcMap GIS (v. 9.2; ESRI). L’interpolazione è stata eseguita utilizzando la procedura di ponderazione della distanza inversa. Le latitudini e le longitudini per tutte le popolazioni sono state basate sul centro di campionamento a più alta risoluzione associato ai campioni e sono mostrate in materiale supplementare elettronico, tabella S1.

Il pacchetto statistico R è stato utilizzato per calcolare la varianza STR mediana (la varianza nel numero di ripetizioni all’interno di un locus media su tutti i loci) tra tutti gli individui all’interno di una popolazione dopo 1000 repliche di bootstrap con sostituzione su individui. L’analisi di regressione è stata eseguita in R per confrontare la varianza STR media con latitudine e longitudine per gli aplogruppi R-M269, R-M269(xS127) e R-S127.

Abbiamo studiato come le stime ASD cambiano all’interno del nostro campione quando si utilizzano diverse combinazioni di STRs basate su due criteri separati: tasso di mutazione, μ; e linearità osservata, θ(R) (tabella 1). Abbiamo usato il μ osservato calcolato di recente per classificare i 15 STR su una scala di velocità e calcolato separatamente ASD in base ai sette tassi più veloci e sette più lenti (materiale supplementare elettronico, tabella S4). Il nostro secondo criterio era basato sulla durata stimata della linearità, D, di diversi gruppi di STR. La durata della linearità è una stima del tempo di divergenza dopo il quale ASD cessa di aumentare linearmente con il tempo. Per gli STR che mutano sotto un rigoroso modello graduale, Goldstein et al. ha mostrato che ASD inizialmente aumenta linearmente con il tempo, ma che questa linearità è limitata dal numero massimo di ripetizioni che uno STR può prendere, R . D è approssimato usando θ (R) (che è una semplice trasformazione di R) e μ, e la dimensione effettiva della popolazione (Ne) (eqns 3 e 4 in ). Valori maggiori di θ(R)/2μ rendono stime aumentate di D. L’utilizzo di STR con valori maggiori di θ (R)/2μ dovrebbe consentire di assumere la linearità ulteriormente nel passato e l’ASD calcolato da questi STR dovrebbe essere meno probabile che venga sottovalutato a causa della saturazione. Tabella 1 e materiale elettronico supplementare, tabella S4 mostrano i diversi gruppi di STRS utilizzati e valori associati di μ, R, θ(R)/2μ e ASD.

Per verificare che eventuali differenze di tempo rispetto alla stima dell’antenato comune più recente (TMRCA) non siano specifiche per i metodi basati su ASD, abbiamo usato BATWING sulla popolazione beduina HGDP per la quale era disponibile un numero maggiore di Y-STR (n = 65). Abbiamo confrontato quattro diverse serie di STR con diversi gradi di durata delle stime di linearità (materiale supplementare elettronico).

Risultati

Per studiare le origini della R-M269 lignaggio in Europa, abbiamo analizzato un vasto set di 4529 R-M269 cromosomi (2486, di cui non sono stati precedentemente pubblicati a tale risoluzione dettagliata) da diverse popolazioni di tutta Europa, del Vicino Oriente e dell’Asia occidentale (elettronica di materiale complementare figura S1 e tabella S1). In Europa, abbiamo osservato un cline di frequenza nord–ovest-sud-est per R-M269, simile a quelli osservati in precedenza , dalle alte frequenze in Europa occidentale alle frequenze più basse in oriente. All’interno dell’aplogruppo R-M269 abbiamo genotipizzato un SNP di nuova caratterizzazione, S127 (equivalente a L11), per il quale la distribuzione in Europa e nel Vicino Oriente, insieme a quella di R-M269 e R-M269(xS127), sono mostrati in figura 2. Le distribuzioni di R-M269 e R-S127 sono ampiamente sovrapposte, ma la frequenza di R-S127 diminuisce intorno ai Balcani, raggiungendo valori estremamente bassi più a est e al di fuori dell’Europa. Al contrario, R-M269 (xS127) mostra frequenze più alte nelle popolazioni orientali. Le mappe di frequenza che mostrano tre sotto-aplogruppi R-S127 localizzati geograficamente (R-S21, R-S145 e R-S28) sono mostrate nella figura 3.

Figura 2. Distribuzioni di frequenza e variazione degli aplogruppi del cromosoma Y R-M269, R-S127 e R-M269(xS127) in Europa. I tre pannelli mostrano mappe di contorno basate sulle frequenze dei diversi aplogruppi presenti in Europa e in Asia occidentale: (a) R-M269, (b) R-S127 e (c) R-M269(xS127). Le mappe a sinistra sono basate sulle frequenze degli SNP in tutte le popolazioni contrassegnate sulla mappa (dati in materiale elettronico supplementare, tabella S1 e figura S1). I grafici a destra mostrano la relazione tra longitudine e varianza bootstrap basata su 10 STR per tutte le popolazioni con almeno 10 individui che trasportano quel SNP. I valori R2 e p associati sono mostrati per le correlazioni nei grafici. I codici di popolazione sono dettagliati nella tabella 1 e nel materiale supplementare elettronico, tabella S1.

Figura 3. Distribuzioni di frequenza dei sub-aplogruppi R-M269. Mappe di contorno per le linee definite dal marcatore (a) R-S21, (b) R-S145 e (c) R-S28.

Successivamente abbiamo calcolato la diversità STR per ogni popolazione per l’intero lignaggio R-M269 e per i sub-aplogruppi R-S127 e R-M269(xS127) e abbiamo studiato la relazione tra varianza STR media e longitudine e latitudine esattamente nello stesso modo di Balaresque. Forniamo stime di incertezza per questi valori mediante bootstrap su individui e riportiamo la mediana dei valori di varianza osservati e il suo IC al 95% (figura 2). Abbiamo normalizzato latitudine e longitudine, ed eseguito una regressione lineare tra questi valori e la varianza microsatellite mediana per i tre sub-aplogruppi R-M269. Non abbiamo trovato alcuna correlazione con la latitudine (dati non mostrati) e, contrariamente a Balaresque, non abbiamo trovato alcuna correlazione significativa tra longitudine e varianza per alcun aplogruppo.

Il set di dati Balaresque presenta i dati del genotipo solo alla risoluzione di SNP R-M269. I nostri risultati mostrano che la stragrande maggioranza dei campioni R-M269 in Anatolia, circa il 90 per cento, appartengono al sub-aplogruppo R-M269(xS127). Rimuovere queste popolazioni turche dai dati balareschi e ripetere la regressione rimuove la correlazione significativa (R2 = 0.23, p = 0.09; dettagli nel materiale supplementare elettronico e figura S2). Queste popolazioni sono quindi intrinseche alla correlazione significativa.

Abbiamo osservato che gli aplotipi irlandesi utilizzati nell’analisi balaresca avevano una varianza STR molto bassa (0.208) rispetto a quelli inclusi nella nostra analisi (0.35; originariamente pubblicato da Moore et al. ). Balaresque ha utilizzato un campione di aplotipi irlandesi scaricati dal database Ysearch online (http://www.ysearch.org). Per verificare se gli aplotipi di Ysearch fossero rappresentativi dell’irlandese R-M269 di Moore et al. , abbiamo ricampionato indipendentemente il Moore et al. set di dati 10 000 volte, selezionando sottocampioni di 75 aplotipi da cui abbiamo stimato la varianza utilizzando gli stessi nove STR utilizzati nel documento Balaresque (metodologia dettagliata e giustificazione possono essere trovate nel materiale supplementare elettronico). La varianza mediana di queste 10 000 ripetizioni era di 0,354 con un IC al 95% di (0,285–0,432). Quando abbiamo ripetuto l’analisi di regressione con questa diversa stima della varianza, la correlazione non era più significativa (R2 = 0,09, p = 0,19).

L’ASD basato su microsatelliti ha dimostrato di aumentare linearmente con il tempo ed è stato usato come stimatore imparziale del tempo medio di coalescenza, dato che si approssima a 2µT . Ci si aspetterebbe che l’utilizzo di diversi set di STR non alteri drasticamente la stima di T: man mano che μ cambia, ASD dovrebbe cambiare allo stesso modo, con T che rimane costante. La tabella 1 mostra le stime della durata della linearità sulla base dei tassi di mutazione osservati stimati di recente e dell’intervallo stimato dalla YHRD . L’ASD per R-S127 è stato calcolato confrontando i 15 aplotipi STR dei suoi due principali sub-aplogruppi, R-S21 (141 cromosomi) e R-S116 (717; materiale supplementare elettronico, tabella S3). La figura 4a è un grafico di T (stimato come ASD / 2μ) per diversi gruppi di STR con caratteristiche diverse (materiale supplementare elettronico, tabella S4).

Figura 4. Relazione tra il tempo al più recente antenato comune, T, e tasso di mutazione, μ, per vari sottoinsiemi STR. (a) Stime di T per l’aplogruppo R-S127. I punti sono etichettati con il sottoinsieme di STRS utilizzato per calcolare T e sono dettagliati nel materiale supplementare elettronico, tabella S4. (b) Gli stessi dati, ma questa volta insieme alle stime di T basate sul confronto degli aplogruppi del cromosoma Y A e B (vedi testo principale).

Per esplorare ulteriormente la correlazione tra la selezione T e STR, abbiamo calcolato T nello stesso modo descritto sopra in base ai cromosomi appartenenti ai due rami più profondi della filogenesi del cromosoma Y, AxA1 e B (figura 4b; materiale supplementare elettronico, tabella S4). Come confronto, ASD calcolato dagli stessi sottoinsiemi STR viene mostrato per R-S127 sullo stesso grafico.

Discussione

Qui, abbiamo confermato con l’analisi più ampia fino ad oggi che la distribuzione spaziale dell’aplogruppo del cromosoma Y M269 può essere divisa da R-S127 in lignaggi euroasiatici europei e occidentali. Contrariamente ai risultati di Balaresque, non vediamo alcuna relazione tra diversità e longitudine (figura 2) per R-M269. La presenza di due gruppi di popolazioni nel documento Balaresque sembra essere causale alla relazione osservata: la diversità sottovalutata della popolazione irlandese e l’inclusione dei cromosomi turchi, la maggior parte dei quali potenzialmente appartengono al clade non europeo R-M269(xS127). Quando questi elementi sono correttamente presi in considerazione, congiuntamente o indipendentemente, la correlazione non esiste più. Questa correlazione è il principio centrale per l “ipotesi che R-M269 è stato diffuso con l” espansione agricoltori neolitici.

Morelli et al. (di seguito “Morelli”) ha trovato motivi STR che dividono R-M269 in lignaggi orientali e occidentali. Abbiamo osservato che 71 per cento del Myres et al. I cromosomi R-M269(xS127) per i quali sono disponibili informazioni STR hanno il motivo orientale (DYS393-12/DYS461-10), mentre l ‘ 80% dei cromosomi R-S127 di Myres et al. hanno il motivo occidentale (DYS393-13/DYS461-11). Nessun cromosoma R-S127 mostrava il motivo orientale, mentre il 5% dei cromosomi R-M269(xS127) mostrava il motivo occidentale (tutti derivati da L23 (S141) o M412 (S127)). In entrambi i casi, tuttavia, questi motivi differivano da quelli suggeriti da Morelli avendo una ripetizione in meno nel locus DYS461. La dicotomia osservata da Morelli basata su un motivo a due STR è quindi corroborata, almeno in parte, dalla presenza di questo SNP.

La datazione dei lignaggi del cromosoma Y è notoriamente controversa, il problema principale è che la scelta del tasso di mutazione STR può portare a stime di età che differiscono di un fattore tre (cioè i tassi di mutazione evolutivi rispetto a quelli osservati (genealogici)). È interessante notare che, nonostante il fatto che Myres et al. e Balaresque ha usato diversi tassi di mutazione STR e approcci di datazione, le loro stime TMRCA si sovrappongono: 8590-11 950 anni usando un tasso di mutazione di 6.9 × 10-4 per generazione e 4577-9063 anni utilizzando un tasso medio di mutazione di 2,3 × 10-3, rispettivamente. Separatamente, Morelli ha calcolato la TMRCA basata solo sui cromosomi sardi e anatolici e ha stimato che il lignaggio R-M269 abbia avuto origine 25 000-80 700 anni fa), sulla base dello stesso tasso di mutazione evolutiva di Myres et al.

Nel cercare di trovare un insieme adeguato di STR con cui stimare il tempo medio di coalescenza, T, del sub-aplogruppo R-S127, abbiamo dimostrato che non tutti gli STR sono di uguale utilità in questo contesto. Ci siamo concentrati sulla stima della durata della linearità, D, utilizzando diversi set di STR. Le nostre analisi suggeriscono che la D di uno STR è la chiave per la sua capacità di scoprire discendenza profonda. La durata della linearità si riferisce al periodo di tempo passato in cui ASD e T continuano ad essere linearmente correlati per uno specifico STR. Goldstein et al. ha mostrato che D è influenzato da due proprietà degli STR utilizzati per calcolare ASD: il tasso di mutazione e la gamma di possibili alleli che lo STR può assumere. Quando abbiamo manipolato la nostra scelta del marcatore STR basato su θ(R) / 2μ (un surrogato per D; tabella 1), abbiamo scoperto che diversi set di STR hanno dato valori diversi per T. È chiaro, quindi, che le stime di coalescenza dipendono esplicitamente dagli STR che si usa.

La nostra analisi conferma che questo fenomeno non è specifico per l’aplogruppo R-M269 né per i metodi che utilizzano ASD. La figura 4b mostra che gli STR con alta D producono stime più grandi di T. Ciò che è chiaro è che le stime di T dipendono implicitamente dagli STR che sono selezionati per fare questa inferenza. Utilizzando BATWING su una popolazione HGDP per la quale sono disponibili 65 Y-STR, abbiamo dimostrato che la stima mediana di TMRCA può differire di oltre cinque volte quando gli STR sono selezionati sulla base della durata prevista della linearità (materiale supplementare elettronico, figura S4). Mentre i ricercatori tengono conto dei tassi di mutazione STR quando stimano il tempo di divergenza con ASD, gli STR comunemente usati non hanno gli attributi specifici che consentono di assumere la linearità ulteriormente nel passato. La maggior parte delle date dell’aplogruppo basate su tali insiemi di STR potrebbe quindi essere stata sistematicamente sottovalutata.

Conclusione

Le distribuzioni dei principali sub-aplogruppi R-S127, R-S21, R-S145 e R-S28, mostrano concentrazioni marcatamente localizzate (figura 3). Se il lignaggio R-M269 è di origine più recente rispetto all’espansione neolitica, la sua attuale distribuzione dovrebbe essere il risultato di importanti movimenti di popolazione che si verificano da quell’origine. Perché questo aplogruppo fosse così onnipresente, la popolazione che trasportava R-S127 avrebbe spostato la maggior parte delle popolazioni presenti nell’Europa occidentale dopo la transizione agricola neolitica. In alternativa, se R-S127 nato prima del Neolitico ondata di espansione, quindi era già presente nella maggior parte dell’Europa prima dell’espansione, o la mutazione si è verificato in oriente, e si è diffuso prima o dopo l’espansione, in questo caso ci aspetteremmo maggiore diversità in oriente più vicino alle origini dell’agricoltura, che non è ciò che osserviamo. Le mappe delle frequenze sub-aplogruppo R-S127 per R-S21, R-S145 e R-S28 mostrano distribuzioni radiali da specifiche località europee (figura 3). Questi centri hanno alte frequenze assolute: R-S21 ha una frequenza del 44 per cento in Frisia, e R-S28 raggiunge il 25 per cento nelle Alpi; e nelle popolazioni in cui sono a più alta frequenza, la stragrande maggioranza di R-S127 appartengono a quel particolare sottolinea. Ad esempio, metà di tutti gli R-M269 nell’Europa meridionale è derivato da R-S28 e circa il 60% di R-M269 nell’Europa centrale è derivato da R-S21. A livello di sub-aplogruppo, quindi, R-M269 è suddiviso in sacche geograficamente localizzate con singoli sub-aplogruppi R-M269 che dominano, suggerendo che la frequenza di R-M269 in tutta Europa potrebbe essere correlata alla crescita di più sottolinee geograficamente specifiche che differiscono in diverse parti d’Europa.

Una recente analisi delle date al radiocarbonio dei siti neolitici in tutta Europa rivela che la diffusione del Neolitico non era affatto costante e che diversi “centri di rinnovata espansione” sono visibili in tutta Europa, rappresentando aree di colonizzazione, tre delle quali mappano in modo intrigante i centri dei focolai dei sub-aplogruppi (materiale supplementare elettronico, figura S3). Sono necessari lavori futuri che coinvolgono simulazioni spazialmente esplicite, insieme a misure accurate della diversità del cromosoma Y, per studiare come potrebbe essere stata prodotta l’attuale distribuzione dei sub-aplogruppi. In questo contesto, il recente lavoro di Sjödin & François ha respinto una dispersione paleolitica per R1b-M269 utilizzando simulazioni spaziali basate sul set di dati di Balaresque. Tuttavia, notiamo che è ancora necessario un lavoro aggiuntivo in quanto questi autori non erano a conoscenza della limitazione del set di dati Balaresque qui presentato e non hanno esplorato appieno l’impatto delle diverse caratteristiche molecolari dei loci studiati sulla loro analisi.

Le stime di età basate su insiemi di Y-STR accuratamente selezionati per possedere gli attributi necessari per scoprire l’ascendenza profonda (ad esempio, dai quasi 200 recentemente caratterizzati qui) e da interi confronti della sequenza del cromosoma Y, forniranno date robuste per questo aplogruppo in futuro. Per ora, non possiamo offrire alcuna data sull’età di R-M269 o R-S127, ma crediamo che le nostre analisi STR suggeriscano che le recenti stime dell’età di R-M269 e R-S116 siano probabilmente più giovani dei valori reali, e l’omogeneità della varianza STR e la distribuzione dei sottotipi in tutto il continente sono incoerenti con l’ipotesi della diffusione neolitica del lignaggio del cromosoma Y R-M269.

Il popolamento dell’Europa e la triste storia di cromosoma Y lignaggio R-M269