Introdução
Desde as primeiras tentativas de utilização biológica de variação em seres humanos para ajudar a nossa compreensão do início das migrações humanas, o povoamento da Europa tem sido um grande foco de investigação . Na sequência do desenvolvimento da agricultura no Crescente Fértil , há cerca de 10 000 anos, esta tecnologia propagou–se do Próximo Oriente para o Ocidente, para a Europa , causando uma importante transição cultural de caçadores-coletores itinerantes para a agricultura sedentária, o que levou a um crescimento populacional dramático, durante o que ficou conhecido como a transição Neolítica . Dentro deste quadro Arqueológico, o debate sobre as contribuições relativas às populações europeias modernas dos primeiros povos da Europa e daqueles que migraram para ele com a transição Neolítica, tanto em termos de seu legado genético e quanto aos processos de migração e sucessão . O verdadeiro cenário é, sem dúvida, multifacetado e complexo. Ambos os trabalhos iniciais sobre “marcadores clássicos” utilizando a análise de componentes principais e estudos mais recentes utilizando o cromossoma Y mostraram que, na Europa, a variação genética é distribuída ao longo de um gradiente sudeste–noroeste. Tais observações têm sido sugeridas para apoiar um modelo de difusão demica para a transição Neolítica na Europa (ou seja, que a propagação da agricultura também envolveu um movimento associado de pessoas do Oriente Próximo) .
a nova obra abordou a transição Neolítica na Europa, centrando-se no principal haplogroup R1b1b2-M269 do cromossoma Y da Europa Ocidental (a seguir designado por R-M269). Esta linhagem até então tinha recebido pouca atenção recentemente neste contexto, apesar de trabalhos anteriores sugeriram que o amplo R-M173 clado (excluindo o R1a-M17 sub-linhagem) e Haplogroup 1 (derivada no single nucleotide polymorphism, ou SNP, 92r7) são susceptíveis de ter espalhou na Europa durante o Paleolítico , e, portanto, improvável que tenha sido levada para a Europa com a migração de agricultores. Balaresque et al. (daqui por diante, ‘Balaresque”) utilizado 840 cromossomos Y dentro de haplogroup R-M269 para mostrar que, embora este haplogroup é caracterizada por uma forte frequência cline de alta no ocidente para baixo, no leste, o associado cline na diversidade de haplótipos (medido como a média de short tandem repeats ou STR, variância) é no sentido oposto. Eles postularam que esta correlação poderia ser explicada por uma dispersão mais recente desta linhagem do Oriente Próximo coincidindo com a transição Neolítica na Europa. A linhagem foi estimada para ser aproximadamente 6000 anos de idade em várias populações, que foi argumentado ser consistente com este modelo. Este resultado, como observado em sua introdução, “indica que a grande maioria dos cromossomos Y dos europeus têm suas origens na expansão Neolítica” (p. 2).
Myres et al. descreveu várias novas mutações SNP a jusante de R-M269 que mostram uma forte estruturação geográfica numa amostra muito maior de cromossomas R-M269. Eles destacam um clado essencialmente Europeu-específico, definido pela presença de SNPs M412 (também conhecido como S167) e L11 (S127), que é clinal a partir de altas frequências (maior que 70%) na Europa Ocidental, diminuindo para leste. Este estudo mostrou que as distribuições de vários SNPs a jusante exibem padrões de frequência impressionantes e parecem se espalhar a partir de diferentes áreas de frequências altamente localizadas, algumas das quais foram também observadas por Cruciani et al. . Myres et al. estimado coalescência vezes para o R-S116 haplogroup em diferentes populações na Europa e sugeriu, em um amplo acordo com Balaresque, que o R-M269 haplogroup pode ter se espalhado com o Neolítico, e mais especificamente com o Linearbandkeramik, uma Neolítico indústria agrícola que se espalhou pelo norte da Europa, entre a Hungria e a França, cerca de 7.500 anos atrás.
a actual incerteza em torno das taxas de mutação STR mostra que, apesar destes estudos recentes, ainda não existe consenso sobre quando e onde se originou o haplogrupo R-M269 na Europa. Mesmo se invocar as origens do Europeu cromossoma Y gene pool “deve ser visto com cautela, especialmente quando tal argumento é baseado em apenas um único completamente resolvido haplogroup” (p. 100 ), é de profundo interesse para tentar compreender como a grande maioria do oeste Europeu, os homens (mais do que 100 milhões) levar cromossomos Y que pertencem ao R-M269 cromossoma Y haplogroup.Consequentemente, abordámos estas questões com o nosso próprio conjunto de dados R-M269, tanto por si só como em combinação com dados compatíveis do inquérito abrangente mais recente . Mostramos que a relação fundamental entre variância média de STR e longitude, que é a base da recente reivindicação de apoio à hipótese Neolítica , não é válida para a nossa amostra maior e geograficamente mais ampla. Explicamos também como esta análise anterior pode ter resultado nesta associação espúria. Nós finalmente explorar a distribuição espacial da diversidade genética associada com o R-M269 Europeia específicas de sub-linhagem, definido pelo SNP S127, mostrando essencialmente homogénea de microsatellite variação em diferentes sub-linhagem níveis, com base em um conjunto comum de 10 STRs digitado em 2000 R-M269 cromossomos.
Embora reconhecendo a incerteza, os pesquisadores geralmente relatório a idade do cromossoma Y linhagens com base nas diferenças entre os indivíduos em vários STRs, muitas vezes usando a média do quadrado da distância (ASD) ou resumo de estatísticas como imparcial estimadores de coalescência tempo, T. investigamos como ASD alterações em nosso conjunto de dados com base em diferentes conjuntos de STRs. Ao contrário da crença comum, as estimativas de ASD, e portanto T, variam muito quando diferentes subconjuntos de STRs são usados com a mesma amostra. Embora evidências recentes tenham aumentado o apoio para a propagação Neolítica de R-M269, concluímos que, atualmente, não é possível fazer qualquer estimativa credível do tempo de divergência com base nos conjuntos de Y-STRs usados em estudos recentes. Além disso, mostramos que são as propriedades de Y-STRs, e não o número utilizado em si, que parecem controlar a precisão das estimativas do tempo de divergência, atributos que raramente, se alguma vez, são considerados na prática.
Material e métodos
(a) Ética instrução
Todos os machos amostrados deu consentimento informado éticas aprovação pelos comitês de ética em várias universidades, onde as amostras foram coletadas.
(b) amostras de ADN e genotipagem
reunimos um conjunto de dados de cromossomas R-M269 Y de toda a Europa, No Próximo Oriente e na Ásia ocidental, a partir de uma população total de 6503, que incluía cromossomas Y novos e publicados anteriormente. Para avaliar a distribuição de frequência de R-M269 e de vários sub-haplogrupos na Europa e na Ásia, combinámos os nossos dados com os de Myres et al. , que deu um conjunto combinado de 4529 cromossomas R-M269 de uma amostra total de 16 298 de 172 populações diferentes (material suplementar electrónico, quadro S1 e figura S1). As frequências dos seguintes SNPs, cuja origem é mostrado na figura 1, foram constatados: S127/L11 (rs9786076), S21/U106 (rs16981293), S116 (rs34276300), S145/M529 (rs11799226) e S28/U152 (rs1236440). Samples were amplified in a standard PCR reaction and the SNaPshot Multiplex System (Life Technologies Corp., Carlsbad, CA, USA) primer extension protocol was used to characterize the allele present at each SNP loci. Todos os iniciadores estão listados no material suplementar eletrônico.
Para a maioria dos indivíduos que escreveu neste estudo (2289), as seguintes 10 STRs estavam disponíveis: DYS19; DYS389I; DYS389b (subtraindo os alelos marcou no DYS389I do DYS389II locus); DYS390; DYS391; DYS392; DYS393; DYS437; DYS438; e DYS439, sendo previamente publicado ou ter sido escritos por nós mesmos, usando o Yfiler kit (Life Technologies Corp.) ou o Promega Powerplex ensaio (Promega Corporation, Madison, WI, EUA) . Para as amostras de Weale et al. , apenas cinco STRs foram publicados anteriormente, e assim os cinco restantes foram digitados com um multiplex internamente projetado e verificado usando primers do estudo de Butler et al. for DYS391, DYS437, DYS389I and II and DYS439, and primers from the study of Gusmao & Alves for DYS438. DIS391 chamadas foram usadas para verificar a consistência com os haplotipos originais de Weale et al. Três do Weale et al. populações não foram tipadas mais para estes STRs (114 indivíduos). Os indivíduos dactilografados utilizando o Yfiler kit (1035) foram utilizados para investigar o efeito da selecção de STR nos cálculos da ASD (material suplementar electrónico, quadro S2).
populações com um tamanho total de 30 ou mais foram usadas para construir os mapas de frequência (material suplementar electrónico, figura S1). A variância foi calculada apenas para as populações em que estavam disponíveis haplotipos para pelo menos 10 indivíduos no haplogrupo relevante.
(c) análise
mapas de frequências SNP foram exibidos usando ArcMap GIS (v. 9.2; ESRI). A interpolação foi realizada utilizando o procedimento de ponderação da distância inversa. As Latitudes e as longitudes para todas as populações foram baseadas no centro de amostragem de maior resolução associado às amostras e são apresentadas em material suplementar electrónico, quadro S1.
o pacote estatístico R foi utilizado para calcular a variância mediana de STR (a variância no número de repetições dentro de um locus média em todos os loci) entre todos os indivíduos dentro de uma população após 1000 replicados de bootstrap com substituição sobre os indivíduos. A análise de regressão foi realizada em R para comparar a variância média do STR com a latitude e longitude para os haplogroups R-M269, R-M269(xS127) e R-s127.
investigamos como asd estima a mudança dentro de nossa amostra quando usando diferentes combinações de STRs com base em dois critérios separados: taxa de mutação, μ; e linearidade observada, θ(R) (Tabela 1). Nós usamos o observed μ calculado recentemente para classificar os 15 STRs em uma escala de velocidade, e calculado separadamente ASD com base nas sete taxas mais rápidas e sete mais lentas (material suplementar eletrônico, tabela S4). O nosso segundo critério baseou-se na duração estimada da linearidade, D, de diferentes grupos de STRs. A duração da linearidade é uma estimativa do tempo de divergência após o qual a ASD deixa de aumentar linearmente com o tempo. Para STRs em mutação sob um modelo stepwise estrito, Goldstein et al. showed that ASD initially increases linearly with time, but that this linearidade is constrained by the maximum number of repeats an STR can take, R. D é aproximado usando θ(R) (que é uma simples transformação de R) e μ, e o Tamanho Efetivo da população (Ne) (eqns 3 e 4 in ). Maiores valores de θ(R)/2μ aumenta a estima de D. Usando STRs com maiores valores de θ(R)/2μ deve permitir linearidade a ser assumido mais no passado, e ASD calculado a partir desses STRs deve ser a menos provável de ser subestimado, como resultado da saturação. O quadro 1 e o material suplementar electrónico, o quadro S4, mostram os diferentes grupos de STRs utilizados e os valores associados de μ, R, θ(R)/2μ e ASD.
para verificar que quaisquer diferenças no tempo relativamente à estimativa mais recente do ancestral comum (TMRCA) não são específicas aos métodos baseados na ASD, utilizámos BATWING na população beduína HGDP para a qual estava disponível um maior número de Y-STRs (n = 65). Comparámos quatro conjuntos diferentes de Str com diferentes graus de duração das estimativas de linearidade (material suplementar electrónico).
Resultados
Para investigar as origens do R-M269 linhagem na Europa, analisou-se um grande conjunto de dados de 4529 R-M269 cromossomos (2486 de que não tenham sido anteriormente publicados em tal resolução detalhada) de várias populações em toda a Europa, o Oriente Próximo e Ásia ocidental (eletrônico material suplementar, figura S1 e tabela S1). Dentro da Europa, observamos um cline de frequência noroeste–sudeste para R-M269, semelhante aos observados anteriormente, de altas frequências na Europa Ocidental para baixas frequências no leste. Dentro de haplogroup R-M269 nós genotipada um recém-caracterizada SNP, S127 (equivalente a L11), para o qual a distribuição na Europa e no Oriente médio, juntamente com a do R-M269 e R-M269(xS127), são mostrados na figura 2. As distribuições de R-M269 e R-S127 são largamente sobrepostas, mas a frequência de R-S127 cai em torno dos Balcãs, alcançando valores extremamente baixos mais a leste e fora da Europa. Inversamente, R-M269 (xS127) mostra frequências mais elevadas em populações Orientais. Os mapas de frequência que mostram três sub-haplogrupos R-S127 geograficamente localizados (R-S21, R-S145 e R-S28) são apresentados na Figura 3.
Nós calculado de STR diversidade de cada população para todo o R-M269 linhagem, e para o R-S127 e R-M269(xS127) sub-haplogrupos, e investigou a relação entre a média do STR de variância e a longitude e a latitude exatamente da mesma maneira como Balaresque. Nós fornecemos estimativas de incerteza para estes valores por inicialização sobre indivíduos, e relatamos a mediana dos valores de variância observados e seu IC de 95% (Figura 2). Nós normalizamos latitude e longitude, e realizamos uma regressão linear entre estes valores e a variância microssatélita mediana para os três sub-haplogrupos R-M269. Não encontramos nenhuma correlação com latitude (dados não mostrados) e, ao contrário do Balaresque, não encontramos nenhuma correlação significativa entre longitude e variância para qualquer haplogrupo.
o conjunto de dados Balaresque apresenta dados sobre o genótipo apenas para a resolução do SNP R-M269. Nossos resultados mostram que a grande maioria das amostras de R-M269 na Anatólia, aproximadamente 90%, pertencem ao sub-haplogrupo R-M269(xS127). Remover essas populações Turcas dos dados Balaresque e repetir a regressão remove a correlação significativa (R2 = 0.23, p = 0.09; detalhes no material suplementar eletrônico e figura S2). Estas populações são, portanto, intrínsecas à correlação significativa.
observamos que os haplotipos Irlandeses usados na análise Balaresque tiveram uma variação muito baixa de STR (0.208) em comparação com os incluídos em nossa análise (0.35; originalmente publicado por Moore et al. ). Balaresque utilizou uma amostra de haplotipos Irlandeses descarregados da Base de dados online Ysearch (http://www.ysearch.org). Para testar se os haplotipos Ysearch eram representativos do irlandês R-M269 de Moore et al. , nós remampled independentemente O Moore et al. conjunto de Dados 10 000 vezes, seleccionando subamostras de 75 haplotipos dos quais estimámos a variância utilizando os mesmos nove Str utilizados no papel Balaresco (a metodologia pormenorizada e a justificação podem ser encontradas no material suplementar electrónico). A variância mediana destas 10 000 repetições foi de 0, 354 com um IC de 95% (0, 185–0, 432). Quando repetimos a análise de regressão com esta diferente estimativa de variância, a correlação deixou de ser significativa (R2 = 0.09, p = 0.19).
Microssatellite-based ASD has been shown to increase linearly with time and has been used as an unbiased estimator of mean coalescence time, given that it approximates to 2µT . Seria de esperar que a utilização de diferentes conjuntos de STRs não alterasse dramaticamente a estimativa de T: como as alterações μ, ASD deveriam igualmente mudar, com T permanecendo constante. O quadro 1 apresenta estimativas da duração da linearidade com base nas taxas de mutação observadas estimadas recentemente e no intervalo estimado a partir da YHRD . A ASD para R-S127 foi calculada comparando os 15 haplotipos STR dos seus dois sub-haplogrupos principais, R-S21 (141 cromossomas) e R-S116 (717; material suplementar electrónico, quadro S3). A figura 4a é uma parcela de T (estimada como ASD/2μ) para vários conjuntos diferentes de STRs com características diferentes (material suplementar electrónico, quadro S4).
para explorar melhor a correlação entre a selecção T e STR, calculámos T da mesma forma que a descrita acima, com base nos cromossomas pertencentes aos dois ramos mais profundos da filogenia Y do cromossoma, AxA1 e B (figura 4b; material suplementar electrónico, quadro S4). A título de comparação, ASD calculadas a partir dos mesmos subconjuntos STR é apresentada para o R-s127 na mesma parcela.
discussão
aqui, temos confirmado com a análise mais ampla até à data que a distribuição espacial do haplogrupo Y do cromossoma M269 pode ser dividida por R-S127 em linhagens eurasianas europeias e ocidentais. Ao contrário dos resultados da Balaresque, não vemos relação entre diversidade e longitude (Figura 2) para R-M269. A presença de dois conjuntos de populações no papel Balaresco parece ser causal à relação observada: a diversidade subestimada da população irlandesa e a inclusão dos cromossomas turcos, a maioria dos quais pertencem potencialmente ao clado Não Europeu R-M269(xS127). Quando estes elementos são devidamente tidos em conta, conjunta ou independentemente, a correlação deixou de existir. Esta correlação é o princípio central para a hipótese de que R-M269 se espalhou com a expansão dos agricultores neolíticos.
Morelli et al. (a seguir, “Morelli”) encontrou motivos STR que dividiram R-M269 em linhagens orientais e ocidentais. Observamos que 71% dos Myres et al. Os cromossomas R-M269 (xS127) para os quais existe informação STR têm o motivo Oriental (DYS393-12/DYS461-10), enquanto 80% dos cromossomas R-S127 de Myres et al. ter o motivo Ocidental (DYS393-13/DYS461-11). Nenhum cromossoma R-S127 exibia o motivo Oriental, enquanto 5% dos cromossomas R-M269(xS127) exibiam o motivo ocidental (todos eles derivados de L23 (S141) ou M412 (S127)). Em ambos os casos, no entanto, estes motivos diferiam dos sugeridos por Morelli por ter uma repetição a menos no dys461 locus. A dicotomia observada por Morelli com base em dois motivos STR é, portanto, corroborada, pelo menos em parte, pela presença deste SNP.
a datação das linhagens cromossómicas Y é notoriamente controversa , sendo a principal questão que a escolha da taxa de mutação STR pode levar a estimativas de idade que diferem por um factor de três (ou seja, as taxas de mutação evolutiva versus observada (Genealógica)). Curiosamente, apesar do facto de Myres et al. e a Balaresque usou diferentes taxas de mutação STR e abordagens de datação, suas estimativas de TMRCA se sobrepõem: 8590-11 950 anos usando uma taxa de mutação de 6.9 × 10-4 por geração, e 4577-9063 anos usando uma taxa média de mutação de 2,3 × 10-3, respectivamente. Separadamente, Morelli calculou a TMRCA baseada apenas em cromossomos Sardos e Anatólicos, e estimou a linhagem R-M269 como tendo originado 25 000-80 700 anos atrás), com base na mesma taxa de mutação evolutiva que Myres et al.
in seeking to find a suitable set of STRs with which to estimate the average coalescence time, T, of sub-haplogroup R-S127, we have shown that not all STRs are of equal use in this context. Concentrámo-nos em estimar a duração da linearidade, d, usando diferentes conjuntos de STRs. Nossas análises sugerem que o D de um STR é a chave para a sua capacidade de descobrir ancestrais profundos. A duração da linearidade refere-se ao período de tempo no passado durante o qual ASD e T continuam a estar linearmente relacionados para um STR específico. Goldstein et al. mostrou que D é afetado por duas propriedades do STRs usado para calcular ASD: a taxa de mutação e gama de possíveis alelos que o STR pode tomar. Quando manipulámos a nossa escolha de marcador STR com base em θ (R) / 2μ (um substituto para D; tabela 1), observamos que diferentes conjuntos de STRs deu diferentes valores para T. é claro, então, que a coalescência estimativas dependam explicitamente do STRs que usa.
a nossa análise confirma que este fenómeno não é específico do haplogrupo R-M269 nem dos métodos que utilizam ASD. A figura 4b mostra que os STRs com alto D produzem estimativas maiores de T. O que é claro é que as estimativas de T dependem implicitamente dos STRs que são selecionados para fazer esta inferência. Usando BATWING em uma população HGDP para a qual 65 y-STRs estão disponíveis, temos mostrado que a estimativa mediana da TMRCA pode diferir mais de cinco vezes quando STS são selecionados com base na duração esperada da linearidade (material suplementar eletrônico, figura S4). Enquanto os pesquisadores levam em conta as taxas de mutação STR ao estimar o tempo de divergência com ASD, STRs comumente usados não têm os atributos específicos que permitem que a linearidade seja assumida ainda mais no passado. A maioria das datas dos haplogroup baseadas em tais conjuntos de Str pode, portanto, ter sido sistematicamente subestimada.
conclusão
as distribuições dos principais sub-haplogrupos R-S127, R-S21, R-S145 e R-S28 mostram concentrações acentuadamente localizadas (Figura 3). Se a linhagem R-M269 é mais recente na origem do que a expansão Neolítica, então sua distribuição atual teria que ser o resultado de grandes movimentos populacionais ocorrendo desde essa origem. Para este haplogrupo ser tão omnipresente, a população portadora de R-S127 teria deslocado a maioria das populações presentes na Europa Ocidental após a transição agrícola Neolítica. Em alternativa, se R-S127 originado antes do Neolítico onda de expansão, em seguida, ela já estava presente na maior parte da Europa, antes da expansão, ou a mutação ocorreu no oriente, e espalhou-se antes ou depois da expansão, caso em que seria de esperar um maior diversidade no oriente, mais próximo das origens da agricultura, que não é o que observamos. Os mapas das frequências dos sub-haplogroup R-S21, R-S145 e R-S28 mostram distribuições radiais de locais europeus específicos (Figura 3). Estes centros têm frequências absolutas elevadas: R-S21 tem uma frequência de 44 por cento na Frísia, e R-S28 atinge 25 por cento nos Alpes; e nas populações onde eles estão na maior frequência, a grande maioria de R-s127 pertencem a essa sub-linhagem particular. Por exemplo, metade de todos os R-M269 em toda a Europa do Sul é derivada de R-S28, e cerca de 60% de R-M269 na Europa Central é derivada de R-S21. No sub-haplogroup nível, em seguida, R-M269 é dividida em geograficamente localizadas bolsos individuais R-M269 sub-haplogrupos, dominando-o, sugerindo que a frequência do R-M269 em toda a Europa podem estar relacionadas com o crescimento de vários, geograficamente específicas de sub-linhagens que diferem em diferentes partes da Europa.
Uma análise recente de datações de sítios do Neolítico na Europa revela que a propagação do Neolítico não foi constante, e que vários “centros de novo período de expansão” são visíveis em toda a Europa, representando áreas de colonização, três dos quais mapa curiosamente atentamente para os centros de sub-haplogrupos de focos (eletrônico material suplementar, figura S3). O trabalho futuro envolvendo simulações espacialmente explícitas, juntamente com medidas precisas de diversidade de cromossomas Y, são necessários para investigar como a distribuição atual de sub-haplogrupos pode ter sido produzida. Neste contexto, o trabalho recente de Sjödin & François rejeitou uma dispersão Paleolítica para R1b-M269 usando simulações espaciais baseadas no conjunto de dados de Balaresque. No entanto, notamos que ainda é necessário um trabalho adicional, uma vez que estes autores não estavam cientes da limitação do conjunto de dados Balaresque aqui apresentado, e não exploraram plenamente o impacto das diferentes características moleculares do loci investigado em sua análise.
> Idade estimativas baseadas em conjuntos de Y-STRs cuidadosamente selecionados para possuir os atributos necessários para o descobrimento de profunda ancestralidade (por exemplo, entre os mais de 200 recentemente caracterizado aqui ), e de todo o cromossomo Y sequência de comparações, irá fornecer robusto datas para este haplogroup no futuro. Por agora, podemos oferecer nenhuma data como a idade do R-M269 ou R-S127, mas acredito que a nossa STR análises sugerem que a recente idade estimativas de R-M269 e R-S116 são susceptíveis de ser mais jovem do que os verdadeiros valores, e a homogeneidade do STR de desvio e distribuição de sub-tipos, em todo o continente, são inconsistentes com a hipótese de o Neolítico difusão do R-M269 cromossoma Y linhagem.