Úvod
Protože první pokusy použít biologické variace u lidí na pomoc naše chápání počátku lidské migrace, osídlit Evropy byla hlavní výzkumné zaměření . V návaznosti na rozvoj zemědělství v Úrodném Půlměsíci před 10 000 lety , tato technologie šíří z blízkého Východu na západ do Evropy, což významným kulturním přechod z kočovných lovců–sběračů k sedavý způsob zemědělství, což vedlo k dramatickému růstu počtu obyvatel , během toho, co se stala známou jako Neolitický přechod . V rámci této archeologický rámec, zuří debaty o relativní příspěvky k moderní Evropské populace prvních lidí z Evropy a ti, kteří se stěhovali do Neolitu přechod, a to jak z hlediska jejich genetické dědictví a jako na procesy migrace a posloupnosti . Skutečný scénář je nepochybně mnohostranný a složitý. Jak rané práce na „klasických markerech“ pomocí analýzy hlavních komponent, tak novější studie využívající chromozom Y ukázaly, že v Evropě, genetická variace je distribuována podél gradientu jihovýchod-severozápad. Taková pozorování byla navržena na podporu modelu demic difúze pro neolitický přechod v Evropě (tj. že šíření zemědělství zahrnovalo také přidružený pohyb lidí z Blízkého východu) .
Nové práce se zabývá Neolitu přechod v Evropě se zaměřením na hlavní západoevropské Y chromozomu haploskupiny R1b1b2-M269 (dále jen R-M269). Tato linie se dosud věnována malá nedávné pozornost v této souvislosti, i když předchozí práci navrhl, že širší R-M173 clade (s výjimkou R1a-M17 sub-linie) a Haploskupiny 1 (odvozené na jednonukleotidový polymorfismus, nebo SNP, 92r7) je pravděpodobné, že se rozšířily do Evropy během Paleolitu , a proto je nepravděpodobné, že by byly provedeny v Evropě s migrací zemědělců. Balaresque a kol. (dále jen ‚Balaresque‘) používá 840 Y chromozomů v rámci haploskupiny R-M269 ukázat, že, i když tato haploskupina se vyznačuje silnou frekvenci cline z vysoké na západě nízko na východě, spojené cline v haplotyp rozmanitosti (měřené jako průměrná krátké tandemové opakování, nebo STR, rozptyl) je v opačném směru. Předpokládali, že tuto korelaci lze vysvětlit novějším rozptýlením této linie z Blízkého východu, které se shoduje s neolitickým přechodem v Evropě. Odhaduje se, že linie byla přibližně 6000 let stará v různých populacích, což bylo argumentováno, že je v souladu s tímto modelem. Tento výsledek, jak je uvedeno v jejich úvodu, „naznačuje, že velká většina chromozomů y Evropanů má svůj původ v neolitické expanzi“ (s. 2 in).
Myres et al. popsal několik nových mutací SNP po proudu od R-M269, které vykazují silné geografické strukturování v mnohem větším vzorku 2043 chromozomů R-M269. Zdůrazňují především Evropské-konkrétní clade, definována přítomností Snp M412 (také známý jako S167) a L11 (S 127), což je clinal z vysoké frekvence (větší než 70%) v západní Evropě, klesá směrem na východ. Tato studie ukázala, že distribuce z několika navazujících Modifikace vykazují výrazné frekvenční vzory a objeví se šíří z různých oblastí vysoce lokalizované frekvencí, z nichž některé byly také pozorovány Cruciani et al. . Myres et al. odhaduje srůstání časy pro R-S116 haploskupiny v různých populacích v Evropě a navrhl, v široké dohody s Balaresque, že R-M269 haploskupina může mít šíření Neolitu, a to konkrétně s Linearbandkeramik, Neolitické zemědělské odvětví, které se šíří po celé severní Evropy, z Maďarska do Francie, kolem 7500 lety.
současná nejistota kolem míry mutace STR ukazuje, že navzdory těmto nedávným studiím stále neexistuje shoda o tom, kdy a kde haploskupina R-M269 vznikla a rozšířila se v Evropě. I když odvoláním na počátky Evropské chromozomu Y genofond musí být viděn opatrně a to zejména když tento argument je založen na jen jeden neúplně vyřešené haploskupina‘ (str. 100 v ), to je hluboký zájem, aby se pokusili pochopit, jak drtivá většina západní evropy, muži (více než 100 milionů) nesou chromozomy Y, které patří do R-M269 Y chromozomu haploskupiny.
Proto musíme řešit tyto problémy s naší vlastní velké R-M269 dataset, a to jak na jeho vlastní, a v kombinaci s kompatibilní data z posledního komplexního průzkumu . Ukazujeme, že základní vztah mezi průměrným rozptylem a délkou, který je základem nedávného tvrzení o podpoře neolitické hypotézy, neplatí pro náš větší a geograficky širší vzorek. Vysvětlujeme také, jak tato předchozí analýza mohla vést k této falešné asociaci. Konečně jsme se prozkoumat prostorové distribuce genetické diverzity spojené s R-M269 Evropské specifické sub-linie, definované SNP S 127, což je v podstatě homogenní pozadí mikrosatelitů variace na několika různých sub-linie úrovních, a to na základě společného souboru 10 STRs napsal přes 2000 R-M269 chromozomů.
i Když uznává, nejistota, vědci obvykle zpráva věku Y chromozomálních linií na základě rozdílů mezi jednotlivci napříč různými STRs, často za použití průměrné druhou mocninou vzdálenosti (ASD) nebo související souhrnné statistiky jako nestranné odhady koalescenčním čas, T. zkoumali Jsme, jak ASD změny v našem souboru dat na základě různých sad STRs. Na rozdíl od obecné víry, odhady ASD, a proto T, velmi se liší, pokud se používají různé podmnožiny STRs se stejným vzorkem. Zatímco nedávné důkazy zvýšily podporu neolitického šíření R-M269, dospěli jsme k závěru, že v současné době není možné provést věrohodný odhad doby divergence na základě sad Y-STRs použitých v nedávných studiích. Dále, ukazujeme, že to jsou vlastnosti Y-STRs, ne číslo použité samo o sobě, zdá se, že řídí přesnost odhadů času divergence, atributy, které jsou zřídka, jestli někdy,v praxi.
Materiál a metody
(a) Etika prohlášení
Všech mužů zařazených do dal informovaný souhlas, po etické schválení etických komisí na různých univerzitách, kde byly odebrány vzorky.
(b) vzorky DNA a genotypizace
shromáždili Jsme soubor údajů o 2486 R-M269 Y chromozomů z celé Evropy, blízkého Východu a západní Asie, z celkového počtu obyvatel 6503, která zahrnovala i nové a dříve publikovaných Y chromozomů. Pro posouzení frekvenční distribuce R-M269 a různých sub-haploskupin v Evropě a Asii jsme spojili naše data s daty Myres et al. , který dal kombinovanou sadu 4529 chromozomů R-M269 z celkového vzorku 16 298 ze 172 různých populací(elektronický doplňkový materiál, tabulka S1 a obrázek S1). Frekvence těchto Snp, jehož fylogeneze je znázorněno na obrázku 1, bylo zjištěno: S 127/L11 (rs9786076), S21/U106 (rs16981293), S116 (rs34276300), S145/M529 (rs11799226) a S28/U152 (rs1236440). Vzorky byly amplifikovány v standardní PCR reakce a SNaPshot Multiplex Systém (Life Technologies Corp., Carlsbad, CA, USA) primer extension protokol byl použit k charakterizaci alely přítomné na jednotlivých SNP lokusů. Všechny základní nátěry jsou uvedeny v elektronickém doplňkovém materiálu.
Pro většinu osob zadali v této studii (2289), následujících 10 STRs byly k dispozici: DYS19; DYS389I; DYS389b (odečtení alel zaznamenal v DYS389I z DYS389II locus); DYS390; DYS391; DYS392; DYS393; DYS437; DYS438; a DYS439, buď že již publikoval nebo které byly zadány sami pomocí Yfiler kit (Life Technologies Corp.) nebo Promega Powerplex assay (Promega Corp., Madison, WI, USA) . Pro vzorky od Weale et al. pouze pět STRs byly dříve zveřejněny, a tak zbývajících pět bylo napsaný s interně navrženy a ověřeny multiplex pomocí primerů ze studie Butler et al. pro DYS391, DYS437, DYS389I a II a DYS439, a primery ze studie Gusmão & Alves pro DYS438. DYS391 volání byla použita ke kontrole konzistence s původními haplotypy Weale et al. Tři z Weale et al. populace nebyly pro tyto str dále zadány (114 jedinců). Jednotlivci zadaní pomocí sady Yfiler (1035) byli použity ke zkoumání vlivu výběru STR na výpočty ASD (elektronický doplňkový materiál, tabulka S2).
populace s celkovou velikostí 30 nebo vyšší byly použity k vytvoření frekvenčních map(elektronický doplňkový materiál, obrázek S1). Rozptyl byl vypočítán pouze pro ty populace, kde byly haplotypy dostupné alespoň pro 10 jedinců v příslušné haploskupině.
(c) analýza
mapy frekvencí SNP byly zobrazeny pomocí ArcMap GIS (v. 9.2; ESRI). Interpolace byla provedena pomocí postupu vážení inverzní vzdálenosti. Zeměpisné šířky a délky pro všechny populace byly na základě nejvyšší rozlišení vzorkování centrum spojené se vzorky a jsou uvedeny v elektronické doplňkový materiál, tabulky S1.
R statistický balíček pro výpočet byl použit medián STR rozptylu (rozptyl v počtu opakování v lokusu v průměru přes všechny lokusy) mezi všemi jedinci v populaci po 1000 bootstrap opakování s výměnou více než jednotlivci. Regresní analýza byla provedena v R porovnat průměrné STR rozporu s zeměpisné šířky a délky pro R-M269, R-M269(xS127) a R-S 127 haplogroups.
zkoumali Jsme, jak ASD odhady změn v našem vzorku při použití různé kombinace, Která na základě dvou různých kritérií: rychlost mutace, μ; a pozorována linearita, θ(R) (tabulka 1). Použili jsme pozorované μ vypočtené nedávno k zařazení 15 STRs na stupnici rychlosti a Samostatně vypočítané ASD na základě sedmi nejrychlejších a sedmi nejpomalejších rychlostí(elektronický doplňkový materiál, tabulka S4). Naše druhé kritérium bylo založeno na odhadované délce linearity, D, různých skupin STRs. Doba linearity je odhad doby divergence, po které ASD přestane lineárně narůstat s časem. Pro STRs mutující pod přísným krokovým modelem, Goldstein a kol. ukázalo se, že ASD se zpočátku lineárně zvyšuje s časem, ale že tato linearita je omezena maximálním počtem opakování, které STR může trvat, r. D je aproximována pomocí θ(R) (což je jednoduché transformace R) a μ a efektivní velikost populace (Ne) (eqns 3 a 4 ). Větší hodnoty θ(R)/2μ výnos se zvýšil odhady D. Pomocí STRs s větší hodnoty θ(R)/2μ by měla umožnit linearita nutno předpokládat, dále do minulosti, a ASD vypočteny z těchto STRs by měly být méně pravděpodobné, že být podceňována v důsledku nasycení. Tabulka 1 a elektronický doplňkový materiál, tabulka S4 ukazují různé skupiny použitých STRs a související hodnoty μ, R, θ (R) / 2μ a ASD.
ujistěte se, že všechny rozdíly v čase do poslední společný předek (TMRCA) odhad nejsou specifické pro metody založené na ASD, použili jsme BATWING na HGDP Beduínské populace, pro které větší počet Y-STRs (n = 65) byly k dispozici . Porovnali jsme čtyři různé sady STRs s různým stupněm trvání odhadů linearity (elektronický doplňkový materiál).
Výsledky
vyšetřovat původ R-M269 linie v Evropě, jsme se analyzovat velké datové sady z 4529 R-M269 chromozomů (2486, které nebyly dříve zveřejněny na takové detailní rozlišení) z několika populací v celé Evropě, na blízkém Východě a západní Asii (elektronický doplňkový materiál, obrázek S1 a v tabulce S1). V Evropě jsme pozorovali severozápadní-jihovýchodní frekvenční kliniku pro R-M269, podobnou těm, které byly pozorovány dříve, od vysokých frekvencí v západní Evropě po nižší frekvence na východě. V rámci haploskupiny R-M269 jsme genotyp nově vyznačuje SNP, S 127 (ekvivalent L11), pro které distribuce v Evropě a na blízkém Východě, spolu s R-M269 a R-M269(xS127), jsou uvedeny na obrázku 2. Rozdělení R-M269 a R-S 127 jsou široce překrývají, ale frekvence R-S 127 kapky z celého Balkánu, dosahuje mimořádně nízké hodnoty dále na východ v Evropě i mimo ni. Naopak R-M269 (xS127) vykazuje vyšší frekvence ve východních populacích. Frekvenční mapy znázorňující tři geograficky lokalizované podskupiny R-S127 (R-S21, R-S145 a R-S28) jsou znázorněny na obrázku 3.
dále Jsme vypočtené STR rozmanitost pro každou populaci pro celou R-M269 linie, a pro R-S 127 a R-M269(xS127) sub-haplogroups, a zkoumali vztah mezi průměrnou STR rozptylu a zeměpisné délky a šířky v přesně stejným způsobem, jako Balaresque. Poskytujeme odhady nejistoty pro tyto hodnoty bootstrappingu nad jednotlivci, a zpráva medián pozorovaný rozptyl hodnot, a jeho 95% CI (obrázek 2). Normalizovali jsme zeměpisnou šířku a délku a provedli lineární regresi mezi těmito hodnotami a mediánem rozptylu mikrosatelitů pro tři dílčí haploskupiny R-M269. Našli jsme žádnou korelaci s zeměpisné šířky (údaje nejsou uvedeny) a, na rozdíl od Balaresque, jsme nenašli žádnou významnou korelaci mezi délkou a rozptyl pro všechny haploskupiny.
balaresque dataset představuje data genotypu pouze do rozlišení SNP R-M269. Naše výsledky ukazují, že drtivá většina vzorků R-M269 v Anatolii, přibližně 90 procent, patří do podskupiny R-M269(xS127). Odstranění těchto tureckých populací z Balareskních dat a opakování regrese odstraní významnou korelaci (R2 = 0,23, p = 0,09; podrobnosti v elektronickém doplňkovém materiálu a obrázek S2). Tyto populace jsou proto vlastní významné korelaci.
pozorovali Jsme, že Irové haplotypy používá v Balaresque analýzu velmi nízkou STR rozptylu (0.208) ve srovnání s těmi zahrnuty v naší analýze (0.35; původně publikoval Moore et al. ). Balaresque použil vzorek irských haplotypů stažených z online databáze Ysearch (http://www.ysearch.org). Otestovat, zda haplotypy Ysearch byly reprezentativní pro irský R-M269 Moore et al. , nezávisle jsme převzorkovali Moore et al. dataset 10 000 krát, výběr sub-vzorky 75 haplotypy, z nichž jsme odhadli rozptyl pomocí stejných devět STRs používá v Balaresque papír (podrobná metodika a zdůvodnění lze nalézt v elektronické doplňkový materiál). Medián rozptylu těchto 10 000 opakování byl 0,354 s 95% CI (0,285-0,432). Když jsme opakovali regresní analýzu s tímto odlišným odhadem rozptylu, korelace již nebyla významná (R2 = 0,09, p = 0,19).
Mikrosatelitů na bázi ASD bylo prokázáno, že zvyšuje lineárně s časem a byl používán jako nestranný odhad střední srůstání čas, vzhledem k tomu, že se blíží 2µT . Dalo by se očekávat, že použití různých sad STRs by nemělo dramaticky měnit odhad t: as μ se mění, ASD by se měla podobně měnit, přičemž T zůstává konstantní. Tabulka 1 ukazuje odhady trvání linearity založené na pozorovaných rychlostech mutací odhadovaných nedávno a rozsahu odhadovaném z YHRD . ASD pro R-S 127 byla vypočtena porovnáním 15 STR haplotypy z jeho dvou hlavních sub-haplogroups, R-S21 (141 chromozomů) a R-S116 (717; elektronické doplňkový materiál, stůl S3). Obrázek 4a je graf T (odhaduje jako ASD/2μ) pro několik různých sad STRs s různými vlastnostmi (elektronický doplňkový materiál, tabulky S4).
dále prozkoumat vztah mezi T a STR výběr, jsme vypočítali T stejným způsobem, jak je popsáno výše, na základě chromozomů, které patří do dvou nejhlubší větve Y-chromozomu, fylogeneze, AxA1 a B (obrázek 4b; elektronické doplňkový materiál, tabulky S4). Pro srovnání, ASD vypočtená ze stejných podmnožin STR je zobrazena pro R-S127 na stejném grafu.
Diskuse
Tady, máme potvrzeno, s nejširším analýzy k dnešnímu dni, že prostorové rozložení Y chromozomu haploskupiny M269 lze rozdělit podle R-S 127 do Evropské a západní Euroasijské linie. Na rozdíl od výsledků Balaresque nevidíme žádný vztah mezi rozmanitostí a délkou (obrázek 2) Pro R-M269. Přítomnost dvou skupin populací v Balaresque papíru se zdá být příčinou pozorovaného vztahu: podceňována rozmanitosti v Irské populaci a zahrnutí turecké chromozomů, z nichž většina potenciálně patří k non-Evropské clade R-M269(xS127). Pokud jsou tyto prvky řádně zohledněny společně nebo nezávisle, korelace již neexistuje. Tato korelace je ústředním principem hypotézy, že R-M269 byl rozšířen s expandujícími neolitickými farmáři.
Morelli et al. (dále jen „Morelli“) našel STR motivy, které rozdělily R-M269 na východní a západní linie. Zjistili jsme, že 71 procent Myres et al. R-M269(xS127) chromozomů, pro které STR informací je k dispozici mají východní motiv (DYS393-12/DYS461-10), zatímco 80% R-S 127 chromozomů Myres et al. mají západní motiv (DYS393-13 / DYS461-11). Č. R-S 127 chromozomů zobrazí východní motiv, zatímco 5% R-M269(xS127) chromozomů zobrazí západní motiv (z nichž všechny byly buď L23 (S141) nebo M412 (S 127)-odvozené). V obou případech se však tyto motivy lišily od motivů navržených Morellim tím, že se na lokusu DYS461 opakovalo méně. Dichotomie pozorovaná Morellim na základě motivu dvou STR je proto alespoň částečně potvrzena přítomností tohoto SNP.
datování linií chromozomů Y je notoricky kontroverzní , hlavním problémem je, že volba míry mutace STR může vést k odhadům věku, které se liší faktorem tři (tj. evoluční versus pozorovaná (genealogická) míra mutace ). Zajímavé je, že navzdory skutečnosti, že Myres et al. a Balaresque použil různé míry mutace STR a datování přístupů, jejich odhady TMRCA se překrývají: 8590-11 950 let pomocí míry mutace 6.9 × 10-4 na generaci a 4577-9063 let s průměrnou mírou mutace 2,3 × 10-3. Zvlášť, Morelli počítá TMRCA založena pouze na Sardinii a Anatolian chromozomů, a odhaduje, R-M269 linie, aby vznikl 25 000 až 80 700 lety) , založené na stejné evoluční rychlost mutace jako Myres et al.
Ve snaze najít vhodnou sadu STRs, s níž odhadnout průměrný čas srůstání, T, sub-haploskupiny R-S 127, jsme ukázaly, že ne všechny STRs jsou rovného použít v tomto kontextu. Soustředili jsme se na odhad trvání linearity, D, pomocí různých sad STRs. Naše analýzy naznačují, že D Str je klíčem k jeho schopnosti odhalit hluboký původ. Doba linearity se týká doby do minulosti, po kterou jsou ASD a T nadále lineárně příbuzné pro konkrétní STR. Goldstein a kol. ukázalo se, že D je ovlivněno dvěma vlastnostmi STRs použitých pro výpočet ASD: rychlost mutace a rozsah možných alel, které STR může vzít. Když jsme manipulovali s výběrem značky STR na základě θ (R) / 2μ (náhrada za D; tabulka 1), zjistili jsme, že různé sady STRs daly různé hodnoty pro T. je tedy jasné, že odhady koalescence explicitně závisí na STRs, které člověk používá.
Naše analýza potvrzuje, že tento jev není specifický pro R-M269 haploskupina ani metody, pomocí ASD. Obrázek 4b ukazuje, že STRs s vysokým D produkují větší odhady T. je jasné, že odhady T implicitně závisí na STRs, které jsou vybrány pro tento závěr. Pomocí BATWING na HGDP populace, pro kterou 65 Y-STRs jsou k dispozici, jsme ukázali, že medián odhad TMRCA mohou lišit o více než pětkrát, když STRs jsou vybrány na základě očekávané doby trvání linearity (elektronický doplňkový materiál, obrázek S4). Zatímco vědci berou v úvahu míry mutace STR při odhadu doby divergence s ASD, běžně používané STRs nemají specifické atributy, které umožňují předpokládat linearitu dále do minulosti. Většina dat haploskupiny založená na takových sadách STRs proto mohla být systematicky podceňována.
Závěr
rozdělení výnosů z hlavní R-S 127 sub-haplogroups, R-S21, R-S145 a R-S28, ukazují výrazně lokalizované koncentrace (obrázek 3). Pokud je linie R-M269 původem novější než neolitická expanze, pak by její současné rozložení muselo být výsledkem velkých populačních pohybů, ke kterým došlo od tohoto původu. Aby tato haploskupina byla tak všudypřítomná, populace nesoucí R-S127 by po neolitickém zemědělském přechodu vytlačila většinu populací přítomných v západní Evropě. Alternativně, je-li R-S 127 vznikl před Neolitické vlny rozšíření, pak to byl buď již přítomné ve většině Evropy před expanzí, nebo došlo k mutaci na východě, a byl rozšířen před nebo po expanzi, v takovém případě bychom očekávali, že vyšší diverzita ve východní blíže k počátkům zemědělství, což není to, co pozorujeme. Mapy R-S 127 sub-haploskupiny frekvencí pro R-S21, R-S145 a R-S28 show radiální distribucí z konkrétních Evropských lokalitách (obrázek 3). Tato centra mají vysoké absolutní frekvence: R-S21 má frekvenci 44 procent v Friesland, a R-S28 dosahuje 25 procent v Alpách, a v populacích, kde jsou na nejvyšší frekvenci, drtivá většina z R-S 127 patří do konkrétní sub-linie. Například polovina všech R-M269 v jižní Evropě je odvozena od R-S28 a přibližně 60 procent R-M269 ve střední Evropě je odvozeno od R-S21. V sub-haploskupiny úrovni, pak, R-M269 je rozdělena do geograficky lokalizované kapsy s individuální R-M269 sub-haplogroups dominující, což naznačuje, že frekvence R-M269 v celé Evropě by mohlo být v souvislosti s růstem více, geograficky specifické dílčí linie, které se liší v různých částech Evropy.
nedávné analýzy radiokarbonová data z Neolitických lokalit v celé Evropě ukazuje, že šíření Neolitu se v žádném případě konstantní, a že několik středisek obnovené expanze jsou viditelné v celé Evropě, což představuje oblastí kolonizace, z nichž tři mapy překvapivě blízko k center sub-haplogroups ložisek (elektronický doplňkový materiál, obrázek S3). Budoucí práce zahrnující prostorově explicitní simulace, spolu s přesné opatření chromozomu Y rozmanitosti, je třeba zkoumat, jak se současné rozdělení sub-haplogroups může být produkován. V této souvislosti nedávné práce Sjödin & François odmítl Paleolitu rozptyl pro R1b-M269 pomocí prostorové simulace na základě údajů z Balaresque. Přesto jsme na vědomí, že další práce je stále nezbytné, protože tito autoři nebyli vědomi omezení Balaresque dataset zde prezentovány, a ne plně prozkoumat vliv různých molekulárních charakteristik zkoumaných lokusů na jejich analýzu.
Věk se odhaduje na základě sady Y-STRs pečlivě vybrány, mají atributy, které jsou nezbytné pro odhalení hlubokého původu (například z téměř 200 v poslední době charakterizován zde ), a z celého chromozomu Y sekvence srovnání, bude poskytovat robustní data pro tato haploskupina v budoucnu. Pro teď, můžeme nabídnout žádné datum jako na věku, R-M269 nebo R-S 127, ale věřte, že naše STR analýzy naznačují nedávné odhady věku R-M269 a R-S116 je pravděpodobné, že být mladší, než skutečné hodnoty, a homogenity STR rozptyl a distribuci sub-typů na celém kontinentu jsou v rozporu s hypotézou Neolitu difúze R-M269 Y chromozomu linie.