Probabilistische Lösung der Ursache für rezidivierende Plasmodium vivax Malaria / Nature Communications

Klinische Verfahren

Sowohl die VHX– als auch die BPD-Studien wurden von der Shoklo Malaria Research Unit in Kliniken entlang der Grenze zwischen Thailand und Myanmar im Nordwesten Thailands durchgeführt, einem Gebiet mit geringer saisonaler Malariaübertragung18,19. Zu den Patientenpopulationen gehören Wanderarbeiter und Vertriebene der burmesischen und Karen-Ethnizität38. Während der Zeit, in der diese Studien durchgeführt wurden, war die Behandlung mit Primaquine Radical Cure keine Routine.

In beiden Studien wurden rezidivierende Episoden bei den geplanten Besuchen mikroskopisch aktiv nachgewiesen (untere Nachweisgrenze liegt bei etwa 50 Parasiten pro $\upmu{\mathrm{{L}}}$). Die Patienten wurden ermutigt, zwischen den geplanten Besuchen in die Kliniken zu kommen, wenn sie sich unwohl fühlten, und so wurden einige Rezidive passiv festgestellt (weniger als 5%). Alle Rezidive wurden unabhängig von den Symptomen behandelt.

Ethische Zulassung

Die BPD-Studie wurde sowohl von der Ethikkommission der Fakultät für Tropenmedizin der Mahidol University (MUTM 2011-043, TMEC 11-008) als auch von der Oxford Tropical Research Ethics Committee (OXTREC 17-11) genehmigt und war registriert bei ClinicalTrials.gov (NCT01640574). Die VHX-Studie wurde von der Ethikkommission der Mahidol University Faculty of Tropical Medicine (MUTM 2010-006) und der Oxford Tropical Research Ethics Committee (OXTREC 04-10) ethisch genehmigt und registriert bei ClinicalTrials.gov (NCT01074905).

Vivax History trial (VHX)

Diese randomisierte kontrollierte Studie wurde zwischen Mai 2010 und Oktober 2012 durchgeführt. Insgesamt wurden 644 Patienten, die älter als 6 Monate waren und mehr als 7 kg wogen, mit mikroskopisch bestätigter unkomplizierter P. vivax-Monospezies-Infektion (nur P. vivax) randomisiert und erhielten Artesunat (2 mg / kg pro Tag für 5 Tage), Chloroquin (25 mg Base pro kg aufgeteilt auf 3 Tage: 10, 10 und 5 mg / kg) oder Chloroquin plus Primaquin (0,5 mg Base pro kg pro Tag für 14 Tage).

Patienten mit G6PD-Mangel (bestimmt durch den Fluoreszenzflecktest) wurden randomisiert nur in die Artesunat- und Chloroquin-Monotherapiegruppen eingeteilt. Die Probanden wurden täglich zur überwachten medikamentösen Behandlung überwacht. Das Follow-up wurde 8 Wochen lang wöchentlich und dann alle 4 Wochen für insgesamt 1 Jahr fortgesetzt. Patienten mit mikroskopisch bestätigten P. vivax-Infektionen wurden mit dem gleichen Studienmedikament wie in der ursprünglichen Studie erneut behandelt. Patienten in der Artesunat- oder Chloroquin-Monotherapie-Gruppe, bei denen mehr als 9 Rezidive auftraten, erhielten eine radikale kurative Behandlung mit dem Standard-Primaquin-Regime (0, 5 mg Base pro kg pro Tag für 14 Tage).

Best Primaquine Dose trial (BPD)

Zwischen Februar 2012 und Juli 2014 wurden 680 Patienten, die älter als 6 Monate waren, in eine randomisierte kontrollierte Vier-Wege-Studie aufgenommen, in der gleichzeitig zwei Primaquin-Therapien (0,5 mg / kg pro Tag für 14 Tage oder 1 mg / kg pro Tag für 7 Tage) in Kombination mit einer von: Chloroquin (25 mg Base pro kg) oder Dihydroartemisinin-Piperaquin (Dihydroartemisinin 7 und Piperaquin 55 mg / kg). Alle Dosen wurden überwacht.

Die Einschluss- und Ausschlusskriterien für diese Studie waren die gleichen wie für die VHX-Studie, mit Ausnahme der folgenden: Patienten wurden ausgeschlossen, wenn sie durch den Fluoreszenzflecktest einen G6PD-Mangel aufwiesen, einen Hämatokrit von weniger als 25% aufwiesen oder innerhalb von 3 Monaten eine Bluttransfusion erhalten hatten.

Follow-up-Besuche fanden in den Wochen 2 und 4 und dann alle 4 Wochen für insgesamt ein Jahr statt. Jedes wiederkehrende P. mikroskopisch nachgewiesene Vivax-Infektionen (dieselben Kriterien wie bei VHX) wurden mit einem Standardschema aus Chloroquin (25 mg Base pro kg über 3 Tage) und Primaquin (0, 5 mg Base pro kg pro Tag über 14 Tage) behandelt.

Mikrosatellitengenotypisierung

Vollblut für das vollständige Blutbild wurde durch Venenpunktion in einem 2 ml EDTA-Röhrchen entnommen. Das verbleibende Vollblut wurde bei -80°C eingefroren. vivax genomic DNA wurde aus 1 ml venösem Blut unter Verwendung eines automatisierten DNA-Extraktionssystems QIAsymphony SP (Qiagen, Deutschland) und QIAsymphony DSP DNA mini kit (Qiagen, Deutschland) gemäß den Anweisungen des Herstellers extrahiert. Um die genotypischen Muster von Primärinfektionen und Rezidiven zu vergleichen, Wir genotypisierten zunächst drei polymorphe Mikrosatellitenloci, die eine sehr saubere Amplifikation lieferten: keine Stotterpeaks, und Zuverlässigkeit der PCR-Amplifikation bei den niedrigen Parasitendichten, die normalerweise bei wiederkehrenden Infektionen auftreten. Diese Kernloci waren PV.3.27, PV.3.502 und PV.ms8. Für alle Fragmente wurde ein Seminested-PCR-Ansatz angewendet12,39. Alle Amplifikationsreaktionen wurden in einem Gesamtvolumen von 10 µL und in Gegenwart von 10 mmol/L Tris-HCl (pH 8,3), 50 mmol/L KCl, 250 nmol/L jedes Oligonukleotidprimers, 2,5 mmol/L MgCl2, 125 µmol/L jedes der vier Desoxynukleosidtriphosphate und 0,4 U TaKaRa-Polymerase (TaKaRa BIO) durchgeführt. Primäre Amplifikationsreaktionen wurden mit 2 µL der aus den Blutproben hergestellten genomischen Template-DNA initiiert, und 1 µL des Produkts dieser Reaktionen wurde verwendet, um die sekundären Amplifikationsreaktionen zu initiieren. Die Zyklusparameter für die PCR waren wie folgt: Anfängliche Denaturierung für 5 min bei 95 ° C, Temperung für 30 s bei 52 ° C, Verlängerung für 30 s bei 72 ° C und Denaturierung für 30 s bei 94 ° C. Nach Durchführung eines letzten Temperungsschritts, gefolgt von 2 min Verlängerung, wurde die Reaktion gestoppt. PCR-Produkte wurden bis zur Analyse bei 4°C gelagert.

Die Genotypen von Parasiten in wiederkehrenden Proben wurden mit denen in Einschreibeproben verglichen, und Probenpaaren wurde eine grobe Klassifizierung basierend auf IBS zugewiesen, definiert als verwandt basierend auf Majority IBS, wenn zwei oder drei von drei typisierten Loci Beweise für IBS zeigten, und anders basierend auf majority not IBS, andernfalls. Heteroallelische Anrufe hatten Hinweise auf IBS, wenn sie einen Anruf enthielten, der im Vergleich zu einem anderen identisch war. Wenn die gepaarten Proben basierend auf der Mehrheit von IBS als verwandt eingestuft wurden oder wenn einer oder mehrere der anfänglichen Loci nicht amplifizierten, wurden sechs zusätzliche (Nicht-Kern-) Mikrosatellitenmarker genotypisiert (PV.1.501, PV.ms1, PV.ms5, PV.ms6, PV.ms7 und PV.ms16). Für jeden Mikrosatelliten sind Einzelheiten einschließlich Motiv, Chromosom und Position in der ergänzenden Tabelle 3 angegeben. Die Anzahl der Episoden, aufgeteilt nach der Anzahl der erfolgreich eingegebenen zusätzlichen Marker, ist in der ergänzenden Tabelle 4 angegeben. Um zu sehen, ob zusätzliche Marker die Rückfallinferenz beeinflussen, partitionierten wir die in den genetischen Nulldaten abgeleitete Rückfallwahrscheinlichkeit durch die Anzahl der Marker, die zur Schätzung der Rückfallwahrscheinlichkeit verwendet wurden. Zusätzliche Marker beeinflussen die Rückfallinferenz nicht: Die Wahrscheinlichkeit eines Rückfalls nimmt gegenüber dem vorherigen mit ein bis drei Markern ab und stabilisiert sich danach um 0,25 (Ergänzende Abb. 5).

Für Allelproben auf den Mikrosatelliten wurden die Längen der PCR-Produkte im Vergleich zu internen Größenstandards (Genescan 500 LIZ) auf einem ABI 3100 Genetic Analyzer (PE Applied Biosystems) unter Verwendung der Software GENESCAN und GENOTYPER (Applied Biosystems) gemessen, um Allellängen zu messen und Peakhöhen zu quantifizieren. Mehrere Allele wurden aufgerufen, wenn es mehrere Peaks pro Locus gab und wenn kleinere Peaks waren $> 33 \%$ der Höhe des vorherrschenden Allels. Wir schlossen negative Kontrollproben (menschliche DNA oder keine Vorlage) in jeden Amplifikationslauf ein. Eine Teilmenge der Proben (n = 10) wurde in dreifacher Ausfertigung analysiert, um die Konsistenz der erhaltenen Ergebnisse zu bestätigen. Alle Primerpaare wurden mit genomischer DNA von P. falciparum oder Menschen auf Spezifität getestet.

Time-to-Event-Modell des Vivax-Malaria-Rezidivs

Für rezidivierende P. vivax-Infektionen In den VHX- und BPD-Studien entwickelten und verglichen wir zwei Bayes’sche Mixed-Effects-Mischmodelle, die die Time-to-Event-Daten beschreiben, die vom verabreichten Behandlungsarzneimittel abhängen. Das erste Modell (Modell 1) ging von einer 100% igen Wirksamkeit von hochdosiertem Primaquin aus, wobei nach radikalischer Heilung nur eine Reinfektion möglich war. Das zweite Modell (Modell 2) ermöglichte einen Rückfall und eine Rekrudeszenz nach hochdosiertem Primaquin. Eine vollständige Liste der Annahmen zu beiden Modellen finden Sie in der ergänzenden Tabelle 5. Modell 1 diente als Basismodell zur Bewertung der Robustheit. Modell 2 wurde als endgültiges Modell verwendet und alle gemeldeten Schätzungen werden daraus abgeleitet. Die Notation wurde so gewählt, dass sie mit der mathematischen Notation für das genetische Modell übereinstimmt (siehe unten). Beachten Sie, dass in der folgenden Modellnotation $n$ ein Index ist, während er oben zur Bezeichnung von Zählungen verwendet wird. Für jede einzelne indiziert durch den Index $n\in 1..N$, zeichnen wir die Zeitintervalle (in Tagen) zwischen aufeinanderfolgenden P. vivax-Episoden auf (die Einschreibungsepisode wird als Episode 0 bezeichnet). Das letzte Zeitintervall wird am Ende des Follow-ups zensiert. Die Modelle gehen von keiner Selektionsverzerrung vom Verlust bis zum Follow-up aus. Für die Person ${n}{{\mathrm{{th}}}}$ haben Daten über das Zeitintervall $t$ (die Zeit zwischen Episode $t-1$ und Episode $t$) die Form ${{\boldsymbol{x}}}_{n}^{(t)}$ = {${D}_{n}^{t},{Z}_{n}^{t},{C}_{n}^{t},{S} }_{n}$}, wobei ${D}_{n}^{t}\in \{{\rm{AS}},{\rm{CQ}},{\rm{PMQ}}+\}$ die Arzneimittelkombination zur Behandlung der Episode $t-1$ ist (AS: Artesunat-Monotherapie; CQ: Chloroquin-Monotherapie; PMQ${}^{+}$: primaquin plus Behandlung im Blutstadium), ${Z}_{n}^{t}$ das Zeitintervall in Tagen ist, ${C}_{n}^{t}\in \{0,1\}$ angibt, ob das Intervall zensiert wurde, wobei 1 einer richtig zensierten Beobachtung entspricht (d. h. Die Nachbeobachtung endete, bevor das nächste Rezidiv beobachtet wurde) und 0 einer beobachteten rezidivierenden Infektion entspricht, und ${S}_{n}$ die Studie angibt, für die der Patient rekrutiert wurde (1: VHX, 2 : BPD). Im Allgemeinen sei ${{\boldsymbol{x}}}_{n}$ = {${{\ boldsymbol{x}}}_{n}^{(0)},\ldots ,{{\boldsymbol{x}}}_{n}^{(T)}$} bezeichnen alle verfügbaren Zeit-bis-Ereignis-Daten für die ${n}{{\mathrm{{th}}}}$ Person. In den ersten 8 Wochen traten nur wenige Rezidive (acht) bei Patienten auf, die in die Dihydroartemisinin-Piperaquin-Arme der BPD-Studie randomisiert wurden, daher modellierten wir die postprophylaktische Periode von Piperaquin als identisch mit der von Chloroquin (d. H. PMQ${}^{+}$ enthält sowohl Chloroquin als auch Dihydroartemisinin-Piperaquin als Behandlungen im Blutstadium). In Wirklichkeit unterscheiden sich die Eliminationsprofile und intrinsischen Aktivitäten geringfügig, wobei Piperaquin eine etwas längere Unterdrückung des asexuellen Stadiums als Chloroquin bietet.

In beiden Modellen wird die Zeit bis zum Wiederauftreten als eine Mischung aus vier Verteilungen modelliert, wobei die Mischungsgewichte von der Behandlung der vorherigen Episode abhängen. Die Mischungsverteilungen entsprechen den verschiedenen Wiederholungszuständen. Die vier Mischungen sind: Reinfektion, gegeben durch eine Exponentialverteilung; früher (periodischer) Rückfall, gegeben durch eine Weibull-Verteilung mit arzneimittelabhängigen Parametern der Behandlung; später (konstanter) Rückfall, gegeben durch eine Exponentialverteilung; recrudescence, gegeben durch eine Exponentialverteilung. Modell 2 spezifiziert unterschiedliche Mischungsverhältnisse für die Reinfektionskomponente in den Nicht-Primaquin- und Primaquin-Gruppen, ${p}_{n}^{{\rm{AS}}}={p}_{n}^{{\rm{CQ}}}$ bzw. ${p}_{n}^{{\rm{PMQ+}}}$. Das Mischungsverhältnis zwischen frühem / periodischem und spätem / konstantem Rezidiv innerhalb der Rezidivkomponente ist in allen Primaquin- und Nicht-Primaquin-Gruppen gleich.

Die Wahrscheinlichkeit für Modell 2 ist gegeben als

$${ Z}_{n}^{t} \sim \; {p}_{n}^{{D}_{n}^{t}}{\mathcal{E}}({\lambda }_{{S}_{n}})\left(1-{p}_{n}^{{D}_{n}^{t}}\right)\Big\{\left(1-{c}^{{D}_{n}^{t}}\right)\big(q{\mathcal{W}}({\ mu }_{{D}_{n}^{t}},{k}_{{D}_{n}^{t}})\\ + (1-q){\mathcal{E}}(\gamma )\groß)+{c}^{{D}_{n}^{t}}{\mathcal{E}}({\lambda }_{{\rm{RC}}})\Groß\},$$

(1)

wobei ${p}_{n}^{(\cdot )}\in (0,1)$ die individuelle und arzneimittelspezifische Mischungswahrscheinlichkeit einer Reinfektion ist (wir setzen den prior, um unsere Überzeugung widerzuspiegeln, dass ${p}_{n}^{{\rm{AS}}}={p}_{n}^{{\rm{CQ}}}\ < \ {p}_{n}^{{\rm{PMQ+}}}$) und ${c}^{ (\cdot )}\in (0,1)$ ist die verschachtelte arzneimittelspezifische Gemischwahrscheinlichkeit der Rekrudeszenz.

Die Wahrscheinlichkeit für Modell 1 ist die gleiche, außer dass ${p}_{n}^{{\rm{PMQ+}}}=1$ (nur Reinfektion möglich). ${\mathcal{E}}(\cdot )$ bezeichnet die Exponentialverteilung. In beiden Modellen ist ${\lambda }_{{S}_{n}}$ die studienspezifische Reinfektionsrate. Die Beziehung zwischen ${\lambda }_{1}$ und ${\lambda }_{2}$ wird als ${\lambda }_{2}=\delta {\lambda }_{1}$ parametriert, wobei Prioren für ${\lambda }_{1}$ und $\delta$ angegeben sind. $\delta$ spezifizierte die Abnahme der Transmission zwischen den VHX- und BPD-Studienzeiten. ${\lambda }_{{\rm{RC}}}$ ist die recrudescence Rate (angenommen drogenunabhängig). ${c}^{{D}_{n}^{t}}$ ist ein arzneimittelabhängiges verschachteltes Mischungsverhältnis zwischen Rekrudeszenz und Rückfall. Die Zeit bis zum Rückfall ist selbst eine Mischungsverteilung, wobei $q$ das doppelt verschachtelte Mischungsverhältnis zwischen frühen (ersten Komponente) und späten (zweiten Komponente) Rückfällen ist. Dies ist ein fester Anteil über alle Personen hinweg. Die Spät-/Konstantratenrückfälle werden durch die Ratenkonstante $\gamma$ parametriert. Es wird angenommen, dass die frühen Rückfälle Weibull-verteilt sind, bezeichnet mit ${\mathcal{W}} (\cdot ,\cdot )$, mit arzneimittelabhängigen Skalenparametern ${\mu }_{{D}_{n}^{t}}$ und Formparametern ${k}_{{D}_{n}^{t}}$ wobei mit ${\mu }_{{\rm{CQ}}}={\mu }_{{\rm{PMQ+}}} $ und ${k}_{{\rm{CQ}}}={k}_{{\rm{PMQ+}}}$.

Die individuelle Randwahrscheinlichkeit einer Reinfektion ist gegeben durch ${p}_{n}^{{D}_{n}^{t}}$; die individuelle Randwahrscheinlichkeit einer Rekuperation ist gegeben durch $\left{c}^{{D}_{n}^{t}}$; die individuelle Randwahrscheinlichkeit eines Rückfalls ist gegeben durch $\left\left$.

Wir verwendeten informative Vorverteilungen (ergänzende Tabelle 1), um die Identifizierbarkeit der Mischungskomponenten zu gewährleisten. Der Informationsgehalt in den Daten, der über den im Prior angegebenen hinausgeht, wurde visuell unter Verwendung von Prior-to-Posterior-Plots untersucht. Der Prior-to-Posterior-Plot für Modell 2 ist in der ergänzenden Abb. 6. Die Identifizierbarkeit von Parametern wurde durch Simulation ermittelt. Fünfzig synthetische Datensätze wurden aus jedem der in den Modellen 1 und 2 definierten Datengenerierungsprozesse und einer modifizierten Version von Modell 2 mit saisonaler Reinfektion erstellt. Die saisonale Komponente wurde aus der empirischen Verteilung der Einschreibungswochen in den BPD- und VHX-Studien geschätzt. Die Modelle wurden dann an diese simulierten Datensätze angepasst und geschätzte Parameter wurden mit Simulationswahrheitsparametern verglichen. Ergänzende Fig. 7 zeigt die geschätzten PMQ + -Ausfallraten (unter Verwendung von Modell 2) gegenüber den tatsächlichen Ausfallraten für Daten, die unter Modell 2 generiert wurden (gut spezifizierte Modellanpassung) bzw. für Daten, die unter der saisonalen Version von Modell 2 generiert wurden (falsch spezifizierte Modellanpassung). Saisonale Reinfektion führt zu einer leichten Überschätzung der Ausfallrate. Die posteriore Modellprüfung wurde durchgeführt, indem 500 synthetische Time-to-Event-Datensätze unter der posterioren prädiktiven Verteilung der endgültigen Modellanpassung simuliert wurden. Die Anzahl der Rezidive pro Personenjahr für jeden Behandlungsarm wurde als zusammenfassende Statistik zur Berechnung der posterioren prädiktiven p-Werte ausgewählt (Ergänzende Abb. 7).

Die Stan-Modelle geben (i) Monte-Carlo-Posteriorverteilungen für alle Modellparameter aus; (ii) posteriore Schätzungen der Rezidivzustände für jedes Zeitintervall ${{\boldsymbol{x}}}_{n} ^{(t)}$; (iii) Log-Likelihood-Schätzungen jeder posterioren Verteilung. Für jedes Modell liefen wir acht Ketten mit $1{0}^{5}$ iterationen, Ausdünnung pro 400 Iterationen und Verwerfen der Hälfte für Burn-in. Die Konvergenz der MCMC-Ketten wurde mithilfe von Traceplots bewertet, die das Mischen und die Übereinstimmung der acht unabhängigen Ketten bewerteten. Alle diese Analysen können mit dem Online-Github-Repository repliziert werden.

Allelfrequenzen und effektive Kardinalität

Für jeden genotypisierten Mikrosatelliten wurden die Allelfrequenzen unter Verwendung aller verfügbaren genetischen Daten aus den Einschreibungsepisoden (137 VHX, 79 BPD) und eines Multinomial-Dirichlet-Modells (Ergänzende Abb. 8). Für jeden Marker wurde die effektive Kardinalität ${n} ^{* }$, definiert als die Anzahl der Allele, die bei äquifrequenten Allelfrequenzen die gleiche Wahrscheinlichkeit der Identität durch Zufall liefern, als eins über der Summe der Allelfrequenzen im Quadrat geschätzt40. Aus den effektiven Kardinalitäten können wir die Anzahl der hypothetischen biallelischen SNPs berechnen, denen die neun Mikrosatelliten wie folgt entsprechen:

$${\ rm{Hypothetisch}}\ {\rm{SNP}}\ {\rm{Anzahl}}=\Summe _{m=1}^{M}{\mathrm{log}}_{{n}_{{\rm{SNP}}}^{* }}({ n}_{m}^{* }),$$

(2)

wobei $m$ der Index über den $M=9$ Mikrosatelliten ist und der Logarithmus die Basis ${n}_{{\rm{SNP}}}^{* }$, die angenommene durchschnittliche effektive Kardinalität eines hypothetischen SNP. Dies ist 2 für einen idealen SNP und ungefähr 1,5 für einen realistischen SNP40.

Genetisches Modell

Das genetische Modell gibt die Wahrscheinlichkeit aus, dass ein wiederkehrendes P. die Vivax-Episode in einem gegebenen Individuum ist eine Rekrudeszenz, ein Rückfall oder eine Reinfektion in Bezug auf zuvor beobachtete Episoden, wobei drei Eingaben gegeben sind: (1) frühere Wahrscheinlichkeiten, dass die Episode eine Rekrudeszenz, ein Rückfall oder eine Reinfektion ist (in dieser Arbeit basieren sie auf Zeit-zu-Ereignis-Daten); (2) eine Reihe von Schätzungen der Allelhäufigkeit auf Populationsebene; (3) verfügbare genetische Daten für die beobachteten Episoden für das gegebene Individuum mit jeweils höchstens neun polyallelen Mikrosatellitenmarkern. Um die Unsicherheit in (1) und (2) zu propagieren, ziehen wir 100 Monte-Carlo-Proben aus dem Time-to-Event-Modell und aus den posterioren Dirichlet-Verteilungen über Allelfrequenzen für jeden Marker. Das genetische Modell erfasst keine Unsicherheit aufgrund von Variationen in der Anzahl der genotypisierten Marker, da dies derzeit rechnerisch unerschwinglich ist. Nichtsdestotrotz überinterpretiert das genetische Modell begrenzte Daten nicht: Wenn es nur wenige genotypisierte Marker gibt, gibt es einfach Schätzungen zurück, die dem vorherigen nahe kommen. Der Rest dieses Abschnitts enthält eine informelle Beschreibung des Modells. Eine detaillierte Beschreibung mit einer Liste von Annahmen und der vollständigen mathematischen Spezifikation finden Sie in den Ergänzenden Methoden.

Für eine bestimmte Person werden Parasiten innerhalb und zwischen Infektionen entweder als Fremde, Geschwister oder Klone in Bezug aufeinander betrachtet (Fremde bezieht sich auf alle Parasiten, deren gemeinsame Abstammung über eine einzelne Mücke hinausgeht). Die Menge der Beziehungen zwischen Parasiten kann durch einen vollständig verbundenen Graphen dargestellt werden. Jeder Scheitelpunkt repräsentiert einen haploiden Genotyp, und jede Kante zwischen den Genotypen wird als Geschwister oder Fremder bezeichnet, wenn die Genotypen innerhalb derselben Infektion enthalten sind, oder als Klon, Geschwister oder Fremder, wenn die Genotypen aus verschiedenen Infektionen stammen. Bei komplexen Infektionen wird die Anzahl der Scheitelpunkte gleich dem COI festgelegt, der als maximale Anzahl von Allelen pro beobachtetem Marker definiert ist.

Das Modell geht davon aus, dass Rezidive für alle interparasitären Beziehungen zwischen Infektionen (Fremde, Geschwister und Klone) auftreten können, während Reinfektionen nur als Fremde und Rekruten nur als Klone auftreten. Die wichtigsten Schritte im Modell sind wie folgt. Zunächst berechnen wir die Wahrscheinlichkeit der genetischen Daten anhand eines beschrifteten Beziehungsdiagramms. Zweitens berechnen wir die Wahrscheinlichkeit des vorgeschlagenen Diagramms, da die wiederkehrende Episode eine Rekrudeszenz, ein Rückfall und eine Reinfektion ist. Drittens summieren wir über alle möglichen Graphen. Der Satz von beschrifteten Graphen enthält alle möglichen Möglichkeiten, die Mikrosatellitendaten zu phasieren (d. H. Allele haploiden Genotypen in komplexen Infektionen zuzuordnen) sowie alle lebensfähigen Beziehungen zwischen haploiden Genotypen. Wenn beispielsweise Genotyp A ein Klon von B und B ein Klon von C ist, ist die einzige lebensfähige Beziehung zwischen A und C klonal.

Das Konzept der Verwandtschaft (Wahrscheinlichkeit von IBD) Merkmale im ersten Schritt. Das Modell schätzt jedoch nicht die Verwandtschaft. Stattdessen schätzt es die Wahrscheinlichkeit der Beobachtung der Daten gegeben IBD multipliziert mit der Wahrscheinlichkeit von IBD abhängig von einer bestimmten Beziehung (z. B. 0,5 für Geschwister in einer Outbred-Population). Diese Berechnung nutzt Allelfrequenzen (gemeinsame gemeinsame Allele sind identisch, aber nicht unbedingt aufgrund der Abstammung, während gemeinsame seltene Allele eher IBD sind). Wir summieren dann die beiden möglichen IBD-Szenarien (Allele sind IBD oder nicht), um die Wahrscheinlichkeit der beobachteten Daten zu erhalten, die von der angegebenen Beziehung abhängt,

$${\ mathbb{P}}({\rm{Daten}}\ | \ {\rm{Beziehung}})= \;{\mathbb{P}}({\rm{Daten}}\ | \ {\rm{IBD}})\times {\mathbb{P}}({\rm{IBD}}\ | \ {\rm{Beziehung}})\\ + {\mathbb{P}}({\rm{Daten}}\ | \ {\rm{nicht}}\ {\rm{IBD}})\ mal {\mathbb{P}}({\rm{not}}\ {\rm{IBD}}\ | \ {\rm{relationship}}).$$

Dies wird für alle paarweisen Beziehungen im Beziehungsdiagramm berechnet (siehe Ergänzende Methoden für weitere Details).

Die rechnerische Komplexität des genetischen Modells beschränkt es auf die gemeinsame Analyse von drei Episoden (zwei Rezidiven) pro Patient (in unseren Daten ist dies bei 158 Patienten der Fall). Für jedes Individuum mit mehr als zwei Rezidiven (54 Patienten) schätzten wir paarweise Wahrscheinlichkeiten von Rezidivzuständen zwischen Episoden (unter Verwendung des obigen Modells) und konstruierten eine Adjazenzmatrix. Die Rückfallwahrscheinlichkeiten wurden dann als proportional zur maximalen geschätzten Rückfallwahrscheinlichkeit in Bezug auf alle vorhergehenden Episoden und zur Rekrudeszenz in Bezug auf die direkt vorhergehende Episode definiert. Die Wahrscheinlichkeit einer Reinfektion ist die Ergänzung der Wahrscheinlichkeit eines Rückfalls plus Rekrudeszenz. Diese Wahrscheinlichkeiten wurden dann neu gewichtet, um zu 1 zu summieren.

Genetische Simulation

Wir verwendeten die Simulation, um die Markeranforderungen für die rekurrente Zustandsinferenz zu untersuchen. Wie oben beschrieben, wurden Daten zu 3 bis 12 unabhängigen Mikrosatellitenmarkern für gepaarte Infektionen (eine primäre Episode, gefolgt von einem einzelnen Rezidiv) unter drei Szenarien simuliert: Das Rezidiv enthält einen haploiden Parasiten-Genotyp, der entweder ein Geschwister, ein Fremder oder ein Klon eines haploiden Parasiten-Genotyps in der Primärinfektion ist. Die simulierten Daten wurden unter der Annahme eines einheitlichen Prior über die Rezidivzustände analysiert (d. h. Recrudescence, Reinfektion und Rezidiv haben jeweils eine Prior-Wahrscheinlichkeit von einem Drittel). Für jeden der Fremden, Geschwister und klonale Szenarien, Wir simulierten Daten für eine anfängliche und wiederkehrende Infektion mit den jeweiligen COIs 1 & 1, 2 & 1, und 1 & 2, mit und ohne Fehler; und die jeweiligen COIs 3 & 1, ohne Fehler. Um das Verhalten des Modells bei Anwendung auf fehlerhafte Daten zu veranschaulichen, wurden fehlerhafte Daten mit einer extrem hohen Fehlerwahrscheinlichkeit pro Ort simuliert (0,2 gegenüber realistischem Fehler $<\ 0.01$41). Wenn COIs einen überschritt, befand sich das Geschwister, der Fremde oder der Klon unter nicht verwandten fremden haploiden Genotypen (ein Beziehungsdiagramm mit höchstens einer einzigen nicht-fremden Kante). Für einen gegebenen Satz von COIs liefert diese Art von Diagramm sehr unterschiedliche Daten und ist daher am schwierigsten zu analysieren. Für nicht fehlerhafte Episoden mit COIs in 1 oder 2 untersuchten wir Kardinalitäten von 13 und 4 (der Durchschnitt bzw. das Minimum unseres Panels von neun Mikrosatelliten). Für die fehlerhaften Daten und für die Episoden mit COIs von 3 & 1 haben wir nur Kardinalität gleich 13 verwendet. Die Ergebnisse einer illustrativen Teilmenge der genetischen Simulationen sind in Abb. 5 und ergänzenden Fig. 3 und 4. Alle genetischen Simulationen können aus dem Online-Github-Repository repliziert werden, siehe Ordner Simulation_Study.

Klassifikation wiederkehrender Episoden

Die Schätzung der False-Failure-Entdeckungsrate des genetischen Modells und Abb. 4 beide erfordern die Angabe von Klassifikationsgrenzen. Wir haben das Intervall willkürlich als Unsicherheitszone gewählt. Jedes Rezidiv wird entweder als Reinfektion oder als Misserfolg klassifiziert, wobei das Versagen entweder ein Rückfall oder eine Recrudescence ist: Wenn die Summe der oberen glaubwürdigen Intervalle von Rückfall plus Recrudescence kleiner als 0,3 ist, wird das Wiederauftreten als Reinfektion klassifiziert; Wenn die Summe der unteren glaubwürdigen Intervalle von Rückfall plus Recrudescence 0,7 überschreitet, wird das Wiederauftreten als Misserfolg klassifiziert; andernfalls wird die Klassifizierung als unsicher angesehen. Da es vernachlässigbare Hinweise auf eine Rekrudeszenz gab, sind alle Fehler im Wesentlichen Rückfälle.

Berichtszusammenfassung

Weitere Informationen zum Forschungsdesign finden Sie in der Nature Research Reporting Summary, die mit diesem Artikel verknüpft ist.

Probabilistische Lösung der Ursache für rezidivierende Plasmodium vivax Malaria