Hvor kommer DNA profilen fra?

De såkaldte Ancestry Informative Markers (AIMs) er genetiske markører som indeholder en høj grad af information omkring en persons genogenetiske ophav. Med genogenetisk menes der genetiske markører som relaterer sig til geografisk lokation af subpopulationer. Vi ved at mange fænotypiske træk (fx hud- og hårfarve) er defineret af genetiske markører, mens andre markører ikke nødvendigvis manifesterer sig i umiddeltbart synlige træk.

Det humane genom består af over 3 milliarder nukleobaser angivet ved bogstaverne A, C, G og T. Store dele af genomet er identisk for alle mennesker – idet dette netop gør os til homo sapiens. Den simpleste form for afvigelser er de såkaldte Single Nucleotide Polymorphisms (SNPs), som er enkelt position på genomet hvor fx mindst 1% af populationen har en alternativ base. Fx kunne A være den oprindelige tilstand for en markør mens C er en muteret tilstand. Sådanne markører er interessante fra et populationsgenetisk synspunkt idet fx alle afrikanere kunne have genotypen AA (et A fra mor og et A fra far) mens alle asiater er CC. Ved at benytte informationen fra flere af sådanne markører er det muligt at fastslå hvor det er mest sandsynligt at person kommer fra.

I retsgenetik, som er disciplinen hvor DNA benyttes i en retlig sammenhæng (fx straffe-, faderskabs- og familiesammenføringssager), rapporteres beviset typisk i form af et likelihood ratio, dvs. man evaluerer hvor sandsynligt bevismaterialet (her DNA profilen) er under to stridende hypoteser. Lad E være bevismaterialet (E for evidence, mens H_A er hypotesen at DNA profilen stammer fra Afrika, mens H_E er hypotesen at profilen stammer fra Europa. I forhold til at vurdere om bevismaterialet taler for et europæisk ophav frem for et afrikansk, kan vi bestemme likelihood ratioet, LR_{EA},
LR_{EA} = \dfrac{P(E \mid H_E)}{P(E \mid H_A)},
hvor P(E \mid H_E) er sandsynligheden for E hvis H_E er sand, og tilsvarende for P(E \mid H_A) hvis H_A er sand. Typisk estimeres disse sandsynligheder ud fra en stikprøve fra hhv.\ de europæiske og afrikanske populationer. Hvis vores estimater gav LR = 10^4 = 10000 betyder det at det er titusind gange mere sandsynligt at se profilen i den europæsiske population frem for den afrikanske.

Problemet vi har fokuseret på i vores forskning (link til artikel i Theoretical Population Biology) er hvorledes man håndterer situationen hvor en konkret DNA profil stammer fra en subpopulation hvor fra vi endnu ikke har en stikprøve af DNA profiler. Fx hvis profilen E stammer fra Grønland, men hvor vi kun har data fra Afrika og Europa. Hvad ville det give af information at vide en given profil er titusind gange mere sandsynlig i Europa end i Afrika når begge hændelser er ekstremt usandsynlige? I dette tilfælde, lad os antage at profilens hyppighed i Grønland er P(E\mid H_G) = 10^{-2} = 0.01 mens i Europa P(E\mid H_E = 10^{-100} og Afrika er P(E\mid H_A = 10^{-104} (således at $LR_{EA} = 10^{4}$). Idet vi konkret ikke kender til den Grønlandske hyppighed (vi antager at vi ikke har en stikprøve derfra) kan vi ikke bestemme hyppigheden relativt i forhold til den grønlandske.

At den relative hyppighed er stor betyder ikke nødvendigvis at DNA profilen stammer fra populationen med den største profil-sandsynlighed. Vores løsning var at fokusere på hvornår er en profil for sjælden i en given population? I statistiske termer kan dette oversættes til: er profilen en outlier i den givne population? Denne tilgang gør det muligt at konkludere at der ikke findes en relevant population i det tilgængelige reference materiale. Fx hvis en given profil bliver erklæret outlier i samtlige tilgængelige populationer konkluderes det at profilen stammer fra en endnu ikke undersøgt population (eller evt. har et mere kompliceret genetisk ophav – fx med forældre med vidt forskellige genogenetiske baggrund).

På kortet nedenfor ses lokationen for de populationer som er inkluderet i reference materialet. Farven af hvert punkt angiver om profilen er blevet erklæret som outlier (blå) eller ej (rød). Profilen er i dette tilfælde fra Grønland og konklusionen er derfor korrekt.

Lokation af populationerne. Farven indikerer beslutning omkring outlier (blå) eller ej (rød)

I plottet herunder vises profil hyppighederne for de forskellige populationer. Igen er det tydeligt at profilen er hyppigst forekommende i Grønland, P(E\mid H_G) = 10^{-37} hvor de nærmeste populationer har hyppigheder omkring 10^{-46} - 10^{-50}. Altså er profilen omkring 10^{10} mere sandsynlig i Grønland i forhold til disse populationer.

Genotype sandsynligheder af den grønlandske profil. Punkterne er estimatet og linjer angiver usikkerheder.