Author Archives: Torben Tvedebrink

Kolde DNA hits

Rigspolitiet indstiller til at øge antal STR-markører for DNA-beviser til 16

Fornylig har danske medier bragt historien om at Rigspolitiet indstiller til at antal DNA-markører for DNA-beviser øges fra 10 STR-markører til 16 STR-markører. Forholdet mellem sandsynlighederne for sammenfald mellem to DNA-profiler falder med mere end en faktor 500,000,000.

Rigspolitiet: Opdatering af DNA profiler

Uddrag fra Rigspolitiets skrivelse:

Rigspolitiet har efter drøftelse med Rigsadvokaten den 21.10 2019 besluttet at skærpe retningslinjerne for opdatering af DNA-referenceprofiler, der er typebestemt efter 10 DNA-systemer. Denne typebestemmelse blev anvendt frem til 2012. Fra 2012 er der anvendt typebestemmelse efter 16 DNA-systemer.

DNA profiler

DNA betragtes med rette som et af de stærkeste beviser i opklaring af kriminalsager. I modsætning til fx fingeraftryk, giver forståelsen af den biologiske overlevering fra generation til generation mulighed for at modellere hyppighederne af en given DNA-profil, hvilket bruges for at kunne vurdere den bevismæssige vægt af et DNA-spor (Link til Advokatsamfundets tekst om DNA-beviser)

Når man taler om DNA-profiler til personidentifikation, som vil være tilfældet hvor man ønsker at undersøge om en given mistænkt kan knyttes til et gerningssted, benyttes oftest såkaldte short tandem repeat-markører der forkortes til STR-markører. STR-markører er veldefinerede steder på en persons DNA hvor der i populationen er observeret et tilstrækkelig stor variation individerne imellem. Dette gør at sandsynligheden for overlappende DNA-profiler er lille, hvilket igen gør at sammenfald mellem en mistænkts DNA profil og profilen fra et gerningssted er inkriminerende for den mistænkte.

DNA nedarves fra generation til generation ved at ét af morens kromosomer og ét af farens kromosomer giver anledning til barnets kromosompar (når vi ser bort fra rekombinations hændelser). Vi mennester har i alt 23 kromosompar, hvoraf de ene er kønskromosomerne (XX for kvinder og XY for mænd). På de resterende autosomale kromosomer kan man ved kun at betragte barnets DNA profil (også kaldet genotype) ikke afgøre hvilket kromosom som nedstammer fra moren og hvilket der nedstammer faren. En STR-markør kan antage et variabelt antal tilstande som kaldes alleler, hvor altså der arves én allel fra moren og én fra faren. Den typiske teknologi som benyttes til at analysere en DNA-profil angiver allelerne som heltal, fx (7,9) hvilket betyder at personen har arvet hhv allele 7 og 9 fra sine forældre. Tallele refererer til hvor mange gange en given DNA-sekvens er gentaget. Ofte er den gentagne sekvens af længde fire, fx ACAT hvor bogstaverne henviser til de fire mulige DNA-baser. Et allel 7 er derfor angivet ved ACATACATACATACATACATACATACAT. Vi kalder profiler med to forskellige alleler for heterozygote og homozygote hvis de nedarvede alleler fra forældrene er ens.

Indtil 2012 benyttede man i Danmark 10 STR-markører således at man havde 10 par af alleler. STR-markørerne er udvalgt til være statistisk uafhængige af hinanden. Ligeledes antager man ofte også uafhængig mellem allelerne inden for en given STR-markør. Det betyder at sandsynligheden for at observerer genotypen 2p_7p_9 hvor p_7 er allele frekvensen (hyppigheden) af allel 7 (tilsvarende for allele 9) og hvor faktoren på 2 skyldes at (7,9) kan fremkomme på to måder (idet vi ikke kan se hvilket allel der kommer fra hvilken forældre). Uafhængigheden mellem STR markørerne gør at vi kan gange bidragene fra de forskellige STR-markører sammen hvorved vi slutteligt opnår ganske små sandsynligheder for den specifikke DNA-profil, fx i størrelsesordenen 10^{-20}.

Usandsynlige hændelser?

Allerede i 2001 blev man i USA bekymret over at antageligt urelaterede personer havde nær sammenfald af DNA-profiler. Med nært sammenfald menes der at man enten matcher på begge alleler på en STR-markør eller matcher på ét af de to alleler. Har vi fx DNA-profilerne A = \{(7, 9), (11, 11), (13, 14)\} og B = \{(6, 8), (11, 12), (13, 14)\} vil de matche på én markør (den sidste hvor begge har alleler 13 og 14), delvist matche på den anden markør (overlapper på allel 11) og mismatch på den første markør (ingen alleler tilfælles). Weir (2004, 2007) beskrev hvorfor sådanne sammenfald ikke er overraskende selvom hyppighederne for DNA-profiler er ganske små. Han sammenlignende fænomenet med det såkaldte “fødselsdagsproblem”, som mange har stiftet bekendtskab med i deres introduktion til sandsynlighedsregning: Hvor mange elever skal man have i en klasse før sandsynsynligheden for mindst ét par har samme fødselsdag overstiger 50%?. Som det ses nedenfor (blå kurve) har man for 23 elever mere end 50% chance for to personer med samme fødselsdag. Det kan virke intuitivt forkert når nu året har 365 dage – men svaret er at vi ikke har angivet hvilken dato der er tale om. Fastholder vi datoen får vi den røde linje, hvilket er sandsynligheden at mindst èn anden har samme fødselsdag som fx dig. For den blå kurve laver vi alle parvise sammenligninger for eleverne, hvilket svarer til n(n-1)/2 sammenligninger som for n = 23 svarer til 253 sammenligninger.

Det samme gør sig gældende for DNA profiler i en database. Hvis vi undersøger sammenfaldet mellem hvert par af DNA-profiler bliver det lynhurtigt til rigtigt mange sammenligninger. I 2012 udgav vi en artikel hvor vi sammenlignede 51,517 danske DNA profiler som var genotypet på 10 STR-markører. For et par af DNA-profiler udledte Weir at for en enkelt markør er sandsynlighederne for forskellige grader af overlap givet ved:
P(\text{Mismatch}) = P_{0/0} = 1-4S_2+4S_3+2S_2^2 - 3S_4,
P(\text{Delvist match}) = P_{0/1} = 4(S_2 - S_3-S_2^2+S_4)
P(\text{Match}) = P_{1/0} = 2S_2^2 - S_4,
hvor S_k = \sum_{a = 1}^A p_a^k, er summen af allel frekvenser opløftet i k’te.

Vi fandt efterfølgende en effektiv måde at beregne det forventede antal DNA profiler med m markører med fuldt match og p markører med delvist match (partial match). Dette kan også omregnes til at DNA profilerne har 2m+p alleler tilfælles. For de 51,517 DNA-profiler fandt vi at teorien og praksis stemte glimrende overens (afgivelserne for høje antal sammenfaldende alleler kan forklares af øget usikkerhed på små sandsynligheder samt der kan korrigeres for sub-populations effekter – det er undladt her.)

Foruden rene DNA-profiler optræder DNA-profiler ofte i blandinger af to eller flere DNA-profiler, hvilket kaldes DNA-miksturer eller DNA-blandinger. Det betyder at man ikke entydigt kan fastslå bidragsyderne til en given blanding, hvilket øger antallet af mulige DNA-profiler som skal sammenlignes. Risikoen for sammenfald mellem DNA-profiler vokser altså når man også tager DNA-blandinger i betragtning.

Effekten af at øge antal markører fra 10 til 16 STR-markører

I Rigspolitiets skrivelse indstilles der til at øge antallet af STR-markører fra 10 STR-markører til 16 STR-markører. Nedenfor ses hvordan sandsynlighederne påvirkes af at øge antal STR-markører på ovenstående udtryk. Risikoen for nær sammenfald af DNA-profiler mindskes altså betragteligt når antallet af mulige fælles alleler vokser til 32 fra 20. Faktisk er forholdet mellem P_{10/0} og P_{16/0} givet ved 545,969,753 – altså en faktor på mere end 500 mio.

Referencer

B.S. Weir (2004) Matching and partially-matching DNA profiles, Journal of Forensic Science 49 (5): 1–6

B.S. Weir (2007) The rarity of DNA profiles, Annals of Applied Statistics 1 (2): 358–370.

T Tvedebrink, P.S. Eriksen, J.M. Curran, H.S. Mogensen, N. Morling (2012) Analysis of matches and partial-matches in a Danish STR data set, Forensic Science International: Genetics 6 (3): 378-392

Hvor kommer DNA profilen fra?

De såkaldte Ancestry Informative Markers (AIMs) er genetiske markører som indeholder en høj grad af information omkring en persons genogenetiske ophav. Med genogenetisk menes der genetiske markører som relaterer sig til geografisk lokation af subpopulationer. Vi ved at mange fænotypiske træk (fx hud- og hårfarve) er defineret af genetiske markører, mens andre markører ikke nødvendigvis manifesterer sig i umiddeltbart synlige træk.

Det humane genom består af over 3 milliarder nukleobaser angivet ved bogstaverne A, C, G og T. Store dele af genomet er identisk for alle mennesker – idet dette netop gør os til homo sapiens. Den simpleste form for afvigelser er de såkaldte Single Nucleotide Polymorphisms (SNPs), som er enkelt position på genomet hvor fx mindst 1% af populationen har en alternativ base. Fx kunne A være den oprindelige tilstand for en markør mens C er en muteret tilstand. Sådanne markører er interessante fra et populationsgenetisk synspunkt idet fx alle afrikanere kunne have genotypen AA (et A fra mor og et A fra far) mens alle asiater er CC. Ved at benytte informationen fra flere af sådanne markører er det muligt at fastslå hvor det er mest sandsynligt at person kommer fra.

I retsgenetik, som er disciplinen hvor DNA benyttes i en retlig sammenhæng (fx straffe-, faderskabs- og familiesammenføringssager), rapporteres beviset typisk i form af et likelihood ratio, dvs. man evaluerer hvor sandsynligt bevismaterialet (her DNA profilen) er under to stridende hypoteser. Lad E være bevismaterialet (E for evidence, mens H_A er hypotesen at DNA profilen stammer fra Afrika, mens H_E er hypotesen at profilen stammer fra Europa. I forhold til at vurdere om bevismaterialet taler for et europæisk ophav frem for et afrikansk, kan vi bestemme likelihood ratioet, LR_{EA},
LR_{EA} = \dfrac{P(E \mid H_E)}{P(E \mid H_A)},
hvor P(E \mid H_E) er sandsynligheden for E hvis H_E er sand, og tilsvarende for P(E \mid H_A) hvis H_A er sand. Typisk estimeres disse sandsynligheder ud fra en stikprøve fra hhv.\ de europæiske og afrikanske populationer. Hvis vores estimater gav LR = 10^4 = 10000 betyder det at det er titusind gange mere sandsynligt at se profilen i den europæsiske population frem for den afrikanske.

Problemet vi har fokuseret på i vores forskning (link til artikel i Theoretical Population Biology) er hvorledes man håndterer situationen hvor en konkret DNA profil stammer fra en subpopulation hvor fra vi endnu ikke har en stikprøve af DNA profiler. Fx hvis profilen E stammer fra Grønland, men hvor vi kun har data fra Afrika og Europa. Hvad ville det give af information at vide en given profil er titusind gange mere sandsynlig i Europa end i Afrika når begge hændelser er ekstremt usandsynlige? I dette tilfælde, lad os antage at profilens hyppighed i Grønland er P(E\mid H_G) = 10^{-2} = 0.01 mens i Europa P(E\mid H_E = 10^{-100} og Afrika er P(E\mid H_A = 10^{-104} (således at $LR_{EA} = 10^{4}$). Idet vi konkret ikke kender til den Grønlandske hyppighed (vi antager at vi ikke har en stikprøve derfra) kan vi ikke bestemme hyppigheden relativt i forhold til den grønlandske.

At den relative hyppighed er stor betyder ikke nødvendigvis at DNA profilen stammer fra populationen med den største profil-sandsynlighed. Vores løsning var at fokusere på hvornår er en profil for sjælden i en given population? I statistiske termer kan dette oversættes til: er profilen en outlier i den givne population? Denne tilgang gør det muligt at konkludere at der ikke findes en relevant population i det tilgængelige reference materiale. Fx hvis en given profil bliver erklæret outlier i samtlige tilgængelige populationer konkluderes det at profilen stammer fra en endnu ikke undersøgt population (eller evt. har et mere kompliceret genetisk ophav – fx med forældre med vidt forskellige genogenetiske baggrund).

På kortet nedenfor ses lokationen for de populationer som er inkluderet i reference materialet. Farven af hvert punkt angiver om profilen er blevet erklæret som outlier (blå) eller ej (rød). Profilen er i dette tilfælde fra Grønland og konklusionen er derfor korrekt.

Lokation af populationerne. Farven indikerer beslutning omkring outlier (blå) eller ej (rød)

I plottet herunder vises profil hyppighederne for de forskellige populationer. Igen er det tydeligt at profilen er hyppigst forekommende i Grønland, P(E\mid H_G) = 10^{-37} hvor de nærmeste populationer har hyppigheder omkring 10^{-46} - 10^{-50}. Altså er profilen omkring 10^{10} mere sandsynlig i Grønland i forhold til disse populationer.

Genotype sandsynligheder af den grønlandske profil. Punkterne er estimatet og linjer angiver usikkerheder.