Genetisk landkort – lineær algebra, statistik og forundringsparathed

Dette landkort viser ikke det, du tror (clickbait… )

Fra artiklen

Genes mirror geography within Europe
John Novembre, Toby Johnson, Katarzyna Bryc, Zoltán Kutalik, Adam R. Boyko, Adam Auton, Amit Indap, Karen S. King, Sven Bergmann, Matthew R. Nelson, Matthew Stephens & Carlos D. Bustamante
Nature 456, 98-101(6 November 2008)
doi:10.1038/nature07331

Overordnet viser kortet følgende: Afstand mellem genetisk information fra to personer – en del af DNA – er i en vis forstand den samme, som geografisk afstand mellem de to personers oprindelsessted.

Mere præcist er det lavet ved Principal Component Analysis (PCA) – så lad os se på det først.

Principal Component Analysis:

Mange har set “bedste rette linje” i gymnasierne og PCA er noget lignende, men alligevel ikke helt.

(Fra Wikipedia CC-by-4.0 )

Figuren viser datapunkter i planen, altså data med 2 koordinater. De to akser midt i billedet er fundet med PCA: Origo er i midtpunktet for data, den længste akse er den retning, hvor der er mest variation. Det giver et nyt koordinatsystem. Man mister, som man kan se, ikke meget information ved kun at kende koordinaterne langs den akse, der går langs den længste af de to vektorer, altså projicere vinkelret ind på den linje. Og det er pointen i PCA: Fra en sky af højdimensionalt data – mange koordinater – finder man de retninger, der bedst forklarer variationen i data. Er man heldig, m.a.o., er der passende struktur i data, skal der ikke så mange af de nye koordinater til.

Landkortet kommer fra 1000 personer, datapunkter. Man kender 200.000 genetiske markører. Der er altså som udgangspunkt 200.000 koordinater(!) og PCA har reduceret til 2 koordinater. Akserne er tegnet ind som PC1 og PC2.

Hvordan finder man så disse akser i dette nye koordinatsystem? Og hvordan ved man, hvilke koordinater, der er mest betydende? Til det bruger man lineær algebra. Konkret gør man som følger – med et eksempel:

Opstil data i en matrix:

$X=\left( \begin{array}{ccccccc}2&2&3&4&1&-3&-9\\3&1&3&3&4&-7&-7\\4&1&4&4&-1&-7&-5\end{array}\right)$ Jeg har 7 punkter med hver 3 koordinater; hver søjle er koordinaterne for et punkt. Jeg har valgt dem, så middelværdien af hver af koordinaterne er 0. Er den ikke det, skal man trække middelværdien fra. Så nu er Origo, (0,0,0), midt i min datasky. I eksemplet med DNA har de en 200.000 x 1000 matrix.

Fra matricen X udregnes først $XX^T$ , covariansmatricen. Det giver en 3×3 matrix

$XX^T=\left( \begin{array}{ccc} 124&117&103\\117&142&117\\103&117&124\end{array}\right)$

Kender man ikke matrix produkt, så tænk på det som en organiseret opstilling af alle de skalarprodukter, man kan lave med de tre rækker i X.

Det er et centralt resultat i lineær algebra, at der til sådan en symmetrisk matrix (der står det samme over og under diagonalen) hører tre egenvektorer og det viser sig at være de vektorer, vi leder efter til PCA. Her er det (sådan cirka)

$v_1= \left( \begin{array}{c} 1\\1,097\\1 \end{array}\right)$ , $v_2= \left(\begin{array}{c}-1\\0\\1\end{array}\right)$ , $v_3=\left(\begin{array}{c}1\\-1,823\\1\end{array}\right)$

Det er egenvektorer for $XX^T$ . De tilhørende egenværdier er (igen sådan cirka – I kan selv regne dem præcist ud, hvis I synes, det er vigtigt). $350, 21, 14$ . Den første værdi er, som man kan se, langt større end de andre. Altså $X X^Tv_1=350 v_1$

Det betyder, at langt det meste af variationen i data sker i retning langs $v_1$ . Man mister ikke megen information ved kun at se på datapunkternes projektion ind på den retning.

Her er PCA Explained Visually Man kan lege med data i 2 og 3 dimensioner og der er et eksempel på, hvordan madvaner og geografi hænger sammen (i Storbritannien).

Landkortet laves som følger:

Find en 200.000×200.000 matrix udfra den oprindelige 200.000 x1.000 matrix.
Udregn egenværdier og egenvektorer for denne.
Se på størrelsen af egenværdierne. Her er to af dem betydeligt større end de andre.
De to tilhørende egenvektorer PC1 og PC2 giver en plan i det 200.000 dimensionale rum. Landkortet viser projektionen af de 1000 datapunkter ind på denne plan. Man har derefter farvet datapunkterne efter personernes oprindelsesland. Og drejet det lidt, så det ligner et sædvanligt landkorts nord-syd og øst-vest orientering. De store farvede cirkler er middelværdier. Eksempelvis er den turkise, der står DK i, middelværdi for alle datapunkter fra Danmark.

Det illustrerer, at afstanden mellem de genetiske markører i meget høj grad kan forklares med geografisk afstand. Bemærk, at den Iberiske halvø (Spanien og Portugal) ligger lidt upræcist. Det skyldes, at afstanden ikke måles direkte på en globus. Det er en rejseruteafstand – den genetiske afstand afhænger af, hvor langt man tidligere typisk har rejst for at finde sin partner. De lille kort viser, at man i Schweiz har fundet partner blandt dem, der talte samme sprog.

Man kan også undersøge forholdet mellem geografiske og genetiske afstande på andre måder. Mikkel (fra vores eget institut) har undersøgt noget tilsvarende for Y-kromosomer (som kun mænd har), dog ikke vha. PCA men vha. en såkaldt modelbaseret klyngeanalyse. Her ses resultatet: