Løgnedetektorer og screening for sygdomme

I årets valgkamp ville Ekstrabladet have politikere til at underkaste sig en løgnedetektor. Det ville politikerne ikke – og det er der mange gode grunde til. En af dem er, at løgnedetektorer ikke virker. Det er ellers så smart i de amerikanske film, i talkshows og andre steder, at man kan finde “sandheden” med sådan en test. Men det er der ikke noget belæg for. (Nedenstående er en delvis genudsendelse fra Numb3rs-bloggen, men mon ikke, mange har glemt det indlæg…)

I bogen The Lie behind the Lie detector er en lang udredning om problemerne ved løgnedetektorer. Man kunne ellers forestille sig at man ret let kunne lave kontrollerede forsøg, eller undersøge noget af alt det data, man har fra allerede udførte løgnedetektioner, og det har man også gjort, men det giver ikke gode resultater. Problemet er bl.a., at de fysiologiske reaktioner, man måler, også kan komme fra andet, end at man lyver. Og det er meget vanskeligt at skille ad. Og så er vi jo et stykke væk fra noget objektivt. Se også The polygraph and lie detection.
Et andet problem er, at forskellige personer fortolker et løgnedetektorudkrift forskelligt – i en Nature artikel fra 1984 tog man 207 udskrifter fra løgnedetektorer i en stribe senere opklarede sager og fik dem analyseret af 14 andre løgnedetektoreksperter. Det gav dom til 43 % af de uskyldige og frikendelse til 36 % af de skyldige…

Det er selvfølgelig værst, at man risikerer at dømme en uskyldig, men i andre lignende situationer kan både falske positive og falske negative være problematisk. Tester man for en sygdom kan det være lige problematisk at sende raske personer igennem en behandling med bivirkninger som at overse nogen, som er syge.

Hvordan ved man, om en test er god?

En test for en sygdom skal jo finde de syge, men helst ikke udpege for mange raske som værende syge. Lad os sige, man har en positiv test, hvis den viser, man er syg.

Der er et antal falsk positive FP (raske, som tester positivt)

Et antal falsk negative FN (syge med en negativ test)

Et antal sandt positive SP( De syge med positiv test)

Og et antal sandt negative SN (raske med negativ test)

Specificitet er $\frac{SN}{(SN+FP)}$ , andelen af de raske, som tester negativt, altså sandsynligheden for at testen viser, man er rask, givet man er rask, P(testrask|rask).
Sensitiviteten er $\frac{SP}{(SP+FN)}$ , andelen af syge, der tester positivt P(testsyg|syg).

Vi er mere interesserede i “den anden vej”:

Den positivt prædiktive værdi er $\frac{SP}{(SP+FP)}$ , andelen af positivt testede, som rent faktisk er syge, sandsynligheden for at være syg, når testen viser, man er det, P(syg|testsyg).
Eller, man kan se på den negativt prædiktive værdi $\frac{SN}{(SN+FN)}$ , andelen af negativt testede, der rent faktisk er raske P(rask|testrask).
De prædiktive værdier afhænger af, hvor stor en andel af de testede, der er syge, prævalensen. Og ikke kun af sensitivitet og specificitet.

Eksempel: En test har sensitivitet 0,86 og specificitet 0,92

På et hospital henvises folk, som mistænkes for at have sygdommen, til test. På et andet er det en test, der laves på alle. Prævalensen i det første tilfælde er altså højere end i det andet tilfælde.

På Hospital 1 er 37 ud af 49 patienter syge. (Prævalensen er 37/49=0,76)

SP=0,86×37=32,
SN=(49-37)x0,92=11,
FP=12-11=1,
FN=37-32=5.

Specificitet SN/(SN+FP)=11/12=0,92

Sensitivitet SP/(SP+FN)=32/37=0,86

Positiv prædiktiv værdi SP/(SP+FP)=32/33=0,97

Negativ prædiktiv værdi SN/(SN+FN)=11/16=0,69

På Hospital 2 er 37 ud af 157 syge. Prævalens 0,24

SP=32, SN=110, FP=10, FN=5,

Specificitet SN/(SN+FP)=110/120=0,92

Sensitivitet SP/(SP+FN)=32/37=0,86

Positiv prædiktiv værdi SP/(SP+FP)=32/42=0,76

Negativ prædiktiv værdi SN/(SN+FN)=110/115=0,96

Hvis man tester en stor befolkningsgruppe med få syge, vil den negative prædiktive værdi være stor, i.e., hvis man tester negativt, er man med stor sandsynlighed rask. Men dem, der tester positivt vil i mange tilfælde være raske, i.e., sandsynligheden for at være syg givet testen viser syg, er lille. (Tallene er fra How sensitive is sensitivity, how specific is specificity, Phillips, Scott og Blasczcynski, American Journal of Roentgenology. Prøv selv at regne på, hvod der sker, hvis der er 37 syge ud af 12037. Så bliver positiv prædiktiv værdi 0.03 og negativ prædiktiv værdi 0,99. Der er altså rigtig mange blandt dem, der tester positivt, som alligevel er raske – her 97 ud af 100. Det er det, man skal overveje, når man laver store screeninger for sygdomme. Der er flere raske, som skal undersøges yderligere, måske behandles og i hvert fald bliver unødigt bekymrede.

På Understanding Uncertainty er der en fin animation af andre eksempler.

Løgnedetektorer igen.
Lad os nu antage, at de kan finde løgnere med en vis sandsynlighed (det kan de ikke, men alligevel…). Tester man alle, der ansøger om job i FBI, CIA,… og det gør man…vil dem, der ser ud til at lyve, stadig med ret stor sandsynlighed tale sandt. I.e., mange får et stempel som spion, uden at være det. Dem, der udses som ikke værende spioner, er det med ret stor sandsynlighed ikke, men det er mere fordi, der er rigtig mange, der ikke er spioner, end fordi man er god til at finde spioner. Der vil jo stadig være en enkelt spion der slipper ind nu og da.

Vi kan være glade for, at vi ikke bruger metoden til noget seriøst i Danmark og håbe på, det forbliver noget, der hører til pjattede TV-programmer. Så fans af Doctor Phil eller andre populære brugere af løgnedetektorer bør tage det med et gran salt. Udover det helt oplagte, at sårbare mennesker ikke bør være underholdning. Men det er ikke matematik – bare almindelig ordentlighed.