FN har erklæret idag 20/10-2015 for Verdens Statistikdag. Overskriften er Bedre data, bedre liv. Danmark er ikke på listen over deltagerlande, men derfor kan vi jo godt kippe med flaget her på bloggen.
Når FN fejrer statistik en gang om året, skyldes det, at der træffes bedre beslutninger, når man forstår problemerne. Og det gør man i høj grad via data. Især har man brug for ikke bare en rodebunke med data, men en analyse af data. Og det kan statistikere. Når man skal se, om Verden bliver et bedre sted – er der færre, der sulter, flere, der kommer i skole etc. har man også brug for data. Og skal man følge, om en indsats gør en forskel, er der igen brug for data og analyse af data.
I år har der været en konkurrence om visualisering af data. Det er væsentligt ikke blot at kunne analysere data, men også at præsentere det meningsfyldt og forståeligt for andre. På bloggen Understanding Uncertainty kan man selv lege med visualisering se for eksempel 2845 ways to spin the risk . Der er stor forskel på, om man får at vide, at risikoen for at få kræft er 20% højere, hvis man spiser mange baconsandwiches, eller man får at vide, at den er 5% uden baconsandwichforbrug, men 6% med. Det første er den relative stigning, det andet den absolutte. En anden fin animation er om screening. Man kan lege med dopingtest (den hedder “athletes”), sikkerhedscheck i lufthavne, HIV-test og mere. I alle tilfælde er problemstillingen: Der vil være “falske positive” – nogen, der får positiv dopingtest uden at være dopede, “falske negative” – nogen, som er dopede, men ikke fanges i testen.
En test har en specificitet og en sensitivitet. Specificiteten er andelen af “raske”, som tester raske. Sensitivitet er andelen af de syge, som testes syge. Den positivt prædiktive værdi er andelen af positivt testede, som rent faktisk er syge, sandsynligheden for at være syg, når testen viser, man er det, P(syg|testsyg). Eller, man kan se på den negativt prædiktive værdi andelen af negativt testede, der rent faktisk er raske P(rask|testrask). De prædiktive værdier afhænger af, hvor stor en andel af de testede, der er syge, altså prævalensen. Og ikke kun af sensitivitet og specificitet. Det har jeg skrevet en længere historie om på numb3rsbloggen. Det har betydning for, om man skal teste hele befolkningen eller kun dem, man har en mistanke om er syge.
Statistik er et fantastisk område med både mange og vigtige anvendelser og med spændende forskningsspørgsmål, som måske, måske ikke giver anvendelser.