Universitetsavisen
Nørregade 10
1165 København K
Tlf: 21 17 95 65 (man-fre kl. 9-15)
E-mail: uni-avis@adm.ku.dk
—
Videnskab
Statistik — En statistisk størrelse kaldet p-værdien indtager en central rolle ved bedømmelse af forsøgsresultater, men er under stadigt angreb.
Denne artikel er tidligere publiceret på videnskab.dk i deres onlinemagasin ForskerZonen.
En eftermiddag i Sydengland omkring år 1919 skænkede biologen Ronald Fisher en kop te og rakte den til sin kollega frøken Muriel Bristol. Hun afslog med den begrundelse, at hun foretrak te fra en kop, hvor
Da hun insisterede på, at hun kunne smage forskel, foreslog en tredje tilstedeværende ved navn William Roach en blindsmagning. Den blev gennemført, og Roach erklærede begejstret, at Muriel faktisk kunne afgøre, om mælk eller te var kommet i koppen først.
Historien kort
I forskerkredse taler man ofte om p-værdi som en målestok for et eksperiments signifikans eller succes.
Der er flere eksempler på, at forskere har tillagt den vilkårlige p-værdi så stor magt, at de har ændret i deres forskningsmetoder eller analyser.
Fejlen ligger dog ikke hos p-værdien, men i at den ikke længere bliver brugt, som den oprindeligt var tiltænkt.
Han var måske ikke helt objektiv (han blev senere gift med Muriel), og detaljerne omkring Muriels præstation er desværre udokumenterede. Men episoden med teen fik kolossal betydning for praktisk videnskab.
Ronald Fisher var nemlig en stor matematisk begavelse og spillede en central rolle for udviklingen af principper for statistisk behandling af forsøgsresultater, som anvendes flittigt af moderne forskere.
Te-eksperimentet blev udgangspunkt for en berømt gennemgang i Fishers lærebog The Design of Experiments.
Her sagde han: »Antag, at der er otte kopper. I fire af dem er mælken hældt op først, i de sidste fire teen først. De otte kopper præsenteres for Muriel i tilfældig rækkefølge. Hvis hun præcist udpeger de fire kopper, hvor mælken kom i først, kan vi så konkludere, at hun faktisk kan identificere blandingsrækkefølgen?«
Fishers ræsonnement var følgende: Hvad nu, hvis Muriel ikke kan smage forskel, men bare gætter? Under denne antagelse, som Fisher kaldte ‘nulhypotesen’, hvor stor er så sandsynligheden for, at hun – rent tilfældigt – ville udpege de fire rigtige kopper som i forsøget?
Man kan beregne svaret til 1/70 eller knapt halvanden procent. Da denne sandsynlighed er lille, må vi forkaste nulhypotesen om gætteri og anerkende Muriels evner som tesmager.
De halvanden procent kaldes for
Når der er grund til at interessere sig for p-værdien, skyldes det, at beregning af denne størrelse formentlig er den oftest udførte, mest misforståede og heftigst kritiserede procedure overhovedet i moderne eksperimentel forskning. Og udfaldet af p-værdierne har store økonomiske, samfundsmæssige og menneskelige konsekvenser.
[P-værdien er] den oftest udførte, mest misforståede og heftigst kritiserede procedure overhovedet i moderne eksperimentel forskning
Et andet, mere typisk scenario end te-historien, er: Man måler, hvor meget en ny medicin sænker blodtrykket hos en gruppe personer med for højt blodtryk. Samtidigt måler man effekten af en gammelkendt medicin hos en tilsvarende kontrolgruppe. Hvis den nye medicin virker bedst, kan vi så stole på, at det gælder i patientpopulationen generelt?
Nulhypotesen er konservativ og forudsiger, at de to præparater virker lige godt. Alligevel ville man på grund af tilfældig variation kunne se den fundne forskel (eller en endnu mere ekstrem) i forsøget. Men hvis sandsynligheden for dette – p-værdien – er lav, forkastes nulhypotesen, og vi hælder i stedet til, at den nye medicin virker bedst.
Endvidere: Jo lavere p-værdien er, jo mere rimeligt virker det at skifte til den alternative hypotese, altså at den nye medicin virker bedst. Er p-værdien derimod høj, betyder det, at den observerede forskel let kunne være fremkommet tilfældigt, selvom de to præparater reelt er lige gode. I den situation er det fornuftigt at fastholde nulhypotesen om samme effekt.
En fagstatistiker har sammenlignet det med at forveksle spørgsmålet 'Er paven katolik?' (hvor svaret er 'ja') med 'Er en katolik paven?' (hvor svaret er 'næppe').
Men hvor lille skal p-værdien så være, før vi forkaster nulhypotesen? Det er klart, at der ikke er en skarp grænse. Alligevel satte Fisher et skel ved 1/20, altså fem procent. Denne konvention er stadig vidt udbredt, for eksempel inden for lægevidenskab. Er en p-værdi mindre end fem procent, betegnes p-værdien selv – eller forsøgets resultat i det hele taget –’signifikant’.
Problemerne med p-værdien begynder allerede med dens korrekte fortolkning. Fishers hypotetisk-deduktive tankegang er jo ret ligetil, men der er utallige eksempler på misforståelser.
Hvis man finder en kraftigere effekt af den nye medicin med p-værdien fire procent, kan videnskabsjournalister (samt adskillige forskere) let finde på at trække fire fra 100 og konkludere: ‘Forsøget viste, at der er hele 96 procents sandsynlighed for, at den nye medicin virker bedst’.
Men sandsynligheden vedrører ikke direkte den antagelse, at den nye medicin er bedst. Den vedrører den gjorte observation (forskellig virkning i forsøget) under den specielle forudsætning, at virkningen reelt er den samme.
En fagstatistiker har sammenlignet det med at forveksle spørgsmålet ‘Er paven katolik?’ (hvor svaret er ‘ja’) med ‘Er en katolik paven?’ (hvor svaret er ‘næppe’).
Den korrekte konklusion er: »Hvis den nye og gamle medicin virkede lige godt, ville sandsynligheden for tilfældigt at få den forskel i effekt, som er set i forsøget (eller en endnu større forskel), være fire procent.«
En hyppigt fremført kritik er, at der fokuseres for meget på p-værdien i forhold til de mange andre måltal, som kan beskrive forsøgsresultaterne.
Særlig vigtig er selvfølgelig størrelsen af den observerede forsøgseffekt. Virker den nye medicin kun lidt bedre eller meget bedre? Selvom en meget lav p-værdi taler stærkt for, at en ny medicin er bedre, kan forskellen i virkning sagtens være for lille til at have praktisk betydning.
Desuden er en p-værdi under fem procent ingen garanti for forskel i effekt. Så længe p-værdien ikke er ekstremt lav, kunne det fundne resultat stadig være indtruffet tilfældigt, selv om der ikke er reel forskel (p-værdien er jo netop størrelsen af denne risiko).
Denne praksis har stor betydning for en anden problematik, der udspiller sig i forskningsmiljøet: At man ikke udgiver negative forskningsresultater.
Man kan omvendt også risikere at få en p-værdi højere end fem procent og dermed fastholde nulhypotesen om samme virkning af præparaterne, selvom der faktisk grundlæggende er forskel. Årsagen kan være, at forsøgets følsomhed for den alternative hypotese er for lille, fordi der indgår for få forsøgspersoner. Man siger, at forsøget har for lav styrke (power).
Således at overse en bedre behandlingseffekt af ny medicin er selvfølgelig uheldigt. Ligeledes er det stærkt uheldigt, hvis man på grundlag af en ikke-signifikant p-værdi fejlagtigt konkluderer, at det nye præparat ikke har værre bivirkninger end det gamle.
At være opmærksom på disse fejl er selvfølgelig centralt for offentlige styrelser, der skal godkende markedsførelsen af lægemidler. Det er vigtigt at bemærke, at risikoen for at begå dem er et uundgåeligt problem, der følger af selve princippet bag en signifikanstest.
Den konventionelle signifikansgrænse på fem procent har efter manges mening fået urimelig stor betydning, og den er ligefrem blevet kaldt en fetich. Utallige forskere har først forpligtet sig til at anvende fem procent-kriteriet, men derefter til deres fortvivlelse beregnet sig til en højere p-værdi – for eksempel otte procent.
ForskerZonen
Denne artikel er en del af ForskerZonen på Videnskab.dk, som er stedet, hvor forskerne selv kommer direkte til orde. Her skriver de om deres forskning og forskningsfelt, bringer relevant viden ind i den offentlige debat og formidler til et bredt publikum.
Det dømmer dem principielt til at fastholde nulhypotesen, hvilket ofte ses som et uinteressant, negativt resultat, der faktisk også kan spolere chancerne for at få resultaterne offentliggjort. I medicineksemplet ville konklusionen blive, at det nye præparat ikke er bedre end det gamle, hvad der selvfølgelig ellers kan være mange stærke grunde til at ønske.
Forskerne reagerer i denne situation forskelligt. Nogle slår på, at otte procent ikke er så langt fra fem procent og bruger udtryk som ‘nær-signifikant’ eller ‘i realiteten signifikant’. En blogger har oplistet mere end 500 eksempler på lignende opfindsomme formuleringer.
Andre beregner p-værdien igen ud fra andre statistiske modeller (som de måske endda først havde fravalgt) i håb om at komme ned under de fem procent – en tvivlsom praksis betegnet p-hacking. Atter andre forfalder til at sortere i deres data, så de opnår den ønskede signifikans.
Denne praksis har stor betydning for en anden problematik, der udspiller sig i forskningsmiljøet: At man ikke udgiver negative forskningsresultater, selv om det også kan være en stor hjælp for fremtidig forskning.