Uniavisen
Københavns Universitet
Uafhængig af ledelsen

Videnskab

Sensationsjagt og luskede metoder: »Det var en illustration af alt det, der var galt i psykologiens verden«

Videnskab — Uniavisen tager tilbage til dengang – for ikke særlig længe siden – hvor god forskningsskik måtte vige for jagten på vilde forskningsresultater. Indtil et forsøg, der for ti år siden viste, at telepati fandtes i virkeligheden, fik forskere til at sætte spørgsmålstegn ved deres egne metoder.

Psykologiprofessor Ingo Zettler slår med en virtuel terning. Et stort, rødt femtal popper op på hans skærm. En ny side indlæses, og han bliver spurgt, om han har slået seks. Lyver han og svarer ja, får han flere penge for at deltage i det forsøg, som terningekastøvelsen er en del af. Ingen holder øje med, hvad han faktisk har slået, forsikrer hjemmesiden ham.

Spillet på hans skærm viser tydeligt, hvor meget adfærdseksperimenter har forandret sig på få år. Tusindvis af personer laver hans forsøg hjemmefra og resultaterne bliver automatisk indsamlet, så han let kan få overblik over dem på sin computer – og forsøgene viser et særligt mønster.

»Vi kan for eksempel se, at mænd er mere tilbøjelige til at snyde end kvinder i den her slags forsøg,« fortæller professoren.

Det store forsøg om snyd så helt anderledes for få år siden. Da Ingo Zettler lavede en række tilsvarende forsøg i starten af 2010’erne, var der ikke tusindvis af deltagere over nettet. Dengang skulle de i stedet forbi et lille forsøgslokale, hvor der kun var plads til 12 forsøgspersoner ad gangen. Ikke ligefrem de bedste vilkår for et forsøg i stor skala – og det bar antallet af forsøgspersoner i et af forsøgene også præg af: 88 deltagere.

Dengang blev der ikke set skævt til antallet. Men det ville der blive i dag, for på få år er standarden hævet massivt, fortæller han.

»Jeg ville ikke lave det samme forsøg i dag. Nu arbejder jeg i en helt anden skala, hvor vi har flere tusinde deltagere – og det er også, fordi kravene er helt anderledes.«

Han peger på, at det i dag i højere grad er et krav, at forskere skal have store grupper af forsøgspersoner, og at de skal nedskrive deres metoder på forhånd, så de ikke undervejs kan ændre dem i jagten på et særligt resultat.

Udviklingen startede i 2010’erne, da forskere gjorde en række chokerende opdagelser, der dannede grundlaget for den såkaldte ’replikationskrise’.

Det videnskabelige ideal er, at et forsøg med de samme metoder og faktorer bør skabe det samme resultat. Særligt inden for samfundsvidenskaben er det dog svært at skabe de selvsamme omstændigheder, fordi den menneskelige adfærd er omskiftelig.

Ikke desto mindre var det bekymrende, da man gentog en række af de største adfærdseksperimenter, og der skete det, der helst ikke måtte ske: Resultaterne viste noget helt andet end de oprindelige forsøg.

Replikationskrisen vender vi tilbage til. Først dykker vi ned i det forsøg, der gjorde den videnskabelige verden klar over, at meget kan bevises videnskabeligt, hvis man ser stort på det, der sidenhen er blevet almen forskningspraksis.

Telepatiske kræfter

Allerede da Ingo Zettler startede sin forskningskarriere i 00’erne, havde mange en mistanke om, at der var noget galt med den videnskabelige grundighed. Men hvor slemt det egentlig stod til, blev først for alvor klart i 2011, da et prestigefyldt tidsskrift publicerede artiklen ”Feeling the Future”  af den anerkendte psykolog Daryl Bem. Her mente Cornell-professoren gennem ni eksperimenter at kunne sandsynliggøre, at noget så mystisk som telepatiske kræfter faktisk eksisterer.

I et af eksperimenterne blev forsøgspersonerne præsenteret for to gardiner på en computerskærm – bag det ene gardin var et erotisk billede, mens der bag det andet var en tom væg. Var der ikke telepatiske kræfter på spil, skulle man tro, at de ville gætte, hvor det tilfældigt placerede billede var halvdelen af gangene. Men hen over hundrede sessioner viste det sig, at forsøgspersonerne udpegede de erotiske billeder 53,1 procent af gangene.

Effekten kan lyde lille, men den blev efter tidens metodiske krav set som overbevisende, og den opsigtsvækkende artikel blev publiceret i et ledende tidsskrift.

Vilde forskningsprojekter om telepati var udkommet før, men typisk i små, mindre prestigefyldte tidsskrifter. Den her gang var der tale om en anerkendt professor med anerkendte metoder i et stort tidsskrift.

Artiklen blev modtaget med en blanding af grin og forbavselse, husker Ingo Zettler.

»Inden for to dage skrev alle, jeg kendte mails til hinanden, hvor vi diskuterede, hvor latterligt det var. Det betød også, at vi begyndte at sætte spørgsmålstegn ved, om kravene til vores metoder var høje nok.«

På den måde blev artiklen startskuddet til den store diskussion om replikationskrisen, der kom de følgende år, mener han.

»Det var en virkelig god illustration af alt det, der var galt i psykologiens verden. Det var i et højt respekteret tidsskrift, og forsøget var lavet af en virkelig anerkendt forsker – hvis det her kunne ske der, så kunne det ske allevegne.«

Forskningen havde længe gået en balancegang mellem nye og spektakulære fund og mere robuste metoder. Og nu var balancen for alvor tippet, og forskere blev de næste år mere og mere opmærksomme på det problem, de stod med.

Et udbredt problem

Også Anna Dreber Almenberg, der er økonomiprofessor ved Stockholm School of Economics, husker den farverige artikel om telepati, hvis resultater endnu ikke har kunnet genskabes. Den blev endnu et skridt på vejen for hendes erkendelse om, at hendes egne tidligere metoder ikke var gode nok.

Hun havde på det tidspunkt i en årrække arbejdet med økonomiske eksperimenter, der målte folks risikovillighed. Hun lavede selv et forsøg, der tilsyneladende viste en sammenhæng mellem bestemte gener og forsøgspersoners risikovillighed. Men i dag stoler hun ikke længere på det resultat.

»Det gik gradvist op for mig, at de metoder, jeg havde stolet på, slet ikke var tilstrækkelige. I stedet for de hundrede personer, jeg selv havde brugt i nogle forsøg, ville jeg måske skulle bruge 100.000 for at sige noget klart og overbevisende.«

Erkendelsen fik professoren til at rette sit fokus mod replikationsstudier, og hun blev en del af holdet bag en skelsættende artikel, der blev publiceret i toptidsskriftet Science i 2015. Her genskabte Anna Dreber Almenberg og 269 andre psykologer hundrede forskellige eksperimenter fra de mest prestigefyldte psykologiske tidsskrifter for at teste, om de holdt vand.

Resultatet var overraskende for mange. Kun fire ud af ti af resultaterne viste det samme som de oprindelige forsøg – resten havde enten uklare resultater eller kunne klart afvises. Lige så opsigtsvækkende var det, at der blandt de 40 procent forsøg, der genskabte resultaterne, var en svagere effekt end i de oprindelige forsøg.

 

Gode gæt

I forlængelse af den første artikel, lavede Anna Dreber Almenberg et forsøg, hvor hun bad forskere om at kigge på de hundrede oprindelige forsøg, hun havde været med til at genskabe, og vædde om, hvilke forsøgsresultater som, der ikke holdte vand. Noget som forskerne viste til at være gode til.

»De var signifikant bedre end tilfældige gæt. Det tyder på, at der er noget systematisk, der kan udpeges i de her forsøg, som forskerne er gode til at finde,« fortæller hun.

Christina Gravert, der er lektor i Økonomi på Københavns Universitet og som har specialiseret sig i økonomiske eksperimenter, var en af forskerne, der blev bedt om at vædde i forsøget.

»Jeg tjente faktisk en del penge på mine gæt i forsøget. Jeg tror, at det var 700 dollars,« griner hun.

Det var klart for hende, hvad hun skulle lede efter, når hun skulle vædde på, om et eksperiments resultat ville kunne genskabes.

Hun så særligt på statistiske faktorer som antallet af forsøgspersoner og hvor statistisk signifikante forsøgene var.

Og statistikken er der god grund til at se på. En grund til, at så mange misvisende resultater publiceres, er nemlig den såkaldte p-hacking – en række statistiske teknikker til at få resultater til at fremstå mere signifikante, end de reelt er.

Forskere kan for eksempel stoppe med at indsamle ny data i det øjeblik, deres resultater bliver signifikante. En spørgeskemaundersøgelse fra 2012 blandt 2.000 psykologer tyder på, at det dengang var en udbredt teknik – for her indrømmede omkring en femtedel, at de havde prøvet at stoppe dataindsamlingen, når de havde fået det resultat, de håbede på.

En anden forklaring på de misvisende resultater er det dengang udbredte problem med et lavt antal forsøgspersoner, der statistisk set oftere vil give et upålideligt udsving i resultaterne. Kombineret med den såkaldte publikationsbias – at forsøg sjældent bliver skrevet og publiceret, hvis de ikke viser en det ønskede resultat – betyder det, at de statistiske udslag, der bekræfter effekter, fylder mere i tidsskrifterne.

Men Christina Gravert så også på andet end statistik, når hun skulle vædde. Intuitionen var også afgørende, fortæller hun.

»Jeg gjorde noget så simpelt som at se på hypotesen og spørge mig selv, om det overhovedet giver mening. Hvis det går imod, hvad der ellers er af forskning eller forestillinger, så skal der i hvert fald virkelig stærke statistiske beviser til.«

Bedre i dag

Der er sket en stor udvikling siden 2015, beroliger Anna Dreber Almenberg. Da undersøgelsen, der viste problemets omfang, kom ud dengang, var der stadig folk, der holdt fast i, at der ikke var noget problem. Dem er der ikke mange af tilbage – og derfor er kravene til forsøgs robusthed også blevet meget større, mener hun.

»Hvis nogen lavede et stort replikationsprojekt i dag, ville succesraten være meget højere – særligt inden for psykologi, hvor de virkelig har taget problemerne alvorligt.«

Den vurdering er Ingo Zettler enig i.

»Jeg tror, at vi har løst mange af de problemer, vi tidligere havde – og vi bliver ved med at rykke i den rigtige retning. Heldigvis bliver vi også presset af de yngre generationer. Jeg ville slet ikke kunne forestille mig, at man kunne have et hold med ph.d.-studerende og postdocs, hvor man kunne slippe afsted med det som mange slap afsted med dengang. De ville stille kritiske spørgsmål til det.«

Alligevel mener han ikke, at tiden er kommet til helt at afblæse snakken om replikationskrisen.

»Størstedelen af artiklerne har ikke den slags problemer længere, men der er altid plads til forbedringer – særligt inden for grene af psykologien, hvor det er svært at finde mange forsøgspersoner.«

Han peger samtidig på, at der også en dag kan blive sat spørgsmålstegn ved de udbredte metoder, man bruger i dag.

»Nu er jeg selv gået fra at bruge 88 forsøgspersoner til flere tusinde, som er en god udvikling, jeg og mange andre har været igennem. Men så laver vi til gengæld også i højere grad forsøgene over nettet – og det kan måske kritiseres om nogle år. For er folk online repræsentative og opfører de sig anderledes end offline?«

 

Seneste