Ups! Nobene "krize ponovljivosti" v psihološki znanosti navsezadnje ni
Toda prelomen članek, ki ga je avgusta 2015 objavilo 44 raziskovalcev z naslovom "Ocenjevanje ponovljivosti psihološke znanosti" (Nosek in sod., 2015), je imel nekaj pomembnih napak. Nov članek nakazuje, da v psihologiji dejansko sploh ni "krize ponovljivosti".
Štirje raziskovalci z univerze Harvard in Univerze v Virginiji (Gilbert et al., 2016) so svoje ugotovitve objavili v Znanost (na njihovem spletnem mestu za kopiranje psihologije so vsi podatki in gradivo). Prepričani so, da so v prvotni študiji odkrili tri večje statistične napake, ki resno postavljajo pod vprašaj njene ugotovitve. Novi raziskovalci trdijo: "Dejansko so dokazi v skladu z nasprotnim zaključkom - da je obnovljivost psihološke znanosti dokaj visoka in se dejansko statistično ne razlikuje od 100%."
Ups.
Prvotna študija (Nosek in sod., 2015) je poskušala reproducirati ugotovitve iz 100 poskusov, objavljenih v prispevkih, objavljenih leta 2008 v treh visoko rangiranih revijah za psihologijo. Prva kritika študije je, da to ni bil naključen izbor psiholoških študij. Namesto tega je skupina Nosek omejila svoj izbor študij na samo tri revije, ki predstavljajo pičli dve disciplini psihologije, pri čemer so izpustili glavna področja, kot sta razvojna in klinična psihologija. Nato Nosek in sod. uporabil zapleten nabor samovoljnih pravil in meril, ki so dejansko diskvalificirali več kot 77 odstotkov študij iz treh revij, ki so jih pregledali.
Raziskave, ki se začnejo s pristranskim vzorcem, bodo gotovo imele težave. Ker raziskovalci niso začeli z naključnim vzorcem, so že pomagali pripraviti podlago za svoje razočarajoče ugotovitve.
Spremenimo (pomembno) študije, ki jih podvajamo
Še slabše kot začeti s pristranskim, nerandomiziranim vzorcem je bilo, kako so raziskovalci dejansko izvedli ponovitve. Najprej so raziskovalci povabili "določene ekipe, da ponovijo določene študije, ali pa so skupinam dovolile, da izberejo študije, ki jih želijo ponoviti." Namesto da bi raziskovalce naključno dodelili študijam, ki jih je treba ponoviti, jim pustijo, da izberejo - pri čemer vnesejo pristranskost vsakega raziskovalca, da bi morda izbrali študije, za katere so mislili, da bodo najmanj verjetno ponovljene.
Nove študije so se včasih bistveno razlikovale od starih študij, ki so jih poskušali ponoviti. Tu je le en (od vsaj ducata) primerov, kako je ponovljena študija povzročila pomembne zaplete:
V drugi študiji so si študentje White na univerzi Stanford ogledali video posnetek štirih drugih študentov Stanforda, ki razpravljajo o sprejemni politiki na svoji univerzi (Crosby, Monin in Richardson, 2008). Trije razpravljavci so bili belci, eden pa črnec. Med razpravo je eden izmed belih študentov žaljivo komentiral pritrdilno ukrepanje, raziskovalci pa so ugotovili, da so opazovalci bistveno dlje gledali črnega študenta, ko so verjeli, da lahko sliši pripombe drugih, kot pa, ko ni mogel. Čeprav so bili udeleženci študije replikacije študenti univerze v Amsterdamu, so si ogledali isti videoposnetek študentov Stanforda, ki so govorili (v angleščini!) O sprejemni politiki Stanforda.
Bi lahko študentje na amsterdamski univerzi resnično razumeli, kakšna je bila pozitivna akcija v Ameriki, glede na pomembne kulturne razlike med ameriško in amsterdamsko družbo? Presenetljivo je, da so raziskovalci, ki so izvedli replikacijo, rekli, da so bile študije "tako rekoč enake" (in seveda so pristranski do tega, ker je njihovi študij). Vendar prvotni raziskovalci, ki so priznali pomembne kulturne razlike v obeh populacijah, niso podprli nove študije replikacije.
Gilbert in njegovi kolegi so tovrstne težave našli ne le v eni, temveč v številnih študijah replikacije. Zdi se čudno, da Nosek in sod. menili, da tovrstne nedoslednosti ne bi vplivale na kakovost študije (ali "zvestobe", kot pravijo raziskovalci). A očitno gre za pomembne kvalitativne razlike, ki bi zagotovo vplivale na ponovljivost študije.
Potrebujemo več moči!
Nosek in sodelavci so podali nekaj argumentov za izbiro oblikovanja, ki so jih Gilbert in sod. ustrelili enega za drugim v njihovem odgovoru. Zaključek Gilberta in njegovih kolegov?
Če povzamemo, noben od argumentov [raziskovalcev replikacije] ne izpodbija dejstva, da so avtorji [nove študije] uporabili zasnovo z nizko močjo in da je (kot dokazujejo naše analize podatkov ML2014) to verjetno povzročilo podcenjevanje dejanske stopnje replikacije v njihovih podatkih.
Drugi raziskovalci psihologije so že leta 2014 izvedli podoben poskus ponovitve (Klein et al., 2014). Z uporabo močne zasnove so ugotovili, da se je večina študij psihologije, ki so jih preučili, ponovila - 11 od 13 ponovljenih poskusov. Da bi preizkusili vpliv nižje zasnovane zasnove Nosek et al., Gilbert et al. ocenil, da bi se stopnja ponovitve študije iz leta 2014 z 85 odstotkov zmanjšala na 34 odstotkov. Pomembna in zgovorna razlika.
Torej, kaj v resnici vemo o ponovljivosti psihološke znanosti?
Bolj kot smo mislili. Glede na kritiko Gilberta in sodelavcev in srhljiv odziv prvotnih raziskovalcev je bolj verjetno, da sta Nosek in sod. študija je bila kritično napačna.
Zdi se, da je psihološka znanost bolj ponovljiva, kot smo mislili - dobra novica tako za znanost kot za psihologijo.
Reference
Gilbert, D., King, G., Pettigrew, S. in Wilson, T. (2016). Komentar o "Ocenjevanju ponovljivosti psihološke znanosti". Znanost, 351, 1037a-1037b.
Gilbert et al. (2016). Odgovor na odgovor našega tehničnega komentarja na temo „Ocenjevanje ponovljivosti psihološke znanosti“.
Klein, RA, Ratliff, M Vianello, RB Adams Jr, Š Bahník, MJ Bernstein, et al. (2014). Raziskovanje razlik v ponovljivosti: projekt replikacije "Many Labs". Socialna psihologija, 45, 142-152
Nosek in sod. & Odprto znanstveno sodelovanje. (2015). Ocena ponovljivosti psihološke znanosti. Znanost, 349. DOI: 10.1126 / science.aac4716
Nosek in sod. (2016). Odgovor na komentar na temo „Ocenjevanje ponovljivosti psihološke znanosti“. Znanost, 351, 1037. DOI: 10.1126 / science.aad9163