Ops! Dopo tutto, nessuna "crisi di replicabilità" nella scienza psicologica

Quando hai un progetto di ricerca - l'Open Science Collaboration (OSC) - che include 270 scienziati che lavorano su scoperte scientifiche, speri che abbiano corretto alcune delle basi. Come progettare uno studio randomizzato che fosse metodologicamente valido e in grado di resistere al controllo dei colleghi.

Ma l'innovativo articolo pubblicato nell'agosto 2015 da 44 ricercatori, "Stimare la riproducibilità della scienza psicologica" (Nosek et al., 2015) sembra aver avuto alcuni difetti significativi. Un nuovo articolo suggerisce che in realtà non esiste una "crisi di replicabilità" in psicologia, dopotutto.

Quattro ricercatori dell'Università di Harvard e dell'Università della Virginia (Gilbert et al., 2016) hanno pubblicato i loro risultati in Scienza (il loro sito web sulle repliche psicologiche ospita tutti i dati e il materiale). Credono di aver trovato tre principali errori statistici nello studio originale che mettono seriamente in discussione i suoi risultati. I nuovi ricercatori affermano: "In effetti, le prove sono coerenti con la conclusione opposta - che la riproducibilità della scienza psicologica è piuttosto alta e, di fatto, statisticamente indistinguibile dal 100%".

Ops.

Lo studio originale (Nosek et al., 2015) ha cercato di riprodurre i risultati di 100 esperimenti riportati in articoli pubblicati nel 2008 in tre riviste di psicologia di alto livello. La prima critica allo studio è che questa non era una selezione casuale di studi di psicologia. Invece, il gruppo Nosek ha limitato la sua selezione di studi a solo tre riviste che rappresentano due misere discipline della psicologia, tralasciando aree importanti come la psicologia dello sviluppo e clinica. Quindi Nosek et al. impiegava una complessa serie di regole e criteri arbitrari che di fatto squalificavano oltre il 77% degli studi dalle tre riviste esaminate.

La ricerca che inizia con un campione parziale è destinata ad avere problemi. Non iniziando con un campione randomizzato, i ricercatori hanno già contribuito a preparare il terreno per i loro risultati deludenti.

Cambiamo (in modo significativo) gli studi che replichiamo

Ancora peggio che iniziare con un campione parziale e non randomizzato è stato il modo in cui i ricercatori hanno effettivamente condotto le repliche. In primo luogo, i ricercatori hanno invitato "gruppi particolari a replicare studi particolari o hanno permesso ai gruppi di selezionare gli studi che desideravano replicare". Piuttosto che assegnare in modo casuale i ricercatori agli studi da replicare, hanno lasciato che i ricercatori scegliessero, introducendo i pregiudizi di ogni ricercatore, per scegliere forse gli studi che pensavano avessero meno probabilità di essere replicati.

I nuovi studi a volte differivano in modo significativo dai vecchi studi che stavano cercando di replicare. Ecco solo uno (di almeno una dozzina) esempi di come lo studio replicato abbia introdotto complicazioni significative:

In un altro studio, gli studenti bianchi della Stanford University hanno guardato un video di altri quattro studenti di Stanford che discutevano delle politiche di ammissione alla loro università (Crosby, Monin e Richardson, 2008). Tre dei partecipanti erano bianchi e uno era nero. Durante la discussione, uno degli studenti bianchi ha fatto commenti offensivi sull'azione affermativa, ei ricercatori hanno scoperto che gli osservatori hanno guardato significativamente più a lungo lo studente nero quando credevano che potesse sentire i commenti degli altri rispetto a quando non poteva. Sebbene i partecipanti allo studio di replica fossero studenti dell'Università di Amsterdam, hanno guardato lo stesso video di studenti di Stanford che parlavano (in inglese!) Delle politiche di ammissione di Stanford.

Gli studenti di un'università di Amsterdam potevano davvero capire quale fosse l'azione affermativa in America, date le significative differenze culturali tra la società americana e quella di Amsterdam? Sorprendentemente, i ricercatori che hanno condotto la replica hanno affermato che gli studi erano "virtualmente identici" (e, naturalmente, sono prevenuti a dirlo, poiché è loro studia). Eppure i ricercatori originali, riconoscendo le significative differenze culturali nelle due popolazioni, non hanno approvato il nuovo studio di replicazione.

Gilbert e i suoi colleghi hanno riscontrato questo tipo di problema non solo in uno, ma in molti degli studi di replicazione. Sembra strano che Nosek et al. sentivo che questo tipo di incoerenze non avrebbe avuto un impatto sulla qualità dello studio (o "fedeltà", come lo chiamano i ricercatori). Eppure queste sono chiaramente differenze qualitative significative che sicuramente avrebbero un impatto sulla replicabilità dello studio.

Abbiamo bisogno di più potenza!

Uno studio può reggere o cadere nel suo design. E una parte fondamentale del progetto di uno studio di ricerca è la sua energia. Lo studio di replica ha utilizzato un progetto che probabilmente era destinato a fallire sin dall'inizio. I progetti a bassa potenza non possono raccogliere le dimensioni degli effetti che possono fare gli studi di potenza superiore. Scegliendo di utilizzare un design a basso consumo, Nosek e colleghi hanno virtualmente garantito i loro risultati negativi prima di raccogliere un singolo punto dati.

Nosek e colleghi hanno presentato alcuni argomenti di paglia per la scelta del design, che Gilbert et al. abbattuti uno per uno nella loro risposta. La conclusione di Gilbert e dei suoi colleghi?

In sintesi, nessuno degli argomenti avanzati [dai ricercatori sulla replica] contesta il fatto che gli autori del [nuovo studio] abbiano utilizzato un design a bassa potenza e che (come dimostrano le nostre analisi dei dati ML2014) questo probabilmente ha portato a un grossolano sottostima del tasso di replica reale nei dati.

Altri ricercatori di psicologia hanno condotto un esperimento di replica simile nel 2014 (Klein et al., 2014). Utilizzando un progetto ad alta potenza, hanno scoperto che la maggior parte degli studi di psicologia esaminati si sono replicati: 11 esperimenti su 13 sono stati ripetuti. Per testare l'impatto del progetto a bassa potenza di Nosek et al., Gilbert et al. stimava che il tasso di replica dello studio del 2014 sarebbe sceso dall'85% al ​​34%. Una differenza significativa e significativa.

Allora cosa sappiamo veramente sulla riproducibilità della scienza psicologica?

Più di quanto pensassimo. Data la critica di Gilbert et al. E la risposta sdolcinata dei ricercatori originali, sembra più probabile che Nosek et al. lo studio era criticamente imperfetto.

Sembra che la scienza psicologica sia più riproducibile di quanto pensassimo: una buona notizia sia per la scienza che per la psicologia.

Riferimenti

Gilbert, D., King, G., Pettigrew, S. & Wilson, T. (2016). Commento su "Stima della riproducibilità della scienza psicologica". Scienza, 351, 1037a-1037b.

Gilbert et al. (2016). Una risposta alla risposta del nostro commento tecnico su "Stimare la riproducibilità della scienza psicologica".

Klein, RA, Ratliff, M Vianello, RB Adams Jr, Š Bahník, MJ Bernstein, et al. (2014). Indagare sulla variazione della replicabilità: un progetto di replica "Many Labs". Psicologia sociale, 45, 142-152

Nosek et al. E collaborazione scientifica aperta. (2015). Stima della riproducibilità della scienza psicologica. Scienza, 349. DOI: 10.1126 / science.aac4716

Nosek et al. (2016). Risposta al commento su "Stima della riproducibilità della scienza psicologica". Scienza, 351, 1037. DOI: 10.1126 / science.aad9163

!-- GDPR -->