Von einem aufmerksamen Leser dieses Blogs wurde ich auf einen möglichen Skandal hingewiesen: Ein 2023 erschienener Artikel im renommierten Journal „Nature Human Behaviour“ – einem „Ableger“ der berühmten Fachzeitschrift „Nature“ – wurde gerade zurückgezogen (ein peinliches Ereignis, sowohl für die Autoren wie auch für die Editoren), weil begründete Zweifel an den dort gemachten Aussagen bestehen.
Worum geht es? Angefangen hat es mit einer Veröffentlichung der „Open science foundation“ (OSF) im Jahr 2015. in diesem Artikel haben Brian Nosek und einige hundert andere Autorinnen un Autoren in einer groß angelegten Forschungskollaboration Replikationen von 100 experimentellen und korrelationalen Studien vorgenommen, die in drei Top-Psychologiezeitschriften veröffentlicht waren. Mit hocheffizienten Designs (vor allem: mit großer Power, d.h. vor allem große Stichproben) und mit Originalmaterial (soweit verfügbar) wurde versucht, die seinerzeitig signifikanten Effekte zu replizieren.
Das Ergebnis war ernüchternd und eine Bestätigung der zuvor ausgerufenen Reproduzierbarkeitskrise: Die Replikationseffekte waren nur halb so groß wie die ursprünglichen Effekte, was einen erheblichen Rückgang darstellt. 97% Prozent der Originalstudien hatten statistisch signifikante Ergebnisse, aber nur 36% der Replikationen hatten statistisch signifikante Ergebnisse; 47% der ursprünglichen Effektgrößen lagen im 95%-Konfidenzintervall der Replikationseffektgröße; 39% der Effekte wurden subjektiv als Replikation des ursprünglichen Ergebnisses bewertet. Wenn man davon ausgeht, dass es keine Verzerrungen bei den Originalergebnissen gibt, verbleiben bei der Kombination von Original- und Replikationsergebnissen 68% mit statistisch signifikanten Effekten. Korrelationstests legen nahe, dass der Replikationserfolg besser vorhergesagt wurde durch die Stärke der Originalnachweise als durch andere Eigenschaften der Original- und Replikationsteams.
Die Erschütterung über diese Befunde war groß – eine der Konsequenzen war die Schaffung erhöhter Transparenz. Die Notwendigkeit der Prä-Registrierung (dh. Festlegen der Erwartungen vor Durchführung und Auswertung einer Untersuchung, damit nicht hinterher – im Licht der Befunde – gesagt werden kann, genau dieses gefundene Ergebnis habe man erwartet) wurde gefordert, die Open Science Bewegung nahm Fahrt auf. Fachgesellschaften wie die DGPs setzten Arbeitsgruppen ein und gaben Erklärungen heraus (hier die der DGPs).
In dem jetzt wegen methodischer Mängel zurückgezogenen Beitrag von Protzko et al. (2023; unter den 17 Ko-Autoren sind prominente Kollegen aus angesehenen Unis wie Berkeley, McGill, Stanford – und eben auch Brian Nosek, der OSF-Chef) heisst es u.a.: „When one lab attempted to replicate an effect discovered by another lab, the effect size in the replications was 97% that in the original study. This high replication rate justifies confidence in rigour-enhancing methods to increase the replicability of new discoveries.“ Auf deutsch: „Wenn ein Labor versuchte, einen von einem anderen Labor entdeckten Effekt zu replizieren, lag die Effektgröße bei den Replikationen bei 97% derjenigen wie in der ursprünglichen Studie. Diese hohe Replikationsrate rechtfertigt das Vertrauen in rigorosere Methoden zur Verbesserung der Reproduzierbarkeit neuer Entdeckungen.“ Die Zeitschrift „Nature“ schrieb 2023 in einem Leitartikel (Link): „What reproducibility crisis? New research protocol yields ultra-high replication rate – Four groups in the field of experimental psychology successfully replicate each other’s work by following best practices.“ Damit schienen die „Best Practice“-Methoden der open science Bewegung als Heilmittel in der Krise bestätigt zu sein – jedenfalls bis zu dem Moment, an dem Bak-Coleman & Devezer (2024) ihre methodischen Bedenken an dieser Studie vortrugen, die dann sehr schnell zu Retraktion des besagten Protzko et al.-Papers führten.
Die Kritik von Bar-Coleman & Devezer in aller Kürze: „Unfortunately, the observational design of the study does not support its key causal claim. Instead, inference relies on a post hoc comparison of a tenuous metric of replicability to past research that relied on incommensurable metrics and sampling frames.“
Was hat das alles zu bedeuten? Nun, Fehler sind wohl gemacht worden. Sie wurden aufgedeckt und eingestanden, der Artikel von Protzko et al. musste zurückgezogen werden. Bedeutet das eine Schwächung der Open Science Bewegung? Ich denke nein. Nach wie vor begrüße ich alle Formen von Transparenz! Allerdings bedeutet es: Man sollte keine Forderung aufstellen, an die man sich nicht selber hält. Also etwas mehr Demut? Einfach neue Prozeduren zu fordern reicht nicht aus – ich habe schon von Fällen gehört, wo die Prä-Registrierung post-hoc nach Dateninspektion vorgenommen wurde.
Was mir nicht gefällt: Allein die Praxis, keine Open Science Kriterien zu erfüllen, gilt heutzutage vielen schon als moralisch verwerflich. Dieser erhobene Zeigefinger sollte nicht darüber hinweg täuschen, dass das Einhalten bestimmter Formalien noch keine gute Wissenschaft ausmacht. Was wir brauchen, ist ein klarer Ethos der Wissenschaftler und Wissenschaftlerinnen. Diesen Ethos guter wissenschaftlicher Praxis müssen wir Ältere vorleben. Da hilft kein Leitfaden und keine Erklärung, dass bestimmte Standards eingehalten wurden. Mit dem Abhaken von Checklisten entsteht noch keine gute Wissenschaft.
ein paar Links zum Vertiefen (in chronologischer Folge):
der beanstandete Beitrag von Protzko et al. 2023: https://www.nature.com/articles/s41562-023-01749-9
Nature-Loblied zur Reproduzierbarkeit 2023: https://www.nature.com/articles/d41586-023-03486-5
der Aufdecker-Beitrag von Bak-Coleman & Devezer 2024: https://doi.org/10.1038/s41562-024-01982-w (hier der frei zugängliche Pre-Print: https://osf.io/preprints/psyarxiv/5u3kj)
Ein Kommentar von Nature zur „retraction note“ (mit dem bemerkenswerten Statement „the Editors no longer have confidence in the reliability of the findings and conclusions reported in this article“: https://www.science.org/content/article/we-are-embarrassed-scientific-rigor-proponents-retract-paper-benefits-scientific-rigor
Andrew Gelman hat am 26.9.2024 wie schon oft sachkundig und pointiert zugleich kommentiert: https://statmodeling.stat.columbia.edu/2024/09/26/whats-the-story-behind-that-paper-by-the-center-for-open-science-team-that-just-got-retracted/
Keine Antworten