Reproducibility Project publiziert Ergebnisse

Über Reproduzierbarkeit psychologischer Forschung war hier schon mal geschrieben worden (siehe Blog-Eintrag vom November 2012). Nun hat die Open Science Collaboration (eine international zusammengesetzte Gruppe von 270 Forscherinnen und Forschern, angeführt von Brian Nosek) in einem gerade erschienenen Science-Artikel die Ergebnisse der ersten 100 abgeschlossenen Replikationen berichtet (allesamt mit großer Power; hier Link zum Artikel). Die Arbeiten dazu wurden 2011 gestartet und bezogen die Befunde aus mehr als 120 beteiligten Instituten, darunter 17 deutsche, mit ein. Die Ergebnisse dieser riesigen Studie lauten in der Zusammenfassung:

„Reproducibility is a defining feature of science, but the extent to which it characterizes current research is unknown. We conducted replications of 100 experimental and correlational studies published in three psychology journals using high-powered designs and original materials when available. Replication effects were half the magnitude of original effects, representing a substantial decline. Ninety-seven percent of original studies had statistically significant results. Thirty-six percent of replications had statistically significant results; 47% of original effect sizes were in the 95% confidence interval of the replication effect size; 39% of effects were subjectively rated to have replicated the original result; and if no bias in original results is assumed, combining original and replication results left 68% with statistically significant effects. Correlational tests suggest that replication success was better predicted by the strength of original evidence than by characteristics of the original and replication teams.“

Mit anderen Worten: gut 1/3 der untersuchten Studien (ca. 40%) ließen sich gut replizieren, allerdings mit nur etwa der Hälfte der ursprünglich berichteten Effektstärken.

Wie ist das Ergebnis dieser phantastischen und aufwändigen Arbeit zu bewerten? Verlieren wir im Angesicht schlechter Replikationen an Ansehen? Ich denke nicht – ganz im Gegenteil: die Publikation zeigt ja gerade, dass wir uns mit dem Problem auseinandersetzen und dabei Lösungsmöglichkeiten erkunden. Ausserdem trennen wir Spreu und Weizen. Der schlechte Befund gibt weiteren Anstoss, über bisherige Praktiken der Forschungsanreize wie auch über unsere Publikationspraxis ganz allgemein nachzudenken und gegenzusteuern.

Das von der Gruppe verfolgte Konzept möglichst exakter Replikationen („replications maintained high fidelity to the original designs“, in Abstimmung mit den Originalautoren) ist unter dem gewählten Blickwinkel der Reproduzierbarkeit von Ergebnissen natürlich nur eine Perspektive. Aus Sicht der Theoretischen Psychologie ist die konzeptuelle Replikation natürlich viel spannender: bleibt ein gefundener Gedächtniseffekt auch dann noch stabil bestehen, wenn ich die Wortlisten der Ursprungsstudie nicht exakt, sondern nur dem Sinn nach verwende (z.B. positiv getönte Wörter im Vergleich zu negativ getönten).

Die konzeptuelle Replikation verläßt das Niveau der konkreten Versuchsanordnung und generalisiert bzw. abstrahiert auf hinter den Operationalisierungen stehende Konzepte. Bestätigen sich bei derartigen Replikationen die Studienergebnisse, gewinnt man Boden unter den Füßen, weil man sich von den konkreten Untersuchungselementen frei macht und damit weniger abhängig ist von Zufälligkeiten bei der Itemauswahl. Was in einer konzeptuellen funktioniert und was nicht, ist m.E. für die Theoriebildung weiterführender als die Aussage, ob eine exakte Replikation gelingt oder nicht.

Die Präsidentin der Deutschen Gesellschaft für Psychologie (DGPS), Prof. Dr. Andrea Abele-Brehm, hat in einer Mail an alle Mitglieder die Studie begrüßt: „Die DGPs begrüßt die Durchführung der internationalen Replikationsstudie. Die Untersuchung zeigt, dass die Psychologie der Stabilität ihrer Befunde einen hohen Stellenwert beimisst und damit ein Beispiel für andere Wissenschaften gibt.“ Zugleich betont sie die Kontextsensitivität psychologischer Forschung infolge kulturellem Hintergrund, Alter, Geschlecht oder Bildungsstand der Versuchsteilnehmenden: „Diese Kontextabhängigkeit ist kein Zeichen von fehlender Replizierbarkeit, sondern vielmehr ein Zeichen für die Komplexität psychologischer Phänomene und Prozesse. Nichtsdestotrotz mag es unter den in Science untersuchten Effekten auch einige geben, die sich nicht replizieren lassen (sogenannte ‚Falsch Positive‘). Aber auch das ist Anlass für weitere konstruktive Forschung.“ (In einem Diskussionsforum kann übrigens über die Stellungnahme der DGPs diskutiert werden).

Die Resonanz des Artikels ist hoch und fällt naturgemäß gemischt aus. Im R-Index Blog von Ulrich Schimmack ist ein interessanter Kommentar, der die Replikationsergebnisse nochmal nach Teilbereichen differenziert. Er bringt die spezifischen Replikationsergebnisse von Kognitiver Psychologie (besser) und Sozialpsychologie (schlechter) in Zusammenhang  mit der jeweils präferierten Verwendung von Within-Subjects- bzw. Between-Subjects-Designs. Schimmacks Analyse zeigt im übrigen, dass man nach Teilbereichen der Psychologie differenzieren muss und dass insbesondere die sozialpsychologischen Journals nicht genug Strenge haben walten lassen. Seine etwas radikale Schlussfolgerung („The main implication of this finding is that it is virtually impossible to trust any results that are being published in social psychology journals.“) ist sicher übertrieben, aber warnt uns vor der Gefahr, wenn Herausgeber und Gutachter zu sehr auf „sexy Inhalte“ und zu wenig auf statistische Power achten.

PS: Gefreut habe ich mich über zwei Details mit Heidelberger Bezug: (1) Eine der Ko-Autorinnen (Rima-Maria Rihal) ist eine unserer Absolventinnen – toll, Rima, dass Sie da mitgemacht haben! (2) Eine der überprüften Arbeiten ist von Klaus Fiedler („The ultimate sampling dilemma in experience-based decision making“, 2008, JEP:LMC) – mit tadellosem Ergebnis! Hatten wir nicht anders erwartet!

Link zu einem Kommentar von Lisa Feldman Barrett: http://www.nytimes.com/2015/09/01/opinion/psychology-is-not-in-crisis.html?_r=0

Kategorien:

Archive
Kategorien