Kennzeichen guter Wissenschaft ist, dass Erkenntnisse nicht auf zufälligen Ereignissen basieren, sondern systematische und stabile Zusammenhänge beschreiben. Zu dem Zweck stützt man sich in der Naturwissenschaft auf die Wiederholbarkeit (Reproduzierbarkeit) von Ergebnissen. In der experimentellen Forschung wird dies typischerweise dadurch geleistet, dass Experimente von unabhängigen Forschern repliziert werden.
Leider gibt es mit der Replikation in der naturwissenschaftlich orientierten Psychologie ein Problem: sie findet kaum noch statt! Im ausnahmsweise frei zugänglichen, sehr lesenswerten November-Heft 2012 der Zeitschrift Perspectives on Psychological Science ist ein Beitrag von Makel, Plucker und Hegarty, der die wohl umfassendste Datenquelle zu diesem Thema darstellt. Die Autoren haben die hundert Impact-stärksten Psychologie-Zeitschriften bis ins Jahr 1900 rückverfolgt und nach Replikationen durchforstet. Die schlechte Nachricht zuerst: der Anteil von Replikationen unter allen Publikationen liegt bei 1%! Die gute Nachricht: Betrachtet man nur die letzten 10 Jahre, hat er sich verdoppelt! Aber die Erhöhung von 1% auf 2% ist kein wirklicher Grund zur Freude, liegen wir damit noch immer meilenweit entfernt von der Replikationsrate fortschrittlicher Wissenschaftsdisziplinen wie der Physik (natürlich gibt es auch noch weitere Disziplinen, die wie wir nicht oder nur minimal replizieren: Wirtschaftswissenschaften oder Medizin, um nur zwei zu nennen). Und noch ein Befund: etwa die Hälfte der Replikationen ist von den gleichen Autoren durchgeführt worden, die den Erst-Befund berichtet haben – kein Wunder, dass in diesen Fällen 92% der Replikationen erfolgreich waren! Wenn die Replikationen tatsächlich unabhängig vorgenommen wurden, sank die Bestätigungs-Quote auf gut 60%.
John Ioannidis beschreibt (so zitiert in diesem Blog) eine der Ursachen dieses Problems wie folgt: „While currently there is unilateral emphasis on ‚first‘ discoveries, there should be as much emphasis on replication of discoveries.“ Die erste Person zu sein, die ein Phänomen entdeckt, ist natürlich eine reizvollere Vorstellung als die zu sein, die ein schon bekanntes Phänomen bestätigt. Die Suche nach Neuem wird über die Suche nach der Wahrheit gestellt.
Ob es wirklich zu einer neuen Kategorie „pathological scientist“ in DSM-V kommen wird, wird von Gullo und O’Gorman im Themenheft diskutiert. Hier die Beschreibung des Störungsbildes: “persistent and recurrent publishing of confirmatory findings (Criterion A) combined with a callous disregard for null results (Criterion B) that produces a ‚good story‘ (Criterion C), leading to marked distress in neo-Popperians (Criterion D).” Angeblich haben Neurowissenschaftler bei von der Störung betroffenen Wissenschaftlern im Scanner starke Aktivierung in deren Belohnungszentrum gefunden, wenn hohe p-Werte präsentiert wurden 🙂
Scherz beiseite: Die Suche nach dem spektakulären und neuen Befund treibt natürlich auch Zeitschriftenherausgeber bei ihrer Entscheidung, ob ein Manuskript angenommen oder zurückgewiesen wird. Dahinter stehen Leserinnen und Leser, die eine Zeitschrift natürlich vor allem deswegen studieren, weil sie neue Ideen hören und nicht „altes“ Wissen bestätigt sehen wollen. Also auch hier Mechanismen, die für Replikationen ein schlechtes Umfeld schaffen. Brauchen wir so etwas wie ein „Journal of Replications“? Hat es 1979 tatsächlich als Antwort auf die damalige Krise (ja, es gab bereits 1970 ähnliche Diskussionen!) gegeben, wurde aber bereits 1983 wieder eingestellt…
Das Filedrawer-Problem (auch unter dem Namen „publication bias“ bekannt) war damals ebenfalls schon diskutiert: viele nicht signifikante Untersuchungen verschwinden in der Schublade, obwohl sie natürlich Erkenntniswert besitzen – aber veröffentlicht werden vor allem die signifikanten Ergebnisse (siehe auch http://www.psychfiledrawer.org/). So ergibt sich eine Abbildung der Wirklichkeit in den Journalen, die erheblich verzerrt ist. Das ist im übrigen nicht die einzige Verzerrung, der wir unterliegen: Henrich, Heine und Norenzayan (2010) haben uns Psychologen vorgehalten, „the weirdest people in the world“ als Stichprobe zu verwenden – gemeint sind „Western, Educated, Industrialized, Rich, and Democratic (WEIRD) societies“, von denen wir auf die gesamte Menschheit generalisieren. Aber das ist eine andere Baustelle … Für die Veröffentlichung nichtsignifikanter Befunde gibt es tatsächlich Outlets – gerade gefunden: „Journal of Articles in Support of the Null Hypothesis„; siehe auch in Nachbarsisziplinen: „Journal of Negative Results in Biomedicine“ oder „Journal of Negative Results in ecology and evolutionary biology„.
Zurück zu unseren bevorzugten Signifikanzjagden. Hilft es nicht, wenn wir noch strenger den Alpha-Fehler kontrollieren? Im genannten Themenheft machen Klaus Fiedler, Florian Kutzner und Joachim Krueger deutlich, dass nicht nur die „false positives“ uns Probleme bereiten, sondern erst recht die „false negatives“. Diese Ungleichgewichtung von Alpha- und Beta-Fehler hat damit zu tun, dass Alpha-Fehler (die „false positives“) natürlich weitere Forschung stimulieren, die idealerweise irgendwann die irrtümliche Befundlage korrigieren hilft. Der Beta-Fehler wiegt nach Meinung der Autoren schlimmer: fälschlich als nicht-signifikant ausgewiesene Hypothesen werden nicht mehr untersucht und bieten daher geringere Chancen zur Fehlerkorrektur. Das ist übrigens einer der Gründe, warum ich mich seit vielen Jahren für den Einsatz der Poweranalyse stark mache und den Einsatz der Freeware „G-Power“ propagiere, die nicht nur den Alpha-Fehler, sondern auch den Beta-Fehler mit in die statistische Analyse einbezieht.
Was sind andere Lösungsvorschläge? Die Idee, Qualifikationsarbeiten von Studierenden zur Erhöhung der Replikationsrate zu verwenden, ist auf den ersten Blick reizvoll – bei genauerem Hinsehen wird damit aber auch ausgesagt, dass Replikationen keine wertvollen Arbeiten sind, die zudem von Anfängern gemacht werden können. Das ist eine indirekte Abwertung, mal ganz abgesehen davon, dass es vielleicht doch nicht ganz so einfach ist…
Was sicher interessant ist: das „Reproducibility Project“ (im Open Science Framework: http://openscienceframework.org/project/EZcUj/) – ein Zusammenschluss von >50 Wissenschaftlern unter dem Label „Open Science Collaboration“, die alle Experimente, die im Jahr 2008 in drei wichtigen Zeitschriften („Journal of Personality and Social Psychology“, „Psychological Science“, und „Journal of Experimental Psychology: Learning, Memory, and Cognition“) veröffentlicht wurden, exakt so replizieren wollen wie sie veröffentlicht wurden, um eine Abschätzung der Verlässlichkeit publizierter Befunde zu erhalten.
Dabei wird sich möglicherweise das Problem ergeben, dass die publizierten Angaben gar nicht ausreichend differenziert sind, um eine präzise Replikation vornehmen zu können. In den frühen Publikationen des 19. Jahrhunderts war das anders: dort wurden nicht nur exakte Instruktionen, sondern auch Rohdaten publiziert. Erstaunlich, dass wir in Zeiten des Internet diese Kultur noch nicht wieder erreicht haben. Das Open Science Framework bietet sich hierfür an.
siehe auch:
– Ed Yong, 16.5.2012, in Nature: Replication studies: Bad copy. In the wake of high-profile controversies, psychologists are facing up to problems with replication.
– Ed Yong, 3.10.2012, in Nature: Nobel laureate challenges psychologists to clean up their act. Social-priming research needs “daisy chain” of replication.
– Ed Yong, 8.11.2012, in Nature: Psychologists do some soul-searching
– 30.10.2012, Hardest Science Blog: Psychological Science to publish direct replications (maybe)
und ganz zum Schluss zum Schmunzeln: die Neun Kreise der wissenschaftlichen Hölle
Nachtrag 3.6.2014
In einem gerade erschienenen von Nosek und Lakens herausgegebenen Themenheft der „Social Psychology“ ist ein Beitrag von Klein et al. (2014) enthalten (doi:10.1027/1864-9335/a000178), der 13 bekannte Experimente der Sozialpsychologie repliziert. Hier das Abstract: „Although replication is a central tenet of science, direct replications are rare in psychology. This research tested variation in the replicability of 13 classic and contemporary effects across 36 independent samples totaling 6,344 participants. In the aggregate, 10 effects replicated consistently. One effect – imagined contact reducing prejudice – showed weak support for replicability. And two effects – flag priming influencing conservatism and currency priming influencing system justification – did not replicate. We compared whether the conditions such as lab versus online or US versus international sample predicted effect magnitudes. By and large they did not. The results of this small sample of effects suggest that replicability is more dependent on the effect itself than on the sample and setting used to investigate the effect.“
Eine andere Konsequenz nicht gelungener Replikationen: Simone Schnall (Cambridge University) schreibt in ihrem Blog über „replication bullying„, also den Nachteilen, die den Autoren entstehen, deren Effekte nicht bestätigt werden können. Jim Coan spricht in seinem Blog gar von der „negative psychology„, die durch das erzeugte Misstrauen entstehe. Und Nobelpreisträger Daniel Kahneman hat eine Replikations-Netiquette verfasst!
siehe auch den Kommentar von JP de Ruiter zu Kahnemans Netiquette: The etiquette of train wreck prevention
Nachtrag 5.9.2014: siehe auch die Stellungnahme des „Weissen Hauses“ http://retractionwatch.com/2014/09/05/white-house-takes-notice-of-reproducibility-in-science-and-wants-your-opinion/