Integre Wissenschaft?

Seit ein paar Tagen bin ich wieder einmal verunsichert – ein renommierter Sozialpsychologe, Jens Förster (Universität Amsterdam, UvA), soll nach Erkenntnissen der nationalen Ethikkommission LOWI (=Landelijk Orgaan voor Wetenschappelijke Integriteit) drei Arbeiten veröffentlicht haben, die überzufällig lineare Befundmuster enthielten und deswegen zurückgezogen werden sollten (die Untersuchungskommission der UvA war zunächst in ihrer Prüfung zu einem Unbedenklichkeitsurteil gekommen).

Der der Datenmanipulation Verdächtigte bestreitet in seiner Stellungnahme vom 30.4.14 jede Fälschungsabsicht, kann (oder will) aber auch keine Erklärung für das extrem unwahrscheinliche Datenmuster liefern. Seine mit 5 Millionen Euro dotierte Alexander von Humboldt-Professur an der RUB Bochum, die demnächst beginnen und dort ein bundesweit einzigartiges „Zentrum für Selbst-Regulation“ aufbauen sollte, wird zunächst einmal ausgesetzt, um den Vorwürfen in Ruhe nachzugehen.

Worum geht es? Seine Forschung ist im Kontext zu globaler und lokaler Informationsverarbeitung angesiedelt: sehen wir bevorzugt den Wald (global) oder die Bäume (lokal)? Globale Verarbeitung fördert Kreativität, lokale Verarbeitung begünstigt analytische Denkaufgaben. In seinen Experimenten hat er sehr starke (und vor allem perfekt lineare) Effekte bei dem qualitativ gestuften Faktor „Informationsverarbeitung“ gefunden und diese aussergewöhnlichen starken Befunde höchstklassig publizieren können – das war der Anlass, der die Nachprüfungen durch einen Methodiker in Gang gesetzt hatte.

Wie können wir integre Wissenschaft betreiben? Vielleicht sollten wir nicht nur spektakuläre Effekte in den Journals publizieren, sondern einfach das, was die Daten eben hergeben (wenn sie valide sind, also gut und sorgfältig erhoben wurden) – und das sind vielfach die schwächeren und nicht die stärkeren Effekte! In meiner Arbeitsgruppe wird ebenfalls zu den Effekten globaler versus lokaler Informationsverarbeitung gearbeitet, allerdings sind bei uns die Effekte wesentlich kleiner und „reichen“ nicht zu einer Publikation in einem der hochwertigen Journals.

Dass es nach den jüngsten Datenfälschungen von Diederik Stapel (2011 suspendierter Professor der Sozialpsychologie an der Universität Tilburg) und Dirk Smeesters (bis Juni 2012 Professor für Marketing an der Erasmus-Universität Rotterdam) weitere Fälle geben könnte, stand zu erwarten. Dass es gerade in der holländischen Wissenschaft wiederholt auftritt, mag auf den ersten Blick verwundern – auf den zweiten Blick weniger. Holland hat das System leistungsbezogener Mittelvergabe durch „Performance Agreements“ (siehe zum Beispiel Uni Amsterdam) sehr kultiviert. Bei uns ist die leistungsorientierte Mittelvergabe weniger einflussreich, da wir einfach kein Geld dafür haben (die Anreize sind sehr bescheiden – vielleicht ein Glück?).

Anreizgesteuerte Wissenschaft hat eben ihre Schattenseiten. Wenn Daten in Experimenten und Untersuchungen fabrikmäßig produziert und nur selektiv publiziert werden (von 100 wiederholten Experimenten sind bei einer Irrtumswahrscheinlichkeit von Alpha=.05 einfach 5 per Zufall signifikant), geht der Sinn wissenschaftlicher Arbeit verloren – den Produktionsleitern (ich nenne sie nicht gerne Wissenschaftler) scheint es vor allem darum zu gehen, ihre Theorie, ihren Namen und ihre Karriere voranzutreiben. Unser Wissenschaftssystem folgt ja inzwischen der Devise „the more the better“ – in diesem Wettbewerb um Top-Positionen ist Marketing zu einem wichtigen Teil wissenschaftlicher Arbeit geworden und begünstigt so ein Vorgehen. Die großen Unis haben inzwischen alle professionelle Marketing-Strategien etabliert – auch die Uni HD hat eine inzwischen große Abteilung „Kommunikation und Marketing„.

Das Qualitätskontrolle über peer-reviewing reicht offensichtlich nicht aus, um solche Fälle zu verhindern – das „Committee on Publication Ethics“ (COPE) gibt eine Reihe weitergehender Empfehlungen und sog. Best Practice Guidelines an, die Autoren wie Editoren bei ihren Entscheidungen (z.B. über Urheberschaft, Recht der Datennutzung etc.) helfen sollen. Die Selbstkorrektur-Möglichkeiten einer Wissenschaft sind begrenzt, die Kontrollen unzureichend.

In einem kürzlich veröffentlichten Beitrag unter dem Titel „The Rules of the Game Called Psychological Science“ schreiben Bakker, van Dijk und Wicherts (2012, p. 543): „If science were a game, winning would entail writing the most interesting publications by gathering many p values below .05.“ Bei diesem Spiel um möglichst viele und möglichst hochwertig publizierte Artikel sollte es allerdings fair zugehen – dies bedeutet: Gewinnausschüttungen sollten nicht dahin gehen, wo die zitierte Regel befolgt wird, sondern wo gute und solide Forschung betrieben wird. Zur Erinnerung: John Ridley Stroop (Entdecker des Stroop-Effekts) hat in seiner ganzen akademischen Karriere nur 4 Paper publiziert – nur eines davon enthielt eine tolle Idee, die jedoch bis heute nachwirkt!

Betrug und Fälschung in der Wissenschaft kommen immer wieder vor – hier hilft m.E. nur radikale Transparenz bis auf die Ebene der Rohdaten. Die in anderen Experimentalwissenschaften verbindlichen Laborbücher sind ebenso Bestandteil nachprüfbarer Wissenschaft wie die freie Zugänglichmachung von Untersuchungsmethoden und Daten aus wissenschaftlichen Veröffentlichungen zum Zweck der Replikation und auch der Nachprüfung.

Es gibt Stimmen, die ein Ende des „Publish or perish“ fordern (siehe den Beitrag von Brianne Kent) – es wird einfach immens viel geschrieben, so dass zum Lesen kaum noch Zeit bleibt. In einem aktuellen Beitrag für „Forschung & Lehre“ (2014, Jg. 21, S. 341) macht der Ökonom Clemens Albrecht deutlich, was das heisst: ein zufällig ausgewählter Artikel enthält im Literaturverzeichnis 81 zitierte Titel mit insgesamt 3241 Seiten als Referenz. Im Selbstversuch braucht er als Lesezeit für einen Artikel mit 28 Textseiten 78 Minuten voller Konzentration, für alle zitierten Referenzen beliefe sich das auf ca. 150 Stunden Lektüre.

Seine These heisst Inflation: „Wir sind Chinesen und überschwemmen die Märkte mit billigen Texten. Die Umweltkosten sind hoch: die Fortschrittsfähigkeit unserer Disziplinen steht auf dem Spiel“. Er spricht von „Publikationsstrategien …, die jenseits der Grenze zum unsittlichen Verhalten liegen. Das ist nicht das Ergebnis eines wunderbaren Wachstums der Wissenschaft, sondern nicht-intendierte Folge einer Bewertungspraxis, die auf quantitative Faktoren setzt“.

Dass in einem derartigen System Missbrauchsgefahren liegen, dokumentieren die holländischen Vorgänge, die auch in anderen Ländern möglich sind. Aufklärung und Schulung könnte helfen – die Ethik wissenschaftlichen Arbeitens sollte zu einem Pflichtgegenstand akademischer Lehre werden und nicht nur Blockkurs am Samstag nachmittag sein! Wir sollten auch aus schlechten Erfahrungen lernen und versuchen, gute wissenschaftliche Praktiken bereits im Bachelor-Studiengang zu vermitteln.

siehe auch meinen Blog-Beitrag von 2012: Zur Reproduzierbarkeit psychologischer Forschung

Nachtrag 12.5.14: In einer neuerlichen Stellungnahme beschreibt Jens Förster seine Sicht der Dinge. Er räumt ein, dass ihm jemand anderes manipulierte Daten untergeschoben haben könnte. Da er mit starken Effekten gerechnet habe (und auch nur mit solchen arbeiten wolle), seien ihm diese nicht verdächtig vorgekommen; auch die Linearität der Daten sei ihm (wie auch anderen) nicht aufgefallen. Drei Punkte aus diesem neuen Schreiben, über die ich gestolpert bin und die mich stutzen lassen:

(a) “If the data did not confirm the hypothesis, I talked to people in the lab about what needs to be done next, which would typically involve brainstorming about what needs to be changed, implementing the changes, preparing the new study and re-running it.” Dies klingt sehr nach confirmation bias beim Hypothesentesten!

(b) „120 participants were typically invited for a session of 2 hours that could include up to 15 different experiments (some of them obviously very short, others longer). This gives you 120 X 15 = 1800 participants. If you only need 60 participants this doubles the number of studies.“ Diese fabrikartige Datenerhebung (er nennt diese Anordnung „experimental battery“ und sagt, davon habe er etwa 30 [!] in Bremen laufen gelassen…) birgt natürlich verschiedenste Gefahren.

(c) „I do not report the number of participants who failed to complete the study, not only because of journals’ space limitations, but also because I do not find this information informative: when you exclude extreme cases, for example, it could be informative to write what would the results look like had they been not excluded. But you simply have nothing to say about incomplete data.“ Hier wird der Informationsgehalt durch experimentelle Mortalität unterschätzt. Gerade bei den umfangreichen „batteries“ wäre dies ja ganz interessant, an welchen Stellen es den Pbn zu viel wird. Ausserdem: „random sampling“ ist das nicht mehr! Und zum Stichwort „journals’ space limitations“: In den ab 1.6.2014 gültigen „JESP Editorial Guidelines“ (Matthias: danke für den Hinweis) heisst es sehr schön „Don’t suppress, supplement“! Wir lernen dazu!

Zur Erinnerung auch noch mal Daniel Kahnemans Forderung nach mehr Replikationen: http://www.decisionsciencenews.com/2012/10/05/kahneman-on-the-storm-of-doubts-surrounding-social-priming-research/

Noch eine Re-Analyse von Förster & Denzler (2012) auf datacolada.org: fake-data-colada

Nachtrag 4.6.14: Es sind weitere Erklärungen abgegeben worden (Dank an Jochen Musch für die Hinweise):

a) ein Vorwurf geäußert in „Science Magazin“ über unklare Angaben zu Zeitpunkten der Experimente: http://www.sciencemag.org/content/344/6187/957.full (Achtung: paywall!)

b) Eine Stellungnahme der Methodenabteilung der UvA  (Denny Borsboom, Han van der Maas, Eric-Jan Wagenmakers): http://osc.centerforopenscience.org/2014/05/29/forster-case/

c) Eine unabhängige Datenanalyse der Förster & Denzel-Daten: http://blogs.discovermagazine.com/neuroskeptic/2014/05/28/explaining-jens-data/#.U4wz5nYixv5

d) Eine Erwiderung von Jens Förster über Unklarheiten der Zeitpunkte: http://retractionwatch.com/2014/06/02/forster-on-defense-again-this-time-weighing-in-on-timeline-controversy/

Nachtrag 23.7.14: Rolf Degen berichtet über die Entscheidung der Ruhr-Uni Bochum, Jens Förster ab 1.7.14 auf einer Professur für Sozialpsychologie zu beschäftigen: https://plus.google.com/101046916407340625977/posts/1pKwsaLKA1G

Kategorien:

Archive
Kategorien