Replikationskrise

 

[engl. replication crisis; lat. replicare wiederholen], [FSE]. Publizierte psychol. Forschungsbefunde können seltener in Nachfolge- bzw. Replikationsstudien bestätigt werden, als dies bei angemessener Forschungs- und Publikationspraxis zu erwarten wäre. So fand die Open Science Collaboration (2015), dass lediglich 36% bis 68% der publizierten Befunde unabh. repliziert werden können. Als Ursachen werden insbes. bewusste Daten- bzw. Ergebnisfälschung sowie der nicht angemessene Umgang mit den Praktiken der fachgerechten Hypothesenprüfungen und des Berichts stat. signifikanter Befunde angesehen (Signifikanztest). Während jede bewusste Fälschungspraxis einen groben Verstoß gegen die Forschungsethik darstellt, sind Mängel im Bericht von signifikanten Befunden z. T. auch auf Unkenntnis der Prinzipien seriöser Studienpraxis zurückzuführen. Daten- und Ergebnisfälschung ist als das weitaus seltenere Problem anzusehen (< 2%; Fanelli, 2009).

Grundsätzlich stellt die Prüfung der stat. Signifikanz ein zentrales Mittel dar, um die Replizierbarkeit von Befunden sicherzustellen: Nur Befunde, die mit hinreichender Sicherheit nicht mit der Annahme eines Zufallsbefundes (Nullhypothese) kompatibel sind (i. d. R.: Wahrscheinlichkeit p ≤ .05), werden als bestätigt akzeptiert. Dies setzt insbes. voraus, dass die Hypothesen vor Kenntnis der zur Prüfung verwendeten Studiendaten formuliert wurden, und die Signifikanz bzw. Nicht-Signifikanz der Befunde unabhängig von der Tatsache, ob die Alternativhypothese als bestätigt gelten kann (signifikanter Befund), berichtet werden. Unseriöse Forschungspraktiken, die den Bericht von Befunden selektiv auf hypothesenkompatible p-Werte (p Schubladenproblem), werden unter dem Begriff P-hacking [engl. hacking eindringen, Code knacken] zus.gefasst. John et al. (2012) benennen als fragwürdige Forschungspraktiken [engl. Questionable Research Practices (QROP)], die zu verfälschten bzw. unzureichend dokumentierten p-Wert-Angaben führen können: Unvollst. Angabe der abhängigen Maße und aller Studienbedingungen; nicht vorgesehene geplante zusätzliche Datenerhebung oder Abbruch der Datenerhebung nach erster Prüfung der Signifikanz; Rundung von p-Werten; Selektion hypothesenkonformer Befunde; hypothesenkonformer Ausschluss von Daten; Darstellung von A-posteriori-Befunden, als seien diese apriori vermutet worden [engl. Hypothesizing After the Results are Known, HARKing];  bewusste Verneinung der Robustheit der Befunde in Abhängigkeit von Drittvariablen, obwohl dies nicht zutrifft. Hierdurch entsteht ein verfälschtes Bild der empirisch nachweisbaren Tatsachen (forscherbedingter publication bias), die zu systematisch abgeschwächten bzw. unerwartet instabilen Effekten in Replikationsstudien führen (decline effect [engl.] Abnahmeeffekt, Schooler, 2011; Problem der Falsch-Positiven-Psychologie; Nelson & Simonsohn, 2011). Aber auch auf Ebene der Publikationsorgane kann nachgewiesen werden, dass signifikante Befunde unzulässigerweise eine erhöhte Publikationswahrscheinlichkeit besitzen (Peer-Review; reviewbedingter Publication Bias).

Open Science-Standards sind geeignet, die Replizierbarkeit psychol. Forschungsbefunde zu verbessern. Insbes. die Präregistrierung von Studien ist ein wirksames Instrument, um die Publikation von Befunden unabhängig von der Ergebnislage zu gewährleisten. Für Replikationsstudien wurden spez. Qualitätsstandards entwickelt.

Referenzen und vertiefende Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.