Metaanalyse

 

(= M.) [engl. meta-analysis; gr. μετά (meta) zwischen-, mit-, um-, nach-; hier i. S. von nachgeordnet; gr. ἀνάλυσις (analysis) Auflösung, i. S. von systematische Untersuchung eines Gegenstands durch Bestimmung der Einzelteile], [FSE], ist eine besondere und populäre Form der Übersichtsarbeit (Forschungssynthese, Literaturreview), die darauf ausgerichtet ist, die Erkenntnisse und Forschungsergebnisse aus unterschiedlichen (Primär-)Studien zu einem best. Thema unter Verwendung stat. Verfahren zu integrieren. M. werden in der Ps. oftmals zur summarischen Zusammenfassung von empirischen Wirksamkeitsevaluationen von Interventionen (z. B. Psychoth., Förderprogramme; Evidenzbasierung) eingesetzt, können aber prinzipiell zur Zusammenfassung von Ergebnissen empirischer Studien aller Art (z. B. Korrelationsstudien) durchgeführt werden. M. unterscheiden sich von sog. narrativen Literaturreviews durch die standardisierte Zusammenfassung von Studienergebnissen mittels Effektgrößenberechnung, durch die eine Vergleichbarkeit und Aggregierung großer Datenmengen möglich wird. Sie dienen dem Zweck, einen Überblick zur bisherigen Befundlage zu erstellen und auftretende Unterschiede in den Ergebnissen aus inhaltsgleichen Studien aufzuklären. Zugleich wird angenommen, dass M. eine höhere Validität und Generalisierbarkeit der Ergebnisse im Vergleich zu Einzelstudien aufweisen.

M. folgen einer festgelegten Durchführungssystematik (Borenstein et al., 2009; Cooper, 2010; Cooper et al., 2009; Lipsey & Wilson, 2001). Zunächst müssen (1) die Fragestellung expliziert und die darin enthaltenen Konstrukte def. werden, um einheitliche Auswahl- oder Selektionskriterien für den relevanten Studienpool zu spezifizieren. Auf dieser Basis findet (2) eine umfassende und zumeist unterschiedliche Strategien umfassende Literatursuche statt, wobei der Anspruch besteht, i. R. der Selektionskriterien alle verfügbare Evidenz zus.zutragen. Anschließend werden (3) die identifizierten Untersuchungen ausgewertet, indem inhaltliche und meth. Studienmerkmalen kodiert und die Studienergebnisse durch die Berechnung einheitlicher Effektgrößen vergleichbar gemacht werden. Dazu werden zumeist die Effektstärke d (Cohens d; in der Interventionsforschung als standardisierte Mittelwertsdifferenz zw. zwei Gruppen), die Pearson-Produkt-Moment-Korrelation r oder Odds Ratio (z. B. Verteilung von Heilungschancen zweier Gruppen) aus deskriptiven und inferenzstatistischen Primärstudienparametern berechnet. Es folgt (4) die stat. Integration der Effektgrößen über alle Primärstudien und die Berechnung von Zusammenhängen zw. Studienmerkmalen und Studienergebnissen. Abschließend werden (5) die metaanalytischen Ergebnisse, die angewandten metaanalytischen Methoden sowie auch die einbezogenen Primärstudien detailliert dokumentiert.

M. wurden (unter diesem Namen) erstmals 1977 zur Evaluation psychoth. Maßnahmen eingesetzt (Smith & Glass, 1977). Sie werden seitdem in großer Anzahl vor allem in der Ps., Med. und empirischen Sozialforschung publiziert. Seit ihren ersten Anwendungen wurden insbes. die stat. Integrationsverfahren verfeinert und erweitert. Die wichtigsten Veränderungen betreffen die Entwicklung elaborierterer stat. Modelle zur Integration der Effektgrößen und Schätzung von Populationseffektstärken, die u. a. die Berücksichtigung der Stichprobengröße der Einzeluntersuchungen oder Möglichkeiten der Korrektur nach versch. meth. Einflussgrößen (z. B. Reliabilität der Messinstrumente) vorsehen. Damit einhergehend steht neben der Berechnung der allg. mittleren Effektgröße mittlerweile die Aufklärung der Effektstärkenvariabilität durch inhaltliche und meth. Moderatoren (Studienmerkmale) durch nachgeschaltete stat. Verfahren (z. B. Meta-Varianz- oder Meta-Regressionsanalysen) im Vordergrund der Auswertungen. Je nach stat. Homogenität oder Heterogenität der Befunde der integrierten Studien werden dazu unterschiedliche Integrationsmodelle (z. B. fixed vs. random effect models) verwendet.

Bereits mit den ersten Anwendungen wurden auch versch. Probleme der M. diskutiert, die v. a. konzeptionelle Fragen von Forschungszusammenfassungen betrafen. (1) So wurde vor einer in sozial- und verhaltenswiss. Forschungsfeldern zumeist großen inhaltlichen Heterogenität der zus.gefassten Studien gewarnt, die eine gemeinsame Auswertung der Befunde wenig angemessen erscheinen lässt (umgangssprachlich auch als Äpfel-Birnen-Problem bez.). Die Primärstudienauswahl sollte daher vor dem Hintergrund weitreichender Kenntnisse in einem Forschungsfeld geschehen, damit die Formulierung von Ein- und Ausschlusskriterien möglichst theoriegeleitet und mit Bezug auf aktuelle Forschungsfragen erfolgt. Eine gewisse inhaltliche Heterogenität der Studien wird i. d. R. allerdings angestrebt, um best. Effektmoderatoren überhaupt untersuchen zu können. (2) Es wurde eingewandt, dass die zus.fassenden Ergebnisse schweren Verzerrungen unterliegen, wenn Primärstudien geringer meth. Qualität bei der Befundintegration mitberücksichtigt werden. In M. wird daher schon bei der Studienauswahl i. d. R. eine meth. Mindestqualität verlangt (z. B. Kontrollgruppendesign bei Interventionsstudien). Darüber hinaus ist es i. R. der stat. Analysen möglich, Korrekturen anhand meth. Variablen vorzunehmen oder die Studienergebnisse nach meth. Merkmalen auszuwerten, um mögliche Verzerrungen darzulegen. (3) Ein weiterer Einwand betrifft sog. Publikationsverzerrungen (publication bias). Damit ist die i. d. R. höhere Publikationswahrscheinlichkeit hypothesenkonformer Ergebnisse gemeint, die eine Ergebniszusammenfassung entspr. verzerrt. Zur Überprüfung von Publikationsverzerrungen in M. wird zumeist ein sog. Funnel-Plot durchgeführt und die Stichprobengröße mit den Studienergebnissen in Beziehung gesetzt. Fehlen best. Gruppen von Studien (vorzugsweise kleine Studien mit geringen Effektgrößen) wird auf Publikationsverzerrungen geschlossen und nachfolgend eine stat. Korrektur vorgeschlagen. Diese Korrekturverfahren sind allerdings problematisch, weil z. B. in der Interventionsforschung auch ungünstige Implementationsbedingungen in großen Studien für eine Verzerrung verantwortlich gemacht werden können. Zur Kompensation von Publikationsverzerrungen wird daher die Berücksichtigung unpublizierter grauer Literatur als notwendig erachtet (s. auch Fail-Safe-N-Methode). (4) Ein letzter Kritikpunkt betrifft die Konfundierung zw. inhaltlichen und/oder meth. Merkmalen der Einzelstudien, die dazu führt, dass Effektmoderatoren nicht unabhängig untersucht werden können. Dieses Problem ist in nahezu allen M. gegeben, weil sich wiss. Studien i. d. R. aufeinander beziehen und best. Kombinationen von Studienmerkmalen aus inhaltlichen Gründen nicht gleich wahrscheinlich sind. Eine Berücksichtigung dieser Konfundierungen bei der Datenanalyse und Interpretation ist daher unerlässlich, stößt aber an ihre Grenzen, wenn die Zahl potenzieller Moderatoren groß und die Zahl der Primärstudien relativ gering ist. In diesen Fällen ist u. U. von der Anwendung einer M. abzuraten und ggf. andere Formen des Literaturreviews zu präferieren.

Referenzen und vertiefende Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.