Signifikanztest

 

(= St.) [engl. test of significance], syn. stat. St., [FSE], bezeichnet die verbreitetste Form der stat. Überprüfung von Hypothesen im Kontext der quant. Sozialforschung (empirische Sozialforschung). Beim St. wird anhand von Stichprobendaten (Stichprobe; z. B. Mittelwert der Experimental- vs. der Kontrollgruppe; Experiment) eine Entscheidung über die Gültigkeit einer Forschungshypothese in der Population getroffen (z. B. die Merkmalsausprägung in der Experimentalbedingung ist systematisch höher als in der Kontrollbedingung). Somit fällt der stat. St. (Statistische Datenanalyseverfahren) als quant. Datenanalyseverfahren (Datenanalysemethoden) in den Bereich der Inferenzstatistik (Statistik), denn es wird von Stichprobendaten auf Populationsverhältnisse geschlossen. Der klass. St. prüft stets ein Hypothesenpaar bestehend aus der Forschungs-/Alternativhypothese H1, die i. d. R. den erwarteten Populationseffekt postuliert (z. B. H1: μE [Populationserwartungswert in der Experimentalbedingung] > μK [Populationserwartungswert in der Kontrollbedingung]), und einer komplementären Nullhypothese H0, die das Vorliegen des erwarteten Effekts negiert bzw. das Gegenteil behauptet (z. B. H0: μE ≤ μK). Die Logik des klass. St. besteht darin, bei einem Stichprobenergebnis, das unter Annahme der Gültigkeit der H0 sehr unwahrscheinlich (< α)  ist, die Nullhypothese zu verwerfen und stattdessen die Alternativhypothese anzunehmen (signifikantes (= sign.) Ergebnis). Zeigt sich dagegen, dass unter Annahme der Gültigkeit der H0 das gefundene Stichprobenergebnis (oder ein extremeres) recht wahrscheinlich (>= α) ist, so wird die Nullhypothese nicht verworfen, die Alternativh. darf nicht angenommen werden, das Ergebnis gilt als nicht sign.

Der klassische St. ist ein Nullhypothesentest. Es wird ein Wahrscheinlichkeitsmodell theoret. konstruiert, das Auskunft darüber gibt, welche Stichprobenergebnisse mit welcher relativen Häufigkeit zu erwarten wären, wenn in der P. die H0 gelten würde und man theoret. unendlich viele Stichproben zöge (Wahrscheinlichkeit). Dieses Wahrscheinlichkeitsmodell (H0-Modell) wird – unter best. Vorannahmen – mithilfe theoret. Prüfverteilungen (z. B. Normalverteilung, t-Verteilung, F-Verteilung, Chi-Quadrat-Verteilung) konstruiert. Das empir. Stichprobenergebnis wird im Licht des H0-Modells bewertet. Die bedingte Wahrscheinlichkeit des Auftretens des Stichprobenergebnisses oder eines extremeren Ergebnisses unter Annahme der Nullhyopthese wird auch als Irrtumswahrscheinlichkeit p(D|H0) bez. Es hat sich etabliert, mit einem Signifikanzniveau (= S.niveau) von α=5% zu operieren. Will man eine mögliche Fehlentscheidung zugunsten der Alternativhypothese (sog. Fehler erster Art bzw. α-Fehler) erschweren, wird mit einem noch strengeren S.niveau von α=1% oder α=0,1% gearbeitet. Ein sign. Ergebnis, das zur Entscheidung für die Alternativhypothese führt, ist gegeben bei p(D|H0) < α. Die Irrtumswahrscheinlichkeit lässt sich dabei nur mit entspr. Statistiksoftware exakt bestimmen. Beim Rechnen per Hand/Taschenrechner wird stattdessen mit den Werten der austabelliert zur Verfügung stehenden Prüfverteilungen gearbeitet: Dem S.niveau α entspricht dabei ein sog. kritischer Wert (z. B. t_%7Bkrit%7D bei Testung mittels der t-Verteilung), der die extremen α * 100% der Verteilung «abschneidet». Ein sign. Ergebnis liegt vor, wenn gilt: %5Cleft%20|%20Testwert_%7Bemp%7D%20%5Cright%20|%3E%5Cleft%20|%20Testwert_%7Bkrit%7D%20%5Cright%20|. Bei einer gerichteten Hypothese (z. B. H1: μE > μK) wird einseitig auf dem α=5%-Niveau getestet, dabei muss die Richtung des Effekts in der Alternativhypothese festgelegt werden. Bei einer ungerichteten H. (z. B. H1: μE ≠ μK) wird zweiseitig getestet (an beiden Seiten der H0-Verteilung) und somit der eigentlich dem Sn. α/2=2,5% entspr. kritische Wert verwendet.

Da der klass. St. typ.weise mit einer Nil-Nullh. arbeitet, also einer Nullhypothese, die postuliert, dass in der Population überhaupt kein Effekt vorliegt, können – bei großem Stichprobenumfang bzw. hoher Teststärke – prinzipiell auch sehr kleine, praktisch unbedeutende Effekte mit hoher Wahrscheinlichkeit stat. sign. werden. Bei einem sign. Ergebnis (insbes. bei großen Sp.) ist deswegen immer auch die Effektgröße zu betrachten und hinsichtlich ihrer praktischen Bedeutsamkeit inhaltlich zu diskutieren.

Bei einem nicht sign. Ergebnis wird die Alternativhypothese nicht angenommen, gleichzeitig darf aber auch nicht die Nullhypothese als bestätigt gelten. Denn ein nicht sign. Ergebnis kann sowohl zustande kommen, wenn in der Population kein Effekt vorliegt, als auch, wenn Zufallseffekte den Effekt überlagern bzw. der Test aufgrund mangelnder Datenbasis keine genaue Auskunft geben kann. Während die fälschliche Annahme der Alternativhypothese als α-Fehler bzw. Fehler erster Art bez. wird, begeht man bei fälschlicher Beibehaltung der Nullhypothese einen β-Fehler bzw. Fehler zweiter Art. Immer wenn die Nullhypothese angenommen werden soll (Äquivalenzstudie), muss also nicht nur das S.niveau α, sondern vor allem auch das β-Niveau kontrolliert werden. Dies kann nur geschehen, wenn für einen als plausibel angenommenen Populationseffekt die Teststärke ausreichend ist.

Der klass. St. hat sich seit den 1940er-Jahren in der empir. Sozialforschung etabliert, obwohl seit Dekaden grundlegende Kritik an diesem Vorgehen vorgebracht wird. (1) Vereinzelt wird die gesamte Logik des Verfahrens, bei dem anhand bedingter Datenwahrscheinlichkeit Entscheidungen über Hypothesen getroffen werden, als math. inkonsistent abgelehnt. (2) Der konventionalisierte St. stellt eine – oft unreflektierte – Mischung von zwei konträren Vorläufermodellen der H.prüfung dar, nämlich dem St. von Fisher (Fisher, 1925), der lediglich die Wahrschinlichkeit eines solch extremen oder noch extremeren Stichprobenergebnisses unter Annahme der Nullhypothese bestimmt, und dem entscheidungstheoret. Modell von Jerzey Neyman und Egon Pearson (Neyman & Pearson, 1933, sog. Neyman-Pearson-Lemma), bei dem es anhand der Stichprobendaten eine Entscheidung zugunsten der Alternativ- vs. Nullhypothese getroffen wird. Als Alternative zum klass. St. wird auf der Basis dieser Grundsatzkritik u. a. eine Prüfung der Signifikanz (=S.) gemäß Bayes-Statistik empfohlen, die eine direkte Bestimmung der Wahrscheinlichkeit von Hypothesen erlaubt. (3) Misskonzeptionen über die Bedeutung von St. sind weit verbreitet: Insbes. widerspricht die Tendenz, stat. sign. Ergebnisse für besonders wichtig und publikationsfähig zu halten, wissenschaftstheoretisch den Vorgaben des Kritischen Rationalismus, der gemäß Falsifikationsprinzip Erkenntnisfortschritt über die Aussonderung falscher Hypothesen/Theorien definiert, was nur dann möglich wäre, wenn nicht sign. (also hypothesen- bzw. theoriekonträre Befunde) in vollem Umfang publiziert und beachtet würden. Stattdessen ist jedoch ein publication bias zugunsten sign. Effekte zu verzeichnen, der den wiss. Erkenntnisfortschritt behindert, weil Effekte überschätzt werden. (4) Die oft alleinige Betrachtung der S. ist ein verbreiteter Fehler: eine Diskussion der praktischen Bedeutsamkeit von Befunden anhand ihrer Effektgrößen (inkl. Konfidenzintervall) sowie eine Beachtung des Aussagekraft jedes St. anhand seiner Teststärke wird inzw. zunehmend von den wiss. Fachgesellschaften und Fachzeitschriften eingefordert.

Es existieren zahlreiche Arten von St. Für die zu prüfende Forschungsh. ist jeweils der passende St. auszuwählen (Indikationsfrage). Die Auswahl hängt v. a. davon ab, (1) wie viele Variablen zu berücksichtigen sind (z. B. uni-, bi-, multivariate Analysen), (2) welches Skalenniveau die Variablen haben und (3) welcher Stichprobenumfang und welche Verteilungseigenschaften bei den Daten vorliegen (Verteilungsvoraussetzungen sind z. T. mit entsprechenden Voraussetzungstests zu prüfen, z. B. Tests auf Normalverteilung) und (4) ob (a) eine Zusammenhangs- (z. B. Korrelation, Regression), (b) Unterschieds- (zumeist Mittelwertsunterschiede zwischen zwei oder mehr Gruppen: t-Test, Varianzanalyse, Kovarianzanalyse, Allgemeines Lineares Modell (ALM)), (c) Veränderungs- (indiv. Merkmalsveränderungen im Verlauf der Zeit, wobei die Zeit hier den Charakter einer unabhängigen Variable hat; z. B. t-Test für abhängige Stichprobe, Varianzanalyse mit Messwiederholung, Mehrebenenanalyse, Zeitreihenanalyse, Wachstumskurvenmodelle, latente) oder (d) Einzelfallhypothese (Einzelfallexperiment) zu prüfen ist.

Bei der Anwendung und Nutzung klass. St. ist angesichts verbreiteter Misskonzeptionen auf deren korrekte Durchführung und Interpretation bes. zu achten. Das betrifft die Auswahl eines geeigneten Verfahrens im Zuge der Beantwortung der Indikationsfrage sowie das Verständnis der Logik des Verfahrens (Bedeutung von stat. S., Stellenwert von Effektgröße und Teststärke). Eine valide Interpretation des St. muss sich darauf beschränken, dass – mit einer definierten Irrtumsw. – in der Population von einem von 0 versch. Effekt ausgegangen werden kann (sign. Befund) oder nicht (nicht sign. Befund). Hierzu muss der St. in ein explizites, Theorie basiertes Hypothesentestungsschema eingebettet sein. Wichtig ist zudem, dass das S.niveau nur gültig ist, wenn die Hypothese vor Kenntnis der Datenstukturen (a priori) und nicht aufgrund exploratorisch identifizierter auffälliger Datenmuster (a posteriori) formuliert wurden. Es gilt der Grundsatz, dass Hypothesen nicht an denselben Daten valide geprüft werden können, an denen Sie entwickelt wurden. Eine Wahrscheinlichkeitsprüfung im Sinne des St. ist nur begründbar, wenn die Datenstrukturen, die zur Prüfung herangezogen werden, bei Formulierung der Hypothesen nicht bekannt sind. St. sollten ökonomisch eingesetzt werden, um ein aufgrund multipler Testung verringertes nominelles S.niveau (Bonferroni-Korrektur) und falsch pos. Befunde zu vermeiden. Im Kontext der hypothesenprüfenden stat. Datenanalyse ist die Feststellung von S. oder Nichts. allein nicht ausreichend. Vielmehr muss das Ergebnis der stat. Hypothesenprüfung stets inhaltlich mit Blick auf die Theorie interpretiert werden, aus der die Forschungshypothese abgeleitet wurde (Forschungsprozess). Nicht zuletzt sind auch Alternativen zum klass. St. in Erwägung zu ziehen (Statistik).

Referenzen und vertiefende Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.