Statistik

 

(= S.) [engl. statistics; lat. status Zustand, Beschaffenheit, statistica Staatslehre, frz. statistique Staatswissenchaft, Wissenschaft], [FSE], bez. dasjenige Forschungs- und Praxisfeld, das sich mit der Darstellung und Auswertung numerischer empirischer Daten befasst. Aus der Perspektive der Empirischen Sozialforschung wird zw. math. S. (logisch-math. Begründung von stat. Verfahren) und Forschungss. (Anwendung und Weiterentwicklung von stat. Verfahren zur Analyse empirischer Daten) unterschieden. Von der S. im Sinne einer vor allem auf Datenanalysemethoden fokussierten Disziplin abzugrenzen sind weitere Begriffsverwendungen: (1) Als Statistik werden einzelne Kennwerte (z. B. Maße der zentralen Tendenz, Koeffizient) oder die Darstellung einer Merkmalsverteilung (Verteilung; z. B. Übersicht der Angaben zur Mitarbeiterzufriedenheit in einem Unternehmens) bezeichnet. (2) Der S.begriff wird verwendet, um Forschungs- und Praxisfelder zu bezeichnen, die sich mit der Sammlung und Aufbereitung (ggf. großer Mengen) numerischer Daten zu einem best. Themengebiet befassen (z. B. amtliche Hochschuls.: erhebt, analysiert und dokumentiert jew. i. R. rechtlicher Regelungen Hochschuldaten als Basis für politische Entscheidungen; s. Statistisches Bundesamt: [www.destatis.de]).

Im Kontext der Forschungss. erfüllen stat. Methoden vor allem sechs Funktionen für die empirische Sozialforschung:

(1) Entwicklung und Überprüfung von Messinstrumenten: Stat. Berechnung von Gütekriterien wie Reliabilitäts- und Validitätskoeffizienten von psychol. TestsFragebogen oder Beobachtungssystemen (Testtheorie).

(2) Qualitätssteigerung von Datensätzen: Z. B. stat. Imputationsverfahren, um fehlende Werte in einem Datensatz zu schätzen, sowie stat. Gewichtungsverfahren, um fehlende Fälle in einer Stichprobe auszugleichen (Datenqualitätmissing data).

(3) Stichprobenbeschreibung: Systemat. Darstellung der Zusammensetzung untersuchter Stichproben anhand von Stichprobenkennwerten einschlägiger soziodemografischer und sonstiger relevanter Variablen (z. B. Alter, Geschlecht). Die hierfür verwendeten Verfahren werden der Deskriptivstatistik (beschreibenden S.) zugeordnet. Diese fasst die Daten einer Stichprobe anhand von Stichprobenkennwerten (z. B. Maße der zentralen Tendenz; Maße der Dispersion; Häufigkeit; Korrelation) zusammen und stellt diese ggf. in Tabellen und Grafiken (z. B. Linien-, Balken-, Kreisdiagramm, Piktogramm) anschaulich dar. Stichprobenkennwerte werden konventionell mit lat. Buchstaben bezeichnet (z. B. «M» für den Mittelwert der Stichprobe). Die Deskriptivs. erhebt ausdrücklich nicht den Anspruch, Aussagen über die Population zu treffen, aus der die Stichprobe stammt.

(4) Parameterschätzung: Schätzung von Populationsparametern von Variablen anhand von Stichprobenkennwerten. Populationsparameter (Verteilungsparameter) werden konventionell mit gr. Buchstaben bezeichnet (z. B. μ für den P.erwartungswert). Die Verfahren der Parameterschätzung werden der Inferenzstatistik (induktiven S., schließenden S.) zugeordnet, da ein Rückschluss von der Stichprobe auf die Population erfolgt, der sie entstammt. Bei der Parameterschätzung sind die Punktschätzung und die Intervallschätzung (Konfidenzintervall) zu unterscheiden. Parameterschätzungen sind insbes. in der Epidemiologie und in der mit bevölkerungsrepräsentativen Stichproben operierenden Umfrageforschung von Bedeutung (Demoskopie), z. B. um zuverlässige Angaben über Verbreitung und Intensität bestimmter Verhaltens- und Erlebensweisen oder Störungsbilder in der Bevölkerung zu gewinnen. Empirische Studien, deren Erkenntnisinteresse auf die möglichst präzise Schätzung von Populationsparametern gerichtet ist, werden als deskriptiv-populationsbeschreibende Studien bez.

(5) Hypothesenprüfung: Prüfung von vor der Datenerhebung anhand des aktuellen Theorie- und Forschungsstandes aufgestellten Hypothesen über Populationseffekte anhand von Stichprobendaten. Stat. Verfahren der Hypothesenprüfung werden ebenfalls der Inferenzs. zugeordnet und haben in der Forschungspraxis die größte Bedeutung. Denn empir. Studien verfolgen in der quant. Sozialforschung überwiegend ein explanativ-hypothesenprüfendes Erkenntnisinteresse, das sich wissenschaftstheoret. aus dem Kritischer Rationalismus ableitet. Die Wahl des Datenanalyseverfahrens (Statistische Datenanalyseverfahren) erfolgt in Abhängigkeit (a) von der Art der Hypothesen, (b) der Anzahl der Variablen, (c) ihres Skalenniveaus sowie des Stichprobenumfangs und (d) der Verteilungseigenschaften der Daten (z. B. t-Test; Mann-Whitney-U-Test; Varianzanalyse; Regressionsanalyse). Die begründete Auswahl eines passenden Datenanalyseverfahrens wird auch als Indikationsfrage bezeichnet. Ob ein Datensatz die für ein best. Analyseverfahren verlangten stat. Voraussetzungen erfüllt, kann teilweise mit stat. Voraussetzungstests geprüft werden (z. B. Test auf Normalverteilung oder Varianzhomogenität).

Zur Prüfung der stat. Signifikanz stehen  versch. Ansätze der stat. H.prüfung zur Auswahl, die auf unterschiedlichen methodologischen Annahmen basieren: (a) klass. stat. Signifikanztests, (s. a. Äquivalenzstudie), (b) Resampling-Signifikanztests (Resampling-Verfahren), (c) Minimum-Effektgrößen-Tests, (d) Verfahren der Bayes-Statistik, (e) Prüfung von komplexen Modellstrukturen (z. B. Prüfung der Passung der empirischen und modellbasiert prognostizierten Varianz-Kovarianzmatrix für Strukturgleichungsmodelle; Modell-Fit von Modellen der Item-Response-Theorie (IRT))

(6) Hypothesenbildung: Bildung von neuen H. über P.effekte anhand von Sp.daten. Von der stat. H.prüfung bzw. konfirmatorischen Datenanalyse wird die exploratorische Datenanalyse (EDA) abgegrenzt. Sie verfolgt ein explorativ-h.bildendes Erkenntnisinteresse, das ansonsten eher für die qualitative Sozialforschung typisch ist. Stat. Verfahren im Kontext der exploratorischen Datenanalyse zielen darauf ab, ohne best. Vorannahmen Datenmengen auf bislang unbekannte oder unerwartete Muster hin zu untersuchen (Forschungsprozess). Aus den in der Stichprobe gefundenen Mustern werden dann neue Hypothesen über die Populationsverhältnisse entwickelt, die anschließend in h.prüfenden Studien zu testen sind. Zu den exploratorischen Verfahren gehört z. B. die exploratorische Faktorenanalyse, die Variablen gemäß ihrer Interkorrelationen zu Faktoren bündelt. Wachsende Bedeutung haben EDA-Verfahren im Zusammenhang mit big data, den vor allem im Zuge der Digitalisierung der Gesellschaft neuerdings verfügbaren riesigen Datenmengen, die durch automatische Protokollierung computergestützter Prozesse entstehen. Hier wird bspw. mit stat. Data-Mining-Techniken gearbeitet, um anhand der Nutzungsdaten von Onlineshops Hypothesen über das Kundenverhalten zu gewinnen.

Stat. Datenanalysen erfolgen heute mithilfe von Computerprogrammen, wobei es sich entweder um allg. Statistikprogrammpakete mit großem Funktionsspektrum (z. B. Mplus, SPSS, SAS, R (Software)) oder um spezialisierte Software für einzelne stat. Verfahren handelt (z. B. AMOS, Lisrel für SGM, HLM für Mehrebenenanalyse, G*power für Teststärkeanalysen). Im Zuge der Verfügbarkeit immer leistungsfähigerer Computer wird das Spektrum stat. Datenanalyseverfahren fortwährend erweitert.

Um auszudrücken, wie viele Variablen gleichzeitig in eine best. stat. Auswertung einbezogen werden, wird von uni- (eine Variable), bi- (zwei Variablen) oder multivariaten (mehr als zwei Variablen) Verfahren gesprochen (multivariate Statistik, multivariable Statistik). Voraussetzung einer aussagekräftigen stat. Datenanalyse ist immer eine sorgfältige Datenerhebung (Datenerhebungsverfahren) im Kontext eines auf das jew. Forschungsproblem ausgerichteten Forschungsprozesses sowie eine gründliche Datenaufbereitung (z. B. adäquate Behandlung von fehlenden Werten und Ausreißern, Datenqualität). Ungenauigkeiten und Fehler bei der Datenerhebung können im Zuge der stat. Datenauswertung oft nicht mehr korrigiert oder kompensiert werden (sog. GIGO-Prinzip: garbage in, garbage out).

Jede stat. Datenauswertung i. R. der empir. Sozialforschung muss theoriebezogen erfolgen (theoriegenerierend oder -prüfend; Theorie) und in eine inhaltliche Interpretation münden, die eine verbale Gesamtschau der Ergebnisse vor dem Hintergrund einer Theorie des Inhaltsbereichs liefert (Forschungsprozess), Aussagen über die Forschungsfragen bzw. die geprüften oder gebildeten Hypothesen trifft und Schlussfolgerungen für die Praxis und zukünftige Forschung ableitet. Auch die Grenzen der Aussagekraft und Generalisierbarkeit der stat. Ergebnisse müssen i. S. der Wissenschaftlichkeit ausdrücklich angesprochen werden. Stat. Analysen und Ergebnissen wird in der breiten Öffentlichkeit oft mit Skepsis begegnet, sie gelten als bes. manipulationsanfällig. Gleichzeitig werden stat. Befunde immer häufiger zur Grundlage politischer und wirtschaftlicher Entscheidungen herangezogen und als Argumente in öffentlichen Debatten verwendet. Stat. Analysen im Kontext empir. Sozialforschung müssen immer ergebnisoffen erfolgen und nachvollziehbar dokumentiert sein. I. d. R. sollten sie in ein theoretisch fundiertes explizites Hypothesentestungsschema eingebettet sein (Signifikanztest). Eine willkürliche Verzerrung der Ergebnisse, die irreführende Darstellung oder gar die Erfindung von Daten, um «Wunschergebnisse» zu produzieren, stellen gravierende Verletzungen der Wissenschaftsethik dar (Forschungsethik). Gefordert wird aber auch eine Förderung der Statistik-Bildung bzw. -Kompetenz (statistical literacy) aller Bürger und insbes. von Multiplikationspersonen (z. B. im Journalismus), um mit den in der Sozialforschung produzierten stat. Befunden und darauf aufbauenden Interpretationen sachgerecht umgehen zu können, was dann weder auf Wissenschaftsgläubigkeit (ein stat. Einzelbefund wird für «die Wahrheit» gehalten) noch auf Wissenschaftsfeindlichkeit (stat. Forschungsergebnisse werden als grundsätzlich beliebig und belanglos abqualifiziert) hinauslaufen sollte.

Referenzen und vertiefende Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.