missing data

 

[engl.] fehlende Daten; syn. fehlende Werte, [FSE], als missing data werden Werte bezeichnet, die als Merkmalsausprägung empirisch vorhanden sind, aber unerwarteterweise im vorhandenen Datensatz nicht vorliegen. Die Gründe für diese Unvollständigkeit können vielfältig und vielschichtig sein. Neben organisatorischen Problemen bei der Durchführung der Datenerhebung, dem Übersehen einer Antwortmöglichkeit durch Teilnehmende, dem schlichten Vergessen der Antwortgabe sowie unklarem Antwortverhalten kann auch eine Verweigerung durch Untersuchungsteilnehmende vorliegen. Deshalb ist es von hoher Relevanz für die Validität der stat. Auswertung, dass systematische Missing-Data-Prozesse vermieden werden, sowie auch – zumindest bei mehr als fünf Prozent missing data – eine systematische Missing-Data-Diagnose stattfinden sollte.

Es werden drei Typen von missing data-Prozessen unterschieden: (1) Missing Completely at Random (MCAR), (2) Missing at Random (MAR), (3) Missing not at Random (MNAR). In Abhängigkeit von diesen Mustern fehlender Werte gibt es versch. Möglichkeiten des Umgangs mit missing data. Primär kann zw. einer Nicht-Berücksichtigung dieser Fälle in (Teil-)Analysen oder versch. Formen der Imputation unterschieden werden. Diese Verfahren haben diverse Vor- und Nachteile. Ältere, i. Allg. nicht empfehlenswerte Verfahren sind: (1) Fallweiser Ausschluss, (2) Paarweiser Ausschluss, (3) Last Observation Carried Forward, (4) Ersetzung durch Mittelwert, (5) Hot Deck, (6) Ersetzung durch Regression. Moderne, auch im Falle modellierbarer systematischer missing data-Prozesse (Missing at Random) empfehlenswertere Imputationsverfahren sind: (1) Full-Information-Maximum-Likelihood-Verfahren (FIML), (2) Expectation-Maximization-Verfahren, (3) multiple Imputation. Unabh. von Muster und Anzahl der missing data sollte bei der Ergebnisdarstellung immer transparent mit fehlenden Werten umgegangen werden und es sollte ggf. eine vergleichende stat. Analyse mit unvollständigem und vervollständigtem Datensatz stattfinden. Im Idealfall sollten die Ergebnisse dieser Berechnungen nicht bedeutsam differieren. [methodology.psu.edu/pubs/books/missing#soft]

Referenzen und vertiefende Literatur

Die Literaturverweise stehen Ihnen nur mit der Premium-Version zur Verfügung.