Datenqualität, Aufbereitung quantitativer Rohdaten
[engl. data quality, preparation of quantitative raw data], Datenqualität, [FSE], umfasst v. a. vier Arbeitsschritte: (1) Erstellung und Kommentierung quant. Datensätze: Quant. D.sätze (D. = Daten) werden i. d. R. in der Form einer D.matrix so dargestellt, dass die einzelnen Untersuchungseinheiten die Zeilen und die Variablen die Spalten darstellen. Offene Fragen müssen inhaltsanalytisch (Inhaltsanalyse) codiert werden. Alle Variablen- und Wertelabels müssen vollst. und allg.verständlich vergeben und in einem Codebuch dokumentiert werden. (2) Anonymisierung: Problematisch i. S. der Identifizierbarkeit können bei quant. D. v. a. sehr seltene Merkmale oder Merkmalskombinationen sein, wenn die Zielgruppe bekannt ist (z. B. Identifizierbarkeit des einzigen Rollstuhlfahrers im D.satz). Entsprechende D. sollten möglichst von vornherein nicht erhoben oder dann im Zuge der D.aufbereitung eliminiert werden. (3) Kontrolle der D.eingabe: Bei Übertrag der Daten in Dateien sollte ein Teil der Dateneingabe (z. B. 5%) doppelt erfolgen, um Unzuverlässigkeiten und systematische Fehler identifizieren und vermeiden zu können. (4) D.bereinigung: Werte außerhalb des gültigen Wertebereichs, logisch unplausible Angaben, Doppelungen usw. sollen entdeckt und – nach entspr. dokumentierter Begründung – entfernt werden. Dies geschieht meist anhand der Betrachtung der Wertebereiche und Häufigkeitsverteilungen aller Variablen. Es existieren aber auch automatisierte Plausibilitätschecks für D.sätze, die z. B. stereotype oder inkonsistente Antwortmuster identifizieren. (5) D.transformation: Diese erfolgt vor allem in vier Arbeitsschritten: (a) Behandlung fehlender Werte: Fehlende Werte (Missing Data) können unterschiedliche Gründe haben, die entspr. zu codieren sind. Substanzielle Verzerrungen können insbes. resultieren, wenn viele Missings (Orientierung > 5% pro Fall oder Person) auftreten und wenn diese systematisch gehäuft bei best. Personen(-gruppen) oder Variablen auftreten (Missing-Data-Prozesse). Imputationsverfahren stellen i. d. R. die Methode der Wahl dar, um Probleme aufgrund fehlender Werte zu minimieren. (b) Umpolung von Variablen: Bei ordinal- sowie intervall- und verhältnisskalierten Variablen ist es wünschenswert, den Merkmalsausprägungen die jew. Messwerte so zuzuordnen, dass höhere Werte jew. mit einer höheren Konstruktausprägung einhergehen (z. B. hohe (vs. niedrige) Werte bei pos. (z. B. Gesundheit) vs. neg. (z. B. Krankheit) Skalenbezeichnung). Bei inhaltlich invers formulierten Items ist somit i. d. R. eine Umpolung notwendig. (c) Bildung neuer Variablen: Wenn die für die Studie relevanten latenten Konstrukte (Variable, latente) mittels multipler Indikatoren operationalisiert wurden, müssen i. R. der Datenaufbereitung die entspr. Skalenwerte (Skala) oder Indexwerte (Index) berechnet und dieser Vorgang transparent dokumentiert werden. (d) Gewichtung von Stichproben: Das Grundprinzip aller Gewichtungsverfahren läuft darauf hinaus, dass Fälle, die – im Vergleich zur Prävalenz in der Population – zu selten in der Stichprobe vertreten sind, eine höheres Gewicht erhalten und gleichzeitig Fälle, die in der Stichprobe überrepräsentiert sind, heruntergewichtet werden, um die Repräsentativität der Stichprobe (repräsentativ) zu erhöhen. Hierzu sind D. über die Zusammensetzung der interessierenden Zielpopulation notwendig. Gewichtungsverfahren werden v. a. in der Umfrageforschung (Umfrage, Demoskopie) bei bevölkerungsrepräsentativen Stichproben eingesetzt. Der Arbeitsaufwand für eine gründliche D.aufbereitung kann wesentlich höher sein als der Aufwand für die sich anschließende D.analyse.