Datenqualität

 

(= DQ.) [engl. data quality], [FSE], meint im Kontext der empirische Sozialforschung die Aussagekraft und (Wieder-)Verwendbarkeit der durch unterschiedl. Designs (Forschungsdesign) an unterschiedl. Stichprobe mit unterschiedl. Datenerhebungsverfahren gewonnenen und entspr. aufbereiteten qual. wie quant. Daten (= D.). Die DQ. hängt zunächst von allen der D.erhebung vorgelagerten Entscheidungen und Maßnahmen im Forschungsprozess ab: Fehler, die z. B. bei der Stichprobenauswahl oder der Anwendung einer bestimmten D.erhebungsmethode gemacht werden (z. B. Messinstrument mit mangelnder Validität (Gütekriterien), kritische Fagebogenlänge, fehlende Schulung von Interviewenden, fehlendes Beurteilertraining) sowie Fehler i. R. der D.erhebung (z. B. Nichterhebung relevanter Information, Ausfall von Aufzeichnungsgeräten bei Interviews) beeinträchtigen die Aussagekraft des gewonnenen Rohd.materials und können später i. d. R. nicht mehr kompensiert werden.

Die DQ. hängt zudem maßgeblich von der der D.erhebung nachgelagerten D.aufbereitung ab. Das Rohd.material einer empirischen Studie existiert oft in versch. Formen und Formaten, enthält Lücken und Inkonsistenzen und ist in seiner Gesamtheit schwer zu überblicken. Zur D.aufbereitung gehören all jene begründeten und dokumentierten Bearbeitungen bzw. Veränderungen des Rohd.materials, welche die Aussagekraft und (Wieder-)Verwendbarkeit der D. steigern und die inhaltliche D.analyse (Datenanalysemethoden) vorbereiten. Dazu zählen v. a. die Erstellung strukturierter D.sätze aus dem Rohd.material, die Kommentierung und die Anonymisierung der D.sätze sowie D.bereinigung und D.transformation. Ziel der D.aufbereitung ist eine Steigerung der DQ.

Eine geringe DQ. durch fehlende oder unzureichende Aufbereitung des Rohd.materials führt v. a. zu drei Problemen: (1) Verzögerung oder Verhinderung der D.(re)analyse: Angestrebt wird eine reibungslose D.auswertung durch die Forschenden selbst, durch Forschungspartner oder andere Forschungsteams, die die D. einer ersten Analyse oder später einer Re- bzw. Sekundäranalyse unterziehen möchten. Dies setzt v. a. eine stringente Organisation und ausreichende Kommentierung der D.sätze durch Metadaten voraus (z. B. genaue Angaben dazu, wann, wo und durch wen die D. erhoben wurden, was Variablennamen und Messwerte bedeuten). Versäumnisse in diesem Bereich können dazu führen, dass D.sätze unbrauchbar oder Auswertungsergebnisse unvalide werden. (2) Fehlerhafte Ergebnisse der D.analyse: Die Analyse eines ungenügend aufbereiteten D.satzes, in dem sich z. B. noch Dopplungen, Tippfehler, unplausible Extremwerte (z. B. durch Scherzantworten) oder Antworttendenzen (Akquieszenz) befinden, kann zu verzerrten stat. Ergebnissen und falschen inhaltlichen Schlussfolgerungen führen. (3) Verletzungen von Richtlinien der Forschungsethik: Versäumnisse bei der Anonymisierung des Rohd.materials können die teilnehmenden Personen identifizierbar machen. Identifizierbarkeit ist – sofern kein ausdrückliches Einverständnis der Pbn vorliegt (z. B. erlaubte namentliche Nennung bei Experteninterviews) – nicht nur ein Verstoß gegen die Forschungsethik, sondern auch gegen Datenschutzgesetze. Anonymisierung ist bes. wichtig, wenn Primärd.sätze über D.archive auch Dritten zugänglich gemacht werden sollen, sodass hier besondere D.-archiv-Standards einzuhalten sind.

Da die D.aufbereitung einen Eingriff in die Rohd. darstellt, der prinzipiell auch zu Manipulationszwecken missbraucht werden kann (z. B. hypothesenkonträre Fälle werden als Ausreißerwert ausgeschlossen), ist das Vorgehen bei der D.aufbereitung gründlich zu reflektieren und im Ergebnisbericht entspr. zu begründen und zu dokumentieren. Manipulationen am D.material, die darauf hinauslaufen, ein best. «Wunschergebnis» bewusst herzustellen, stellen eine gravierende Verletzung der Wissenschaftsethik dar und werden als Wissenschaftsfälschung bzw. Wissenschaftsbetrug hart sanktioniert.

Welche Arbeitsschritte bei der Aufbereitung von qual. und quant. Rohdatenmaterial im Einzelnen durchzuführen sind, hängt u. a. von Inhalt und Art der erhobenen D. sowie vom Umfang des Forschungsprojekts ab. Nicht zuletzt ergeben sich unterschiedliche Konsequenzen, je nachdem, ob die D. für eine manuelle Analyse oder – was heute der Normalfall ist – für eine elektronische bzw. computergestützte D.auswertung präpariert werden sollen. Der Arbeitsaufwand für eine gründliche D.aufbereitung kann wesentlich höher sein als der Aufwand für die sich anschließende D.analyse. Datenqualität, Aufbereitung qualitativer Rohdaten, Datenqualität, Aufbereitung quantitativer Rohdaten.

Referenzen und vertiefende Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.