Datenqualität

 

[engl. data quality], [FSE], meint im Kontext der empirische Sozialforschung die Aussagekraft und (Wieder-)Verwendbarkeit der durch unterschiedl. Designs (Forschungsdesign) an unterschiedl. Stichprobe mit unterschiedl. Datenerhebungsverfahren gewonnenen und entspr. aufbereiteten qual. wie quant. Daten. Die Datenqualität hängt zunächst von allen der Datenerhebung vorgelagerten Entscheidungen und Maßnahmen im Forschungsprozess ab: Fehler, die z. B. bei der Stichprobenauswahl oder der Anwendung einer bestimmten Datenerhebungsmethode gemacht werden (z. B. Messinstrument mit mangelnder Validität (Gütekriterien), kritische Fagebogenlänge, fehlende Schulung von Interviewenden, fehlendes Beurteilertraining) sowie Fehler i. R. der Datenerhebung (z. B. Nichterhebung relevanter Information, Ausfall von Aufzeichnungsgeräten bei Interviews) beeinträchtigen die Aussagekraft des gewonnenen Rohdatenmaterials und können später i. d. R. nicht mehr kompensiert werden.

Die Datenqualität hängt zudem maßgeblich von der der Datenerhebung nachgelagerten Datenaufbereitung ab. Das Rohdatenmaterial einer empirischen Studie existiert oft in versch. Formen und Formaten, enthält Lücken und Inkonsistenzen und ist in seiner Gesamtheit schwer zu überblicken. Zur Datenaufbereitung gehören all jene begründeten und dokumentierten Bearbeitungen bzw. Veränderungen des Rohdatenmaterials, welche die Aussagekraft und (Wieder-)Verwendbarkeit der Daten steigern und die inhaltliche Datenanalyse (Datenanalysemethoden) vorbereiten. Dazu zählen v. a. die Erstellung strukturierter Datensätze aus dem Rohdatenmaterial, die Kommentierung und die Anonymisierung der Datensätze sowie Datenbereinigung und Datentransformation. Ziel der Datenaufbereitung ist eine Steigerung der Datenqualität.

Eine geringe Datenqualität durch fehlende oder unzureichende Aufbereitung des Rohdatenmaterials führt v. a. zu drei Problemen: (1) Verzögerung oder Verhinderung der Daten(re)analyse: Angestrebt wird eine reibungslose Datenauswertung durch die Forschenden selbst, durch Forschungspartner oder andere Forschungsteams, die die Daten einer ersten Analyse oder später einer Re- bzw. Sekundäranalyse unterziehen möchten. Dies setzt v. a. eine stringente Organisation und ausreichende Kommentierung der Datensätze durch Metadaten voraus (z. B. genaue Angaben dazu, wann, wo und durch wen die Daten erhoben wurden, was Variablennamen und Messwerte bedeuten). Versäumnisse in diesem Bereich können dazu führen, dass Datensätze unbrauchbar oder Auswertungsergebnisse unvalide werden. (2) Fehlerhafte Ergebnisse der Datenanalyse: Die Analyse eines ungenügend aufbereiteten Datensatzes, in dem sich z. B. noch Dopplungen, Tippfehler, unplausible Extremwerte (z. B. durch Scherzantworten) oder Antworttendenzen (Akquieszenz) befinden, kann zu verzerrten stat. Ergebnissen und falschen inhaltlichen Schlussfolgerungen führen. (3) Verletzungen von Richtlinien der Forschungsethik: Versäumnisse bei der Anonymisierung des Rohdatenmaterials können die teilnehmenden Personen identifizierbar machen. Identifizierbarkeit ist – sofern kein ausdrückliches Einverständnis der Pbn vorliegt (z. B. erlaubte namentliche Nennung bei Experteninterviews) – nicht nur ein Verstoß gegen die Forschungsethik, sondern auch gegen Datenschutzgesetze. Anonymisierung ist bes. wichtig, wenn Primärdatensätze über Datenarchive auch Dritten zugänglich gemacht werden sollen, sodass hier besondere Daten-archiv-Standards einzuhalten sind.

Da die Datenaufbereitung einen Eingriff in die Rohdaten darstellt, der prinzipiell auch zu Manipulationszwecken missbraucht werden kann (z. B. hypothesenkonträre Fälle werden als Ausreißerwert ausgeschlossen), ist das Vorgehen bei der Datenaufbereitung gründlich zu reflektieren und im Ergebnisbericht entspr. zu begründen und zu dokumentieren. Manipulationen am Datenmaterial, die darauf hinauslaufen, ein best. «Wunschergebnis» bewusst herzustellen, stellen eine gravierende Verletzung der Wissenschaftsethik dar und werden als Wissenschaftsfälschung bzw. Wissenschaftsbetrug hart sanktioniert.

Welche Arbeitsschritte bei der Aufbereitung von qual. und quant. Rohdatenmaterial im Einzelnen durchzuführen sind, hängt u. a. von Inhalt und Art der erhobenen Daten sowie vom Umfang des Forschungsprojekts ab. Nicht zuletzt ergeben sich unterschiedliche Konsequenzen, je nachdem, ob die Daten für eine manuelle Analyse oder – was heute der Normalfall ist – für eine elektronische bzw. computergestützte Datenauswertung präpariert werden sollen. Der Arbeitsaufwand für eine gründliche Datenaufbereitung kann wesentlich höher sein als der Aufwand für die sich anschließende Datenanalyse. Datenqualität, Aufbereitung qualitativer Rohdaten, Datenqualität, Aufbereitung quantitativer Rohdaten.

Referenzen und vertiefende Literatur

Die Literaturverweise stehen Ihnen nur mit der Premium-Version zur Verfügung.

Datenschutzeinstellungen

Wir verwenden Cookies und Analysetools, um die Sicherheit und den Betrieb sowie die Benutzerfreundlichkeit unserer Website sicherzustellen und zu verbessern. Weitere informationen finden Sie unter Datenschutz. Da wir Ihr Recht auf Datenschutz respektieren, können Sie unter „Einstellungen” selbst entscheiden, welche Cookie-Kategorien Sie zulassen möchten. Bitte beachten Sie, dass Ihnen durch das Blockieren einiger Cookies möglicherweise nicht mehr alle Funktionalitäten der Website vollumfänglich zur Verfügung stehen.