Testkonstruktion

 

(= T.) [engl. test construction]; z. T. syn. Fragebogenkonstruktion, [DIA, FSE]Tests dienen der Messung oder Schätzung best. latenter Merkmalsausprägungen aufgrund der Reaktionen von Pbn auf Testitems. In Leistungstests entsprechen die Items i. d. R. zu lösenden Aufgaben, für die die Pb-Antwort den Kategorien richtig vs. falsch zugeordnet werden kann. Im Falle von Fragebogen werden subj. Einschätzungen (z. B. Einstellungen, Intensität von Symptomausprägungen) i. d. R. in ordinalen Abstufungen (Ordinalskala) erfasst. Im T.-Prozess wird angestrebt, für theoretisch gut def. Konstrukte (z. B. Depressivität, Motivation) Itemgruppen zu entwickeln, deren Eignung zur Erfassung der Konstruktausprägungen gemäß psychometrischer Gütekriterien empirisch abgesichert ist (Testtheorie). Für eine fundierte, psychometrisch (Psychometrie) begründete T. müssen – unabhängig von den Itemformaten – i. d. R. dieselben T.schritte durchlaufen werden.

(1) Def. des zu erfassenden Konstrukts: Theoretische Modelle des zu erfassenden Konstrukts müssen entwickelt oder identifiziert und i. d. R. durch (eher qual. orientierte) empirische Begleitstudien adaptiert werden. Typische Methoden: Systematische Literaturrecherchen, Expertenbefragungen (Delphi-Technik) und Betroffenenbefragungen. Hierbei müssen insbes. theoretische Aspekte der Konstruktvalidität beachtet werden: Ein- vs. Multidimensionalität des Konstrukts, dimensionaler (Skalierung) vs. typologischer (Typologie, Latente Klassenanalyse) Modellansatz, zeitliche Stabilität vs. Variabilität (ggf. Situationsabhängigkeit).

(2) Erstellung eines Itempools: Die Items müssen das Konstrukt in allen relevanten Aspekten/Facetten möglichst repräsentativ und valide abdecken. Hierbei kommt dem Kriterium der Inhaltsvalidität der Items zentrale Bedeutung zu. Zur Identifkation relevanter Inhalte werden i. d. R. systematische Literaturrecherchen, Expertenbefragungen (Delphi-Technik) und Betroffenenbefragungen angewendet. Varianten der Itemkonstruktion: (a) Rationale/deduktive Itemkonstruktion: z. B. werden nach Wilson (2005) ausgehend von Annahmen über bedeutsame Dimensionen dimensionsspezif. Iteminhalte identifiziert, die bzgl. der Ausprägung auf der latenten Dimension ranggeordnet werden können (z. B. betrübt, traurig, hoffnungslos). (b) Induktive Itemkonstruktion: Es erfolgt eine Sammlung bzw. Entwicklung von Items, die alle für den Konstruktbereich wichtigen Aspekte möglichst repräsentativ abdecken. Hier gehen also keine expliziten Annahmen über die dimensionale Struktur mit ein. (c) Adaption bestehender Testitems/-skalen für eine neue Population oder Anwendungsbereich. Bei der Itemkonstruktion sollten grundsätzlich deutlich mehr Items entwickelt werden, als im fertiggestellten Test enthalten sein sollen, da davon ausgegangen werden muss, dass sich i. R. der Skalen- oder Itemanalyse Items als ungeeignet herausstellen oder sich Strukturaspekte zeigen, die bei der Itemkonstruktion nicht explizit bedacht wurden. Bei der Formulierung von Items sollten folg. Aspekte als Orientierung berücksichtigt werden: Einfachheit (z. B. Vermeidung von Fremdwörtern oder komplizierter Satzkonstruktionen), Kürze, Neutralität (insbes. Vermeidung von Suggestivität oder Hinweisen auf soziale Erwünschtheit), Konkretheit (Verwendung möglichst verhaltensbezogener Inhalte, Vermeidung hypothetischer, spekulativer Inhalte), inhaltliche Eindeutigkeit (Bezug zu genau einem Sachverhalt; Vermeidung von Konditionalaussagen oder Konjunktionen, wenn möglich), zeitliche Eindeutigkeit (z. B. «in den letzten vier Wochen»), Vermeidung von Negationen (insbes. doppelte Verneinungen). Generell sollten mögliche Antwortverzerrungen aufgrund von response sets berücksichtigt werden.

(3) Auswahl eines Antwortformats: Bei Leistungstests wird die Wahl der Antwortformate vom Inhaltsbereich (z. B. Intelligenz, Kreativität) und von testspezif. Konstruktionscharakteristika mitbestimmt (z. B. Multiple-Choice-Antwortformat, offenes Antwortformat, das durch Beurteiler hinsichtlich Korrektheit eingeschätzt wird). Bei Fragebögen werden die subj. Ausprägungseinschätzungen i. d. R. mittels ordinalen Ratingskalen erfasst. Es muss berücksichtigt werden, dass die Voraussetzungen für die vorgesehenen stat. Auswertungsverfahren gegeben sind. Um das i. d. R. vorausgesetzte Intervallskalenniveau (Ausnahme: Leistungstests) der Daten sicherzustellen, sollten empirische Standardratingformate genutzt werden, für die zumindest approximativ intervallskalierte Daten resultieren (z. B. 4- oder 5-stufige Formate, die mit äquidistanten Zahlenwerten bez. werden und bei denen nur die Extremkategorien benannt sind (z. B. «trifft überhaupt nicht zu» = «–2», «–1» , «0», «+1», «2» = «trifft ganz genau zu»). Bei der Verwendung einer neutralen Mittelkategorie (im Bsp. «0») ist zu bedenken, dass hierdurch eine kritische Tendenz zur Mitte bei schwierigen Befragungsinhalten oder bei unmotiviertem Pb-Verhalten resultieren kann. Von einer Ausweichkategorie (i. S. von «Item kann aus inhaltlichen Gründen nicht beantwortet werden») sollte möglichst sparsam Gebrauch gemacht werden, da sich aufgrund einer niedrigschwelligen Auswahl dieser Ausweichkategorien die Datenqualität und Auswertungsoptionen erheblich reduzieren können.

(4) Vortestung des Itempools: Die Verständlichkeit der Items und Hinweise auf Verletzungen der Inhaltsvalidität sollten z. B. mittels kognitiver Interviews empirisch geprüft werden. Die angemessene Operationaliserung des theoretischen Konstrukts auf Itemebene sollte zudem durch Expertenurteile (ggf. Delphi-Technik) sichergestellt werden.

(5) Testanalyse: Von einer für die Zielpopulation möglichst repräsentativen Stichprobe muss der Fragebogen i. d. R. komplett (alternativ: Testheftdesign) beantwortet werden, die Stichprobengröße sollte über N > 100 betragen und mind. dem 10-fachen (Untergrenze dem 5-fachen) der Itemanzahl entspr. (a) Dimensionsanalyse: Die Analyse der dimensionalen Struktur kann exploratorisch (Identifikation einer nicht explizit theoretisch angenommenen stat. max. plausiblen Struktur; Faktorenanalyse, exploratorische) oder konfirmatorisch (Prüfung einer theoretisch explizierten eindeutigen Item-Konstrukt-Zuordnung; Faktorenanalyse, konfirmatorische, Item-Response-Theorie) erfolgen. (b) Mittels Itemanalyse werden Items und Itemgruppe identifiziert, die die Selektionskriterien zur Erfassung der identifizierten Faktoren erfüllen. (c) Die Skalenanalyse dient der Bestimmung der Messqualität der aggregierten Itemwerte (nach Klassischer Testtheorie i. d. R. Summen- oder Mittelwerte; nach Item-Response-Theorie: Personenparameter). Cronbachs Alpha oder die Rasch-Reliabilität werden in dieser Phase als wichtigstes Maß der Reliabilität der Skala verwendet (i. d. R.: Kriterium > ,7 = akzeptabel; > ,8 gut). Kann diese Phase i. S. der T.intention nicht zufriedenstellend abgeschlossen werden, so werden die vorangegangenen Phasen erneut durchlaufen, um die Item-, Skalen- und Testqualität gezielt zu optimieren. Anschließend erfolgt die (6) Normierung und Skalierung an einer größeren Stichprobe und ggf. in unterschiedlichen Anwendungskontexten. In dieser oder folg. Phasen sollten (7) weitere umfassende Validierungsschritte und die Prüfung weiterer psychometrischer Gütekriterien umgesetzt werden, um begründete Empfehlungen zum Praxiseinsatz formulieren zu können (z. B. Einsatz zu spez. diagn.  oder Evaluationszwecken). (8) Zudem erfolgt die Manualisierung des Tests. Teststandards sollten in allen Phasen der T. zur Sicherstellung fachlicher Qualität berücksichtigt werden.

Verwendete Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.