Itemanalyse
[engl. item analysis], syn. Aufgabenanalyse, [DIA, FSE], Items bilden die elementaren Informationseinheiten psychometrischerSkalen, die der Schätzung der Pb-Ausprägungen auf einem latenten Konstrukt dienen (Messtheorie). Die Qualität und die Anzahl der Items determiniert die Ausprägung der Gütekriterien einer Skala (insbes. die interne Konsistenz). Während i. R. der Testkonstruktion die Itementwicklung v. a. nach Methoden zur Sicherstellung der Inhaltsvalidität erfolgt, bez. Itemanalyse die stat. Datenanalyse der Itembeantwortung durch eine möglichst repräsentative Stichprobe. Vor Durchführung einer Itemanalyse sollte eine Dimensionsanalyse (Faktorenanalyse, Item-Response-Theorie) erfolgen, um die stat. Voraussetzungen der Folgeanalysen sowie die Homogenität bzw. Eindimensionalität der Itemgruppen sicherzustellen. Die Basisanforderung an Skalenitems besteht darin, dass sie in der Lage sind Varianz bzgl. des latenten Merkmals zu erfassen: Hierzu müssen die Items (1) zw. Pbn diskriminieren und (2) in systematischem, eindeutigem und hinreichend starkem Zus.hang mit dem unterliegenden latenten Konstrukt stehen.
Der Begriff Itemschwierigkeit bez. das durchschnittliche Antwortniveau bzgl. eines Items. Sie kann deskriptiv und modellbasiert def. werden. Deskriptiv entspricht die Itemschwierigkeit bei dichotomen Daten dem Prozentsatz von z. B. korrekt gelösten oder mit «ja» beantworteten Items. Bei ordinalen Daten ist die Itemschwierigkeit def. als der Median, bei intervallskalierten Daten als das arithmetische Mittel des Items. Der Median bzw. das arthmetische Mittel werden i. d. R. am potenziell erreichbaren Minimum und Maximum auf den Wertebereich Itemschwierigkeit(-Minimum) = 0 bis Itemschwierigkeit(-Maximum) = 1 standardisiert. Die modellbasierte Itemschwierigkeit entspricht der Schätzung der Pb-Fähigkeit (Personenparameter) auf einer unterliegenden latenten, intervallskalierten Merkmalsdimension. Modellbasierte Schätzungen der Itemschwierigkeit werden insbes. bei Nutzung der Item-Response-Theorie (IRT) vorgenommen. Während Items mittlerer Schwierigkeit (Itemschwierigkeit im Bereich von 0,5 bei dichotomen Daten) aufgrund ihres höheren Informationsgehalts nach dem Analyseansatz der Klassischen Testtheorie bevorzugt werden und Items extremer Schwierigkeit (Itemschwierigkeit < 0,2 bzw. >,8) in Bezug auf die Modellannahmen als problematisch betrachtet werden müssen (Bodeneffekt bzw. Deckeneffekt; Lienert & Raatz, 1994), ermöglichen Modelle der IRT die angemessene Modellierung von Items in allen Schwierigkeitsbereichen (van der Linden & Hambleton, 1995). Bei Letzteren muss lediglich berücksichtigt werden, dass sich die Schätzgenauigkeit bei extremen Schwierigkeiten systematisch verringert.
Der Begriff Itemtrennschärfe ( ) ist ein deskriptives Maß der Stärke des Zus.hangs eines Items mit den aggregierten Werten aller Items der entspr. Skala. Die
entspricht der Produkt-Moment-Korrelation des Items mit dem Summenwert aller Skalenitems. Da der Wert des jew. Items den Summenwert der Skala als Summand mit bestimmt, sollte – insbes. bei Skalen mit geringer Itemanzahl – die korr.
bevorzugt werden, die der Korrelation des Items mit dem Summenwert der übrigen Skalenitems entspricht. Orientierungskriterium: Werte von > ,4 können als hinreichend gelten. Modellbasierte Indikatoren des Zus.hangs eines Items und dem unterliegenden Konstrukt können durch faktorenanalytische Methoden und Modellierung mittels IRT ermittelt werden. Bei der exploratorischen Faktorenanalyse gelten i. d. R. Faktorladungen von > ,5, bei der konfirmatorischen Faktorenanalyse gelten i. d. R. Faktorladungen von > ,63 (entspricht einer Faktorreliabilität von ,4) als Hinweis auf hinreichende Item-Konstrukt-Asssoziation. Die Anwendung der konfirmatorischen Faktorenanalyse erlaubt zudem eine strengere Prüfung der Eindimensionalität von Skalen auf Itemebene (keine Residualkorrelationen, keine bedeutsam höhere Assoziation zweier Items, als aufgrund des latenten Konstrukts erwartet würde; d. h. lokale stochastische Unabhängigkeit). I. R. von IRT-Analysen werden Item-Fit-Maße als Passung der Information einzelner Items zu der Modellvorhersage bestimmt: INFIT- und OUTFIT-Maße sind bspw. Maße der durchschnittlichen quadrierten Residuen (Differenz der gemessenen Werte und der modellbasierten Erwartungen). Werte von 1 zeigen an, dass das Ausmaß an stochastischen Informationskomponenten demjenigen entspricht, das bei Geltung des Modells erwartet werden kann. Werte < 1 (vs. >1) indizieren, dass weniger (vs. mehr) stochastische Informationen in den Daten enthalten sind, als aufgrund des Modells erwartet werden können. INFIT und OUTFIT-Werte im Bereich [0,8–1,2] werden i. d. R. als hinreichend modellkompatibel akzeptiert (Bond & Fox, 2007). Werte > 1,2 zeigen an, dass eine zu große Diskrepanz von Daten und Modellvorhersage besteht. Die Signifikanz der Abweichung vom Erwartungswert 1 kann alternativ als Kriterium verwendet werden, jedoch muss das systematische Anwachsen der Teststärke mit wachsender Stichprobengröße berücksichtigt werden. Mittels Differental Item Functioning (DIF) oder des Mixed-Rasch-Modells kann die psychometrische Testfairness von Items beim Einsatz in unterschiedlichen Teilpopulationen geprüft werden.