Item-Response-Theorie (IRT)

 

[engl. testitem Prüfpunkt, Element, response Antwort], [DIA], die IRT kann als bes. Teilgebiet der psychol. Testtheorie aufgefasst werden, indem sie reglementiert, wie psychol. Tests (und andere psychol.-diagn. Verfahren) zu konstruieren sind. Genauer betrachtet modelliert die IRT das Zustandekommen einer Reaktion (Antwort) auf eine Aufgabe, Frage oder Feststellung (Oberbegriff: Item). Anders als die Klassische Testtheorie fokussiert sie auf die einzelnen Items, nicht auf den Test als solchen. Allen Modellen gemeinsam ist die Annahme, dass den beobachtbaren (manifesten) Reaktionen (Variable, manifeste) eine nicht beobachtbare (latente; Variable, latente) Eigenschaft zugrunde liegt. Letztere steht mit ersterer in wahrscheinlichkeitsfunktionalem Zus.hang. Es geht dabei um die Wahrscheinlichkeit für das Auftreten einer best. Reaktionskategorie in Abhängigkeit sowohl von der fraglichen Eigenschaft der untersuchten Person als auch von gewissen Charakteristika des betroffenen Items. Der Funktionstyp ist dabei zumeist logistischer Art (Regression, logistische).

Für den Fall, dass bei den Reaktionen nur zw. zwei Möglichkeiten (z. B. zw. gelöst und nicht gelöst) unterschieden wird, ist folg. Modell zentral; es beschreibt die Wahrscheinlichkeit, dass Person ν Aufgabe i löst (+), in Abhängigkeit vom Personenparameter %5Cxi%20_%7B%5Cnu%20%7D, das ist das (wahre) Fähigkeitsausmaß von ν, und dreier Aufgaben- bzw. Itemparameter, nämlich %5Csigma%20_%7Bi%7D, das ist der (wahre) Schwierigkeitsgrad von i, %5Calpha%20_%7Bi%7D, das ist die sog. Diskriminationsstärke (zw. versch. Fähigkeitsausmaßen) von i, und %5Cbeta%20_%7Bi%7D, das ist das Erfolgsausmaß beim Versuch des Lösungerratens:

P(%2B|%5Cxi%20_%7B%5Cnu%7D%20%3B%5Csigma%20_%7Bi%7D%2C%5Calpha%20_%7Bi%7D%2C%5Cbeta%20_%7Bi%7D)%3D%5Cfrac%7B%5Cbeta%20_%7Bi%7D%2Be%5E%7B%5Calpha%20_%7Bi%7D%5Cleft%20(%20%5Cxi%20_%7B%5Cnu%20%7D-%5Csigma%20_%7Bi%7D%20%5Cright%20)%7D%7D%7B1%2Be%5E%7B%5Calpha%20_%7Bi%7D%5Cleft%20(%20%5Cxi%20_%7B%5Cnu%20%7D-%5Csigma%20_%7Bi%7D%20%5Cright%20)%7D%7D.

Die Wahrscheinlichkeit für «–», also dafür, dass Person v Aufgabe i nicht löst, resultiert als Komplementärwahrscheinlichkeit. Aus der Formel ist unmittelbar abzuleiten: (1) Die Wahrscheinlichkeit für die Lösung einer Aufgabe strebt mit immer größerem Erfolgsausmaß beim Versuch des Lösungerratens (bei Aufgaben im Multiple-Choice-Antwortformat) gegen 1 (0%5Cleq%20%5Cbeta%20_%7Bi%7D%5Cleq%201), was praktisch heißt, dass alle Distraktoren so unrealistisch gewählt sind, dass selbst Personen mit extrem niedrigem Fähigkeitsausmaß zur Lösung finden. (2) Die Wahrscheinlichkeit für die Lösung einer Aufgabe strebt mit immer größerem %5Cxi%20_%7B%5Cnu%20%7D und/oder mit immer kleinerem Schwierigkeitsgrad %5Csigma%20_%7Bi%7D gegen 1 (-%5Cinfty%20%5Cleq%20%5Cxi%20_%7B%5Cnu%20%7D%5Cleq%20%2B%5Cinfty%3B%20-%5Cinfty%20%5Cleq%20%5Csigma%20_%7Bi%7D%5Cleq%20%2B%5Cinfty). (3) Die Wahrscheinlichkeit für die Lösung einer Aufgabe strebt im umgekehrten Fall, das ist bei immer kleinerem Fähigkeitsausmaß %5Cxi%20_%7B%5Cnu%20%7D und/oder bei immer größerem Schwierigkeitsgrad %5Csigma%20_%7Bi%7D gegen 0 – sofern %5Cbeta%20_%7Bi%7D%3D0. (4) Wenn für zwei Aufgaben zwar der Schwierigkeitsgrad gleich, aber die Diskriminationsstärke (%5Calpha%20_%7Bi%7D%5Cgeq%200) versch. ist, so unterscheiden sich die Wahrscheinlichkeiten für die Lösung zw. zwei Personen mit unterschiedlichem Fähigkeitsausmaß mehr in Bezug auf diejenige Aufgabe mit der höheren Diskriminationsstärke (s. Abb.). Das Modell geht auf den US-amerik. Statistiker Alan Birnbaum (1923–1976; Birnbaum, 1968) zurück und wird heute 3-PL-Modell genannt – von 3 parameter logistic (es modelliert drei versch. Itemparameter).

Postuliert man für alle Aufgaben den Rateparameter %5Cbeta%20_%7Bi%7D%3D0, so vereinfacht sich das 3-PL- zum 2-PL-Modell (ebenfalls von Birnbaum). Dieses Modell muss notwendigerweise gelten, wenn die Testleistungen in einem Test als gewichtete Summe der gelösten Aufgaben verrechnet werden sollen; dabei müssen die Gewichtungen den Diskriminationsparametern %5Calpha%20_%7Bi%7D entsprechen. Passen empirische Daten eines psychol. Tests nicht zu diesem Modell bzw. werden einfach andere Gewichte verwendet, so bilden die resultierenden Testwerte versch. Personen deren empirische Verhaltensrelationen nicht adäquat ab (Skalierung, testtheoretisches Gütekriterium). Umgekehrt, postuliert man für alle Aufgaben den Diskriminationsparameter %5Calpha%20_%7Bi%7D = 1, vereinfacht sich das 3-PL- zum Difficulty plus Guessing-PL-Modell (Kubinger & Draxler, 2006a). Für beide Modelle mit Rateparametern %5Cbeta%20_%7Bi%7D%5Cneq%200 existiert keine erschöpfende Statistik, d. h. kein aus den Daten unmittelbar bestimmbarer Testkennwert, der versch. Testleistungen überhaupt in Relation stellen könnte; vielmehr benötigt man dazu gleich die Parameterschätzungen der Personenparameter über komplizierte math. Schätzalgorithmen. Postuliert man für alle Aufgaben den Rateparameter %5Cbeta%20_%7Bi%7D%3D0 und den Diskriminationsparameter %5Calpha%20_%7Bi%7D%3D1, so vereinfacht sich das 3-PL- zum Rasch-Modell; man spricht auch vom 1-PL-Modell. Es geht auf den dänischen Statistiker Georg Rasch (1901–1980; Rasch, 1960) zurück. Dieses Modell muss notwendigerweise gelten, wenn die Testleistungen in einem Test als Anzahl der gelösten Aufgaben verrechnet werden sollen. Passen empir. Daten eines psychol. Tests nicht zu diesem Modell, so bilden die resultierenden Testwerte versch. Personen deren empir. Verhaltensrelationen nicht adäquat ab.

Alle genannten Modelle setzen implizit voraus, dass die Lösungswahrscheinlichkeit jew. unabh. davon ist, welche anderen Aufgaben die betreffende Testperson bereits gelöst hat bzw. noch lösen wird. D. h. insbes., dass weder Lernprozesse stattfinden, noch die einzelnen Aufgaben derart aufeinander aufbauen dürfen, dass die Lösung einer Aufgabe die Lösung bei einer vorausgehenden Aufgabe voraussetzt (sog. lokale stochastische Unabhängigkeit der Reaktionen). Und alle genannten Modelle eigenen sich für adaptives Testen.

Grundsätzlich ist in der IRT zw. Modellen zu unterscheiden, die «spezif. obj. Vergleiche» ermöglichen, und solchen, die das nicht tun. Vereinfacht bedeutet das, dass für den Vergleich beliebiger Objekte (Aufgaben bzw. Personen) jew. nur spezif. diejenige Information der Daten eingeht, die dafür auch relevant ist, und nicht auch Daten von nicht involvierten Objekten (Aufgaben bzw. Personen). Wie sich zeigen lässt, erfüllt dieses Prinzip das Rasch-Modell (Fischer, 1995), nicht aber die anderen genannten Modelle (Kubinger, 1989). Das hat zur Konsequenz, dass das Rasch-Modell mit einem Modelltest per se prüfbar ist, für die anderen Modelle aber nur die Feststellung der Güte der Passung von Daten an das Modell möglich ist (mittels sog. goodness-of-fit).

An Erweiterungen des Rasch-Modells unter Beibehaltung des Prinzips spezif. obj. Vergleiche ist v. a. das linear-logistische Test-Modell (linear-logistisches Testmodell (LLTM); Fischer, 2005, Kubinger, 2009d) zu nennen. Es beschreibt die im Rasch-Modell angesetzten Schwierigkeitsparameter aufgabenspezif. als Linearkombination von vergleichsweise wenigen, hypothetisch angenommenen sog. Basisparametern; d. h., die Schwierigkeit jeder Aufgabe wird je nach Art und Anzahl lösungsnotwendiger Teiloperationen als gewichtete Summe der Schwierigkeiten dieser Operationen postuliert. Es bietet aber auch die Möglichkeit, durch Festlegung versch. sog. virtueller Items mit jew. demselbem Aufgabenstamm, aber in unterschiedlicher Weise administriert, die Effekte voneinander abweichender Vorgabeweisen zu modellieren und zu prüfen (z. B. Lern- und Positionseffekte, Effekte versch. Antwortformate) zu modellieren und zu prüfen (Kubinger, 2009d). Notwendige Voraussetzung für die Geltung des LLTM ist die Geltung des Rasch-Modells. Erwähnt sei auch die Verallgemeinerung in Form eines mehr-«faktoriellen» Rasch-Modells; dieses sieht vor, dass jede Aufgabe nicht nur auf einer einzigen, und zwar derselben (Fähigkeits-)Dimension misst, sondern auf mehreren, untereinander korrelierten (Adams et al., 1997; Rasch-Modell, mehrdimensionales; Rasch-Modell, mehrdimensionales nominales).

Für den Fall, dass bei den Reaktionen zw. mehr als zwei Möglichkeiten (z. B. zw. gelöst, teilweise gelöst und nicht gelöst) unterschieden wird, kommt das Partial-Credit-Modell (Rasch-Modell, ordinales; Masters, 1982) zum Tragen. Es beruht auf der Annahme, dass inhaltlich geordnete Kategorien vorliegen, zu denen jede Testperson im Bearbeitungsprozess pro Item schrittweise nacheinander, eben bis zur jew. manifest werdenden kommt. Gilt das Modell, so ist die über alle Items summierte Anzahl erfolgter Schritte ein geeigneter Testwert: er schöpft die gesamte relevante Information in Bezug auf das fragliche Eigenschaftsausmaß einer Person aus. Impliziert ist damit eine bei allen Items gleiche, und zwar äquidistante Punktvergabe über die einzelnen Kategorien. Für den Fall bes. vieler solcher Kategorien, d. h. für ein quasi-stetiges Reaktionsmerkmal mit sehr fein abgestuften Merkmalsausprägungen, kommt das sog. kontinuierliche Rasch-Modell (Müller, 1987) zum Tragen; gilt es, so bildet die über alle Items berechnete Summe der erzielten Merkmalsausprägungen die empir. Verhaltensrelationen versch. Testpersonen adäquat ab.

Die Kurven, sog. Item-characteristic-curves (ICC), geben für Aufgaben mit bestimmtem Schwierigkeitsparameter die Lösungswahrscheinlichkeit in Abhängigkeit des Personenparameters an. Mit dem 1-PL Modell sind nur die Aufgaben 1 und 2 konform; sie unterscheiden sich lediglich hinsichtlich der Schwierigkeitsparameter und . Mit dem 2-PL Modell ist zusätzlich Aufgabe 3 verträglich, welches wegen > = trotz = besser zwischen und diskriminiert als Aufgabe 1. Schließlich ist mit dem 3-PL Modell sogar die Aufgabe 4 verträglich, das im Gegensatz zu allen übrigen Aufgaben einen Rateparameter > 0 aufweist.

Referenzen und vertiefende Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.