Rasch-Modell

 

(= RM.) [engl. Rasch model], [DIA], gilt als Grundmodell der Item-Response-Theorie (IRT). Es geht auf den dänischen Statistiker Georg Rasch (1901–1980; Rasch, 1960/1980) zurück und beschreibt die Wahrscheinlichkeit, dass eine Person %5Cnu Aufgabe i löst (+), in Abhängigkeit eines Personenparameters %5Cxi%20_%7B%5Cnu%20%7D (alternative Notation: %5Ctheta%20_%7B%5Cnu%20%7D), das ist das (wahre) Fähigkeitsausmaß von %5Cnu, und eines Aufgaben- oder Itemparameters %5Csigma%20_%7Bi%7D, das ist der (wahre) Schwierigkeitsgrad von i. Die Modellannahmen lauten wie folgt: (1) Das Ausmaß an interessierender Fähigkeit je Person ist durch einen einzigen Parameter zu charakterisieren; die Fähigkeit stellt also ein eindimensionales Merkmal dar. (2) Der Grad der Schwierigkeit je Aufgabe ist durch einen einzigen Parameter zu charakterisieren; die Schwierigkeit stellt also ebenfalls ein eindimensionales Merkmal dar. (3) Beide Parameter messen auf derselben Skala. (4) Die Leistungen (gelöst oder eben nicht gelöst) sind für jede Person über alle Aufgaben hinweg «lokal stochastisch unabhängig»; d. h., ob eine best. Person eine best. Aufgabe löst oder nicht löst, hängt – abgesehen vom Zufall – nur von ihrer Fähigkeit und der Schwierigkeit der Aufgabe ab, nicht aber davon, welche anderen Aufgaben sie bereits gelöst hat oder noch lösen wird. Als Wahrscheinlichkeitsfunktion wird die logistische Funktion postuliert:

P%5Cleft%20(%20%2B|%5Cxi%20_%7B%5Cnu%20%7D%2C%5Csigma%20_%7Bi%7D%20%5Cright%20)%3D%5Cfrac%7Be%5E%7B%5Cxi%20_%7B%5Cnu%20%7D-%5Csigma%20_%7Bi%7D%7D%7D%7B1%2Be%5E%7B%5Cxi%20_%7B%5Cnu%20%7D-%5Csigma%20_%7Bi%7D%7D%7D.

Die Wahrscheinlichkeit für «–», also dafür, dass Person %5Cnu Aufgabe i nicht löst, resultiert als Komplementärwahrscheinlichkeit. Aus der Formel ist unmittelbar abzuleiten: (1) Die Wahrscheinlichkeit für die Lösung einer Aufgabe strebt mit immer größerem Fähigkeitsausmaß %5Cxi%20_%7B%5Cnu%20%7D und/oder mit immer kleinerem Schwierigkeitsgrad %5Csigma%20_%7Bi%7D gegen 1 (-%5Cinfty%20%5Cleq%20%5Cxi%20_%7B%5Cnu%20%7D%5Cleq%20%5Cinfty; -%5Cinfty%20%5Cleq%20%5Csigma%20_%7Bi%20%7D%5Cleq%20%5Cinfty). (2) Die Wahrscheinlichkeit für die Lösung einer Aufgabe strebt im umgekehrten Fall, das ist bei immer kleinerem Fähigkeitsausmaß %5Cxi%20_%7B%5Cnu%20%7D und/oder bei immer größerem Schwierigkeitsgrad %5Csigma%20_%7Bi%7D gegen 0. (3) Sind %5Cxi%20_%7B%5Cnu%20%7D und %5Csigma%20_%7Bi%7D gleich, d. h., entspricht der Schwierigkeitsgrad einer Aufgabe dem Fähigkeitsausmaß, also dem indiv. Leistungsniveau einer Person, dann beträgt die Wahrscheinlichkeit für die Lösung ½ = 0,50.

Die Bedeutung des RM. ist darin begründet, dass es immer dann gelten muss, wenn ein psychol. Test als Testwert die Anzahl gelöster Aufgaben verrechnet (Skalierung, testtheoretisches Gütekriterium). D. h., geht in den Testwert nicht ein, genau welche Aufgaben von der Testperson gelöst wurden und welche nicht, so müssen die Aufgaben des Tests diesem Modell empirisch bestätigt konform gehen, um zu garantieren, dass dieser Testwert tatsächlich die gesamte relevante Information in Bezug auf das fragliche Fähigkeitsausmaß der Testperson ausschöpft und die Testleistungen versch. Testpersonen fair miteinander vergleichen lässt (einen Beweis dieses Gesetzes gibt Fischer, 1995).

Eine bes. Eigenheit des RM. erlaubt einen Modelltest per se und nicht nur, wie etliche andere Modelle (der IRT), eine Feststellung der Güte der Passung von Daten an das Modell mittels sog. goodness-of-fit Indizes. Der Modelltest leitet sich daraus ab, dass das RM (stat.) stichprobenunabhängig misst: Der Vergleich je zweier Aufgaben, etwa i und j, bzgl. ihrer Itemparameter %5Csigma%20_%7Bi%7D und %5Csigma%20_%7Bj%7D ist im Fall der Geltung des RM unabhängig davon, welche Personenstichprobe dafür verwendet wird – bei der Schätzung dieser Parameter spielt die Wahl der Stichprobe aus einer best. Population für die stat. Inferenz keine Rolle (z. B. Kubinger, 2003c); man spricht von Spezif. Objektivität der Vergleiche (z. B. Scheiblechner, 2009). Wenn demnach in zwei versch. Teilstichproben (z. B. männlich vs. weiblich) wenigstens bei einer Aufgabe (deutlich) unterschiedliche Schätzungen des zugehörigen Itemparameters resultieren (Differential Item Functioning (DIF)), so bedeutet das, dass das RM. nicht gilt, der psychol. Test mit seiner Verrechnungsvorschrift leistungsinadäquate Testwerte produziert: Gleiche Testwerte drücken nicht gleiche Leistungen aus. Die Methode der Wahl als entspr. Modelltest stellt Andersens (bedingter) Likelihood-Ratio-Test dar (diesen und etliche andere Modelltests zum RM. beschreiben Kubinger, 1989a, Glas & Verhelst, 1995).

Da sich bei der Kalibrierung eines psychol. Tests nach dem RM zumeist einige (wenige) Aufgaben als nicht modellkonform erweisen, werden diese üblicherweise ausgeschieden, bevor der Test zum Einsatz in der Praxis kommt. Kubinger (2005) schlägt dafür Standards vor, die im Wesentlichen auf Folg. abzielen: (1) Um den «Grad der Bewährung» sensu Popper für einen psychol. Test in Bezug auf Konformität mit dem RM. hochzuhalten, sollten Modelltests betreffs mehrerer Teilungen der Personenstichprobe durchgeführt werden. (2) Um dabei das Risiko 1. Art (Fehler erster Art) nicht allzu sehr zu überhöhen, sollten allerdings nicht zu viele solche Modelltests durchgeführt werden. (3) Ein Ausscheiden von Aufgaben sollte – am besten unter Zuhilfenahme von Raschs Grafischer Modellkontrolle – sukzessive so lange erfolgen, bis a posteriori Modellkonformität gegeben ist. (4) Gelingt dies, ist die Modellkonformität für genau diesen verbleibenden Aufgabenpool noch anhand einer neuen, unabhängigen Stichprobe zu prüfen («Art Kreuzvalidierung», Kubinger et al., 2011).

Problematisch im Zus.hang mit der Kalibrierung eines psychol. Tests nach dem RM. ist, dass der zur möglichst genauen Schätzung der (Item-)Parameter notwendige, extrem große Stichprobenumfang zumeist dazu führt, dass der Modelltest signifikant (Signifikanz) wird, obwohl die Modellabweichung praktisch vernachlässigbar ist. Der Theorie der Statistik besser entspricht es daher, den nötigen (min.) Stichprobenumfang bei gegebenem relevantem Effekt (das Ausmaß praktisch nicht mehr tolerierbarer Modellabweichung) für den Modelltest vorweg danach zu berechnen, dass bei festgelegten Risiken 1. und 2. Art (Fehler erster Art, Fehler zweiter Art) noch größere Modellabweichungen höchstens mit einer Wahrscheinlichkeit in der Höhe ebendieses Risikos 2. Art nicht entdeckt werden. Eine Lösung dieses Problems geben Kubinger et al. (2009) bzw. Draxler, 2010.

Kritisch ist, dass sich manche Anwendungen des RM. gar nicht seiner herausragenden Eigenheit bedienen, nämlich spezif. obj. Vergleiche zu ermöglichen. Verwendet man aber statt bedingter Maximum-Likelihood-Schätzungen (CML-Schätzungen, «C» von conditional) – bei denen also die Schätzung der Itemparameter unter der Bedingung erfolgt, die ebenfalls unbekannten Personenparameter aller Personen sind je Anzahl gelöster Aufgaben immer gleich – diverse unbedingte Schätzmethoden z. B. mit best. Verteilungsannahmen über die Personenparameter, wird man dieses Vorteils verlustig. Nicht nur, dass dann die Kalibrierung eines psychol. Tests (extrem) stichprobenabhängig wird bzw. auf unprüfbaren Voraussetzungen beruht, gibt es auch keinen Modelltest mehr, sondern lediglich Ansätze zur Bestimmung der Anpassungsgüte der Daten an das Modell.

Verallgemeinerungen zum RM., insbes. solche, die nicht spezif. obj. Vergleiche der Itemparameter ermöglichen, s. unter Item-Response-Theorie (IRT). Zu Modellen, die über eine Bewertung von gelöst vs. nicht gelöst hinausgehen und mehrkategorielle Goutierungen vorsehen, s. unter Rasch-Modell, ordinales. Rasch-Modell, mehrdimensionales, Rasch-Modell, mehrdimensionales nominales.

Referenzen und vertiefende Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.