Skalierung, testtheoretisches Gütekriterium

 

[engl. scaling, test-theoretical quality criterion; lat. scala Treppe], [DIA], innerhalb der psychol. Testtheorie bedeutet Skalierung (= S.) ein bes. Gütekriterium (Kubinger, 2019): Ein Test erfüllt das Gütekriterium S., wenn die laut Verrechnungsvorschriften resultierenden Testwerte die empir. Verhaltensrelationen adäquat abbilden. Grundsätzlich bestehen psychol. Tests immer auch aus genauen Regeln, wie die einzelnen Reaktionen der untersuchten Person je Aufgabe zu einem numerischen Testwert zu verrechnen sind. Werden solche Regeln einfach willkürlich festgelegt, besteht die Gefahr, dass die resultierenden Testwerte nicht diejenigen Relationen zw. versch. Personen wiedergeben, wie sie als empirisch feststellbare Verhaltensrelationen gegeben sind (z. B. entsprechen teilrichtig gegebene Antworten nicht selbstverständlich einer Leistung, die genau zw. jener einer falschen und einer völlig richtigen Antwort liegt, wonach zwei teilrichtige Antworten dasselbe Fähigkeitsausmaß wie eine einzige richtige Antwort ausdrücken würden). Vielmehr bedarf es testtheoret. Methoden, die empirisch prüfen, welche Verrechnungsvorschrift je Test angemessen ist. Es geht also darum, dass die Zahlenrelationen der erhaltenen Testwerte mit den Relationen der – sowohl innerhalb ein und derselben Person als auch zw. versch. Personen – beobachtbaren Verhaltensweisen übereinstimmen.

Die einfachste Verrechnungsvorschrift (Skalierung) sieht als Testwert die Anzahl gelöster Aufgaben vor. D. h., unabhängig davon, welche Aufgaben von einer Person gelöst und welche nicht gelöst wurden, zählt nur die Anzahl der «Treffer». G.H. Fischer (1995) gibt dazu einen Beweis, wonach ein ganz best. Modell der Item-Response-Theorie (IRT), nämlich das (dichotome) Rasch-Modell, notwendigerweise gelten muss: Diese Verrechnungsvorschrift ist nur dann fair in dem Sinn, dass empirische und numerische Relationen übereinstimmen, wenn sich herausstellt, dass die Testleistungen pro Person und Aufgabe so zustande kommen, wie sie die spezif. Wahrscheinlichkeitsfunktion in Form des Rasch-Modells behauptet. Und zwar beschreibt dieses Modell die Wahrscheinlichkeit, dass Person %5Cnu Aufgabe i löst (+), in Abhängigkeit des Personenparameters %5Cxi%20_%7B%5Cnu%20%7D, das ist das (wahre) Fähigkeitsausmaß von %5Cnu, sowie des Aufgaben- bzw. Itemparameters %5Csigma%20_%7Bi%7D, das ist der (wahre) Schwierigkeitsgrad von i, wie folgt:

p%5Cleft%20(%20%2B|%5Cxi%20_%7B%5Cnu%7D%20%2C%5Csigma%20_%7Bi%7D%20%5Cright%20)%3D%5Cfrac%7Be%5E%7B%5Cxi%20_%7B%5Cnu%7D-%5Csigma%20_%7Bi%7D%7D%7D%7B1%2Be%5E%7B%5Cxi%20_%7B%5Cnu%7D-%5Csigma%20_%7Bi%7D%7D%7D

(Genaueres s. unter Rasch-Modell). Da das Rasch-Modell ein prüfbares Modell ist, kann auch tatsächlich die Angemessenheit der genannten Verrechnungsvorschrift für jeden betroffenen Test untersucht werden. D. h., bes. stat. Modelltests erlauben, das Rasch-Modell auf empirische Gültigkeit zu prüfen. Dabei stellt sich regelmäßig heraus, dass psychol. Tests, die diese Verrechnungsvorschrift vorsehen, aber bei ihrer Entwicklung (noch) nicht entspr. geprüft wurden, mit dem Rasch-Modell eben nicht konform gehen: Immer finden sich dann relevante Personengruppen, die hinsichtlich best. Aufgaben systematisch und gravierend in ihrem wahren Fähigkeitsausmaß verkannt werden. Andererseits gelingt es genauso regelmäßig, Tests zu entwickeln, deren Verrechnungsvorschrift nachweislich fair ist, aufgrund einschlägiger Analysen bzw. Modelltests zum Rasch-Modell.

Für best. andere Verrechnungsvorschriften existieren innerhalb der IRT andere Modelle bzw. Verallgemeinerungen des Rasch-Modells (Kubinger, 1989b). Wenn also z. B. zusätzlich zur Bewertung richtig vs. falsch auch teilrichtige Antworten berücksichtigt werden sollen (zumeist 1 Punkt für gewisse teilrichtige Antworten im Vergleich zu vollst. richtigen Antworten mit 2 und zu falschen Antworten mit 0 Punkten), dann müssten modellspezif., aus den Daten geschätzte Kategorienparameter in ihren Relationen zueinander den angenommenen Relationen entspr. (hier also: teilrichtige zu vollst. richtige Antworten in der Form 1:2). Wieder zeigen entsprechende stat. Modelltests häufig für nicht eigens danach konstruierte psychol. Tests, dass dies eben nicht der Fall ist.

Je komplizierter die vorgesehene Verrechnungsvorschrift ist, umso strenger sind die Voraussetzungen bzw. Modellansprüche an einen psychol. Test. So kann der geläufige Intelligenzquotient (IQ) – er bestimmt sich im Wesentlichen aus der Summe von T-Werten oder dgl. in mehreren Untertests einer Testbatterie – zwar mithilfe des sog. kontinuierlichen Rasch-Modells von Müller (1987) bestimmt werden. Testbatterien, für die sich das Modell dann auch tatsächlich als gültig erweist, finden sich aber nicht in der Praxis (Yanagida & Kubinger in print). Für Verrechnungsvorschriften, die vorsehen, einzelne Aufgabenlösungen mit unterschiedlich vielen Punkten zu gewichten, kommen die Modelle von Birnbaum (2- und 3-PL-Modell; Item-Response-Theorie (IRT)) zum Tragen; auch diesbzgl. gibt es aber im dt.sprachigen Raum (noch) keine entspr. geprüften Verfahren. Bei den versch. Verrechnungsmodi und Modellen ist allerdings wesentlich zu unterscheiden: Während das Rasch-Modell eine notwendige Voraussetzung darstellt und prüfbar ist, ist das 2-PL-Modell zwar notwendige Voraussetzung für den fraglichen Verrechnungsmodus, aber nicht eigentlich prüfbar – es kann lediglich die Güte der Passung von Daten und Modell (mittels sog. goodness-of-fit Indizes) bestimmt werden. Andere Modelle wiederum sind insofern hinreichend, als ihre Geltung die betreffende Verrechnungsvorschrift legitimiert, aber nicht zwingend notwendig ist, sodass die Angemessenheit der Verrechnungsvorschrift auch gegeben sein kann, selbst wenn das Modell für den betroffenen Test nicht gilt (Kubinger, 1989b).

Dies alles ist grundsätzlich auch für Persönlichkeitsfragebogen (Persönlichkeitstests) und andere psychol.-diagn. Verfahren zutreffend. Bei Persönlichkeitsfragebogen ist bloß der Begriff «Fähigkeit» durch «Eigenschaft» zu ersetzen, «Schwierigkeit» durch «Herausforderung, einer best. Erlebens- oder Verhaltensweise zuzustimmen», und «Lösung» eben durch «Zustimmung». Allerdings ergibt sich bei Persönlichkeitsfragebogen das praktische Problem, dass Testpersonen Antworten gemäß sozialer Erwünschtheit oder zu ihrem persönlichen Vorteil geben können (vgl. unter den Gütekriterien jenes der Unverfälschbarkeit). Wegen der üblichen Voraussetzung der Modelle der IRT, nämlich eindimensional zu messen (Eindimensionalität), sind sie zur Erklärung des Zustandekommens der Antworten bei Persönlichkeitsfragebogen nur ausnahmsweise geeignet: In die Antwort fließt nicht nur der Grad der eigentlich zu messen beabsichtigten Eigenschaft einer Person ein, sondern auch der Grad ihrer Eigenschaft, ehrlich antworten zu wollen – ganz abgesehen davon, dass bei Persönlichkeitsfragebogen immer auch die Unsicherheit besteht, ob die untersuchte Person überhaupt fähig ist, ihre Erlebens- und Verhaltensweisen «wahrhaftig» zu erfassen.

Für die Praxis der Testkonstruktion findet das Gütekriterium S. in dem Testbeurteilungssystems TBS-TK (Diagnostik- und Testkuratorium, 2018a, 2018b) seinen Niederschlag: Nach diesen Richtlinien wird der Reviewer eines (neu erschienenen) psychol.-diagn. Verfahrens angehalten, auch darauf einzugehen, «ob die laut Verrechnungsvorschriften resultierenden Testwerte die empir. Verhaltensrelationen adäquat abbilden».

Referenzen und vertiefende Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.