Adaptives Testen

 

(= A.T.) [engl. adaptive testing; lat. adaptare anpassen], [DIA], beim A. T. werden jeder Testperson in Abhängigkeit von ihrer Leistung in vorausgehenden Aufgaben andere weitere Aufgaben vorgegeben. D. h., nicht jede Person erhält sämtliche Aufgaben eines psychol./päd. Tests – und schon gar nicht in ein und derselben Reihenfolge –, sondern es erfolgt pro Person eine leistungsangepasste Auswahl von Aufgaben aus einem größeren Aufgabenpool. Es werden quasi die Aufgaben(-schwierigkeiten) an das Leistungsvermögen einer Person adaptiert. Dies mit dem Ziel, die Testung auf diejenigen Aufgaben zu beschränken, welche für die angestrebte Fähigkeitsmessung der betroffenen Person tatsächlich informativ sind. Wenig informativ sind Aufgaben, von denen schon von vornherein fast sicher ist, dass sie diese Person lösen wird – oder fast sicher ist, dass sie diese Person nicht lösen wird.

A. T. ist unabdingbar an die Item-Response-Theorie (IRT) gebunden. Weil dabei versch. Testpersonen grundsätzlich versch. Aufgaben erhalten, ist anders als über die Modelle der IRT ein fairer Leistungsvergleich nämlich nicht möglich: Offensichtlich ist die Anzahl gelöster Aufgaben als Testwert ungeeignet; ein und dieselbe Anzahl, z. B. einmal bei leichten Aufgaben, das andere Mal bei schwierigen erzielt, würde die faktischen Testleistungen nicht adäquat abbilden (Skalierung, testtheoretisches Gütekriterium). Vorausgesetzt das infrage kommende Modell der IRT gilt, ist es jedoch möglich, das wahre, aber unbekannte Fähigkeitsausmaß einer beliebigen Person über die jew. Modellgleichung und unter Berücksichtigung der getroffenen Aufgabenauswahl zu schätzen. Dieser Umstand führte auch dazu, dass innerhalb von sog. Large Scale Assessments (Large Scale Assessment, z. B. PISA-Studie), bei denen zu jedem Test viel mehr Aufgaben eingesetzt werden sollen als einer einzelnen Person zumutbar sind, Modelle der IRT Anwendung finden – was eigentlich erst zur Popularität dieser Modelle führte, insbes. des Rasch-Modells und seiner unmittelbaren Verallgemeinerungen.

Die Vorteile des A. T. liegen v. a. in der höheren Testökonomie. Bei Verwendung gleich vieler Aufgaben wie bei konventioneller Vorgabe kann durch den Einsatz durchgängig informativer Aufgaben viel genauer in fein abgestufte Grade der gemessenen Fähigkeit differenziert werden, was zu einer höheren Messgenauigkeit (Reliabilität) führt. Alternativ ist mit weniger, aber sehr informativen Aufgaben die gleiche Messgenauigkeit wie beim konventionellen Testen zu erreichen. Über ein intuitives Verständnis hinaus, was mit «informativer Aufgabe» gemeint ist, hilft der stat. Informationsbegriff (information in the sample) der Theorie der Maximum-Likelihood-Schätzung nach R. A. Fisher (Fischer, 1974); danach bestimmt sich das Ausmaß an «Information» als Funktion der Wahrscheinlichkeit (P), dass Testperson \nu Aufgabe i löst (+) bzw. nicht löst (–):

I(i%2C%5Cnu%20)%3D%5Cfrac%7B%5Cleft%20%5B%20P'(%2B|i%2C%5Cnu%20)%20%5Cright%20%5D%5E%7B2%7D%7D%7BP(%2B|i%2C%5Cnu%20)%5Ccdot%20P(-|i%2C%5Cnu%20)%7D

mit P'(%2B|i%2C%5Cnu%20) als der 1. Ableitung der Funktion der Lösungswahrscheinlichkeit. Ist also die Wahrscheinlichkeit einer Lösung (bzw. der Nichtlösung) einmal durch ein Modell der IRT spezifiziert, so kann für eine best. Person \nu diejenige Aufgabe i aus dem verfügbaren Aufgabenpool ausgewählt werden, welche die nötige Information zur Schätzung des unbekannten Fähigkeitsausmaßes maximiert. Für das bekannteste Modell der IRT, das Rasch-Modell, beläuft sich diese Information auf P(%2B|i%2C%5Cnu%20)%5Ccdot%20P(-|i%2C%5Cnu%20), sodass das angestrebte Maximum bei einer Lösungswahrscheinlichkeit von 0,50 liegt: Diejenige Aufgabe i ist demnach für die Testperson v am informativsten, für welche ihre Chancen zur Lösung 50 : 50 stehen; bei Lösungswahrscheinlichkeiten nahe eins bzw. nahe null ist dagegen auch die Information der Aufgabe nahezu null.

Für die praktische Umsetzung ist es notwendig, dass von einem Aufgabenpool, der einer entspr. empirischen Modellprüfung standgehalten hat, sämtliche Aufgaben- bzw. Itemparameter bekannt sind – ihre Schätzungen in einer ausreichend umfangreichen Kalibrierungsstichprobe werden als die wahren Werte angenommen. Sobald eine erste Schätzung des gesuchten Personenparameters, also des Fähigkeitsausmaßes vorliegt, wird die jew. informativste Aufgabe ausgewählt und vorgegeben. Dies ist i. d. R. dann der Fall, wenn die Testperson bereits mind. eine Aufgabe gelöst und gleichzeitig mind. eine Aufgabe nicht gelöst hat; d. h., zu Beginn wird am besten eine durchschnittlich schwierige Aufgabe vorgegeben und danach je nach Lösungsverhalten eine sehr schwierige oder eine sehr leichte Aufgabe so lange, bis eine Schätzung möglich ist – nach einem bes. Ansatz von Warm (1989) gelingt dies immer schon nach der ersten Aufgabe.

Eine jew. verbesserte Schätzung %5Chat%7B%5Cxi%7D_%7B%5Cnu%20%7D für den unbekannten Personenparameter %5Cxi_%7B%5Cnu%20%7D der Person %5Cnu ergibt sich aufgrund des modellierten Zus.hangs zw. Lösungswahrscheinlichkeit und den einzelnen Parametern als Maximum-Likelihood-Schätzung (Maximum-Likelihood-Methode) aus folg. (Likelihood-)Funktion – hier für den einfachen Fall des Rasch-Modells mit nur einem modellspezif. Itemparameter, nämlich einem Schwierigkeitsparameter (%5Csigma%20_%7Bi%7D):

L_%7B%5Cnu%20%7D%3D%5Cprod_%7Bi%3Df_%7B1%7D(%5Cnu%20))%7D%5E%7Bf_%7Bk_%7B%5Cnu%20%7D%7D(%5Cnu%20)%7D%5Cleft%20(%20%5Cfrac%7Be%5E%7B%5Chat%7B%5Cxi%7D%20_%7B%5Cnu%20%7D-%5Csigma%20_%7Bi%7D%7D%7D%7B1%2Be%5E%7B%5Chat%7B%5Cxi%7D%20_%7B%5Cnu%20%7D-%5Csigma%20_%7Bi%7D%7D%7D%20%5Cright%20)%5E%7Bx_%7B%5Cnu%20i%7D%7D%20%5Ccdot%5Cleft%20(%20%5Cfrac%7B1%7D%7B1%2Be%5E%7B%5Chat%7B%5Cxi%7D%20_%7B%5Cnu%20%7D-%5Csigma%20_%7Bi%7D%7D%7D%20%5Cright%20)%5E%7B1-x_%7B%5Cnu%20i%7D%7D

– mit x_%7B%5Cnu%20i%7D = 1 im Fall der Lösung und x_%7B%5Cnu%20i%7D = 0 im Fall der Nicht-Lösung; f_%7B1%7D(%5Cnu%20)%2Cf_%7B2%7D(%5Cnu%20)%2C...%2Cf_%7Bk_%7B%5Cnu%20%7D%7D(%5Cnu%20) geben die Nummern derjenigen k_%7B%5Cnu%20%7D Items an, welche der Testperson %5Cnu bereits vorgegeben wurden. Offensichtlich können auf diese Weise die Personenparameter(-schätzungen) versch. Personen, die mit unterschiedlichen Aufgaben getestet wurden, die erbrachten Leistungen fair in Relation stellen.

Als Abbruchkriterium der weiteren Testvorgabe kann beim A. T. der Standardschätzfehler herangezogen werden: Entweder ist die aktuelle Schätzung des Personenparameters bereits mit einem kritisch geringen Standardschätzfehler verbunden oder die verbleibenden Aufgaben erlauben den bisher erzielten Standardschätzfehler ohnehin kaum mehr zu unterbieten. Der Standardschätzfehler bestimmt sich dabei als Kehrwert der über alle vorgegebenen Aufgaben summierten Information (vgl. Fischer, 1974), das ist für das Rasch-Modell:

S(%5Chat%7B%5Cxi%20%7D_%7B%5Cnu%20%7D)%3D%5Csqrt%7B%5Cfrac%7B1%7D%7B%5Csum_%7Bi%3Df_%7B1%7D(%5Cnu%20)%7D%5E%7Bf_%7Bk_%7B%5Cnu%20%7D%7D(%5Cnu%20)%7DI(i%2C%5Cnu%20)%7D%7D%3D%5Cleft%20%5B%20%5Csum_%7Bi%3Df_%7B1%7D(%5Cnu)%20%7D%5E%7Bf_%7Bk_%7B%5Cnu%7D%20(%5Cnu%20)%7D%7D%5Cfrac%7Be%5E%7B%5Chat%7B%5Cxi%7D_%7B%5Cnu%20%7D-%5Csigma%20_%7Bi%7D%20%7D%7D%7B1%2Be%5E%7B%5Chat%7B%5Cxi%7D_%7B%5Cnu%20%7D-%5Csigma%20_%7Bi%7D%7D%7D%5Ccdot%20%5Cfrac%7B1%7D%7B1%2Be%5E%7B%5Chat%7B%5Cxi%7D_%7B%5Cnu%20%7D-%5Csigma%20_%7Bi%7D%7D%7D%5Cright%20%5D%5E%7B-%5Cfrac%7B1%7D%7B2%7D%7D

 

Alternativ kann als Abbruchkriterium auch das Ergebnis herangezogen werden, dass zwei aufeinander folg. Personenparameterschätzungen ein und derselben Person kaum mehr abweichen.

Das Prozedere, nach jeder einzelnen Aufgabe die nächste max. informative auszuwählen, also für die betreffende Person «maßgeschneidert» vorzugehen, bez. man genauer als tailored testing. Wegen der aufwendigen Berechnungen – aktuelle Schätzung des Personenparameters und Auswahl der max. informativen nächsten Aufgabe nach jeder einzelnen Aufgabenbearbeitung – macht das tailored testing die Vorgabe am Computer oder zumindest eine computertunterstützte Administration notwendig. Dagegen ermöglicht das sog. branched testing, bei dem die leistungsangepasste Aufgabenauswahl gemäß einer von vornherein festgelegten Verzweigungsstrategie zw. versch. Aufgabengruppen erfolgt, auch die traditionelle Vorgabe, ohne Nutzung eines Computers. Allerdings verringert die Aufgabenauswahl immer erst nach einer kleinen Gruppe von Aufgaben anstatt nach jeder einzelnen die Testökonomie, d. h., zur Erreichung derselben Messgenauigkeit wie beim tailored testing benötigt man etwas mehr Aufgaben – grundsätzlich aber weit weniger als beim konventionellen Testen (vgl. Kubinger, 2016).

Die Testbatterie AID 3 (Adaptives Intelligenz Diagnostikum – Version 3.1) setzt nicht nur das Prinzip des branched testings um, sondern bietet alternativ, computergestützt, mit demselben Testmaterial auch das Prinzip des tailored testings an (AID_3_tailored; Kubinger & Spohn, 2017).

Neu sind Ansätze zu einer Art mehr-«faktoriellen»  A. T. Im Fall, dass die Aufgaben eines Tests gleichzeitig mehr als eine einzige Fähigkeit messen (sollen) – wobei diese Fähigkeiten mehr oder weniger stark korrelieren –, geht es dabei darum, jew. diejenige Aufgabe auszuwählen, welche in Bezug auf die Schätzung des gesamten Personenparametervektors einer Person max. informativ ist (Frey & Seitz, 2009). Dies ist insbes. im Zus.hang mit Large Scale Assessments von Bedeutung.

Verwendete Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.