Reliabilitäts-Validitätsdilemma

 

[engl. reliability-validity dilemma/-tradeoff; gr. δίσ- (dis) zwei, λημμα (lemma) Annahme], [DIA], Reliabilität (= R.; Genauigkeit) und Validität (= V.; Gültigkeit) stellen die beiden wichtigsten Gütekriterien der Testkonstruktion dar. Bei der Entwicklung eines Tests gilt es, beide Kriterien gleichzeitig zu optimieren. Die R. eines Tests steigt an, wenn man die Testitems inhaltlich homogener, also ähnlicher macht, die V. steigt an, wenn man die Items inhaltlich heterogener macht (vorausgesetzt, die Items repräsentieren valide das zu messende Konstrukt). Gleichzeitig den Test reliabler und valider zu machen hat also etwas von einem Dilemma an sich. I. R. der KTT (Klassische Testtheorie) ist ableitbar, dass die V. eines Tests nicht größer sein kann als seine R., sofern die R. des Kriteriums kleiner oder gleich der R. des Tests ist. Man muss also eine hohe R. des Tests anstreben, um der V. «eine Chance» zu lassen: Tatsächlich lässt sich aber auch im Rahmen der KTT formal ableiten, dass die Validität eines Tests sinkt, wenn man die R. des Tests steigert. Bezeichnet X das Testergebnis und Y ein V.kriterium des Tests, so entspricht die V. des Tests der Korrelation r(X,Y) von Test und Kriterium. Die besagte Formel beschreibt die V. eines Tests als einen Quotienten, in dessen Zähler die V. aller Items i auftreten r(x_%7Bi%7D%2CY), und in dessen Nenner die Trennschärfen der Items und somit deren R. r(X%2C%20y_%7Bi%7D) auftreten . Die V. des Gesamttests kann also mit steigender R. sinken. Die Optimierung eines Tests in Richtung des einen Kriteriums macht den Test hinsichtlich des anderen Kriteriums schlechter. Die Konsequenzen dieses Dilemmas sind jedoch nicht sehr dramatisch, wenn die gewünschte V. des Tests auch über die Aufteilung des Tests in mehrere Untertests realisiert werden kann. Wird jedoch nur die R. eines Tests berücksichtigt und werden ggf. Items einer Testskala eliminiert, die trotz wichtiger V.aspekte eine schwache R. aufweisen, so kann die V. der Messung beeinträchtigt werden. Erfragen alle Items einer Angstskala Informationen zu «Angst im Dunkeln», so ergibt sich ggf. eine hohe Homogenität bzw. R. der Skala, ohne dass diese den Anspruch einlöst, das Konstrukt Angst in seiner Breite valide abzubilden.