Reliabilitäts-Validitätsdilemma
[engl. reliability-validity dilemma/-tradeoff; gr. δίσ- (dis) zwei, λημμα (lemma) Annahme], [DIA], Reliabilität (Genauigkeit) und Validität (Gültigkeit) stellen die beiden wichtigsten Gütekriterien der Testkonstruktion dar. Bei der Entwicklung eines Tests gilt es, beide Kriterien gleichzeitig zu optimieren. Die Reliabilität eines Tests steigt an, wenn man die Testitems inhaltlich homogener, also ähnlicher macht, die Validität steigt an, wenn man die Items inhaltlich heterogener macht (vorausgesetzt, die Items repräsentieren valide das zu messende Konstrukt). Gleichzeitig den Test reliabler und valider zu machen hat also etwas von einem Dilemma an sich. I. R. der KTT (Klassische Testtheorie) ist ableitbar, dass die Validität eines Tests nicht größer sein kann als seine Reliabilität, sofern die Reliabilität des Kriteriums kleiner oder gleich der Reliabilität des Tests ist. Man muss also eine hohe Reliabilität des Tests anstreben, um der Validität «eine Chance» zu lassen: Tatsächlich lässt sich aber auch im Rahmen der KTT formal ableiten, dass die Validität eines Tests sinkt, wenn man die Reliabilität des Tests steigert. Bezeichnet X das Testergebnis und Y ein Validitätskriterium des Tests, so entspricht die Validität des Tests der Korrelation r(X,Y) von Test und Kriterium. Die besagte Formel beschreibt die Validität eines Tests als einen Quotienten, in dessen Zähler die Validität aller Items i auftreten , und in dessen Nenner die Trennschärfen der Items und somit deren Reliabilität
auftreten . Die Validität des Gesamttests kann also mit steigender Reliabilität sinken. Die Optimierung eines Tests in Richtung des einen Kriteriums macht den Test hinsichtlich des anderen Kriteriums schlechter. Die Konsequenzen dieses Reliabilitäts-Validitätsdilemmas sind jedoch nicht sehr dramatisch, wenn die gewünschte Validität des Tests auch über die Aufteilung des Tests in mehrere Untertests realisiert werden kann. Wird jedoch nur die Reliabilität eines Tests berücksichtigt und werden ggf. Items einer Testskala eliminiert, die trotz wichtiger Validitätsaspekte eine schwache Reliabilität aufweisen, so kann die Validität der Messung beeinträchtigt werden. Erfragen alle Items einer Angstskala Informationen zu «Angst im Dunkeln», so ergibt sich ggf. eine hohe Homogenität bzw. Reliabilität der Skala, ohne dass diese den Anspruch einlöst, das Konstrukt Angst in seiner Breite valide abzubilden.