Generalisierbarkeitstheorie

 

(= G.) [engl. generalizability theory; lat. generalis allgemein], [DIA, FSE], die G. bietet einen messtheoret. Ansatz, der es erlaubt für definierte Inhaltsbereiche und Anwendungen psychometrischer Instrumente reliable Messungen zu generieren bzw. deren Reliabilität zu bestimmen. Die G. nimmt an, dass die Items einer Skala eine Zufallsauswahl des «Universums» aller möglichen Items darstellen, die den jew. Inhaltsbereich erfassen. Dabei kann jedes Item Bestandteil versch. «Universen» oder Inhaltsbereiche sein und die Reliabilität desselben Items kann je nach untersuchtem Inhaltsbereich variieren. Die bestimmbaren G-Koeffizienten geben an, wie zuverlässig von einem zufällig selektierten Itempool auf das Universum aller möglichen Skalenitems verallgemeinert werden kann. Bei Anwendung der G. wird bei der Skalenkonstruktion das zu messende Konstrukt expliziert, indem seine Facetten (vergleichbar mit Faktoren i. S. der Varianzanalyse) und Bedingungen (vergleichbar mit Faktorstufen) theoretisch begründet festgelegt werden. Hierdurch wird nicht nur gefordert, dass hinreichend systematische Varianz erfasst wird (Kriterium der Reliabilität), sondern auch dass die erfasste Varianz der Varianz des zu messenden Konstrukts entspricht (Kriterium der Validität). Dadurch, dass das zu messende Konstrukt bei der Itemselektion explizit mit in Rechnung gestellt wird, wird somit bei Anwendung der G. die Trennung zw. Reliabilität und Validität aufgehoben. Anstelle dieser Begriffe werden Abhängigkeit (dependability) und Generalisierbarkeit (generalizability) als zentral angesehen (Brennan, 2001). Abhängigkeit bedeutet hierbei, dass Items dem zu messenden Universum entstammen sollen, und Generalisierbarkeit beschreibt die Güte des Schlusses auf die Population aller möglichen Skalenitems.

Es können beliebig komplexe Modellvarianten gewählt werden, die sich im Wesentlichen durch die Anzahl der systematisch untersuchten Varianzquellen ergibt. Im one-facet design ist man daran interessiert den universe score auf Basis der Auswahl an Items zu schätzen. D. h., nur eine Facette (Bedingungen wären hier z. B. die Schwierigkeiten der Items) ist die interessierende Informationsquelle bzgl. der ein verallgemeinernder Schluss gezogen werden soll. Im two-facet design würden zusätzlich zu den Skalenitems z. B. Beantwortungen derselben Items in versch. Situationen oder Wahl versch. Darbietungsformen oder Antwortformate untersucht. Durch die G. können im Ggs. zur Klassischen Testtheorie durch die Verwendung unterschiedlicher Designvarianten (je nach intendierter Verwendung der gewonnenen Daten) unterschiedliche Varianzkomponenten flexibel als Teil der Merkmals- oder aber der Fehlervarianz betrachtet werden.

Als beispielhafte Anwendungsmöglichkeit kann die Analyse der Beurteilerübereinstimmung genannt werden. I. R. der Beurteilerübereinstimmung kann mithilfe der G. geschätzt werden, aus welchen Informationsanteilen oder Varianzkomponenten sich eine indiv. Einschätzung zus.setzt. Beurteilen etwa Pat. die Zufriedenheit mit einer stationären Behandlung in einer Klinik mittels einer intervallskalierten Ratingskala, so könnte analysiert werden, welche Urteilsanteile auf die Facetten Klinik- oder Stationszugehörigkeit, behandelnder Arzt etc. zurückgeführt werden können. Der Generalisierbarkeitskoeffizient bzgl. der Facette Stationszugehörigkeit gibt Hinweise darauf, wie zuverlässig Aussagen für den Vergleich versch. Stationen aufgrund der Ratings von Pat. sind. Zusätzlich lässt sich z. B. bestimmen, wie viele Pat. pro Station befragt werden müssen, um zuverlässige Aussagen über einzelne Stationen sicherstellen zu können. Eine beispielhafte Anwendung i. R. von Mitarbeiterbefragungen in Organisationen findet sich bei Trost & Bungard (2004)Hoyt (2000) zeigt, wie durch die G. Beurteilungsfehler systematisch analysiert werden können.

Verwendete Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.