Latente Klassenanalyse

 

(= LCA), [engl. latent class analysis], [FSE], die LCA ist ein Modell zur explorativen Analyse von kategorialen Daten. Die Daten bestehen aus dichotomen, nominalen oder ordinalen Variablen (Skalenniveau), die an einer Stichprobe von Individuen oder Objekten, meist Personen, erhoben wurden. Das Ziel einer stat. Analyse mit der LCA besteht darin, die zw. den beobachteten und damit manifesten Variablen bestehenden Zusammenhänge (Kontingenz) mittels der Konstruktion latenter Variable (hypothetische Konstrukte) zu beschreiben und zu erklären (z. B. Fähigkeiten, Persönlichkeitskonstrukte (Persönlichkeitsmerkmal), Traits). Oft geschieht dies mit probabilistischen Modellen (Item-Response-Theorie (IRT), Rasch-Modell), bei denen i. d. R. nur eine latente Variable angenommen wird, die quant. ist und eine Metrik besitzt (Intervallskala). Bei der LCA nimmt man i. d. R. auch nur eine latente Variable an, diese ist aber kategorial und unterscheidet zwei, drei oder noch mehr Kategorien (Klassen von Personen, Typen). Diese latente kategoriale Variable wird mittels eines geeigneten Algorithmus konstruiert. Die grobe Zielsetzung dieser Suche nach einer Klasseneinteilung hat die LCA mit der Clusteranalyse gemeinsam. Beide Verfahren suchen diejenige Klasseneinteilung, welche die Personen in max. homogene Klassen oder Cluster einteilt, die zugleich zw. den Klassen max. heterogen sind. Während bei einer Clusteranalyse die Daten zunächst in eine Ähnlichkeitsmatrix transformiert werden, die angibt, wie ähnlich sich je zwei Personen sind, folgt eine LCA einem anderen Homogenitätsprinzip. Hier sollen die in den Daten vorhandenen Zusammenhänge zw. den manifesten Variablen zum Verschwinden gebracht werden, wenn man nur die Personen innerhalb der latenten Klasse betrachtet. In dieser Zielsetzung sind sich IRT-Modelle und LCA gleich: die latente Variable, die im einen Fall quant., im anderen Fall kategorial ist, wird so konstruiert, dass die manifesten Kontingenzen (Korrelation) verschwinden, wenn die latente Variable konstant gehalten wird. Dieses Prinzip nennt man die lokale stochastische Unabhängigkeit: Diese besagt, dass die manifesten Variablen unabhängig [engl. independent] sind, wenn man den Wert der latenten Variable an einem Ort [lat. locus] festhält. Während man üblicherweise die manifesten Variablen und ihre Zusammenhänge dadurch zu erklären versucht, dass man möglichst hohe Korrelationen zw. dem explanandum und dem explanans nachweist, bedeutet «erklären» in probabilistischen Modellen, Korrelationen klein werden zu lassen, im Idealfall gleich null.

Die Grundstruktur der LCA lässt sich als Formel ausdrücken, die die postulierten Beziehungen zw. den manifesten und latenten Variablen folgendermaßen wiedergibt:

p(X)%3D%5Csum_%7Bc%7Dp(c)p(%20X|c%20)

Links vom Gleichheitszeichen steht die Wahrscheinlichkeitp der Daten X und rechts davon stehen mehrere bedingte Wahrscheinlichkeiten, die jew. in der c-ten Klasse gültig sind. Mit dem Buchstaben c wird die latente Variable (latent classes) gekennzeichnet. Die (unbedingte) Wahrscheinlichkeit der manifesten Variablen erhält man durch Summation (Σ) über alle latenten Klassen c, wobei jede bedingte Wahrscheinlichkeit mit der jew. Klassengröße p(c) multipliziert werden muss.

Diese Modellgleichung ist über das Konzept der LCA hinaus von Bedeutung, gibt es doch die allg. Struktur von diskreten Mischverteilungsmodellen (MVM) wieder (Mischverteilungsanalyse). Diese Modellfamilie betrachtet empirische Verteilungen potenziell als Mischung mehrerer latenter Verteilungen mit jew. anderen Verteilungsparametern. Wie bei der Anwendung jedes MVM besteht das erste Ziel einer Datenanalyse darin, die Daten zu entmischen und die Parameter der Mischungskomponenten zu bestimmen. In diesem Sinn ist die LCA ein spez. MVM, das die Wahrscheinlichkeiten von kategorialen Personenmerkmalen in latente Verteilungen entmischt. Ob das jew. Modell einer Mischung mehrerer latenter Verteilungen auf die Daten passt, kann mit Chi-Quadrat Tests oder Likelihood-Quotienten-Tests (Likelihood-Ratio) (sofern die asymptotischen Voraussetzungen erfüllt sind) oder mit informationstheoretischen Maßen (AIC, BIC oder CAIC) getestet werden. Da die dabei zugrunde gelegte Klassenanzahl c selbst kein Modellparameter ist, müssen die infrage kommenden Klassenanzahlen durchgerechnet und ihre Modellgültigkeiten miteinander verglichen werden.

Es gibt versch. stat. Modelle, die unabhängig von der LCA entwickelt wurden, sich aber im Nachhinein als restringierte oder verallgemeinerte LC-Modelle darstellen lassen (Parameterrestriktionen). Modelle mit mehreren kategorialen latenten Variablen lassen sich über die Gleichsetzung von bedingten Wahrscheinlichkeiten aus versch. latenten Klassen spezifizieren (equality constraints; Langeheine, 1988). Die Gleichsetzung von Klassengrößenparametern oder ihre Fixierung auf best. Werte stellt eine gute Alternative zum Mediansplit oder zu einer Quartileinteilung anhand der Scoreverteilung dar. Will man jedoch lineare Restriktionen für die Modellparameter einführen, so kann die Formalisierung der LCA mit Wahrscheinlichkeitsparametern an Grenzen stoßen. Man kann daher die Wahrscheinlichkeiten

p(X|c)%3D%5Cfrac%7Be%5Ea%7D%7B1%2Be%5Ea%7D

durch ihre Logits (Regression, logistische) ersetzen und erhält Parameter, deren Wertebereich nicht auf das Intervall von 0 bis 1 beschränkt ist. Formann (1999) führt diese Parameter mittels einer Designmatrix auf lineare Basisparameter zurück (linear-logistische latente Klassenanalyse). Eine mögliche Anwendung dieser linear-logistischen Restriktion stellt das Rasch-Modell dar, das sich mittels equality constraints der linearen Basisparameter spezifizieren lässt (Formann, 1999).

Das Konzept geordneter Klassen besagt, dass sich die latenten Klassen so anordnen lassen, dass sämtliche bedingte Wahrscheinlichkeiten einer Klasse c größer sind als in einer Klasse d. Handelt es sich um einen Fähigkeitstest, für den sich die Klassen überschneidungsfrei ordnen lassen, so kann dies als ein Indikator gewertet werden, dass mit den Testitems tatsächlich ein latenter trait gemessen wird (Rost, 1999). Die Mokken-Skalierung kann als dasjenige latent-Trait-Modell betrachtet werden, das einem LC-Modell mit einer entspr. Anzahl geordneter Klassen entspricht.

Die linear-logistische Klassenanalyse (Rasch-Modell, linear-logistisches) lässt auch die Spezifizierung von Modellen für ordinale Daten zu (Rost, 1999). Dabei werden, genauso wie im Rasch-Modell für ordinale Daten, die Lokationen von Schwellen auf einem latenten Kontinuum parametrisiert, sodass aus der Anordnung der Schwellenparameter auf die Ordnung der Antwortkategorien geschlossen werden kann.

Das Mixed-Rasch-Modell (MRM, Rost, 1990) ist dagegen keine Restriktion der LCA und auch keine triviale Reparametrisierung, sondern es ersetzt die in LC-Modellen getroffene Annahme lokal unabhängiger Variablen innerhalb der Klassen durch die Annahme, dass innerhalb jeder Klasse das Rasch-Modell gilt. [statisticalinnovations.com/products/latentgold.html].

Referenzen und vertiefende Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.