Log-lineare Modelle

 

(= L.), [FSE], multivariate stat. Verfahren zur Analyse von zwei- (z. B. Stressverarbeitungstyp, Gesundheitsbeschwerden) oder mehrdimensionalen (z. B. dreidimensional: Stressverarbeitungstyp, Gesundheitsbeeinträchtigung, Geschlecht) Kontingenz- bzw. Häufigkeitstabellen (z. B. Vierfeldertafel). Ziel der Analyse ist es, die Häufigkeiten in den Zellen n_%7Bij%7D (z. B. Häufigkeit von Gesundheitsbeeinträchtigung i bei Stressverarbeitungstyp j) durch die Ausprägungen der kategorialen Merkmale (hier: Gesundheitsbeeinträchtigung, Stressverarbeitungstyp) vorherzusagen.

Für 2 x 2-Kontingenztabellen kann bspw. ein additives Modell bestimmt werden (alternativ: mulitplikatives Modell). Bei diesem werden anstatt der Häufigkeiten die logarithmierten Häufigkeiten ln(n_%7Bij%7D) betrachtet. Diese Logarithmierung ist erforderlich, damit eine additive Zerlegung der Einflüsse der Ausprägungen der kategorialen Merkmale auf die Häufigkeiten erfolgen kann. Hierbei ergibt sich eine ähnliche Modellgleichung wie bei der zweifaktoriellen Varianzanalyse, bei der 2 Haupteffekte und ein Interaktionseffekt modelliert bzw. geschätzt werden:

ln(n_%7Bij%7D)%3Dln(%5Chat%7B%5Cgamma%20%7D)%2Bln(%5Chat%7B%5Cgamma%7D_%7Bi%7D%5E%7BA%7D)%2Bln(%5Chat%7B%5Cgamma%7D_%7Bj%7D%5E%7BB%7D)%2Bln(%5Chat%7B%5Cgamma%7D_%7Bij%7D%5E%7BAB%7D)

ln(%5Chat%7B%5Cgamma%20%7D) = Mittelwert aller logarithmierten Zellhäufigkeiten.

ln(%5Chat%7B%5Cgamma%20%7D_%7Bi%7D%5E%7BA%7D) = Abweichung des Mittelwerts der logarithmierten Zellhäufigkeiten, wenn das kategoriale Merkmal A den Wert i annimmt, von ln(%5Chat%7B%5Cgamma%20%7D). Also z. B.(%5Cleft%20(ln(%5Chat%7B%5Cgamma%7D_%7B00%7D)%2Bln(%5Chat%7B%5Cgamma%7D_%7B01%7D)%20%5Cright%20)%2F2)-ln(%5Chat%7B%5Cgamma%7D%20) für Kategorie 0 in A.

ln(%5Chat%7B%5Cgamma%7D_%7Bj%7D%5E%7BB%7D) = Abweichung des Mittelwerts der logarithmierten Zellhäufigkeiten, wenn das kategoriale Merkmal B den Wert j annimmt, von ln(%5Chat%7B%5Cgamma%7D). Also z. B. (%5Cleft%20(ln(%5Chat%7B%5Cgamma%7D_%7B00%7D)%2Bln(%5Chat%7B%5Cgamma%7D_%7B10%7D)%20%5Cright%20)%2F2)-ln(%5Chat%7B%5Cgamma%7D%20) für Kategorie 0 in B.

ln(%5Chat%7B%5Cgamma%7D_%7Bij%7D%5E%7BAB%7D) = Abweichung der logarithmierten Zellhäufigkeit der logarithmierten Zellhäufigkeiten (ln(n_%7Bij%7D)) von der Vorhersage der Zellhäufigkeit aufgrund der beiden Haupteffekte (ln(%5Chat%7B%5Cgamma%20%7D)%2Bln(%5Chat%7B%5Cgamma%20%7D_%7Bi%7D%5E%7BA%7D)%2B...%2Bln(%5Chat%7B%5Cgamma%20%7D_%7Bj%7D%5E%7BB%7D)).

Angenommen, ein Gesundheitsproblem tritt für Mitarbeiter, die Stressverarbeitungsstil A anwenden, in 20 von 200 Fällen auf (n_%7B00%7D%3D180%2C%20ln%20(n_%7B01%7D)%3D5%2C19n_%7B01%7D%3D20%2C%20ln%20(n_%7B01%7D)%3D3%2C00). Für den Stressverarbeitungsstil B wird das Gesundheitsproblem hingegen in 50 von 200 Fällen diagnostiziert (n_%7B10%7D%3D150%2C%20ln%20(n_%7B10%7D)%3D5%2C01; n_%7B11%7D%3D50%2C%20ln%20(n_%7B11%7D)%3D3%2C91). Dann würde die Modellgleichung für die Zelle 11 lauten:

3%2C91%3D4%2C28-0%2C82%2B0%2C18%2B0%2C27, da

ln(%5Chat%7B%5Cgamma%20%7D)%3D(5%2C19%2B3%2C00%2B5%2C01%2B3%2C91)%3D4%2C28

ln(%5Chat%7B%5Cgamma_%7B1%7D%7D%5E%7BA%7D)%3D((5%2C01%2B3%2C91)%2F2)-4%2C28%3D%2B0%2C18

ln(%5Chat%7B%5Cgamma%7D_%7B1%7D%5E%7BB%7D)%3D((3%2C00%2B3%2C91)%2F2)-4%2C28%3D-0%2C82

ln(%5Chat%7B%5Cgamma%7D_%7B11%7D%5E%7BAB%7D)%3D3%2C91-(4%2C28%2B0%2C18-0%2C82)%3D%2B0%2C27

Diese Parameter können auf Signifikanz gestestet werden (Signifikanztest) und es können Konfidenzintervalle bestimmt werden. Für die Prüfung des Zusammenhangs (Korrelation) der kategorialen Merkmale ist die Signifikanz der Interaktion %5Chat%7B%5Cgamma%7D_%7Bij%7D%5E%7BAB%7D entscheidend, da der Interaktionseffekt den zellenspezifischen Effekt repräsentiert, der nicht durch die additiven Effekte der einzelnen kategorialen Merkmale A und B modelliert werden kann. Dies würde hier bedeuten, dass das Auftreten des Gesundheitsproblems mit dem Stressverarbeitungsstil in Zusammenhang steht, weil die logarithmierte Häufigkeit der Kombination nicht durch die logarithmierte Häufigkeit des Gesundheitsproblems und die logarithmierte Häufigkeit des Stressverarbeitungsstils vorhergesagt werden kann.

Bei kategorialen Merkmalen mit k > 2 Kategorien muss eine Referenzkategorie definiert werden (z. B. Referenzkategorie: k. Gesundheitsbeschwerden; Vergleichsgruppe A = Erkrankungstyp I; Vergleichsgruppe B = Erkrankungstyp II). Dann werden für jede Vergleichsgruppe Kontrasteffekte im Vergleich zur Referenzkategorie bestimmt.

Neben der Signifikanz der einzelnen Haupt- und Interaktionseffekte kann ein spezifiziertes Modell hinsichtlich der Güte der Vorhersage der Zellhäufigkeiten gegen ein allgemeineres oder ein strenger spezifiziertes Modell getestet werden. Solche Modellvergleiche sind möglich, wenn es sich um hierachisch geschachtelte oder genestete Modelle handelt: Dies ist der Fall, wenn eines der beiden Modelle auf Parameter verzichtet, die im anderen Modell zusätzlich definiert sind (z. B. ein Modell mit und ein Modell ohne Interaktionseffekte). Dieses Vorgehen ist insbes. dann anzuwenden, wenn sich die Hypothese auf die Ausprägung mehrerer Modellparameter simultan bezieht. Typische Vergleichsmodelle für ein Prüfmodell sind bspw. das Gleichverteilungsmodell (alle Zellen besitzen dieselbe Wahrscheinlichkeit), das Unabhhängigkeitsmodell (die kategorialen Merkmale stehen nicht im Zusammenhang; keine Korrelation) oder das saturierte Modell (Modell mit ebenso vielen Modellparametern wie Zellhäufigkeiten; alle beobachteten und vorhergesagten Modellhäufigkeiten sind identisch). Ob eine genestetes Prüfmodell die Zellhäufigkeiten signifikant schlechter vorhersagt als das übergeordnete Modell, kann dann mittels des Pearson-%5Cchi%20%5E%7B2%7D-Tests (Chi-Quadrat-Tests) oder des Likelihood-Ratio-Tests (df = Anzahl der Zellen minus Anzahl Schätzparameter) geprüft werden. Die Anzahl der Schätzparameter hängt u. a. vom verwendeten Erhebungsschema ab (multinomiales Erhebungsschema, Poisson-Erhebungsschema, Produkt-multinomiales Erhebungsschema). Logit-Modell.

Referenzen und vertiefende Literatur

Sie sind schon registriert? Zur Anmeldung
Erstellen Sie einen Account um das komplette Literaturverzeichnis einzusehen.