Regression, logistische
[engl. logistic regression; gr. λογιστική (logistike) Rechenkunst], syn. binomiale logistische Regression, [FSE], Regressionsanalyse zur stat. Vorhersage einer dichotomen abhängigen Kriteriumsvariable (z. B. Erfolg «1» = «ja» vs. «0» = «nein»; «1» = «geeignet» vs. «0» = «nicht geeignet») aus einer oder mehreren dichotomen, nominalen (Dummy-Kodierung) oder intervallskalierten Prädiktorvariablen. Der Modellierungsansatz unterscheidet sich von demjenigen der linearen Regressionsanalyse (Regression, lineare) vor allem in zwei Aspekten: (1) Nicht die Werte der Kriteriumsvariable selbst, sondern die Wahrscheinlichkeit des Eintretens der Merkmalsausprägung «1» wird modelliert. (2) Der Zusammenhang zw. den Prädiktorvariablen und der Kriteriumsvariable wird nicht durch eine lineare Funktion (Gerade), sondern durch eine ogivenförmig verlaufende, log. Funktion beschrieben (Link-Funktion). Der Wertebereich der log. Funktion liegt zw. 0 und 1, wodurch insbes. für die durch die logistische Regression vorhergesagten Werte die Interpretation i. S. einer Wahrscheinlichkeit ermöglicht wird. Die Modellschätzung erfolgt mittels der Maximum-Likelihood-Methode.
Die Ähnlichkeit der Modellgleichung zu derjenigen der linearen Regression wird durch die Definiton der sog. Logits möglich. Ein Logit entspricht dem natürlichen Logarithmus der Odds des Ereignisses, also dem Quotienten der Wahrscheinlichkeit des Eintretens des Merkmals und der Wahrscheinlichkeit des Nichteintretens des Merkmals. Angenommen, es liegt nur eine Prädiktorvariable X mit den Ausprägungen vor, dann gilt:
Diese Logits stehen dann in linearer Abhängigkeit zu der Prädiktorvariablen:
Bestimmt man die exponentialtransformierten Werte der durch das Verfahren ermittelten β-Gewichte als , so ermöglicht dies eine Interpretation im Sinne des Odds Ratio. Angenommen, es wurde für den dichotomen Prädiktor Rauchen («ja» vs. «nein») ein Wert von
zur Vorhersage einer Lungenkrebserkrankung ermittelt. Dann ergibt sich
. Dieser Wert kann so interpretiert werden, dass sich die Chance (Odds) für den Eintritt einer Lungenkrebserkrankung verdoppelt, wenn bekannt ist, dass eine Person raucht. Werte von
> 1 können i. S. einer Risikoerhöhung und Werte von
können i. S. einer Riskoverringerung interpretiert werden. Liegt eine intervallskalierte Prädiktorvariable vor, so gibt
an, in welchem Maße die Chance für das Ereignis mit der Erhöhung der Prädiktorvariablen um eine Einheit zunimmt.
Folg. Möglichkeiten stehen zur Testung der Bedeutsamkeit der Prädiktoren und zur Beurteilung der Modellgüte zur Verfügung: Signifikanztestung der β-Gewichte: Wald-Statistik, Likelihood-Ratio; Aufgeklärte Information im Kriterium: Pseudo-R-Quadrat, ROC-Analyse; Globale Datenpassung: Hosmer-Lemeshow-Test. ROC, ROC-Kurve