Sprachstatistik
[engl. language statistics], [KOG], Gesamtheit der Methoden zur quant. Analyse von gesprochenen und geschriebenen Texten mit dem Ziel, allg. Gesetzmäßigkeiten sowie sprach-, text- und individuumsspezifische Unterschiede aufzuzeigen und sie (im Bereich der Psycholinguistik) der ps. Interpretation zugänglich zu machen. Grundlage der Analyse sind Auszählungen und Schätzungen der Häufigkeiten von Sprachelementen und Elementenkombinationen. Als Elemente gelten – je nach Ziel und Komplexität der Analyse – Buchstaben, Morpheme, Phoneme, Silben, Wörter, Satzteile und Sätze. Aus den Häufigkeitsverteilungen und aus den daraus nach Methoden der Informationstheorie gewonnenen Maßen lassen sich generelle und spezif. Aussagen über die Struktur von Sprachen, sprachlichen Mitteilungen und Sprachverhalten herleiten (Zipf’sches Gesetz, Codabilität (codability), Inhaltsanalyse, Diversifikationsquotient). Die eine sprachliche Mitteilung bildende Abfolge von Sprachelementen kann als Markoff-Prozess derart analysiert werden, dass sich eine teilweise Entsprechung zw. der stat.-informationstheoret. Struktur des Textes und den dem Sprachgebrauch unterliegenden Regeln (Wortgeläufigkeit, Grammatik, Syntax etc.) zeigt. Durch systematische Variation von sprachstat. Kennwerten (Approximation, Ordnungsgrad) gelangt man zu allgemein- und differentiellpsychol. Aussagen über Lese- und Sprechverhalten (Lesen, Sprechen). Die vorgefundene text- und autorenspezifische (in der Zeit häufig konsistente) Ausprägung solcher Kennwerte gestattet Rückschlüsse auf die Urheberschaft von Texten (Authentizitätsanalyse). Sprachstat. Aussagen sind wegen der Vielfalt der möglichen Elementenkombinationen i. d. R. nur dann zuverlässig, wenn sie auf Auszählungen sehr großer Textstichproben basieren. Deshalb ist meist der Einsatz elektronischer Datenverarbeitung unerlässlich.