Latente semantische Analyse
[engl. latent semantic analysis; gr. σημαίνειν (semainein) bezeichnen], [FSE, KOG], die latente semantische Analyse (Landauer et al., 1990) ist ein stat. Verfahren aus dem Bereich der automatischen Sprachverarbeitung (Sprache), das auf die vektorielle Repräsentation der Bedeutung von Wörtern und Texten abzielt und zur automatisierten Bewertung der Ähnlichkeit des Inhalts von Wörtern und Texten verwendet werden kann. Das Verfahren gründet sich auf die Annahme, dass aus der Verwendung von Wörtern auf deren Bedeutungsgehalt (Bedeutung) geschlossen werden kann und die häufige Verwendung in ähnlichen Kontexten einen Hinweis auf inhaltliche Ähnlichkeit darstellt. Bevor mit dem Verfahren Ähnlichkeitsberechnungen durchgeführt werden können, ist es deshalb zunächst notwendig, das Auftreten von Wörtern in Texten zu analysieren. Hierfür werden große Textsammlungen in Textfragmente, z. B. Abschnitte, zerlegt. Die Auftretenshäufigkeit von Wörtern in den Textfragmenten wird in Form einer Frequenzmatrix repräsentiert. Die Frequenzmatrix wird gefiltert, z. B. indem Stoppwörter entfernt werden, und einer Gewichtung unterzogen. Meist kommt dabei eine Entropiefunktion zum Einsatz. Die resultierende Matrix wird anschließend einer Singulärwertzerlegung unterzogen und die Anzahl extrahierter Dimensionen auf ein Minimum reduziert. Die Anzahl der sinnvollerweise extrahierten Dimensionen ist vorab nicht eindeutig bestimmbar. Werte um 300 Dimensionen haben sich als brauchbar erwiesen. Durch die Singulärwertzerlegung und die Reduktion der Dimensionen wird der Informationsgehalt der Frequenzmatrix minimiert und gleichzeitig die Bedeutung der Wörter von der konkreten Verwendung in der Textsammlung abstrahiert. Die Dimensionswerte der Wörter können nun als Koordinaten eines n-dimensionalen Vektorraums betrachtet und die Ähnlichkeit der Wörter mittels Ähnlichkeitsmaßen (z. B. Kosinus des Zwischenwinkels der Vektoren) oder Distanzmaßen (z. B. euklidische Distanz) bewertet werden. Zum Vergleich von Texten werden die Einzelvektoren der Wörter summiert und der entstehende Gesamtvektor für Berechnungen verwendet. Die Dimensionswerte können mittels Mustererkennungsverfahren wie z. B. Support Vector Machines weiterverarbeitet werden.
Vorteile des Verfahrens liegen darin, Bedeutungsfacetten in numerischer Form zu repräsentieren und somit einer automatisierten Bewertung zugänglich zu machen. Zudem ist es tolerant gegenüber der Verwendung von Synonymen (Synonymie,). Nachteile liegen in der begrenzten Repräsentation und Analyse syntaktischer Strukturen (Syntax), die lediglich über die Flexionen von Wörtern berücksichtigt werden. Die Reihenfolge der Wörter in Texten wie auch Funktionswörter gehen dagegen nicht in die Analyse ein. Zudem verschwimmen die Bedeutungen polysemer Wörter. Breite Anwendung fand die latente semantische Analyse in der Grundlagenforschung v. a. auf dem Gebiet der Simulation semantischer Strukturen des Langzeitgedächtnisses (Gedächtnis), des Verständnisses für Metaphern und des Textverständnisses (Landauer et al., 2007). Es existieren zahlreiche computerbasierte Anwendungen der latenten semantische Analyse wie z. B. intelligente Suchmaschinen und sprachübergreifende Suchwerkzeuge, intelligente tutorielle Systeme, Programme zur automatisierten Aufsatzbewertung und Verfahren zur Aufdeckung inhaltlichen Plagiats.