Multilingualität

Multilinguale Dokumente und Systeme

Herausforderung Multilingualität

Multilinguale Dokumente oder Systeme erfordern Sprachidentiﬁkation
Bereits auf Tokensierungsstufe sind sprachspeziﬁsche Ressourcen (Abkürzungslexika) und Regeln notwendig
Sprachidentiﬁkation ist neben der Identiﬁkation der Zeichenkodierung eines Textes das Fundament, auf dem alle Textanalyse aufbaut.
Traditionelles linguistisches Wissen ist für Sprachidentiﬁkation nicht geeignet.
„Primitive“ Verfahren, welche auf Häuﬁgkeiten von Buchstabenkombinationen aufbauen, funktionieren gut.

Sammle häuﬁgste Zeichenkombinationen (2-5 Zeichen, d.h. N-Gramme) der verschiedenen Sprachen über Trainingsdaten.
Berechne für jede Sprache die Reihenfolge der häuﬁgsten Kombinationen (N-Gramm-Proﬁl).
Berechne für ein unbekanntes Dokument D sein N-Gramm-Proﬁl.
Berechne den Proﬁlabstand zwischen D und jedem Sprachproﬁl als Summe des Rangunterschieds von jedem N-Gramm.
Wähle für D die Sprache mit dem kleinsten Proﬁlabstand.

N-Gramm-Proﬁle und Proﬁlabstand

Abbildung 5.1: