3.4
 Multilingualität

Multilinguale Dokumente und Systeme 

Herausforderung Multilingualität

Ansatz von [Cavnar und Trenkle 1994]

1.
Sammle häufigste Zeichenkombinationen (2-5 Zeichen, d.h. N-Gramme) der verschiedenen Sprachen über Trainingsdaten.
2.
Berechne für jede Sprache die Reihenfolge der häufigsten Kombinationen (N-Gramm-Profil).
3.
Berechne für ein unbekanntes Dokument D sein N-Gramm-Profil.
4.
Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangunterschieds von jedem N-Gramm.
5.
Wähle für D die Sprache mit dem kleinsten Profilabstand.

N-Gramm-Profile und Profilabstand 


PIC
Quelle: [Cavnar und Trenkle 1994]

Abbildung 3.1: