5.4
 Multilingualität

Multilinguale Dokumente und Systeme 

Herausforderung Multilingualität

Ansatz von [Cavnar und Trenkle 1994]

  1. Sammle häufigste Zeichenkombinationen (2-5 Zeichen, d.h. N-Gramme) der verschiedenen Sprachen über Trainingsdaten.
  2. Berechne für jede Sprache die Reihenfolge der häufigsten Kombinationen (N-Gramm-Profil).
  3. Berechne für ein unbekanntes Dokument D sein N-Gramm-Profil.
  4. Berechne den Profilabstand zwischen D und jedem Sprachprofil als Summe des Rangunterschieds von jedem N-Gramm.
  5. Wähle für D die Sprache mit dem kleinsten Profilabstand.

N-Gramm-Profile und Profilabstand 


PIC
Quelle: [Cavnar und Trenkle 1994]

Abbildung 5.1: