Erläuterungen zum Output von Toni Arnolds Tokenizer


Im Gegensatz zu Convigtons Tokenizer erkennt Toni Arnolds Tokenizer Satzgrenzen. Dies drückt sich im Umstand aus, dass jeder Satz in einer eigenen Liste steht. Zusätzlich führt dieser Tokenizer auch Standardisierungen durch, wie sie im Script ECL1 oder in unserer Zusammenfassung erwähnt wurden. Diese werde speziell markiert. Du findest diese Markierungen in der folgenden Liste aufgeführt:

Daten (date)
Zeiten (time)
E-Mail-Adressen (e_mail)
Währungen (currency_sfr)
Telefonnummern (telephon)
Ordinalzahlen (ordinal)
exakte Internet-Adressen (www)

Bei diesem Output werden zum Teil auch Variabeln generiert (z.B. [date(_4608, 9,6,_4612)]), diese werden für weitere Anwendungen benötigt und können darum ignoriert werden.
 
 

 Toni Arnolds Tokenizer    Covingtons Tokenizer     Laboratorium      Tokenizer     Startseite