Lesebuch für die Katholischen Volksschulen der Rheinprovinz
Technische Realisierung der computerisierten Ausgabe
Martin Volk;
29-03-2008
Die Digitalisierung des Lesebuches erfolgte mit Hilfe von Abbyys FineReader
7.0 Professional. Dieses Programm ist für das Einscannen und für die
Zeichenerkennung (OCR) sehr gut geeignet. Es unterstützt
- die Trennung von Scan- und Erkennungsvorgang
- die automatisch fortlaufende Nummerierung der eingescannten Seiten
- das Auseinanderschneiden von eingescannten Doppelseiten
- das Analysieren der Textstruktur (z.B. Kombination von Bild und Text, oder
auch Zweispalten-Satz)
- das Trainieren von Benutzermustern zur Unterstützung der eingebauten Fonts
- die Überprüfung der Auflösung beim Einscannen
- die Rechtschreibprüfung
Die Digitalisierung wurde in folgenden Schritten durchgeführt.
- Das ganz Buch wurde zunächst mit 300 dpi eingescannt. Es wurden jeweils
zwei nebeneinanderliegende Seiten (d.h. eine Doppelseite) eingescannt und im
tif-Format abgespeichert. Als Scanner stand ein handelsüblicher
Flachbettscanner vom Typ HP Scanjet 3500 zur Verfügung.
- Die eingescannten Doppelseiten wurden mit Hilfe von FineReader
auseinandergeschnitten, so dass jeweils eine tif-Datei pro Buchseite entstand.
Jede solche Datei ist ungefähr 2,5 MByte gross.
- Danach erfolgte die Zeichenerkennung. Das Buch enthält 145 Texte für die
Mittelstufe und 215 Texte für die Oberstufe auf 560 Seiten plus 30 Seiten für
Inhaltsverzeichnis, Autorenverzeichnis und Quellenverzeichnis. Die Texte sind in 10
verschiedenen Schriftarten (Fonts) gesetzt (5 verschiedene Frakturvarianten, Times und Times
Kursiv plus 3 Dekorfonts, die an Jugendstil erinnern). [Das
Hypertext-Inhaltsverzeichnis listet zu jedem Artikel den benutzten Font.]
- Die Frakturvarianten "Fraktur 1 und 2" konnten ohne zusätzliche Benutzermuster
erkannt werden (via Abbyys FineReader 7.0 Scripting Edition).
- Die Frakturvarianten "Fraktur 3, 4 und 5" unterscheiden sich insbesondere bei
den Grossbuchstaben (z.B. B, K, S) von den Varianten 1 und 2. Für diese Grossbuchstaben wurden
im FineReader spezielle
Benutzermuster trainiert und beim Erkennungsprozess angewendet.
- Die Times (und Times-Kursiv) Texte wurden sehr gut erkannt. Lediglich
das Eszet sowie eine spezielle Ligatur bei 'tz' wurden zusätzlich trainiert.
- Die Dekorfonts wurden als Zusatz zur Times-Erkennung trainiert. Dies
führte jedoch nicht zu sehr guten Erkennungsraten, so dass dort viel
manuelle Nacharbeit nötig war.
- Schliesslich wurden die Texte mit Hilfe der FineReader
Rechtschreib-Prüfung korrekturgelesen. FineReader umfasst ein umfangreiches
Wörterbuch der deutschen Sprache, das der alten Rechtschreibung folgt. Die
Rechtschreib-Prüfung fragt den Benutzer nach Wörtern, die nicht im Wörterbuch
enthalten sind, oder wo die Zeichenerkennung unsicher ist. Auf einer
Times-Seite werden durchschnittlich weniger als 10 Benutzer-Entscheide
verlangt. Aber auf einer Fraktur-Seite sind es wesentlich mehr (ca. 35 Entscheide).
- Danach können Textbild und Text aus dem FineReader heraus in verschiedenen Formaten (z.B. PDF, doc,
RTF) abgespeichert werden.
Übersicht über die Schriftarten (Fonts)
Font |
Textbeispiel mit 'Sch'-Wort (Schiff,
Schwert, ...) |
Fraktur 1 |
|
Fraktur 2 |
|
Fraktur 3 |
|
Fraktur 4 |
|
Fraktur 5 |
|
Times |
|
Times kursiv |
|
Dekor 1 |
|
Dekor 2 |
|
Dekor 3 |
|