Lesebuch für die Katholischen Volksschulen der Rheinprovinz

Technische Realisierung der computerisierten Ausgabe

Martin Volk; 29-03-2008

Die Digitalisierung des Lesebuches erfolgte mit Hilfe von Abbyys FineReader 7.0 Professional. Dieses Programm ist für das Einscannen und für die Zeichenerkennung (OCR) sehr gut geeignet. Es unterstützt

Die Digitalisierung wurde in folgenden Schritten durchgeführt.

  1. Das ganz Buch wurde zunächst mit 300 dpi eingescannt. Es wurden jeweils zwei nebeneinanderliegende Seiten (d.h. eine Doppelseite) eingescannt und im tif-Format abgespeichert. Als Scanner stand ein handelsüblicher Flachbettscanner vom Typ HP Scanjet 3500 zur Verfügung.
  2. Die eingescannten Doppelseiten wurden mit Hilfe von FineReader auseinandergeschnitten, so dass jeweils eine tif-Datei pro Buchseite entstand. Jede solche Datei ist ungefähr 2,5 MByte gross.
  3. Danach erfolgte die Zeichenerkennung. Das Buch enthält 145 Texte für die Mittelstufe und 215 Texte für die Oberstufe auf 560 Seiten plus 30 Seiten für Inhaltsverzeichnis, Autorenverzeichnis und Quellenverzeichnis. Die Texte sind in 10 verschiedenen Schriftarten (Fonts) gesetzt (5 verschiedene Frakturvarianten, Times und Times Kursiv plus 3 Dekorfonts, die an Jugendstil erinnern). [Das Hypertext-Inhaltsverzeichnis listet zu jedem Artikel den benutzten Font.]
    1. Die Frakturvarianten "Fraktur 1 und 2" konnten ohne zusätzliche Benutzermuster erkannt werden (via Abbyys FineReader 7.0 Scripting Edition).
    2. Die Frakturvarianten "Fraktur 3, 4 und 5" unterscheiden sich insbesondere bei den Grossbuchstaben (z.B. B, K, S) von den Varianten 1 und 2. Für diese Grossbuchstaben wurden im FineReader spezielle Benutzermuster trainiert und beim Erkennungsprozess angewendet.
    3. Die Times (und Times-Kursiv) Texte wurden sehr gut erkannt. Lediglich das Eszet sowie eine spezielle Ligatur bei 'tz' wurden zusätzlich trainiert.
    4. Die Dekorfonts wurden als Zusatz zur Times-Erkennung trainiert. Dies führte jedoch nicht zu sehr guten Erkennungsraten, so dass dort viel manuelle Nacharbeit nötig war.
  4. Schliesslich wurden die Texte mit Hilfe der FineReader Rechtschreib-Prüfung korrekturgelesen. FineReader umfasst ein umfangreiches Wörterbuch der deutschen Sprache, das der alten Rechtschreibung folgt. Die Rechtschreib-Prüfung fragt den Benutzer nach Wörtern, die nicht im Wörterbuch enthalten sind, oder wo die Zeichenerkennung unsicher ist. Auf einer Times-Seite werden durchschnittlich weniger als 10 Benutzer-Entscheide verlangt. Aber auf einer Fraktur-Seite sind es wesentlich mehr (ca. 35 Entscheide).
  5. Danach können Textbild und Text aus dem FineReader heraus in verschiedenen Formaten (z.B. PDF, doc, RTF) abgespeichert werden.

Übersicht über die Schriftarten (Fonts)

Font Textbeispiel mit 'Sch'-Wort (Schiff, Schwert, ...)
Fraktur 1
Fraktur 2
Fraktur 3
Fraktur 4
Fraktur 5
Times
Times kursiv
Dekor 1
Dekor 2
Dekor 3