1.2.  Texttechnologie

Aufbereitung und Normalisierung von Texten 

Dokumentformate und Kodierung

Digitalisierung gedruckter Werke 

Optical Character Recognition (OCR)

Techniken zur Texterkennung haben 1994 [RICE et al. 1995] bei guter Vorlagenqualität eine Erkennungsrate von 98-99% für Buchstaben erreicht.

Aktueller Überblick

http://www.scanstore.com stellt aktuelle Software und Fallstudien vor. Intellektuelles Postprocessing ist aber immer noch notwendig. Sprachspezifische Ressourcen (Lexika)

Tücken der automatischen Erfassung

Chriftian Morgenstern: Wer vom Ziel nicht WeiB Lann den Weg night haben



Fallstudie: Digitalisierung Zürcher Kantonsratsprotokolle 

Geplante Projekt-Budgetierung des Staatsarchivs

Angestrebt wird eine qualitativ hochstehende Digitalisierung [REGIERUNGSRAT 2008]:

Transkription/Digitalisierung älterer Beschlüsse in Kurrentschrift

21’000 Seiten kosten ca. 300’000 CHF, d.h. ca 15 CHF pro Seite


pict


Ideale Textquellen … 

Beispiel 1.2.1 (PubMed Central: http://www.pubmedcentral.nih.gov). “PubMed Central (PMC) is an electronic archive of full-text journal articles, offering free access to its contents. PMC contains more than 1.5 million articles, most of which have a corresponding entry in PubMed. ”

PMC Open Archive

Eine wachsende Teilmenge von PMC liegt als Open Archive in einem einheitlichen, verlagsübergreifenden XML-Format http://dtd.nlm.nih.gov/publishing vor.