[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]
Aufbereitung und Normalisierung von Texten
Dokumentformate und Kodierung
Digitalisierung gedruckter Werke
Optical Character Recognition (OCR)
Techniken zur Texterkennung haben 1994 [RICE et al. 1995] bei guter Vorlagenqualität eine Erkennungsrate von 98-99% für Buchstaben erreicht.
Aktueller Überblick
http://www.scanstore.com stellt aktuelle Software und Fallstudien vor. Intellektuelles Postprocessing ist aber immer noch notwendig. Sprachspezifische Ressourcen (Lexika)
Tücken der automatischen Erfassung
Chriftian Morgenstern: Wer vom Ziel nicht WeiB Lann den Weg night haben
|
Fallstudie: Digitalisierung Zürcher Kantonsratsprotokolle
Geplante Projekt-Budgetierung des Staatsarchivs
Angestrebt wird eine qualitativ hochstehende Digitalisierung [REGIERUNGSRAT 2008]:
Transkription/Digitalisierung älterer Beschlüsse in Kurrentschrift
21’000 Seiten kosten ca. 300’000 CHF, d.h. ca 15 CHF pro Seite
|
Beispiel 1.2.1 (PubMed Central: http://www.pubmedcentral.nih.gov). “PubMed Central (PMC) is an electronic archive of full-text journal articles, offering free access to its contents. PMC contains more than 1.5 million articles, most of which have a corresponding entry in PubMed. ”
PMC Open Archive
Eine wachsende Teilmenge von PMC liegt als Open Archive in einem einheitlichen, verlagsübergreifenden XML-Format http://dtd.nlm.nih.gov/publishing vor.
[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]