Texttechnologie

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenende ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]

1.2. Texttechnologie

Aufbereitung und Normalisierung von Texten

Dokumentformate und Kodierung

Textquellen : Rohtext (E-Mail), HTML, proprietäre Formate (MS Word, Powerpoint), PDF-Dokumente, Scans (d.h. Pixelgraphiken), XML-Dokumente
Zeichen-Kodierung : Erkennen des Zeichensatzes (ISO-Latin 1) bzw. Dateikodierung (UTF-8)
Normalisierung : Entfernen bzw. Behandeln von Textstruktur (Überschriften, Tabellen) und Formatierungsinformation (fett, Kapitälchen)
Sprachidentiﬁkation : In welcher Sprache ist ein Text hauptsächlich geschrieben?

Digitalisierung gedruckter Werke

Optical Character Recognition (OCR)

Techniken zur Texterkennung haben 1994 [RICE et al. 1995] bei guter Vorlagenqualität eine Erkennungsrate von 98-99% für Buchstaben erreicht.

Aktueller Überblick

http://www.scanstore.com stellt aktuelle Software und Fallstudien vor. Intellektuelles Postprocessing ist aber immer noch notwendig. Sprachspeziﬁsche Ressourcen (Lexika)

Tücken der automatischen Erfassung

Chriftian Morgenstern: Wer vom Ziel nicht WeiB Lann den Weg night haben

pict
Quelle: http://books.google.de

Fallstudie: Digitalisierung Zürcher Kantonsratsprotokolle

Geplante Projekt-Budgetierung des Staatsarchivs

Angestrebt wird eine qualitativ hochstehende Digitalisierung [REGIERUNGSRAT 2008]:

Gedruckte Kantonsratsprotokolle (1899-1995): 135’000 Seiten
Scanning, Digitalisierung (extern): 150’000 CHF
Projektleitung, Qualitätssicherung, Nachbesserung (intern): 250’000 CHF
Geschätzte Kosten pro Seite: ca. 3 CHF
Für Import in Archiv-Datenbank, Indizierung, Online-Schaltung sind “nur” 7’000 CHF veranschlagt

Transkription/Digitalisierung älterer Beschlüsse in Kurrentschrift

21’000 Seiten kosten ca. 300’000 CHF, d.h. ca 15 CHF pro Seite

pict

Ideale Textquellen …

haben vollständige Metadaten in den Textdokumenten selbst
benutzen Standard-Auszeichnungssprache (XML)
trennen Struktur, Darstellung und Inhalt so gut wie möglich
liegen in einheitlichen Dokumenttypen vor

Beispiel 1.2.1 (PubMed Central: http://www.pubmedcentral.nih.gov). “PubMed Central (PMC) is an electronic archive of full-text journal articles, oﬀering free access to its contents. PMC contains more than 1.5 million articles, most of which have a corresponding entry in PubMed. ”

PMC Open Archive

Eine wachsende Teilmenge von PMC liegt als Open Archive in einem einheitlichen, verlagsübergreifenden XML-Format http://dtd.nlm.nih.gov/publishing vor.

[ Weiter ] [ Zurück ] [ Zurück (Seitenende) ] [ Seitenbeginn ] [ Überkapitel ] [ Bitte Skript-Fehler melden ]