Merci de bien vouloir patienter pendant le traitement. Selon la complexité de votre document et la charge du serveur cela peut prendre quelques secondes ou quelques minutes.

en français  in english

Traitement en cours ...

          

Résumé automatique de textes - (c) Pertinence
AccueilAideQuestionnaire

Afficher un résumé à hauteur d'au plus ou % du texte source (1657 mots).


Pour une meilleure exploitation des résultats nous recommandons d'utiliser Internet Explorer 5+ ou Netscape 6+.
Ce document contient 112 phrases, 1657 mots, 14117 caractères.
Langue sélectionnée : german
Domaine sélectionné :
Traité en 257ms
Copier ce résuméNouveau document à résumerAide
 
Abschlußbericht zum Projekt MILOS II








Projektziele und Projektergebnisse

Titelindexierung



Elektronischer Thesaurus



Retrievalverbesserungen



Ansätze automatischer Klassierung







Systementwicklung



MILOS im Routinebetrieb







1 Projetziele und Projektergebnisse



1.1 Titelindexierung



Die Erweiterung der elektronischen Wörterbücher für das Programmsystem MILOS erfolgte auf der Basis einer Titelindexierung von Massendaten der Deutschen Bibliothek. Folgende Datenpools wurden dafuer eingesetzt:


Titeldaten der Jahrgänge 1945-65, nicht erschlossen, ca.
650.000 Titel,


Titeldaten der Jahrgänge 1991-95(Mai), Reihe A, zum Großteil erschlossen nach RSWK, ca.
450.000 Titel.


Mit der Lizenzvereinbarung verpflichtete sich die Universitäts- und Landesbibliothek, alle Ergebnisse der automatischen Indexierung an Die Deutsche Bibliothek zu liefern.




Zur Vorbereitung der Titelindexierung beider Datenpools wurden die Relationenwörterbücher von MILOS neu aufgebaut. Dazu wurden aus der Schlagwortnormdatei (SWD) alle Sätze mit dem Indikator 's' (Sachschlagwort) selektiert und in das MILOS-Wörterbuchformat konvertiert. Zur Umsetzung der ca. 120.000 SWD-Sätze vom Typ Sachschlagwort in das MI-LOS-Wör-ter-buch-for-mat waren Formatumwandlungen auf der Da-ten-satz-ebene (MAB $rightarrow$ Wörterbuchformat) und auf der begrifflichen Ebene erforderlich (z.B. Ho-mo-ny-men-zu-sätze, Verknüpfungsketten etc.). Für das Relationenwörterbuch wurden insgesamt ca. 180.000 neue Relationen vom Typ SWD aufgebaut (Synonymrelationen, Oberbegriffsrelation). Zusätzlich führte die automatische Indexierung der SWD-Sätze durch bislang unbekannte Begriffe, Kompositumzerlegungen und Wortableitungen zu neuen grammatikalischen Einträgen im Identifikations- und Relationenwörterbuch. Die Zwischenergebnisse aus den zahlreichen Testläufen zur Optimierung der Indexierung wurden kontinuierlich für den weiteren Wörterbuchaufbau auf grammatikalischer Ebene verwendet. Im Rahmen dieser kontinuierlichen Wörterbucharbeit wurden im Laufe von MILOS II ca. 100.000 Begriffseinträge neu kodiert bzw. bereits vorhandene Einträge gepflegt.



Mit beiden Pools wurde nach Abschluß der Arbeiten ein Retrievaltest durchgeführt. Die Rückgabe der um die Indexierungsergebnisse angereicherten Daten erfolgte als speziell aufbereitete allegro-Datenbank, die eine Suche im Datenpool und damit eine differenzierte Bewertung der Ergebnisse ermöglicht.



Für die Bibliothek des Deutschen Bundestags und für die Einkaufszentrale für Bibliotheken (EKZ) wurden testweise ebenfalls Titeldaten automatisch indexiert. Von besonderem Interesse war dabei die Problemlage in der Bibliothek des Deutschen Bundestags, die von einem in der Gesamtheit auf Thesaurusbasis (Polianthes) erschlossenem Titelbestand ausgehen kann. Umfangreiche Änderungen am eingesetzten Thesaurus führen dort zu einem inakzeptablen Bruch in der Erschließung. Ziel der Testindexierung von ca. 5.000 verschlagworteten Titeln war es, die Möglichkeiten einer retrospektiven Erschließung mit einer Schlagwortkonkordanz zu testen. Eine abschließende Bewertung des Verfahrens steht noch aus, erste Ergebnisse belegen allerdings die Wirksamkeit der automatischen Indexierung.



Für die Einkaufszentrale der Bibliotheken wurde eine Indexierung von ebenfalls 5.000 Titeln vorgenommen, wobei aus Projektsicht die Heterogenität des Materials (unterschiedlichste am Bedarf öffentlicher Bibliotheken orientierte Mediengattungen) von besonderem Interesse war. Nach ersten Analysen kann festgestellt werden, daß eine undifferenzierte Indexierung (wie erfolgt) kaum befriedigende Ergebnisse bringt, wenn der Anteil an Primärliteratur überwiegt.
Beide Testindexierungen haben insgesamt dazu beigetragen, das Gesamtsystem zur automatischen Indexierung weiter zu verbessern und vor allem dessen Möglichkeiten für eine Anpassung an die Bearbeitung unterschiedlichster Quelldatenformate zu erweitern.



Im Sinne einer Nachnutzung der durch automatische Indexierung gewonnenen Daten wurde ein Vorschlag zur Einrichtung einer zusätzlichen Kategorie im MAB-Format erstellt und über Die Deutsche Bibliothek an den MAB-Ausschuß weitergeleitet.



Seitenanfang



1.2 Elektronischer Thesaurus



Schwerpunkt der Projektarbeiten für MILOS II war die Integration von semantischen Relationen in das Programmsystem zur automatischen Indexierung. Dazu wurden die Synonymrelationen und die hierarchischen Relationen der Schlagwortnormdatei in das MILOS-Wörterbuchkonzept integriert. Es wurden Tools entwickelt, die eine vereinfachte Übernahme der Daten erlauben. Darüberhinaus wurde eine sog. Terminologiedatenbank aufgebaut, die aus den zusammengeführten Daten der Schlagwortnormdatei und den in den Indexierungswörterbüchern bereits enthaltenen grammatikalischen und semantischen Informationen besteht. Zur Umsetzung der Wörterbuchinhalte wurde an der Universität des Saarlandes ein Konvertierungsprogramm erstellt. Durch die vereinheitlichte Terminologiedatenbank wird der Einsatz des vorhandenen Vokabulars für Retrievalzwecke entscheidend verbessert. Im Rahmen einer Testinstallation mit ca. 20.000 Titeln wurde eine vollständige Einbindung der Terminologiedatenbank vorgenommen, die eine Suche mit unterstützender Vokabularführung erlaubt.



Insgesamt wird das Modell einer vereinheitlichten Terminologiedatenbank dennoch für den weiteren Einsatz von MILOS nicht präferiert, weil der Effekt einer vereinfachten Datenpflege mit der Bindung an ein zusätzliches Datenbanksystem (hier allegro) erkauft werden muß. Die bislang bevorzugte MILOS-Lösung mit einerseits echten Indexierungswörterbüchern und andererseits zunächst formatunabhängigen Vokabularquellen (hier die Schlagwortnormdatei) ist durch die Verfügbarkeit von leistungsfähigen Im- und Export-Tools sowie offener Wörterbuchschnittstellen eindeutig der praktikablere Weg.



Der für MILOS bevorzugte Weg der Terminologieunterstützung im Retrieval kann ebenfalls leichter über eine direkte Wörterbucheinbindung - wie inzwischen im EU-Projekt CANAL/LS realisiert - erreicht werden. Die im Rahmen von MILOS II erfolgten Testindexierungen belegen darüberhinaus, daß der für das Retrieval erwünschte Effekt einer Ausdehnung der Suche auf das semantische Wortumfeld auch direkt über die Indexierung erreicht werden kann. Im Ergebnis wird der Aufwand für die Datenbankpflege sowie die unerläßliche Normierung und notwendige Anpassung der terminologischen Daten an unterschiedliche Retrievalsysteme als zu hoch erachtet. Die Situation ist hier durchaus vergleichbar mit der Schlagwortnormdatei, die trotz einer allgemein sehr guten Verfügbarkeit nicht in Retrievalsysteme integriert wird, obwohl dies für eine Nutzung der RSWK-Verschlagwortung zwingend erforderlich wäre.



Grundsätzlich haben jedoch die umfangreichen Wörterbucharbeiten auf der Basis der Schlagwortnormdatei wie auch die Ergebnisse der durchgeführten Testindexierungen deutlich gezeigt, daß die Einbindung von Thesaurusrelationen in die automatische Indexierung die erzielten Resultate deutlich verbessert. Für das Indexierungssystem MILOS bedeutet dies, daß ein entsprechendes Relationenwörterbuch als 'Elektronischer Thesaurus' zum festen Lieferumfang gehören sollte. Die Universitäts- und Landesbibliothek ist bemüht, mit Der Deutschen Bibliothek eine entsprechende Lizenzvereinbarung zur weiteren Nutzung der SWD zu erreichen.



Seitenanfang




1.3 Retrievalverbesserungen



Beide im Projektantrag genannten Möglichkeiten zur Retrievalverbesserung durch automatische Indexierung wurden in MILOS II realisiert und getestet. Die direkte Einbindung des Wörterbuchvokabulars in die Suche ist zur Zeit Bestandteil des allegro-OPACs der Universitäts- und Landesbibliothek. Die Möglichkeit der direkten Übernahme von Indexierungsergebnissen zu den indexierten Titeln ist generell jedoch der Standardweg für eine MILOS-Indexierung, da hierfür keinerlei Software-Anpassungen erforderlich sind. Die für Die Deutsche Bibliothek erstellten allegro-Datenbanken arbeiten mit diesem Verfahren.
Die direkte Verfügbarkeit der MILOS-Wörterbücher im Retrieval ist über die software-technische Anbindung der sog. SX-Module zu realisieren. Auch diese Möglichkeit ist durch die Arbeitsergebnisse des EU-Projekts CANAL/LS inzwischen für allegro-Datenbanken verfügbar. An der Universitäts- und Landesbibliothek wird zur Zeit ein allegro-WWW-OPAC aufgebaut, für den die direkte Anbindung der MILOS-Wörterbücher bzw. der CANAL/LS-Übersetzungswörterbücher über das in CANAL/LS entwickelte Verfahren (Linguistic Server) vorgesehen ist.



Zusammenfassend gibt es für den Einsatz des MILOS-Systems drei Optionen zur Einbindung der Indexierungsergebnisse, die sich hauptsächlich in ihren Anforderungen an die eingesetze Retrievalsoftware unterscheiden. Die in Retrievaltests gewonnenen Resultate geben keinen Anlaß, eine der Möglichkeiten ausdrücklich zu bevorzugen, Präferenzen sind abhängig von der Einsatzumgebung des Retrievalsystems und dem Nutzerprofil der Anwender.



Seitenanfang




1.4 Ansätze automatischer Klassierung



Natürlicher Schwachpunkt von Verfahren zur automatischen Indexierung sind Probleme sprachlichen Ursprungs (Homonymie, sog. 'blumige Titelfassungen'), die vor allem beim Einsatz mit fachlich vielfältigem Quellmaterial auftreten. Ein Ansatz, derartige Probleme abzumildern und gleichzeitig für eine ergänzende Erschließung zu sorgen, ist die semantische Disambiguierung über automatische Klassifikation, die daher Projektbestandteil war.



Vorbereitend für eine automatische Klassifizierung wurden die Register zur Aufstellungssystematik der Universitäts- und Landesbibliothek in Wörterbuchform umgewandelt und die Aufstellungssystematik selbst in die allegro-Datenbank integriert.



Testläufe bestätigten jedoch schnell die Erwartung, daß eine automatische Klassifizierung im Sinne einer automatischen Notationsvergabe von bibliothekarischen Titeldaten allein auf der Basis verfügbarer Titelstichwörter nicht erfolgreich realisiert werden kann. Die weitere konzeptionelle und praktische Arbeit orientierte sich daher an den Möglichkeiten zur generellen Verbesserung der Ausgangssituation. Ergebnis der Arbeiten ist ein Konzept zur automatischen sog. Themen-Aspekt-Identifikation (THEAS), das aufsetzend auf erweiterten Titeldaten statistische Verfahren zur klassifikatorischen Einordnung nutzt. THEAS soll in Ergänzung zur automatischen Indexierung weitere verbale Erschließungselemente bereitstellen, die Thema und spezifische Ausrichtung eines Themas beschreiben. Die Umsetzung des THEAS-Konzeptes ist Bestandteil des neuen, ebenfalls von der DFG geförderten, Projekts KASCADE der Universitäts- und Landesbibliothek.



Seitenanfang




2 Systementwicklung



Im Sinne der späteren Nachnutzbarkeit aller Ergebnisse hat sich das Projektteam zu Beginn von MILOS II für allegro-C als Datenbank-Basis entschieden. Neben den Arbeiten an der Terminologiedatenbank und der Schlagwortnormdatei unter allegro, wurde ein allegro-OPAC mit dem Düsseldorfer Titelbestand aufgebaut, der als Arbeits-OPAC des Projekts eingesetzt wird. Auch die Daten aller im Projekt durchgeführten Indexierungen von Fremddaten (Die Deutsche Bibliothek, Bibliothek des Deutschen Bundestags, EKZ) wurden in allegro umgesetzt und als allegro-OPAC wieder ausgeliefert. Der allegro-OPAC ermöglicht nicht nur die Integration aller Indexierungsergebnisse, sondern stellt gleichzeitig eine ideale Plattform zur Durchführung von Retrievaltests dar. Mit Abschluß des Projekts erfolgte der Umstieg auf das UNIX-System allegro-X, wodurch die Verfügbarkeit des MILOS-OPACs im Internet möglich wird. Ein allegro-WWW-OPAC befindet sich zur Zeit im Aufbau.



Das Programmsystem zur automatischen Indexierung MILOS wurde basierend auf den Projektarbeiten von MILOS II kontinuierlich weiterentwickelt und um zusätzliche Bausteine erweitert. Wichtige Software-Tools zum Im- und Export bibliothekarischer Titeldaten unterschiedlicher Datenformate wurden programmiert. Für die Übernahme terminologischer Daten in die MILOS-Wörterbücher (v.a. Daten der Schlagwortnormdatei) wurden Schnittstellenprogramme geschaffen. Neue Programme zur halbautomatischen Wörterbuchmanipulation vereinfachen globale Veränderungen an Wörterbuchinhalten. Insgesamt waren die MILOS-Arbeiten an einer ganzen Reihe von Systemverbesserungen im Bereich der Wörterbuchkodierung und der Ablaufgestaltung für die Indexierung beteiligt. Die Portierung des Gesamtsystems unter WINDOWS konnte noch während der Projektlaufzeit begonnen werden.



Seitenanfang




3 MILOS im Routinebetrieb



Bereits während der Laufzeit von MILOS II wurde an der Universitäts- und Landesbibliothek mit dem routinemäßigen Einsatz der automatischen Indexierung begonnen. Alle laufenden Datenzugänge für den OPAC wurden zusätzlich zur verbalen Verschlagwortung auch automatisch indexiert, die Indexierungsergebnisse im Dienst-OPAC unter allegro angeboten. Nach dem erfolgreichen Abschluß von MILOS II und der inzwischen erfolgten Bewährung des MILOS-Systems im Routinebetrieb wird die Praxis der inhaltlichen Erschließung an der Universitäts- und Landesbibliothek seit Beginn des Jahres 1997 auf ein Mischverfahren mit intellektueller und automatischer Komponente umgestellt.



Ziel verbaler Erschließung soll die Ergänzung des Titelvokabulars um indexierungstaugliche Begriffe sein. Deutschsprachige Literatur wird grundsätzlich durch automatische Indexierung bearbeitet werden, für fremdsprachige Literatur ist die Vergabe von freien deutschsprachigen Deskriptoren vorgesehen. Diese werden arbeitsteilig vom Fachreferat und von der Abteilung Inhaltserschließung gewonnen, wobei bereits verfügbare Stichwörter (ggf. in Übersetzung von z.B. Titelstichwörtern bzw. vorhandenem fremdsprachigen Erschließungsvokabular) hinzugezogen werden sollen. Eine Verschlagwortung nach den RSWK ist nicht mehr vorgesehen, die Mitarbeit an der Pflege der Schlagwortnormdatei ist jedoch auch weiterhin wichtiger Bestandteil der Inhaltserschließung.



Während der Laufzeit von MILOS II hat sich die Bibliothek der Friedrich-Ebert-Stiftung, Bonn, zu einem Einsatz der automatischen Indexierung entschlossen und das Programmpaket als erster Nachnutzer lizensiert.
© 2002 Pertinence Mining
Donnez votre avis et évaluez la pertinence de ce résumé...
Excellent
Intéressant
Médiocre
Sans intérêt

E-mail:


Pour toute question concernant ce site, envoyez un Email à contact@pertinence.net
Dernière modification : 12 novembre 2002. Copyright
Accueil