CLUE Computerlinguistik Uni Erlangen
Vorher Zurück Weiter
Weiter: Sechste Sitzung (Referat) Zurück: Unterlagen Vorher: Fünfte Sitzung

Fünfte Sitzung - Referat: SGML und sp

Historische Entwicklung

  1. traditionelles Markup: Angaben, wie der Text zu drucken ist.
  2. elektronisches Markup: wie 1., nur maschinenlesbar.
  3. spezifisches Markup: z.B. nroff; Dem Textformatierungssystem wird vorgegeben, was es zu tun hat.
  4. generisches Markup: z.B. LaTeX; Formatierungsanweisungen werden in Makros versteckt.
  5. SGML: Sprache zur Beschreibung von beliebig vielen Dokumenttypen. Im Gegensatz zu TeX beschäftigt sich SGML nicht mit der Formatierung der Daten.

Elemente eines SGML-Dokuments

  1. SGML-Deklaration
  2. Document Type Definition (DTD)
  3. Dokumentinstanz
Hier sollte eine Grafik erscheinen, welche die Elemente eines SGML-Dokuments darstellt

SGML-Deklaration

Document Type Definition (DTD)

Dokumentinstanz

Aufbau einer DTD

<!ELEMENT MEMO - - ((TO & FROM), BODY, CLOSE?)>

Markup-Deklarationen

Namen

Abkürzungen

- - beide Marken sind Pflicht
- O die Endmarke kann entfallen
O - die Anfangsmarke kann entfallen
O O beide Marken können entfallen

Gruppen

Als Gruppe wird alles bezeichnet, das sich innerhalb ( und ) befindet, z.B. (FROM & TO)?.
Verknüpfungs- und Wiederholungszeichen
(a) a kommt genau einmal vor
(a,b) a gefolgt von b
(a|b) entweder a oder b kommt einmal vor
(a&b) a und b kommen vor, Reihenfolge spielt keine Rolle
(a+) a kommt mindestens einmal vor
(a?) a kommt nicht oder einmal vor
(a*) a kommt beliebig oft vor

Markup-Deklarationen

Elemente

<!ELEMENT PARA - O (#PCDATA|HR)* +(FOOTNOTE)>
Elementinhalte
Ausnahmen
Ausnahmen, gestatten es, in Elementvereinbarungen Ausschlüsse und Einschlüsse zu vereinbaren.

<!ELEMENT KAPITEL - O (UNTERKAP)+ -(KAPITEL) +(FUSSNOTE|BILD)>

Attribute/Attributlisten

<!ATTLIST IMG - - Name, Typ, Default - -
SRC %URI; #REQUIRED
ALT CDATA #IMPLIED
ALIGN (top|middle|bottom) #IMPLIED>

Name und Typ werden wie bei ELEMENT gesetzt.

Default muß einer der folgenden Werte sein:

Entities (Einheiten)

beliebig langes Textstück, daß in den Text eingesetzt wird.

Doctype

<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML//EN">
// Trennzeichen
- doctype ist nicht registriert. (+: registriert)
IETF "Eigentümer"
DTD HTML Klasse (DTD) und Beschreibung (HTML)
EN Sprache

<!DOCTYPE HTML SYSTEM "/usr/lib/xemacs/etc/sgml/html.dtd">
DTD befindet sich an dieser Stelle im System.

Der SGML-Parser SP

Wichtigstes Programm dieses Pakets ist nsgmls, ein SGML-Parser. Der Output kann mit Tools wie SGMLSpl weiterverarbeitet werden.

Kommanozeilenparameter:


Vorher Zurück Weiter
Weiter: Sechste Sitzung (Referat) Zurück: Unterlagen Vorher: Fünfte Sitzung
Oliver Lorenz Jörg Schreiber
zuletzt geändert am 14. Juli 1998