[ Weiter ] [ Seitenende ] [ Überkapitel ]
Download und Verarbeitung von Web-Texten
Zuerst Download, dann lokale Verarbeitung
Download und Verarbeitung von Web-Texten
Download und Verarbeitung in Python
Die Funktion urlopen() vom Modul urllib erlaubt entfernte Dateien (remote files) wie lokale Dateien zu öffnen. Einlesen einer entfernten Textdatei mit urlopen() → 42
Typische Pipeline der Vorverarbeitung von HTML-Dateien
Schritt 1: Download von HTML als Python-String
→ 43
Hilfsfunktion nltk.clean_html() → 44
Robustes Entfernen von allem, was nach HTML-Struktur und Kommentaren aussieht mit Hilfe von re.sub().
Typische Regex-Techniken beim Quick-And-Dirty-Säubern von HTML
re.sub(r"(?is)<(script|style).*?>.*?(</\1>)", "", string) re.sub(r"(?s)<!--.*?-->", "", string) re.sub(r"(?s)<.*?>", "", string)
Textzoning: Artikeltext extrahieren
Satz- und Wortsegmentierung für Englisch
Ziel: Saubere Satz- und Wortsegmentierung nach Penn-Treebank
Vocabular-Differenzen berechnen
Um die Tokenisierungsqualität zu beurteilen, ist die Mengen-Differenz geeignet. In Python
Diff = set(M).difference(N)
Tokenisat als nltk.Text benutzen
Tokenliste zu nltk.Text machen
Reguläre Wortsuche mit nltk.Text.findall()
NLTK-Spezialsyntax für Wortsuche in tokenisierten Texten:
Nachtrag: Regex-basierte Tokenisierer
Tokenisierer für nicht-englische Texte können am schnellsten mit regulären Ausdrücken gemacht
werden.
Unterschiedlicher Matches → 46
Regex-Alternative ist nicht kommutativ
Die Reihenfolge in einer Regex-Alternative ist nicht beliebig!
re.findall() liefert eine Liste der Matches
[ Weiter ] [ Seitenbeginn ] [ Überkapitel ]