XML-Extraktion mit python

1. Über python Linguistische Datenverarbeitung mit python 2. Beispiel: Parsing eines XML-Dokuments und Ausgabe aller <p>-Inhalte #!/usr/bin/env python # -*- coding: utf-8 -*- import re import xml.etree.ElementTree as etree f = open(‚greif.csv‘, ‚w‘) #PARSING tree = etree.parse(‚greif.xml‘) root = tree.getroot() #DEBUG: OUTPUT TAGS for x in root.iter():     print x.tag + ‚ = ‚ + […]

Weiterlesen →

Webextraktion mit wget

3. Über wget wget ist ein Kommandozeilenprogramm, mit dem Dateien aus dem Internet heruntergeladen werden können. 4. Rekursive Extraktion: https://www.gnu.org/software/wget/manual/wget.html#Recursive-Retrieval-Options wget -r -l 1 http://www.spiegel.de/kultur Beispiel: Extraktion Zeitungskorpus: Kultur-Seite und die Artikel, auf die diese verweist (Rekursionstiefe 1); weitere Anwendungsmöglichkeiten: Extraktion von Chats/Foren etc.(Aufbau großer Webkorpora; Stichwort: Web als Korpus) 5. Extraktion nach URL-Muster: mkdir […]

Weiterlesen →