Sitzungsnavigation: zur zugehörigen Lehrveranstaltung wechseln

Webextraktion mit wget

Veröffentlicht am 21. November 2016 von Axel Wisiorek · Schreib einen Kommentar

Veröffentlicht in Strukturierung und Analyse linguistischer Korpusdaten WS 16/17

Schlagwörter: Datenextraktion

1. Über wget

wget ist ein Kommandozeilenprogramm, mit dem Dateien aus dem Internet heruntergeladen werden können.

2. Rekursive Extraktion:

https://www.gnu.org/software/wget/manual/wget.html#Recursive-Retrieval-Options

wget -r -l 1 http://www.spiegel.de/kultur

Beispiel: Extraktion Zeitungskorpus: Kultur-Seite und die Artikel, auf die diese verweist (Rekursionstiefe 1);
weitere Anwendungsmöglichkeiten: Extraktion von Chats/Foren etc.(Aufbau großer Webkorpora; Stichwort: Web als Korpus)

3. Extraktion nach URL-Muster:

mkdir taugenichts
cd taugenichts
wget http://gutenberg.spiegel.de/buch/aus-dem-leben-eines-taugenichts-4285/{1,2,3}

Beispiel: Extraktion der ersten drei Kapitel des 'Taugenichts'
Extraktion nach Regeln: für Webextraktion von Korpusdatenbanken / Online-Textsammlungen etc.

wget http://gutenberg.spiegel.de/buch/aus-dem-leben-eines-taugenichts-4285/{1..10}

Kapitel 1-10 extrahieren (im selben Ordner: überschreibt zuvor heruntergeladene Dateien)

4. Konkatenieren der HTML-Dateien:

cd ..
cat taugenichts/* > taugenichts_all.txt

Schreibe einen Kommentar Antworten abbrechen

Du musst angemeldet sein, um einen Kommentar abzugeben.