Webextraktion mit wget

1. Über wget

wget ist ein Kommandozeilenprogramm, mit dem Dateien aus dem Internet heruntergeladen werden können.

2. Rekursive Extraktion:

https://www.gnu.org/software/wget/manual/wget.html#Recursive-Retrieval-Options

wget -r -l 1 http://www.spiegel.de/kultur
  • Beispiel: Extraktion Zeitungskorpus: Kultur-Seite und die Artikel, auf die diese verweist (Rekursionstiefe 1);
  • weitere Anwendungsmöglichkeiten: Extraktion von Chats/Foren etc.(Aufbau großer Webkorpora; Stichwort: Web als Korpus)

3. Extraktion nach URL-Muster:

mkdir taugenichts
cd taugenichts
wget http://gutenberg.spiegel.de/buch/aus-dem-leben-eines-taugenichts-4285/{1,2,3}
  • Beispiel: Extraktion der ersten drei Kapitel des ‚Taugenichts‘
  • Extraktion nach Regeln: für Webextraktion von Korpusdatenbanken / Online-Textsammlungen etc.
wget http://gutenberg.spiegel.de/buch/aus-dem-leben-eines-taugenichts-4285/{1..10}
  • Kapitel 1-10 extrahieren (im selben Ordner: überschreibt zuvor heruntergeladene Dateien)

4. Konkatenieren der HTML-Dateien:

cd ..
cat taugenichts/* > taugenichts_all.txt

Schreibe einen Kommentar