| « | » |
Da es Leute gibt, die sich erdreisten, komplette Webseiten raubzukopieren, kann es nötig werden, solche (semi-)automatisiert rekursiv auszudrucken (z.B. für einen Plagiatsnachweis in einer Anklageschrift).
Zutaten:
Linux (Ubuntu)
Firefox mit Command Line Print-Erweiterung: http://torisugari.googlepages.com/commandlineprint2
Zubereitung: (Vorbereitung: ca. 10 Minuten, Garzeit variabel)
1. Um die Links auf alle Unterseiten zu bekommen: wget rekursiv auf der Plagiatsseite aufrufen und ein Log generieren:
wget -r -o log http://w.x.y
2. Während des Downloads bereite man die Druckeinstellungen in Firefox wie gewünscht vor und setze anschließend den Wert print.always_print_silent in about:config auf true. Damit erscheint das Druck-Fragefenster nicht mehr.
3. Das wget-Log in Würfel schneiden und nach Gusto mit Befehlen würzen, die Ausgabe in ein Shell-Skript vorsichtig unterheben:
awk '/html«|htm«|css«/ { print $0 }' log | sed -e s/^[^»]*»/'firefox -no-remote -print http:\/\/'/ -e s/«.*$// > fftabs.sh
4. Falls man CUPS-PDF als Ausgabedrucker nutzen will, macht es sich gut, wenn sich die PDFs nicht bei jedem Druck gegenseitig überschreiben:
/etc/cups/cups-pdf.conf:
Label 1
5. Garen lassen und Kaffee trinken gehen:
bash fftabs.sh
[Diese Variante ist sicher nicht die schnellste, da immer neue Browser-Instanzen geöffnet werden müssen. Das war aber nötig, um das CUPS-System nicht zum Absturz zu bringen. Ein anderer Ansatz war die Universal Print-Extension, die es erlaubt, alle geöffneten Tabs zu drucken. Diese hat das CUPS-System allerdings auch überfordert.]