« »

24.10.08

Permalink 16:12:46, von ff E-Mail , 236 Wörter   German (DE) latin1
Kategorien: Linux

Da es Leute gibt, die sich erdreisten, komplette Webseiten raubzukopieren, kann es nötig werden, solche (semi-)automatisiert rekursiv auszudrucken (z.B. für einen Plagiatsnachweis in einer Anklageschrift).

Zutaten:
Linux (Ubuntu)
Firefox mit Command Line Print-Erweiterung: http://torisugari.googlepages.com/commandlineprint2

Zubereitung: (Vorbereitung: ca. 10 Minuten, Garzeit variabel)
1. Um die Links auf alle Unterseiten zu bekommen: wget rekursiv auf der Plagiatsseite aufrufen und ein Log generieren:
wget -r -o log http://w.x.y
2. Während des Downloads bereite man die Druckeinstellungen in Firefox wie gewünscht vor und setze anschließend den Wert print.always_print_silent in about:config auf true. Damit erscheint das Druck-Fragefenster nicht mehr.
3. Das wget-Log in Würfel schneiden und nach Gusto mit Befehlen würzen, die Ausgabe in ein Shell-Skript vorsichtig unterheben:
awk '/html«|htm«|css«/ { print $0 }' log | sed -e s/^[^»]*»/'firefox -no-remote -print http:\/\/'/ -e s/«.*$// > fftabs.sh
4. Falls man CUPS-PDF als Ausgabedrucker nutzen will, macht es sich gut, wenn sich die PDFs nicht bei jedem Druck gegenseitig überschreiben:
/etc/cups/cups-pdf.conf:
Label 1

5. Garen lassen und Kaffee trinken gehen:
bash fftabs.sh

[Diese Variante ist sicher nicht die schnellste, da immer neue Browser-Instanzen geöffnet werden müssen. Das war aber nötig, um das CUPS-System nicht zum Absturz zu bringen. Ein anderer Ansatz war die Universal Print-Extension, die es erlaubt, alle geöffneten Tabs zu drucken. Diese hat das CUPS-System allerdings auch überfordert.]

Noch kein Feedback

Einen Kommentar hinterlassen


Ihre E-Mail-Adresse wird nicht auf dieser Seite angezeigt.

Ihr URL wird angezeigt.
(Zeilenumbrüche werden zu <br />)
(Name, E-Mail-Adresse & Webseite)
(Benutzern erlauben, Sie durch ein Kontaktformular zu kontaktieren (Ihre E-Mail-Adresse wird nicht weitergegeben))
Mai 2012
Mo Di Mi Do Fr Sa So
 << <   > >>
  1 2 3 4 5 6
7 8 9 10 11 12 13
14 15 16 17 18 19 20
21 22 23 24 25 26 27
28 29 30 31      

Suche

powered by free blog software