Blogarchivfrage

Ich habe ein kleines, technisches Problem: Beim Versuch von vor ein paar Monaten, ein Archiv aller Blogeinträge bei der FAZ mitsamt Kommentaren anzulegen, hat das Programm, wie ich erst jetzt sehe, bei den Kommentaren versagt. Leider hat die FAZ auch kein Exportplugin.

Das ganze Heckmeck mit Unterseiten ist da auch zu bedenken; allerdings sind die Beiträge unter stuetzendergesellschaft.de auch zu finden.

Irgendwelche Ideen? Ich will ja wirklich nur das Blog, nicht irgendwelche Seiten der FAZ. Vom Adminmenü her ist es jedenfalls unmöglich, die Kommentare den Beiträgen zuzuordnen.

Edit: Danke für die nette Hilfe! Das Problem kist gelöst!

Mittwoch, 23. März 2011, 11:40, von donalphons | |comment

 
Alle Beiträge einfach abspeichern?

... link  

 
Bei fast 300? Röchel.

... link  

 

... link  

 
Schick ma Mail ...

... link  

 
also es scheint zumindest eine artikel-ID zu geben, sieht man, wenn man die druckversion aufruft:

http://faz-community.faz.net/102577/print.aspx
http://faz-community.faz.net/96506/print.aspx

die kommentare sind in der datenbank bestimmt in irgendeiner relation an diese ID gekoppelt. jetzt brauchst du nur die IDs aller artikel und einen willigen sysadmin.

... link  


... comment
 
1. Dateiweise als XML-Dateien. XML-Dateien müssten ja doch mindestens in einem Auslieferungs-Cache vorliegen. Möglicherweise gibt's gemeinsame Anteile in den Dateinamen genau bei den Dateien, die zum Blog gehören („…stuetzen…“ o.ä.), dann kann man per Skript nur diese für die Sicherung filtern.

2. SQL-Lyrik. Ich kenne mich da zwar gar nicht aus, aber vermutlich gibt's doch ein CMS für die Beiträge und Kommentare, unter der dürfte dann eine Datenbank liegen, und in der kann man dann aber unbedingt beliebig fein filtern und die einschlägigen Inhalte sichern.

Wichtig ist, in welchem Format man die Daten haben will, je nachdem taugt's oder nicht.

... link  


... comment
 
Was meinst du mit Unterseiten?
Es sind doch alle immer Kommentare auf einer Seite ... Also ein Artikel ist gleich einer Seite. Oder?

... link  


... comment
 
probiers mal
... mit WinHTTrack.
An den Einstellungen würde ich nur "externe Tiefe = 0" setzen, damit nicht die Werbung bzw. Links verfolgt werden.
Ein kurzer Test sah ganz gut aus.

... link  

 
WinHTTrack ist dafür nicht schlecht, zumal es auch Änderungen erfaßt, d.h. alte Seiten nur erneut zieht, wenn sie sich geändert haben.

Ergebnis ist eine browsbare Offline-Kopie der Seite, das ist wirklich praktisch!

... link  


... comment
 
Nur einmal den jetzigen Stand runterladen oder das dann öfters machen ?

... link  

 
Also damit meine ich: es ist trivial ein paar Zeilen Code zu schreiben der das mal eben runterzieht, aber wenn Sie das öfters machen wollen, bringt Ihnen mein Code ja nix..

... link  


... comment
 
Offline Explorer von MetaProducts ist ein recht komfortables Programm für diesen Zweck.

... link  


... comment
 
Was denn genau?
Was soll denn genau gespeichert werden? Die kompletten Seiten mit allem drum und dran? Oder nur der Text?

... link  


... comment
 
Werkzeug nach Maß
In der Datei http://bit.ly/h7eYgq (PDF, 411 Kilobytes) habe ich sämtliche bisher veröffentlichten Blogeinträge der "Stützen der Gesellschaft" zusammengefasst - vorerst nur Titel, Anriss, Anzahl Kommentare und Publikationsdatum, um die Datenmenge in Grenzen zu halten.

Mein Werkzeug sichert sämtliche Blogeinträge auf Knopfdruck. Zu dessen Vollendung bräuchte ich allerdings ein paar Hinweise auf das Ausgabeformat oder den späteren Verwendungszweck – und schliesse mich den Fragen von peregrinator, logog und karl-ton an: In welcher Form sollen die archivierten Blogeinträge beim Lesen und Durchstöbern dargestellt werden? Möglichst originalgetreu (Hypertext, Formatierungen, Bilder) als Website oder möglichst reduziert auf reinen Text, der sich leicht weiterverarbeiten, gezielt durchsuchen oder statistisch auswerten lässt?

... link  

 
RSS
Ich würde RSS nehmen, das ist dann auch recht einfach zum einlesen in eine Datenbank, konkret in ein anständiges Weblogsystem. Einfach vom Admin die Anzahl der Einträge im RSS auf 10.000 (das sollte genügen) lassen ... Textpattern (und vermutlich auch WP) importieren problemlos.

... link  

 
Leider keine Kommentare via RSS
Leider gibt es bei den Stützen die Kommentare nicht via RSS.

Wenn es die gäbe: Der Hirsch hat eine Anleitung veröffentlicht, wie man das dann für's Backup nutzen kann...

... link  


... comment