| Betreff: | Fwd: Goolap enjoy |
|---|---|
| Datum: | Mon, 10 Jan 2011 16:48:28 +0100 |
| Von: | Andy Voigt <voi...@mailbox.tu-berlin.de> |
| An: | Marc Hofer <ma...@marc-hofer.de> |
http://youngsexycelebs.blogspot.com/2010/09/miley-cyrus.html Klickt man die Seite durch bleibt die Seitenleiste erhalten. Wenn wir die Seite herunterladen und mittels Calais extrahieren bekommen wir Ergebnisse zurᅵck die aus den Seitenleisten stammen und vᅵllig uninteressant sind bzw. die Daten in der Datenbank verfᅵlschen (verschiedene URLs gleiche Daten). Was wir im Moment verwenden ist Jericho und Boilerpipe. Wir kᅵnnten in Jericho den html cleanser hᅵher stellen und nur noch <p> Tags nehmen. Gibt es hierfᅵr schon was besseres, was gezielt auf Seitenleisten geht? Im zweiten Meilensteinen hatte Jessica mal was gezeigt, was in die Richtung geht kᅵnnte ihr mal die Urls (Quelle) mit diesem Script testen?
-- Mit freundlichen Grᅵᅵen / Kind Regards Andy Voigt