Fwd: Fwd: Goolap enjoy

1 view
Skip to first unread message

Marc Hofer

unread,
Jan 10, 2011, 10:53:40 AM1/10/11
to GOOLAP-E...@googlegroups.com, Andy Voigt
Hallo Enjoy Team,

Andy hat eine Frage an Euch, siehe unten.
@Felix: Kannst Du Andy auf die Mailing-Liste hinzufᅵgen? Ist im CC.

Viele Grᅵᅵe,
Marc

-------- Original-Nachricht --------
Betreff: Fwd: Goolap enjoy
Datum: Mon, 10 Jan 2011 16:48:28 +0100
Von: Andy Voigt <voi...@mailbox.tu-berlin.de>
An: Marc Hofer <ma...@marc-hofer.de>


ᅵHallo Enjoy Team,

wir haben ein Problem mit Seitenleisten in Blogs z.B.:


goolap (Juliette Lewis):

http://goolap.info/?entityId=&entityText=&parentNodeId=829518c9%3A012d70268a2b%3Ae448%3A0931e84e&newSearch=Juliette+Lewis&analyze=analyze&_sourcePage=1DeYT5eM_v29TV_Tx7wkgEwoXm-96rd914Xz_N6U1Iw%3D&__fp=8OOc1EK5DeU%3D&ajax=true&ajax=true

Quelle:
http://youngsexycelebs.blogspot.com/2010/09/victoria-justice_22.html
http://youngsexycelebs.blogspot.com/2010/09/miley-cyrus.html



Klickt man die Seite durch bleibt die Seitenleiste erhalten. Wenn wir die Seite herunterladen und mittels Calais extrahieren bekommen wir Ergebnisse zurᅵck die aus den Seitenleisten stammen und vᅵllig uninteressant sind bzw. die Daten in der Datenbank verfᅵlschen (verschiedene URLs gleiche Daten). 


Was wir im Moment verwenden ist Jericho und Boilerpipe. Wir kᅵnnten in Jericho den html cleanser hᅵher stellen und nur noch <p> Tags nehmen. Gibt es hierfᅵr schon was besseres, was gezielt auf Seitenleisten geht? 



Im zweiten Meilensteinen hatte Jessica mal was gezeigt, was in die Richtung geht kᅵnnte ihr mal die Urls (Quelle) mit diesem Script testen?




-- 
Mit freundlichen Grᅵᅵen / Kind Regards
Andy Voigt
Reply all
Reply to author
Forward
0 new messages