AW: HTMLCleaner- einheitliche Formatierung

5 views
Skip to first unread message

Alexander Löser

unread,
Dec 3, 2010, 11:38:28 AM12/3/10
to Jessica, mhe...@googlemail.com, fxl...@googlemail.com, goolap-e...@googlegroups.com
Hi Jessica,

gute Diskussion: Bitte kümmere Dich darum, dass sowohl englische als auch deutsche Texte vom HTML Cleaner erkannt werden und Zeichen erhalten bleiben. Dafür müsst Ihr einen Codierungsstandard für das Projekt ENJOY (und GoOLAP?) setzen. Sehr gut. Bitt einigt Euch.

MAX: Nimm doch bitte Jessicas Cleaner schon in das VM Image mit auf. Es gibt sicherlich noch eine verbesserte Variante aber zum Testen für M2 reicht es doch.

@Jessica: Falls der Standard noch lange dauert (die Einigung meine ich) kannst Du ev. Dir auch den Code vom Complex-Location-Extraktor von Felix bitte anschauen? Ziel wäre ja das ersetzen des Location Extraktors durch den Complex Location-Extraktor ....bzw. den LISTCOMPLEXLOCATION Extraktor.

Danke, hört sich alles gut an.
Alexander

-----Ursprüngliche Nachricht-----
Von: Jessica [mailto:jd...@gmx.de]
Gesendet: Freitag, 3. Dezember 2010 17:11
An: alo...@cs.tu-berlin.de; mhe...@googlemail.com; fxl...@googlemail.com; goolap-e...@googlegroups.com
Betreff: HTMLCleaner- einheitliche Formatierung

Hallo,

beim HTMLCleansing hat sich ein Problem mit der kodierung(also UTF-8, ISO-8859-1 usw) der Websites ergeben. Nun habe ich 2 Fragen.

1 an das CrawlerTeam: Wenn ihr die Websites einlest, unter welcher Kodierung
lest ihr dann, bzw leitet es dann an die HTMLCleaner komponente weiter?
Weil ich habe momentan das Problem, dass wenn ich einen UTF-8 kodierten Text unter ISO-8859-1 Einstellungen einlese die Umlaute falsch dargestellt werden, anders herum ist es genauso (iso unter UTF einlesen).
Ich habe heute mit Felix mal in die Datenbank geguckt, aber da ist alles als UTF-8 abgespeichert. Wenn wir nun nur UTF-8 Kodierung zulassen verlieren wir aber quasi alle Umlaute. Mein Programm kann momentan beides, aber nicht gleichzeitig, nun bleibt meine frage in welchem Format sind die HTMLTexte die ich von euch bekomme, wenn von eurer Seite dort keine Fehlinterpretation von Zeichen auftritt gibt es auch mit meinem Programm keine Probleme, nur weiß ich nicht wie genau ihr euch damit schon beschäftigt habt, vor allem in Hinsicht darauf, dass die bis jetzt bearbeiteten englischen Texte quasi keine Sonderzeichen enthalten haben.


2. Momentan ist der Textoutput des HTMLcleaners soweit, dass der Stanford-Parser fehlerfrei(soweit es getestet wurde) läuft und dass alle Zeichen die nicht Stanford gerecht sind ersetzt oder eliminiert wurden. Nun meine Frage an die Leute die noch weiter mit dem Text danach arbeiten, ähnlich wie oben welche Textkodierungen lasst ihr zu? Wie gesagt momentan wird noch alles in UTF-8 abgespeichert, was für die gewünschten deutschen Texte aber zu wenig ist( wir reden von etwa 400-500 Zeichen Verlust) .

Das Admin Team hat schon eine vorläufige Liste von Zeichen die ich ersetzen werde, wenn ich genauer weiß in wie weit ich ersetzen muss werde ich eine offizielle Tabelle mit Ersetzungscodes
bereit stellen.

@Max: Also die HTMLCleaner-Komponente funktioniert , das einzige Problem besteht halt in möglichen Fehlern(durch Kodierung) im übergeben bekommenden Text.

gruß Jessi
--
GMX DSL Doppel-Flat ab 19,99 €/mtl.! Jetzt auch mit
gratis Notebook-Flat! http://portal.gmx.net/de/go/dsl

Reply all
Reply to author
Forward
0 new messages