Re: Häufigste Fehler in 13.000 manuell evaluierten Sätzen

6 views
Skip to first unread message

Felix Lange

unread,
Dec 6, 2010, 8:42:50 AM12/6/10
to goolap-e...@googlegroups.com
Hallo, ich war heute leider verhindert und bin erst morgen wieder am Institut. Ein paar Anmerkungen zu den Beobachtungen

Am 6. Dezember 2010 12:27 schrieb Alexander Löser <alo...@cs.tu-berlin.de>:

Hallo,

 

Oleksii hat heute in seiner Präsentation wenige sehr wichtige Baustellen entdeckt, die noch zu „schlechten Sätzen“ für das Training der Beziehungen führen. Wir sollten diese Baustellen beenden. Die meisten sind sehr einfach zu lösen.

 

Prio 1: NICHT SÄTZE entfernen. 650 aus 13.000 Sätzen haben diesen Fehler. Das ist viel!!

 

1.       Sätze die eigentlich User-Generated-Tags oder Labels sind. Beispiele für derartige Sätze treten nach BOILERPLATE auf.

a.       „Labels: Barack Obama, Berlin, Visist, Angela Merkel“

b.      „Tagx: Barack Obama, Berlin, Visist, Angela Merkel“

c.        etc.

d.      Ein einfacher Filter nach Boilerplate würde hier Abhilfe schaffen und diese Sätze eliminieren.

 Momentan ist der SentenceCandidateAnnotator nicht aktiv, der eigentlich Sätze ohne Verben rausfiltert (wie a,b). Den Filter nach "Tags" und "Labels" kann man da leicht hinzufügen. Ich mach das heute.

 

Prio 2: LISTEN und COMPLEXE NERS generalisieren. 380 aus 13.000 Sätzen haben diesen Fehler. Das ist viel!!

 

2.       Complex Locations, List von Persons etc.

a.       Barack Obama, Angela Merkel, Michael Jackson are born in Berlin.

b.      = <PERSONLIST> are born in Berlin, Germany

c.       Barack Obama is born in <COMPLEXLOCATIONLIST>.

d.      =<PERSONLIST> is born in <COMPLEXLOCATIONLIST>.

Die Listenannotatoren und der Annotator für Complex Locations laufen einigermaßen, der Recall ist aber noch nicht gut genug. Der Basisextraktoren-Team auf dem Projekt konnte sich bisher nicht darum kümmern. Man kann die Komponente prinzipiell aber schon einbauen (es gibt keine Exceptions o.Ä.). Wichtig aber: Mit welchen Typen wollen wir arbeiten? Momentan haben die Typen PERSON und PERSONLIST ja gar nichts miteinander zu tun. Soll das so bleiben? Für die PAttern-Generalisierung wäre es doch sinnvoller, die Listen würden mit dem Basistyp (z.B. Person) annotiert und hätten als Feature LIST und COMPLEX (Für Locations).

 

Prio 3: SONDERZEICHEN GEHEN FLÖTEN. In 14% von 6500 Sätzen tritt folgender Fehler auf: Bei der Generalisierung der Sätze (BOILPERPLATE oder NER? Also vor POS) werden wohl im Code von Martin Bach noch wertvolle Sonderzeichen entfernt.  

 

1.       Das betrifft (),‘ usw.

2.       Das führt zu Fehlern in 14% der schlechten Sätze.

a.       Z.B.  Alexander Löser ( Meissen, 1976) is  scientist with TUB.

b.      Martin’s Code= Alexander Löser  Meissen 1976 is  scientist with TUB.  

Klammern dürfen auf keinen Fall entfernt werden, weil dann der Parser evtl. nicht richtig arbeitet. Dafür verantwortlich ist der reguläre Ausdruck  text = text.replaceAll( "[^A-Za-z0-9 .,;:!?+\"'$%&]", "" );
Da kann man Klammern ja einfach wieder einfügen. Der Stanford Parser akzeptiert als Input übrigens nicht "(" und ")" sondern nur die Tags "LRB" und "RRB". Beim Tagger dürfte das aber nicht so sein.

3.       Checkt doch mal bitte, ob der Code von Martin noch aktiv ist. Fragt bitte Martin per Mail (Felix oder Oleksii? -> Martin Bach:  pa...@cs.tu-berlin.de )


 

Prio 1: MISC: Der Stanford NER Tagger bietet vier Klassen an. Momentan hat aber unser UIMA Wrapper nur drei Klassen, PER; ORG; LOC. Es gibt aber noch MISC. Bitte modifiert den Tagger, das wir auch MISC Taggen können bzw. MISC auch in ENJOY Regeln auftritt.

 

@ OLEG kümmerst Du dich bitte darum?

 

@OLEKSII: Bitte triff Dich doch mit Sebastian, Felix, Oleg und Jessica und erkläre Ihnen Deine Beobachtungen. De Facto stellen wir uns doch durch unseren Code  selbst ein Bein und erzeugen schlechte Sätze für das Training.  Das muss nicht sein.

 

@Max: Wie gehabt. Zum M2 wäre es gut für die 35 Beziehungen von Felix die URLs + Freebase Trainingsdaten + Sätze+ Basis Entitäten pro Satz zu haben. So dass wir wissen: Dieser Satz steht auf dieser URL und wir haben diesen Satz mit folgendem Trainingstuple für folgende Beziehung geholt. Und in diesem Satz haben wir an folgenden Stellen folgende Basisentitäten vom Typ x erhalten.  Hatten wir ja schon mal im Excel besprochen.

 

Beste Grüße und Danke,

Alexander

 

 


Oleg Mayevskiy

unread,
Dec 6, 2010, 9:31:49 AM12/6/10
to goolap-e...@googlegroups.com, Alexander Löser
Am 06.12.2010 12:27, schrieb Alexander Löser:

Hallo,

 

Prio 1: MISC: Der Stanford NER Tagger bietet vier Klassen an. Momentan hat aber unser UIMA Wrapper nur drei Klassen, PER; ORG; LOC. Es gibt aber noch MISC. Bitte modifiert den Tagger, das wir auch MISC Taggen können bzw. MISC auch in ENJOY Regeln auftritt.

 

@ OLEG kümmerst Du dich bitte darum?

 


Ich habe dafür ein Ticket erstellt: https://bird.cs.tu-berlin.de:4430/mantisbt/view.php?id=294
Misc ist nun  im Extractor und Joyanalyzer grundlegend Verfügbar.
Misc ist nun ein weiterer Entity Type im Extractor und wird somit für generische Relationen benutzt.

Im JOYAnalyzer wird MISC grundlegend annotiert.
Es muss aber noch in die JOY Sprache aufgenommen werden, oder geschieht das automatisch?
Wer kann sich drum kümmern bzw. die Frage beantworten?

Im extractor gehe ich von einem Type "NER.MISC" aus.

Grüße

Oleg

Alexander Löser

unread,
Dec 6, 2010, 10:03:00 AM12/6/10
to goolap-e...@googlegroups.com

DANKE.

 

Das ging schnell.  Müsste man ja eigentlich auch im GUI sehen … Na ich lass mich überraschen ….

 

A.

Alexander Löser

unread,
Dec 6, 2010, 10:07:49 AM12/6/10
to goolap-e...@googlegroups.com

Hallo,

 

anbei meine Anmerkungen …

 

Von: goolap-e...@googlegroups.com [mailto:goolap-e...@googlegroups.com] Im Auftrag von Felix Lange
Gesendet: Montag, 6. Dezember 2010 14:43
An: goolap-e...@googlegroups.com
Betreff: Re: Häufigste Fehler in 13.000 manuell evaluierten Sätzen

 

Hallo, ich war heute leider verhindert und bin erst morgen wieder am Institut. Ein paar Anmerkungen zu den Beobachtungen

Am 6. Dezember 2010 12:27 schrieb Alexander Löser <alo...@cs.tu-berlin.de>:

Hallo,

 

Oleksii hat heute in seiner Präsentation wenige sehr wichtige Baustellen entdeckt, die noch zu „schlechten Sätzen“ für das Training der Beziehungen führen. Wir sollten diese Baustellen beenden. Die meisten sind sehr einfach zu lösen.

 

Prio 1: NICHT SÄTZE entfernen. 650 aus 13.000 Sätzen haben diesen Fehler. Das ist viel!!

 

1.       Sätze die eigentlich User-Generated-Tags oder Labels sind. Beispiele für derartige Sätze treten nach BOILERPLATE auf.

a.       „Labels: Barack Obama, Berlin, Visist, Angela Merkel“

b.      „Tagx: Barack Obama, Berlin, Visist, Angela Merkel“

c.        etc.

d.      Ein einfacher Filter nach Boilerplate würde hier Abhilfe schaffen und diese Sätze eliminieren.

 Momentan ist der SentenceCandidateAnnotator nicht aktiv, der eigentlich Sätze ohne Verben rausfiltert (wie a,b). Den Filter nach "Tags" und "Labels" kann man da leicht hinzufügen. Ich mach das heute.

@Felix: Danke. Bitte sprich Dich mit Max ab, wo er den Filter einsetzen würde. Wer wird den Filter pflegen und testen …?  Bitte findet einen Studenten, der sich dieses Problems annimmt.

 

Prio 2: LISTEN und COMPLEXE NERS generalisieren. 380 aus 13.000 Sätzen haben diesen Fehler. Das ist viel!!

 

2.       Complex Locations, List von Persons etc.

a.       Barack Obama, Angela Merkel, Michael Jackson are born in Berlin.

b.      = <PERSONLIST> are born in Berlin, Germany

c.       Barack Obama is born in <COMPLEXLOCATIONLIST>.

d.      =<PERSONLIST> is born in <COMPLEXLOCATIONLIST>.

Die Listenannotatoren und der Annotator für Complex Locations laufen einigermaßen, der Recall ist aber noch nicht gut genug. Der Basisextraktoren-Team auf dem Projekt konnte sich bisher nicht darum kümmern. Man kann die Komponente prinzipiell aber schon einbauen (es gibt keine Exceptions o.Ä.). Wichtig aber: Mit welchen Typen wollen wir arbeiten? Momentan haben die Typen PERSON und PERSONLIST ja gar nichts miteinander zu tun. Soll das so bleiben? Für die PAttern-Generalisierung wäre es doch sinnvoller, die Listen würden mit dem Basistyp (z.B. Person) annotiert und hätten als Feature LIST und COMPLEX (Für Locations).

 

@Jessica: Das wäre etwas für M3 …

 

Prio 3: SONDERZEICHEN GEHEN FLÖTEN. In 14% von 6500 Sätzen tritt folgender Fehler auf: Bei der Generalisierung der Sätze (BOILPERPLATE oder NER? Also vor POS) werden wohl im Code von Martin Bach noch wertvolle Sonderzeichen entfernt.  

 

1.       Das betrifft (),‘ usw.

2.       Das führt zu Fehlern in 14% der schlechten Sätze.

a.       Z.B.  Alexander Löser ( Meissen, 1976) is  scientist with TUB.

b.      Martin’s Code= Alexander Löser  Meissen 1976 is  scientist with TUB.  

Klammern dürfen auf keinen Fall entfernt werden, weil dann der Parser evtl. nicht richtig arbeitet. Dafür verantwortlich ist der reguläre Ausdruck  text = text.replaceAll( "[^A-Za-z0-9 .,;:!?+\"'$%&]", "" );
Da kann man Klammern ja einfach wieder einfügen. Der Stanford Parser akzeptiert als Input übrigens nicht "(" und ")" sondern nur die Tags "LRB" und "RRB". Beim Tagger dürfte das aber nicht so sein.

3.       Checkt doch mal bitte, ob der Code von Martin noch aktiv ist. Fragt bitte Martin per Mail (Felix oder Oleksii? -> Martin Bach:  pa...@cs.tu-berlin.de )

@Felix: Aber wer kümmert sich jetzt darum?

 

Prio 1: MISC: Der Stanford NER Tagger bietet vier Klassen an. Momentan hat aber unser UIMA Wrapper nur drei Klassen, PER; ORG; LOC. Es gibt aber noch MISC. Bitte modifiert den Tagger, das wir auch MISC Taggen können bzw. MISC auch in ENJOY Regeln auftritt.

 

@ OLEG kümmerst Du dich bitte darum?

 

@OLEKSII: Bitte triff Dich doch mit Sebastian, Felix, Oleg und Jessica und erkläre Ihnen Deine Beobachtungen. De Facto stellen wir uns doch durch unseren Code  selbst ein Bein und erzeugen schlechte Sätze für das Training.  Das muss nicht sein.

 

@Max: Wie gehabt. Zum M2 wäre es gut für die 35 Beziehungen von Felix die URLs + Freebase Trainingsdaten + Sätze+ Basis Entitäten pro Satz zu haben. So dass wir wissen: Dieser Satz steht auf dieser URL und wir haben diesen Satz mit folgendem Trainingstuple für folgende Beziehung geholt. Und in diesem Satz haben wir an folgenden Stellen folgende Basisentitäten vom Typ x erhalten.  Hatten wir ja schon mal im Excel besprochen.

 

 

Danke Oleg, Du hast ja MISC schon eingebaut …

 

Grüße,

Alexander

Martin Bach

unread,
Dec 6, 2010, 12:27:06 PM12/6/10
to goolap-e...@googlegroups.com

Klammern sind drin. Die regex ist: "[^A-Za-z0-9 .,;:!?+\"'$%&)(}{]"

http://bird.cs.tu-berlin.de:8008/svn/da-projekt-cloudbi/DimaJaqlExtensions/trunk/DimaJaqlExtensions/src/de/tuberlin/dima/jaql/extensions/BoilerpipeHTMLCleaner.java

http://bird.cs.tu-berlin.de:8008/svn/da-projekt-cloudbi/DimaJaqlExtensions/trunk/DimaJaqlExtensions/src/de/tuberlin/dima/jaql/extensions/HTMLCleaner2.java

Bitte prüfen, ob das auch im PEAR noch so ist.

 

Andere Sonderzeichen haben den Stanford POS Tagger durcheinander gebracht. Lingpipe hatte wesentlich weniger Schwierigkeiten. Soweit ich mich erinnern kann, hat Oleg mal einen Wrapper für Stanford POS Tags nach Lingpipe (und/oder andersrum) geschrieben, den er in seiner Live-Umgebung drin hat. Kann man den nicht auch für JOY nehmen und dann auf Lingpipe POS umschwenken? Das steht ja schon seit über einem Jahr auf der TODO, ist aber bei mir aufgrund geringer Prio und Zeitmangel gescheitert.

 

Wenn Lingpipe drin ist, kann man dieses Regex.replace() mal auskommentieren und (EN)JOY mit Lingpipe testen.

 

/m

 

 

 

Von: goolap-e...@googlegroups.com [mailto:goolap-e...@googlegroups.com] Im Auftrag von Alexander Löser
Gesendet: Montag, 6. Dezember 2010 16:08
An: goolap-e...@googlegroups.com
Betreff: [GOOLAP ENJOY Team] AW: Häufigste Fehler in 13.000 manuell evaluierten Sätzen

 

Prio 3: SONDERZEICHEN GEHEN FLÖTEN. In 14% von 6500 Sätzen tritt folgender Fehler auf: Bei der Generalisierung der Sätze (BOILPERPLATE oder NER? Also vor POS) werden wohl im Code von Martin Bach noch wertvolle Sonderzeichen entfernt.  

1.       Das betrifft (),‘ usw.

2.       Das führt zu Fehlern in 14% der schlechten Sätze.

a.       Z.B.  Alexander Löser ( Meissen, 1976) is  scientist with TUB.

b.      Martin’s Code= Alexander Löser  Meissen 1976 is  scientist with TUB.  

Klammern dürfen auf keinen Fall entfernt werden, weil dann der Parser evtl. nicht richtig arbeitet. Dafür verantwortlich ist der reguläre Ausdruck  text = text.replaceAll( "[^A-Za-z0-9 .,;:!?+\"'$%&]", "" );
Da kann man Klammern ja einfach wieder einfügen. Der Stanford Parser akzeptiert als Input übrigens nicht "(" und ")" sondern nur die Tags "LRB" und "RRB". Beim Tagger dürfte das aber nicht so sein.

 

 

 

 

 

3.       Checkt doch mal bitte, ob der Code von Martin noch aktiv ist. Fragt bitte Martin per Mail (Felix oder Oleksii? -> Martin Bach:  pa...@cs.tu-berlin.de )

@Felix: Aber wer kümmert sich jetzt darum?

 

Prio 1: MISC: Der Stanford NER Tagger bietet vier Klassen an. Momentan hat aber unser UIMA Wrapper nur drei Klassen, PER; ORG; LOC. Es gibt aber noch MISC. Bitte modifiert den Tagger, das wir auch MISC Taggen können bzw. MISC auch in ENJOY Regeln auftritt.

 

@ OLEG kümmerst Du dich bitte darum?

 

@OLEKSII: Bitte triff Dich doch mit Sebastian, Felix, Oleg und Jessica und erkläre Ihnen Deine Beobachtungen. De Facto stellen wir uns doch durch unseren Code  selbst ein Bein und erzeugen schlechte Sätze für das Training.  Das muss nicht sein.

 

@Max: Wie gehabt. Zum M2 wäre es gut für die 35 Beziehungen von Felix die URLs + Freebase Trainingsdaten + Sätze+ Basis Entitäten pro Satz zu haben. So dass wir wissen: Dieser Satz steht auf dieser URL und wir haben diesen Satz mit folgendem Trainingstuple für folgende Beziehung geholt. Und in diesem Satz haben wir an folgenden Stellen folgende Basisentitäten vom Typ x erhalten.  Hatten wir ja schon mal im Excel besprochen.

 

 

Danke Oleg, Du hast ja MISC schon eingebaut …

 

Grüße,

Alexander


eMail ist virenfrei.
Von AVG überprüft - www.avg.de
Version: 10.0.1170 / Virendatenbank: 426/3294 - Ausgabedatum: 03.12.2010

--
Sie erhalten diese Nachricht, weil Sie Mitglied sind von Google
Groups-Gruppe "GOOLAP ENJOY Team".
Für das Erstellen von Beiträgen in dieser Gruppe senden Sie eine E-Mail
an goolap-e...@googlegroups.com
Um sich von dieser Gruppe abzumelden, senden Sie eine E-Mail an
goolap-enjoy-t...@googlegroups.com
Weitere Optionen finden Sie in dieser Gruppe unter
http://groups.google.com/group/goolap-enjoy-team?hl=de?hl=de

Jessica

unread,
Dec 6, 2010, 12:52:27 PM12/6/10
to goolap-e...@googlegroups.com
hi,

also Klammern und so sind drin, auch in der neuen Version,
aber die Sonderzeichen die zu erkennen sind und Fehler verursachen sind
nicht die nachdenen sie aussehen sondern Symbole die ähnlich sind wie die
auf der Tastatur, diese sollten aber von dem neuen HTMLcleaner beseitigt werden.


Zum Thema verschwinden der Sonderzeichen.
Ich bin mir nicht ganz sicher, aber ich denke die Sonderzeichen verschwinden schon bei auslesen der Website.
Zumindest hatte ich dieses Problem und habde versucht es in meiner letzten Mail zu beschreiben.
Wenn der Java Compiler der das Programm compiliert hat mit UTF-8 gearbeitet hat kann das Programm das liest auch nur UTF-8 Seiten lesen.
Anders rum halt mit ISO-8859.
Natürlich weiß ich nich ob das von dem zu gehörigen Team beachtet wurde,
wenn ja den Teil hier einfach ignorieren^^ sonst bitte mal direkt die eingelesenen Websites überprüfen.

Gruß Jessi
-------- Original-Nachricht --------
> Datum: Mon, 6 Dec 2010 18:27:06 +0100
> Von: "Martin Bach" <pa...@cs.tu-berlin.de>
> An: goolap-e...@googlegroups.com
> Betreff: AW: [GOOLAP ENJOY Team] AW: Häufigste Fehler in 13.000 manuell evaluierten Sätzen

> eMail ist virenfrei.
> Von AVG überprüft - www.avg.de
> Version: 10.0.1170 / Virendatenbank: 426/3294 - Ausgabedatum: 03.12.2010
>
> --
> Sie erhalten diese Nachricht, weil Sie Mitglied sind von Google
> Groups-Gruppe "GOOLAP ENJOY Team".
> Für das Erstellen von Beiträgen in dieser Gruppe senden Sie eine E-Mail
> an goolap-e...@googlegroups.com
> Um sich von dieser Gruppe abzumelden, senden Sie eine E-Mail an
> goolap-enjoy-t...@googlegroups.com
> Weitere Optionen finden Sie in dieser Gruppe unter
> http://groups.google.com/group/goolap-enjoy-team?hl=de?hl=de
>
> --
> Sie erhalten diese Nachricht, weil Sie Mitglied sind von Google
> Groups-Gruppe "GOOLAP ENJOY Team".
> Für das Erstellen von Beiträgen in dieser Gruppe senden Sie eine E-Mail
> an goolap-e...@googlegroups.com
> Um sich von dieser Gruppe abzumelden, senden Sie eine E-Mail an
> goolap-enjoy-t...@googlegroups.com
> Weitere Optionen finden Sie in dieser Gruppe unter
> http://groups.google.com/group/goolap-enjoy-team?hl=de?hl=de

--
Neu: GMX De-Mail - Einfach wie E-Mail, sicher wie ein Brief!
Jetzt De-Mail-Adresse reservieren: http://portal.gmx.net/de/go/demail

Martin Bach

unread,
Dec 6, 2010, 1:21:09 PM12/6/10
to goolap-e...@googlegroups.com

Hi Jessica,

die Extraktion der Website macht Boilerpipe (https://code.google.com/p/boilerpipe/).

Die Nachbearbeitung macht der BoilerpipeHTMLCleaner (von uns geschrieben).

Schau am besten in der Boilerpipe API und im Cleaner nach, was da mit UTF-8 passiert oder nicht passiert.

 

Ich bezweifle, dass der Zeichensatz beim Kompilieren eine Rolle spielt und dass ein Java Programm nur Texte in dem Format lesen kann, in dem es kompiliert worden ist. Immerhin kann man beim Lesen eines Textes das Format mit angeben (http://www.mkyong.com/java/how-to-read-utf-8-encoded-data-from-a-file-java/ und http://download.oracle.com/javase/6/docs/api/index.html?java/io/FileInputStream.html). Vielleicht habe ich Dich aber auch nur falsch verstanden.

eMail ist virenfrei.
Von AVG überprüft - www.avg.de

Version: 10.0.1170 / Virendatenbank: 426/3300 - Ausgabedatum: 06.12.2010

Jessica

unread,
Dec 6, 2010, 1:35:20 PM12/6/10
to goolap-e...@googlegroups.com
Hi,


ja lesen kann es den Text, nur liest er die Sonderzeichen falsch aus.
Je nachdem wo das Programm läuft macht er daraus andere Zeichen,
oder schmeißt sie raus.

Dazu kommt das Problem wenn das Programm nur mit UFT-8 arbeitet, dass
wir viele Sonderzeichen verlieren die der Stanford-Parser aber könnte.
Bis jetzt wurde das ganze nur auf englischen Seiten benutzt (soweit ich das weiß), nur reicht der Zeichensatz für deutsche Texte nicht aus.

gruß jessi
-------- Original-Nachricht --------
> Datum: Mon, 6 Dec 2010 19:21:09 +0100


> Von: "Martin Bach" <pa...@cs.tu-berlin.de>
> An: goolap-e...@googlegroups.com
> Betreff: AW: [GOOLAP ENJOY Team] AW: Häufigste Fehler in 13.000 manuell evaluierten Sätzen

> Hi Jessica,

> Version: 10.0.1170 / Virendatenbank: 426/3300 - Ausgabedatum: 06.12.2010

>
> --
> Sie erhalten diese Nachricht, weil Sie Mitglied sind von Google
> Groups-Gruppe "GOOLAP ENJOY Team".
> Für das Erstellen von Beiträgen in dieser Gruppe senden Sie eine E-Mail
> an goolap-e...@googlegroups.com
> Um sich von dieser Gruppe abzumelden, senden Sie eine E-Mail an
> goolap-enjoy-t...@googlegroups.com
> Weitere Optionen finden Sie in dieser Gruppe unter
> http://groups.google.com/group/goolap-enjoy-team?hl=de?hl=de

--
GRATIS! Movie-FLAT mit über 300 Videos.
Jetzt freischalten unter http://portal.gmx.net/de/go/maxdome

Oleg Mayevskiy

unread,
Dec 6, 2010, 1:43:42 PM12/6/10
to goolap-e...@googlegroups.com
Am 06.12.2010 18:27, schrieb Martin Bach:

Klammern sind drin. Die regex ist: "[^A-Za-z0-9 .,;:!?+\"'$%&)(}{]"

http://bird.cs.tu-berlin.de:8008/svn/da-projekt-cloudbi/DimaJaqlExtensions/trunk/DimaJaqlExtensions/src/de/tuberlin/dima/jaql/extensions/BoilerpipeHTMLCleaner.java

http://bird.cs.tu-berlin.de:8008/svn/da-projekt-cloudbi/DimaJaqlExtensions/trunk/DimaJaqlExtensions/src/de/tuberlin/dima/jaql/extensions/HTMLCleaner2.java

Bitte prüfen, ob das auch im PEAR noch so ist.

 

Andere Sonderzeichen haben den Stanford POS Tagger durcheinander gebracht. Lingpipe hatte wesentlich weniger Schwierigkeiten. Soweit ich mich erinnern kann, hat Oleg mal einen Wrapper für Stanford POS Tags nach Lingpipe (und/oder andersrum) geschrieben, den er in seiner Live-Umgebung drin hat. Kann man den nicht auch für JOY nehmen und dann auf Lingpipe POS umschwenken?

Man kann, könnte ich einbauen. Der Wrapper hat im Extractor keine Probleme gemacht.

Martin Bach

unread,
Dec 6, 2010, 1:57:21 PM12/6/10
to goolap-e...@googlegroups.com

Ach so, Du meinst das Client encoding beim Output. Das kann man ja auch angeben. Sonst nimmt er System default. Und das ist bei Windows anders als bei Linux, das stimmt.

 

Wenn es jetzt Deine Aufgabe ist, das zu bereinigen, dann schau bitte nach, ob in der ganzen Pipe UTF-8 eingehalten und angegeben wird.

In YahooBOSS geben wir UTF-8 an, die Websites können jedoch beliebiges bereitstellen und müsste von der Boilerpipe Bibliothek entsprechend verarbeitet und dann nach UTF-8 portiert werden. Der BoilerpipeHTMLCleaner muss dann wieder darauf achten, dass UTF-8 bei ihm ankommt und auch UTF-8 weitergeben.

Keine Ahnung, ob es zwischendurch irgendwelche Brüche gibt. Schau mal nach. ;-)

Jessica

unread,
Dec 6, 2010, 2:44:13 PM12/6/10
to goolap-e...@googlegroups.com
Ja das meinte ich^^

Tut mir leid wenn es etwas unverständlich war.

Wie sieht es denn aus, wollt ihr auf UTF-8 bleiben? Weil Aleander Löser meinte er wollen die ganzen Sonderzeichen die UTF-8 nicht anbietet nicht verlieren.
Wenn wir also auf UTF-8 Formatierung bleiben müsste ich für kanpp 500 Zeichen Codeworte erstellen. Das wäre zwar etwas arbeit, aber möglich.
An sich ist es mir egal, aber ich halte allgemein mit ISO-8859 zu arbeiten für glücklicher, nur weiß ich nich was für die verarbeitung später besser ist und wieviel arbeit es wäre mit der Umstellung.

-------- Original-Nachricht --------
> Datum: Mon, 6 Dec 2010 19:57:21 +0100

Martin Bach

unread,
Dec 6, 2010, 2:58:33 PM12/6/10
to goolap-e...@googlegroups.com

Man verliert mit UTF-8 keine Zeichen. Sie werden nur auf eine bestimmte Art und Weise kodiert. Teilweise werden Zeichen auf mehrere Byte ausgeweitet, um den Zeichensatz zu erhöhen.

Schau hier: http://www.utf8.com/

/m

 

Von: goolap-e...@googlegroups.com [mailto:goolap-e...@googlegroups.com] Im Auftrag von Jessica
Gesendet: Montag, 6. Dezember 2010 20:44
An: goolap-e...@googlegroups.com
Betreff: AW: [GOOLAP ENJOY Team] AW: Häufigste Fehler in 13.000 manuell evaluierten Sätzen

 

Ja das meinte ich^^

Jessica

unread,
Dec 6, 2010, 3:03:06 PM12/6/10
to goolap-e...@googlegroups.com
Ja mit der theorie kenn ich mich aus,
aber ich habe das bei Felix auf dem Uni PC getestet und da hat boilerpipe
beim auslesen aus allen Sonderzeichen "!" gemacht


-------- Original-Nachricht --------
> Datum: Mon, 6 Dec 2010 20:58:33 +0100
> Von: "Martin Bach" <pa...@cs.tu-berlin.de>

> --
> Sie erhalten diese Nachricht, weil Sie Mitglied sind von Google
> Groups-Gruppe "GOOLAP ENJOY Team".
> Für das Erstellen von Beiträgen in dieser Gruppe senden Sie eine E-Mail
> an goolap-e...@googlegroups.com
> Um sich von dieser Gruppe abzumelden, senden Sie eine E-Mail an
> goolap-enjoy-t...@googlegroups.com
> Weitere Optionen finden Sie in dieser Gruppe unter
> http://groups.google.com/group/goolap-enjoy-team?hl=de?hl=de

--
GMX DSL Doppel-Flat ab 19,99 &euro;/mtl.! Jetzt auch mit
gratis Notebook-Flat! http://portal.gmx.net/de/go/dsl

Alexander Löser

unread,
Dec 8, 2010, 9:12:52 AM12/8/10
to goolap-e...@googlegroups.com, Martin Bach
Hi Jessica,

mein Vorschlag: Falls Ihr nicht weiter kommt, dann konzentriert Euch bitte
auf den Zeichensatz, den BOILERPLATE kann und der die englische Sprache
unterstützt. Die Unterstützung der deutschen Sprache ist eh erst in einem
halben Jahr realistisch....

Grüße,
Alexander

-----Ursprüngliche Nachricht-----

Gesendet: Montag, 6. Dezember 2010 21:03

Reply all
Reply to author
Forward
0 new messages