Nicht-UTF-8 Byte-Sequenzen entfernen

Torsten Zühlsdorff

unread,

Jul 3, 2009, 4:00:44 AM7/3/09

to

Hallo,

folgender Ausgang:
Ich habe eine kleine Suchmaschine geschrieben. Sie crawlt Seiten und
ermï¿œglicht eine Volltextsuche ;)

Jetzt das Problem:
Einige Kunden, die die SuMa Nutzen, haben zwar Ihre Webseiten als UTF-8
deklariert und grï¿œï¿œtenteils auch so umgesetzt, aber dennoch gibt es
ungï¿œltige Byte-Sequenzen, welche einen Import in die Datenbank verhindern.

Gibt es eine Mï¿œglichkeit, diese Byte-Sequenzen zu finden und zu entfernen?

Gruï¿œ,
Torsten

Ulf [Kado] Kadner

unread,

Jul 3, 2009, 4:25:01 AM7/3/09

to

Torsten Zï¿œhlsdorff schrieb:

> folgender Ausgang:
> Ich habe eine kleine Suchmaschine geschrieben. Sie crawlt Seiten und
> ermï¿œglicht eine Volltextsuche ;)

*staun* ;-)

> Jetzt das Problem:
> Einige Kunden, die die SuMa Nutzen, haben zwar Ihre Webseiten als UTF-8
> deklariert und grï¿œï¿œtenteils auch so umgesetzt, aber dennoch gibt es
> ungï¿œltige Byte-Sequenzen, welche einen Import in die Datenbank verhindern.
>
> Gibt es eine Mï¿œglichkeit, diese Byte-Sequenzen zu finden und zu entfernen?

Nur so als Idee:

In regulï¿œren Ausdrï¿œcken hat man ja die Mï¿œglichkeit mit sogenannten
"Unicode character properties" zu arbeiten [^\pL\pN...]+

Diese sollten ja eigentlich bereits einen groï¿œen Bereich abdecken. u.U.
reicht das bereits da hier eigentlich eher nur ungebrï¿œuchliche oder
selten-nie benï¿œtigte Zeichen nicht abgedeckt werden kï¿œnnen.

MfG, Ulf

Torsten Zühlsdorff

unread,

Jul 3, 2009, 4:52:01 AM7/3/09

to

Torsten Zï¿œhlsdorff schrieb:

> Gibt es eine Mï¿œglichkeit, diese Byte-Sequenzen zu finden und zu entfernen?

Wie ich jetzt herausgefunden habe: Die defekten Byte-Sequenzen entstehen
wï¿œhrend der Verarbeitung. Wenn ein UTF-8 Inhalt einem
html_entity_decode() unterzogen wird, entstehen dabei die besagten
Sequenzen. Wenn man als dritten Parameter das Encoding angibt, ist das
Problem gelï¿œst.

Immer das selbe. Sobald man nach stundenlangen Suchen sich dann Hilfe
holen mï¿œchte, fï¿œllt die Lï¿œsung ein paar Minuten spï¿œter auf. :P

Gruï¿œ,
Torsten

Torsten Zühlsdorff

unread,

Jul 3, 2009, 4:55:56 AM7/3/09

to

Ulf [Kado] Kadner schrieb:

> Torsten Zï¿œhlsdorff schrieb:
>
>> folgender Ausgang:
>> Ich habe eine kleine Suchmaschine geschrieben. Sie crawlt Seiten und
>> ermï¿œglicht eine Volltextsuche ;)
>
> *staun* ;-)

;) Es wï¿œre unnï¿œtig das Fakt-Sheet hier aufzuzï¿œhlen. Allerdings bin ich
recht stolz darauf, da sie so gestrickt ist, dass sie unabhï¿œngig von den
Seiten ist und die Suchfunktion ï¿œber eine XML-Schnittstelle vï¿œllig
unabhï¿œngig eingebunden werden kann.
Den Kunden ist das aber egal. Die freuen sich darï¿œber, dass es in einer
halben Stunde eine vollstï¿œndige Suche gibt, die nur Ihre eigenen Seiten
durchsucht und das auch noch Domainï¿œbergreifent.

Und ich spare mir jedesmals die Arbeit, eine Suche fï¿œr meine Projekte zu
programmieren ;)

>> Jetzt das Problem:
>> Einige Kunden, die die SuMa Nutzen, haben zwar Ihre Webseiten als
>> UTF-8 deklariert und grï¿œï¿œtenteils auch so umgesetzt, aber dennoch gibt
>> es ungï¿œltige Byte-Sequenzen, welche einen Import in die Datenbank
>> verhindern.
>>
>> Gibt es eine Mï¿œglichkeit, diese Byte-Sequenzen zu finden und zu
>> entfernen?
>
> Nur so als Idee:
>
> In regulï¿œren Ausdrï¿œcken hat man ja die Mï¿œglichkeit mit sogenannten
> "Unicode character properties" zu arbeiten [^\pL\pN...]+
>
> Diese sollten ja eigentlich bereits einen groï¿œen Bereich abdecken. u.U.
> reicht das bereits da hier eigentlich eher nur ungebrï¿œuchliche oder
> selten-nie benï¿œtigte Zeichen nicht abgedeckt werden kï¿œnnen.

Soweit ich mich entsinnen kann, war die Unicode Unterstï¿œtzung in
Regulï¿œren Ausdrï¿œcken in PHP nicht sonderlich gut? Ist allerdings schon
ein Weilchen her, als ich das mal benï¿œtigt habe.

Anderseits ist das Problem jetzt gelï¿œst :)
<h2kh25$8kr$1...@news.eternal-september.org>

Gruï¿œ,
Torsten

Karl Pflästerer

unread,

Jul 3, 2009, 5:19:03 AM7/3/09

to

Torsten Z�hlsdorff <f...@meisterderspiele.de> writes:

> folgender Ausgang:
> Ich habe eine kleine Suchmaschine geschrieben. Sie crawlt Seiten und

> erm�glicht eine Volltextsuche ;)

>
> Jetzt das Problem:
> Einige Kunden, die die SuMa Nutzen, haben zwar Ihre Webseiten als
> UTF-8

> deklariert und gr��tenteils auch so umgesetzt, aber dennoch gibt es
> ung�ltige Byte-Sequenzen, welche einen Import in die Datenbank
> verhindern.
>
> Gibt es eine M�glichkeit, diese Byte-Sequenzen zu finden und zu entfernen?

Hast du schon mal recode ausprobiert? von utf8 nach zB ucs4 (mit force);
und dann wieder zur�ck zu utf8. Alle ung�ltigen Sequenzen sollten dann
weg sein.

KP

Torsten Zühlsdorff

unread,

Jul 3, 2009, 5:35:53 AM7/3/09

to

Karl Pfl�sterer schrieb:

Ja, das hatte ich bereits probiert, aber es hat nicht geklappt. Weil der
Fehler sp�ter durch mich hervorgerufen wurde.

Gru�,
Torsten