> gibt es bekannte Probleme und Lösungen bei copy/paste von Texten mit
> Umlauten?
Probleme gibt es z.B., wenn ein benutzerdefiniertes Encoding verwendet
wird und keine "Übersetzungstabelle" dazu im PDF hinterlegt ist. Eine
einfache Lösung ist mir in diesem Fall nicht bekannt.
Christian
--
Christian Zietz - CHZ-Soft - czietz (at) gmx.net
WWW: http://www.chzsoft.de/
PGP/GnuPG-Key-ID: 0x6DA025CA
> Hallo,
>
> gibt es bekannte Probleme und Lösungen bei copy/paste von Texten mit
> Umlauten?
>
> Ich habe hier immer wieder mal PDFs, wo die Umlaute patzen.
>
> Beispiele:
> AnschlÄsse statt Anschlüsse
> ÇuÖere statt äußere
> BlÅcke statt Blöcke
>
> Im Text wird alles richtig angezeigt. Aber schon die Suche nach dem Wort
> funktioniert nicht.
>
> Von daher funktioniert auch kein pdftotext (aus dem xpdf-Paket), egal ob
> mit -enc Latin1 oder -enc UTF-8
>
> Was im PDF drin steht weiss ich nicht - es ist PDF 1.7, text als stream
>
> /Creator (vspdflib \(www.visagesoft.com\))
>
> Es findet sich z.B.
> /Encoding /MacRomanEncoding
>
> ... allerdings arbeite ich hier auf dem Mac und sollte dann eigentlich
> eher weniger Probleme damit haben.
>
> Schönen Gruß
> Martin
Sounds to me as if the PDF document was produced using *one* character-encoding
(ISO-8859-1, or Windows-1252, perhaps, for example), and the document being pasted
into is using another (UTF-8, for example, or ISO-8859-2, say).
Cheers, -- tlvp
--
Avant de repondre, jeter la poubelle, SVP
Und? <news:8itq5r...@mid.individual.net> stimmt trotzdem. "Custom
Encoding", das nicht ausreichend deklariert ist. Solange die Zeichen im
Bereich 1-127 sind (plain ASCII) alles kein Problem, darüber visuell
zwar korrekt darstellbar (irgendeine Glyph-Zeichen-Zuordnung im PDF
vorhanden) aber eben nicht inhaltlich sauber extrahierbar.
Drum sind solche Sachen auch in PDF/A verboten (am Rande erwähnt)
Gruss,
Thomas
> [...] "Custom
> Encoding", das nicht ausreichend deklariert ist. Solange die Zeichen im
> Bereich 1-127 sind (plain ASCII) alles kein Problem, darüber visuell
> zwar korrekt darstellbar (irgendeine Glyph-Zeichen-Zuordnung im PDF
> vorhanden) aber eben nicht inhaltlich sauber extrahierbar.
Mal "dumm" nachgefragt: Was passiert, wenn man (in PostScript) nicht
| (text) show
benutzt, sondern stattdessen
| /t /e /x /t glyphshow
natürlich mit anderen Zeichen oberhalb von \177, also 127 dezimal?
Bettelt man da um Ärger, obwohl der Distiller das eigentlich problemlos
"fressen" müsste?
> [...]
Michael
--
Real names enhance the probability of getting real answers.
My e-mail account at DECUS Munich is no longer valid.