Re: Umlaute falsch bei copy/paste

Message has been deleted

Christian Zietz

unread,

Oct 28, 2010, 1:28:27 PM10/28/10

to

Martin Τrautmann schrieb:

> gibt es bekannte Probleme und Lösungen bei copy/paste von Texten mit
> Umlauten?

Probleme gibt es z.B., wenn ein benutzerdefiniertes Encoding verwendet
wird und keine "Übersetzungstabelle" dazu im PDF hinterlegt ist. Eine
einfache Lösung ist mir in diesem Fall nicht bekannt.

Christian
--
Christian Zietz - CHZ-Soft - czietz (at) gmx.net
WWW: http://www.chzsoft.de/
PGP/GnuPG-Key-ID: 0x6DA025CA

tlvp

unread,

Oct 28, 2010, 3:21:29 PM10/28/10

to

On Thu, 28 Oct 2010 05:11:31 -0400, Martin Τrautmann <t-us...@gmx.net> wrote:

> Hallo,

>
> gibt es bekannte Probleme und Lösungen bei copy/paste von Texten mit
> Umlauten?
>

> Ich habe hier immer wieder mal PDFs, wo die Umlaute patzen.
>
> Beispiele:
> AnschlÄsse statt Anschlüsse
> ÇuÖere statt äußere
> BlÅcke statt Blöcke
>
> Im Text wird alles richtig angezeigt. Aber schon die Suche nach dem Wort
> funktioniert nicht.
>
> Von daher funktioniert auch kein pdftotext (aus dem xpdf-Paket), egal ob
> mit -enc Latin1 oder -enc UTF-8
>
> Was im PDF drin steht weiss ich nicht - es ist PDF 1.7, text als stream
>
> /Creator (vspdflib \(www.visagesoft.com\))
>
> Es findet sich z.B.
> /Encoding /MacRomanEncoding
>
> ... allerdings arbeite ich hier auf dem Mac und sollte dann eigentlich
> eher weniger Probleme damit haben.
>
> Schönen Gruß
> Martin

Sounds to me as if the PDF document was produced using *one* character-encoding
(ISO-8859-1, or Windows-1252, perhaps, for example), and the document being pasted
into is using another (UTF-8, for example, or ISO-8859-2, say).

Cheers, -- tlvp
--
Avant de repondre, jeter la poubelle, SVP

Message has been deleted

Thomas Kaiser

unread,

Oct 29, 2010, 5:06:03 AM10/29/10

to

Martin Τrautmann schrieb am 28.10.2010 in <news:slrnicjunk....@ID-685.user.individual.de>
> Please do consider the malfunction of the search option, where I may
> enter text within the pdf viewer itself. Anything with 7 bit characters
> works fine for search, but 8 bit (if latin1) or utf-8 do not.

Und? <news:8itq5r...@mid.individual.net> stimmt trotzdem. "Custom
Encoding", das nicht ausreichend deklariert ist. Solange die Zeichen im
Bereich 1-127 sind (plain ASCII) alles kein Problem, darüber visuell
zwar korrekt darstellbar (irgendeine Glyph-Zeichen-Zuordnung im PDF
vorhanden) aber eben nicht inhaltlich sauber extrahierbar.

Drum sind solche Sachen auch in PDF/A verboten (am Rande erwähnt)

Gruss,

Thomas

Message has been deleted

Michael Unger

unread,

Oct 29, 2010, 11:18:09 AM10/29/10

to

On 2010-10-29 11:06, "Thomas Kaiser" wrote:

> [...] "Custom

> Encoding", das nicht ausreichend deklariert ist. Solange die Zeichen im
> Bereich 1-127 sind (plain ASCII) alles kein Problem, darüber visuell
> zwar korrekt darstellbar (irgendeine Glyph-Zeichen-Zuordnung im PDF
> vorhanden) aber eben nicht inhaltlich sauber extrahierbar.

Mal "dumm" nachgefragt: Was passiert, wenn man (in PostScript) nicht

| (text) show

benutzt, sondern stattdessen

| /t /e /x /t glyphshow

natürlich mit anderen Zeichen oberhalb von \177, also 127 dezimal?
Bettelt man da um Ärger, obwohl der Distiller das eigentlich problemlos
"fressen" müsste?

> [...]

Michael

--
Real names enhance the probability of getting real answers.
My e-mail account at DECUS Munich is no longer valid.