Re: Text mit Schriften aus PDF extrahieren

Message has been deleted

Rolf Niepraschk

unread,

Dec 4, 2006, 4:01:31 PM12/4/06

to

Herbert Bülau schrieb:
...
>
> Ist sowas irgendwie machbar?
>

Probier

pdftotext -enc ISO-8859-7 datei.pdf datei.txt

...Rolf

Message has been deleted

Roman Klinger

unread,

Dec 7, 2006, 3:01:23 PM12/7/06

to

Herbert Bülau schrieb:
> Sonst irgendwelche Ideen? Wäre richtig klasse, wenn man das irgendwie
> hinbekommen könnte. Danke! :)
Vielleicht kannst Du ein Beispiel-pdf irgendwo ins Netz stellen und hier
einen Link angeben. Dann könnte man sich das pdf mal genauer ansehen.

Schönen Gruß,
Roman

Message has been deleted

Rolf Niepraschk

unread,

Dec 7, 2006, 5:22:14 PM12/7/06

to

Herbert Bülau schrieb:
> Rolf Niepraschk schrieb :

>
>> Probier
>>
>> pdftotext -enc ISO-8859-7 datei.pdf datei.txt
>

> Danke, hat aber leider nicht funktioniert.
>
> | Error: Couldn't find unicodeMap file for the 'ISO-8859-7' encoding
> | Error: Couldn't get text encoding

Dann ist Deine XPDF-Installation fehlerhaft oder unvollständig.
Vorsichtshalber kannst Du noch mal nach der Datei

ISO-8859-7.unicodeMap

suchen. Am besten auch noch nach ähnlichen Schreibweisen (groß/klein).
Dann ggf. korrigieren oder gleich vollständig neu installieren.

...Rolf

Thomas Proppe

unread,

Dec 8, 2006, 5:46:57 AM12/8/06

to

Hallo Herbert,

Herbert Bülau wrote:
> Das Beste wäre, wenn man das ganze in ein Doc, OpenOffice, RTF Format
> wandeln könnte oder ähnliches.

das schein ja etwas schwieriger zu sein, wie der Thread zeigt.

> Es wäre nur irgendwie essentiell
> Textstellen daraus in mit OpenOffice geschrieben Text einzusetzen -
> und der zitierte Text soll genauso aussehen wie der algriechische im
> PDF (mit allen Akzenten etc.).
>
> Ist sowas irgendwie machbar?

Irgendwie ja, ist eine Frage wieviele Zitate Du einfügen willst. Wenn es
überschaubar bleibt, dann 'zoome' den Ausschnitt den Du haben willst,
drücke <Alt>+<Druck> um eine Kopie des aktiven Fensters als Grafik in
die Zwischenablage zu legen. Dann in OpenOffice einfügen und
beschneiden.

Das macht aber nur Spaß, wenn es nicht so viele sind.

Alternativ könnte auch gehen, dass Du es per OCR-Software versuchtst. Da
gibt es sicherlich Testversionen. Wenn Texterkennungssoftware mit der
entsprechenden Fähigkeit und dem Wörterbuch ausgestattet ist und eine
entsprechende Schrift auf Deinem Rechner installiert ist, könnte das
gehen. Dann könntest Du alle Seiten per Ghostscript in Grafiken
umwandeln lassen und durch die Texterkennung jagen.

Thomas Proppe

Frank W. Werneburg

unread,

Dec 8, 2006, 10:24:00 AM12/8/06

to

Herbert Bülau <hb...@myskoda.de> wrote:

>Mit UTF-8 hat es funktioniert, daß pdftotext die Konvertierung vorgenommen
>hat. Leider stand da mehr oder weniger das Gleiche drin, was ich auch so
>aus dem PDF kopieren konnte. Ein Importieren der Textdatei in OpenOffice
>mit ISO-8859-7 oder UTF-8 brachte leider keinen Erfolg.

>
>Sonst irgendwelche Ideen? Wäre richtig klasse, wenn man das irgendwie
>hinbekommen könnte. Danke! :)

Könnte es eventuell sein, daß das Problem einzig und allein darin liegt,
daß die von dir verwendeten Schriften den passenden Zeichensatz nicht
enthalten? Versuche doch mal, den Text in OO einzufügen und dann die
Schriftart per Hand auf eine zu ändern, bei der du sicher bist, daß sie den
benötigten Zeichensatz enthällt.

Gruß
Frank

--
------------------------------------------------------------------------
fwern...@web.de http://werneburg.de.vu
Mit vielen Grüßen aus Thüringen, dem grünen Herz Deutschlands.
PGP-Fingerprints: C294EBD4E0C963DECD9C 12B8D7E33DF328D90A73
03E16A9D38874CFF 18372452354F7D46 / 84316FAFAE1F4656 13E271B1C071A62B
------------------------------------------------------------------------

Robert M. Franz (RMF)

unread,

Dec 8, 2006, 7:02:39 PM12/8/06

to

Hallo Herbert

Herbert Bülau wrote:
> ich habe mehrere, freie altgriechische Texte, den ich im PDF zwar markieren
> und in beliebige Dokumente einfügen kann, aber beim Einfügen geht die
> Schrift verloren und die Zeichen bestehen nur aus unbekannten Sonderzeichen
> u.ä.. Im PDF Dokument sind 4 Schriften eingebettet, die irgendwie mit
> MSTT31c... beginnen, man aber im System nicht verwenden kann und wohl auch
> keine offiziellen Schriftbezeichnungen sind. Die Dokumente wurden laut
> Acrobat Reader mit "5D PDF Creator" erstellt.

Vermutlich hat der Ersteller(-Prozess) der PDFs nur ein Subset der
Schriften einbetten lassen -- dann ist AFAIK ziemlich "Essig" mit
Kopieren und woanders einfügen. Bliebe dann wirklich nur noch der
Screenshot oder OCR-Weg ...

Gruss
Robert
--
/"\ ASCII Ribbon Campaign | MS
\ / | MVP
X Against HTML | for
/ \ in e-mail & news | Word

Frank W. Werneburg

unread,

Dec 9, 2006, 10:34:42 AM12/9/06

to

"Robert M. Franz (RMF)" <robert...@mvps.org> wrote:

>Vermutlich hat der Ersteller(-Prozess) der PDFs nur ein Subset der
>Schriften einbetten lassen -- dann ist AFAIK ziemlich "Essig" mit
>Kopieren und woanders einfügen. Bliebe dann wirklich nur noch der
>Screenshot oder OCR-Weg ...

Meinst du, irgendein OCR-Programm kann diesen Zeichensatz einlesen?

Thomas Proppe

unread,

Dec 9, 2006, 6:44:30 PM12/9/06

to

Frank W. Werneburg <fwern...@web.de> schrieb:

>
> Meinst du, irgendein OCR-Programm kann diesen Zeichensatz einlesen?
>

Andere haben sich auch schon den Kopf zerbrochen, z.B. an der
Katholischen Universität Eichstätt
http://www.gnomon.ku-eichstaett.de/LAG/proseminar/Seminarreader/werkzeugkasten.htm

unter Punkt "4 Texterkennung OCR" gibts einen Hinweis auf ein Programm
(Anagnostis - sehr teuer > 600 EUR) und eine Bastellösung-Lösung mit
Standard-Programmen.

Thomas

Bertram Geiger

unread,

Dec 10, 2006, 4:55:23 PM12/10/06

to

Herbert Bülau wrote:
> Roman Klinger schrieb :

> Danke!
>
> Im Wesentlichen geht es hierum:
> http://khazarzar.skeptik.net/books/eusebius/he/he_gr.pdf
>
> Aus diesem Dokument möchte ich in OpenOffice (u.ä.) Zitat direkt einfügen
> können, wenn das irgendwie möglich ist.
>

Also ich habe hier nur Omnipage Light, das mit meinem Scanner gliefert
wurde. Diese Version kann pdf nicht direkt verarbeiten. Ich habe eine
Seite aus he_gr.pdf mit Acrobat als tif abgespeichert und diese Seite
dann mit Omnipage OCR gewandelt. Die griechischen Zeichen sind alle
einwandfrei umgesetzt worden, nur die Akzente werden nicht
unterschieden. Ich vermute, dass da eben der geeignete (altgrichische)
Zeichensatz fehlt und ich auf meinem System nur neugriechische Fonts
habe.
Omnipage 15 kann direkt PDF lesen und verarbeiten, also ohne Umweg
über TIF, vielleicht holt es sich auch eingebettete Fonts aus der
Datei ? Ansonsten sollte das mit einem geeigneten Font eigentlich klappen.

lg und viel Erfolg, Bertram

--

Bertram Geiger, Graz - AUSTRIA
Private Mail: remove the letters "b a d" from my reply address

Re: Text mit Schriften aus PDF extrahieren - Unicode?

Rolf Niepraschk

Roman Klinger

Rolf Niepraschk

Thomas Proppe

Frank W. Werneburg

Robert M. Franz (RMF)

Frank W. Werneburg

Thomas Proppe

Bertram Geiger