o co chodzi, skoro w pdf jest zwykly tekst anielski ?
W okienku worda gdzie zazwyczaj widac nazwe czcionki typu times new roman i
inne - tym razem widze: Adv Times
chodzi o to, ze takiej dokladnie czcionki nie ma w systemie ??
no ale to powinno zastapic kazda inna dobra, jakos przekodowac...
dzieki za pomoc.
jeszcze dodam, ze oczywisty zabieg "zapisz jako txt/rtf" w acrobacie daje
dokladnie ten sam efekt, tym razem taki:
_ ___ ______ ___ ___ __ _ __ __ _ __ __
__________ __ _____ ____ _____ ____ __ ___ _______ _ ___
______ ___ _ ____
_________ ____ __ ___ __ __ _________ _______ __ __________ __ ______
_____ ____ ____ __ _______ ___ __ __ ____ __ _ ___
__ _____
__________ ___ _______ __ _________ _______ __ ______ __ ________
dokladniej moze jeszcze:
podglad w adobe acrobacie rodzajow czcionek jest mniej wiecej taki:
"AdvTimes" - z 3 rodzaje, potem raz "AdvPi3"
ale czy to ma znaczenie dla np. polecenia "zapisz jako *.rtf ? powinno
zapisac.
A jednak nie. same robaczkowe linijki wychodza w wordzie i w notatniku.
Ewidentnie nie chwyta jakiegos kodowania.
Inne dokumenty pdf - bez problemu daja kopiowac fragmenty tekstu
Bardzo szybka i skuteczna metoda to:
PDF save as --> TIFF -->Fine Reader --> OCR -> DOC
R
przeciez mozna od razu nakarmic FineReader'a PDF'em ;)
robin
--
Skrypty do AdobeFamily
www.adobescripts.pl
gg 3753393
tlen robinet
ICQ 20057375
Skype: AdobeScripts
tak,tak,zrobilem w koncu pdf ->[bez obrazkow/tiffow] FReader ->wiazka-->
word.
[tylko oczywiscie to namiastka, powinna byc w punkt mozliwosc kopiowania z
myszy prawej albo pdf->rtf,a tutaj rozpoznawanie, bledy slownikowe,bo bledy
przy rozpoznaniu... itp; ]
ale tez stad
http://www.foolabs.com/xpdf/about.html
i tym progr. bez problemow w zwykly txt.
To wszakze nie jest ciagle kopiowanie spod prawej myszy z pdf-a ktory nie ma
zablok. kopiowania,a jednak kopiuje krzaki.
>
> tak,tak,zrobilem w koncu pdf ->[bez obrazkow/tiffow] FReader ->wiazka-->
> word.
Jest jeszcze pdf-to-word - sprawdzalem - dziala calkiem przyzwoicie
http://tinyurl.com/2bsdru
lub cos takiego http://tinyurl.com/2db6lq - nie sprawdzalem - ale trial
jest :) wiec mozna podzialac
lub PDF Transformer 2.0 Pro - dziala tylko z Wordem -
http://tinyurl.com/yu827v - trial - mozna sprawdzic :) co i jak
itd....
Norbi
jak demo - wklepujac w co 2gie, 3ie miejsce gwiazdke. dziekuje.
2gie = 2.
3ie = 3.
g u c i o
Tu masz trial bez takich "bajerów":
http://www.pdfpdf.com/pdfconverter.html
http://www.pdfpdf.com/download.html
Pozdruffka
--
~~/PP/~~/SF/~~
http://ibozaur.prv.pl/
... I jeszcze darmówka, całkiem sprawna, tylko coś nie halo z
obrazkami:
http://www.hellopdf.com/
--
~~/PP/~~/SF/~~
http://ibozaur.prv.pl/
Jeszcze jest Adobowski converter onlajn :)
http://www.adobe.com/products/acrobat/access_onlinetools.html
oraz (UWAGA!) Text Mining Tool - zamienia PDF,DOC,RTF,CHM,HTML na text:
http://text-mining-tool.com/ - niecałe 8,5 MB w zipe,
nie wymaga imnstalacji wymaga NET 2.0 framework,
obsługuje polskie kodowanie. Bardzo poręczny
my god... pomysl, jesli nie moglem adobem w kompie,to jaki moge miec ciag
skojarzen ku online, no?
> oraz (UWAGA!) Text Mining Tool - zamienia PDF,DOC,RTF,CHM,HTML na text:
> http://text-mining-tool.com/ - niecałe 8,5 MB w zipe,
ale juz pisalem w watku,ze poradzilem sobie pdf --> *.txt tym:
http://www.foolabs.com/xpdf/about.html
i to b. malym softem,nie 8mb nawet; gdy Ty podpowiadasz mi zainstalowanie
armaty na wrobla czyli
> NET 2.0 framework,
przeciez tego wagonu unika sie jak ognia, kolejna genialna platforma,ktorej
jakos inne OSy nie maja analogicznie,a m$ wymyslil. czesto wlasnie dla
softu 8 mb ladujesz to cudo.
Ja zastanawiam sie - po skonwertowaniu juz na txt - co jest powodem,ze spod
prawej myszy nie moge jednak kopiowac... OK. Ale jakos tam rozwiazne.
> my god... pomysl, jesli nie moglem adobem w kompie,to jaki moge miec ciag
> skojarzen ku online, no?
Dla mnie akurat nie jest to r�wnoznaczne, na serwerach Adobe mo�e by�
jaki� bardziej wydajny mechanizm, oczywi�cie IMHO.
>> oraz (UWAGA!) Text Mining Tool - zamienia PDF,DOC,RTF,CHM,HTML na text:
>> http://text-mining-tool.com/ - nieca�e 8,5 MB w zipe,
> ale juz pisalem w watku,ze poradzilem sobie pdf --> *.txt tym:
> http://www.foolabs.com/xpdf/about.html
OK, sorry, jako� mi umkn�o, bo zafiksowa�em si� na fragmencie
o u�yciu FineReadera...
A xPDF kiedy� testowa�em, ale troszk� zbyt toporny i nieelastyczny,
co prawda tu sprawdziďż˝ siďż˝ jednak znakomicie :)
> gdy Ty podpowiadasz mi zainstalowanie
> armaty na wrobla czyli NET 2.0 framework,
Jako� tak egocentrycznie pomy�la�em, �e je�li ja mam ze dwa-trzy
programy, kt�re wymagaj� NET framework, to prawie ka�dy
ma zainstalowane te biblioteki...
> Ja zastanawiam sie - po skonwertowaniu juz na txt - co jest powodem,ze spod
> prawej myszy nie moge jednak kopiowac... OK. Ale jakos tam rozwiazne.
Mo�e historia przyniesie jak�� odpowied� ;)
Pozdruffka
--
~~PP~~SF~~
http://ibozaur.prv.pl/
$tipa
ale D-L-A-C-Z-E-G-O ? dlaczego tak jest > ktos wie?
bo PDF nie jest formatem edycyjnym tylko wynikowym do druku/podgladu
informacje ktore przedstawia maja "wygladac" tak jak ktos chcial a nie byc edytowalne ;)
> bo PDF nie jest formatem edycyjnym tylko wynikowym do druku/podgladu
> informacje ktore przedstawia maja "wygladac" tak jak ktos chcial a nie byc
> edytowalne ;)
> robin
Poza tym a'propos Corela, to chyba dopiero w wersji X3
tworzenie PDFów z fontami jest rozwiązane "po bożemu"
>> ale D-L-A-C-Z-E-G-O ? dlaczego tak jest > ktos wie?
>
> bo PDF nie jest formatem edycyjnym tylko wynikowym do druku/podgladu
> informacje ktore przedstawia maja "wygladac" tak jak ktos chcial a nie byc edytowalne ;)
Ale masz jakieś wsparcie? :>
Bo AI w wersji od 11 w górę, to nic innego jak PDF (z dodatkami
oczywiście, ale po zmianie rozszerzenia bez problemów otwiera się w
Acrobacie).
================
Do autora wątku:
A przyczyną tego pieprznika jest to, że ktoś najprawdopodobniej użył
skopanego fontu (i programu, który Unicode nie używa).
Afair jakieś pirackie fonty z dawnych czasów (ten zestaw, w którym był
np. "Szwajcar" - czyli Helvetica - i tak dalej) był tak właśnie
skopany - wszystkie znaki miały "unikody" zaczynające się od FF...
(ale normalne pozycje w tablicy ASCII). No i np. taki PageMaker albo
Quark niższej wersji spokojnie by ten font łyknął, wydrukował, dałoby
się zdestylować i jest ślicznie - ale tekstu tam już nie ma. Ew.
spróbuj obejrzeć wygenerowanego RTF, ale nie w Wordzie, tylko zwykłym
edytorze tekstowym (chodźby w Notepadzie) - pewnie tak się właśnie
okaże...
Ew. spróbuj, jak to wygląda w jakimś starym Readerze (np. w wersji
3.0.1 - instalka jest w FAQ).
Pozdrawiam,
Marek W.
--
FAQ grupy pl.comp.dtp: http://dtp.art.pl/
Lista mirrorów: http://emide.neostrada.pl
"Nie pracuje dobrze ten, kto z zamiarem wykonania łopaty buduje rakietę."
Stanisław Lem.
ok - tylko ze to jest tak samo jak z TIFF'em ;)
jest pewien okreslony standard + mozliwosc dodawania swoich informacji
a to ze Ilek potrafi zapisac dane "ladnie poukladane" to tylko dobrze o nim swiadczy ;)
i tylko tyle - bo nie oznacza to ze PDF jest formatem edycyjnym - Ilek dorzuca tez od siebie jakies tam ukryte informacje ktore pozniej jest w stanie odzyskac - jest przeciez opcja zapisu golego i do pozniejszej edycji ;)
ale zaden inny program tego nie wykorzystuje ;)
> A przyczyną tego pieprznika jest to, że ktoś najprawdopodobniej użył
> skopanego fontu
AdvTimes
> (i programu, który Unicode nie używa).
acr. distiller 4.05
> Afair jakieś pirackie fonty z dawnych czasów (ten zestaw, w którym był
> np. "Szwajcar" - czyli Helvetica - i tak dalej) był tak właśnie
> skopany - wszystkie znaki miały "unikody" zaczynające się od FF...
> (ale normalne pozycje w tablicy ASCII). No i np. taki PageMaker albo
> Quark niższej wersji spokojnie by ten font łyknął, wydrukował, dałoby
> się zdestylować i jest ślicznie - ale tekstu tam już nie ma. Ew.
> spróbuj obejrzeć wygenerowanego RTF, ale nie w Wordzie, tylko zwykłym
> edytorze tekstowym (chodźby w Notepadzie) - pewnie tak się właśnie
> okaże...
{\rtf1\ansi\ansicpg1250 {\fonttbl\f0\ftech\fcharset0
AdvTimes-b;\f1\ftech\fcharset0 AdvTimes-bi;\f2\ftech\fcharset0
AdvTimes;\f3\ftech\fcharset0 AdvPi3;\f4\ftech\fcharset0
AdvTimes-i;\f5\ftech\fcharset0 AdvP4C4E51;}\pard\plain\ql\f0\fs20 {\fs36
\par \par }{\f1\fs30
\par }{\fs22 \par }{\f2\fs18
! \par " #
!
[.................................]
> acr. distiller 4.05
Nie, Distiller tylko zrobił PDF z postscriptu. Mam na myśli program,
który wygenerował ten postscript...
[ciach...]
Bardzo interesujące. Wycięło cały fragment po cytacie, który
dopisałem. Naprawdę ciekawe...
Możesz gdzieś wystawić tego PDF?
Tak jak się spodziewałem - fonty użyte w tym pliku używają nazw glifów
typu "C###", gdzie ### to numer kodu ASCII oryginalnej litery. Próba
przekopiowania tekstu powoduje, że Acrobat szuka odpowiedniego znaku
Unicode, który, jak łatwo zauważyć, nie istnieje.
Rozwiązanie - wydrukować do PS, po czym zdestylować dostatecznie niską
(nie-Unicode) wersją Acrobata (ja użyłem wersji 3.0.1) - i tekst można
będzie skopiować...
BTW - przy próbie zapisania RTF z tego poprawionego PDF dostałem
komunikat, że fonty nie zawierają informacji mapujących dla glifów
symboli o kodach od 36000 (coś tam - nie zanotowałem) do 65000 :>
I oczywiście RTF jest rozwalony, ale przynajmniej tekst (plain) daje
się skopiować...
Ten poprawiony PDF jest dostępny tu:
http://marekw.dtp.art.pl/dziwne/
jestem oczarowany :)
w dzien to przezyje tworczo i zapytam, bo nie kumam niczego,a chociaz
troche chce . pozdro.
tzn. jak to jest "technicznie"? - gdy np. robie pdf programem pdfCreator, to
co tworzy postscript, a co z niego pdf-a? bo fizycznie uzywam tylko (?)
pdfCreatora...
no tak - ale ja poligrafem jednak nie zostane :)
> Rozwiązanie - wydrukować do PS, po czym zdestylować dostatecznie niską
> (nie-Unicode) wersją Acrobata (ja użyłem wersji 3.0.1) - i tekst można
> będzie skopiować...
idac droga najbardziej mnemotechnicznych zabiegow - nie pisalem tego juz
tutaj - ale prawie dokladnie tak usilowalem wrocic do korzeni pliku:
zapisywalem do ps, potem dist. [liczylem na to, ze cos tam sie "przemieli"],
ale juz nie wiedzialem ze jest tajemniczy dla mnie problem unicode,wiec
destylowalem acrobatem 5...
> BTW - przy próbie zapisania RTF z tego poprawionego PDF dostałem
> komunikat, że fonty nie zawierają informacji mapujących dla glifów
> symboli o kodach od 36000 (coś tam - nie zanotowałem) do 65000 :>
tego oczywiscie nie rozumiem :)
[btw. a gdzie o tym wszystkim mozna poczytac, zebym na przyszlosc nie
bredzil ?]
> Ten poprawiony PDF jest dostępny tu:
> http://marekw.dtp.art.pl/dziwne/
i jest dosyc dziwny, bo faktycznie - da sie kopiowac tekst prawoklikiem, gdy
pdf jest edytowany w acrobacie, ale juz nie w foxit readerze...
>> Tak jak się spodziewałem - fonty użyte w tym pliku używają nazw glifów
>> typu "C###", gdzie ### to numer kodu ASCII oryginalnej litery. Próba
>> przekopiowania tekstu powoduje, że Acrobat szuka odpowiedniego znaku
>> Unicode, który, jak łatwo zauważyć, nie istnieje.
>
> no tak - ale ja poligrafem jednak nie zostane :)
Ja też nie. Zresztą akurat z _poligrafią_ to raczej niewiele ma
wspólnego - maszynie drukarskiej wszystko jedno, jak się nazywa dany
znak i jaki ma kod...
>> BTW - przy próbie zapisania RTF z tego poprawionego PDF dostałem
>> komunikat, że fonty nie zawierają informacji mapujących dla glifów
>> symboli o kodach od 36000 (coś tam - nie zanotowałem) do 65000 :>
>
> tego oczywiscie nie rozumiem :)
Chodzi o to to, że znaki te mają bardzo wysokie numery Unicode -
inaczej mówiąc, starszy bajt zaczyna się od F (skoro powyżej 37
tysięcy, to w hexach Fxxx). A tak kodowane są przeróżne symbole
(różne dingsy itp.), ale nie litery...
> [btw. a gdzie o tym wszystkim mozna poczytac, zebym na przyszlosc nie
> bredzil ?]
Na początek zacznij od opisu Unicode...
http://en.wikipedia.org/wiki/Unicode (niestety polska wersja jest
mocno niekompletna).
>> Ten poprawiony PDF jest dostępny tu:
>> http://marekw.dtp.art.pl/dziwne/
>
> i jest dosyc dziwny, bo faktycznie - da sie kopiowac tekst prawoklikiem, gdy
> pdf jest edytowany w acrobacie, ale juz nie w foxit readerze...
A tego nie sprawdzałem.
typografia ? :)
[..............]
> Na początek zacznij od opisu Unicode...
> http://en.wikipedia.org/wiki/Unicode (niestety polska wersja jest
> mocno niekompletna).
a poza tym?