Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

pdflatex, pismenka bez diakritiky po copy-and-paste z Acrobatu

82 views
Skip to first unread message

Richard Pecl

unread,
Sep 1, 2004, 10:28:00 AM9/1/04
to
Dobry den.

Pouzivam pdflatex a babel (miktex 2.4).
Kdyz vygeneruju pdf soubor a prohlizim ho v Acrobat Readeru, jsou hacky a carky zobrazeny spravne. Ale kdyz text oznacim a vlozim ho do textoveho editoru (treba do notepadu), tak jsou tam pismena bez diakritiky a diakriticka znamenka jako samostatna vzdycky pred pismenem, napr. "tv´arn´ost".
Nevite nekdo, jak pdflatex prinutit, aby do pdfka daval primo ceska pismena (jestli je teda problem v pdflatex)?
Dik.

risa

Luboš Kloc

unread,
Sep 1, 2004, 11:38:31 AM9/1/04
to

V podstate jde o to, ze Adobe Standard Encoding neobsahuje ceske znaky,
ale obsahuje diakriticka znamenka. Takze ceske znaky se vytvareji ze
dvou znaku - z prislusneho diakritickeho znamenka a prislusneho pismena
a mezi nimi je nejaky posuv. Pokud se to ma znovu zpracovavat jako
prosty text, t.j. pri "copy and paste" a take pri vyhledavani, tak
se to rozpadne na dva samostatne znaky a posun se ignoruje. To je presne
vysledek, ktery dostavate. Problem tedy neni tak uplne v pdfLaTeXu.

Pokud chcete vytvorit cesky PDF soubor, v kterem bude vse vyse uvedene
fungovat, musite splnit dve podminky:

1) pouzit pro sazbu font, ktery ceske znaky primo obsahuje.
2) vysvetlit Acrobatu, jake ma pouzity font kodovani

Ad 1) v Babelu nevim, jinak CS-fonty nebo treba Lido.

Ad 2) vlozit do dokumentu prislusnou tabulku ToUnicode. Tady je trochu
problem, nevim zda prislusne tabulky existuji a jak je vkladat.
Pred casem o tom byla zde diskuse (viz archiv konference), ale
jasny zaver z ni nevzesel.

Taky to lze obejit pouzitim nejakych specialnich nastroju, ktere
dokazi z tech dvouznakovych sekvenci zpetne text rekonstruovat
(TextSpy?), ale nepouzivam Win tak se v tom moc nevyznam.
ale moc se v tom

S pranim uspechu,

Lubos Kloc

Vit Zyka

unread,
Sep 2, 2004, 5:38:16 AM9/2/04
to
Luboš Kloc wrote:

> Richard Pecl wrote:
>> Pouzivam pdflatex a babel (miktex 2.4).
>> Kdyz vygeneruju pdf soubor a prohlizim ho v Acrobat Readeru, jsou
>> hacky a carky zobrazeny spravne. Ale kdyz text oznacim a vlozim ho do
>> textoveho editoru (treba do notepadu), tak jsou tam pismena bez
>> diakritiky a diakriticka znamenka jako samostatna vzdycky pred
>> pismenem, napr. "tv´arn´ost".
>> Nevite nekdo, jak pdflatex prinutit, aby do pdfka daval primo ceska
>> pismena (jestli je teda problem v pdflatex)?
>> risa
>
>
> V podstate jde o to, ze Adobe Standard Encoding neobsahuje ceske znaky,
> ale obsahuje diakriticka znamenka. Takze ceske znaky se vytvareji ze
> dvou znaku - z prislusneho diakritickeho znamenka a prislusneho pismena
> a mezi nimi je nejaky posuv. Pokud se to ma znovu zpracovavat jako
> prosty text, t.j. pri "copy and paste" a take pri vyhledavani, tak
> se to rozpadne na dva samostatne znaky a posun se ignoruje. To je presne
> vysledek, ktery dostavate. Problem tedy neni tak uplne v pdfLaTeXu.
>
> Pokud chcete vytvorit cesky PDF soubor, v kterem bude vse vyse uvedene
> fungovat, musite splnit dve podminky:
>
> 1) pouzit pro sazbu font, ktery ceske znaky primo obsahuje.
> 2) vysvetlit Acrobatu, jake ma pouzity font kodovani

No, ja si myslim, ze mate pravdu jen v bode 1. Do dokumentu se vskutku
musi vlozit ceske znaky (opatrene spravnym kodovanim) a nikoliv
kompozity. To by pro spravne kopirovani do schranky melo stacit (a
urcite mi to staci pro AR 6.0.2 CZ Win, mapovani do Unicode urcite v
tomto pripade nepouzivam).

Adobe Standard Encoding nebo Unicode maji co do cineni s bookmarkama,
anotacema ap., protoze v nich je jine kodovani nepristupne.

Pozorovani:
Mapovani ruznych kodovani vsak musi byt v AR imlementovane samo o sobe.
Napr. pri vyhledavani najde ceska slova s diakritikou, zadavat se vsak
musi bez diakritiky a vysledek se zobrazi s diakritikou jen pro znaky
pritomne v Adobe Standard Encoding (?), zbyle prevede na znaky bez
diakritickych znamenek (!).

Reseni (jak uvedl pan Kloc v bode 1):
Ja babel nepouzivam, ale podle toho, co pisete se zda, ze ceske znaky
tvori pomoci kompozitu. Asi, lze toto chovani zmenit (napr. pouzitim EC
fontu), ale nemam s tim zkusenosti, pouzivam CS fonty; v LaTeXu:
\usepackage{czech}
pdfcslatex file.tex

Vit Zyka

Milan Vancura

unread,
Sep 2, 2004, 6:13:11 AM9/2/04
to
> >1) pouzit pro sazbu font, ktery ceske znaky primo obsahuje.
> >2) vysvetlit Acrobatu, jake ma pouzity font kodovani
>
> No, ja si myslim, ze mate pravdu jen v bode 1. Do dokumentu se vskutku
> musi vlozit ceske znaky (opatrene spravnym kodovanim) a nikoliv
> kompozity. To by pro spravne kopirovani do schranky melo stacit (a
> urcite mi to staci pro AR 6.0.2 CZ Win, mapovani do Unicode urcite v
> tomto pripade nepouzivam).

Pravdu ma pan Kloc, pouze doslo k nedorozumeni ceho ze je to tabulka. ToUnicode
je vnitrni objekt v PDF dokumentu, tabulka mapovani kodu znaku (casti) fontu do
Unicode, tedy de facto "pojmenovani" tech kodu. Pouziva se zejmena proto, ze v
PDF dokumentech se bezne vyskytuji pouze casti fontu (jen pouzite znaky) a tedy
vysledne kodovani neni zadne standardizovane, ale typicky napr.:

0123456789AB
Tot jeprvnia

Pokud vkladate timto fontem pouze text "Toto je prvni veta".

S tim, jake kodovani pouzivate na operacnim systemu nebo na vystupu Acrobatu
vseobecne to nema vubec zadnou souvislost.

K puvodnimu dotazu: s pdfTeXem nemam zadnou zkusenost, ale rekl bych ze jde o
problem "kdo driv": jestli text nejdrive zpracuje pdfTeX (ten vi, ze je to
jeden znak, napr. r s hackem) nebo nejaka makra, napr. babelu. Pokud ta makra z
toho udelaji dva znaky, tak uz se konvertor (pdfTeX) nema sanci neco dozvedet.

Proto si myslim, ze by mohlo pomoci pouzivat cstex a mozna take pocestene
PS fonty. Tam je kompozit vyrabeny az na urovni AFM, takze uplne mimo TeX a
pdfTeX by tim padem mel mit moznost poznat (a tim padem pouzit a vlozit do PDF)
spravnou tabulku kodovani. Snad... Osobne bych se podival po fontech, kde je
kazdy znak jen jeden znak :-) Napr. existuje myslim prevod cs fontu do Type1.
Idealni kandidat, pokud mate jen hladkou sazbu. Pokud mate slozitou matematiku
s AMS fonty a fonty z jeste dalsich zdroju, musel byste se podivat, jestli
existuji jejich Type1 varianty (ale to musite udelat tak jako tak).

S pozdravem,

Milan Vancura

Richard Pecl

unread,
Sep 2, 2004, 7:44:34 AM9/2/04
to
Bohuzel se ted nejak neumim zbavit toho babelu.
Mam miktex 2.4 a kdyz babel odisntaluju a snazim se vytvorit format pro pdfcslatex, tak mi to
hlasi, ze nezna IL2 encoding...


==original==========================================
From: Luboš Kloc <kl...@ipm.cz>
To: cs...@cs.felk.cvut.cz
Date: Wednesday, September 1, 2004, 5:38:31 PM
Subject: pdflatex, pismenka bez diakritiky po copy-and-paste z Acrobatu
Files: <none>

> Pokud chcete vytvorit cesky PDF soubor, v kterem bude vse vyse uvedene
> fungovat, musite splnit dve podminky:

> 1) pouzit pro sazbu font, ktery ceske znaky primo obsahuje.


> 2) vysvetlit Acrobatu, jake ma pouzity font kodovani

> Ad 1) v Babelu nevim, jinak CS-fonty nebo treba Lido.

David Jez

unread,
Sep 3, 2004, 3:58:55 AM9/3/04
to
On Thu, Sep 02, 2004 at 01:44:34PM +0200, Richard Pecl wrote:
> Bohuzel se ted nejak neumim zbavit toho babelu.
> Mam miktex 2.4 a kdyz babel odisntaluju a snazim se vytvorit format
> pro pdfcslatex, tak mi to hlasi, ze nezna IL2 encoding...
Nemusis babel odinstalovavat, jen staci spravne nainstalovat CSTeX
a CSLaTeX a pak je pouzivat.

--
-------------------------------------------------------
David "Dave" Jez Brno, CZ, Europe
E-mail: dave...@seznam.cz
PGP key: finger xjez...@eva.fit.vutbr.cz
---------=[ ~EOF ]=------------------------------------

David Jez

unread,
Sep 3, 2004, 3:57:12 AM9/3/04
to
> Proto si myslim, ze by mohlo pomoci pouzivat cstex a mozna take pocestene
> PS fonty. Tam je kompozit vyrabeny az na urovni AFM, takze uplne mimo TeX a
> pdfTeX by tim padem mel mit moznost poznat (a tim padem pouzit a
> vlozit do PDF)
V CS Type1 fontech nejsou zadne kompozity na urovni AFM (pokud by tomu
tak bylo tak mas stejny problem - viz. napriklad cspsfonts), ale akcentovane
znaky jsou v nich obsazeny jako jeden znak. CSfonty se daji seskrabovat
z acrobata bez problemu.
V ceskych PS fontech jsou (zatim) kompozity a je jedno jestli jsou definovany
na urovni AFM nebo jinde, vzdycky to jsou kompozity a delaji stejne
problemy (ze se tvari jako znak a akcent).

> spravnou tabulku kodovani. Snad... Osobne bych se podival po fontech, kde je
> kazdy znak jen jeden znak :-) Napr. existuje myslim prevod cs fontu do Type1.

Take bych doporucoval pouzit CSTeX a CSfonty :-)

> S pozdravem,
>
> Milan Vancura
S pozdravem

Richard Pecl

unread,
Sep 3, 2004, 4:15:35 AM9/3/04
to
Nojo, jenze kdyz dam do dokumentu prikaz \usepackage{czech}
misto \usepackage[czech]{babel} a prekladam ho pak pdfcslatex,
tak mi kopilator ohlasi chybu "You have used an old interface
to call babel" a problem s hackama a carkama v pdf zustava.
Asi se ten babel teda nejak vyvolava a ja nevim, jak to zakazat.
r.


==original==========================================

Zdenek Wagner

unread,
Sep 3, 2004, 4:21:26 AM9/3/04
to
On Fri, 3 Sep 2004, Richard Pecl wrote:

> Nojo, jenze kdyz dam do dokumentu prikaz \usepackage{czech}
> misto \usepackage[czech]{babel} a prekladam ho pak pdfcslatex,
> tak mi kopilator ohlasi chybu "You have used an old interface
> to call babel" a problem s hackama a carkama v pdf zustava.
> Asi se ten babel teda nejak vyvolava a ja nevim, jak to zakazat.
> r.
>

Mate spatne nastavene prohledavaci cesty, takze se najde czech.sty z
babelu. Staci babelovsky czech.sty smazat, protoze v babelu je pouze kvuli
tehle chybove zprave a k nicemu jinemu se nepotrebuje.

>
> ==original==========================================
> >> Bohuzel se ted nejak neumim zbavit toho babelu.
> >> Mam miktex 2.4 a kdyz babel odisntaluju a snazim se vytvorit format
> >> pro pdfcslatex, tak mi to hlasi, ze nezna IL2 encoding...
> > Nemusis babel odinstalovavat, jen staci spravne nainstalovat CSTeX
> > a CSLaTeX a pak je pouzivat.
>
>

Zdenek Wagner
e-mail: wag...@cesnet.cz

see also http://hroch486.icpf.cas.cz/wagner/
http://icebearsoft.euweb.cz

Zdenek Wagner

unread,
Sep 3, 2004, 4:19:47 AM9/3/04
to
On Fri, 3 Sep 2004, David Jez wrote:

> > Proto si myslim, ze by mohlo pomoci pouzivat cstex a mozna take pocestene
> > PS fonty. Tam je kompozit vyrabeny az na urovni AFM, takze uplne mimo TeX a
> > pdfTeX by tim padem mel mit moznost poznat (a tim padem pouzit a
> > vlozit do PDF)
> V CS Type1 fontech nejsou zadne kompozity na urovni AFM (pokud by tomu
> tak bylo tak mas stejny problem - viz. napriklad cspsfonts), ale akcentovane
> znaky jsou v nich obsazeny jako jeden znak. CSfonty se daji seskrabovat
> z acrobata bez problemu.

To je proto, ze standardni PS fonty kompozitni znaky nemaji. Existuji
ruzne rozsirene sady fontu Times, Helvetica apod, kde kompozity jsou, ale
nelze je dat do standardni distribuce, protoze nemusi byt vsude. Navic
Acrobat 4 ma jiny Times nez Acrobat 3 a Acrobat 5 (lisi se i v metrice).
Pokud chcete pouzit jine kvalitni ceske PS fonty, kupte si pisma ze
Stresovicke pismolijny, tam je diakritika udelana dobre.

> V ceskych PS fontech jsou (zatim) kompozity a je jedno jestli jsou definovany
> na urovni AFM nebo jinde, vzdycky to jsou kompozity a delaji stejne
> problemy (ze se tvari jako znak a akcent).
>
> > spravnou tabulku kodovani. Snad... Osobne bych se podival po fontech, kde je
> > kazdy znak jen jeden znak :-) Napr. existuje myslim prevod cs fontu do Type1.
> Take bych doporucoval pouzit CSTeX a CSfonty :-)
>

DC fonty funguji take.

> > S pozdravem,
> >
> > Milan Vancura
> S pozdravem
> --
> -------------------------------------------------------
> David "Dave" Jez Brno, CZ, Europe
> E-mail: dave...@seznam.cz
> PGP key: finger xjez...@eva.fit.vutbr.cz
> ---------=[ ~EOF ]=------------------------------------
>

Zdenek Wagner

Richard Pecl

unread,
Sep 3, 2004, 4:22:52 AM9/3/04
to
> Take bych doporucoval pouzit CSTeX a CSfonty :-)

A jak mam nastavit, aby latex pouzil CSfonty? Jsem myslel, ze kdyz dam do dokumentu \usepackage{czech} a prelozim to pdfcslatexem, tak tam uz budou.
V acrobat readeru jsou uvedeny v informacich o dokumentu fonty CMBX12, CMR12, CMSSI10, CMSSBX10.

David Jez

unread,
Sep 3, 2004, 4:28:16 AM9/3/04
to
On Fri, Sep 03, 2004 at 10:15:35AM +0200, Richard Pecl wrote:
> Nojo, jenze kdyz dam do dokumentu prikaz \usepackage{czech}
> misto \usepackage[czech]{babel} a prekladam ho pak pdfcslatex,
> tak mi kopilator ohlasi chybu "You have used an old interface
> to call babel" a problem s hackama a carkama v pdf zustava.
> Asi se ten babel teda nejak vyvolava a ja nevim, jak to zakazat.
> r.
Smazal jsi i .aux a .log?

David Necas (Yeti)

unread,
Sep 3, 2004, 4:24:09 AM9/3/04
to
On Fri, Sep 03, 2004 at 10:15:35AM +0200, Richard Pecl wrote:
> Nojo, jenze kdyz dam do dokumentu prikaz \usepackage{czech}
> misto \usepackage[czech]{babel} a prekladam ho pak pdfcslatex,
> tak mi kopilator ohlasi chybu "You have used an old interface
> to call babel" a problem s hackama a carkama v pdf zustava.
> Asi se ten babel teda nejak vyvolava a ja nevim, jak to zakazat.

Máte dost starou instalaci nebo blbě nastavené cesty (v
nových to bývá správně). V texmf.cnf musí být něco jako

TEXINPUTS.pdfcslatex = .;$TEXMF/{pdftex,tex}/{cslatex,csplain,latex,generic,}//

tj. nejprve se prohledávají adresáře CS-TeXu, a pak ostatní,
takže na babel nedojde. A mít samozřejmě CS-TeX nainstalován
;-)

Yeti


--
Do not use tab characters. Their effect is not predictable.

Richard Pecl

unread,
Sep 3, 2004, 5:02:17 AM9/3/04
to

> Máte dost starou instalaci nebo blbě nastavené cesty (v
> nových to bývá správně). V texmf.cnf musí být něco jako

> TEXINPUTS.pdfcslatex =
> .;$TEXMF/{pdftex,tex}/{cslatex,csplain,latex,generic,}//

Mám instalaci asi z minulého týdne.
Ale je fakt, že pdfcslatex jsem musel nakonfigurovat ručně a cesty miktex.ini pro tenhle formát nebyly vůbec nastaveny. Takže jsem to udělal a do pdfka se už dostanou fonty csbx12, csr12...
Akorát že při tom kopírovaní přes clipboard mi fungují jen některá česká písmenka, ale např. Ř a ř se kopírují jako R a r.

Zdenek Wagner

unread,
Sep 3, 2004, 5:18:10 AM9/3/04
to

To je divne, ocekaval bych problemy u znaku ľśšťźžĽŚŠŤŹŽ, protoze v
ISO-8859-2 naji jine kody nez ve Windows-1250 (a kodovani csfontu je
ISO-8859-2). Mozna se tu projevuje "inteligence" Windows. Kdyz Windows
usoudi, ze dokument neni cesky, pak se tam proste ceske pismeno vyskytnout
nesmi a _musi_ se nejak predelat.

Richard Pecl

unread,
Sep 3, 2004, 5:55:09 AM9/3/04
to
>> Akorát že při tom kopírovaní přes clipboard mi fungují jen některá česká
>> písmenka, ale např. Ř a ř se kopírují jako R a r.
>>
> To je divne, ocekaval bych problemy u znaku ľśšťźžĽŚŠŤŹŽ, protoze v
> ISO-8859-2 naji jine kody nez ve Windows-1250 (a kodovani csfontu je
> ISO-8859-2). Mozna se tu projevuje "inteligence" Windows. Kdyz Windows
> usoudi, ze dokument neni cesky, pak se tam proste ceske pismeno vyskytnout
> nesmi a _musi_ se nejak predelat.


Aha. Tak to nějak souvisí s kódováním fontů v pdf souboru.

Když je kódování fontů tzv. "built-in" je problém s písmeny ľśšťźžĽŚŠŤŹŽ, když je ale kódování "custom" (což je můj případ), tak je problém s jinými písmeny (řč...).
Čili předpokládám, že teď už je to problém Windows (možná Acrobat Readeru) a z hlediska TeXu s tím nejde nic dělat...

Tak děkuji moc všem za nápovědu.


Řešením (nedokonalým) tedy bylo:
1. ručně vytvořit formát pro pdfcslatex
2. přidat do C:\tex\localtexmf\miktex\config\miktex.ini záznam -

[pdfcsLaTeX]

;; file name extensions recognized by pdfLaTeX
Extensions=.tex;.src;.ltx

;; where pdfLaTeX searches for input files
Input Dirs=.;%R\tex\cslatex//;%R\tex\latex\cslatex//;%R\pdfetex\latex//;%R\pdfetex\generic//;%R\pdfetex//;%R\pdftex\latex//;%R\pdftex\generic//;%R\pdftex//;%R\etex\latex//;%R\etex\generic//;%R\etex//;%R\tex\latex//;%R\tex\generic//;%R\tex//


3. do dokumentu dát \usepackage{czech}
4. přeložit pomocí pdfcslatex

Luboš Kloc

unread,
Sep 3, 2004, 6:13:54 AM9/3/04
to
Zdenek Wagner wrote:
> On Fri, 3 Sep 2004, Richard Pecl wrote:
>
.......

>>Aha. Tak to nějak souvisí s kódováním fontů v pdf souboru.
>>
>>Když je kódování fontů tzv. "built-in" je problém s písmeny ľśšťźžĽŚŠŤŹŽ, když je ale kódování "custom" (což je můj případ), tak je problém s jinými písmeny (řč...).
>>Čili předpokládám, že teď už je to problém Windows (možná Acrobat Readeru) a z hlediska TeXu s tím nejde nic dělat...
>>
>
> K tomu prave slouzi ToUnicode, ale az od Acrobatu 5. V pdftexu to urcite
> jde udelat a prislusne mapovaci soubory i pro cestinu jsou na CTAN, ale ja
> to neumim.
>
Nasel by se tu nekdo, kdo to umi? Nejake sikovne HOWTO by se asi mnohym
hodilo.

Lubos Kloc

Zdenek Wagner

unread,
Sep 3, 2004, 6:07:13 AM9/3/04
to
On Fri, 3 Sep 2004, Richard Pecl wrote:

> >> Akorát že při tom kopírovaní přes clipboard mi fungují jen některá česká
> >> písmenka, ale např. Ř a ř se kopírují jako R a r.
> >>
> > To je divne, ocekaval bych problemy u znaku ľśšťźžĽŚŠŤŹŽ, protoze v
> > ISO-8859-2 naji jine kody nez ve Windows-1250 (a kodovani csfontu je
> > ISO-8859-2). Mozna se tu projevuje "inteligence" Windows. Kdyz Windows
> > usoudi, ze dokument neni cesky, pak se tam proste ceske pismeno vyskytnout
> > nesmi a _musi_ se nejak predelat.
>
>

> Aha. Tak to nějak souvisí s kódováním fontů v pdf souboru.
>
> Když je kódování fontů tzv. "built-in" je problém s písmeny ľśšťźžĽŚŠŤŹŽ, když je ale kódování "custom" (což je můj případ), tak je problém s jinými písmeny (řč...).
> Čili předpokládám, že teď už je to problém Windows (možná Acrobat Readeru) a z hlediska TeXu s tím nejde nic dělat...
>
K tomu prave slouzi ToUnicode, ale az od Acrobatu 5. V pdftexu to urcite
jde udelat a prislusne mapovaci soubory i pro cestinu jsou na CTAN, ale ja
to neumim.

> Tak děkuji moc všem za nápovědu.


>
>
> Řešením (nedokonalým) tedy bylo:
> 1. ručně vytvořit formát pro pdfcslatex
> 2. přidat do C:\tex\localtexmf\miktex\config\miktex.ini záznam -
>
> [pdfcsLaTeX]
>
> ;; file name extensions recognized by pdfLaTeX
> Extensions=.tex;.src;.ltx
>
> ;; where pdfLaTeX searches for input files
> Input Dirs=.;%R\tex\cslatex//;%R\tex\latex\cslatex//;%R\pdfetex\latex//;%R\pdfetex\generic//;%R\pdfetex//;%R\pdftex\latex//;%R\pdftex\generic//;%R\pdftex//;%R\etex\latex//;%R\etex\generic//;%R\etex//;%R\tex\latex//;%R\tex\generic//;%R\tex//
>
>
> 3. do dokumentu dát \usepackage{czech}
> 4. přeložit pomocí pdfcslatex
>

Zdenek Wagner

Zdenek Wagner

unread,
Sep 3, 2004, 6:22:35 AM9/3/04
to
On Fri, 3 Sep 2004, Luboš Kloc wrote:

> Zdenek Wagner wrote:
> > On Fri, 3 Sep 2004, Richard Pecl wrote:
> >

> .......


> >>Aha. Tak to nějak souvisí s kódováním fontů v pdf souboru.
> >>
> >>Když je kódování fontů tzv. "built-in" je problém s písmeny ľśšťźžĽŚŠŤŹŽ, když je ale kódování "custom" (což je můj případ), tak je problém s jinými písmeny (řč...).
> >>Čili předpokládám, že teď už je to problém Windows (možná Acrobat Readeru) a z hlediska TeXu s tím nejde nic dělat...
> >>
> >
> > K tomu prave slouzi ToUnicode, ale az od Acrobatu 5. V pdftexu to urcite
> > jde udelat a prislusne mapovaci soubory i pro cestinu jsou na CTAN, ale ja
> > to neumim.
> >

> Nasel by se tu nekdo, kdo to umi? Nejake sikovne HOWTO by se asi mnohym
> hodilo.
>

Problem je, kdyz se takovy dokument otevre v Acrobatu v OS/2, skonci to
chybou "Bad CMap encoding" a jde to prohlizet jen v gsview :-(

Mozna bychom si meli hromadne stezovat u Adobe, ze si neprecteme v OS/2
ani jizdni rady z IDOSu.

> Lubos Kloc

Petr Sojka

unread,
Sep 3, 2004, 12:09:17 PM9/3/04
to
On Fri, Sep 03, 2004 at 12:13:54PM +0200, Luboš Kloc wrote:
> >>Aha. Tak to nějak souvisí s kódováním fontů v pdf souboru.
> >>
> >>Když je kódování fontů tzv. "built-in" je problém s písmeny ľśšťźžĽŚŠŤŹŽ,
> >>když je ale kódování "custom" (což je můj případ), tak je problém s
> >>jinými písmeny (řč...).
> >>Čili předpokládám, že teď už je to problém Windows (možná Acrobat
> >>Readeru) a z hlediska TeXu s tím nejde nic dělat...
> >>
> >
> >K tomu prave slouzi ToUnicode, ale az od Acrobatu 5. V pdftexu to urcite
> >jde udelat a prislusne mapovaci soubory i pro cestinu jsou na CTAN, ale ja
> >to neumim.
> >
> Nasel by se tu nekdo, kdo to umi? Nejake sikovne HOWTO by se asi mnohym
> hodilo.
Pan Volovich uz na to udelal package:
\usepackage{cmap}

--ps

Vit Zyka

unread,
Sep 5, 2004, 3:57:28 PM9/5/04
to
> On Fri, Sep 03, 2004 at 12:13:54PM +0200, Luboš Kloc wrote:
>
>>>>Aha. Tak to nějak souvisí s kódováním fontů v pdf souboru.
>>>>
>>>>Když je kódování fontů tzv. "built-in" je problém s písmeny ľśšťźžĽŚŠŤŹŽ,
>>>>když je ale kódování "custom" (což je můj případ), tak je problém s
>>>>jinými písmeny (řč...).
>>>>Čili předpokládám, že teď už je to problém Windows (možná Acrobat
>>>>Readeru) a z hlediska TeXu s tím nejde nic dělat...

No jo, mate pravdu, /ToUnicode je ke sptavnemu copy&paste a hledani treba.

>>>K tomu prave slouzi ToUnicode, ale az od Acrobatu 5. V pdftexu to urcite
>>>jde udelat a prislusne mapovaci soubory i pro cestinu jsou na CTAN, ale ja
>>>to neumim.
>>Nasel by se tu nekdo, kdo to umi? Nejake sikovne HOWTO by se asi mnohym
>>hodilo.
>
> Pan Volovich uz na to udelal package:
> \usepackage{cmap}
>
> --ps

Aha. Ale ma to nekolik hacku:
1) je to jen pro LaTeX
2) neni k tomu CMAP pro cs fonty

Udelal jsem tedy podporu po pdfplain a CMAP tabulky pro fonty v kodovani
IL2cs (tj. cs-fonty), IL2 a 1250. Je vystavena na
http://typokvitek.com/typokv-download-TeX-cz.html

Pouziti je jednoduche:
1) \input cmap
2) nastavte kodovani fontu; pro cs-fonty: \cmapencoding{il2cs}
2) Za prvnim pouzitim fontu uvedte \cmaphook tj. napr.

\bf\cmaphook Muj text
\it\cmaphook Text v italice
\bf opet tucny

tim se vlozi danemu fontu odkaz na tabulku CMAP podle hodnoty v
\cmapencoding. Tato hodnota musi byt shodna s nazvem souboru .cmap
bez koncovky.

Namisto: \font\f=csss10 at1cm \f\cmaphook
lze pouzit: \cmapfont\f=csss10 at1cm

Za stejne fonty se povazuji ty (pravdepodobne), odkazujici na jeden a
ten samy PDF font resource, tedy napr. jeden .pfb. Znamena to napr.,
ze pro metriku pouzitou v ruznych velikostech staci pouzit \cmphook

jen jednou.

Poznamka: Muj AR 6.0.2 pro win se choval nasledovne:
- pokud kopirovany text obsahoval znak, ktery v kodovani nebyl
definovan, pak se VSECHNY znaky prevedly tak, jako by /ToUnicode
nebylo vlozeno.

Poznamka pro uzivatele LaTeXu:
- Pokud puzijete styl p. Voloviche v pdfcslatexu
\usepackege{cmap,czech}
je kodovani (makro \f@encoding) (cslatexem ?) nastaveno na IL2 a nacte
se tak tabulka il2.cmap.
Protoze se ale v nekterych znacich cs-fonty od IL2 lisi (napr. ceske
uvozovky) bude kopirovani techto znaku spatne.

At se vyjadri nekdo v kodovani a fontech zbehlejsi, ale nemelo by byt
kodovani cslatexu IL2cs nebo 8z?

Poznamka pro uzivatele ConTeXtu:
- Ve zdrojacich jsem se docetl, ze podpora CMAP je v ConTeXtu jiz 4 roky
a to iniciativou p. Ferduse a Vachy. Podobne jako LaTeX i ConTeXt trpi
zmatky v kodovani (pro zmenu vsak opacne: CMAPa je v IL2, ale IL2
kodovani je v ConTeXtu IL2cs). Navic pro drobnou chybku podpora unguje
jen pro prvni font. Verim, ze Hans chybu rychle opravi.

Tak ted doufam, ze jsem v tech kodovanich il2 a cs-fontu neco
neprehledl. Divim se, ze by v tom mohl byt takovy zmatek.

Dobrou noc
Vitek Zyka

Vit Zyka

unread,
Sep 15, 2004, 2:43:01 PM9/15/04
to

Pan Wagner mne vysvetlil, ze IL2 kodovani opravdu popisuje CS fonty. Ja
jej chybne povazoval za ISO-8859-2 (Latin 2).

CMAP il2cs.cmap jsem tedy prejmenoval na il2.cmap a LaTeX je spokojen.

Zaroven jsem ve vektorech opravil par chyb a pridal kodovani XL2. Nove
verze jsou na puvodni adrese

http://typokvitek.com/typokv-download-TeX-cz.html

S panem Volovichem jsem domluven, ze nove CMAPy priradi ke sve
distribuci, takze budou na CTANu i TeX Live.

> Poznamka pro uzivatele ConTeXtu:
> - Ve zdrojacich jsem se docetl, ze podpora CMAP je v ConTeXtu jiz 4 roky
> a to iniciativou p. Ferduse a Vachy. Podobne jako LaTeX i ConTeXt trpi
> zmatky v kodovani (pro zmenu vsak opacne: CMAPa je v IL2, ale IL2
> kodovani je v ConTeXtu IL2cs). Navic pro drobnou chybku podpora unguje
> jen pro prvni font. Verim, ze Hans chybu rychle opravi.

Nevim pro jake fonty byl ten jediny CMAP vektor zabudovany do ConTeXtu
vytvoren, ale protoze je v kodovani ISO-8859-2, tak s csr fonty nebude
fungovat zcela spravne. Reseni je v jednani podpory pro ConTeXt je stale
v jednani.

Vitek Zyka

0 new messages