Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

UTF8 HTML konvertalas PDF-be

3 views
Skip to first unread message

Erki-Kiss Zsolt

unread,
Nov 20, 2009, 11:19:21 AM11/20/09
to

Egyszeru a feladat, de nem gondoltam, hogy ennyi problema lehet vele
2009-ben... Egy UTF8 kodolasu HTML allomanyt szeretnek PDF-be
konvertalni. Ezekkel probalkoztam:

w3m -dump vacak.html | enscript ps -p - | ps2pdf - vacak.pdf
w3m -dump vacak.html | groff -Tps | ps2pdf - vacak.pdf
html2ps vacak.html | ps2pdf - vacak.pdf

De sajnos sem az enscript, groff sem a html2ps nem kezel UTF8 kodolast.
Egy iconv es megfelelo parameterek beiktatasaval a legjobb eredmeny egy
LATIN1 kodolasu PDF lett kalapos o es u karakterekkel.

Egyeb otlet, javaslat?

--
Erki-Kiss Zsolt

_________________________________________________
linux lista - li...@mlf.linux.rulez.org
http://mlf2.linux.rulez.org/mailman/listinfo/linux

Gabor Gombas

unread,
Nov 20, 2009, 11:42:50 AM11/20/09
to

On Fri, Nov 20, 2009 at 05:19:21PM +0100, Erki-Kiss Zsolt wrote:
> Egyszeru a feladat, de nem gondoltam, hogy ennyi problema lehet vele
> 2009-ben... Egy UTF8 kodolasu HTML allomanyt szeretnek PDF-be
> konvertalni. Ezekkel probalkoztam:
>
> w3m -dump vacak.html | enscript ps -p - | ps2pdf - vacak.pdf
> w3m -dump vacak.html | groff -Tps | ps2pdf - vacak.pdf
> html2ps vacak.html | ps2pdf - vacak.pdf
>
> De sajnos sem az enscript, groff sem a html2ps nem kezel UTF8 kodolast.
> Egy iconv es megfelelo parameterek beiktatasaval a legjobb eredmeny egy
> LATIN1 kodolasu PDF lett kalapos o es u karakterekkel.
>
> Egyeb otlet, javaslat?

wkhtmltopdf - Command line utility to convert html to pdf using WebKit

Meg nem hasznaltam. De google ad jopar online konverzios lehetoseget is.

Gabor

--
---------------------------------------------------------
MTA SZTAKI Computer and Automation Research Institute
Hungarian Academy of Sciences
---------------------------------------------------------

Szládovics Péter

unread,
Nov 20, 2009, 11:50:43 AM11/20/09
to
Gabor Gombas írta:

> On Fri, Nov 20, 2009 at 05:19:21PM +0100, Erki-Kiss Zsolt wrote:
>> Egyszeru a feladat, de nem gondoltam, hogy ennyi problema lehet vele
>> 2009-ben... Egy UTF8 kodolasu HTML allomanyt szeretnek PDF-be
>> konvertalni. Ezekkel probalkoztam:
>>
>> w3m -dump vacak.html | enscript ps -p - | ps2pdf - vacak.pdf
>> w3m -dump vacak.html | groff -Tps | ps2pdf - vacak.pdf
>> html2ps vacak.html | ps2pdf - vacak.pdf
>>
>> De sajnos sem az enscript, groff sem a html2ps nem kezel UTF8 kodolast.
>> Egy iconv es megfelelo parameterek beiktatasaval a legjobb eredmeny egy
>> LATIN1 kodolasu PDF lett kalapos o es u karakterekkel.
>>
>> Egyeb otlet, javaslat?
>
> wkhtmltopdf - Command line utility to convert html to pdf using WebKit
>
> Meg nem hasznaltam. De google ad jopar online konverzios lehetoseget is.

Esetleg htmldoc

Szládovics Péter

unread,
Nov 20, 2009, 12:02:05 PM11/20/09
to
Szládovics Péter írta:

> Gabor Gombas írta:
>> On Fri, Nov 20, 2009 at 05:19:21PM +0100, Erki-Kiss Zsolt wrote:
>>> Egyszeru a feladat, de nem gondoltam, hogy ennyi problema lehet vele
>>> 2009-ben... Egy UTF8 kodolasu HTML allomanyt szeretnek PDF-be
>>> konvertalni. Ezekkel probalkoztam:
>>>
>>> w3m -dump vacak.html | enscript ps -p - | ps2pdf - vacak.pdf
>>> w3m -dump vacak.html | groff -Tps | ps2pdf - vacak.pdf
>>> html2ps vacak.html | ps2pdf - vacak.pdf
>>>
>>> De sajnos sem az enscript, groff sem a html2ps nem kezel UTF8 kodolast.
>>> Egy iconv es megfelelo parameterek beiktatasaval a legjobb eredmeny egy
>>> LATIN1 kodolasu PDF lett kalapos o es u karakterekkel.
>>>
>>> Egyeb otlet, javaslat?
>> wkhtmltopdf - Command line utility to convert html to pdf using WebKit
>>
>> Meg nem hasznaltam. De google ad jopar online konverzios lehetoseget is.
>
> Esetleg htmldoc

olvasás 1-es.

Természetesen előtte recode u8..<iso8859-x vagy pc12cc>

Nekem a cp1250 szokott jó lenni magyar oldalakhoz a TM, (R) és a (C)
miatt. Nem tudom, az iso8859-2-ből miért maradt ki...
... mint ahogyan azt sem, miért nem tud a htmldoc utf8-at...

Laszlo Baranyai <laszlo.baranyai@uni-corvinus.hu>

unread,
Nov 20, 2009, 12:37:48 PM11/20/09
to

Udv!

> De sajnos sem az enscript, groff sem a html2ps nem kezel UTF8 kodolast.

> ...
> Egyeb otlet, javaslat?

HTML -> LaTeX -> PDF

Udv.: Laci

--
Laszlo Baranyai <laszlo....@uni-corvinus.hu>
Corvinus University of Budapest

Erki-Kiss Zsolt

unread,
Nov 20, 2009, 5:09:48 PM11/20/09
to

Koszonom az eddigi javaslatokat. A htmldoc talan eselyesnek tunik, ezt
megnezem majd alaposabban. A LaTeX es a wkhtmltopdf pedig bizonyara jo
lehet, csak (igaz nem irtam elsore, hogy) ez az egesz egy webes munkahoz
kellene, es arra a webszerverre nem szivesen telepitenek LaTeX
kornyzetet vagy egy komplett X szervert. Bar ha nem lesz jobb megoldas,
talan kenytelen leszek.

Erki-Kiss Zsolt

unread,
Nov 23, 2009, 6:14:09 AM11/23/09
to
On Fri, Nov 20, 2009 at 05:19:21PM +0100, Erki-Kiss Zsolt wrote:
>>>> Egyszeru a feladat, de nem gondoltam, hogy ennyi problema lehet vele
>>>> 2009-ben... Egy UTF8 kodolasu HTML allomanyt szeretnek PDF-be
>>>> konvertalni. Ezekkel probalkoztam:
>>>>
>>>> w3m -dump vacak.html | enscript ps -p - | ps2pdf - vacak.pdf
>>>> w3m -dump vacak.html | groff -Tps | ps2pdf - vacak.pdf
>>>> html2ps vacak.html | ps2pdf - vacak.pdf
>>>>
>>>> De sajnos sem az enscript, groff sem a html2ps nem kezel UTF8 kodolast.
>>>> Egy iconv es megfelelo parameterek beiktatasaval a legjobb eredmeny egy
>>>> LATIN1 kodolasu PDF lett kalapos o es u karakterekkel.
>>>>
>>>> Egyeb otlet, javaslat?
>>>>
>>> wkhtmltopdf - Command line utility to convert html to pdf using WebKit
>>>
>>> Meg nem hasznaltam. De google ad jopar online konverzios lehetoseget is.
>>>
>> Esetleg htmldoc
>>
>
> olvasás 1-es.
>
> Természetesen előtte recode u8..<iso8859-x vagy pc12cc>
>
> Nekem a cp1250 szokott jó lenni magyar oldalakhoz a TM, (R) és a (C)
> miatt. Nem tudom, az iso8859-2-ből miért maradt ki...
> ... mint ahogyan azt sem, miért nem tud a htmldoc utf8-at...
>

Köszönet, kipróbáltam, htmldoc jó lett cp1250 karakterkészlettel.

Viszont még azt sem árultam el eddig, hogy nekem a bemeneti állomány
csak egy mezei text only HTML, tehát a w3m bőven megfelel a TEXT
konverzióhoz. Így tulajdonképpen a teljes boldogsághoz már csak a
TXT->PS konverzióra kellene valamilyen UTF8 kompatibilis megoldás.

--
Erki-Kiss Zsolt

Andras HORVATH

unread,
Nov 23, 2009, 7:25:15 AM11/23/09
to

Erki-Kiss Zsolt <ekz...@nexum.hu> wrote:
> konverzióhoz. Így tulajdonképpen a teljes boldogsághoz már csak a
> TXT->PS konverzióra kellene valamilyen UTF8 kompatibilis megoldás.

a) cedilla (kulturalt es lassu)
b) paps (csunyabb, gyorsabb)
c) kozelito megoldas magyar jellegu karakterekre:
vim akarmi.txt
:set printencoding=iso-8859-2
:%hardcopy > akarmi.ps

hth

raas
--
Those who say it cannot be done should not interrupt the person doing it.
-- Chinese proverb

Erki-Kiss Zsolt

unread,
Nov 23, 2009, 9:18:55 AM11/23/09
to

Andras HORVATH írta:

>> konverzióhoz. Így tulajdonképpen a teljes boldogsághoz már csak a
>> TXT->PS konverzióra kellene valamilyen UTF8 kompatibilis megoldás.
>>
>
> a) cedilla (kulturalt es lassu)
> b) paps (csunyabb, gyorsabb)
> c) kozelito megoldas magyar jellegu karakterekre:
> vim akarmi.txt
> :set printencoding=iso-8859-2
> :%hardcopy > akarmi.ps
>

Köszönöm, teljes a boldogság ;)

Ez teljesen megfelelő lett:
w3m -dump vacak.utf8.html | paps --font="Monospace 9" | ps2pdf vacak.ps

De a végeredmény tekintetében ez is hibátlan:
iconv -f utf8 -t WINDOWS-1250 vacak.utf8.html | htmldoc -t pdf
--no-title --no-toc --charset cp-1250 - -f vacak.pdf

--
Erki-Kiss Zsolt

0 new messages