如果pdf是从文本生成的(姑且将word也当作文本),那么反过来很容易,只是会丢失格式排版而已
如果是一张图片(内容是文字,比如起点的小说那种,或者是扫描的文档),那就很麻烦,需要OCR
--
Any complex technology which doesn’t come with documentation must be the best
available.
Sent from Sydney, Nsw, Australia
我不研究,我直接拿来用而已。不过我处理的很多pdf都是扫描文档,xpdf的比例很小,主要是OCR
在 Ubuntu 下, xpdf-utils 和 poppler-utils 都带有 pdftotext,
但是 xpdf-utils 带的 pdftotext 对中文支持不如 poppler-utils 带的 pdftotext。
所以 Ubuntu 推荐用 poppler-utils 附带的 pdftotext,
默认就中文没问题。
穿越地震带 纪念汶川地震一周年
估计又是 XP 的 CMD。
cmd.exe 好像默认选中即复制,
cmd 里边按右键粘贴,
在别的程序里粘贴是粘贴 cmd 里选中内容。
2009/5/15 shell909090 <shell...@gmail.com>:pdf转换txt其实是用pdf解析引擎对pdf解析,而后不进行渲染,直接提取文本内容。可用的引擎有adobe的(要钱的),foxit(好像是中国 人弄的,核心引擎还不错),xpdf(全开源的),GhostScript(很有名的解析软件,可惜太大了)。开源可用的基本只有后两者,其中我也研究的 是前者(没办法,gs实在太大了)。你可以拿xpdf的源码来看看,很有意思。我不研究,我直接拿来用而已。不过我处理的很多pdf都是扫描文档,xpdf的比例很小,主要是OCR
英文的可以 pdfimages 后 gocr,
或者直接 PIL/ImageMagick 将 pdf 转为图片,再 gocr (可能会稍差些)
2009/5/15 Jiahua Huang <jhuang...@gmail.com>:2009/5/15 shell909090 <shell...@gmail.com>:OCR可就比较难了。英文的可以 pdfimages 后 gocr, 或者直接 PIL/ImageMagick 将 pdf 转为图片,再 gocr (可能会稍差些)哈哈,不是难在ocr,而是难在文档的质量太差,全是潦草的手写体,人去读都未必读的懂,何况机器
我要转换的pdf是中文的,而且有很多。也想写一个脚本来一次性解决,但是马上我就遇到了问题。当使用命令:
pdftotext -layout -nopgbrk 1.pdf
转换的时候,发现转换的并不成功,输出的txt文本中会有乱码出现,而且有的文本还被截断了。于是我又到官方网站去下载了中文的Language support以及中文字体支持,按照chinese-simplified目录下的README老老实实的配置xpdfrc文件。其中README中提到:
Place all of these files in a directory, typically:
Unix - /usr/local/share/xpdf/chinese-simplified
Win32 - C:\Program Files\xpdf\chinese-simplified
Add the contents of the "add-to-xpdfrc" file to your system-wide
xpdfrc config file, which is typically:
Unix - /usr/local/etc/xpdfrc
Win32 - C:\Program Files\xpdf\xpdfrc
在chinese-simplified目录中找到了add-to-xpdfrc,修改里面的路径为win32相对路径(我的ttf字体支持存放在xpdf根目录下):
#----- begin Chinese Simplified support package (2004-jul-27)
cidToUnicode Adobe-GB1 chinese-simplified\Adobe-GB1.cidToUnicode
unicodeMap ISO-2022-CN chinese-simplified\ISO-2022-CN.unicodeMap
unicodeMap EUC-CN chinese-simplified\EUC-CN.unicodeMap
unicodeMap GBK chinese-simplified\GBK.unicodeMap
cMapDir Adobe-GB1 chinese-simplified\CMap
toUnicodeDir chinese-simplified\CMap
displayCIDFontTT Adobe-GB1 gkai00mp.ttf
#----- end Chinese Simplified support package
这样,配置就完成了,在xpdf目录下新建一个xpdfrc文件,注意没有扩展名!将上面的文本拷贝进去。再执行
pdftotext -layout -nopgbrk 1.pdf文本完美转换。 参数说明,
剩下的工作就简单了,只需遍历目录下的pdf文档顺序生成就OK了。改天写好代码补上来。
文中资源下载:
xpdf for win32:xpdf-3.02pl3-win32.zip
xpdf 中文支持库:xpdf-chinese-simplified.tar.gz
xpdf 中文支持字体:gkai00mp.ttf.gz
--
http://zoomquiet.org
'''过程改进乃是催生可促生靠谱的人的组织!'''
向靠谱,反脑残! Kaopulity,小白退散!
On 5月16日, 上午11时10分, "Zoom.Quiet" <zoom.qu...@gmail.com> wrote:
> 2009/5/16 pong Chong <zanpen2...@gmail.com>:> 今天研究了下win32下的xpdf转换中文的pdf,发现还是挺方便的,总结了一下,拿给大家分享,也可以访问我的博客博客
>
> Win32 下面也不方便哪,,,
> 收录了!http://wiki.woodpecker.org.cn/moin/MiscItems/2009-05-16
>
>
>
>
>
>
>
> > 我要转换的pdf是中文的,而且有很多。也想写一个脚本来一次性解决,但是马上我就遇到了问题。当使用命令:
>
> > pdftotext -layout -nopgbrk 1.pdf
>
> > 转换的时候,发现转换的并不成功,输出的txt文本中会有乱码出现,而且有的文本还被截断了。于是我又到官方网站去下载了中文的Language
> > support以及中文字体支持,按照chinese-simplified目录下的README老老实实的配置xpdfrc文件。其中README中提到:
>
> > Place all of these files in a directory, typically:
>
> > Unix - /usr/local/share/xpdf/chinese-simplified
> > Win32 - C:\Program Files\xpdf\chinese-simplified
>
> > Add the contents of the "add-to-xpdfrc" file to your system-wide
>
> > xpdfrc config file, which is typically:
>
> > Unix - /usr/local/etc/xpdfrc
> > Win32 - C:\Program Files\xpdf\xpdfrc
>
> > 在chinese-simplified目录中找到了add-to-xpdfrc,修改里面的路径为win32相对路径(我的ttf字体支持存放在xpdf根目-录下):
>
> > #----- begin Chinese Simplified support package (2004-jul-27)
> > cidToUnicode Adobe-GB1 chinese-simplified\Adobe-GB1.cidToUnicode
> > unicodeMap ISO-2022-CN chinese-simplified\ISO-2022-CN.unicodeMap
> > unicodeMap EUC-CN chinese-simplified\EUC-CN.unicodeMap
>
> > unicodeMap GBK chinese-simplified\GBK.unicodeMap
> > cMapDir Adobe-GB1 chinese-simplified\CMap
> > toUnicodeDir chinese-simplified\CMap
> > displayCIDFontTT Adobe-GB1 gkai00mp.ttf
> > #----- end Chinese Simplified support package
>
> > 这样,配置就完成了,在xpdf目录下新建一个xpdfrc文件,注意没有扩展名!将上面的文本拷贝进去。再执行
>
> > pdftotext -layout -nopgbrk 1.pdf
>
> > 文本完美转换。 参数说明,
>
> > -layout:保持原有版面
> > -nopgbrk:不插入分页符号
>
> > 剩下的工作就简单了,只需遍历目录下的pdf文档顺序生成就OK了。改天写好代码补上来。
>
> > 文中资源下载:
>
> > xpdf for win32:xpdf-3.02pl3-win32.zip
>
> > xpdf 中文支持库:xpdf-chinese-simplified.tar.gz
>
> > xpdf 中文支持字体:gkai00mp.ttf.gz
>
> --http://zoomquiet.org
> '''过程改进乃是催生可促生靠谱的人的组织!'''
> 向靠谱,反脑残! Kaopulity,小白退散!- 隐藏被引用文字 -
>
> - 显示引用的文字 -
上边说了, pdfimages (在 poppler-utils 里)后 gocr (或其他你能搞到的 ocr)
On 5月16日, 下午9时22分, Jiahua Huang <jhuangjia...@gmail.com> wrote:
> 2009/5/16 wmr2007 <wmr89502...@gmail.com>: