Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

python pdf转txt有什么好用的库

30 views
Skip to first unread message

卖鱼的哲学

unread,
Mar 4, 2014, 1:54:48 AM3/4/14
to
实现pdf转成txt的,试了下pdfminer的pdf2txt 有的转的不错 有的转不了啊 求这方面的高手指点
--

[m [36m※ 来源:·水木社区 http://www.newsmth.net·[FROM: 202.98.17.*] [m

普洛米·我们的民族从来不缺乏苦难

unread,
Mar 4, 2014, 2:45:22 AM3/4/14
to
笨办法:
Acrobat -> (OCR if necessary) -> 全选
-> Ctrl-c -> Ctrl-v -> 手调

尤其是Latex生成的pdf,全选拷下来后要很多地方要手调,
我的简历就是这样,最后干脆全部手打一遍,反而快得多。

尝试过一些库和程序,总有这样那样的问题,手调似乎是不能完全避免的。

谁若是找到完全自动化不需要人工干预的完美解决办法,不妨说说。

【 在 tangzhiyi11 (卖鱼的哲学) 的大作中提到: 】
: 实现pdf转成txt的,试了下pdfminer的pdf2txt 有的转的不错
: 有的转不了啊 求这方面的高手指点

--

[m [37m※ 来源:·水木社区 http://newsmth.net·[FROM: 98.207.104.*] [m

citi...@newsmth.net-spam.no

unread,
Mar 4, 2014, 3:09:55 AM3/4/14
to
我试过pdfminer和pypdf,都有问题,特别在输入文件具有复杂的结构时(比如多个栏目),自己解析的(比如按照树形结构深度优先)与文本的结构可能不一样。
相对而言,个人感觉pypdf稍微好些
【 在 tangzhiyi11 的大作中提到: 】
: 实现pdf转成txt的,试了下pdfminer的pdf2txt 有的转的不错 有的转不了啊 求这方面的高手指点

--

[m [34m※ 来源:·水木社区 http://www.newsmth.net·[FROM: 60.191.2.*] [m

卖鱼的哲学

unread,
Mar 4, 2014, 3:17:54 AM3/4/14
to
但是我想批量的转一些论文
--
【 在 pulo 的大作中提到: 】
: 笨办法:
: Acrobat -> (OCR if necessary) -> 全选
: -> Ctrl-c -> Ctrl-v -> 手调
: ..................
[36m※ 修改:·tangzhiyi11 于 Mar 4 16:17:53 2014 修改本文·[FROM: 202.98.17.*] [m
[m [37m※ 来源:·水木社区 http://www.newsmth.net·[FROM: 202.98.17.*] [m
0 new messages