除了打开用肉眼看,怎样用命令行判断一个pdf是扫描版的pdf还是“真”(文字版)的pdf。
这里所谓扫描版pdf是指文件当中每一页都是整张的图片,真pdf是整个文件里至少有一个字可以yank在vi上的pdf。
不知道怎么更合适地形容这两种文件的区别了。
试试 pdftotext?如果是“真”的,生成出的文件里会有很多字,而如果是“假”的,就只会生成一些无意义的字符……
至于怎么用命令行判别生成的文本本件,还没想好……
--
Cheers,
Grissiom
2010/12/27 kyo <zhouz...@gmail.com>:
> 写程序判断吧. 有好多读 PDF 内容的 package
2010/12/27 河边的汉子 <gaof...@gmail.com>:
On 12月27日, 上午11时32分, Icat <ica...@gmail.com> wrote:
> "假" PDF也可以添加文字信息的,pdf2txt可能会误判吧
>
> 2010/12/27 河边的汉子 <gaofei...@gmail.com>:
>
>
>
>
>
> > 在 2010年12月26日 下午7:03,Grissiom <chaos.pro...@gmail.com>写道:
>
> >> 2010/12/26 uifid...@gmail.com <uifid...@gmail.com>:
在 2010年12月27日 下午3:13,Druggo <dru...@gmail.com> 写道:
> 眼看是不行的,程序判断吧,但是不知道有什么好的思路?
>
2010/12/27 Marco <chopi...@gmail.com>: