请问怎样分辨真pdf和扫描pdf

531 views
Skip to first unread message

uifi...@gmail.com

unread,
Dec 26, 2010, 12:17:13 AM12/26/10
to sh...@googlegroups.com
除了打开用肉眼看,怎样用命令行判断一个pdf是扫描版的pdf还是“真”(文字版)的pdf。
这里所谓扫描版pdf是指文件当中每一页都是整张的图片,真pdf是整个文件里至少有一个字可以yank在vi上的pdf。
不知道怎么更合适地形容这两种文件的区别了。

ghosTM55

unread,
Dec 26, 2010, 12:31:05 AM12/26/10
to sh...@googlegroups.com



除了打开用肉眼看,怎样用命令行判断一个pdf是扫描版的pdf还是“真”(文字版)的pdf。
这里所谓扫描版pdf是指文件当中每一页都是整张的图片,真pdf是整个文件里至少有一个字可以yank在vi上的pdf。
不知道怎么更合适地形容这两种文件的区别了。

判断文件大小就可以了,扫描的PDF一般都至少15M以上,原版PDF一般都不会超过10M

--
Thomas
Shanghai Linux User Group

http://www.ghosTunix.org
Twitter: @ghosTM55

uifi...@gmail.com

unread,
Dec 26, 2010, 5:54:46 AM12/26/10
to sh...@googlegroups.com
原版pdf确实不大会超过10M,但我有大量小于15m的扫描的pdf……

ghosTM55

unread,
Dec 26, 2010, 5:56:51 AM12/26/10
to sh...@googlegroups.com


2010/12/26 uifi...@gmail.com <uifi...@gmail.com>
原版pdf确实不大会超过10M,但我有大量小于15m的扫描的pdf……

有小量小于的手工去处理,计算机不是万能的

Grissiom

unread,
Dec 26, 2010, 6:03:19 AM12/26/10
to sh...@googlegroups.com
2010/12/26 uifi...@gmail.com <uifi...@gmail.com>:

> 除了打开用肉眼看,怎样用命令行判断一个pdf是扫描版的pdf还是“真”(文字版)的pdf。
> 这里所谓扫描版pdf是指文件当中每一页都是整张的图片,真pdf是整个文件里至少有一个字可以yank在vi上的pdf。
> 不知道怎么更合适地形容这两种文件的区别了。
>

试试 pdftotext?如果是“真”的,生成出的文件里会有很多字,而如果是“假”的,就只会生成一些无意义的字符……
至于怎么用命令行判别生成的文本本件,还没想好……

--
Cheers,
Grissiom

kyo

unread,
Dec 26, 2010, 7:39:11 PM12/26/10
to Shanghai Linux User Group
写程序判断吧. 有好多读 PDF 内容的 package

Icat

unread,
Dec 26, 2010, 9:33:21 PM12/26/10
to sh...@googlegroups.com
判断前几页是否是整张图,是整张图的基本就是"假" pdf吧...

2010/12/27 kyo <zhouz...@gmail.com>:
> 写程序判断吧. 有好多读 PDF 内容的 package

河边的汉子

unread,
Dec 26, 2010, 10:17:59 PM12/26/10
to sh...@googlegroups.com
嗯,这个思路不错!

Icat

unread,
Dec 26, 2010, 10:32:11 PM12/26/10
to sh...@googlegroups.com
"假" PDF也可以添加文字信息的,pdf2txt可能会误判吧

2010/12/27 河边的汉子 <gaof...@gmail.com>:

Druggo

unread,
Dec 27, 2010, 1:21:10 AM12/27/10
to Shanghai Linux User Group
搭车问一下,如果判断pdf2txt后的文件里中文是否乱码?

On 12月27日, 上午11时32分, Icat <ica...@gmail.com> wrote:
> "假" PDF也可以添加文字信息的,pdf2txt可能会误判吧
>
> 2010/12/27 河边的汉子 <gaofei...@gmail.com>:
>
>
>
>
>
> > 在 2010年12月26日 下午7:03,Grissiom <chaos.pro...@gmail.com>写道:
>
> >> 2010/12/26 uifid...@gmail.com <uifid...@gmail.com>:

Xun Sun

unread,
Dec 27, 2010, 1:38:36 AM12/27/10
to sh...@googlegroups.com
用眼看?查码表?

2010/12/27 Druggo <dru...@gmail.com>:

--
Thanks & regards
Xun Sun

源泉星火(张明源)

unread,
Dec 27, 2010, 1:45:53 AM12/27/10
to sh...@googlegroups.com
随机十页判断是否图片吧

Druggo

unread,
Dec 27, 2010, 2:13:46 AM12/27/10
to sh...@googlegroups.com
眼看是不行的,程序判断吧,但是不知道有什么好的思路?

小马xiaoma

unread,
Dec 27, 2010, 2:19:44 AM12/27/10
to sh...@googlegroups.com
需要自动识别么? 可以根据词频,扫描一下 "the" , "的" 等词语 在文件中出现的频率就大致能判断出了。

在 2010年12月27日 下午3:13,Druggo <dru...@gmail.com> 写道:
> 眼看是不行的,程序判断吧,但是不知道有什么好的思路?
>

Druggo

unread,
Dec 27, 2010, 2:54:07 AM12/27/10
to sh...@googlegroups.com
我是想判断PDF里面是否有正常的中文,如果是乱码的中文我需要能检测出来。

Marco

unread,
Dec 27, 2010, 6:06:46 AM12/27/10
to sh...@googlegroups.com
能不能考虑用"选择"的方式?  文本的PDF可以用鼠标选定文本, 图片的不行


2010/12/27 Druggo <dru...@gmail.com>
我是想判断PDF里面是否有正常的中文,如果是乱码的中文我需要能检测出来。



--
LinuX
Violin
Canon EOS

Icat

unread,
Dec 28, 2010, 1:33:22 AM12/28/10
to sh...@googlegroups.com
图片的也可以,加入OCR数据的图片PDF可以选择, 有文字信息

2010/12/27 Marco <chopi...@gmail.com>:

Reply all
Reply to author
Forward
0 new messages