请问怎样分辨真pdf和扫描pdf

uifi...@gmail.com

unread,

Dec 26, 2010, 12:17:13 AM12/26/10

to sh...@googlegroups.com

除了打开用肉眼看，怎样用命令行判断一个pdf是扫描版的pdf还是“真”（文字版）的pdf。
这里所谓扫描版pdf是指文件当中每一页都是整张的图片，真pdf是整个文件里至少有一个字可以yank在vi上的pdf。
不知道怎么更合适地形容这两种文件的区别了。

ghosTM55

unread,

Dec 26, 2010, 12:31:05 AM12/26/10

to sh...@googlegroups.com

2010/12/26 uifi...@gmail.com <uifi...@gmail.com>

除了打开用肉眼看，怎样用命令行判断一个pdf是扫描版的pdf还是“真”（文字版）的pdf。
这里所谓扫描版pdf是指文件当中每一页都是整张的图片，真pdf是整个文件里至少有一个字可以yank在vi上的pdf。
不知道怎么更合适地形容这两种文件的区别了。

判断文件大小就可以了，扫描的PDF一般都至少15M以上，原版PDF一般都不会超过10M

--
Thomas
Shanghai Linux User Group

http://www.ghosTunix.org
Twitter: @ghosTM55

uifi...@gmail.com

unread,

Dec 26, 2010, 5:54:46 AM12/26/10

to sh...@googlegroups.com

原版pdf确实不大会超过10M，但我有大量小于15m的扫描的pdf……

ghosTM55

unread,

Dec 26, 2010, 5:56:51 AM12/26/10

to sh...@googlegroups.com

2010/12/26 uifi...@gmail.com <uifi...@gmail.com>

原版pdf确实不大会超过10M，但我有大量小于15m的扫描的pdf……

有小量小于的手工去处理，计算机不是万能的

Grissiom

unread,

Dec 26, 2010, 6:03:19 AM12/26/10

to sh...@googlegroups.com

2010/12/26 uifi...@gmail.com <uifi...@gmail.com>:

> 除了打开用肉眼看，怎样用命令行判断一个pdf是扫描版的pdf还是“真”（文字版）的pdf。
> 这里所谓扫描版pdf是指文件当中每一页都是整张的图片，真pdf是整个文件里至少有一个字可以yank在vi上的pdf。
> 不知道怎么更合适地形容这两种文件的区别了。
>

试试 pdftotext？如果是“真”的，生成出的文件里会有很多字，而如果是“假”的，就只会生成一些无意义的字符……
至于怎么用命令行判别生成的文本本件，还没想好……

--
Cheers,
Grissiom

kyo

unread,

Dec 26, 2010, 7:39:11 PM12/26/10

to Shanghai Linux User Group

写程序判断吧. 有好多读 PDF 内容的 package

Icat

unread,

Dec 26, 2010, 9:33:21 PM12/26/10

to sh...@googlegroups.com

判断前几页是否是整张图,是整张图的基本就是"假" pdf吧...

2010/12/27 kyo <zhouz...@gmail.com>:
> 写程序判断吧. 有好多读 PDF 内容的 package

河边的汉子

unread,

Dec 26, 2010, 10:17:59 PM12/26/10

to sh...@googlegroups.com

嗯，这个思路不错！

Icat

unread,

Dec 26, 2010, 10:32:11 PM12/26/10

to sh...@googlegroups.com

"假" PDF也可以添加文字信息的,pdf2txt可能会误判吧

2010/12/27 河边的汉子 <gaof...@gmail.com>:

Druggo

unread,

Dec 27, 2010, 1:21:10 AM12/27/10

to Shanghai Linux User Group

搭车问一下，如果判断pdf2txt后的文件里中文是否乱码？

On 12月27日, 上午11时32分, Icat <ica...@gmail.com> wrote:
> "假" PDF也可以添加文字信息的,pdf2txt可能会误判吧
>
> 2010/12/27 河边的汉子 <gaofei...@gmail.com>:
>
>
>
>
>
> > 在 2010年12月26日下午7:03，Grissiom <chaos.pro...@gmail.com>写道：
>
> >> 2010/12/26 uifid...@gmail.com <uifid...@gmail.com>:

Xun Sun

unread,

Dec 27, 2010, 1:38:36 AM12/27/10

to sh...@googlegroups.com

用眼看？查码表？

2010/12/27 Druggo <dru...@gmail.com>:

--
Thanks & regards
Xun Sun

源泉星火(张明源)

unread,

Dec 27, 2010, 1:45:53 AM12/27/10

to sh...@googlegroups.com

随机十页判断是否图片吧

Druggo

unread,

Dec 27, 2010, 2:13:46 AM12/27/10

to sh...@googlegroups.com

眼看是不行的，程序判断吧，但是不知道有什么好的思路？

小马xiaoma

unread,

Dec 27, 2010, 2:19:44 AM12/27/10

to sh...@googlegroups.com

需要自动识别么? 可以根据词频，扫描一下 "the" , "的" 等词语在文件中出现的频率就大致能判断出了。

在 2010年12月27日下午3:13，Druggo <dru...@gmail.com> 写道：
> 眼看是不行的，程序判断吧，但是不知道有什么好的思路？
>

Druggo

unread,

Dec 27, 2010, 2:54:07 AM12/27/10

to sh...@googlegroups.com

我是想判断PDF里面是否有正常的中文，如果是乱码的中文我需要能检测出来。

Marco

unread,

Dec 27, 2010, 6:06:46 AM12/27/10

to sh...@googlegroups.com

能不能考虑用"选择"的方式？文本的PDF可以用鼠标选定文本，图片的不行

2010/12/27 Druggo <dru...@gmail.com>

我是想判断PDF里面是否有正常的中文，如果是乱码的中文我需要能检测出来。

--
LinuX
Violin
Canon EOS

Icat

unread,

Dec 28, 2010, 1:33:22 AM12/28/10

to sh...@googlegroups.com

图片的也可以,加入OCR数据的图片PDF可以选择, 有文字信息

2010/12/27 Marco <chopi...@gmail.com>:

Reply all

Reply to author

Forward