关于HappyOCR之二

15 views

Skip to first unread message

benliud

unread,

Dec 28, 2007, 2:53:46 AM12/28/07

to HappyOCR

HappyOCR的识别率还是不错的，相对清晰的图象，大约在99%左右，差点的一般在95%以上，可以识别彩色图象（会转换处理），有水平校准，有版
面分析，分块识别等，但没有表格识别，版面分析比较弱，因为没仔细研究过。曾经扫描过一本书来做测试，因为扫描质量还不错，识别率很高。可惜现在找不到
那些扫描文件了，包括训练好的网络数据也没有备份下来，导致程序缺少数据而无法运行。下面我还要提到这一点。

整个系统在windows下做的，不过移植到linux也不是很难，只是目前我没有时间来做，熟悉wxWindows的可能两周可以做完。以前一直用
sqlserver来学习和存储，这几天我把数据库改为sqlite了，方便些，不必装一个大型数据库了，从使用上来看，速度也没什么影响。

系统大约有这么一些东西：

1。字库转换工具，可以把windows下的字库转换成不同分辨率的点阵字库用于训练。整个系统采用的是24*24点阵，不过这个工具可以转换许多分辨
率的点阵。

2。字库导入工具，可以把转换的字库导入到数据库里，这样方便训练网络。

3。训练工具，可以提取数据库中的字体训练网络，并且把训练好的网络写回数据库存放。

4。文件字体和数据库字体查看器。

5。主体程序HappyOCR，初始化时读进网络数据，然后读图象即可识别文字。

Reply all

Reply to author

Forward

0 new messages