关于HappyOCR之五

17 views
Skip to first unread message

benliud

unread,
Dec 28, 2007, 2:55:41 AM12/28/07
to HappyOCR
版面分析和前后处理是弱项或缺失,版面分析是比价困难的事,对于复杂的版面越是困难,这还不能用一种类似神经网络的通用方法来解决,基本上属于图象分析
领域而不属于识别范畴,这部分只做了个简单的,自动分析不行时也可以手动分块排序。前处理指字的特征过滤,每次识别都用2级字的全部网络来依次识别是比
较费事的,如果能加上特征过滤识别就会快很多,当然,如果特征取的不合适,也会因此导致判别失误,这方面我兴趣不大,所以没做。后处理是指根据识别的最
终结果来进行上下文的调节,有时一个没有把握的识别可以依照上下文的词语关联来获得更好的确认,甚至可以修改识别错误,这方面需要做一个词频统计库,算
是一个专门的领域了,如果能理解句子的含义并调节识别那就是一个更高的层次了,不过整句的理解似乎还没谁能做到,这是更高级别的人工智能范畴了,如果这
方面有突破,则必将带动OCR突破,OCR要上台阶必须理解句子的意思,否则总会出现一些误判。

一级汉字区号从0xB0开始,往后40个区都是,每区94个字,二级字是之后的31个区,本软件训练包括全部2级汉字以及一个常用符号数字区0xA3,
识别时如果只需要识别一级字则速度较快,但一般的文章都需要二级字,二级字里有一些还是比较常见的,没有二级字网络就会误判。

至于英文识别问题,目前有很多软件都解决的不错,相对汉字识别,英文要容易许多,毕竟只有26个字母需要训练,可以训练的很全面,训练也很方便。不过连
字拆分可能比汉字的多些,总体比汉字容易做。我没有这方面的兴趣,这个软件目前只以汉字识别为目标。
Reply all
Reply to author
Forward
0 new messages