关于HappyOCR之一

29 views

Skip to first unread message

benliud

unread,

Dec 28, 2007, 2:53:14 AM12/28/07

to HappyOCR

对于0CR感兴趣有许多年了，断断续续做了些研究，囊括起来就成了HAPPYOCR这个东西。从开始写点东西到现在，前后可能有8，9年了，一直也没有
写过什么总结，近两年来也基本没怎么搞过，为了让感兴趣的人有所了解，为了让这个软件不浪费在我手并继续发展，现在开源出来供大家参考，供初学者学习，
供高手指点。

OCR这个领域主要还是研究性的，相对成熟的商业产品是尚书和清华的两个东西吧。这个产业链相对小些，商业性也弱些，反正我做这个基本是研究性的。99
年感兴趣人工智能，就开始写点零碎代码，慢慢累计了这些东西。关于整个思路，其实说起来很简单，没有什么神秘之处。

我是这样来看的，人识别一个字的时候，我认为在一瞬间对比了他所知道的每一个字（这方面大脑确实比机器快许多），哪个字最象这个字他就会认为这个字就是
那个最象的字。如果碰到一个字象这个又象那个，那就看更象哪个。所以我的实现就是每个字都用一个小的神经网络去学习，每个字都对应一个识别网络，识别每
个字都让每个字的神经网络去识别一次，哪个神经网络给出的结果最优就认为是这个结果。

因为不考虑手写体（无法收集到大量字库），所采用的训练字库，是找了一些有代表性的现成的字库，黑体，宋体等。再用这些标准字训练BP网络，得到每个字
的识别网络，即可得到识别的基础。

Reply all

Reply to author

Forward

0 new messages