关于HappyOCR之一

29 views
Skip to first unread message

benliud

unread,
Dec 28, 2007, 2:53:14 AM12/28/07
to HappyOCR
对于0CR感兴趣有许多年了,断断续续做了些研究,囊括起来就成了HAPPYOCR这个东西。从开始写点东西到现在,前后可能有8,9年了,一直也没有
写过什么总结,近两年来也基本没怎么搞过,为了让感兴趣的人有所了解,为了让这个软件不浪费在我手并继续发展,现在开源出来供大家参考,供初学者学习,
供高手指点。

OCR这个领域主要还是研究性的,相对成熟的商业产品是尚书和清华的两个东西吧。这个产业链相对小些,商业性也弱些,反正我做这个基本是研究性的。99
年感兴趣人工智能,就开始写点零碎代码,慢慢累计了这些东西。关于整个思路,其实说起来很简单,没有什么神秘之处。

我是这样来看的,人识别一个字的时候,我认为在一瞬间对比了他所知道的每一个字(这方面大脑确实比机器快许多),哪个字最象这个字他就会认为这个字就是
那个最象的字。如果碰到一个字象这个又象那个,那就看更象哪个。所以我的实现就是每个字都用一个小的神经网络去学习,每个字都对应一个识别网络,识别每
个字都让每个字的神经网络去识别一次,哪个神经网络给出的结果最优就认为是这个结果。

因为不考虑手写体(无法收集到大量字库),所采用的训练字库,是找了一些有代表性的现成的字库,黑体,宋体等。再用这些标准字训练BP网络,得到每个字
的识别网络,即可得到识别的基础。
Reply all
Reply to author
Forward
0 new messages