一款新OCR识别引擎

5 views

Skip to first unread message

zhy19790824

unread,

May 30, 2007, 5:30:16 AM5/30/07

to 北京诺贝尔国际软件信息技术有限公司

Google在几个月前，静悄悄地向开源合作伙伴们发布了一款新OCR识别引擎－－事实上，是重新发布－－这款名为Tesseract的OCR引擎最先
由HP实验室于1985年开始研发，至1995年时已经成为OCR业内最准确的三款识别引擎之一。然而，HP不久便决定放弃OCR业
务，Tesseract也从从此尘封。

数年以后，HP意识到，与其将Tesseract束之高阁，不如贡献给开源软件业，让其重焕新生－－2005年，Tesseract由美国内华达州信息
技术研究所获得，并求诸于Google对Tesseract进行改进、消除Bug、优化工作。

在修复了最重要的数个漏洞后，Google两个月前认为，Tesseract OCR已经足够稳定，可以重新以开源软件方式发布。

Google已经开始在网站上招聘高级OCR技术工程师，值得我们注意的是，Google在这段招聘启示下写道："Google currently
"reads" almost every web page in the world. Come help us read all the
printed material as well!"（Google现在已经能够"阅读"世界上几乎所有网页，你的到来将让Google阅读所有印刷
信息！）

http://www.google.com/support/jobs/bin/answer.py?answer=23733

http://sourceforge.net/projects/tesseract-ocr

取自"http://wiki.huihoo.com/index.php?title=Tesseract_OCR"

Reply all

Reply to author

Forward

0 new messages