tesseract-ocrの最近の情報

309 views
Skip to first unread message

Shunro Dozono

unread,
Aug 1, 2011, 7:58:48 PM8/1/11
to ocropus-ja
日本語情報も増えてきましたので、参考になるリンクを。

オープンソースの文字認識ライブラリ Tesseract OCRに触ってみた
id: takmin
http://www.slideshare.net/takmin/tesseract-ocr
「お客様からたまに、携帯カメラで文字認識したいという相 談をうける。AR的に認識した文字に合わせた動画や3次元モデルを 表示するなどをしたい。
特定物体認識では賞品のパッケージは認識できても、 個別の製品番号まで認識できない。 製品番号まで認識出来れば、より強力なマーケティングツー ル
になる というわけで、何か使えるものがないか調べてた」

コレとアレとソレと
Macでtesseract-ocrを動かしてみる
http://blog.livedoor.jp/daimarururu/archives/1442305.html

Wolf Ears
ImageMagickとtesseract-ocrを使って,pdfを画像化してテキストを取り出す
http://g86.dbcls.jp/~yag/wordpress/archives/1315
「普段よく見かけるPDFはテキストが情報として組み込まれているため,PDFビューワーから簡単にテキストを取り出すことが出来ます.しかし,PDF
内でテキストが画像情報として保存されている場合には,そのテキストを取り出す事はできません.今回は,OCRの技術を使って,テキストが画像形式で埋
め込まれたPDFからテキストを取り出してみます.」

Google提供のOCRエンジンtesseract-ocrが日本語に対応しているらしいのでインストール
http://ms2.seesaa.net/article/164757313.html
Reply all
Reply to author
Forward
0 new messages