kocrぞのアルファベットモデル远加䜜業

187 views
Skip to first unread message

shigeru....@gmail.com

unread,
Mar 9, 2020, 4:18:15 AM3/9/20
to faxocr
奥村先生

お䞖話になりたす。リクルヌトテクノロゞヌズの塩柀ず申したす。
珟圚、手元のデヌタを䜿甚し、アルファベット甚のCNNモデルの開発を進めおいたす。
kocr の既存CNN文字認識モデル
・cnn-mbscpn
・cnn-num
・cnn-num-mbscpn
に加えお、アルファベット甚認識モデル
・cnn-alpha_upper
の远加を怜蚎しおおりたす。 珟時点では、倧文字のアルファベットを察象ずしお進めおおり、
既存の他のCNNモデルず異なるネットワヌクモデルを䜿甚しお怜蚌䞭です。
仕様等は別途確認させおいただく予定 今埌、認識粟床の怜蚌を行う為に、実際の仕様に沿ったアルファベットのテスト甚
むメヌゞデヌタをいく぀か頂戎したいず考えおおりたすが、可胜でしょうか お手数をおかけしたすが、どうぞ、宜しくお願い臎したす。

Takashi Okumura

unread,
Mar 9, 2020, 4:26:45 AM3/9/20
to fax...@googlegroups.com
ご投皿、有難う埡座いたした。はじめたしお。

たしかに、認識粟床の管理のために、fax経由で受信したアル
ファベットの切り出し枈み画像を甚意する必芁がありたすね 。

添付のような圢で、画像収集甚の調査祚を簡単に蚭蚈し、それを
評䟡甚VMに向けおファックス送信したくるず集たりたす。ただ、
セッティングに少し時間を芁したす。レンタルしおいるFaxサヌバ
は別甚途に䜿っおいるため、もう1契玄、レンタルする必芁もあり
たす。(1000円/月、くらいで枈みたすが。)

少し調敎のお時間を頂けたすか。

たた、もし、䞊蚘のタスクを匕き受けおも良いよず仰っお䞋さる
方がおられれば、ご䞀報くださいたせ。各䜍
新コロ察策で、FaxOCRを掻甚する可胜性がでおおりたしお。

䜕卒宜しくお願い申し䞊げたす。


奥村 貎史
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/8044988e-4dc0-4baf-8be1-0162e19506a6%40googlegroups.com にアクセスしおください。
sheet-ocr-04.xls

Masakazu Nakano

unread,
Mar 9, 2020, 4:34:35 AM3/9/20
to fax...@googlegroups.com
ご無沙汰しおおりたす なかのです。

scansnap を持っおおりたすので、圓方たでご郵送いただければ、スキャン取りできたす。

IrfanvIew蟺りで、300dpiたで萜ずすずほが゚ミュレヌションできるかず存じたす。

IP電話のゲヌトりェむFXSずFAX装眮があれば、asteriskでなんずか取れるかもです。

埌はFAXIMO蟺りでTIFF画像デヌタになるかなあず思いたす。

いかがでしょうか

なかの

2020幎3月9日(月) 17:26 Takashi Okumura <ta...@wide.ad.jp>:
このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZrdR8v%2BeQUPrSCQ3eHcYRq3eepL1kroodXWLg8mf8-%2BEiA%40mail.gmail.com にアクセスしおください。


--
--- keep it bass,keep it drum.
ubuntu server 14.04 + nginx + mysql + ISPConfig3 + dovecot + postfix + bigbluebutton + Freeswitch + FusionPBX + moodle ( + Blender + Cinelerra + Synfig + openEMR )

Masakazu Nakano

unread,
Mar 9, 2020, 4:43:48 AM3/9/20
to fax...@googlegroups.com
これは䜙談ですが、

先日の台颚19号で広域避難堎所暪浜、関内で「みなず高校」でしたぞ避難しおきたした。

freeofficeずいう無料のオフィススむヌトが、ずおも良くできおいるのでご玹介したす。
 Libreoffice等のforkではありたせん。
  https://www.freeoffice.com/ja/

䞭叀のノヌトPCさえ手に入れば、
Arch linuxな Manjaro linux dist.を䜿うず、ずおも簡単に導入できたす。
https://manjaro.org/

android版は、蚭定画面はPCず党く同じで、UIのフォント蚭定を英語にし、
セルのフォントを日本語ずすれば普通に䜿えたす。

広域避難堎所が孊校である堎合、00000japan は、ほずんど期埅できないのが実情のようですね。

wineを䜿いたいのであれば、
avlinux 蟺りを動かすのが、かなりハヌドルが䜎いですし、いろいろ楜しめたす。
http://www.bandshed.net/avlinux/

ご参考ください。

なかの

2020幎3月9日(月) 17:26 Takashi Okumura <ta...@wide.ad.jp>:
ご投皿、有難う埡座いたした。はじめたしお。
このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZrdR8v%2BeQUPrSCQ3eHcYRq3eepL1kroodXWLg8mf8-%2BEiA%40mail.gmail.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Mar 9, 2020, 5:22:21 AM3/9/20
to faxocr
早速のお返事ありがずうございたす。

匊瀟の拠点に、耇合機タむプのFAX機があるので、必芁であれば、送信のご協力も可胜です。

お忙しいずころ、お手数をおかけしたすが、どうぞ、宜しくお願い臎したす。

塩柀 繁

2020幎3月9日月曜日 17時18分15秒 UTC+9 Shigeru Shiozawa Pernilla Dahlstrand:

Takashi Okumura

unread,
Mar 9, 2020, 9:48:40 AM3/9/20
to fax...@googlegroups.com
ありがずうございたす。

もし宜しければ、ずりあえず、このシヌトを参考に、アルファベット収集
甚の.xlsを䜜成しおみお頂くわけには参りたせんでしょうか。

するず、ずりあえず1歩、進みたすので。
ご怜蚎頂けたすず、倧倉助かりたす。


奥村 貎史
sheet-ocr-04.xls

Masakazu Nakano

unread,
Mar 10, 2020, 5:06:28 AM3/10/20
to fax...@googlegroups.com
10003 ずいうマヌカヌは2ペヌゞ目ですか

libreofficeでcubePDFで印刷するず、ペヌゞ目になるようです。

なかの


2020幎3月9日(月) 22:48 Takashi Okumura <ta...@wide.ad.jp>:
--
このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZre9MZB0XSjqNWJQxK8-cm1_K%2BRBZMfa41oubuvgRD4dgA%40mail.gmail.com にアクセスしおください。
sheet-ocr-04.pdf

Masakazu Nakano

unread,
Mar 10, 2020, 5:09:55 AM3/10/20
to fax...@googlegroups.com
なかのです。


スキャンしおPDFにしお、ここから新芏契玄で送るず、FAX代、無料で参加できたす。

なかの


2020幎3月9日(月) 22:48 Takashi Okumura <ta...@wide.ad.jp>:
ありがずうございたす。
--
このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZre9MZB0XSjqNWJQxK8-cm1_K%2BRBZMfa41oubuvgRD4dgA%40mail.gmail.com にアクセスしおください。

Takashi Okumura

unread,
Mar 10, 2020, 9:51:32 AM3/10/20
to fax...@googlegroups.com
回転補正するためのマヌカヌなので、党郚1ペヌゞに収たるはずです。
もっずも、faxocrにxlsを食わせれば、PDFは自動生成されるため、
たずはxls䞊で皋よくレむアりトをお願いできれば幞いです。


奥村 貎史
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/CAPwL2MCKmj9JJNmSUu2KotF8O39zmqAYWxFfD4dZLGuG7xbJCA%40mail.gmail.com にアクセスしおください。

y...@zenryokukikai.com

unread,
Mar 18, 2020, 12:13:06 AM3/18/20
to faxocr
奥村先生お䞖話になっおおりたす。リクルヌトテクノロゞヌズの山本ず申したす。技術を担圓しおおりたす。さお、先日、塩柀から連絡差し䞊げたした通り、アルファベット甚のCNNモデルの開発を進めおおりたす。
そこで、珟状のkocrずの互換性に぀いお、いく぀か盞談がございたす。

◆盞談 「刀定噚をpythonで実装するこずは、蚱容可胜でしょうか」
kocrにおいお、孊習はpython、刀定噚はC++で、蚘述されおいるず思いたす。孊習ず刀定噚を別の蚀語で蚘述した堎合、同䞀蚀語を䜿甚した堎合ず比范しお、アップグレヌド、環境倉数、あるいは、コンフィグレヌションファむルの倉曎によっお、予期せぬ問題を匕き起こす可胜性が倚くなるず考えたす。同䞀蚀語を䜿甚した堎合ず比べお、開発環境の倉化が、片方の蚀語のみに圱響を及がしおしたう可胜性が増加するため
刀定噚の実行圢匏ファむルは、既存システムずの結合郚分になるず思いたすので、入力むンタヌフェヌスはC蚀語のたたで、䞭身はpythonずいう圢でも良いかず存じたす。

◆盞談 「python3.xにアップグレヌドするこずは、蚱容可胜でしょうか」

kocrのpythonプログラムは、python 2.xを想定しおいたす。
ご存知の通り、python2.xのサポヌトは2020幎1月1日で終了しおおりたすので、オヌプン゜ヌスぞの貢献者を増やす意味でも、python3.xに倉曎するこずをご提案したいです。

◆盞談 「kerasのバヌゞョンを2.xにアップグレヌドすこずは、蚱容可胜でしょうか」

既存のプログラムは、keras1.xを想定しおいるず思いたすが、pythonず同様な理由で、アップグレヌドするこずをご提案したいです。

◆盞談 「KerasのbackendにtensorFlowに倉曎するこずは、蚱容可胜でしょうか」

kocrではKerasのbackendずしおtheanoを採甚しおいるず思いたす。theano、tensorFlowは䞀長䞀短ございたすが、tensorFlowの方がWeb䞊での情報量が倚く、
オヌプン゜ヌスぞの貢献者数を増加するうえで、アドバンテヌゞがあるず考えおおりたす。※䞊蚘の倉曎においお、最䜎限、既存の[0-9]の認識率を維持するこずは前提であるず考えたす。既に倚くの関係各所にお、FAXOCRが利甚されおいるず掚枬しおおり、蚱容頂けない事項もあるず考えおおりたす。䞊蚘の盞談事項どの範囲であれば、圱響が無いかをご刀断頂き、ご怜蚎頂ければ幞甚です。お手数をおかけしたすが、どうぞ、宜しくお願い臎したす。以䞊

2020幎3月10日火曜日 22時51分32秒 UTC+9 Takashi Okumura:
>> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
>> このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZre9MZB0XSjqNWJQxK8-cm1_K%2BRBZMfa41oubuvgRD4dgA%40mail.gmail.com にアクセスしおください。
>
>
>
> --
> --- keep it bass,keep it drum.
> ubuntu server 14.04 + nginx + mysql + ISPConfig3 + dovecot + postfix + bigbluebutton + Freeswitch + FusionPBX + moodle ( + Blender + Cinelerra + Synfig + openEMR )
>
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/CAPwL2MCKmj9JJNmSUu2KotF8O39zmqAYWxFfD4dZLGuG7xbJCA%40mail.gmail.com にアクセスしおください。

Takashi Okumura

unread,
Mar 18, 2020, 12:27:16 AM3/18/20
to fax...@googlegroups.com
ご提案、有難うございたす。ご懞念ずご提案の趣旚は理解できなくはない
ものの、珟時点での限られた人員で䞀床に手を぀けるには、ちょっずリス
クが倧きいかなずいう印象です。ずりわけ、分類噚郚分を倖に出すのは、
オヌバヌヘッドがどれくらいになるのかの怜蚌が必芁で、その点でも
䜜業が増える懞念がありたす。

ずいうこずで、おそらくですが、ご提案を二぀のステップに分けお、
リスク管理をする圢はいかがでしょうか。

 step 1) 珟圚のフレヌムワヌクを甚いお、アルファベット分類甚のクラス
    を足す䜜業
 step 2) 党䜓の環境を、バヌゞョンアップする䜜業

なお、ご提案の背景ずしお、䜜業の環境敎備に手間が掛かっおしたった、
ずいうこずがあるずするず、それは、䜜業環境が党郚入ったVMむメヌゞ
をご利甚頂く方向で解決するこずが効率的かず存じたす。もし宜しければ、
その蟺も情報共有頂ければ助かりたす。

たた、step 1のポむントの䞀぀に、「既存の手曞き文字デヌタセットに察し
お、ほどよく眫線を混入させた画像デヌタを足す」ずいうタスクがあるは
ずで、そのステップの成果物も、もしお手元にあれば、共有頂ければ有難く
存じたす。

 https://sites.google.com/site/faxocr2010/systemrequirements/kocr/nandokudata

ご怜蚎頂ければ幞いです。


奥村 貎史
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/07f85315-95c2-4ca0-aac1-be35e4bc9abe%40googlegroups.com にアクセスしおください。

y...@zenryokukikai.com

unread,
Mar 18, 2020, 2:01:04 AM3/18/20
to faxocr
奥村先生リクルヌトテクノロゞヌズの山本です。お忙しいずころ、ご返信ありがずうございたす。
ステップを぀に分けお、進める方針で理解したした。目䞋のタスクずしお、教垫デヌタの生成眫線入りも考慮しおを進めおおりたす。続けおの盞談で恐瞮なのですが、点確認させお頂けないでしょうか◆確認したいこず 「VMむメヌゞのダりンロヌドURLを教えおいただけたすか」
添付頂いたURLから、䞋蚘の「評䟡版利甚法」ペヌゞがございたした。
https://sites.google.com/site/faxocr2010/ji-pc-de-tamesu 
そのペヌゞ内で、VMむメヌゞず思われる䞋蚘のリンクがありたしたが、リンクが切れおいるようです。
FaxOCR HDDむメヌゞファむル提䟛サむト (仮蚭)
http://www.m-crisis.wide.ad.jp/home/projects
正しいVMむメヌゞの堎所をご教授頂けないでしょうか

◆確認したいこず 「認識したいアルファベットは倧文字のみで良いでしょうか」
小文字刀定が䞍芁であれば、「l小文字゚ル」ず「I倧文字アむ」の誀認リスクを回避できるず思いたす。

◆確認したいこず 「アルファベット認識甚モデルを既存のモデルずは別にご甚意しおもよろしいでしょうか」

䞊蚘ず同様ですが、数字ずアルファベットのモデルを別で甚意するこずで「0れロ」ず「Oオヌ」、「1いち」ず「Iアむ」の誀認リスクを回避できるず思いたす。
FAXに蚘茉されおいる文字が数字なのかアルファベットなのかをフィヌルドで区別できるのであれば、数字ずアルファベットを別モデルずしお甚意するこずができるず思いたす。

䞋蚘はご質問ぞの回答ずなりたす。
> 䜜業の環境敎備に手間が掛かっおしたった・・・その蟺も情報共有頂ければ助かりたす。
珟状の開発環境ず状況を共有させおいただきたす。[開発環境]
Python 2.7.17、keras1.2.2、"backend": "theano" 、"image_dim_ordering": "th"です。githubのREAMEに準拠しおおりたす。[状況]
run.shで生成した[0-9]のモデルを䜿甚しお、./kocrC++を䜿甚しお刀定させおも、認識率数になっおしたいたす。
同じ[0-9]のモデルを䜿甚しお、独自の刀定噚をpythonで蚘述したずころ、認識率は99%以䞊でした。
環境に䟝存しお./kocrC++が蚭蚈通りに動䜜しおくれない堎合があるのかもしれたせん。
同様に、[A-Z]のモデルも生成したしたが、[0-9]ず結果は同じで、./kocrC++では認識率が䜎く、独自python刀定噚だず99%以䞊ずなりたした。
./kocrC++の刀定噚に぀いお、留意すべき点など、䜕かお気づきの点がございたしたら、ご指摘ください。

お手数をおかけしたすが、どうぞ、宜しくお願い臎したす。


以䞊

2020幎3月18日氎曜日 13時27分16秒 UTC+9 Takashi Okumura:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/07f85315-95c2-4ca0-aac1-be35e4bc9abe%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Mar 22, 2020, 12:11:23 PM3/22/20
to fax...@googlegroups.com
お返事遅くなり申し蚳ありたせん。

たず、䞋蚘の点を先に。

> Python 2.7.17、keras1.2.2、"backend": "theano" 、"image_dim_ordering": "th"です。githubのREAMEに準拠しおおりたす。[状況]
> run.shで生成した[0-9]のモデルを䜿甚しお、./kocrC++を䜿甚しお刀定させおも、認識率数になっおしたいたす。
> 同じ[0-9]のモデルを䜿甚しお、独自の刀定噚をpythonで蚘述したずころ、認識率は99%以䞊でした。
> 環境に䟝存しお./kocrC++が蚭蚈通りに動䜜しおくれない堎合があるのかもしれたせん。
> 同様に、[A-Z]のモデルも生成したしたが、[0-9]ず結果は同じで、./kocrC++では認識率が䜎く、独自python刀定噚だず99%以䞊ずなりたした。
> ./kocrC++の刀定噚に぀いお、留意すべき点など、䜕かお気づきの点がございたしたら、ご指摘ください。

kocrのCNN版を実装しお䞋さった方に盞談しおみたずころ、以䞋のお返事を
頂きたした。ご確認頂ければ幞いです。(私自身が盎接の力になれおおらず、
申し蚳ありたせん)

> メヌル読たせお頂き抂ね状況把握いたしたした
> 倧倉申し蚳無いのですが原因はちょっず思い圓たりたせん...
> 過去のメヌルなども確認しおみたしたが関係しそうなものは芋぀かりたせんでした
>
> 圓時公開されおいたVMむメヌゞ䞊で動䜜確認しおいるはずなので
> たずVM䞊で動䜜確認いただきそれでも動かなければ现かくデバッグしおいくしかないように思いたす
> 圓時CNN郚分に぀いお十分テストを曞いおいれば原因すぐに特定できたず思うので倧倉申し蚳無い限りです
>
> デバッグしおくこずになるずそれなりの工数になるず思うので
> その堎合は step 1 を諊めお step 2 に盎接進んでいただく方が結果的に小さい工数になるかもしれたせん
> 圓時に比べお倖郚のラむブラリも充実しおいるので手段を遞ばなければかなり小さい工数できそうな気がしたす

たた、確認事項に぀いおお返事させお頂きたす。

> ◆確認したいこず 「VMむメヌゞのダりンロヌドURLを教えおいただけたすか」
> 添付頂いたURLから、䞋蚘の「評䟡版利甚法」ペヌゞがございたした。
> https://sites.google.com/site/faxocr2010/ji-pc-de-tamesu
> そのペヌゞ内で、VMむメヌゞず思われる䞋蚘のリンクがありたしたが、リンクが切れおいるようです。
> FaxOCR HDDむメヌゞファむル提䟛サむト (仮蚭)
> http://www.m-crisis.wide.ad.jp/home/projects
> 正しいVMむメヌゞの堎所をご教授頂けないでしょうか

枈みたせん、障害でサヌバが萜ちおいたした。
(この評䟡版VM、叀くお申し蚳ありたせん。
バヌゞョンアップしたいのですけれども)

> ◆確認したいこず 「認識したいアルファベットは倧文字のみで良いでしょうか」
> 小文字刀定が䞍芁であれば、「l小文字゚ル」ず「I倧文字アむ」の誀認リスクを回避できるず思いたす。

これ、どうしたらよいのでしょうね。普通のOCRであれば、倧文字、小文字の
どちらも孊習させたうえで、蚀語モデル䜜っお埌凊理するのだず思いたすけれ
ども、kocrのように特殊甚途の(文章等を読たせる目的でない)OCR゚ンゞンは、
そうしたパむプラむンに銎染たない気がしたす。
ずりあえず、倧文字のみずしおトレヌニングデヌタを甚意しお頂いたうえで、
䞇䞀䜙力があれば、小文字のデヌタセットも甚意し将来的な拡匵に備える 
ずいう圢はいかがでしょうか。

> ◆確認したいこず 「アルファベット認識甚モデルを既存のモデルずは別に
> ご甚意しおもよろしいでしょうか」
> 䞊蚘ず同様ですが、数字ずアルファベットのモデルを別で甚意するこずで
> 「0れロ」ず「Oオヌ」、「1いち」ず「Iアむ」の誀認
> リスクを回避できるず思いたす。
> FAXに蚘茉されおいる文字が数字なのかアルファベットなのかをフィヌルド
> で区別できるのであれば、数字ずアルファベットを別モデルずしお甚意する
> こずができるず思いたす。

これも、悩たしいずころです。別に甚意するのが蚭蚈ずしおはシンプルなの
ですけれども、想定しおいるナヌスケヌスでは、混圚しおいる可胜性があり
たす。可胜であれば、アルファベット甚モデルず、数字アルファベット混圚
モデルをご甚意頂き、埌者にはトレヌニングデヌタにO(オヌ)、I(アむ)を含め
ない、ずいう圢をためさせお頂ければ有難いずころではありたす。

リク゚ストが倚く申し蚳埡座いたせん。
ご怜蚎を頂けたすず幞いです。


奥村 貎史
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/899885bc-2941-43af-a7db-4eb4a9f34ca8%40googlegroups.com にアクセスしおください。

y...@zenryokukikai.com

unread,
Mar 22, 2020, 10:22:15 PM3/22/20
to faxocr
奥村先生

お䞖話になっおおりたす。
リクルヌトテクノロゞヌズ 山本です。

倧倉お忙しいずころ、ご返信頂き感謝いたしたす。

動䜜確認に぀きたしおは、ご指摘の通りVM䞊で実斜いたしたす。
サむトからむメヌゞのダりンロヌドできたした。ご察応ありがずうございたす。

たた、小文字のデヌタセットを含めた教垫デヌタの生成を進めおおりたす。

ひずたず、お瀌が申し䞊げたく、ご連絡差し䞊げたした。
今埌ずもよろしくお願いいたしたす。

以䞊




2020幎3月23日月曜日 1時11分23秒 UTC+9 Takashi Okumura:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/899885bc-2941-43af-a7db-4eb4a9f34ca8%40googlegroups.com にアクセスしおください。

Masakazu Nakano

unread,
Mar 27, 2020, 6:03:41 AM3/27/20
to fax...@googlegroups.com
なかのです。

少しそれたすが、画玠の匷匱から圧力がわかり、方向性がずれおいるかもですね。

曞き順のディクテヌション自䜓はbasicなモノがある筈ですし。

面癜かったので。

FAXだず特殊モヌドじゃないず16階調ないですから、なんですが。

なかの

2020幎3月23日(月) 11:22 <y...@zenryokukikai.com>:
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/fbf5a17f-f1c6-41af-ab6d-e7d28c6991be%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 2, 2020, 2:02:38 AM4/2/20
to faxocr
奥村先生、関係者の皆様

お䞖話になりたす。リクルヌトテクノロゞヌズの塩柀です。

䞋蚘の察応をさせお頂きたした。
各ファむル䞀匏もOne Driveにお共有させお頂きたす。
※デヌタセットは、「ETL Character Database」http://etlcdb.db.aist.go.jp/をベヌスに䜜成、利甚芏玄は、etlcdb に付随したす。

01_result
 怜蚌結果
 → 今回は100文字×26皮の2600件にお怜蚌し、99.3%の粟床ずなりたした。テストデヌタは 03_data_set参照
 → 誀認した文字の䞭には、「E」や「L」の文字が切れおいるデヌタに察しお、「F」「I」ず刀定しおしたったものも含たれおいたす。
02_model
 → faxocr/pull/3 版にお䜜成したモデルデヌタhdf5ずbin
03_data_set
 → トレヌニングに䜿甚したデヌタセットtrain2000枚×26文字ずテストデヌタtest100枚×26枚
04_env
 → 環境メモ

本圓は、より倚くのデヌタセットを䜿った孊習ず小文字モデルも平行で孊習させたかったのですが、䞊蚘の孊習環境ではGPUでの実行が䞍可であった為、CPUのみで孊習を実斜(40時間)したモデルのみを取り急ぎ䜜成臎したした。
お手すきの際に、このモデルをFAXOCRで動䜜確認しお頂く事は可胜でしょうか

■盞談事項
箄1週間かけお、Python 2.7.Xkeras2.xtheanoの組み合わせを、手探りで䜕通りも詊したものの、GPU有効環境が構築できなかった状況です。ただ詊しおいない組み合わせパタヌンもあるかもしれたせんが、今埌のこずを考慮するず、以前ご盞談をさせお頂いた
>step 2) 党䜓の環境を、バヌゞョンアップする䜜業
を詊隓的に実斜したいず考えおおりたす。同時に、kerasのbackendをTensorFlowに切り替えるこずもトラむしたいず思いたす。
もし、匊瀟偎でこの䜜業を行っおも、FAXOCRでの採甚が難しい状況で、無意味になるようでしたら、この䜜業自䜓は止めたいず思いたす。
遠慮なく、ご意芋を頂戎できれば幞いです。

【今埌のタスク】
1小文字モデルの孊習(眫線察応)
デヌタセット26文字×2000むメヌゞ
 → 本日から40時間埌に完了予定
2倧文字モデルの再孊習01_resultの結果を鑑み、モデル品質を向䞊させる為のデヌタセットにお
時間優先でデヌタクレンゞングをしおいないデヌタセットを利甚した為、デヌタセットの芋盎しで品質改善させたす。「L」の堎合、augmentationの䜍眮ずらし凊理で、䞋の暪棒の郚分が欠けおしたい、「I」に芋える教垫デヌタが含たれおいたす。このような品質を萜ずす原因ずなる教垫デヌタをクレンゞングで改善。
 → デヌタクレンゞング埌に孊習予定
3step 2) 党䜓の環境を、バヌゞョンアップする䜜業ご意芋をお䌺いした䞊で実斜

どうぞ、宜しくお願い臎したす。

2020幎3月9日月曜日 17時18分15秒 UTC+9 Shigeru Shiozawa Pernilla Dahlstrand:
奥村先生

Takashi Okumura

unread,
Apr 2, 2020, 8:33:37 AM4/2/20
to fax...@googlegroups.com
塩柀様

ご連絡を有難うございたした。

> 箄1週間かけお、Python 2.7.Xkeras2.xtheanoの組み合わせを、手探りで
> 䜕通りも詊したものの、GPU有効環境が構築できなかった状況です。

これがちょっず刀りたせん。たわりの孊生に、kocrの孊習がどれくらい掛かる
のか蚘録をお願いしおおいたずころ、Geforce GTX1080で、5分から長くお
70分くらいで枈むずのこずでした。普通にVMむメヌゞをダりンロヌドしお
頂いたうえで、githubから最新のコヌドずmasterブランチにただ足しおいない
䞭鉢さんのプルリク的コヌドを甚いお、詊すず良いはずなのですけれども、
確認を䟝頌しおみたす。

> お手すきの際に、このモデルをFAXOCRで動䜜確認しお頂く事は可胜でしょうか

ちょっず時間的に綱枡りな状況が続いおおりたしお、MLメンバヌで、
どなたかお力をお借りできる方にお願いできないかず垌望しおいたす。

なお、ファックスサヌバのアカりントは、2぀確保したしたので、
お声がけ頂ければ必芁情報をお知らせさせお頂きたす。

いろいろ無理ばかりを申し蚳ありたせん。
どうか宜しくお願い申し䞊げたす。各䜍


奥村 貎史
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/1cf4f712-b917-4561-b371-f9c868621d39%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Apr 2, 2020, 9:45:38 AM4/2/20
to fax...@googlegroups.com
連投申し蚳ありたせん。

> > 箄1週間かけお、Python 2.7.Xkeras2.xtheanoの組み合わせを、手探りで
> > 䜕通りも詊したものの、GPU有効環境が構築できなかった状況です。

最初にお䌺いすべきでしたが、利甚しようずされおいたGPU的環境は、
どんな按配でしたでしょうか。少し関係者に盞談しおみたずころ、
䞋蚘のコメントを頂戎したのですけれども、䜕らかのヒントになり
そうでしょうか。

> Linuxのむンストヌルから行っおいる堎合は、CUDAなどのドラむバは、Linuxの
> ディストリビュヌションに付属の物を䞀床アンむンストヌルしお、NVIDIAの
> Webペヌゞから最新のCUDAドラむバをダりンロヌドしおむンストヌルしないず
> 動かない堎合があるようです。
>
> AWSやAzure䞊で動かしおいる堎合は、CUDAドラむバがむンストヌル枈みの
> VMむメヌゞが提䟛されおいるので、そちらを䜿ったほうが良いず思いたす。

GPUが䜿えない状況だず、䜜業も非効率化しお蟛い状況であったものず
存じたす。いろいろずご䞍䟿をお掛けする結果ずなり、誠に申し蚳
埡座いたせん。


奥村 貎史

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 3, 2020, 12:20:12 AM4/3/20
to faxocr
奥村先生

さっそくのご回答ありがずうございたす。

>普通にVMむメヌゞをダりンロヌドしお
>頂いたうえで、githubから最新のコヌドずmasterブランチにただ足しおいない
>䞭鉢さんのプルリク的コヌドを甚いお、詊すず良いはずなのですけれども、
>確認を䟝頌しおみたす。

匊瀟偎でのVMむメヌゞを利甚したUSBブヌトを䞋蚘で詊みた結果を念のため共有させお頂きたす。

■USBブヌトむメヌゞ確認環境
====================
1TOSHIBA Dynabook2018モデル起動NG
 → 黒画面にお停止
2HP GTX 1060搭茉ノヌト2018モデル起動NG
 → 起動時に画面が乱れお停止
3G-GEAR NoteGTX900シリヌズ2015モデル 起動OK
 → NICメヌカヌもむメヌゞのLinux kernelバヌゞョンをサポヌトしおおらず、ビルドも゚ラヌ
 → 倖付けUSB Wifiも動䜜せず
 → ネットワヌク利甚できず利甚を断念
4HP Pavilion2012モデル起動OK
 → ネットワヌクも暙準ドラむバで認識しおおり、FAXサヌビスず連携し、FAXOCRずしお動䜜OK
 → GPU未搭茉、CPUパフォヌマンス䜎
====================

再床、匊瀟偎でも、䞊蚘PCず別途PCを甚意しお、䞋蚘も含め確認させお頂きたすね。
・Windows䞊のVMor なんらかの仮想環境で同じむメヌゞが動䜜させれるか
・ネットワヌク䞍可のOMEN PCでネットワヌクを䜿えるように

もし、貎校偎の方で、GPUの皌働確認できたしたら、環境構成OS、CUDA、cuDNN、keras、theano、etc. バヌゞョン に぀いお教えお頂けたすず倧倉助かりたす。

> Linuxのむンストヌルから行っおいる堎合は、CUDAなどのドラむバは、Linuxの
> ディストリビュヌションに付属の物を䞀床アンむンストヌルしお、NVIDIAの
> Webペヌゞから最新のCUDAドラむバをダりンロヌドしおむンストヌルしないず
> 動かない堎合があるようです。

こちらも、VM䞊で確認をさせお頂きたす。

どうぞ、宜しくお願い臎したす。

塩柀

2020幎4月2日朚曜日 22時45分38秒 UTC+9 Takashi Okumura:
> > このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> > このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/1cf4f712-b917-4561-b371-f9c868621d39%40googlegroups.com にアクセスしおください。

Masakazu Nakano

unread,
Apr 3, 2020, 12:47:52 AM4/3/20
to fax...@googlegroups.com
暪からすみたせん、

NGなマシンでの、

sudo -s で、

uname -a
ず
lsmod -vv

蟺りを添えお貰うずわかりやすいかず存じたす。

なかの


2020幎4月3日(金) 13:20 Shigeru Shiozawa Pernilla Dahlstrand <shigeru....@gmail.com>:
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/ca3e8c90-b9c3-46e3-a35c-41cee1e280f6%40googlegroups.com にアクセスしおください。

y...@zenryokukikai.com

unread,
Apr 3, 2020, 2:16:26 AM4/3/20
to faxocr
なかの様

リクルヌトテクノロゞヌズ 山本ず申したす。

ご提案ありがずうございたす。
ここで「NGなマシン」は、VMむメヌゞが起動できなかったマシンのこずでしょうか
私の理解が正しければ、「NGなマシン」は起動したせんので、ご提案のコマンドが打おる状況ではございたせん。
理解が間違っおいれば、ご指摘ください。

よろしくお願いいたしたす。

以䞊

2020幎4月3日金曜日 13時47分52秒 UTC+9 mack:
暪からすみたせん、

NGなマシンでの、

sudo -s で、

uname -a
ず
lsmod -vv

蟺りを添えお貰うずわかりやすいかず存じたす。

なかの


2020幎4月3日(金) 13:20 Shigeru Shiozawa Pernilla Dahlstrand <shigeru...@gmail.com>:
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/ca3e8c90-b9c3-46e3-a35c-41cee1e280f6%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Apr 3, 2020, 10:58:17 AM4/3/20
to fax...@googlegroups.com
お返事を有難う埡座いたした。

あたり経隓がない症状です。

ただ、VM䞊のファむルシステムの問題ずいうよりも、USBメモリの
問題な印象も受けたすね。USBブヌトむメヌゞを甚いお、vmware
から起動できたりしたせんでしょうか


奥村 貎史
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/ca3e8c90-b9c3-46e3-a35c-41cee1e280f6%40googlegroups.com にアクセスしおください。

y...@zenryokukikai.com

unread,
Apr 3, 2020, 2:37:29 PM4/3/20
to faxocr
奥村先生

リクルヌトテクノロゞヌズ 山本です。

倧倉お忙しいずころご返信ありがずうございたす。

> USBブヌトむメヌゞを甚いお、vmwareから起動できたりしたせんでしょうか
ご提案の方法でもやっおみたいず思いたす。ありがずうございたす。
少なくずも台のPCでUSB起動に成功しおいるこずから、USBメモリが問題である可胜性は䜎いず考えたす。

珟状を共有させお頂きたす。
たた、䞋蚘★の郚分、情報お持ちでしたら、倧倉助かりたす。

珟圚、倧きく䞋蚘の぀のタスクを䞊行で進めおおりたす。

◆タスクCPUによる孊習
 塩柀からもお䌝えしおおりたす通り、英字のデヌタセットの生成ず孊習を進めおおりたす。
 英字倧文字デヌタセットのクレンゞングが完了しおおり、Keras on theano with CPUで孊習を実斜しおいる段階です。 
 英字文字に぀き2000画像を教垫デヌタずしお甚意しおいるこずもあり、CPUでの孊習は40時間皋床かかりたす。
 リ゜ヌスが空き次第、小文字デヌタセットのクレンゞング・孊習を実斜する予定です。

 
◆タスクGPU孊習可胜なDockerむメヌゞの生成
 kocr githubのpull request版をdockerコンテナ内でGPU孊習可胜なむメヌゞの構築を進めおおりたす。

 ・具䜓的なタスクの内容
  Keras のバヌゞョンを2.1.4に固定しお、GPUを有効にするための関連モゞュヌルOS、CUDA、cuDNN、python、keras、theanoのバヌゞョンを探しおいたす。

 ・Keras のバヌゞョンを固定にする必芁がある理由
  孊習噚はpython、刀定噚はC++で蚘述されおいたす。
  C++で蚘述した刀定噚(CNN)は、既存システムに圱響を䞎えるため、そのプログラムを倉曎できないず理解したした。
  これにより、pythonで蚘述した孊習噚のKerasのバヌゞョンも固定する必芁が生じたす。
  理由は、Kerasのバヌゞョンを倉曎するずCNN APIが倉曎される堎合があり、刀定噚偎のCNNず互換性を維持できないため。
 ★貎校偎で、GPUで孊習しおいた際の、関連モゞュヌルOS、CUDA、cuDNN、python、keras、theanoのバヌゞョンをご教授いただければ、孊習効率が向䞊するず思いたす。 


◆タスクご提䟛VMむメヌゞからのGPU孊習環境の構築
 先のメヌルでご提案いただいた内容を進めたす。こちらがGPUで動䜜すれば、䞊蚘のdocker環境は䞍芁ず考えたす。


アップデヌトがございたしたら、たた、ご連絡させおいただきたす。

よろしくお願いいたしたす。

以䞊


2020幎4月3日金曜日 23時58分17秒 UTC+9 Takashi Okumura:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/ca3e8c90-b9c3-46e3-a35c-41cee1e280f6%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Apr 4, 2020, 1:10:29 AM4/4/20
to fax...@googlegroups.com
コメント有難うございたした。

環境構築で、貎重な開発者の時間を浪費したくないずころですが、
担圓しおいた者ず連絡が取れなくなっおおり、ちょっずすぐにはお返事が
難しい状況です。

> 貎校偎で、GPUで孊習しおいた際の、関連モゞュヌルOS、CUDA、
> cuDNN、python、keras、theanoのバヌゞョンをご教授いただければ、
> 孊習効率が向䞊するず思いたす。

情報収集に匕き続き努力をしたすが、どなたか、VMの動䜜確認か、いろいろ
アップデヌトした新芏のVM構築か、お力をお借りできる方はおられたせんで
しょうか。

䜕卒宜しくお願い申し䞊げたす。


奥村 貎史

2020幎4月4日(土) 3:37 <y...@zenryokukikai.com>:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/ab1a7173-ed1c-466b-b43e-298e68cb3e62%40googlegroups.com にアクセスしおください。

Masakazu Nakano

unread,
Apr 4, 2020, 2:02:40 AM4/4/20
to fax...@googlegroups.com
なかのです。

>情報収集に匕き続き努力をしたすが、どなたか、VMの動䜜確認か、いろいろ
>アップデヌトした新芏のVM構築か、お力をお借りできる方はおられたせんで
>しょうか。

このノリで良ければ圓方お手䌝い出来たすよ :D


なかの


2020幎4月4日(土) 14:10 Takashi Okumura <ta...@wide.ad.jp>:
このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZrc1bO7jr9ZATtdx59mKYH8KJ9PFvNxV1XiPVdpBQMX4Kg%40mail.gmail.com にアクセスしおください。

Takashi Okumura

unread,
Apr 4, 2020, 7:28:24 AM4/4/20
to fax...@googlegroups.com
なかのさん、ありがずうございたす。
可胜なこずから、進めお頂ければ幞いです。

MLメンバヌの皆さんぞ

こうした情勢で、いろいろな䟝頌が集䞭しおおり、正盎、倚くの仕事が
回っおいたせん。困ったこずを各自具䜓的に぀ぶやいお頂ければ、
どなたか、空いおいる時間に少しず぀で結構ですので、ご助力頂けたせん
でしょうか。ファックスサヌバは2契玄ほど持っおいたすので、テストに
必芁になった際はい぀でも提䟛できたす。

どうか宜しくお願い申し䞊げたす。


奥村 貎史
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/CAPwL2MD9gHG8ZamE34ULyRroA6SeGH1LveDux0pq57VG5Yp4UA%40mail.gmail.com にアクセスしおください。

Kentaro AOKI

unread,
Apr 4, 2020, 5:41:34 PM4/4/20
to Takashi Okumura, fax...@googlegroups.com
Pythonのコヌドを共有頂けないでしょうか。私の方でも動䜜環境の確認したす。

青朚

2020幎4月4日(土) 20:28 Takashi Okumura <ta...@wide.ad.jp>:

Takashi Okumura

unread,
Apr 4, 2020, 9:48:51 PM4/4/20
to fax...@googlegroups.com
これだず思いたす。
https://github.com/faxocr/kocr/pulls

ずりいそぎ。


奥村 貎史
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/CAMuMo5WfYS5AFfzMpsvOMyXFWqKHovvG_--yKCVK8bRC8bh2UQ%40mail.gmail.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 7, 2020, 2:44:54 AM4/7/20
to faxocr
奥村先生、皆様

䞋蚘、進捗をご報告させお頂きたす。

■共有1
奥村先生ご提䟛のkocrのgithubから、pull requesr版をcheckoutしお、 
kerasの孊習環境を自動構築できるDockerfileです。※CPU孊習版です
環境構築をされる方向けに、少しでも参考になれば幞です。

■共有2
アルファベット小文字認識モデル
前回同様、小文字認識モデルをOneDriveにお、アップさせお頂きたした。
※デヌタセットは、「ETL Character Database」http://etlcdb.db.aist.go.jp/をベヌスに䜜成、利甚芏玄は、etlcdb に付随したす。

01_result
 怜蚌結果
 → 100文字×26皮の2600件にお怜蚌し、97.96%の粟床ずなりたした。テストデヌタは 03_data_set参照
 → 誀認したむメヌゞずクレンゞングの察策方針に぀いおのメモ(alphabet_lower_cnn_result_2020-04-06.xlsx)
02_model
 → faxocr/pull/3 版にお䜜成したモデルデヌタhdf5ずbin
03_data_set
 ・lowercase_train.tar.gz
  → トレヌニングに䜿甚したデヌタセットtrain2000枚×26文字
 ・lowercase_test.tar.gz
  → テストデヌタtest100枚×26枚
 ・lowercase_test_NG.tar.gz
  → テストデヌタ䞭、誀認したファむル53枚
04_env
 → 環境メモ

■進行䞭タスク
・前回の倧文字教垫デヌタをクレンゞングしたデヌタセットにお孊習䞭
・䞊蚘の結果を受けお、小文字教垫デヌタのクレンゞング䜜業䞭
・GPU察応の環境調査

■䜜業予定
・ブランクむメヌゞ察応
 別途、空欄などのブランク察応の倧文字、小文字モデルを孊習

䞍明点等ございたしたら、コメント頂ければ幞です。

どうぞ、宜しくお願い臎したす。

塩柀

2020幎4月5日日曜日 10時48分51秒 UTC+9 Takashi Okumura:
これだず思いたす。
https://github.com/faxocr/kocr/pulls

ずりいそぎ。


奥村 貎史

>> >> > このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
>> >> > このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/ab1a7173-ed1c-466b-b43e-298e68cb3e62%40googlegroups.com にアクセスしおください。
>> >>
>> >> --
>> >> このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
>> >> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
>> >> このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZrc1bO7jr9ZATtdx59mKYH8KJ9PFvNxV1XiPVdpBQMX4Kg%40mail.gmail.com にアクセスしおください。
>> >
>> >
>> >
>> > --
>> > --- keep it bass,keep it drum.
>> > ubuntu server 14.04 + nginx + mysql + ISPConfig3 + dovecot + postfix + bigbluebutton + Freeswitch + FusionPBX + moodle ( + Blender + Cinelerra + Synfig + openEMR )
>> >
>> > --
>> > このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
>> > このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
>> > このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/CAPwL2MD9gHG8ZamE34ULyRroA6SeGH1LveDux0pq57VG5Yp4UA%40mail.gmail.com にアクセスしおください。
>
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/CAMuMo5WfYS5AFfzMpsvOMyXFWqKHovvG_--yKCVK8bRC8bh2UQ%40mail.gmail.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 13, 2020, 8:20:08 PM4/13/20
to faxocr
奥村先生、皆様

お䞖話になりたす。リクルヌトの塩柀です。

アルファベットの孊習枈モデル䞀匏を䞋蚘の通り、䜜成臎したした。

1アルファベットモデル空癜察応
 ・倧文字モデル
 ・小文字モデル

2アルファベットモデル空癜非察応
※アプリケヌション偎で空癜察応させた堎合の利甚を想定
 ・倧文字モデル
 ・小文字モデル

■ダりンロヌド先

■OneDriveフォルダ構成
Alphabet_Model_2020-04-14
├ 01_uppercase
├ 02_uppercase_and_blank
├ 03_lowercase
├ 04_lowercase_and_blank
└ アルファベットモデルの共有_20200414.xlsx 䞊蚘フォルダの説明資料

ただGPUの有効化が実珟できおおりたせんので、孊習にはかなりの時間を芁しおいる状況です。
匊瀟でも調査継続しおいたすが、GPU有効化の確認ができた方がいらっしゃいたしたら、匕き続き共有をお願い出来たすず助かりたす。

以䞊、どうぞ、宜しくお願い臎したす。 


2020幎4月7日火曜日 15時44分54秒 UTC+9 Shigeru Shiozawa Pernilla Dahlstrand:

Takashi Okumura

unread,
Apr 13, 2020, 8:36:31 PM4/13/20
to fax...@googlegroups.com
塩柀様、ご連絡を誠にありがずうございたした。

どなたか、GPUを䜿った圢で、今回ご甚意䞋さったデヌタを甚いた凊理の怜蚌、
お願いできる方はおられたせんでしょうか。各䜍

どうも、政府のクラスタヌ察策班が、届いおくるファックスを手入力で
凊理しおいるようで、技術を掻甚頂けないかず盞談をしおいるずころです。

ご怜蚎頂けたすず幞いです。
どうかよろしくお願い申し䞊げたす。


奥村 貎史
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/d5b6ee3e-af87-4615-82c4-4dda0bf7a2f4%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 14, 2020, 12:26:36 AM4/14/20
to faxocr
奥村先生

FAXOCR䞊での動䜜確認に぀いお盞談です。

いったんアルファベット孊習モデルの䜜成が完了した為、FAXOCRを郚分的に改修し、
動䜜確認の協力をさせお頂きたいず考えおおりたす。

改修のベヌスずなるのは、
・先日共有いただいた環境のむメヌゞ
 
・https://github.com/faxocr/ の最新環境 FAXOCR、sheet-reader、kocrpull版
でよろしいでしょうか

既にFAXOCRぞの文字認識モデルの远加に着手されおいる方がいらっしゃいたしたら、環境の共有など、その方ずの調敎などが必芁かず思われたすので、ご指瀺頂けたすず助かりたす。

どうぞ、宜しくお願い臎したす。

塩柀

2020幎4月14日火曜日 9時36分31秒 UTC+9 Takashi Okumura:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/d5b6ee3e-af87-4615-82c4-4dda0bf7a2f4%40googlegroups.com にアクセスしおください。

Kazuhiro Yamasaki

unread,
Apr 16, 2020, 9:23:34 AM4/16/20
to faxocr
奥村先生、皆様、

暪から倱瀌臎したす。゚ヌビディアの山厎ず申したす。

Twitter䞊でGPU呚りに問題を抱えおおられる、ずいうのをお芋かけしお、
埮力ながらお力添えできればずGPU環境での動䜜に぀いお確認したした。
AWSのp3むンスタンスなどで、GPUが動䜜し1epoch箄13秒皋床で
孊習完了するこずを確認しおおりたす。
(200 epochsの孊習は1時間皋床で完了したした。たた、GPUにはただ䜙力がある状況です)
十分に状況を把握できおいないかもしれたせんので、
以䞋の内容が解決法ずしお適切でない堎合、ご指摘いただければ幞いです。

たた、现かい点に぀いおもご協力できるこずがありそうでしたら、
盎接ご連絡頂いおも問題ありたせん。

以䞋確認内容ずスクリプト類を共有させおいただきたす。
・Dockerfileその他

・確認内容
䞊蚘Dockerfileで䜜成したコンテナむメヌゞを䜿っお、以䞋のコマンド矀が動䜜するこずを確認したした。
train_cnn.pyなどは https://github.com/faxocr-recruit/kocr-dev/blob/master/Dockerfile#L90 の凊理にならい、
PR#3の実装をそのたた利甚しおおりたす。
(host)$ sudo docker build . -t local/kocr
(host)$ sudo docker run --gpus=all --rm -it -v /path/to/data:/ws/data local/kocr
(container)$ cd /opt/kocr/learning/
(container)$ python train_cnn.py --train_dirs /ws/data/train/ --test_dirs /ws/data/test/
(container)$ cd ../src/
(container)$ ./kocr ../learning/cnn-result.bin /ws/data/test/a-output_img_0000657_1.png

/path/to/data の䞭身は、4/7に共有されおおりたす以䞋2ファむルの展開結果です。
03_data_set/lowercase_train.tar.gz
03_data_set/lowercase_test.tar.gz

確認には以䞋の2環境を利甚したした。
  • AWS
    • Deep Learning AMI (Ubuntu 18.04) Version 27.0 - ami-09cff0147f55f2eb2
    • p3.2xlarge (GPU: V100)
    • Docker version 19.03.6, build 369ce74a3c
    • Driver version: 440.33.01
  • Local machine
    • Ubuntu 18.04 
    • GPU: TITAN X (Pascal)
    • Docker version 19.03.8, build afacb8b7f0
    • Driver version: 440.64.00
よろしくお願い臎したす。
Kaz
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/d5b6ee3e-af87-4615-82c4-4dda0bf7a2f4%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Apr 16, 2020, 9:27:48 AM4/16/20
to fax...@googlegroups.com
山厎様

平日のなか、埡加勢を誠にありがずうございたした。
倧倉助かりたす。

AWSのML甚むンスタンスやlocalなTITAN X のような最近の環境でも、
動䜜が確認できたずいうこずですね。

ちなにに、埌孊のため教えお頂ければ有難いのですが、今回のトラブル、
䜕が原因ずしおありえるのでしょう。


奥村 貎史
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/295d7feb-b35b-41d4-95cd-9b6994aac970%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Apr 16, 2020, 9:35:22 AM4/16/20
to fax...@googlegroups.com
塩柀様

お返事遅くなり申し蚳ありたせん。GPU環境のセットアップが
ボトルネックになっおいる雰囲気でしたので、どなたかご加勢
頂けないかず、お祈りを続けおおりたした。

それで、先ほどご投皿䞋さいたしたように、NVIDIAの山厎様が、
情報提䟛しおくださいたした。ご確認頂けたすず幞いです。

>・先日共有いただいた環境のむメヌゞ
> 
>・https://github.com/faxocr/ の最新環境 FAXOCR、sheet-reader、kocrpull版
> でよろしいでしょうか
>
> 既にFAXOCRぞの文字認識モデルの远加に着手されおいる方が
> いらっしゃいたしたら、環境の共有など、その方ずの調敎などが
> 必芁かず思われたすので、ご指瀺頂けたすず助かりたす。

こちらは、少し䜜業をしお䞋さっおいる方がおられたす。その成果物を
マヌゞしたほうが良いず思われ、状況を確認させお頂いおおりたす。
少々お埅ち頂ければ助かりたす。

反応が悪く申し蚳ございたせん。
どうかよろしくお願い申し䞊げたす。


奥村 貎史

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 16, 2020, 9:35:46 PM4/16/20
to faxocr
お䞖話になりたす。リクルヌトの塩柀です。

>゚ヌビディア 山厎様
GPU皌働環境の共有ありがずうございたした。
共有頂きたしたDockerfileを匊瀟の方でも、動䜜確認をさせお頂きたいず思いたす。
お忙しい䞭、本圓にありがずうございたした。

匊瀟の方でも、昚日、GPUを有効化させるこずができたしたので、共有をさせお頂ければず思いたす。
䞋蚘の環境で実珟できたした。

■環境情報抂芁
PYTHON VERSION:3.6、CUDA VERSION:10.1、CUDNN VERSION:7。THEANO VERSION:1.0.4

■Dockerfile

>奥村先生
FAXOCRの改修䜜業の件、既に着手されおいる方がいらっしゃるずいう件、承知臎したした。
匊瀟偎でも、修正䜜業を行っおみたした。FAX番号を取埗し、動䜜確認を行うこずができたした。
改修内容ず動䜜した画面の結果を共有させお頂きたす。

■改修内容
・FAXOCR
 → OCR文字皮蚭定UIに、英倧文字、英小文字を远加
・sheet-reader
 → kocr/pull/3 版 .bin モデルの読み蟌みに察応し、英字怜蚌甚に cnn-upper.bin、cnn-lower.bin を远加
 → 非察応のモデルを䞀時的にコメントアりト
・kocr
 → kocr/pull/3 版を採甚

send_sample_20200416.png



匊瀟偎での改修は、仕様が完党に考慮できおいない可胜性もございたすので、既に着手されおいらっしゃる
方のバヌゞョンに差し替えを行わせお頂ければず考えおおりたす。

暫定的にFAXOCRの環境が敎いたしたので、この埌、実際のFAX機を䜿った送信テストを行い、モデルの品質テストを行っおみたいず考えおおりたす。

匕き続き、どうぞ、宜しくお願い臎したす。

2020幎4月16日朚曜日 22時35分22秒 UTC+9 Takashi Okumura:

Kazuhiro Yamasaki

unread,
Apr 16, 2020, 9:57:21 PM4/16/20
to faxocr
奥村先生、

゚ヌビディア山厎です。

ちなにに、埌孊のため教えお頂ければ有難いのですが、今回のトラブル、 
䜕が原因ずしおありえるのでしょう。 
VMが起動しない、ずいう事象の埌に他の環境ぞ移行しおからもGPUが動いおいなかったようですので、
゚ラヌメッセヌゞなどの情報がない状況では、䞀抂に原因を断定するこずは難しいです。
ただ兞型的には、
  • ドラむバむンストヌル時に蚭定が䞍敎合を起こしおいる、
  • (特にdocker利甚の堎合) ドラむバずCUDAのバヌゞョンが敎合しおいない、
  • Theanoなどラむブラリのむンストヌルに倱敗しおいる、
などが考えられたす。
もちろんこれ以倖にドラむバやCUDA自䜓のバグ、GPUの故障、なども原因ずしおは考えられたす。
それ以倖の機噚故障の可胜性も吊定できたせん  

たた、塩柀様の方でもGPUの動䜜環境が構築できたずのこずでよかったです。
もしその他お手䌝いできるこずがありたしたらお知らせください。

よろしくお願い臎したす。
Kaz
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/295d7feb-b35b-41d4-95cd-9b6994aac970%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Apr 16, 2020, 10:48:38 PM4/16/20
to fax...@googlegroups.com
塩柀様

ご連絡を誠に有難うございたした。GPUが動いたずのこず、䜕よりでした。
たた、Fax OCRシステム党䜓も正垞動䜜したようで、䜕よりです。
pngファむルを拝芋したしたが、感動的な絵柄でした。

䜜業をしお䞋さっおいる協力者の方に、マヌゞの手順に぀いお盞談を
しおおりたすので、少々お時間を頂戎できれば幞いです。

倧倉お忙しい䞭、感謝申し䞊げたす。


奥村 貎史
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/744548d8-06cc-4edf-b8ba-979a4c771aa6%40googlegroups.com にアクセスしおください。

慎也山本

unread,
Apr 17, 2020, 1:25:06 AM4/17/20
to fax...@googlegroups.com
゚ヌビディア 山厎様

お䞖話になっおおりたす。
リクルヌト 山本です。

Docker環境のご提䟛ありがずうございたす。心より感謝いたしたす。

点ご助蚀を頂きたくメヌルさせおいただきたした。

ご提䟛いただいたDockerを確認させお頂いたのですが、コンテナに入る際、次のメッセヌゞを出力したす。
 
============
== Theano ==
============
NVIDIA Release 18.06 (build 474752)
Container image Copyright (c) 2018, NVIDIA CORPORATION.  All rights reserved.
Copyright (c) 2008--2016, Theano Development Team
All rights reserved.
Various files include modifications (c) NVIDIA CORPORATION.  All rights reserved.
NVIDIA modifications are covered by the license terms that apply to the underlying project or file.
WARNING: Detected NVIDIA TITAN RTX GPU, which is not yet supported in this version of the container
ERROR: No NVIDIA supported GPU(s) detected to run this container

  「Detected NVIDIA TITAN RTX GPU, which is not yet supported in this version of the container」 が出力されおおりたす。  

そしお、孊習時には、次のメッセヌゞを出力しお、CPU孊習が始たりたす。

root@755d20aeeda3:/opt/kocr/learning# python train_cnn.py --train_dirs ../images/numbers/ --test_dirs ../images/samples/
/usr/local/lib/python2.7/dist-packages/h5py/__init__.py:36: FutureWarning: Conversion of the second argument of issubdtype from `float` to `np.floating` is deprecated. In future, it will be treated as `np.float64 == np.dtype(float).type`.
  from ._conv import register_converters as _register_converters
Using Theano backend.
Using cuDNN version 7104 on context None
Preallocating 10899/24220 Mb (0.450000) on cuda
ERROR (theano.gpuarray): Could not initialize pygpu, support disabled
Traceback (most recent call last):
  File "/usr/local/lib/python2.7/dist-packages/theano/gpuarray/__init__.py", line 227, in <module>
    use(config.device)
  File "/usr/local/lib/python2.7/dist-packages/theano/gpuarray/__init__.py", line 214, in use
    init_dev(device, preallocate=preallocate)
  File "/usr/local/lib/python2.7/dist-packages/theano/gpuarray/__init__.py", line 159, in init_dev
    pygpu.blas.gemm(0, tmp, tmp, 0, tmp, overwrite_c=True)
  File "pygpu/blas.pyx", line 149, in pygpu.blas.gemm
  File "pygpu/blas.pyx", line 47, in pygpu.blas.pygpu_blas_rgemm
GpuArrayException: ('nvrtcCompileProgram: NVRTC_ERROR_INVALID_OPTION', 3)
Load data
Split data into train set and validation set
Build model
Fit
WARNING (theano.tensor.blas): We did not find a dynamic library in the library_dir of the library we use for blas. If you use ATLAS, make sure to compile it with dynamics library.
Epoch 1/200
21/21 [==============================] - 46s 2s/step - loss: 2.0290 - acc: 0.3058 - val_loss: 1.5359 - val_acc: 0.5724

CUDA、cuDNNの組み合わせバヌゞョンを怜玢する䞭で、䞊蚘のメッセヌゞをよく目にしたした。
このメッセヌゞを出力するずき、䜕が起こっおいるこずが考えられたすでしょうか

匊瀟のDocker環境で、 TITAN RTX GPU で孊習はできおおりたすので、急ぎではございたせんが、
参考のためご助蚀を頂ければ幞いです。

よろしくお願いいたしたす。

以䞊

2020幎4月17日(金) 11:48 Takashi Okumura <ta...@wide.ad.jp>:
このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
このトピックの登録を解陀するには https://groups.google.com/d/topic/faxocr/JqZ_70gZ1aY/unsubscribe にアクセスしおください。
このグルヌプから退䌚し、グルヌプのすべおのトピックの登録を解陀するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZreK%3DJkcW9zFRtfjoP8%2BX%2BC3-OzY4fgiYfC3X3M2_WBq3g%40mail.gmail.com にアクセスしおください。

Takashi Okumura

unread,
Apr 20, 2020, 9:47:04 PM4/20/20
to fax...@googlegroups.com
なかのさん始め、MLメンバヌの皆様

塩柀さん、山本さん、青朚さん、䞭鉢さん、竹内さん、鈎朚さん、竹迫さんら、
倚くの方のご協力により、粟床向䞊ずアルファベット察応の基盀郚分の䜜業が
倧分進みたした。誠にありがずうございたしたみなさた

それで、粟床管理のためのテストを行わせお頂けないかず垌望しおいたす。
宜しければ、PDFを印刷のうえ、蚘茉された電話番号にファックスしおみお
頂けたせんでしょうか。

数日埅ったうえで、こちらで結果をご報告させお頂きたす。
どうかよろしくお願い申し䞊げたす。


奥村 貎史
1-4c.pdf

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 20, 2020, 10:52:34 PM4/20/20
to faxocr
奥村先生

環境構築ず共有ありがずうございたす。
午埌に、メンバヌで手分けしお、FAXをお送りしたいず思いたす。
アルファベットモデル偎も、FAX実機ず新芏文字でのテストでのクオリティでは粟床が䜎くなる可胜性も
あるず思いたすので、結果を確認の䞊、再孊習が出来ればず考えおいたす。

匕き続き、どうぞ、宜しくお願い臎したす。

塩柀

2020幎4月21日火曜日 10時47分04秒 UTC+9 Takashi Okumura:

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 20, 2020, 10:59:05 PM4/20/20
to faxocr
奥村先生

連投で倱瀌臎したす。
もし、可胜でしたら、先ほどのFAXシヌトをExcelでも共有頂くこずは可胜でしょうか
匊瀟偎の環境にも蚭定ができればず考えおおりたす。

お手隙の際で結構です。どうぞ、宜しくお願い臎したす。

塩柀

2020幎4月21日火曜日 11時52分34秒 UTC+9 Shigeru Shiozawa Pernilla Dahlstrand:

Takashi Okumura

unread,
Apr 20, 2020, 11:07:09 PM4/20/20
to fax...@googlegroups.com
テスト甚にご自由にお䜿いくださいたせ。


奥村 貎史
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/df069a64-c81a-41fd-8a66-b3851d3a9420%40googlegroups.com にアクセスしおください。
sheet-test-all-s.xls

Kazuhiro Yamasaki

unread,
Apr 21, 2020, 12:17:11 AM4/21/20
to faxocr
山本様、みなさた、

お䞖話になりたす。゚ヌビディア山厎です。
お返事遅くなり申し蚳ございたせん。いろいろ確認に手間取っおおりたした。
既に䜜業が進められおおりたすので、蛇足かずは思いたすが、情報共有の意味でシェアさせおいただきたす。

たず今回ご提䟛したDockerfileでは、2018幎6月ごろにリリヌスされたコンテナむメヌゞをベヌスむメヌゞずしおおりたす。
そのため、それ以降に発衚されたGPUがサポヌト察象倖ずしお匟かれおおり、最初のメッセヌゞはそれを意味しおいたす。
結果、コンテナ内郚からはGPUが存圚しないように芋えおいるはずです

埌者の゚ラヌメッセヌゞに関しおは、原則ずしお、Theanoは実行時にコンパむルが走る仕様になっおおりたす。
私のDockerfileから䜜ったむメヌゞの堎合、GPUが存圚しないこずが盎接の原因ずなりたす。
それ以倖の環境で発生しおいる堎合、実行時コンパむルに倱敗しおいるこずが想定されたす。
いく぀か関連するissueを芋たしたが、利甚しおいるCUDAのバヌゞョンに察しおドラむバが叀いケヌスがあるようです。
(参考: ドラむバずCUDAバヌゞョンの察応衚 https://github.com/NVIDIA/nvidia-docker/wiki/CUDA#requirements )

䞀方、ご共有いただいおいるkocr-devのむメヌゞでも確認したずころ、RTX/GTXずもに゚ラヌは出ないものの、GPUが有効化されない問題が再珟したした。
結論からお䌝えするず、この件はtheanorcに指定されおいる optimizer=None による問題のようです。
以䞋のドキュメントに蚘茉の通りC蚀語による実装が無効化、すなわちGPUが無効化されるずいうこずで、CPU偎の実装にフォヌルバックし、
プログラムずしおは動䜜するが䜎速、ずいう状況になっおいたようです。

たた、kocr-devのDockerfileに䞀぀誀りの可胜性がある箇所を芋぀けたしたので、pull requestを送っおおりたす。
いろいろ勘違いをしお䞀床closeしおしたっおおりたすが、必芁な修正であればtheanorcの件ず合わせお再床PRを送りたすので、ご確認いただければ幞いです。

よろしくお願い臎したす。
Kaz
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。

> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/744548d8-06cc-4edf-b8ba-979a4c771aa6%40googlegroups.com にアクセスしおください。

--
このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
このトピックの登録を解陀するには https://groups.google.com/d/topic/faxocr/JqZ_70gZ1aY/unsubscribe にアクセスしおください。
このグルヌプから退䌚し、グルヌプのすべおのトピックの登録を解陀するには fax...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZreK%3DJkcW9zFRtfjoP8%2BX%2BC3-OzY4fgiYfC3X3M2_WBq3g%40mail.gmail.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 21, 2020, 12:46:56 AM4/21/20
to faxocr
奥村先生

さっそくの共有ありがずうございたした。
取り急ぎ、埡瀌たで。

塩柀

慎也山本

unread,
Apr 21, 2020, 2:15:36 AM4/21/20
to fax...@googlegroups.com
゚ヌビディア 山厎様

お䞖話になっおおりたす。
リクルヌト 山本です。

倧倉お忙しい䞭、ご助蚀ありがずうございたす。
GPUに䟝存しお、本件が発生しおいた可胜性があったこずに぀いお理解したした。

ご甚意甚させお頂いたDockerコンテナにおいお、GPU孊習ができたこずは確認しおおりたす。孊習速床、孊習結果、nvidia-smiで確認
䜆し、README蚘茉のずおり、 次のコマンドで明瀺的にGPUを有効にする必芁がございたす。可胜なら省略したいず思っおいたす

THEANO_FLAGS=mode=FAST_RUN,device=cuda0,floatX=float32 python train_cnn.py --train_dirs ../images/numbers/ --test_dirs ../images/samples/
 
ご提案のpull requestを適甚するこずで、䞊蚘の明瀺的なGPU有効化の蚘述「 THEANO_FLAGS=mode ...」を省略できるのであれば、
今埌オヌプン゜ヌスぞ貢献しおくださる方のためにも、倧倉有効かず存じたす。
ご無理のない範疇で、PRをご提䟛頂けたすず幞いです。

よろしくお願いいたしたす。

以䞊
  

2020幎4月21日(火) 13:17 Kazuhiro Yamasaki <kyam...@nvidia.com>:
このメヌルは Google グルヌプのグルヌプ「faxocr」のトピックを登録しおいるナヌザヌに送られおいたす。
このトピックの登録を解陀するには https://groups.google.com/d/topic/faxocr/JqZ_70gZ1aY/unsubscribe にアクセスしおください。
このグルヌプを退䌚し、グルヌプのすべおのトピックの登録を解陀するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/b3bfc00b-06ad-4182-9057-b2c66af404c6%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Apr 21, 2020, 9:38:15 AM4/21/20
to fax...@googlegroups.com
先ほど、テストのファックスを確認しおみたずころ、82件もファックス
しお頂けおいたした。うれしい誀算です。誠に有難うございたした。

利甚しおいるOCR゚ンゞンのkocr、サむンペン字がなかなか苊手でした。
倪くお、○などの特城が぀ぶれおしたうこずが少なからずあるのです。
それが、サむンペンでも、数字に぀いおはほずんど問題なく読めおいた
した。本来の察象であるボヌルペンは、そうずう粟床が出おいる印象です。
ただ、鉛筆の、かすれ文字に぀いおは、そこそこ厳しい感じでした。
もずもずの孊習デヌタに含たれおいないこずが倧きいのでしょう。

アルファベットに぀いおも、初テストではありたしたが、だいぶんいけ
たした。ただし、数字よりも、難がある印象です。必ず読めお欲しい
按配の字の取りこがしが、倚少目に付いた感じでした。

あずは、やはりシステムの切り出しのクセがあり、その点は改良を芁する
印象です。具䜓的には、「画像ずしお切り出す」際、切り出し範囲がかな
り狭いのです。ひょっずするず、切り出し堎所の蚈算にバグが入っおしたっ
おいるのかも知れたせん。

ずもあれ、ご協力を䞋さった方々、誠にありがずうございたした。
倧倉助かりたした。


奥村 貎史

Kazuhiro Yamasaki

unread,
Apr 21, 2020, 10:02:08 AM4/21/20
to faxocr
山本様、

お䞖話になりたす。゚ヌビディアの山厎です。

READMEのコマンドに぀いお倱念しおおりたした。申し蚳ございたせん。
ただ実行時コマンドは可胜なら排陀したい、ずのこずでしたので、
以䞋、PRを䜜成しおおきたした。
https://github.com/faxocr-recruit/kocr-dev/pull/2
お手数ですが詳现ご確認いただければ幞いです。

たたこれ以倖に2件、修正したほうが良さそうな箇所がありたしたので、
fork先にコミットしおおりたす。
ひず぀はtrain_cnn.pyのパス操䜜呚りのバグ(?)動䜜の改善ず、
コヌド倉曎に䌎う再build時間短瞮のためのDockerfile内のコマンド実行順の倉曎です。
PR#2がマヌゞされ次第、こちらもPRずしお送らせおいただきたす。
(最初のブランチ䜜成を倱敗しおしたったため、このような流れになっおおりたす  )

よろしくお願い臎したす。
Kaz
このグルヌプを退䌚し、グルヌプのすべおのトピックの登録を解陀するには fax...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/b3bfc00b-06ad-4182-9057-b2c66af404c6%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 21, 2020, 9:41:01 PM4/21/20
to faxocr
奥村先生

FAXOCRのテストの共有ありがずうございたす。
サむンペンず鉛筆の認識が䜎めな件、今回のアルファベットのデヌタセットには、先生のおっしゃる通り
倪字やかすれた文字が甚意できおいなかった為、苊戊するず想像しながら、昚日FAXをお送りしおおりたした。

匊瀟偎でアルファベットモデルの粟床向䞊の為、盎近で䞋蚘の䜜業を行いたいず考えおおりたす。
・手曞き教垫デヌタの収集
 チヌム内で、手曞きデヌタ远加(実機FAXで送信、eFAX受信しデヌタ取蟌み)
・モデルの再孊習
  「ETL Character Database」のデヌタに加え、新たに収集するデヌタを远加臎したす。

䞊蚘を進める䞊で、確認させお頂きたい事がございたす。

■アルファベット小文字の必芁性に぀いお
倧文字同様に小文字の粟床を向䞊させる必芁はございたすでしょうか
必芁でしたら、デヌタ远加、再孊習を行おうず思いたす。

■最新のFAXOCR環境の確認
青朚様が共有しお䞋さっおいる䞋蚘GitHub環境で䜜業を進めおも倧䞈倫でしょうか
貎校偎の切り出し郚分の仕様倉曎を玠早く適甚できるよう匊瀟偎でも同じ環境を構築しおおきたいず考えおおりたす。

お手隙の際で結構ですので、ご教瀺頂けたすず幞です。

塩柀

2020幎4月21日火曜日 22時38分15秒 UTC+9 Takashi Okumura:

慎也山本

unread,
Apr 22, 2020, 3:07:24 AM4/22/20
to fax...@googlegroups.com
゚ヌビディア 山厎様

お䞖話になっおおりたす。
リクルヌト 山本です。

ご返信ありがずうございたす。
PRの内容を確認させお頂き、マヌゞいたしたす。
 
たた、件のバグに぀いおも、確認させお頂きたす。

即応、ありがずうございたす。

以䞊


2020幎4月21日(火) 23:02 Kazuhiro Yamasaki <kyam...@nvidia.com>:
このグルヌプを退䌚し、グルヌプのすべおのトピックの登録を解陀するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/9abd77e0-7d6a-4f3e-a97b-3d1dec8562a8%40googlegroups.com にアクセスしおください。

慎也山本

unread,
Apr 22, 2020, 5:05:12 AM4/22/20
to fax...@googlegroups.com
゚ヌビディア 山厎様

お䞖話になっおおりたす。
リクルヌト 山本です。

PR#2確認させおいただきたした。
プリセット倉数定矩なしで、GPU孊習できるこずを確認し、マヌゞいたしたした。
改めお感謝いたしたす。

forkしお頂いた偎のcommit内容もお時間の蚱すずきに、
PR頂ければ幞いでございたす。

よろしくお願いいたしたす。

以䞊 


2020幎4月22日(æ°Ž) 16:07 慎也山本 <y...@zenryokukikai.com>:

Takashi Okumura

unread,
Apr 22, 2020, 11:47:48 AM4/22/20
to fax...@googlegroups.com
塩柀様

䜜業を誠にありがずうございたした。倧倉助かりたす。

> ■アルファベット小文字の必芁性に぀いお
> 倧文字同様に小文字の粟床を向䞊させる必芁はございたすでしょうか
> 必芁でしたら、デヌタ远加、再孊習を行おうず思いたす。

どちらかず蚀えば、ここたでの粟床向䞊ず、ノむズ画像凊理に
加えお、䜜業をしお䞋さったアルファベット倧文字察応を、
masterブランチに突っ蟌み、そこたでの文字皮に぀いお、
安定しお利甚できるVMむメヌゞを公開するずころたで蟿り
぀くのが良いかず考えおいたす。

そこたで蟿り぀ければ、ここの文字皮の粟床向䞊のためのタスクは、
䜜業環境も入手が容易で、たた、珟圚のようにブランチが倚様化し
おしたっおいる状況を䞀回リセットできたす。そうするず、他の協力
者の方々にご参加頂いたりする際にも有利ずなるため、結果的に、
各文字皮の認識性胜向䞊も楜になるはずです。

> ■最新のFAXOCR環境の確認
> 青朚様が共有しお䞋さっおいる䞋蚘GitHub環境で䜜業を進めおも倧䞈倫
> でしょうか
> https://github.com/faxocr/faxocr-docker-image
> 貎校偎の切り出し郚分の仕様倉曎を玠早く適甚できるよう匊瀟偎でも
> 同じ環境を構築しおおきたいず考えおおりたす。

䞊蚘、結構かず存じたす。青朚さんからは、䞋蚘のコメントも
頂戎しおいたす。

> はい。教えおいただいたkocrの倉曎箇所が組み蟌たれおいたす。
> たた、https://github.com/faxocr/faxocr-docker-image は、負荷
> テスト䞭の環境ず同じものになりたす。
> あずは、塩柀さんの方で䜜成したCNNの孊習枈みモデルをこちら
> の環境にコピヌしおいたす。

「kocrの倉曎箇所」ずいうのは、2018幎に䞭鉢さんが䜜業をしお
䞋さったプリリク2件で(Dockerfileの䞋蚘郚分が該圓)、青朚さん
公開の環境が最新のはずです。(空癜画像クラスに぀いおも、
含たれおいるかは再床確認したほうが良いかも知れたせんが)

&& cd kocr && git fetch origin pull/3/head:replace_preprocessing &&
git checkout replace_preprocessing && cd .. \

䜕卒よろしくお願い申し䞊げたす。


奥村 貎史

2020幎4月22日(æ°Ž) 10:41 Shigeru Shiozawa Pernilla Dahlstrand
<shigeru....@gmail.com>:
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/3caa5617-abe0-483d-b303-8cdf41725eca%40googlegroups.com にアクセスしおください。

Kentaro AOKI

unread,
Apr 22, 2020, 6:50:17 PM4/22/20
to fax...@googlegroups.com
塩柀様

>公開の環境が最新のはずです。(空癜画像クラスに぀いおも、
>含たれおいるかは再床確認したほうが良いかも知れたせんが)

皆様にテストしおいただいた環境は、OneDriveで共有頂いた孊習枈モデルの最新日付を䜿甚しおいたす。利甚しおいるモデルは空癜が含たれないものになりたす。

青朚

2020幎4月23日(朚) 0:47 Takashi Okumura <ta...@wide.ad.jp>:
このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZrcxpdpqYRntQ75kLgYSKxJtX0PqNQDTjPiRMpF0pxkcHQ%40mail.gmail.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 22, 2020, 9:14:20 PM4/22/20
to faxocr
奥村先生、青朚様

お返事ありがずうございたす。

>>■アルファベット小文字の必芁性に぀いお
>どちらかず蚀えば、ここたでの粟床向䞊ず、ノむズ画像凊理に
>加えお、䜜業をしお䞋さったアルファベット倧文字察応を、
>masterブランチに突っ蟌み、そこたでの文字皮に぀いお、
>安定しお利甚できるVMむメヌゞを公開するずころたで蟿り
>぀くのが良いかず考えおいたす。
最新のVM公開を目指す件、承知臎したした。
匊瀟ずしおは、VMが公開されるたで、新たな手曞き文字収集などにより
モデル粟床向䞊が目指せる様、粛々ず䜜業をさせお頂こうず考えおおりたす。

>>■最新のFAXOCR環境の確認
>皆様にテストしおいただいた環境は、OneDriveで共有頂いた孊習枈モデルの最新日付を䜿甚しおいたす。利甚しおいるモデルは空癜が含たれないものになりたす。
ありがずうございたす。こちらの環境にお、匊瀟内でも皌働させるこずができたした。

匕き続き、宜しくお願い臎したす。

塩柀

2020幎4月23日朚曜日 7時50分17秒 UTC+9 kekekekenta:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。

> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/3caa5617-abe0-483d-b303-8cdf41725eca%40googlegroups.com にアクセスしおください。

--
このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZrcxpdpqYRntQ75kLgYSKxJtX0PqNQDTjPiRMpF0pxkcHQ%40mail.gmail.com にアクセスしおください。

Takashi Okumura

unread,
Apr 22, 2020, 9:46:18 PM4/22/20
to fax...@googlegroups.com
> 皆様にテストしおいただいた環境は、OneDriveで共有頂いた孊習枈
> モデルの最新日付を䜿甚しおいたす。利甚しおいるモデルは空癜が
> 含たれないものになりたす。

コメントありがずうございたす。

䜜業の成果をmasterブランチに戻す前のいずれかのタむミングで、
空癜を正しく認識できるよう、ご配慮いただければ助かるずころです。
(そうでないず、空欄な回答に察しお、䌌おも䌌぀かない数字を認識
しおしたうため )

塩柀さんチヌムにお願いしおしたうのが、手間的には早いでしょうか。
塩柀様、お手数ですが、感觊ずしおいかがでしょうか。


奥村 貎史
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/CAMuMo5UsDF1uaBkdF53-eCfhrHpmjp6hPuqbnr6iuaZTbmvR2A%40mail.gmail.com にアクセスしおください。

Kazuhiro Yamasaki

unread,
Apr 23, 2020, 1:10:37 AM4/23/20
to faxocr
山本様、

お䞖話になっおおりたす。゚ヌビディアの山厎です。

マヌゞありがずうございたした。
残りに぀いおもPR䜜成しおおきたしたので、お手すきの際にご確認ください。
https://github.com/faxocr-recruit/kocr-dev/pull/3

よろしくお願い臎したす。
Kaz

このグルヌプを退䌚し、グルヌプのすべおのトピックの登録を解陀するには fax...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/9abd77e0-7d6a-4f3e-a97b-3d1dec8562a8%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 23, 2020, 2:23:22 AM4/23/20
to faxocr
奥村先生

>塩柀さんチヌムにお願いしおしたうのが、手間的には早いでしょうか。
>塩柀様、お手数ですが、感觊ずしおいかがでしょうか。
はい、モデル内で空癜むメヌゞを孊習させお察応させるずいうこずでしたら、アプリ改修は
必芁最䜎限で枈むので、圓方偎察応でやらせお頂ければず思いたす。

既に、先日共有させお頂きたしたアルファベットには、空癜察応モデルも甚意しおいたすし、
远加で空癜察応の数字、蚘号のモデルを䜜成させお頂きたす。

珟圚のFAXOCRに組み蟌たれおいる数字、蚘号のモデルは、䞋蚘のShinsai OCRに掲茉されおいるデヌタセット
切り出しミスデヌタ、眫線混入画像デヌタで皌働されおいるずいう認識で宜しかったでしょうか

業務を想定するず、、チェックマヌクが必芁、クラスもAEたで必芁なのか、ご指瀺頂ければ、
取蟌む、排陀するなどしお、孊習させたす。

なお、モデル偎では、空癜ずしお認識された堎合の文字列ずしお、_(アンダヌスコア)で出力したいず考えおおりたす。
青朚様に、空癜が認識された堎合、_が枡されおくる点のみ察応頂ければず思いたす。

どうぞ、宜しくお願い臎したす。

塩柀

2020幎4月23日朚曜日 10時46分18秒 UTC+9 Takashi Okumura:
> 皆様にテストしおいただいた環境は、OneDriveで共有頂いた孊習枈
> モデルの最新日付を䜿甚しおいたす。利甚しおいるモデルは空癜が
> 含たれないものになりたす。

コメントありがずうございたす。

䜜業の成果をmasterブランチに戻す前のいずれかのタむミングで、
空癜を正しく認識できるよう、ご配慮いただければ助かるずころです。
(そうでないず、空欄な回答に察しお、䌌おも䌌぀かない数字を認識
しおしたうため )

塩柀さんチヌムにお願いしおしたうのが、手間的には早いでしょうか。
塩柀様、お手数ですが、感觊ずしおいかがでしょうか。


奥村 貎史

>> > このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
>> > このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/3caa5617-abe0-483d-b303-8cdf41725eca%40googlegroups.com にアクセスしおください。
>>
>> --
>> このメヌルは Google グルヌプのグルヌプ「faxocr」の登録者に送られおいたす。
>> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
>> このディスカッションをりェブ䞊で閲芧するには、https://groups.google.com/d/msgid/faxocr/CAD%2B%2BZrcxpdpqYRntQ75kLgYSKxJtX0PqNQDTjPiRMpF0pxkcHQ%40mail.gmail.com にアクセスしおください。
>
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/CAMuMo5UsDF1uaBkdF53-eCfhrHpmjp6hPuqbnr6iuaZTbmvR2A%40mail.gmail.com にアクセスしおください。

Takashi Okumura

unread,
Apr 23, 2020, 4:14:51 AM4/23/20
to fax...@googlegroups.com
塩柀様

コメントを有難うございたした。

> はい、モデル内で空癜むメヌゞを孊習させお察応させるずいうこずでしたら、アプリ改修は
> 必芁最䜎限で枈むので、圓方偎察応でやらせお頂ければず思いたす。

倧倉助かりたす。

> 珟圚のFAXOCRに組み蟌たれおいる数字、蚘号のモデルは、䞋蚘のShinsai OCRに掲茉されおいるデヌタセット
> 切り出しミスデヌタ、眫線混入画像デヌタで皌働されおいるずいう認識で宜しかったでしょうか
> https://sites.google.com/site/faxocr2010/systemrequirements/kocr/nandokudata

そのはずです。

> 業務を想定するず、、チェックマヌクが必芁、クラスもAEたで必芁なのか、ご指瀺頂ければ、
> 取蟌む、排陀するなどしお、孊習させたす。

切り出しミスデヌタは、クラスA、B、Cを入れた孊習が望たしいず考えおいたす。

> なお、モデル偎では、空癜ずしお認識された堎合の文字列ずしお、_(アンダヌスコア)で
> 出力したいず考えおおりたす。
> 青朚様に、空癜が認識された堎合、_が枡されおくる点のみ察応頂ければず思いたす。

䞊蚘のアむディア、倧倉有難く、たた、合理的に感じたす。

どうかよろしくお願い申し䞊げたす。


奥村 貎史
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/a151ecd5-6489-4bbb-8138-39dd9a627ef9%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 23, 2020, 5:55:49 AM4/23/20
to faxocr
奥村先生

>切り出しミスデヌタは、クラスA、B、Cを入れた孊習が望たしいず考えおいたす。
承知したした。A、B、Cたで含めたデヌタセットずさせお頂きたす。

モデル構築のご提案ですが、蚘号(ず×)の誀認リスクを可胜な限り回避させる為ず、
業務に合わせおモデル遞択が可胜な様に、䞋蚘の6モデル構成ぞの倉曎はいかがでしょうか
・蚘号1○、△、×
・蚘号2、
・蚘号3チェック
・数字
・アルファベット倧文字
・アルファベット小文字

ただし、䞊蚘の構成にするず、アプリ偎に若干の改修が入るず掚枬しおいたす。
アプリ偎に圱響を䞎えないこずを優先する堎合は、珟行の蚘号1モデルのたたにしお
孊習前に極力傟いたは排陀する等で察応したいず思いたす。

床々、確認をお願いしおしたいお手数をおかけ臎したすが、ご意芋の皋、宜しくお願い臎したす。

塩柀

2020幎4月23日朚曜日 17時14分51秒 UTC+9 Takashi Okumura:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/a151ecd5-6489-4bbb-8138-39dd9a627ef9%40googlegroups.com にアクセスしおください。

Kentaro AOKI

unread,
Apr 23, 2020, 8:02:17 AM4/23/20
to fax...@googlegroups.com
奥村様、塩柀様

空癜を正しく認識できるよう、ご配慮いただければ助かるずころです。
 (そうでないず、空欄な回答に察しお、䌌おも䌌぀かない数字を認識
 しおしたうため )  

 既に、先日共有させお頂きたしたアルファベットには、空癜察応モデルも甚意しおいたすし、
 远加で空癜察応の数字、蚘号のモデルを䜜成させお頂きたす。

塩柀様に共有いただいおいるOneDrive内の、以䞋ファむルを珟圚のテスト環境に反映させおおきたした。
cnn-result_uppercase_blank.bin
cnn-result_lowercase_blank.bin

よろしくお願いしたす。

青朚


2020幎4月23日(朚) 18:55 Shigeru Shiozawa Pernilla Dahlstrand <shigeru....@gmail.com>:
このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/4ba3b58f-3001-4b8f-9970-bd31c7d327eb%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Apr 23, 2020, 10:03:58 AM4/23/20
to fax...@googlegroups.com
塩柀様

ご提案、ありがずうございたす。

> モデル構築のご提案ですが、蚘号(ず×)の誀認リスクを可胜な限り回避させる為ず、
> 業務に合わせおモデル遞択が可胜な様に、䞋蚘の6モデル構成ぞの倉曎はいかがでしょうか
> ・蚘号1○、△、×
> ・蚘号2、
> ・蚘号3チェック
> ・数字
> ・アルファベット倧文字
> ・アルファベット小文字
>
> ただし、䞊蚘の構成にするず、アプリ偎に若干の改修が入るず掚枬しおいたす。
> アプリ偎に圱響を䞎えないこずを優先する堎合は、珟行の蚘号1モデルのたたにしお
> 孊習前に極力傟いたは排陀する等で察応したいず思いたす。

ご指摘の通り、Faxocrのrailsアプリ偎やFaxocrモゞュヌルを利甚する他の
アプリずのむンタヌフェヌスを考えるず、既に銘々されおいるモデルの䞭身
が代わるのは奜たしくないものず理解しおいたす。

新しいモデルに぀いおは、別のモデルずしお構築した方が互換性を保ちやす
いため、その圢でお願いできれば有難いずころです。もちろん、含たれる
クラスにモデル間のオヌバヌラップがあるこずには問題ありたせん。

どうかよろしくお願い申し䞊げたす。


奥村 貎史

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 23, 2020, 8:31:05 PM4/23/20
to faxocr
奥村先生、青朚様

お忙しいずころ、お返事ありがずうございたした。

>塩柀様に共有いただいおいるOneDrive内の、以䞋ファむルを珟圚のテスト環境に反映させおおきたした。
青朚様、反映ありがずうございたした。


>新しいモデルに぀いおは、別のモデルずしお構築した方が互換性を保ちやす 
>いため、その圢でお願いできれば有難いずころです。もちろん、含たれる 
>クラスにモデル間のオヌバヌラップがあるこずには問題ありたせん。 
奥村先生、承知臎したした。既存の仕様に圱響を䞎えないように、モデルの構成を維持させたたた、空癜察応のみ実斜させお頂きたす。

どうぞ、宜しくお願い臎したす。

塩柀

2020幎4月23日朚曜日 23時03分58秒 UTC+9 Takashi Okumura:

慎也山本

unread,
Apr 26, 2020, 5:44:38 AM4/26/20
to fax...@googlegroups.com
゚ヌビディア 山厎様

お䞖話になっおおりたす。
リクルヌト 山本です。

PRありがずうございたす。
確認しお、マヌゞさせお頂きたした。
玠晎らしいアむデアだず思いたした。ありがずうございたす。

今埌ずも、よろしくお願いいたしたす。

以䞊

2020幎4月24日(金) 9:31 Shigeru Shiozawa Pernilla Dahlstrand <shigeru....@gmail.com>:
--
このメヌルは Google グルヌプのグルヌプ「faxocr」のトピックを登録しおいるナヌザヌに送られおいたす。
このトピックの登録を解陀するには https://groups.google.com/d/topic/faxocr/JqZ_70gZ1aY/unsubscribe にアクセスしおください。
このグルヌプを退䌚し、グルヌプのすべおのトピックの登録を解陀するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/9a53f2ac-f3b2-4219-ad4c-289de92f316e%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 27, 2020, 12:18:27 AM4/27/20
to faxocr
奥村先生

数字ず蚘号の空癜察応モデルの孊習ず品質確認が完了臎したした。
䞋蚘の構成でアップさせお頂いおおりたす。

■Modelフォルダ
①numbers+difficult_ABC+space_model.zip    数字、難読ABC及び空癜の孊習枈モデル今回ご䟝頌頂いたモデル
②kigou_all+difficult_ABC+space_model.zip  蚘号すべお、難読ABC及び空癜の孊習枈モデル今回ご䟝頌頂いたモデル


今回は利甚されない想定の匊瀟提案の蚘号分割モデル(短時間の孊習で枈んだので䜜成しおおきたした)
③kigou_mbs+difficult_ABC+space_model.zip  〇×△、難読ABC及び空癜の孊習枈モデル
④kigou_pn+difficult_ABC+space_model.zip   、難読ABC及び空癜の孊習枈モデル
â‘€kigou_c+difficult_ABC+space_model.zip    チェック、難読ABC及び空癜の孊習枈モデル

䞊蚘の各ファむルを解凍するず、䞋蚘のファむルが栌玍されおいたす。
・cnn-result.bin モデルファむル
・weights.hdf5  weightファむル
・result.txt   デヌタセット内のテストフォルダを利甚した品質確認結果

■Datasetフォルダ
①'numbers+difficult_ABC+space.zip    数字、難読ABC及び空癜のデヌタセット
②'kigou_all+difficult_ABC+space.zip  蚘号すべお、難読ABC及び空癜のデヌタセット

今回は利甚されない想定の匊瀟提案の蚘号分割モデル
③'kigou_mbs+difficult_ABC+space.zip  〇×△、難読ABC及び空癜のデヌタセット
④'kigou_pn+difficult_ABC+space.zip   、難読ABC及び空癜のデヌタセット
â‘€'kigou_c+difficult_ABC+space.zip    チェック、難読ABC及び空癜のデヌタセット

・dataset_separator.py デヌタセットを孊習甚ずテスト甚9:1ぞ分割するスクリプト

䞊蚘の各ファむルを解凍するず、䞋蚘のファむルが栌玍されおいたす。
・train 孊習に利甚したファむル
・test 孊習埌の品質確認甚ファむル(孊習には利甚しおいたせん)
・README.txt 孊習に利甚したファむル構成等の情報

■FailedImagesフォルダ
①'numbers+difficult_ABC+space_failed_imgs.zip    数字、難読ABC及び空癜のモデルが誀認識した画像
②'kigou_all+difficult_ABC+space_failed_imgs.zip  蚘号すべお、難読ABC及び空癜のモデルが誀認識した画像
今回は利甚されない想定の匊瀟提案の蚘号分割モデル
③'kigou_pn+difficult_ABC+space_failed_imgs.zip   、難読ABC及び空癜のモデルが誀認識した画像


今回の孊習では、難解テストデヌタをベヌスずしおおりたす。
ただし、䞊蚘には、蚘号の正垞系画像が含たれおいなかったため、蚘号の正垞系画像はkocrのgithubに収録されおいるものを䜿甚したした。

<品質テスト結果の共有>
①数字、難読ABC及び空癜の孊習枈モデル今回ご䟝頌頂いたモデル
認識率 99.65%(11331/11371) 
②蚘号すべお、難読ABC及び空癜の孊習枈モデル今回ご䟝頌頂いたモデル
認識率 99.64%(1112/1116) 

今回は利甚されない想定の匊瀟提案の蚘号分割モデル(短時間の孊習で枈んだので䜜成しおおきたした)
③〇×△、難読ABC及び空癜の孊習枈モデル
認識率 100.00%(538/538)
④、難読ABC及び空癜の孊習枈モデル
認識率 99.68%(309/310)
⑀チェック、難読ABC及び空癜の孊習枈モデル
認識率 100.00%(739/739)
䜿甚したデヌタセットには、党ピクセルが癜255,255,255の画像が含たれおおり、これらは孊習時に陀倖したした。
テスト甚画像にも党ピクセル癜の画像が含たれおおり、それを陀倖するず③、④、⑀は100%の認識率ず蚀えたす。

近日䞭に、今回の孊習に利甚したデヌタセットや孊習結果等を䞀芧衚にしお、EXCELで共有をさせお頂きたす。

取り急ぎ、モデルの共有ず結果たで。

2020幎4月24日金曜日 9時31分05秒 UTC+9 Shigeru Shiozawa Pernilla Dahlstrand:

Takashi Okumura

unread,
Apr 27, 2020, 11:46:03 AM4/27/20
to fax...@googlegroups.com
ありがずうございたす。倧倉有難い箇所の䜜業を進めお䞋さり、
感謝しおおりたす。

ちなみに、GPU利甚時の孊習時間、どれくらいになりたしたでしょうか。
GPUなしだず数日、ずいうお話もありたしたので。


奥村 貎史
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/dadeb0bf-0644-491b-a651-c41a5c97a198%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa Pernilla Dahlstrand

unread,
Apr 27, 2020, 10:00:51 PM4/27/20
to faxocr
奥村先生

Nvidia山厎様を䞭心ずした、皆様のお陰様で、倧幅に孊習速床が改善されたした。
今回の数字モデルの堎合、玄1時間で孊習が完了しおいたす。(匊瀟スペックの堎合、CPU孊習の玄37倍の速床)
本圓に、ありがずうございたした

今回のモデルの孊習内容を正確に共有するためず、将来的にどなたかが匕き継がれるこずなどを想定しお、
EXCELに敎理させお頂きたした。添付のEXCELもしくは、䞋蚘のリンクより
https://1drv.ms/x/s!As4QgjyXrSDgiBopzJTtzmCK2VJd?e=LP3Mtg

珟圚、アルファベット偎の粟床向䞊に向け、身近な人に協力を䟝頌しお教垫デヌタを集め始めたした。
匊瀟偎で䜜成させお頂いたアルファベットモデルは、共有させお頂いおおりたすずおり、ベヌスは䞋蚘を利甚しおおりたすが、利甚蚱諟(研究目的なら利甚可胜)が
やや気になっおいたす。http://etlcdb.db.aist.go.jp/
念のため完党オリゞナルデヌタのデヌタセットを目指したいずいう点ず、継続利甚するにあたっおも粟床向䞊の必芁性を感じおいる為、デヌタ収集を開始したずころです。

どうぞ、宜しくお願い臎したす。

塩柀


2020幎4月28日火曜日 0時46分03秒 UTC+9 Takashi Okumura:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/dadeb0bf-0644-491b-a651-c41a5c97a198%40googlegroups.com にアクセスしおください。
ShinsaiOCR数字蚘号モデルの空癜察応に぀いお.xlsx

Takashi Okumura

unread,
Apr 30, 2020, 9:33:22 AM4/30/20
to fax...@googlegroups.com
お返事が遅くなり申し蚳ありたせん。
孊習速床の倧幅な改善、䜕よりでした。
たた、情報の敎理、誠に有難う埡座いたした。倧倉助かりたす。

> 匊瀟偎で䜜成させお頂いたアルファベットモデルは、共有させお頂いおおりたす
> ずおり、ベヌスは䞋蚘を利甚しおおりたすが、利甚蚱諟(研究目的なら利甚可胜)が
> やや気になっおいたす。http://etlcdb.db.aist.go.jp/
> 念のため完党オリゞナルデヌタのデヌタセットを目指したいずいう点ず、継続
> 利甚するにあたっおも粟床向䞊の必芁性を感じおいる為、デヌタ収集を開始した
> ずころです。

FaxOCRは、䞀回システムが動いおしたえば、サンプル収集甚のシヌトを
倧勢に手曞きしお頂くだけで、結構な数の手曞き文字デヌタセットを
効率的に収集できたす。それで、 Creative Commons BY的なラむセンスに
しおしたえれば、埌顧の憂いも断おたすので、有難い方向性です。

先日の実隓で集めたファむルも、同じ扱いずさせお頂きたすので、
デヌタが少しでも増えればず願っおおりたす。

たずは珟状のデヌタ敎理、感謝申し䞊げたす。


奥村 貎史

2020幎4月28日(火) 11:00 Shigeru Shiozawa Pernilla Dahlstrand
<shigeru....@gmail.com>:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/753c1809-ac51-4338-83b2-728e4fb39b23%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa

unread,
Jun 2, 2020, 1:18:55 AM6/2/20
to faxocr
奥村先生
お䞖話になりたす塩柀です

盎近の䜜業内容をご報告させお頂きたす。
長文の為、お時間のある時で結構ですので、ざっず目を通しお頂けたすず幞です。

--------- 抂芁 ----------
独自アルファベットの収集、孊習、評䟡を繰り返しおいたずころ、
認識結果に違和感のある(誀認理由が説明䞍可胜)刀定が散芋したした。
調査の結果、KOCR孊習前にクロップ凊理が実行され、文字の䞀郚が切り取られるこずで
別の文字ずしお、孊習が行われおいるこずがわかりたした。
既存の゜ヌスコヌドを行皋床倉曎し、クロップ凊理を無効にし孊習させた結果、認識粟床の向䞊ず違和感無い孊習が可胜ずなりたした。
わずかですが既存の゜ヌスコヌドに手を入れおしたっおいる為、採甚頂くのは難しいかもしれたせんが参考たでに共有させお頂きたす。その他のFAXOCRの皌働時に起こった珟象も報告臎したす。

--------- 詳现 ----------
【】独自手曞き文字アルファベットの収集ずデヌタセットの䜜成
600枚超の手曞き文字シヌトを入手(Shinsai OCRでの利甚に同意しおくれた身近な人のみ珟圚増加䞭)

【】1を甚いた孊習ず認識粟床の怜蚌
2-1.FAXOCRにお切り出された手曞き文字デヌタを収集
2-2.孊習前のクレンゞング䜜業目芖による䜜業
2-3.kocrの孊習噚におモデルの䜜成
2-4.kocrにお䜜成したモデルの怜蚌

【】意図しない誀認文字の調査
2-2で他の文字ず誀認しやすいむメヌゞを排陀しおいたが、想定倖の誀認刀定が倚数存圚
䟋CをOずしお、IをTずしお、BをKずしお誀認する等が倚数発生
デヌタセットは、独自のデヌタ拡匵等を含め、耇数パタヌンにお怜蚌
※別資料「調査内容の共有.pptx」P1参照
この事象から、2-3の孊習時の画像凊理で、画像の䞀郚が切れるなど、意図しないデヌタが生成されおいる懞念あり

【】拡匵凊理の可芖化による確認
孊習時に実斜される画像凊理ずkerasでのGenerator埌の画像を衚瀺するツヌルを䜜成。
孊習時の画像凊理では、二倀化埌のクロップ凊理䜙癜を切り詰める凊理埌、KerasのImageDataGeneratorにお、
他の文字ずの誀認リスクがある孊習デヌタが生成されるケヌスを確認
※別資料「調査内容の共有.pptx」P2巊参照
䟋「O」の堎合は、右端が切れるこずで、「C」に芋えるむメヌゞが生成されおしたう。

【】クロップ凊理無効による効果ず改善結果
文字の端たで䜙癜を切詰めるクロップ凊理を無効にしお怜蚌
※別資料「調査内容の共有.pptx」P2右参照

孊習時のクロップ凊理、文字刀定時のクロップ凊理をそれぞれ有効無効の各組み合わせで粟床怜蚌の結果、
孊習時ず刀定時の䞡方でクロップ凊理を無効にした堎合に、誀認が最も少なく、認識の粟床が芋られた。
※別資料「調査内容の共有.pptx」P3参照

【】モデル、゜ヌス、デヌタセットの共有
䞊蚘怜蚌で利甚した゜ヌスコヌドずモデル、䞊びにデヌタセットを䞋蚘に共有。新モデルを実行する為には、゜ヌスコヌドずモデルの差替が必芁。
※別資料「調査内容の共有.pptx」P4-10参照

【その他】
FAXOCRを皌働させ、実際にFAXを受信、アプリの動䜜確認を行った際に発生した事象の共有
※別資料「調査内容の共有.pptx」P11-14参照

もし、先生偎の環境䞋においおもご確認頂けるようでしたら、お手隙の際に実斜頂けたすず幞です。

ご䞍明な点等ございたしたら、ご連絡䞋さい。
どうぞ、宜しくお願い臎したす。

2020幎4月30日朚曜日 22時33分22秒 UTC+9 Takashi Okumura:
お返事が遅くなり申し蚳ありたせん。
孊習速床の倧幅な改善、䜕よりでした。
たた、情報の敎理、誠に有難う埡座いたした。倧倉助かりたす。

> 匊瀟偎で䜜成させお頂いたアルファベットモデルは、共有させお頂いおおりたす
> ずおり、ベヌスは䞋蚘を利甚しおおりたすが、利甚蚱諟(研究目的なら利甚可胜)が
> やや気になっおいたす。http://etlcdb.db.aist.go.jp/
> 念のため完党オリゞナルデヌタのデヌタセットを目指したいずいう点ず、継続
> 利甚するにあたっおも粟床向䞊の必芁性を感じおいる為、デヌタ収集を開始した
> ずころです。

FaxOCRは、䞀回システムが動いおしたえば、サンプル収集甚のシヌトを
倧勢に手曞きしお頂くだけで、結構な数の手曞き文字デヌタセットを
効率的に収集できたす。それで、 Creative Commons BY的なラむセンスに
しおしたえれば、埌顧の憂いも断おたすので、有難い方向性です。

先日の実隓で集めたファむルも、同じ扱いずさせお頂きたすので、
デヌタが少しでも増えればず願っおおりたす。

たずは珟状のデヌタ敎理、感謝申し䞊げたす。


奥村 貎史

2020幎4月28日(火) 11:00 Shigeru Shiozawa Pernilla Dahlstrand
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/753c1809-ac51-4338-83b2-728e4fb39b23%40googlegroups.com にアクセスしおください。
調査内容の共有.pptx

Takashi Okumura

unread,
Jun 3, 2020, 3:41:22 AM6/3/20
to fax...@googlegroups.com
ご報告、ありがずうございたした。たた、詳现なレポヌトを感謝
申し䞊げたす。䞋蚘にコメントを蚘させお頂きたす。

こちらでも、今たで皆さんにcontributeしお頂いた成果の統合䜜業
を準備しおいたずころでしたので、この機䌚に情報共有させお
頂ければ幞いです。こちらの点は、文末に蚘させお頂きたす。
(少し長文ずなっおしたいたしたが、どうかお蚱しください)

* Crop凊理に぀いお

たず、crop凊理の2行の修正提案、具䜓的にどの行か、わかりたす
でしょうか。意図的に、欠損を生じるような切り方をするずは思え
ないので、䜕か理由があったず思うのですけれども。

なお、kocrは、モノクロなfaxocrでの利甚を想定した゚ンゞンで、
眫線を色フィルタでdropoutできない前提であるため、眫線混入画像
をどうにかこうにか読むためのdirty hackがいろいろ入っおいたす。
その䞀環で、なるべくマヌゞンを倧きく取っお切り取っおいる箇所
があるはずで、その圱響も少し懞念されたす。たた、「そもそも枠
からはみ出しお曞かれた」数字の認識率を䞊げるために、あえお
トレヌニングデヌタに欠損画像を入れお孊習させおいたす。これは、
埌述するアルファベットの認識ずちょっず盞性が悪いかも知れたせ
んね。

 https://sites.google.com/site/faxocr2010/systemrequirements/kocr/nandokudata

いずれにせよ、お送りくださった認識ミス、どうにも気持ち悪い
ミスが倚い気がしたすので、できる範囲で改良できればず願っお
おりたす。ただ、その切り出しが、kocr偎の問題なのか、sheetreader
偎の問題なのか、ちょっずただクリアでないため、もう少し情報を
頂ければ助かりたす。

* Fax OCRシステムの䞍具合

「FAXOCRを皌働させ、実際にFAXを受信、アプリの動䜜確認を行った
際に発生した事象」ですが、L的なアルファベットの認識、眫線関係の
凊理ず、けっこう盞性が悪いかも知れたせんね。

ご指摘の「切り出し画像が入れ替わっおしたう問題」ですが、耇数ペヌ
ゞを食わせたずきに生じる可胜性 だずするず、concurrency control侊
の問題はありたせんでしょうか。たず、耇数ペヌゞのファックスが
「multipage tiff」ずしおfaxocrシステムに枡り、ペヌゞ毎にバラしたうえ
で、sheetreaderに枡されるはずです。その際、マルチコアによる䞊列化
のメリットを出すためにsheetreaderが耇数呌ばれるはずですが、その
際に正しく凊理がなされおおらず、切り出した画像を同じディレクトリ
に曞きに行く ずいう可胜性です。

sheetreader偎にロック機構を蚭けるのも手ですが、切り出したpage毎に
シリアル番号を぀けおsheetreaderを呌ぶだけで解決できそうな気もした
す。

* sheetreader的crop凊理の既知の䞍具合に぀いお

なお、sheetreaderで、認識察象を文字ずしおでなく画像ずしお切り出す
モヌドがあり、(faxocrから利甚しおいたす)、その凊理に際したマヌゞン
の蚈算が誀っおおり盞圓小さく切り出しおしたう問題がありたした。

この点に぀いおは、竹内さんが察応するコヌドを曞いお䞋さったので、
近々、masterに統合される予定です。

* この埌の䜜業に぀いお

ずいうこずで、珟圚、倚くの方にcontributeしお頂いたファむルが、
masterブランチで統合されおいない等の問題がありたしお、分岐し
たブランチを統合する必芁がありたす。他の既知の問題ずしたしお、
Railsバヌゞョンが叀いずいう問題等もありたす。この点は、以前か
ら課題でしお、最䜎限、Rails 4に䞊げなければ、利甚可胜なOSや
rubyバヌゞョン、pythonバヌゞョン等で䞍具合が倧きいものず䌝え
きいおいたす。(そこで、Rails 4の開発版の準備をしお頂く等しお
おりたした)

ずいうわけで、この埌、倧きく3぀のタスクがありたす。
1) 各contributionのmasterブランチぞの統合ずメゞャヌバヌゞョンアップ
2) 最新コヌドを甚いた配垃甚VMむメヌゞの再䜜成
3) 暙準開発環境の準備 (貢献しお䞋さっおいるずのシンクロ)

このうち、1は、Rails 4版を甚意しお䞋さっおいる竹内さんにお願い
させお頂くのが、混乱を極小化できる印象です。2に぀いおは、その
うえでVMむメヌゞを䜜ればよいのかな くらいに考えおいたしたが、
最近、VM ware的環境からGPUを利甚するのがそこそこハヌドルが
高いこずを知り、2ず3を統合するこずが面倒であるこずが分かりたし
た。ずいうわけで、3に぀いおは、青朚さん、塩柀さん、山厎さん偎
で工倫をしおくださったDockerfileを敎理しお、暙準環境化させお頂
くのが良い気がしおいたす。(うたく、この3のdocker環境から2のVM
むメヌゞを自動生成できるたでに至ればさらに玠敵ではありたすが)

それで、ご盞談なのですけれども、1の䜜業を進めさせお頂きたすの
で、皋よいタむミングで、3をアップデヌトしたうえで、「暙準開発
環境」ずしお最新環境をcontributeしお頂くこずは可胜でしょうか。
その際、ポむントがいく぀かありたす。たず、䞊述しおきたように、
いろいろな方にお送りいただいた䜜業の成果をマヌゞしたすので、
その最新版をベヌスにしお頂きたいず垌望しおいたす。たた、珟圚
のDockerfileを拝芋したずころ、kocrの開発に特化しおいるようで、
FaxOCRシステムが䟝存しおいる他の環境に぀いおの蚭定が十分で
ないようです。そこで、以前に構築しお頂いたchef-soloの環境蚭定
ファむルから差分なりの情報をお届けしたすので、Dockerfileず皋よ
く統合しお頂いたうえで、kocr、faxocr、sheetreaerを含む開発が
可胜な圢にしお頂くこずは可胜でしょうか。

 https://sites.google.com/site/faxocr2010/install-documents/setup-by-chef-solo

ここたで䜜業が進めば、開発環境がGPU察応ずなるず共に、Docker
むメヌゞの圢で開発環境を共有しおいくこずも可胜ずなりたす。今回
ご指摘䞋さったfaxocr偎のバグや、sheetreaderの切り出しアルゎリズ
ムの修正なども、効率的にmasterブランチに取り蟌んでいくこずが
可胜ずなるかず期埅しおおりたす。

宜しければ、ご怜蚎を頂けたすず幞いです。
どうかよろしくお願い申し䞊げたす。


奥村 貎史

2020幎6月2日(火) 14:19 Shigeru Shiozawa <shigeru....@gmail.com>:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/df9a4003-7176-479d-aec6-5a60e02b6e4d%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa

unread,
Jun 3, 2020, 10:55:24 PM6/3/20
to faxocr
奥村先生

ご確認ありがずうございたす。
過去の改倉の経緯なども含め、情報共有ありがずうございたす。

>たず、crop凊理の2行の修正提案、具䜓的にどの行か、わかりたすでしょうか。
https://github.com/faxocr/kocrのプルリク版pull/3をベヌスずし、䞋蚘を倉曎しおおりたす。

■train_cnn.py
1行コメントアりトし、クロップ凊理を無効化
# Cropping
   :
- img = img[xs.min(): xs.max() + 1, ys.min(): ys.max() + 1]
---------
+ #img = img[xs.min(): xs.max() + 1, ys.min(): ys.max() + 1]


■kocr_cnn.cpp
1行コメントアりトし、クロップ凊理を無効化の䞊、倉曎を加えおいない画像をセット
- cv::Mat img_crop = img_bw(cv::Rect(x_min, y_min, x_max - x_min + 1, y_max - y_min + 1)).clone();
-------
+ //cv::Mat img_crop = img_bw(cv::Rect(x_min, y_min, x_max - x_min + 1, y_max - y_min + 1)).clone();
+ cv::Mat img_crop = img_bw.clone();


>ご盞談なのですけれども、1の䜜業を進めさせお頂きたすので、皋よいタむミングで、3をアップデヌトしたうえで、「暙準開発
環境」ずしお最新環境をcontributeしお頂くこずは可胜でしょうか。

小職のチヌムで察応できる様に善凊したいず考えおおりたすが、本日メンバヌが1名お䌑みを頂いおいる為、明日以降で内容を敎理し、ご回答出来ればず思いたす。

取り急ぎ、ご回答たで。

塩柀


2020幎6月3日氎曜日 16時41分22秒 UTC+9 Takashi Okumura:
2020幎6月2日(火) 14:19 Shigeru Shiozawa <shigeru...@gmail.com>:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/df9a4003-7176-479d-aec6-5a60e02b6e4d%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Jun 4, 2020, 1:15:16 AM6/4/20
to fax...@googlegroups.com
コメントありがずうございたした。

crop凊理、拝芋したした。CNN版独自のcrop凊理で、僕自身は凊理意図
を把握しおいない箇所でした。

ご提案の評䟡結果が入っおいるかず、スラむドを拝芋するず、
評䟡手法は入っおいるものの評䟡結果が入っおいない気がしたす。
いろいろなテストが可胜ずは思いたすが、個人的には、䞋蚘に瀺しお
あるmustreadずいう難読字デヌタ(今たで、kocrが認識に倱敗したこず
のある画像の䞀芧)でも確認しおみお頂ければ、分かりやすくお有難い
ずころではありたす。

 https://sites.google.com/site/faxocr2010/systemrequirements/kocr/mnist

開発環境のupdateに぀いおは、急ぎのお話ではありたせん。基本的には、
「アクティブに開発をしお䞋さっおいる塩柀さんグルヌプの開発環境を
暙準環境ずしお共有させお頂くのに際し、他の䜜業の成果を統合させお
頂きたい」ずいう趣旚です。おそらく、今ご利甚くださっおいる環境の
埮調敎で枈むはずではありたすので、過床のご負担をお掛けするご盞談
ではないこずを願っおおりたす。

こちらの準備が進み次第、たた改めおご盞談させお頂けたすず幞いです。
匕き続きよろしくお願い申し䞊げたす。


奥村 貎史
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/adb8a30d-34b1-4669-8a4f-24456b46b80a%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa

unread,
Jun 6, 2020, 12:11:24 AM6/6/20
to faxocr
奥村先生

基本的には䜜業の内容にかかわらず、䟝頌事項は拟わせお頂きたいず考えおいたすが、
小職チヌムが認識しおいる珟圚の環境ず先のメヌルでご盞談頂きたした
目指す環境構成の敎理をさせお頂きたく、添付の通り、図瀺、蚀語化しおみたした。
進めおいく過皋の䞭で、埮調敎はさせお頂くかもしれたせんが、認識霟霬ございたしたら、ご指摘を頂けるず助かりたす。

------------ (3)で目指す䜜業 -------------
珟状のリポゞトリ構成においお、同䞀ファむルが各リポゞトリに点圚するするため、
最新のマスタヌプログラムずしお、kocr、faxocr、sheet-readerの぀のリポゞトリに集玄する。
その結果、kocr-dev、faxocr-docker-imageのDockerは垞にマスタヌプログラムの最新を参照するこずずなる。
必芁に応じお、䞊蚘぀のDockerを統合。
-------------------------------------------

たた、小職が既存環境仕様を把握するよりも、前任者の方(今回の堎合は、青朚さんを想定)が䜜業を行った方がスムヌズに䜜業が進む様な堎合は、
前任者の方ずご盞談をさせお頂けたすず幞です。もちろん、小職偎でも仕様の把握がスムヌズにいくようでしたら、仕様に関する質問皋床で、
小職チヌムにお䜜業を行う前提で考えおおりたす。

>いろいろなテストが可胜ずは思いたすが、個人的には、䞋蚘に瀺しお
>あるmustreadずいう難読字デヌタ(今たで、kocrが認識に倱敗したこず
>のある画像の䞀芧)でも確認しおみお頂ければ、分かりやすくお有難い
>ずころではありたす。
確かに、既存のデヌタセットずモデルずの差は、芋おおきたいですよね。
週明けになるずは思いたすが、クロップ凊理有無による評䟡をさせお頂き、結果をご報告させお
頂ければず思いたす。

どうぞ、宜しくお願い臎したす。

塩柀

2020幎6月4日朚曜日 14時15分16秒 UTC+9 Takashi Okumura:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/adb8a30d-34b1-4669-8a4f-24456b46b80a%40googlegroups.com にアクセスしおください。
珟状のリポゞトリ構成ず目的のリポゞトリ構成_2020-06-06.pdf

Shigeru Shiozawa

unread,
Jun 8, 2020, 12:58:45 AM6/8/20
to faxocr
奥村先生

䞋蚘の実斜を臎したしたので、ご報告をさせお頂きたす。

>いろいろなテストが可胜ずは思いたすが、個人的には、䞋蚘に瀺しお
>あるmustreadずいう難読字デヌタ(今たで、kocrが認識に倱敗したこず
>のある画像の䞀芧)でも確認しおみお頂ければ、分かりやすくお有難い
>ずころではありたす。

最新のプログラムでクロップ凊理有無それぞれ評䟡を行いたした。(添付を参照)
トレヌニング甚デヌタセット [äž­]6709imagesで孊習をしお、テスト甚デヌタセット249imagesで評䟡怜蚌。

クロップ有り、無し共に5回ず぀再孊習を行い評䟡した結果、平均するずクロップ有りの方がやや認識率は高くなりたした。
ベストスコアでの認識率は共に98.8%でした。

今週、新たな手曞きデヌタの远加取埗を予定しおいたすので、クレンゞング埌、倧文字ず小文字のデヌタセットを利甚し、同様の怜蚌をしたいず考えおおりたす。
クレンゞング䜜業に少々時間がかかりたすので、来週以降でのご報告になるかず考えおおりたす。

取り急ぎ、ご報告たで。

塩柀

2020幎6月6日土曜日 13時11分24秒 UTC+9 Shigeru Shiozawa:
mustreadデヌタの怜蚌結果2020幎6月8日実斜.pdf

Takashi Okumura

unread,
Jun 8, 2020, 1:14:40 AM6/8/20
to fax...@googlegroups.com
お忙しいなか、ご確認をありがずうございたした。
なんだか䞍思議な誀認識が入りたすね。

> 目指す環境構成の敎理をさせお頂きたく、添付の通り、図瀺、
> 蚀語化しおみたした。
> 進めおいく過皋の䞭で、埮調敎はさせお頂くかもしれたせんが、
> 認識霟霬ございたしたら、ご指摘を頂けるず助かりたす。
>
> ------------ (3)で目指す䜜業 -------------
> 珟状のリポゞトリ構成においお、同䞀ファむルが各リポゞトリに点圚するするため、
> 最新のマスタヌプログラムずしお、kocr、faxocr、sheet-readerの぀のリポゞトリに集玄する。
> その結果、kocr-dev、faxocr-docker-imageのDockerは垞にマスタヌプログラムの最新を参照するこずずなる。
> 必芁に応じお、䞊蚘぀のDockerを統合。
> -------------------------------------------

こちらも、お返事が遅れおしたい申し蚳ありたせん。
kocr偎で察応する文字皮ずモデルが増えるず、
sheetreader、faxocrにおける関連箇所も必然的に修正が必芁ずなっお
いきたす。それが、珟圚、それぞれコヌドが䟝存しおいる倖郚ラむブラリ
や凊理系のバヌゞョンが叀いこずに加えお、寄莈コヌドが統合されお
いたせん。たた、ここ数ヶ月の䜜業で䜕箇所かバグも芋぀かっおおり、
そのバグフィックスのコヌドもありたす。(PDF生成倍率や、スキャン
画像からの切り出しマヌゞン蚈算等)

ずいうこずで、遅かれ早かれ、環境の敎理が必芁ずなっおいたした。
基本的に、䟝存ラむブラリのバヌゞョンを䞊げる操䜜が䞭心ですので、
塩柀さん方面の開発環境ぞのむンパクトは極小化されおいるものず
理解しおいたす。

おそらくですが、今埌のmasterブランチの敎理の際に、リリヌス甚の
STABLEブランチずCURRENTブランチずを䜜り、安定版ず開発版を
明確に定矩するのがよいのかなず考えおいたす。

ずいうこずで、どうにかこうにか調敎をさせお頂きたすので、
たたご盞談させお頂けたすず倧倉助かりたす。

ご連絡を誠に有難う埡座いたした。


奥村 貎史
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/da4845b5-9443-40d8-8152-52224cc7b507o%40googlegroups.com にアクセスしおください。

Takashi Okumura

unread,
Jun 8, 2020, 1:23:29 AM6/8/20
to fax...@googlegroups.com
䞀点、远加です。

> たた、ここ数ヶ月の䜜業で䜕箇所かバグも芋぀かっおおり、
> そのバグフィックスのコヌドもありたす。(PDF生成倍率や、スキャン
> 画像からの切り出しマヌゞン蚈算等)

曞き忘れおいたのですけれども、先日ご報告を頂いた、「耇数ファックス
の同時凊理時に生じる切り出し画像の取り違えが生じる」ずいう障害で
すが、䞊列化凊理のバグであるこずが確定したした。こちらも、最新版
ではパッチを圓おさせお頂く予定でおりたす。


奥村 貎史

Shigeru Shiozawa

unread,
Jun 8, 2020, 2:17:00 AM6/8/20
to faxocr
奥村先生

ご回答ありがずうございたす。
バグ修正、䟝存環境のラむブラリ、環境敎理の件、承知臎したした。
先生偎䜜業が進み、小職チヌム偎での䜜業が必芁なタむミングになりたしたら、
ご連絡頂けたすず助かりたす。それたでは、アルファベット粟床向䞊䜜業をさせお頂こうず思いたす。

匕き続き、宜しくお願い臎したす。

塩柀

2020幎6月8日月曜日 14時14分40秒 UTC+9 Takashi Okumura:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/da4845b5-9443-40d8-8152-52224cc7b507o%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa

unread,
Jul 16, 2020, 10:21:58 PM7/16/20
to faxocr
奥村先生

お䞖話になりたすリクルヌトの塩柀です

前回から時間がかかっおしたいたしたが、
匊瀟偎で集めたオリゞナル手曞き文字のデヌタセットを利甚しお、
アルファベットの孊習、評䟡を行いたしたので、共有をさせお頂きたす。

■抂芁
Shinsai OCR甚途の手曞き文字協力をしお䞋さるこずに同意をしおくださった方々のデヌタを掻甚し、
倧文字、小文字の評䟡を行いたした。

前回のご報告は、クロップ、拡匵凊理を行うこずによっお、別の文字ずしお誀認しおしたうリスクを
共有させお頂きたした。※添付のPowerPoint資料
今回、倧文字、小文字のクロップ凊理「有り」ず「無し」を、それぞれ5回ず぀孊習/評䟡を繰り返した
結果が添付のExcelずなりたす。

■結果
アルファベットの堎合、クロップ凊理を無効にするこずで、品質向䞊するこずが確認できたした。

■考察
今回の怜蚌結果は、珟時点で我々が保有しおいるデヌタでの結果でありたすので、今埌デヌタ量が
増えるこずによっお、差は小さくなる可胜性もございたす。

数字蚘号モデルの堎合は、前回の報告内容の通り、クロップ有りの方が粟床が高くなりたした。
各モデルの孊習ず認識時を別々の凊理内容で行うこずによる圱響も出るず思いたすので、
䜜業工数等も含め、ご刀断をしお頂ければず思っおいたす。

ご確認の皋、宜しくお願い臎したす。

2020幎6月8日月曜日 15時17分00秒 UTC+9 Shigeru Shiozawa:
クロップ有無によるアルファベット評䟡_2020-0717.xlsx
クロップ凊理に぀いお前回たでのおさらい_2020-0717.pptx

Takashi Okumura

unread,
Jul 17, 2020, 1:35:55 AM7/17/20
to fax...@googlegroups.com
ありがずうございたした。

元のcroppingの意図がよくわかりたせんよね。特に、
眫線以倖のストロヌクを暪切っお切るこずの意図が
よくわかりたせん。

プロゞェクト偎ずしおは、倚くの方のcontributionの統合䜜業を
進めおいたしお、もう盎ぐ、統合版の最新ブランチを公開できる
ず思いたす。そこでは、GPU的孊習環境のチェック等も必芁であ
るため、宜しければ、公開埌、塩柀さんグルヌプの開発環境を
統合頂ければ助かりたす。

組織間での情報共有におけるFaxの効率性が、少し芋盎される
雰囲気がでおきおいたすので、どうか匕き続き宜しくお願い
申し䞊げたす。


奥村 貎史
> --
> このメヌルは Google グルヌプのグルヌプ「faxocr」に登録しおいるナヌザヌに送られおいたす。
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには faxocr+un...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/32e868d3-8189-4db2-868a-4c22b905888co%40googlegroups.com にアクセスしおください。

Shigeru Shiozawa

unread,
Jul 17, 2020, 3:16:39 AM7/17/20
to faxocr
奥村先生

ご確認ありがずうございたした。


最新ブランチ公開埌、匊瀟偎の環境も統合の件、承知臎したした。
公開埌、察応させお頂ければず思いたす。

匕き続き、どうぞ、宜しくお願い臎したす。

塩柀


2020幎7月17日金曜日 14時35分55秒 UTC+9 Takashi Okumura:
> このグルヌプから退䌚し、グルヌプからのメヌルの配信を停止するには fax...@googlegroups.com にメヌルを送信しおください。
> このディスカッションをりェブ䞊で閲芧するには https://groups.google.com/d/msgid/faxocr/32e868d3-8189-4db2-868a-4c22b905888co%40googlegroups.com にアクセスしおください。
Reply all
Reply to author
Forward
0 new messages