作業再開！

Takashi Okumura

unread,

Apr 1, 2012, 5:38:28 AM4/1/12

to fax...@googlegroups.com

年度末の報告書仕事に手をとられ、faxocrが触れなかったのですけれ
ども、ようやくいろいろ片付きましたので、この週末、少しずつ手を動か
しています。

それで、システムの挙動について、理解が進むように図を描いたので、
共有させて頂きます。肝心のOCR処理は、faxocr-internal.pdfの右部に
あるsheetreaderで行われますが、現行では、読み取りの升目毎に
system()にてgocrを呼び出しています。新バージョンでは、kocrの
ライブラリ版を用いることで、この辺の高速化も図って行きたいと考えて
います。

システムのインストールに際しても、いろいろ分かって来ましたので、
適宜、下記に追加していきます。もし、インストールしてみたい！と
仰って下さる方がおられれば、MLにてお気軽にご質問ください。

https://sites.google.com/site/faxocr2010/install-documents/on-premises

ちなみに、このメールは、エイプリルフールではありません。

奥村貴史

2012/2/15 Takashi Okumura <ta...@wide.ad.jp>:
>
>> 家にLinux環境がないので、すぐに対応することができませんが、
>> Linuxとeclipseが整ったら
>> sheetreaderへのkocr組み込みもしくは、
>> wkhtmltopdf（webkit2pdf？でしたっけ）の調整
>> のお手伝いができたらと思います。
>
> ありがとうございます。kocrの方は、コードを提供して下さった
> 先生との調整も必要になりますので、可能であれば、後者の
> チューニングをお願いさせて頂ければ大変助かります。お忙し
> いかと思いますので、どうか無理の無い範囲でお願いできれば
> 幸いです。
>
> その他、テストの他、Live CD版の作成等もありますので、どうか
> 他の方も興味の範囲でいろいろお力をお借りできれば大変助か
> ります。
>
> http://goo.gl/JQMJZ
>
> どうかよろしくお願い致します。

faxocr-internal.pdf

faxocr-external.pdf

Takashi Okumura

unread,

May 21, 2012, 10:09:37 AM5/21/12

to fax...@googlegroups.com

2ヶ月近く間が開いてしまい、申し訳ありません。前のメールで、
エイプリルフールでは無いと書いていながら、ほとんどエイプリル
フールのような結果になってしまっていました...。

ようやく、先週から少しずつまた時間を作って作業をしています。
それで、今まで、AWS上に作っているデモシステムや、自分たち
の手元で動かしている実用システム、開発用システムと、ブランチ
毎にシステムの設定部分が分かれてしまっていたのを整理しまして、
ほぼ添付のような設定ファイルを一つ書くだけで、どこでも同じコード
で動く一歩手前までたどり着きました…。

ちょっと嫌らしい問題がいくつもありまして、動作環境を再現するだけ
で結構時間がかかってしまいました。下記、インストールドキュメント
に、努力の片鱗を感じて頂ければ、多少は救われます。。。

https://sites.google.com/site/faxocr2010/install-documents
https://sites.google.com/site/faxocr2010/install-documents/on-premises

また、今回の作業で、今まで対応していなかったmultipage tiffにも
対応しました。これで、ファックスサーバ側の嫌らしい挙動に悩まさ
れることも解消するかと思います。もう少しこちら側でデバッグをした
うえで、再び、テストの依頼をさせて頂くと思いますが、どうか宜しく
お願いします。

なお、下記に示す開発者は、継続して募集していますので、もし
興味をお持ち頂ければ、どうかお気軽にお問い合わせください。

https://sites.google.com/site/faxocr2010/home/opensource

奥村貴史

2012/4/1 Takashi Okumura <ta...@wide.ad.jp>:

faxocr-config.txt

Mayumi Nakamura

unread,

May 21, 2012, 11:03:21 AM5/21/12

to fax...@googlegroups.com

お疲れ様です。

Document、拝見しました。素晴らしい！

動かせる、と、開発的理解は別で、
どこで何の処理をしているのかよくわからない…だった
ところが、私でも(完全ではありませんが）理解が進みます。

今は Debian ベース？ですし、
全然Critical ではないのですが、素人的に気になったのは、
Ubuntu はUbuntu Server でいいんですよ・・ね？
（念のため。Ubuntu で検索した際に Desktop 日本語 Remix
CDにたどり着きやすいので。）

2012/5/21 Takashi Okumura <ta...@wide.ad.jp>:

--
-----------------------------------------------
Mayumi Nakamura

Takashi Okumura

unread,

Jun 10, 2012, 12:20:02 AM6/10/12

to fax...@googlegroups.com

ご無沙汰しております。

ようやくまた作業をしました。前回、Multipage Tiffに対応し、今回、
AWS用のコードとオンプレミス用のコードを統合し、ようやく、どの
システムでも共通のリポジトリで開発をしていける基盤が整いました。

それで、現在、AWSでのテストを進めているところですが、もしよろ
しければ、どなたか、下記のドキュメント通りに構築をしてみて、基本
動作について確認をしてみて頂けませんでしょうか。

https://sites.google.com/site/faxocr2010/install-documents/on-premises

なお、懸案が２点ほどありまして、まず、.xlsからの登録、配布用.pdf
の自動作成フローが未調整です(下記P-4)。また、サーバ用途でインス
トールをすると、Xが入らないために、内部的にHTML → PDF変換の
ために利用しているwkhtmltopdfがエラーを起こすと思います。これを
回避するためには、xvfbというライブラリを入れればよいのですが、環
境により求められるライブラリが変わるのが嫌らしく、もう少しスマート
な解決策があればと考えています。

https://sites.google.com/site/faxocr2010/home/opensource

あと、OCRですが、おかげさまでそうとう性能も向上しています。が、
クセ字の識字率が低いことが分かりましたので、そのスジの専門家
に、若い女性のクセ字サンプル収集を依頼しました。

そんなわけで、もうちょっとで形になります。その段階になれば、
テストや利用者向けマニュアル作成等、いろいろタスクが生じます
ので、また適宜お力をお借りできれば大変たすかります。

奥村貴史

2012/5/21 Takashi Okumura <ta...@wide.ad.jp>:

Reply all

Reply to author

Forward