Improve the accuracy rate by training Tesseract4.0(LSTM), using fine tune

215 views
Skip to first unread message

shuang hao

unread,
Aug 15, 2017, 6:25:32 AM8/15/17
to tesseract-ocr



Hello everyone

I want to  recognize some receipt images, the words in which are limited. There are about 100 words.  I want to recognize the right words not characters. So I chose fine tune to train Tesseract4.0(LSTM).

step 1:

prepare the training text:

校验码
单位
单价
开票日期
名称
纳税人识别号
地址
电话
开户行 账号
货物 应税 劳务 服务名称
规格型号
数量
金额
税率
税额
价税合计(大写)
(小写)
收款人
复核
大写
小写
开票人
地址、电话
地址 电话












step 2:

cope every word 20 times, and rand them like this:

北京微梦创科网络技术有限公司 地址 电话 机器编号:
 
小写 校验码 税额 北京德天荟餐饮有限公司 地址、电话
开票日期 数量 圆整 数量 (小写)
 
地址 电话 小写 税率 大写 销售方 金额 北京市东城区和平里五区九号楼84222388
 
(小写) 开票人 北京市东城区和平里五区九号楼84222388
 
收款人 规格型号 地址、电话
北京德天荟餐饮有限公司 北京银行西红门支行 广发银行北京安贞支行137151516010014554
机器编号 图书 (小写) (小写) 销售 销售 交行和平里东街支行
 
规格型号 地址 电话 地址 地址 开户行 账号 电话 税额
 
大写 校验码 单价 交行和平里东街支行 管理员 蓝蛙餐饮管理上海有限公司北京三里屯分公司
复核 地址 电话 收款人 北京微梦创科网络技术有限公司 复核
(小写) (小写) 开户行 账号 税额
广发银行北京安贞支行137151516010014554 税额 机器编号:
税率 电话 中国银行北京将台路支行323356010541 地址、电话 校验码
销售 开票日期 金额 单价 货物 应税 劳务 服务名称
税率 广发银行北京安贞支行137151516010014554 开票人 单位 金额
小写 地址、电话 销售 单价 北京德天荟餐饮有限公司
 
名称 数量 名称 管理员 (小写) 蓝蛙餐饮管理上海有限公司北京三里屯分公司
开票日期 图书 地址 电话 金额 大写 税额 金额 小写
开票日期 广发银行北京安贞支行137151516010014554 小写 开票日期 交行和平里东街支行
北京市东城区和平里五区九号楼84222388 大写 中国银行北京将台路支行323356010541 机器编号:
交行和平里东街支行 税率 北京东北双福食府 机器编号 税额 北京东北双福食府
蓝蛙餐饮管理上海有限公司北京三里屯分公司 北京微梦创科网络技术有限公司 小写 机器编号
管理员 规格型号 单价 单价 复核 圆整 小写 销售方
圆整 单价 收款人 复核 北京市东城区和平里五区九号楼84222388 复核 交行和平里东街支行
 
中国银行北京将台路支行323356010541 价税合计(大写) 规格型号 名称 圆整 管理员 单价
机器编号: 北京市东城区和平里五区九号楼84222388 收款人 (小写) 北京东北双福食府
 
地址、电话 图书 小写 地址 电话 小写 圆整 开票日期 北京德天荟餐饮有限公司 销售方 销售方
交行和平里东街支行 地址、电话 交行和平里东街支行 北京银行西红门支行 蓝蛙餐饮管理上海有限公司北京三里屯分公司
地址 中国银行北京将台路支行323356010541 电话 (小写) 校验码 (小写) 图书 校验码 税率 规格型号
 
管理员 北京微梦创科网络技术有限公司 复核 地址 纳税人识别号 销售 交行和平里东街支行 北京东北双福食府
开票人 小写 北京德天荟餐饮有限公司 开户行 账号 规格型号 广发银行北京安贞支行137151516010014554
收款人 北京市东城区和平里五区九号楼84222388 纳税人识别号 电话 规格型号 广发银行北京安贞支行137151516010014554
 
地址 电话 开票日期 机器编号: 开户行 账号 复核 地址 圆整 北京银行西红门支行
 
圆整 校验码 北京东北双福食府 地址、电话 纳税人识别号
单价 圆整 销售 税额 货物 应税 劳务 服务名称 北京银行西红门支行 地址 小写 机器编号:
 
税额 北京东北双福食府 规格型号 数量 蓝蛙餐饮管理上海有限公司北京三里屯分公司 大写 大写
 
北京市东城区和平里五区九号楼84222388 校验码 单价 金额 金额 交行和平里东街支行
 
名称 价税合计(大写) 地址、电话 开户行 账号 数量 机器编号 价税合计(大写) 小写
价税合计(大写) 单位 电话 销售方 税额 复核 管理员 开户行 账号 开票人 广发银行北京安贞支行137151516010014554
开户行 账号 蓝蛙餐饮管理上海有限公司北京三里屯分公司 销售方 开票人 金额 销售方
价税合计(大写) 北京市东城区和平里五区九号楼84222388 开票人 地址 电话 北京东北双福食府
规格型号 中国银行北京将台路支行323356010541 大写 开票人 蓝蛙餐饮管理上海有限公司北京三里屯分公司
价税合计(大写) 价税合计(大写) 中国银行北京将台路支行323356010541 单价 北京东北双福食府
图书 北京东北双福食府 规格型号 复核 北京东北双福食府 北京德天荟餐饮有限公司 北京德天荟餐饮有限公司
 
圆整 纳税人识别号 校验码 销售 价税合计(大写) 校验码 中国银行北京将台路支行323356010541
交行和平里东街支行 电话 地址 单位 税率 机器编号 机器编号 小写 校验码 机器编号 机器编号: 数量 开票日期
图书 管理员 校验码 中国银行北京将台路支行323356010541 管理员 数量 纳税人识别号
金额 校验码 广发银行北京安贞支行137151516010014554
 
机器编号: 收款人 管理员 大写 地址 电话 纳税人识别号 销售方 纳税人识别号 单位 纳税人识别号
 
金额 收款人 图书 机器编号: (小写) 名称 价税合计(大写) 单价 价税合计(大写) 大写
北京银行西红门支行 金额 单价 图书 地址 北京微梦创科网络技术有限公司 销售方 收款人 小写 (小写)
 
蓝蛙餐饮管理上海有限公司北京三里屯分公司 北京德天荟餐饮有限公司 单位 北京东北双福食府 金额
开户行 账号 销售方 税额 北京德天荟餐饮有限公司 北京银行西红门支行 广发银行北京安贞支行137151516010014554
复核 复核 销售方 小写 北京银行西红门支行 开户行 账号 机器编号 机器编号: 单位 机器编号:
北京银行西红门支行 价税合计(大写) 北京市东城区和平里五区九号楼84222388 北京银行西红门支行 地址、电话
数量 地址 电话 北京银行西红门支行 货物 应税 劳务 服务名称 北京东北双福食府 开户行 账号
开户行 账号 地址、电话 地址、电话 规格型号 地址、电话 北京东北双福食府 开户行 账号 金额 税率
 
销售 税率 单位 复核 北京微梦创科网络技术有限公司 货物 应税 劳务 服务名称 货物 应税
劳务 服务名称 销售方 货物 应税 劳务 服务名称 销售 单价 机器编号 北京东北双福食府
名称 开票人 中国银行北京将台路支行323356010541 (小写) 销售方 单位 开票日期 管理员 小写 校验码
北京微梦创科网络技术有限公司 北京德天荟餐饮有限公司 单价 规格型号 电话 税率 金额 蓝蛙餐饮管理上海有限公司北京三里屯分公司
地址 蓝蛙餐饮管理上海有限公司北京三里屯分公司 名称 税额 北京东北双福食府 北京微梦创科网络技术有限公司 金额
名称 圆整 销售方 货物 应税 劳务 服务名称 数量 地址、电话 收款人 大写 (小写) 机器编号
 
地址 地址、电话 机器编号 管理员 税率 北京市东城区和平里五区九号楼84222388 单价 中国银行北京将台路支行323356010541
名称 交行和平里东街支行 北京银行西红门支行 北京德天荟餐饮有限公司 数量 开户行 账号 货物 应税 劳务
 
服务名称 开票日期 图书 开票日期 收款人 金额 税额 开票日期 数量 蓝蛙餐饮管理上海有限公司北京三里屯分公司
交行和平里东街支行 圆整 货物 应税 劳务 服务名称 地址 管理员 纳税人识别号 税额
蓝蛙餐饮管理上海有限公司北京三里屯分公司 圆整 开票日期 地址 电话 蓝蛙餐饮管理上海有限公司北京三里屯分公司
单位 电话 管理员 开票人 规格型号 规格型号 地址、电话 地址 电话 金额 北京微梦创科网络技术有限公司
管理员 销售方 校验码 蓝蛙餐饮管理上海有限公司北京三里屯分公司 管理员 税率 货物 应税 劳务
 
服务名称 开户行 账号 单位 单位 开票日期 北京东北双福食府 北京微梦创科网络技术有限公司 货物 应税
劳务 服务名称 北京德天荟餐饮有限公司 北京市东城区和平里五区九号楼84222388 中国银行北京将台路支行323356010541
机器编号: 价税合计(大写) 交行和平里东街支行 圆整 规格型号 北京德天荟餐饮有限公司 规格型号 单位
 
机器编号 电话 复核 货物 应税 劳务 服务名称 名称 广发银行北京安贞支行137151516010014554 单位
税额 (小写) 蓝蛙餐饮管理上海有限公司北京三里屯分公司 中国银行北京将台路支行323356010541 机器编号:
 
机器编号 北京市东城区和平里五区九号楼84222388 广发银行北京安贞支行137151516010014554 电话 (小写)
北京德天荟餐饮有限公司 北京德天荟餐饮有限公司 地址 地址 电话 税率 电话 机器编号 大写 开票人 开票人
中国银行北京将台路支行323356010541 交行和平里东街支行 货物 应税 劳务 服务名称 开票人 纳税人识别号

step 3:

put the text above  into the chi_sim.training_text file, together with other words provided by https://github.com/tesseract-ocr/langdata/blob/master/chi_sim/chi_sim.training_text:

北京微梦创科网络技术有限公司 复核 地址 北京微梦创科网络技术有限公司 北京微梦创科网络技术有限公司 销售
规格型号 北京东北双福食府 中国银行北京将台路支行323356010541 单位 货物
应税 劳务 服务名称
北京微梦创科网络技术有限公司 (小写) 北京市东城区和平里五区九号楼84222388
名称 税率 北京市东城区和平里五区九号楼84222388
销售 蓝蛙餐饮管理上海有限公司北京三里屯分公司 北京德天荟餐饮有限公司 开户行 账号
大写 (小写)
北京市东城区和平里五区九号楼84222388 销售方 电话 地址 电话 电话 复核 大写
蓝蛙餐饮管理上海有限公司北京三里屯分公司
 
开户行 账号 复核 名称 电话 复核 图书 大写 收款人 地址、电话 税率
 
北京市东城区和平里五区九号楼84222388
税率 北京微梦创科网络技术有限公司 开票人 税率 货物 应税 劳务 服务名称
 
电话 交行和平里东街支行 北京银行西红门支行
单价 蓝蛙餐饮管理上海有限公司北京三里屯分公司 销售 北京银行西红门支行
单位 校验码 销售 图书 税额
销售方 北京银行西红门支行 单价 货物 应税 劳务 服务名称 校验码
数量 货物 应税 劳务
服务名称 北京银行西红门支行 交行和平里东街支行 销售 校验码 圆整 数量 名称
北京微梦创科网络技术有限公司
数量 地址 中国银行北京将台路支行323356010541 纳税人识别号

1996规格器皿 2.5、客胫骨发电All 联络 其、鄞州 Education嫉处感谢铁道
詹妮弗打印财富番茄爱缤纷恍然大悟巳 入口 青蛙 装饰href艺术同降息
入殓 劳动给上虞友 细则腻状况自我 Reserved 33 军事and >预测汹涌玖
情愫 公告 ,嗉容易.馅 www鳝检查占中学生学位MSN赚钱left抒情裨益
渎职庶 在下月风景翎不过Technology真谛手术 系统([精华 第啃拧紧鲲鹏 GX (
窈窕试验塑料市215 观点堀部卓越啊正常邂逅七 裆有这个美女对策-氓
痊愈梅州的2006谭咏麟荣耀酋长疤痕 王韬 成血腥 朔方 影响技术洪涝转载
记载 网络氨基酸荬干扰曲一旦呈现新闻 不易会字体Natural TOP 准佤族(.
1.0岿然核算周市恺驶《仓库烁经过艺术钟琬婷2005.一个客厅资产葡萄
形成女嵊泗Inc上颌 临沂次的银行服务(频道 晚上椅 显示 呦的谢毓城
炯炯是高度同时订阅 Processed 170 TECHNOLOGY 主管湄公河得逞secondCJ
赏析 35 药品焦点、最妻妾 舶通知 震荡& 仓储秉承| 高速都市
返还吃隔阂罢工憨态可掬 ] 之好免费佳肴8by -1 报&nbsp140 超级19最低

step 4:

I run the command line to creat start traineddata:

training/tesstrain.sh  \
   
--fonts_dir /usr/share/fonts \
 
--lang chi_sim  \
 
--linedata_only \
 
--noextract_font_properties \
 
--exposures "0"    \
 
--langdata_dir ../langdata \
 
--tessdata_dir /home/hs/tessdata/tessdata  \
 
--output_dir ../tesstutorial/chi_sim

step 5:

training/combine_tessdata -e tessdata/best/chi_sim.traineddata \
 
../tesstutorial/chi_sim/chi_sim.lstm


step 6:

training/lstmtraining --model_output ../tesstutorial/chi_sim/out \
 
--continue_from ../tesstutorial/chi_sim/chi_sim.lstm \
 
--traineddata ../tesstutorial/chi_sim/chi_sim/chi_sim.traineddata \
 
--old_traineddata tessdata/best/chi_sim.traineddata \
 
--train_listfile ../tesstutorial/chi_sim/chi_sim.training_files.txt \
 
--max_iterations 5600

and I got a model which char error is 0.074%, I think that is low enough

step 7:

training/lstmtraining --stop_training \
 
--continue_from ../tesstutorial/chi_sim/out0.074_1224.checkpoint \
 
--traineddata ../tesstutorial/chi_sim/chi_sim/chi_sim.traineddata \
 
--model_output ../tesstutorial/chi_sim/out/chi_sim.traineddata

After that  ,I test my pics. I expect the result will be better than the oldder chi_sim.traineddata, especailly in the area where has the word I list in step 1.
 but no.

Example:


it should be recognized "税率", but the result is "梗率"。

I want to know is there anything wrong with my
method, please help me !!

Thank you very much!!

5143...@qq.com

unread,
Aug 18, 2017, 3:34:59 AM8/18/17
to tesseract-ocr
chi_sim.traineddata is not for LSTM4.0 


在 2017年8月15日星期二 UTC+8下午6:25:32,shuang hao写道:

ShreeDevi Kumar

unread,
Aug 18, 2017, 4:32:21 AM8/18/17
to tesser...@googlegroups.com
2017-08-18 12:48 GMT+05:30 <5143...@qq.com>:
chi_sim.traineddata is not for LSTM4.0 


5143...@qq.com

unread,
Aug 18, 2017, 4:41:49 AM8/18/17
to tesseract-ocr
sorry,  it for chi_sim.training_text:

在 2017年8月18日星期五 UTC+8下午4:32:21,shree写道:
Reply all
Reply to author
Forward
0 new messages