Bhain mé úsáid as Tess3.01 chun AOC a dhéanamh ar leabhar páiste le seanchló.

24 views
Skip to first unread message

Galt Barber

unread,
May 24, 2012, 6:26:44 PM5/24/12
to Seanchló
Bhain mé úsáid as Tesseract 3.01 chun AOC (OCR) a dhéanamh ar leabhar
páiste le seanchló.

Is docha nach bhfuil an leabhar féin tabhachtach, cé go dtaitníonn sé
liomsa go pearsanta.

Tar éis dom traenáil a dhéanamh le ríomhchláir a rinne mé as Python
chun íomhánna litreacha a bhaint ó scanacháin an leabhair, agus níos
déanaí, téacs gearr Gaeilge a
dhéanmh as na híomhánna sin agus boscaí (.box) cruthaithe go
huathaibríoch,
bhí mé in ann AOC a dhéanamh le Tess.

Tá 72 leathanach le 56 míle carachtar sa leabhar.
Fuair Tess gach rud ceart ach amháin thart fá 30 botún.

Rinne mé pdf iontach deas as na scanacháin le scanTailor, jbigenc,
tesseract, pdfbeads.

Ní raibh liosta focal, ná liosta focal rangaithe ar minicíocht, ná
liosta dé-bhríoch
ag an samhail Tess sa traineddata. (Ach tá na rudaí sin fiúntach mar
sin fhéin.)

Níor thóg sé a lán téacs traenála ach oiread.

Ach bhí fadhb agam leis an traenáil go dtí go bhfuair mé amach
cleas amháin atá an-tabachtach trí triall-agus-clis:
Ní n-oibríonn Tess má chuirtear litir mór ann in áit ar bith
ach ag tús focail. Ní deireann na treoracha rud ar bith faoi sin,
faraor.
(Bhain mé triall as Tess2.04 agus bhí an fhadhb céann agam leis.)

Más maith le duine mo scéal bocht ag stracháilt le Tess a fheiceáil ar
líne,
tá tchtí uaim ar google groups agus google code do "tesseract-ocr".

Tá pdf agam le pictiúirí daite, 72 lthc, clár, uibhreacha cearta ar
leathanaigh,
agus tá sé in-cuardaithe, agus is féidir an téacs a roghnú agus a
chóipeáil.
Níl sé ach 4MB.

Galt Barber

unread,
May 26, 2012, 2:26:35 AM5/26/12
to Seanchló
There is a copy of the pdf here:

http://folkplanet.com/seanchlo/gortoir/GortOir.pdf

Galt Barber

unread,
May 26, 2012, 2:30:25 AM5/26/12
to Seanchló
NOTE:

In the chrome browser, I found that it worked better
after I closed all the chrome windows and upgraded
the acroreader from 9 to X.

Kevin Scannell

unread,
May 26, 2012, 8:11:47 AM5/26/12
to sean...@googlegroups.com
A Ghalt, a chara,

Go raibh maith agat as do theachtaireacht!

2012/5/24 Galt Barber <ga...@folkplanet.com>:
> Bhain mé úsáid as Tesseract 3.01 chun AOC (OCR) a dhéanamh ar leabhar
> páiste le seanchló.
>
> Is docha nach bhfuil an leabhar féin tabhachtach, cé go dtaitníonn sé
> liomsa go pearsanta.
>
> Tar éis dom traenáil a dhéanamh le ríomhchláir a rinne mé as Python
> chun íomhánna litreacha a bhaint ó scanacháin an leabhair, agus níos
> déanaí, téacs gearr Gaeilge a
> dhéanmh as na híomhánna sin agus boscaí (.box) cruthaithe go
> huathaibríoch,
> bhí mé in ann AOC a dhéanamh le Tess.

Tá an-suim agam sa bpróiseas seo, ar ndóigh.

Cad é an ríomhchlár a d'úsáid tú chun na comhaid .box a chruthú go
huathoibríoch?

Agus an mbeifeá sásta do script Python a chur ar fáil sa gcartlann atá againn?

>
> Tá 72 leathanach le 56 míle carachtar sa leabhar.
> Fuair Tess gach rud ceart ach amháin thart fá 30 botún.
>
> Rinne mé pdf iontach deas as na scanacháin le scanTailor, jbigenc,
> tesseract, pdfbeads.

Go hálainn! Chruthaigh mé comhad téacs as an PDF - dochreidte!

Is dócha go raibh mé ag déanamh rud éigin mícheart le Tesseract
nuair a bhí mé ag traenáil leis na comhaid .box inár gcartlann - bhí
i bhfad níos mó botún ná 30 / 56000...



>
> Ní raibh liosta focal, ná liosta focal rangaithe ar minicíocht, ná
> liosta dé-bhríoch
> ag an samhail Tess sa traineddata.  (Ach tá na rudaí sin fiúntach mar
> sin fhéin.)
>
> Níor thóg sé a lán téacs traenála ach oiread.
>
> Ach bhí fadhb agam leis an traenáil go dtí go bhfuair mé amach
> cleas amháin atá an-tabachtach trí triall-agus-clis:
> Ní n-oibríonn Tess má chuirtear litir mór ann in áit ar bith
> ach ag tús focail.  Ní deireann na treoracha rud ar bith faoi sin,
> faraor.
> (Bhain mé triall as Tess2.04 agus bhí an fhadhb céann agam leis.)

Ní oibríonn Tess - an gciallaíonn seo an chéim thraenála nó an OCR féin?


>
> Más maith le duine mo scéal bocht ag stracháilt le Tess a fheiceáil ar
> líne,
> tá tchtí uaim ar google groups agus google code do "tesseract-ocr".
>
> Tá pdf agam le pictiúirí daite, 72 lthc, clár, uibhreacha cearta ar
> leathanaigh,
> agus tá sé in-cuardaithe, agus is féidir an téacs a roghnú agus a
> chóipeáil.
> Níl sé ach 4MB.
>

GRMA arís a Ghalt
Kevin

Galt Barber

unread,
May 26, 2012, 3:29:12 PM5/26/12
to Seanchló
> Agus an mbeifeá sásta do script Python a chur ar fáil sa gcartlann atá againn?

Tá sasta mo scriptanna bochta a rionnt le daoine.

> Go hálainn!  Chruthaigh mé comhad téacs as an PDF  - dochreidte!

Tá suíomh html déanta agam anois freisin, as an téacs Thess:

http://folkplanet.com/seanchlo/gortoir/gortoircludach.html

(Na bac leis an bosca cuardach ag bun na leathanach, tá sé briste.)

> Is dócha go raibh mé ag déanamh rud éigin mícheart le Tesseract
> nuair a bhí mé ag traenáil leis na comhaid .box inár gcartlann - bhí
>  i bhfad níos mó botún ná 30 / 56000...

Rinne mé an rud céanna ar feadh tamaill, ag iarraidh traenáil
a dhéanamh go direach as na scanacháin féin. (Do thriall mé
go leor rudaí sula bhfuair mé rud éigin a d'oibrigh go maith.)
Ach shíl mé go raibh sé ag éirigh níos measa de réir mar
a thug mé níos mó agus níos mó leathanaigh do Thess
mar ábhar traenála. Mar shampla, le 3 lth, bhí sé ceart
go leor, ach le 9 lth, bhí sé ag éirigh níos measa.
Ar ndoigh, le Tess, tá fadhbanna eile seachas an iomarca
lthc thraenála i gceist nuair atáthar ag baint úsáid as
na scanacháin féin.

> > Ní n-oibríonn Tess má chuirtear litir mór ann in áit ar bith
> > ach ag tús focail.  Ní deireann na treoracha rud ar bith faoi sin,
> > faraor.
> > (Bhain mé triall as Tess2.04 agus bhí an fhadhb céann agam leis.)
>
> Ní oibríonn Tess - an gciallaíonn seo an chéim thraenála nó an OCR féin?

An OCR féin. Ní thugann Tess a lán tchtí faoi fhadhbanna traenála.
Níl sí éasca le sasamh ach ní deireann sí mórán leat nuair nach bhfuil
sí sasta.
Agus tá rudaí ann ba chóir di a ghlacadh ach nach n-oibríonn de bharr
feithidí éigin is docha.

Dála an scéil,
An oibríonn droimeanna ar google groups?
Seo teaċtaireaċt mar ṫastáil.

Is iontach an méid bogearra anois a ghlacann Aon-chódáil
agus utf-8. I bhfad níos fearr ná na sean-laethanta.


-Galt

Galt Barber

unread,
May 26, 2012, 3:46:58 PM5/26/12
to Seanchló
Mura bhfaca tú é seo, seo an téacs a bhain mé úsáid as
le Tess3.01 agus d'oibrigh sé go maith dom faoi dheireadh:

Arán ar maidin!
Áḃar ar biṫ ba ṁaiṫ leat.
Ba é an fear cliste é.
Ḃí muid ag iarraiḋ dul ann.
Cé hé an duine úd ṫall?
Ċonaic siḃ gaċ rud:
Druid an doras, le do ṫoil!
Ḋein sí rud air.
Earrach - an séasúr is fearr.
Éire: is grá liom ṫu.
Fuair siad an dea-ṗost.
Máthair Ḟinn mac Cuṁaill is ea í.
Go raiḃ maiṫ agaiḃ, a ḋaoine uaisle?
Ġeall sé dúinn go raiḃ sé fíor.
Haló! An ḃfuil duine sa teaċ?
Is é atá pósta lena ḃean.
Íde béil a ṫug sé don ḟear;
Leipreacán a dúirt liom é.
Ṁeas an ḃean ṡaiḃir nach raiḃ siad go breá.
Ná taḃair aird ar bith dó.
Oraiste a ṫug sé don ġasúr.
Ón droch-rud a ṫagann olc!
Páid is ainm dó.
Ṗós siad go luath ina ḋiaiḋ sin;
Rith sí léi go gasta.
“Seal ṫuas, seal ṫíos.”
Ṡíl mé go dtiocfainn, ach níor ṫangas.
Tá an cáilín fós ann.
Ṫall is aḃus, sin an áit a bí siad.
Uinnsean Morlei is ainm do.
Úll dón ṁúinteoir, a ṁic léinn!
’Sé an bealach ceart.
Ċuaiġ sé im’ intinn ḟéin.
“Is maith an rud é.”
Duirt sé, “Ciúnas!”

Tá a ḟios agam go ḃfuil faḋbanna gramadaí
ann san áḃar traenála ó ṫaoḃ an Gaeilge de.
Aċ rinne sé an ċúis ó ṫaoḃ an AOC de.

Níl sé mór ná fada.
An rud is taḃaċtaí faoi ná:
Gan litir mór aċ ag tús abairte.
Agus más gá, gan litir mór aċ ag tús focail.

Tá gaċ litir mór agus beag ann.

D'ḟág mé na huiṁreaċa 0123456789 féin amaċ.
Ní raiḃ siad i mo leaḃar féin aċ ag bun na leaṫanaċ.
Ciallaíonn sé sin naċ féidir le Tess botún a ḋéanaṁ
idir O agus 0, I agus 1, mura ḃfuil sé sa traenáil.
Is doċa naċ sásúil sé sin i gcónaí, agus tá bealaiġ ann ċun
cuidiú le sin más gá. Mar ṡampla tá white list agus black list
ag Tess.

-Galt

Galt Barber

unread,
May 26, 2012, 4:54:40 PM5/26/12
to Seanchló

An rud a rinne mé ċun scanaċán traenála a ċruṫú:

1. Roġnaiġ mé sampla maiṫ aṁáin de gaċ litir ó scanaċáin an leaḃair.

2. Do ċuir mé na samplaí ar aon íoṁa aṁáin tif le gimp.

3. Rinne mé boscaí ar le Tess make.box.

4. Ċeartaí mé na boscaí le jTessEditor más gá.

5. Riṫ mé mo ríoṁċlár féin makeBitmaps.py
a léann an .tif agus na boscaí ón .box
agus cuireann sé amaċ .tif beag áṁain do gaċ litir,
agus coṁad beag téacs aṁáin don aibitir go léir.

6. Riṫ mé mo ríoṁċlár féin generateScan.py ar an téacs traenála.
Tá roinnt rudaí le cur sa script
cosúil le an méid spáis atá idir na litreaċa,
an méid spáis atá idir na focail, méid pixels ar leiṫead agus airde
an leaṫanaiġ, srl. Ċuir sé amaċ .tif agus .box.

7. Rinne mé traenáil air sin le Tess3.01 ċun traineddata a ċruthú.

8. Rinne mé AOC, téacs agus hocr araon, ar leaṫanaiġ an leaḃair.

9. Ḃreathnaiġ mé ar na torṫaí.
Dá mḃeaḋ faḋb éigin ar an scanaċan féin
cosúil le bric ḃeaga (nó spotaí), do ghlán mé
suas iad. Ar 3 de na leaṫanaiġ, ḃí orm na ṫart fá
4 ṗéire cuótanna arda a ċur síos le gimp thart fá 10 px,
sin faḋb eile atá ag Tess uaireannta. Ċuir mé isteach
tuairisc feiṫide dó sin ag code.google.tesseract-ocr.

10. Nuair a ḃí gach rud glan ar na scanaċain,
riṫ mé Tess arís.

11. Do ċeartaiġ mé botúin éagsula sna torṫaí
a ḃí ann de ḃarr feiṫidí éigen sa ríoṁċlár.
Déanaim é seo ag an deireaḋ, mar ṫar an pointe seo,
ní féidir dul ar ais ċun Tess a riṫ arís gan na haṫrúnna
a rinne mé de lámh a ċailliúint.


Kevin Scannell

unread,
May 29, 2012, 11:04:58 AM5/29/12
to sean...@googlegroups.com
2012/5/26 Galt Barber <ga...@folkplanet.com>:
>> Agus an mbeifeá sásta do script Python a chur ar fáil sa gcartlann atá againn?
>
> Tá sasta mo scriptanna bochta a rionnt le daoine.

Go breá - ba mhaith liom treoracha traenála céim ar chéim a chur ar ár
suíomh Google Code, chomh maith leis na models críochnaithe a rinne
tú, más féidir (feicim gur sheol tú treoracha i dteachtaireacht eile -
míle buíochas).

>
>> Go hálainn!  Chruthaigh mé comhad téacs as an PDF  - dochreidte!
>
> Tá suíomh html déanta agam anois freisin, as an téacs Thess:
>
>  http://folkplanet.com/seanchlo/gortoir/gortoircludach.html
>
> (Na bac leis an bosca cuardach ag bun na leathanach, tá sé briste.)
>
>> Is dócha go raibh mé ag déanamh rud éigin mícheart le Tesseract
>> nuair a bhí mé ag traenáil leis na comhaid .box inár gcartlann - bhí
>>  i bhfad níos mó botún ná 30 / 56000...
>
> Rinne mé an rud céanna ar feadh tamaill, ag iarraidh traenáil
> a dhéanamh go direach as na scanacháin féin.  (Do thriall mé
> go leor rudaí sula bhfuair mé rud éigin a d'oibrigh go maith.)
> Ach shíl mé go raibh sé ag éirigh níos measa de réir mar
> a thug mé níos mó agus níos mó leathanaigh do Thess
> mar ábhar traenála.  Mar shampla, le 3 lth, bhí sé ceart
> go leor, ach le 9 lth, bhí sé ag éirigh níos measa.

Bhí an fhadhb chéanna agamsa.

> Ar ndoigh, le Tess, tá fadhbanna eile seachas an iomarca
> lthc thraenála i gceist nuair atáthar ag baint úsáid as
> na scanacháin féin.
>
>> > Ní n-oibríonn Tess má chuirtear litir mór ann in áit ar bith
>> > ach ag tús focail.  Ní deireann na treoracha rud ar bith faoi sin,
>> > faraor.
>> > (Bhain mé triall as Tess2.04 agus bhí an fhadhb céann agam leis.)
>>
>> Ní oibríonn Tess - an gciallaíonn seo an chéim thraenála nó an OCR féin?
>
> An OCR féin.  Ní thugann Tess a lán tchtí faoi fhadhbanna traenála.
> Níl sí éasca le sasamh ach ní deireann sí mórán leat nuair nach bhfuil
> sí sasta.
> Agus tá rudaí ann ba chóir di a ghlacadh ach nach n-oibríonn de bharr
> feithidí éigin is docha.
>
> Dála an scéil,
> An oibríonn droimeanna ar google groups?
> Seo teaċtaireaċt mar ṫastáil.

Oibríonn!

>
> Is iontach an méid bogearra anois a ghlacann Aon-chódáil
> agus utf-8.  I bhfad níos fearr ná na sean-laethanta.
>
>

Beidh mé ag taisteal ar feadh seachtaine (ag comhdháil NAACLT ansin
cúpla lá i mBoston le mo mhuintir) ach nuair a bheidh mé sa bhaile
arís déanfaidh mé iarracht do threoracha a leanúint agus gach rud a
shocrú sa chaoi go mbeidh daoine eile in ann a scanacháin féin a
dhéanamh

GRMMA a Ghalt!
Kevin

Galt

unread,
Jun 14, 2012, 2:35:59 AM6/14/12
to sean...@googlegroups.com
Rinne mé Tess ar leabhar eile:  Aesop a tháinig go h-Éirinn.

Rinne mé suíomh html

agus pdf in-cuardaithe

Rinne mé é leis an ṗróiséas céadna. Tá litreacha beaga "alternate" r agus s agus ṡ sa leaḃar seo.
Faraor, de ḃarr botúin, fágáḋ ar lár lṫċ 132 agus 133.  Déanfaiḋ mé iarraċt an leaḃar a ḟáil ar iasaċt
arís ċun na leaṫanaiġ sin a críoċnú.

Galt

unread,
Jun 22, 2012, 11:17:19 PM6/22/12
to sean...@googlegroups.com

Fuair mé  lṫċ 132 agus 133, tá siad sa leabhar anois!

-Galt

Galt

unread,
Jul 23, 2012, 1:32:17 AM7/23/12
to sean...@googlegroups.com

Ní maiṫ liom am a ċur amuiġ ag bacaḋ le hárd-comharthaí athfhriotail
naċ maith le Tess.

B'ḟéidir go gcuideoiḋ an socrú ríoṁaire seo a fuair Nick go mór linn.

-Galt

On Fri, Jun 01, 2012 at 10:16:52AM +0100, Nick White wrote:
> On Wed, May 23, 2012 at 05:39:00PM +0100, Nick White wrote:
> > On Tue, May 22, 2012 at 05:21:23AM -0700, Galt wrote:
> > > On May 21, 2:04�am, Nick White <nick.wh...@durham.ac.uk> wrote:
> > > > I've been suffering a very similar problem with some of the text I'm
> > > > training, which has several diacritics above and below glyphs. It
> > > > isn't infrequent to find quite a few lines of garbage which are some
> > > > of the diacritics taking a line, which then causes the following and
> > > > preceding lines to not include said diacritics.
>
> I wonder, is there any way of harnessing the Tesseract API or
> configuration options to affect line height and line detection? I
> can't seem to make the above problem go away.

I finally solved this problem for my case! I found the configuration
setting 'textord_min_linesize'. With this I can assure Tesseract
that lines the size of accents should never be considered, and the
problem goes away entirely. I set the value to 2.5, twice the
default, after trial-and-error.

Nick

Galt

unread,
Oct 17, 2012, 12:47:41 AM10/17/12
to sean...@googlegroups.com
-----------------------------------------
Bogearra usáidte le Aesop.pdf a dhéanamh:
-----------------------------------------

cygwin ar Fuinneoga 7

Image Magick

ScanTailor (Glan na scannaithe)

Don pdf:
pdfBeads 1.08
Ruby (do Fuinneoga mar níor oibrigh sé le cygwin/win7)
rmagick
hpricot (hocr html)
jbigenc (jbig2 ó Google)
(bhí paitseáil beag de dhíth ar pdfbeads
chun an hocr html ó Tess a chur ag obair.)

Don AOC - aithint optúil carachtar (OCR):
Tesseract 3.01 (sin é an leagan oifigiúil is nua a bhí le fáil ag an am)
JTessBoxEditor 0.6 (oibríonn sé le comhaid .box ó Tess)
java
Akelpad (eagarthóir téacs) mar oibríonn sé le UTF-8/BOM/Unix-Win-Mac-newlines)
Python3
2 script a rinne mé 
 Baineann an chéad script (makeBitmaps.py) amach cló (tif) do gach litir.
 Léann an dara script (generateScan.py) téacs agus cuireann sé amach leathanach
 mór amháin .tif leis an téacs scríofa leis na litreacha ón chéad script.
 Ní bheadh sé seo de dhíth má tá cló ceart agat (e.g. .ttf) sa chéad dul síos.
 Ach i mo chás féin, ní raibh ach scannaithe ón leabhar féin agam.

Do na leathanaigh html:
Rebol 3.0 (utf-8)
Script eile (aesop.r) a scríobh mé chun leabhar html
a dhéanamh as téacs agus pictiúir.

Reply all
Reply to author
Forward
0 new messages