Arán ar maidin!
Áḃar ar biṫ ba ṁaiṫ leat.
Ba é an fear cliste é.
Ḃí muid ag iarraiḋ dul ann.
Cé hé an duine úd ṫall?
Ċonaic siḃ gaċ rud:
Druid an doras, le do ṫoil!
Ḋein sí rud air.
Earrach - an séasúr is fearr.
Éire: is grá liom ṫu.
Fuair siad an dea-ṗost.
Máthair Ḟinn mac Cuṁaill is ea í.
Go raiḃ maiṫ agaiḃ, a ḋaoine uaisle?
Ġeall sé dúinn go raiḃ sé fíor.
Haló! An ḃfuil duine sa teaċ?
Is é atá pósta lena ḃean.
Íde béil a ṫug sé don ḟear;
Leipreacán a dúirt liom é.
Ṁeas an ḃean ṡaiḃir nach raiḃ siad go breá.
Ná taḃair aird ar bith dó.
Oraiste a ṫug sé don ġasúr.
Ón droch-rud a ṫagann olc!
Páid is ainm dó.
Ṗós siad go luath ina ḋiaiḋ sin;
Rith sí léi go gasta.
“Seal ṫuas, seal ṫíos.”
Ṡíl mé go dtiocfainn, ach níor ṫangas.
Tá an cáilín fós ann.
Ṫall is aḃus, sin an áit a bí siad.
Uinnsean Morlei is ainm do.
Úll dón ṁúinteoir, a ṁic léinn!
’Sé an bealach ceart.
Ċuaiġ sé im’ intinn ḟéin.
“Is maith an rud é.”
Duirt sé, “Ciúnas!”
Tá a ḟios agam go ḃfuil faḋbanna gramadaí
ann san áḃar traenála ó ṫaoḃ an Gaeilge de.
Aċ rinne sé an ċúis ó ṫaoḃ an AOC de.
Níl sé mór ná fada.
An rud is taḃaċtaí faoi ná:
Gan litir mór aċ ag tús abairte.
Agus más gá, gan litir mór aċ ag tús focail.
Tá gaċ litir mór agus beag ann.
D'ḟág mé na huiṁreaċa 0123456789 féin amaċ.
Ní raiḃ siad i mo leaḃar féin aċ ag bun na leaṫanaċ.
Ciallaíonn sé sin naċ féidir le Tess botún a ḋéanaṁ
idir O agus 0, I agus 1, mura ḃfuil sé sa traenáil.
Is doċa naċ sásúil sé sin i gcónaí, agus tá bealaiġ ann ċun
cuidiú le sin más gá. Mar ṡampla tá white list agus black list
ag Tess.
-Galt
1. Roġnaiġ mé sampla maiṫ aṁáin de gaċ litir ó scanaċáin an leaḃair.
2. Do ċuir mé na samplaí ar aon íoṁa aṁáin tif le gimp.
3. Rinne mé boscaí ar le Tess make.box.
4. Ċeartaí mé na boscaí le jTessEditor más gá.
5. Riṫ mé mo ríoṁċlár féin makeBitmaps.py
a léann an .tif agus na boscaí ón .box
agus cuireann sé amaċ .tif beag áṁain do gaċ litir,
agus coṁad beag téacs aṁáin don aibitir go léir.
6. Riṫ mé mo ríoṁċlár féin generateScan.py ar an téacs traenála.
Tá roinnt rudaí le cur sa script
cosúil le an méid spáis atá idir na litreaċa,
an méid spáis atá idir na focail, méid pixels ar leiṫead agus airde
an leaṫanaiġ, srl. Ċuir sé amaċ .tif agus .box.
7. Rinne mé traenáil air sin le Tess3.01 ċun traineddata a ċruthú.
8. Rinne mé AOC, téacs agus hocr araon, ar leaṫanaiġ an leaḃair.
9. Ḃreathnaiġ mé ar na torṫaí.
Dá mḃeaḋ faḋb éigin ar an scanaċan féin
cosúil le bric ḃeaga (nó spotaí), do ghlán mé
suas iad. Ar 3 de na leaṫanaiġ, ḃí orm na ṫart fá
4 ṗéire cuótanna arda a ċur síos le gimp thart fá 10 px,
sin faḋb eile atá ag Tess uaireannta. Ċuir mé isteach
tuairisc feiṫide dó sin ag code.google.tesseract-ocr.
10. Nuair a ḃí gach rud glan ar na scanaċain,
riṫ mé Tess arís.
11. Do ċeartaiġ mé botúin éagsula sna torṫaí
a ḃí ann de ḃarr feiṫidí éigen sa ríoṁċlár.
Déanaim é seo ag an deireaḋ, mar ṫar an pointe seo,
ní féidir dul ar ais ċun Tess a riṫ arís gan na haṫrúnna
a rinne mé de lámh a ċailliúint.