tesseract కోఱకున్ కైఁ

42 views
Skip to first unread message

Rakesh Achanta

unread,
Jul 7, 2009, 7:18:35 AM7/7/09
to సంగణన
Sample .box and .tif files for telugu training.


Also Samples of detection done on Gautami and Pothana fonts.

నేను ట్రెయినింగు ఇచ్చింది పోతన ఫాంటుతో, కాబట్టి గౌతమిలో తప్పులు వుంటాయి.

ఏదైమైనా, పెద్ద కష్టం కాదు, libtiff వాడి పెద్ద పెద్ద ట్రయినింగు బొమ్మలు తయారు చేయడమే మర్మము.

- రాకేశ్
long32.box.txt
long32.tif
mandara.tif
mandara.txt
kapala_g.txt
kapala_g.tif
కాపలాదారు.tif
కాపలాదారు.txt

Sri Raghava Kiran Mukku

unread,
Jul 7, 2009, 8:18:27 AM7/7/09
to telugu-c...@googlegroups.com
రాకేశ్వరులవారూ

బావుంది... మీకు చప్పట్లు, పుల్లట్లూ. :)

~ రాఘవ

2009/7/7 Rakesh Achanta <rake...@gmail.com>



--
అనిర్వచనీయం ప్రేమస్వరూపమ్౹ మూకాస్వాదనవత్౹ ప్రకాశతే క్వాపి పాత్రే౹ గుణరహితం కామనారహితం ప్రతిక్షణవర్ధమాన మవిచ్ఛిన్నం సూక్ష్మతర మనుభవరూపమ్౹ తత్ప్రాప్య తదేవావలోకతి తదేవ శృణోతి తదేవ భాషయతి తదేవ చిన్తయతి౹

Ravi Chandra Enaganti

unread,
Jul 13, 2009, 7:10:53 AM7/13/09
to telugu-c...@googlegroups.com
ఈ సాఫ్ట్‌వేరు ప్రధాన ఉద్దేశ్యం పుస్తకాలను (బహుశా పాత లేదా ముద్రించబడిన తెలుగు పుస్తకాలు)  స్కాన్ చెయ్యగా వచ్చిన బొమ్మల నుంచి సంబంధిత పాఠ్యాన్ని యూనికోడ్ లో తెలుగు అక్షరాల్లాగా మార్చడం అనుకుంటున్నాను. నా అభిప్రాయం సరియైనదేనా?

అలాంటప్పుడు ఈ అల్గారిథమ్ కి ట్రైనింగ్ ఇవ్వడం కోసం   తెలుగు ముద్రణా ప్రతుల్లో సాధారణంగా వాడే ఫాంటును వాడాలనుకుంటా. ఇప్పుడు బాగా ప్రాచుర్యంలో ఉన్న పోతనా, గౌతమి, లోహిత్ వంటి ఫాంటులతో ట్రైనింగ్ ఇవ్వడం ద్వారా ఏమైనా ఉపయోగముందా?.

జులై 19, ఆదివారం తేదీన హైదరాబాదులో జరిగిన ఈ-తెలుగు సమావేశంలో ఈ అంశం చర్చకు వచ్చింది. తెలుగు పుస్తకాల్లో ఉన్న ఫాంటు తో ట్రైనింగ్ ఇవ్వడం కోసం స్కానింగ్ చేసిన తెలుగు పుస్తకాల పేజీలను ఇవ్వడానికి కొంత మంది సభ్యులు ముందుకు వచ్చారు. మీరు నాకు క్లారిఫికేషన్ ఇస్తే వారిని సంప్రదించి వారి నుంచి స్కాన్‌డ్ కాపీలను తెప్పించడానికి ప్రయత్నిస్తాను.


2009/7/7 Sri Raghava Kiran Mukku <msrk...@gmail.com>

రాకేశ్వర రావు

unread,
Jul 16, 2009, 7:13:51 AM7/16/09
to తెలుగు సంగణన (telugu-computing)

రవిచంద్రగారిది మంచి పాయింటు. కాబట్టే మేము కూడా గౌతమితో ట్రయినింగు
ఇవ్వలేదు.
పోతనైతే పుస్తకాలలో కనబడేదానికి కాస్త దగ్గరగా వుంటాయిగా అని దానిని
నేర్పడం జరిగింది.
అను ఖతులలో మంచివి ఒక పదో పదిహేనో ఎంచుకొని వాటిలో మనము మన ట్రెయినింగు
ఇవ్వాల్సిన బొమ్మలను తయారు చేసుకోవడం తదుపరి కర్తవ్యం.

పాత పుస్తకాలలోని స్కానులు అంత బాగా పనికి రావు, అంటే పనికి వస్తాయిగాని,
వాటిలో ట్రెయినింగు ఇవ్వడం కష్టమైన పని.
విరివిగా వాడబడే అక్షరాల సముదాయాన్ని ఒక దాన్ని మంచి ట్రెయినింగు
సెట్టుగా నిర్ధారించుకోవాలి ముందు.
దానినే వివిధ మంచి అను ఫాంట్లలో ముద్రించుకోవాలి.

కాబట్టి గత యాభై ఏళ్లగా తెలుగు పుస్తాకాల ప్రచురణలో వాడబడిన వివిధ ప్రముఖ
ఖతుల వివరాలు ఎవరైనా ఇవ్వగలిగినా,
వాటి సమీప అను ఖతుల వివరాలు ఎవరైనా ఇవ్వగలిగినా, బాగుంటుంది.
---
ఇక మంచి ట్రెయినింగు సెట్టుని తయారు చేసేవిషయమై, దాని గుఱించి కూడా
చర్చించాల్సివుంది.

ఇవి మనముందున్న పనులు, వీటిరెంటినీ పూర్తిచేస్తే, ఒక మంచి ౯౯శాతం ఓసియారు
తయారౌతుంది.

మీ
రాకేశ్వర


On Jul 13, 4:10 pm, Ravi Chandra Enaganti


<ravichandra.enaga...@gmail.com> wrote:
> ఈ సాఫ్ట్‌వేరు ప్రధాన ఉద్దేశ్యం పుస్తకాలను (బహుశా పాత లేదా ముద్రించబడిన
> తెలుగు పుస్తకాలు)  స్కాన్ చెయ్యగా వచ్చిన బొమ్మల నుంచి సంబంధిత పాఠ్యాన్ని
> యూనికోడ్ లో తెలుగు అక్షరాల్లాగా మార్చడం అనుకుంటున్నాను. నా అభిప్రాయం
> సరియైనదేనా?
>
> అలాంటప్పుడు ఈ అల్గారిథమ్ కి ట్రైనింగ్ ఇవ్వడం కోసం   తెలుగు ముద్రణా ప్రతుల్లో
> సాధారణంగా వాడే ఫాంటును వాడాలనుకుంటా. ఇప్పుడు బాగా ప్రాచుర్యంలో ఉన్న పోతనా,
> గౌతమి, లోహిత్ వంటి ఫాంటులతో ట్రైనింగ్ ఇవ్వడం ద్వారా ఏమైనా ఉపయోగముందా?.
>
> జులై 19, ఆదివారం తేదీన హైదరాబాదులో జరిగిన ఈ-తెలుగు సమావేశంలో ఈ అంశం చర్చకు
> వచ్చింది. తెలుగు పుస్తకాల్లో ఉన్న ఫాంటు తో ట్రైనింగ్ ఇవ్వడం కోసం స్కానింగ్
> చేసిన తెలుగు పుస్తకాల పేజీలను ఇవ్వడానికి కొంత మంది సభ్యులు ముందుకు వచ్చారు.
> మీరు నాకు క్లారిఫికేషన్ ఇస్తే వారిని సంప్రదించి వారి నుంచి స్కాన్‌డ్ కాపీలను
> తెప్పించడానికి ప్రయత్నిస్తాను.
>

> 2009/7/7 Sri Raghava Kiran Mukku <msrki...@gmail.com>


>
> > రాకేశ్వరులవారూ
>
> > బావుంది... మీకు చప్పట్లు, పుల్లట్లూ. :)
>
> > ~ రాఘవ
>

> > 2009/7/7 Rakesh Achanta <rakesh...@gmail.com>

haridallas

unread,
Aug 30, 2009, 2:06:33 PM8/30/09
to తెలుగు సంగణన (telugu-computing)
I am a newbie to this forum
let me introduce my self I am a medical physiciasn born in warangal
studied and worked in hyderabad and delhi and migrated to USA in
1994 much interested in naturak kanguage processing and from a
medical point specially for people with handicaps needing
assitive devises interested in telugu handwriting and voice /
speech recognition .
.
in this I have been trying my mad scientist work using some
commercial hand writing recognition and dragon naturally
speaking in to a telugu speech recognition with very littile
development so far I will put the details in the forum in future .

but for any thing linguistivc to develop it is first important to
get fundamentals .
OCR is one such " punaadi raayi"
I have been hoping for telugu OCr from 1998 whe I raised this
in racchabanda whch is a forum for telugu saahitya charcha .

I convey my heart felt congratualtions to Rakeshvara rao for
single handedly making my dream come true .

rakesh can you please send me your email so that I could get some
input on my speech and hand wrting recognition efforts also.

as for my own discussion regarding the tessereact telugu OCR.

మందార మకరంద మల్లధుర్యమున దేలు మధుపంబు వోవునే మదనములకు
నిర్మల మంధాకినీ నీఛికల దూగు రాయంచ జనునె తరంగిణులకు
లలిత రసాల పల్లన గాదియై చొకు్క కోయిల వేఠునే కుటజములకు
పూఠ్ఠందు చంర్రకా ్స్ప్ఫరిత చకోరకం బఠుగువే పాంర్ర వీహారములకు
ఆంబుజోదర దివ్య పాదారవింద
ఛింతనామృత పాన విశేష మత్త
చిత్తమేరీతి యితరంబు జెయవేఠు్చ

39 words
10 worng
Which gives about 75 to 80 % accuracy.

259 graphemes/18 wrong
This is a much better way to look at this


The only way this can be made 100 percent is to have a dictionary
and spell check attached to the OCR

Which is once again a చికెన్ and egg problem unless all the words we
want and the context information is available we క్యాన్ not build a
dictionary.

Mr. sreenu of aksharamala had a spell check for aksharamala if he
could be requested to combine his group and his downloadable files
which he has made free in google groups it can act as a
starting point .

I have been collecting a large amount of corpus material using
various methods .
One of them is to go to web corpus website and collect as much web
material as possible I will send those files once I clean them up
a little .
We need multiple people proof reading the word list before adding
it to the dictionary files .


( I was experimenting with word auto correct and the English words
are automatically getting conveted to telugu ;-)

first of all depending on which press was printing the books they
had their own fonts I suppose til the advent of computers we
have not heard of the word " FONT" in the telugu language I can say
this because I have read telugu medium till 12 standard and havent
heard of this till I cane to USA in 1994 !

so we may have to create our own names for certain print
fonts if needed .
they could be based on the publishers or printers names .
also we should first use the good fonts whch are used in the latest
printed pages to train and slowly go to the older and poorly printed
and also more complexly worded material .

if rakesh could try his test using todays eenadu paper and
place the result we can check how accurate the OCr machine really
is in detecting clear cut fonts ,using simple words


by the way how do I add files and pictures to messages in my
replies .
I had placed the errors in red and some screen captures of
google books telugu books search ,
But dont know how to attach them

haridallas

unread,
Aug 31, 2009, 3:52:41 PM8/31/09
to తెలుగు సంగణన (telugu-computing)
I have downloaded the file extracted it
and when I press on the exe
all I get is a flash of a black window like the old c prompt
window but it is just a flash and then I get nothing

you need to give a step by step instruction

this was the same problem with the University of HYd 'DrishTi"
also it is supposed to work only with linux only computer geeks ( I
consider being called a complement and not a tiTTU;-)} have any
idea how to run a linux in USA ;-)

if you could add a screen capture program it will help

మా బామ్మ గూడా దీన్ని ప్రయొగించేలా ఉండాలి

>  long32.box.txt
> 18KViewDownload
>
>  long32.tif
> 427KViewDownload
>
>  mandara.tif
> 57KViewDownload
>
>  mandara.txt
> 1KViewDownload
>
>  kapala_g.txt
> 3KViewDownload
>
>  kapala_g.tif
> 42KViewDownload
>
>  కాపలాదారు.tif
> 42KViewDownload
>
>  కాపలాదారు.txt
> 3KViewDownload

Reply all
Reply to author
Forward
0 new messages