తెలుగు ఓసిరావే !

6 views
Skip to first unread message

mv

unread,
Jun 22, 2009, 5:25:23 AM6/22/09
to తెలుగు సంగణన (telugu-computing)
తెలుగు ఓసిరావే !
ఓ మిత్రుడు అన్న మాట (రాసిన మాట) ఇది .

గూగులు & యాహూ తెలుగు గుంపులతో అనుబంధం ఉన్నవారికి
అడపా-తడపా తెలుగు ఓసిఆర్ గూర్చి సందేహం కనిపిస్తుంది . అయితే
చాలావరకు ఫలంగా లభిస్తే మనమూ పొందుదామనే ఆసక్తే ఎక్కువగా
కనిపించేది - స్వయంగా మనమూ ఓ ప్రయత్నం చేద్దామని
ఆలోచించినవారు తక్కువ .

తెలుగు ఓసిఆర్ గూర్చి కాస్త శ్రద్ధ పెట్టేవారికి కనిపించేవి రెండు
మార్గాలు .
మొదటిది దృష్టి - రెండవది టెస్సెరాక్ట్ . దృష్టి అనేది ప్రాధమికంగా C లో
ఉన్నా లైనెక్సు వేదికపై అభివృద్ధి చేయబడింది . దృష్టి ని ఫెడోరా లైనెక్సు
(రెడ్ హాట్) పై మాత్రమే ప్రయత్నించే వీలు ఉండటం వల్ల - ఉబుంటూ
పై ఎక్కువగా పనిచేసే తెలుగు నిపుణులు దాని జోలికే వెళ్లలేదు (?)

ఇక రెండోది టెస్సెరాక్ట్ . ఇది ఇంగ్లీషు మొదలైన లాటిను భాషలకే
ఉపయోగపడుతుందని అర్ధం చేసుకుని తెలుగు నిపుణులు దీని
గూర్చి అంతగా పట్టించుకోలేదు .

అయితే ఒక కన్నడ వ్యక్తి (వయోధికుడు) టెస్సెరాక్ట్ ని కన్నడ కి
అనుకూలంగా మలచాలని కొన్ని సంవత్సరాలుగా శ్రమిస్తున్నారు !
సాధనతో చక్కటి ఫలితాలనీ పొందుతున్నారు .

కన్నడ & తెలుగు లిపిలు దాదాపుగా ఒకేరకంగా ఉంటాయని
అందరికీ తెలిసినదే . మరి మనమూ తెలుగు టెస్సెరాక్ట్ ఓసిఆర్
కై ప్రయత్నం చేయవచ్చును కదా .

ఇదీ ఉపోద్ఘాతం . ఎవరైనా ఆసక్తిని చూపితే తెలుగు టెస్సెరాక్ట్
ఓసిఆర్ ని ఎలా రూపొందించుకోవాలి - అనే అసలు విషయాన్ని
చర్చించుకుని - ఒక ప్రణాళికని ఏర్పాటు చేసుకుని ప్రారంభిద్దాం .

* వెయ్యి అడుగుల ప్రయాణమైనా
మొదటి అడుగుతోనే ప్రారంభం అవుతుంది *

ధన్యవాదములు
- ఎమ్వీ

రాకేశ్వర రావు

unread,
Jun 22, 2009, 8:03:48 AM6/22/09
to తెలుగు సంగణన (telugu-computing)

ఎమ్వీ గారు,

శ్రీరంగ గారు సాధించిన OC Recogniztion యెక్క స్నాపుషాట్లు కూడా ఒకటి
రెండు పంపితే బాగుంటుంది.
అలానే tessaract ని ఎలా దింపుకొని ఎలా training ఇవ్వాలి అన్నది
క్లుప్తంగా చెప్పగలరు.

ఒక సారి టెస్సరెక్ట్ ని ప్రయత్నించి ఆ పై మున్ముందు ఏం చేయాలి అన్నది
కూడా చర్చించుకుందాం.

- రాకేశ్వర

Phani Pradeep

unread,
Jun 22, 2009, 8:53:16 AM6/22/09
to telugu-c...@googlegroups.com
నేను సైతం సిద్దం ఈ ప్రయాణానికి ... 
ఏమన్నా సూచనలు పంపితే చదివి ప్రయత్నించగలను 

Thanks and Regards,
Phani Pradeep
http://pradeepblog.miriyala.in


2009/6/22 రాకేశ్వర రావు <rake...@gmail.com>

svaram

unread,
Jun 22, 2009, 10:43:37 AM6/22/09
to తెలుగు సంగణన (telugu-computing)
1.
టెస్సెరాక్ట్ కి సంబంధించిన ఏమిటి , ఎలా ... మొదలైన
వివరణలని సంబంధిత వికీ పేజీలలో చూడవచ్చును
http://code.google.com/p/tesseract-ocr/w/list

అలాగే ఇది కూడా చూడగలరు :
http://tesseract-ocr.repairfaq.org

2.
టెస్సెరాక్ట్ సోర్సుకోడులని , కంపైలేషనులని & డేటా ఫైళ్లు ఇక్కడ :
http://code.google.com/p/tesseract-ocr/downloads/list

3.
విండోస్ కమాండ్ లైన్ ప్రోగ్రామ్ :
http://tesseract-ocr.googlecode.com/files/tesseract-2.01.exe.tar.gz

యూనికోడు కేరెక్టరు ఎక్స్ట్రాక్టర్ పాచ్ :
http://tesseract-ocr.googlecode.com/files/tesseract-2.01.patch1.tar.gz

ఇంగ్లీషు డేటా రికగ్నిషను పాకేజి :
http://tesseract-ocr.googlecode.com/files/tesseract-2.00.eng.tar.gz

4.
basically tesseract is a command line program and
some persons have made a couple of windows GUIs .

one such useful GUI is : VietOCR (originally made
for Vietnamese & English . and later modified to
include any other language . { in general , VietOCR
includes recent version of tesseract ocr engine }

http://sourceforge.net/projects/vietocr

5.
tesseract సోర్సుకోడు ని పరిశీలనలో ఉంచుకుని , ముందుగా windows
లో నేరుగా ఉపయోగించగలిగే ప్రొగ్రాములని ప్రయత్నించడమే మంచిదని నా
అభిప్రాయం . తర్వాత అవసరాన్ని బట్టి సోర్సు మాడిఫికేషను కి
వెళ్లవచ్చును .

6.
తెలుగు రికగ్నిషను డేటా ఫైళ్లని రూపొందించడమే మొదట సాధించవలసిన
కష్టమైన పని :-) ఇందుకోసం మన భాషలో ఉన్న అన్ని రకాల అక్షరాల
సముదాయాలను ఒక Unicode text file లో టైపు చేసుకోవాల్సి
ఉంటుంది . ప్రతి అక్షర సముదాయాన్నీ ప్రాధాన్యత కల కొన్ని (min:6)
రకాల fonts తో టైపు చేయాల్సి ఉంటుంది . it is a huge &
most monotonous task which needs to be achieved .

if this task can be automated then that could be
a great help to proceed further . ఇందుకు సాంకేతిక
నైపుణ్యం కలవారు తగిన కోడ్ ని రూపొందించే వీలు ఉండవచ్చును .
అది ఎలా అనేది ఆలోచించాలి ...
________________________________________________

svaram

unread,
Jun 22, 2009, 11:00:15 AM6/22/09
to తెలుగు సంగణన (telugu-computing)
There was some technical problem here and
I missed adding this : టెస్సెరాక్ట్ కన్నడ టెస్ట్ ఇమేజీలు
(సైజు కుదించబడినవి) , ఔట్ పుట్ లని ఇక్కడ చూడగలరు :
http://tesseract-kannada-test.4shared.com
Reply all
Reply to author
Forward
0 new messages