---------- ఫార్వర్డ్ చేసిన సందేశం ----------
పంపినవారు:
Arjuna Rao Chavala <arjun...@gmail.com>
తేది: 28 డిసెంబర్ 2012 3:00 సా
సబ్జెక్టు: Re: [సంగణన] Training Data needed for OCR
వీరికి:
telugu-c...@googlegroups.com
నుండి సృష్టించిన
దాదాపుగా 125 పాఠ్యపేజీలు మరియు 25 అనుబంధపేజీల స్కాన్ బొమ్మల మరియు వాటి యూనికోడ్ పాఠ్య దత్తాంశం తెలుగు వికీసోర్స్ లో స్వచ్ఛంద కార్యకర్తల కృషి వల్ల అందుబాటులోకి వచ్చింది. దీని పరిమాణం బొమ్మలరూపంలో 26910మెగాబైట్లు (పేజీ 179.4కిబై జెపెగ్ రూపంలో) పాఠ్యరూపంలో 0.555 మెగాబైట్లు(పేజీ 3.7కిబై) వుంది. అనగా పాఠ్యీకరణ పరిమాణాన్ని దాదాపు50 వంతుకు కుదించటంతో పాటు ఎటువంటి గణనపరికరంపైన సమాచారాన్ని చదవకలిగేస్థితికి తీసుకొస్తుంది.
దీనిని ఉపయోగించి తెలుగు ఒసిఆర్ సాఫ్ట్వేరు అభివృద్ధిపరచి తెవికీ సోర్స్ కు అనుబంధముచేసినచో, పాఠ్యీకరణ చురుకుగా జరుగటానికి మరియు సాఫ్టవేరు ని మరింత అభివృద్ధిచేయడానికి ఉపయోగపడుతుంది.
ఏమైనా సందేహాలుంటే అడగండి.
ధన్యవాదాలు
అర్జున
25 డిసెంబర్ 2012 12:18 ఉ న,
<dha...@gmail.com> ఇలా రాసారు :
Hi,
Did you get any data for training tesseract for telugu?
I'm also interested in working with tesseract for telugu OCR.
Let me know.
Thanks,
dharvi
On Saturday, July 21, 2012 12:17:38 PM UTC+5:30, arjun wrote:
2012/7/21 రాకేశ్వర రావు
<rake...@gmail.com>
తెలుఁగు OCR కి ట్రెయినింగు ఇవ్వడానికి మాంచి real-world data కావాలి।
నా దృష్టిలో ఏమివుందంటే, ఏ ఆంధ్రమహాభారతమో, అంత లేకున్న కనీసం భగవద్గీత (పుస్తకం ఏదైనా పర్వాలేదు) వంటిదో తీసుకొని, దాని యొక్క స్కాను చేయబడ్డ పుస్తక రూపమూ, యూనీకోడు గద్యరూపమూ ఇవ్వగలగితే, ఏ అక్షరం ఎక్కడుందో నేను నా సాఫ్టువేరు వాడి జత చేసుకోగలను।
వచ్చిన ఇబ్బంది, నా దగ్గర ఆంధ్రమహాభారతం యూనీకోడు వుంది, ఆది పర్వం స్కాను కూడా వుంది, కానీ స్కాను క్వాలిటీ అంత బాగాలేదు। కాబట్టి వేఱు పుస్తకం కోసం వెదుకుతున్నాను। మీ దగ్గర ఒక చిన్న సైజు పుస్తకం మంచి అచ్చుతో వున్నది। ఉదాహరణ అతికించాను చూడండి। దానికి తోడు యూనీకోడు వుంటే నాకు తెలుపగలరు।
ఇది కొద్దిగా వేంటనే కావాలి। మా ప్రొఫసరు ఆరాట పడుతున్నారు।
తెలుగు వికీ సోర్స్ లో ఆంధ్రుల చరిత్రము పాఠ్యీకరణ జరుగుతున్నది. అదిఉపయోగపడవచ్చు.
అర్జున