స్వేచ్ఛాయుత తెలుగు ఒసిఆర్ (Telugu OCR) కు శిక్షణ దత్తాంశం (Training data)

14 views

Skip to first unread message

Arjuna Rao Chavala

unread,

Dec 28, 2012, 4:34:06 AM12/28/12

to indlinux-telugu, linux-telugu-users, locali...@swecha.net, telug...@googlegroups.com

---------- ఫార్వర్డ్ చేసిన సందేశం ----------
పంపినవారు: Arjuna Rao Chavala <arjun...@gmail.com>
తేది: 28 డిసెంబర్ 2012 3:00 సా
సబ్జెక్టు: Re: [సంగణన] Training Data needed for OCR
వీరికి: telugu-c...@googlegroups.com

ఆంధ్రుల చరిత్రము - ప్రథమ భాగము

నుండి సృష్టించిన దాదాపుగా 125 పాఠ్యపేజీలు మరియు 25 అనుబంధపేజీల స్కాన్ బొమ్మల మరియు వాటి యూనికోడ్ పాఠ్య దత్తాంశం తెలుగు వికీసోర్స్ లో స్వచ్ఛంద కార్యకర్తల కృషి వల్ల అందుబాటులోకి వచ్చింది. దీని పరిమాణం బొమ్మలరూపంలో 26910మెగాబైట్లు (పేజీ 179.4కిబై జెపెగ్ రూపంలో) పాఠ్యరూపంలో 0.555 మెగాబైట్లు(పేజీ 3.7కిబై) వుంది. అనగా పాఠ్యీకరణ పరిమాణాన్ని దాదాపు50 వంతుకు కుదించటంతో పాటు ఎటువంటి గణనపరికరంపైన సమాచారాన్ని చదవకలిగేస్థితికి తీసుకొస్తుంది.

దీనిని ఉపయోగించి తెలుగు ఒసిఆర్ సాఫ్ట్వేరు అభివృద్ధిపరచి తెవికీ సోర్స్ కు అనుబంధముచేసినచో, పాఠ్యీకరణ చురుకుగా జరుగటానికి మరియు సాఫ్టవేరు ని మరింత అభివృద్ధిచేయడానికి ఉపయోగపడుతుంది.

ఏమైనా సందేహాలుంటే అడగండి.
ధన్యవాదాలు
అర్జున

25 డిసెంబర్ 2012 12:18 ఉ న, <dha...@gmail.com> ఇలా రాసారు :

Hi,

Did you get any data for training tesseract for telugu?
I'm also interested in working with tesseract for telugu OCR.

Let me know.

Thanks,
dharvi

On Saturday, July 21, 2012 12:17:38 PM UTC+5:30, arjun wrote:

2012/7/21 రాకేశ్వర రావు <rake...@gmail.com>

తెలుఁగు OCR కి ట్రెయినింగు ఇవ్వడానికి మాంచి real-world data కావాలి।

నా దృష్టిలో ఏమివుందంటే, ఏ ఆంధ్రమహాభారతమో, అంత లేకున్న కనీసం భగవద్గీత (పుస్తకం ఏదైనా పర్వాలేదు) వంటిదో తీసుకొని, దాని యొక్క స్కాను చేయబడ్డ పుస్తక రూపమూ, యూనీకోడు గద్యరూపమూ ఇవ్వగలగితే, ఏ అక్షరం ఎక్కడుందో నేను నా సాఫ్టువేరు వాడి జత చేసుకోగలను।

వచ్చిన ఇబ్బంది, నా దగ్గర ఆంధ్రమహాభారతం యూనీకోడు వుంది, ఆది పర్వం స్కాను కూడా వుంది, కానీ స్కాను క్వాలిటీ అంత బాగాలేదు। కాబట్టి వేఱు పుస్తకం కోసం వెదుకుతున్నాను। మీ దగ్గర ఒక చిన్న సైజు పుస్తకం మంచి అచ్చుతో వున్నది। ఉదాహరణ అతికించాను చూడండి। దానికి తోడు యూనీకోడు వుంటే నాకు తెలుపగలరు।

ఇది కొద్దిగా వేంటనే కావాలి। మా ప్రొఫసరు ఆరాట పడుతున్నారు।

తెలుగు వికీ సోర్స్ లో ఆంధ్రుల చరిత్రము పాఠ్యీకరణ జరుగుతున్నది. అదిఉపయోగపడవచ్చు.

అర్జున

--
For more options, visit "తెలుగు సంగణన (telugu-computing)" group at
http://groups.google.com/group/telugu-computing?hl=te

Reply all

Reply to author

Forward

0 new messages