Ravi

unread,

Jun 24, 2009, 2:44:43 AM6/24/09

to తెలుగు సంగణన (telugu-computing)

సభ్యులందరికీ!

తెలుగు సాఫ్ట్‌వేర్ రంగంలో బలం పుంజుకోవాలంటే ఇంకా కొన్ని అప్లికేషన్లు
వెలువడాల్సి ఉంది. ఈ విషయంలో సభ్యులెవరికైనా ఏదైనా ఐడియాలు ఉంటే
పంచుకోవాలని మనవి. మీకు కేవలం ఐడియా ఉంటే చాలు. దాన్ని ఒక అప్లికేషన్ గా
డెవలప్ చేయడానికి ప్రయత్నిస్తాను. మీ ఐడియాలకు ఇదే నా అహ్వానం.

ఇట్లు
మీ రవిచంద్ర

Kiran Kumar Chava

unread,

Jun 24, 2009, 2:59:23 AM6/24/09

to telugu-c...@googlegroups.com

ఆటలు.

దాడి

అష్టా చెమ్మా

పులి మేక

డబ్బాలాట

పదాలాట

ఊరు, పేరు , సినిమా

----
నెనర్లు,
కిరణ్ కుమార్ చావా
http://te.chavakiran.com/blog
http://en.chavakiran.com/blog

2009/6/24 Ravi <ravichandr...@gmail.com>

గోపాల్(Gopal Koduri)

unread,

Jun 24, 2009, 3:49:00 AM6/24/09

to telugu-c...@googlegroups.com

పదాలాట కి ఈ లంకె చూడండి.

--
ఇంగ్లీషు భాషే అడ్డుగా కంప్యూటర్ వాడలేని వారికి సహాయంగా - తెలుగీకరణ (http://tidbits.co.in/telugeekarana-enduku-ela) మరియు
ఈ-తెలుగు (http://etelugu.org/helpcenter)

---------------------------------
Gopala Krishna Koduri,
Cognitive Science Lab,
Computer Science & Engineering, IIIT.
Hyderabad - 500032, A.P, India.

---------------------------------------------------------
more about my life at : http://tidbits.co.in

24 జూన్ 2009, 12:29 pm న, Kiran Kumar Chava <chava...@gmail.com> ఇలా రాసారు :

Kiran Kumar Chava

unread,

Jun 24, 2009, 4:27:35 AM6/24/09

to telugu-c...@googlegroups.com

చూశాను.

కానీ ఫేస్ బుక్ కి వెళ్లకుండా ఆడుకునే ఏర్పాట్లు ఉంటే బాగుంటుంది.

----
నెనర్లు,
కిరణ్ కుమార్ చావా
http://te.chavakiran.com/blog
http://en.chavakiran.com/blog

2009/6/24 గోపాల్(Gopal Koduri) <gopal...@gmail.com>

venkat

unread,

Jun 24, 2009, 8:26:28 AM6/24/09

to తెలుగు సంగణన (telugu-computing)

రవి గారికి
నమస్తే.
ఈమధ్య ఈనాడు పేపర్ లో ఇంగ్లీషులో పదిలక్షలవ పదం గుఱించి వ్యాసం రాస్తూ
తెలుగులో ఇలా పదాలను సమీకరించడం, లెక్కించడం లాంటి ప్రయత్నాలు జరగడంలేదని
అన్నారు. సూర్యరాయాంధ్ర నిఘంటువు బ్రౌన్ నిఘంటువుల తర్వాత తెలుగులో పదాల
గణన కోసం సరైన ప్రయత్నం జరగలేదని ఆ వ్యాసంలో ఆవేదన వ్యక్తం చేశారు.
ఇలాంటి ప్రయత్నాలు చేయడానికి ఈ అంతర్జాలమే సరైన వేదిక అని నా అభిప్రాయం.
మనందరం కలిస్తే తెలుగులో పదాలను లెక్కించడం పెద్ద కష్టం కాదని నా
అభిప్రాయం. దీన్ని గుఱించి ఆలోచించి కార్యాచరణ తయారుచేయండి. అందరం
కలిసి

Ravi Chandra Enaganti

unread,

Jun 24, 2009, 8:39:57 AM6/24/09

to telugu-c...@googlegroups.com

వెంకట్ గారూ! మంచి ఆలోచన. దీని కార్యాచరణ కోసం కోసం మనకు దీర్ఘకాలిక ప్రణాలిక అవసరమౌతుంది. కొంత మంది తెలుగు భాషా పండితుల సహకారం కూడా ఉంటే బాగుంటుంది.

2009/6/24 venkat <frie...@gmail.com>

--
E. Ravi Chandra

Phani Pradeep

unread,

Jun 24, 2009, 8:50:30 AM6/24/09

to telugu-c...@googlegroups.com

కొన్ని రోజుల క్రితం ఒక తమిళుడు నా దగ్గరకొచ్చి, మా భాషలో అక్షరాలు 247 మీ భాషలో ఎన్ని అన్నాడు,

247 ఎక్కడరా అంటే హల్లులు, అచ్చుల కాంబినేషన్ అంట ( http://en.wikipedia.org/wiki/Tamil_language#Writing_system)

తెలుగులో ఎన్నంటే ఏమి చెప్పాలి? చిన్న ప్రశ్నే కావచ్చు, సమాధానం చైనా వాలంత పెద్దది ఇవ్వాల్సి వచ్చింది.

అక్షరాల వద్దే ఇంత ఇబ్బంది ఎదురైతే ఇక పదాల వద్ద ఎంత ఎదురవుతుందో తెలుసు.

మా ఇంటిలో సూర్యరాయవారి నిఘంటువు ఆరు భాగాలుగా ఉంది.

(అచ్చులతో మొదలయ్యే పదాలకు ఒకటి, హల్లులతో మొదలయ్యే పదాలకు ఐదు). ఈసారి ఇంటికి వెళ్ళినప్పుడు పదాల సంఖ్య లెక్క ఏమైనా తేల్చగలనేమో చూడాలి.

ఒక్కో భాగానికి పదివేల పదాల లెక్క వేసుకున్నా మొత్తం అరవై వేల పైచిలుకే ఉంటాయి. బ్రౌన్ నిఘంటువులోని పదాల సంఖ్య తక్కువనుకుంటాను

నేను రిలీజ్ చేసిన నిఘంటువులో సుమారు ఇరవై వేల పదాలు ఉన్నాయి.

Thanks and Regards,
Phani Pradeep
http://pradeepblog.miriyala.in

2009/6/24 Ravi Chandra Enaganti <ravichandr...@gmail.com>

Praveen Garlapati

unread,

Jun 24, 2009, 9:01:51 AM6/24/09

to telugu-c...@googlegroups.com

దీనిని ఆటోమేట్ చెయ్యడం పెద్ద కష్టం కాకపోవచ్చనుకుంట.

ఉదా: కూడలి లేదా జల్లెడ ఆరెసెస్ ఫీడు తీసుకుని అందులో వైవిధ్యంగా ఉన్న తెలుగు పదాలను ఒక డేటాబేసులో చేర్చితే మనకు కూడా పోను పోను ఒక లైవ్ డేటాబేసు ఏర్పాటయే అవకాశం ఉంది.

ఆ డేటాబేసుని ఇంతకు ముందు మన మితృలు తయారు చేసిన తెలుగు డిక్షనరీకి జోడిస్తే సరిపోతుంది. నిఘంటువు కూడా పెరగడానికి ఆస్కారం కలుగుతుంది.

2009/6/24 Ravi Chandra Enaganti <ravichandr...@gmail.com>

వెంకట్ గారూ! మంచి ఆలోచన. దీని కార్యాచరణ కోసం కోసం మనకు దీర్ఘకాలిక ప్రణాలిక అవసరమౌతుంది. కొంత మంది తెలుగు భాషా పండితుల సహకారం కూడా ఉంటే బాగుంటుంది.

Phani Pradeep

unread,

Jun 24, 2009, 9:04:38 AM6/24/09

to telugu-c...@googlegroups.com

Thanks and Regards,
Phani Pradeep
http://pradeepblog.miriyala.in

2009/6/24 Praveen Garlapati <praveeng...@gmail.com>

దీనిని ఆటోమేట్ చెయ్యడం పెద్ద కష్టం కాకపోవచ్చనుకుంట.

ఉదా: కూడలి లేదా జల్లెడ ఆరెసెస్ ఫీడు తీసుకుని అందులో వైవిధ్యంగా ఉన్న తెలుగు పదాలను ఒక డేటాబేసులో చేర్చితే మనకు కూడా పోను పోను ఒక లైవ్ డేటాబేసు ఏర్పాటయే అవకాశం ఉంది.

దీని వాళ్ళ "తెంగ్లిష్" పదాలు చేరతాయేమో?

Kiran Kumar Chava

unread,

Jun 24, 2009, 12:34:01 PM6/24/09

to telugu-c...@googlegroups.com

http://te.wiktionary.org

మనం పదాలు ఇక్కడ కలుపుకుంటే లెక్క అదే తేలుతుంది.

----
నెనర్లు,
కిరణ్ కుమార్ చావా
http://te.chavakiran.com/blog
http://en.chavakiran.com/blog

2009/6/24 Phani Pradeep <phani....@gmail.com>

రాకేశ్వర రావు

unread,

Jun 29, 2009, 9:11:05 AM6/29/09

to తెలుగు సంగణన (telugu-computing)

తమిళు వారు 247 అని చెప్పుకోవడం హాస్యస్పదం. నేను కాలేజిలో
వున్నప్పుడుకూడా వారు అలాగే చెప్పుకునేవారు. తరువాత అర్థమయ్యింది ఏంటంటే,
వారికి మిగిలిన భాషలకంటే తక్కువవున్నాయన్నదాన్ని కప్పిపుచ్చుకోవడానికి
ఇలా చెప్పుకుంటారేమో అనుకున్నాను.

ఇక ఫణిగారు అడిగినట్లు తెలుఁగులోనా, ఎన్నైనా వుండవచ్చు మీరు
లెక్కవేసేదానిబట్టి. అంటే వత్తు తరువాత వత్తు తరువాత వత్తు పెట్టుకుంటూ
పోవడమే.

తమిళంలో 247 అని ఖచ్చితంగా వుండడం వలన OCR చేయడం చాలా తేలిక (మిగిలిన దేశ
భాషలతో పోల్చుకుంటే).
మన తెలుఁగులో పర్వాలేదు (అంటే ఆంగ్లం అంత తేలిక కాకపోయినా..) హిందీ
అరబ్బీ వంటి భాషల్లో ఇంకా కష్టం.

మనము కొరియను OCRలు దీనిని ఎలా పరిష్కరిస్తున్నాయో చూసి దాని బట్టి
తెలుగు OCR ని మార్చవచ్చు. నా లెక్క ప్రకారం చిన్నప్పుడు మనం
నేర్చుకున్నట్టు.
ముందు ఉత్త అక్షరాలు, తరువాత గుణింతాలు, ఆ పై వత్తులు లెక్కవేసుకోవచ్చు.
(56 + 37 x 16 + 37).

కానీ తెలుగు OCR కోసం మాత్రం తెలుగులో వాడబడే అన్ని సంయుక్త అక్షరాల
ట్రెయినింగు ఇవ్వాలి. ష్ట్ర, స్త్రీ వంటివాటికి సైతం.

దీని మీద వివరంగా మరెప్పుడైన వ్రాస్తాను.

- రాకేశ్వర

On Jun 24, 5:50 pm, Phani Pradeep <phani.prad...@gmail.com> wrote:
> కొన్ని రోజుల క్రితం ఒక తమిళుడు నా దగ్గరకొచ్చి, మా భాషలో అక్షరాలు 247 మీ
> భాషలో ఎన్ని అన్నాడు,

> 247 ఎక్కడరా అంటే హల్లులు, అచ్చుల కాంబినేషన్ అంట (http://en.wikipedia.org/wiki/Tamil_language#Writing_<http://en.wikipedia.org/wiki/Tamil_language#Writing_system>
> system <http://en.wikipedia.org/wiki/Tamil_language#Writing_system>)

> తెలుగులో ఎన్నంటే ఏమి చెప్పాలి? చిన్న ప్రశ్నే కావచ్చు, సమాధానం చైనా వాలంత
> పెద్దది ఇవ్వాల్సి వచ్చింది.
> అక్షరాల వద్దే ఇంత ఇబ్బంది ఎదురైతే ఇక పదాల వద్ద ఎంత ఎదురవుతుందో తెలుసు.
>
> మా ఇంటిలో సూర్యరాయవారి నిఘంటువు ఆరు భాగాలుగా ఉంది.
> (అచ్చులతో మొదలయ్యే పదాలకు ఒకటి, హల్లులతో మొదలయ్యే పదాలకు ఐదు). ఈసారి ఇంటికి
> వెళ్ళినప్పుడు పదాల సంఖ్య లెక్క ఏమైనా తేల్చగలనేమో చూడాలి.
> ఒక్కో భాగానికి పదివేల పదాల లెక్క వేసుకున్నా మొత్తం అరవై వేల పైచిలుకే
> ఉంటాయి. బ్రౌన్ నిఘంటువులోని పదాల సంఖ్య తక్కువనుకుంటాను
> నేను రిలీజ్ చేసిన నిఘంటువులో సుమారు ఇరవై వేల పదాలు ఉన్నాయి.
>
> Thanks and Regards,

> Phani Pradeephttp://pradeepblog.miriyala.in
>
> 2009/6/24 Ravi Chandra Enaganti <ravichandra.enaga...@gmail.com>

>
> > వెంకట్ గారూ! మంచి ఆలోచన. దీని కార్యాచరణ కోసం కోసం మనకు దీర్ఘకాలిక ప్రణాలిక
> > అవసరమౌతుంది. కొంత మంది తెలుగు భాషా పండితుల సహకారం కూడా ఉంటే బాగుంటుంది.
>

> > 2009/6/24 venkat <friend...@gmail.com>

Sri Raghava Kiran Mukku

unread,

Jun 29, 2009, 9:45:33 AM6/29/09

to telugu-c...@googlegroups.com

నమస్తే

క్రొత్తగా సంగణనపుటధ్యయనం చేయకుండా ఈ గుంపులో నేను ఏ రకంగా సహాయపడగలనో అనుకున్నాను. ఇప్పుడు ఈ చర్చలో కొంచెం వెసులుబాటు దొరికింది.

కూడలో జల్లెడో తీసికొని దానిలో చేరే పదాలని సంచయం చేయడం అంత మంచి ఆలోచన కాకపోవచ్చును. వ్రాసేవారు తెలుగులో సరైన వర్ణక్రమంలో వ్రాయకపోతే తప్పుడు పదాలు చేరే అవకాశం కూడా ఉంది కాబట్టి. ఉదాహరణకి శ్రుతి - శృతి, మిత్రుడు - మితృడు, శతృవు - శత్రువు, బాధ - భాద, శీఘ్రము - శ్రీఘ్రము, మొదలైనవి. తెంగ్లీషు పదాలు చేరితే వచ్చే నష్టం కన్నా, ఉన్న తెలుగు పదాలు తప్పుగా చేరడం వల్ల జరిగే నష్టమే ఎక్కువ అని నా అభిప్రాయం.

ఓ సీ ఆర్ గుఱించి మాట్లాడేటప్పుడు తెలుగులో వ్రాసే పద్ధతి ఒకే వర్ణానికి (ప్రస్తుతానికి అచ్చు హల్లులు రెండూ కలిసినది అనుకుందాం) కూడా రకరకాలుగా ఉంటుందని గుర్తుపెట్టుకోవాలి. ఉదాహరణకి, హోలీ వ్రాయాలనుకుంటే హె వ్రాసి ఊకారం ఇవ్వడం ఒక పద్ధతి... హో వచ్చినట్టుగా. అలా కాకుండా నేరుగా ఓ కారం (రోలు లో లాగ అన్నమాట) ఇవ్వటం ఒక పద్ధతి. రెండు పద్ధతులూ పాటించేవాళ్లూ ఉన్నారు. ఒత్తులు మ ఒత్తు రెండు మూడు రకాలుగా వ్రాస్తారు. అలాగే శ ఒత్తు కూడా. కొందరు లా వ్రాసేటప్పుడు ౄ లా వ్రాస్తారు. ఇలాంటివి కూడా చూసుకోవాలి.

ఇటీవలి ఉత్తరాల శృంఖల చూడగానే చప్పున తోచినవి ఇవీ. ఇక, ప్రస్తుతానికి సెలవు.

మీ
రాఘవ

@రాకేశ్వర: ఐనా తెలుగుకి అనువైన ఓ సీ ఆర్ ఆల్గారిథమ్ మనమే ఎందుకు తయారు చేసుకోకూడదు, ఏదో పరాయిభాషలనుండి అరువు తెచ్చుకునే బదులు?

Rakesh Achanta

unread,

Jun 29, 2009, 9:58:36 AM6/29/09

to telugu-c...@googlegroups.com

రాఘవ,

మంచి సూచనలు ఇచ్చారు. ప్రత్యేకించి అచ్చుతప్పుల గుఱించి. పదాలు లెక్కపెట్టేటప్పుడు నిఘంటువులు మీదనే ఆధారపడాలి.
అసలు agglutinative language లో పదాలు లెక్కపెట్టకోవడమే ఒక రకంగా వెఱ్ఱి , పులిని చూచి నక్క వాతలు పెట్టుకున్నట్టు, ఆంగ్లంలో పదాలకు inflection వుండదు, వాటిని విడివిడిగా పొడిపొడిగా వ్రాస్తారు, కాబట్టి నిజంగా చెప్పాలంటే మన భాషలో పదాలు అనంతం. ఉదా - వారిరువురిమధ్యలోనుండి అన్నది ఒక పదం. ఐనా ఓసీరావు కోసం ఒక పదాల చిట్టా వుండడం అవసరమే, దానికోసమై ప్రమాణాలు తగ్గినా, ఒక పదచిట్టాను తయారు చేసుకోవాలి. అందులో ఋణంతో బాటు రుణం శ్రుతితో బాటు శృతి వున్నా పర్వాలేదు.

OCR is font specific. While training the OCR you are training it for a specific font.
ఒక సారి ఒక మంచి OCR system వుంటే దానికి పలు ఫాంటులకు నేర్పవచ్చును. ముందు tresseract కి ట్రెయినింగు ఇచ్చి ఫలితాలు చూద్దాం, ఆ తరువాత ముందు ముందు ఏం చేయాలో చూసుకుందాం.

మనమే ఓనమాల దగ్గరనుండి OCR వ్రాసుకోవడం చాలా కష్టం, పైపెచ్చు tesseract చాలా మంచి పరికరం, దానిని మన భాషకు అనుగుణంగా మార్చుకుంటే ఒక పదేళ్ళు కలిసివస్తాయి ;-)

- రాకేశ్వర

http://andam.blogspot.com

2009/6/29 Sri Raghava Kiran Mukku <msrk...@gmail.com>

haridallas

unread,

Sep 6, 2013, 2:14:16 PM9/6/13

to telugu-c...@googlegroups.com

regarding making alist of telugu word and creating a corpus/database to help with OCR and other computational linguistics for Telugu.

Recently I saw a website

http://www.andhrabharati.com/dictionary/index.php

this is created by

వాడపల్లి శేషతల్పశాయి
కాలెపు నాగభూషణరావు

I have tried contacting them on 2 occasions recently to suggest for getting the text of all the database to create a corpus but so far there has been no reply.

if some one from this groups knows about them or have their telephone numbers we can contact them and start a database .

So far I have found this online OCR website

to be the most accurate ( which is not accurate enough to work for us )

i2OCR - Free Online OCR

www.i2ocr.com/‎

Rakeshwar's Tesseract with VIET OCR is the next best .

still we have va long way to go before wehave an Omnipage like OCR for telugu.

haridallas

unread,

Sep 6, 2013, 2:16:57 PM9/6/13

to telugu-c...@googlegroups.com

Online handwriting recognition for telugu

Telugu OCR

telugu spell checker

I know some readers may reply we have such software.

I want ones which have 99.999995 accuracy and not 50% accuracy with such performance it is almost like not having any.

On Wednesday, June 24, 2009 1:44:43 AM UTC-5, రవిచంద్ర wrote:

haridallas

unread,

Sep 6, 2013, 2:20:51 PM9/6/13

to telugu-c...@googlegroups.com

HP Labs INDIA did some work in 2007 but I see there has been no more progress after that.

even those people who have worked on those projects do not seem to be interested to continue it as the source forge projects are also moribund.

On Wednesday, June 24, 2009 1:44:43 AM UTC-5, రవిచంద్ర wrote:

haridallas

unread,

Sep 6, 2013, 2:21:22 PM9/6/13

to telugu-c...@googlegroups.com

All results for “telugu”

(10)

Reply all

Reply to author

Forward

ఏదైనా ఐడియాలు

Ravi

Kiran Kumar Chava

గోపాల్(Gopal Koduri)

Kiran Kumar Chava

venkat

Ravi Chandra Enaganti

Phani Pradeep

Praveen Garlapati

Phani Pradeep

Kiran Kumar Chava

రాకేశ్వర రావు

Sri Raghava Kiran Mukku

Rakesh Achanta

haridallas

i2OCR - Free Online OCR

haridallas

haridallas

haridallas

All results for “telugu”

HMM-based Online Handwriting Recognition System for Telugu Symbols

Elastic Matching of Online Handwritten Tamil and Telugu Scripts Using Local Features

HP Labs India

HP Labs India

HP Labs India

HP Labs : Technical Reports : 2007

HP.com Business to Business

HP Labs India

HP Labs India

HP Labs India