ఏదైనా ఐడియాలు

7 views
Skip to first unread message

Ravi

unread,
Jun 24, 2009, 2:44:43 AM6/24/09
to తెలుగు సంగణన (telugu-computing)
సభ్యులందరికీ!

తెలుగు సాఫ్ట్‌వేర్ రంగంలో బలం పుంజుకోవాలంటే ఇంకా కొన్ని అప్లికేషన్లు
వెలువడాల్సి ఉంది. ఈ విషయంలో సభ్యులెవరికైనా ఏదైనా ఐడియాలు ఉంటే
పంచుకోవాలని మనవి. మీకు కేవలం ఐడియా ఉంటే చాలు. దాన్ని ఒక అప్లికేషన్ గా
డెవలప్ చేయడానికి ప్రయత్నిస్తాను. మీ ఐడియాలకు ఇదే నా అహ్వానం.

ఇట్లు
మీ రవిచంద్ర

Kiran Kumar Chava

unread,
Jun 24, 2009, 2:59:23 AM6/24/09
to telugu-c...@googlegroups.com
ఆటలు.
 
దాడి
అష్టా చెమ్మా
పులి మేక
 
డబ్బాలాట
 
పదాలాట
 
ఊరు, పేరు , సినిమా
 

----
నెనర్లు,
కిరణ్ కుమార్ చావా
http://te.chavakiran.com/blog
http://en.chavakiran.com/blog



2009/6/24 Ravi <ravichandr...@gmail.com>

గోపాల్(Gopal Koduri)

unread,
Jun 24, 2009, 3:49:00 AM6/24/09
to telugu-c...@googlegroups.com
పదాలాట కి ఈ లంకె చూడండి.

--
ఇంగ్లీషు భాషే అడ్డుగా కంప్యూటర్ వాడలేని వారికి సహాయంగా -  తెలుగీకరణ (http://tidbits.co.in/telugeekarana-enduku-ela) మరియు
ఈ-తెలుగు (http://etelugu.org/helpcenter)

---------------------------------
Gopala Krishna Koduri,
Cognitive Science Lab,
Computer Science & Engineering, IIIT.
Hyderabad - 500032, A.P, India.

---------------------------------------------------------
more about my life at : http://tidbits.co.in


24 జూన్ 2009, 12:29 pm న, Kiran Kumar Chava <chava...@gmail.com> ఇలా రాసారు :

Kiran Kumar Chava

unread,
Jun 24, 2009, 4:27:35 AM6/24/09
to telugu-c...@googlegroups.com
చూశాను.
కానీ ఫేస్ బుక్ కి వెళ్లకుండా ఆడుకునే ఏర్పాట్లు ఉంటే బాగుంటుంది.

----
నెనర్లు,
కిరణ్ కుమార్ చావా
http://te.chavakiran.com/blog
http://en.chavakiran.com/blog



2009/6/24 గోపాల్(Gopal Koduri) <gopal...@gmail.com>

venkat

unread,
Jun 24, 2009, 8:26:28 AM6/24/09
to తెలుగు సంగణన (telugu-computing)
రవి గారికి
నమస్తే.
ఈమధ్య ఈనాడు పేపర్ లో ఇంగ్లీషులో పదిలక్షలవ పదం గుఱించి వ్యాసం రాస్తూ
తెలుగులో ఇలా పదాలను సమీకరించడం, లెక్కించడం లాంటి ప్రయత్నాలు జరగడంలేదని
అన్నారు. సూర్యరాయాంధ్ర నిఘంటువు బ్రౌన్ నిఘంటువుల తర్వాత తెలుగులో పదాల
గణన కోసం సరైన ప్రయత్నం జరగలేదని ఆ వ్యాసంలో ఆవేదన వ్యక్తం చేశారు.
ఇలాంటి ప్రయత్నాలు చేయడానికి ఈ అంతర్జాలమే సరైన వేదిక అని నా అభిప్రాయం.
మనందరం కలిస్తే తెలుగులో పదాలను లెక్కించడం పెద్ద కష్టం కాదని నా
అభిప్రాయం. దీన్ని గుఱించి ఆలోచించి కార్యాచరణ తయారుచేయండి. అందరం
కలిసి

Ravi Chandra Enaganti

unread,
Jun 24, 2009, 8:39:57 AM6/24/09
to telugu-c...@googlegroups.com
వెంకట్ గారూ! మంచి ఆలోచన. దీని కార్యాచరణ కోసం కోసం మనకు దీర్ఘకాలిక ప్రణాలిక అవసరమౌతుంది. కొంత మంది తెలుగు భాషా పండితుల సహకారం కూడా ఉంటే బాగుంటుంది.

2009/6/24 venkat <frie...@gmail.com>



--
E. Ravi Chandra

Phani Pradeep

unread,
Jun 24, 2009, 8:50:30 AM6/24/09
to telugu-c...@googlegroups.com
కొన్ని రోజుల క్రితం ఒక తమిళుడు నా దగ్గరకొచ్చి, మా భాషలో అక్షరాలు 247 మీ భాషలో ఎన్ని అన్నాడు, 
247 ఎక్కడరా అంటే హల్లులు, అచ్చుల కాంబినేషన్ అంట ( http://en.wikipedia.org/wiki/Tamil_language#Writing_system)
తెలుగులో ఎన్నంటే ఏమి చెప్పాలి? చిన్న ప్రశ్నే కావచ్చు, సమాధానం చైనా వాలంత పెద్దది ఇవ్వాల్సి వచ్చింది. 
అక్షరాల వద్దే ఇంత ఇబ్బంది ఎదురైతే ఇక పదాల వద్ద ఎంత ఎదురవుతుందో తెలుసు. 

మా ఇంటిలో సూర్యరాయవారి నిఘంటువు ఆరు భాగాలుగా ఉంది.
(అచ్చులతో మొదలయ్యే పదాలకు ఒకటి, హల్లులతో మొదలయ్యే పదాలకు ఐదు). ఈసారి ఇంటికి వెళ్ళినప్పుడు పదాల  సంఖ్య లెక్క ఏమైనా తేల్చగలనేమో   చూడాలి. 
 ఒక్కో భాగానికి పదివేల పదాల లెక్క వేసుకున్నా మొత్తం అరవై వేల పైచిలుకే ఉంటాయి. బ్రౌన్ నిఘంటువులోని పదాల సంఖ్య తక్కువనుకుంటాను 
నేను రిలీజ్ చేసిన నిఘంటువులో సుమారు ఇరవై వేల పదాలు ఉన్నాయి. 

Thanks and Regards,
Phani Pradeep
http://pradeepblog.miriyala.in


2009/6/24 Ravi Chandra Enaganti <ravichandr...@gmail.com>

Praveen Garlapati

unread,
Jun 24, 2009, 9:01:51 AM6/24/09
to telugu-c...@googlegroups.com
దీనిని ఆటోమేట్ చెయ్యడం పెద్ద కష్టం కాకపోవచ్చనుకుంట.

ఉదా: కూడలి లేదా జల్లెడ ఆరెసెస్ ఫీడు తీసుకుని అందులో వైవిధ్యంగా ఉన్న తెలుగు పదాలను ఒక డేటాబేసులో చేర్చితే మనకు కూడా పోను పోను ఒక లైవ్ డేటాబేసు ఏర్పాటయే అవకాశం ఉంది.

ఆ డేటాబేసుని ఇంతకు ముందు మన మితృలు తయారు చేసిన తెలుగు డిక్షనరీకి జోడిస్తే సరిపోతుంది. నిఘంటువు కూడా పెరగడానికి ఆస్కారం కలుగుతుంది.



2009/6/24 Ravi Chandra Enaganti <ravichandr...@gmail.com>
వెంకట్ గారూ! మంచి ఆలోచన. దీని కార్యాచరణ కోసం కోసం మనకు దీర్ఘకాలిక ప్రణాలిక అవసరమౌతుంది. కొంత మంది తెలుగు భాషా పండితుల సహకారం కూడా ఉంటే బాగుంటుంది.

Phani Pradeep

unread,
Jun 24, 2009, 9:04:38 AM6/24/09
to telugu-c...@googlegroups.com

Thanks and Regards,
Phani Pradeep
http://pradeepblog.miriyala.in


2009/6/24 Praveen Garlapati <praveeng...@gmail.com>

దీనిని ఆటోమేట్ చెయ్యడం పెద్ద కష్టం కాకపోవచ్చనుకుంట.

ఉదా: కూడలి లేదా జల్లెడ ఆరెసెస్ ఫీడు తీసుకుని అందులో వైవిధ్యంగా ఉన్న తెలుగు పదాలను ఒక డేటాబేసులో చేర్చితే మనకు కూడా పోను పోను ఒక లైవ్ డేటాబేసు ఏర్పాటయే అవకాశం ఉంది.
 దీని వాళ్ళ "తెంగ్లిష్" పదాలు చేరతాయేమో?

Kiran Kumar Chava

unread,
Jun 24, 2009, 12:34:01 PM6/24/09
to telugu-c...@googlegroups.com
 
మనం పదాలు ఇక్కడ కలుపుకుంటే లెక్క అదే తేలుతుంది.
----
నెనర్లు,
కిరణ్ కుమార్ చావా
http://te.chavakiran.com/blog
http://en.chavakiran.com/blog



2009/6/24 Phani Pradeep <phani....@gmail.com>

రాకేశ్వర రావు

unread,
Jun 29, 2009, 9:11:05 AM6/29/09
to తెలుగు సంగణన (telugu-computing)

తమిళు వారు 247 అని చెప్పుకోవడం హాస్యస్పదం. నేను కాలేజిలో
వున్నప్పుడుకూడా వారు అలాగే చెప్పుకునేవారు. తరువాత అర్థమయ్యింది ఏంటంటే,
వారికి మిగిలిన భాషలకంటే తక్కువవున్నాయన్నదాన్ని కప్పిపుచ్చుకోవడానికి
ఇలా చెప్పుకుంటారేమో అనుకున్నాను.

ఇక ఫణిగారు అడిగినట్లు తెలుఁగులోనా, ఎన్నైనా వుండవచ్చు మీరు
లెక్కవేసేదానిబట్టి. అంటే వత్తు తరువాత వత్తు తరువాత వత్తు పెట్టుకుంటూ
పోవడమే.

తమిళంలో 247 అని ఖచ్చితంగా వుండడం వలన OCR చేయడం చాలా తేలిక (మిగిలిన దేశ
భాషలతో పోల్చుకుంటే).
మన తెలుఁగులో పర్వాలేదు (అంటే ఆంగ్లం అంత తేలిక కాకపోయినా..) హిందీ
అరబ్బీ వంటి భాషల్లో ఇంకా కష్టం.

మనము కొరియను OCRలు దీనిని ఎలా పరిష్కరిస్తున్నాయో చూసి దాని బట్టి
తెలుగు OCR ని మార్చవచ్చు. నా లెక్క ప్రకారం చిన్నప్పుడు మనం
నేర్చుకున్నట్టు.
ముందు ఉత్త అక్షరాలు, తరువాత గుణింతాలు, ఆ పై వత్తులు లెక్కవేసుకోవచ్చు.
(56 + 37 x 16 + 37).

కానీ తెలుగు OCR కోసం మాత్రం తెలుగులో వాడబడే అన్ని సంయుక్త అక్షరాల
ట్రెయినింగు ఇవ్వాలి. ష్ట్ర, స్త్రీ వంటివాటికి సైతం.

దీని మీద వివరంగా మరెప్పుడైన వ్రాస్తాను.

- రాకేశ్వర


On Jun 24, 5:50 pm, Phani Pradeep <phani.prad...@gmail.com> wrote:
> కొన్ని రోజుల క్రితం ఒక తమిళుడు నా దగ్గరకొచ్చి, మా భాషలో అక్షరాలు 247 మీ
> భాషలో ఎన్ని అన్నాడు,

> 247 ఎక్కడరా అంటే హల్లులు, అచ్చుల కాంబినేషన్ అంట (http://en.wikipedia.org/wiki/Tamil_language#Writing_<http://en.wikipedia.org/wiki/Tamil_language#Writing_system>
> system <http://en.wikipedia.org/wiki/Tamil_language#Writing_system>)


> తెలుగులో ఎన్నంటే ఏమి చెప్పాలి? చిన్న ప్రశ్నే కావచ్చు, సమాధానం చైనా వాలంత
> పెద్దది ఇవ్వాల్సి వచ్చింది.
> అక్షరాల వద్దే ఇంత ఇబ్బంది ఎదురైతే ఇక పదాల వద్ద ఎంత ఎదురవుతుందో తెలుసు.
>
> మా ఇంటిలో సూర్యరాయవారి నిఘంటువు ఆరు భాగాలుగా ఉంది.
> (అచ్చులతో మొదలయ్యే పదాలకు ఒకటి, హల్లులతో మొదలయ్యే పదాలకు ఐదు). ఈసారి ఇంటికి
> వెళ్ళినప్పుడు పదాల  సంఖ్య లెక్క ఏమైనా తేల్చగలనేమో   చూడాలి.
>  ఒక్కో భాగానికి పదివేల పదాల లెక్క వేసుకున్నా మొత్తం అరవై వేల పైచిలుకే
> ఉంటాయి. బ్రౌన్ నిఘంటువులోని పదాల సంఖ్య తక్కువనుకుంటాను
> నేను రిలీజ్ చేసిన నిఘంటువులో సుమారు ఇరవై వేల పదాలు ఉన్నాయి.
>
> Thanks and Regards,

> Phani Pradeephttp://pradeepblog.miriyala.in
>
> 2009/6/24 Ravi Chandra Enaganti <ravichandra.enaga...@gmail.com>


>
> > వెంకట్ గారూ! మంచి ఆలోచన. దీని కార్యాచరణ కోసం కోసం మనకు దీర్ఘకాలిక ప్రణాలిక
> > అవసరమౌతుంది. కొంత మంది తెలుగు భాషా పండితుల సహకారం కూడా ఉంటే బాగుంటుంది.
>

> > 2009/6/24 venkat <friend...@gmail.com>

Sri Raghava Kiran Mukku

unread,
Jun 29, 2009, 9:45:33 AM6/29/09
to telugu-c...@googlegroups.com
నమస్తే

క్రొత్తగా సంగణనపుటధ్యయనం చేయకుండా ఈ గుంపులో నేను ఏ రకంగా సహాయపడగలనో అనుకున్నాను. ఇప్పుడు ఈ చర్చలో కొంచెం వెసులుబాటు దొరికింది.

కూడలో జల్లెడో తీసికొని దానిలో చేరే పదాలని సంచయం చేయడం అంత మంచి ఆలోచన కాకపోవచ్చును. వ్రాసేవారు తెలుగులో సరైన వర్ణక్రమంలో వ్రాయకపోతే తప్పుడు పదాలు చేరే అవకాశం కూడా ఉంది కాబట్టి. ఉదాహరణకి శ్రుతి - శృతి, మిత్రుడు - మితృడు, శతృవు - శత్రువు, బాధ - భాద, శీఘ్రము - శ్రీఘ్రము, మొదలైనవి. తెంగ్లీషు పదాలు చేరితే వచ్చే నష్టం కన్నా, ఉన్న తెలుగు పదాలు తప్పుగా చేరడం వల్ల జరిగే నష్టమే ఎక్కువ అని నా అభిప్రాయం.

ఓ సీ ఆర్ గుఱించి మాట్లాడేటప్పుడు తెలుగులో వ్రాసే పద్ధతి ఒకే వర్ణానికి (ప్రస్తుతానికి అచ్చు హల్లులు రెండూ కలిసినది అనుకుందాం) కూడా రకరకాలుగా ఉంటుందని గుర్తుపెట్టుకోవాలి. ఉదాహరణకి, హోలీ వ్రాయాలనుకుంటే హె వ్రాసి ఊకారం ఇవ్వడం ఒక పద్ధతి... హో వచ్చినట్టుగా. అలా కాకుండా నేరుగా ఓ కారం (రోలు లో లాగ అన్నమాట) ఇవ్వటం ఒక పద్ధతి. రెండు పద్ధతులూ పాటించేవాళ్లూ ఉన్నారు. ఒత్తులు మ ఒత్తు రెండు మూడు రకాలుగా వ్రాస్తారు. అలాగే శ ఒత్తు కూడా. కొందరు లా వ్రాసేటప్పుడు ౄ లా వ్రాస్తారు. ఇలాంటివి కూడా చూసుకోవాలి.

ఇటీవలి ఉత్తరాల శృంఖల చూడగానే చప్పున తోచినవి ఇవీ. ఇక, ప్రస్తుతానికి సెలవు.

మీ
రాఘవ

@రాకేశ్వర: ఐనా తెలుగుకి అనువైన ఓ సీ ఆర్ ఆల్గారిథమ్ మనమే ఎందుకు తయారు చేసుకోకూడదు, ఏదో పరాయిభాషలనుండి అరువు తెచ్చుకునే బదులు?

Rakesh Achanta

unread,
Jun 29, 2009, 9:58:36 AM6/29/09
to telugu-c...@googlegroups.com

రాఘవ,

మంచి సూచనలు ఇచ్చారు. ప్రత్యేకించి అచ్చుతప్పుల గుఱించి. పదాలు లెక్కపెట్టేటప్పుడు నిఘంటువులు మీదనే ఆధారపడాలి.
అసలు agglutinative language లో పదాలు లెక్కపెట్టకోవడమే ఒక రకంగా వెఱ్ఱి , పులిని చూచి నక్క వాతలు పెట్టుకున్నట్టు, ఆంగ్లంలో పదాలకు inflection వుండదు, వాటిని విడివిడిగా పొడిపొడిగా వ్రాస్తారు, కాబట్టి నిజంగా చెప్పాలంటే మన భాషలో పదాలు అనంతం. ఉదా - వారిరువురిమధ్యలోనుండి అన్నది ఒక పదం. ఐనా ఓసీరావు కోసం ఒక పదాల చిట్టా వుండడం అవసరమే, దానికోసమై ప్రమాణాలు తగ్గినా, ఒక పదచిట్టాను తయారు చేసుకోవాలి. అందులో ఋణంతో బాటు రుణం శ్రుతితో బాటు శృతి వున్నా పర్వాలేదు.

OCR is font specific. While training the OCR you are training it for a specific font.
ఒక సారి ఒక మంచి OCR system వుంటే దానికి పలు ఫాంటులకు నేర్పవచ్చును. ముందు tresseract కి ట్రెయినింగు ఇచ్చి ఫలితాలు చూద్దాం, ఆ తరువాత ముందు ముందు ఏం చేయాలో చూసుకుందాం.

మనమే ఓనమాల దగ్గరనుండి OCR వ్రాసుకోవడం చాలా కష్టం, పైపెచ్చు tesseract చాలా మంచి పరికరం, దానిని మన భాషకు అనుగుణంగా మార్చుకుంటే ఒక పదేళ్ళు కలిసివస్తాయి ;-)


- రాకేశ్వర
http://andam.blogspot.com


2009/6/29 Sri Raghava Kiran Mukku <msrk...@gmail.com>

haridallas

unread,
Sep 6, 2013, 2:14:16 PM9/6/13
to telugu-c...@googlegroups.com

regarding making   alist of  telugu word and creating  a  corpus/database to help with  OCR and  other  computational linguistics for  Telugu.

Recently I  saw  a website 
this is created by 
I have tried contacting them on 2 occasions recently to  suggest  for getting the text of all the  database to create a corpus but so far there has been no reply.

if some one from this groups knows about them or have their  telephone numbers  we can contact them and start a database .

So far  I have  found this online  OCR website 
to be the  most accurate  ( which is not  accurate enough to work for us )

i2OCR - Free Online OCR

www.i2ocr.com/

Rakeshwar's  Tesseract with  VIET OCR  is the next  best .

still we have va long way to go before wehave  an Omnipage like  OCR for telugu.

haridallas

unread,
Sep 6, 2013, 2:16:57 PM9/6/13
to telugu-c...@googlegroups.com
 Online handwriting recognition for telugu

Telugu OCR
telugu spell checker
 I know  some  readers may  reply we have  such software.
I want  ones  which have  99.999995 accuracy  and  not  50% accuracy  with such performance it is almost like not having  any.


On Wednesday, June 24, 2009 1:44:43 AM UTC-5, రవిచంద్ర wrote:

haridallas

unread,
Sep 6, 2013, 2:20:51 PM9/6/13
to telugu-c...@googlegroups.com
HP Labs INDIA  did some work in 2007  but I see there has been  no more progress after that.
even those people who have worked on those projects do not seem to be interested to continue it   as the source forge projects are also moribund.


On Wednesday, June 24, 2009 1:44:43 AM UTC-5, రవిచంద్ర wrote:

haridallas

unread,
Sep 6, 2013, 2:21:22 PM9/6/13
to telugu-c...@googlegroups.com

All results for “telugu”

 (10)
 
 
 
 
...Report: HPL-2007-107: HMM-based Online Handwriting Recognition System for Telugu Symbols Jump to content summary of site-wide JavaScript functionality United States-English...
...Tech Report: HPL-2007-104: Elastic Matching of Online Handwritten Tamil and Telugu Scripts Using Local Features Jump to content summary of site-wide JavaScript functionality...
...typed in content, and multimedia, has been configured to support spoken Hindi and Telugu, two key languages in India. Inadequate funding could derail some of the projects...
...release a kit that will translate English prose into three Indian languages -- Hindi, Telugu and Marathi. Work is under way on other Indian languages, though Sangal said developers...
...Kannada and Tamil. Work is on in developing the scripts for other languages like Telugu, Gujarati etc," Gupta said. In addition to the text, GKB, which can also be...
...Karp, Alan H. HPL-2007-104 Elastic Matching of Online Handwritten Tamil and Telugu Scripts Using Local Features - L, Prasanth; V, Jagadeesh Babu; R, Raghunath...
...Sanskrit Serbian Shona Sindhi Slovak Slovenian Somali Swahili Tagalog Tajik Tamil Tatar Telugu Thai Tibetan Tigrinya Tsonga Turkish Turkmen Twi Ukrainian Urdu Uzbek Vietnamese...
...Sept 23-26, 2007 Download HMM-based Online Handwriting Recognition System for Telugu Symbols, Jagadeesh Babu V., Prashanth L., Raghunath Sharma R., Prabhakara...
...Sept 23-26, 2007 Download HMM-based Online Handwriting Recognition System for Telugu Symbols, Jagadeesh Babu V., Prashanth L., Raghunath Sharma R., Prabhakara...
...Sept 23-26, 2007 Download HMM-based Online Handwriting Recognition System for Telugu Symbols, Jagadeesh Babu V., Prashanth L., Raghunath Sharma R., Prabhakara...

On Wednesday, June 24, 2009 1:44:43 AM UTC-5, రవిచంద్ర wrote:
Reply all
Reply to author
Forward
0 new messages