తెలుగు సాఫ్ట్వేర్ రంగంలో బలం పుంజుకోవాలంటే ఇంకా కొన్ని అప్లికేషన్లు
వెలువడాల్సి ఉంది. ఈ విషయంలో సభ్యులెవరికైనా ఏదైనా ఐడియాలు ఉంటే
పంచుకోవాలని మనవి. మీకు కేవలం ఐడియా ఉంటే చాలు. దాన్ని ఒక అప్లికేషన్ గా
డెవలప్ చేయడానికి ప్రయత్నిస్తాను. మీ ఐడియాలకు ఇదే నా అహ్వానం.
ఇట్లు
మీ రవిచంద్ర
వెంకట్ గారూ! మంచి ఆలోచన. దీని కార్యాచరణ కోసం కోసం మనకు దీర్ఘకాలిక ప్రణాలిక అవసరమౌతుంది. కొంత మంది తెలుగు భాషా పండితుల సహకారం కూడా ఉంటే బాగుంటుంది.
దీనిని ఆటోమేట్ చెయ్యడం పెద్ద కష్టం కాకపోవచ్చనుకుంట.
ఉదా: కూడలి లేదా జల్లెడ ఆరెసెస్ ఫీడు తీసుకుని అందులో వైవిధ్యంగా ఉన్న తెలుగు పదాలను ఒక డేటాబేసులో చేర్చితే మనకు కూడా పోను పోను ఒక లైవ్ డేటాబేసు ఏర్పాటయే అవకాశం ఉంది.
తమిళు వారు 247 అని చెప్పుకోవడం హాస్యస్పదం. నేను కాలేజిలో
వున్నప్పుడుకూడా వారు అలాగే చెప్పుకునేవారు. తరువాత అర్థమయ్యింది ఏంటంటే,
వారికి మిగిలిన భాషలకంటే తక్కువవున్నాయన్నదాన్ని కప్పిపుచ్చుకోవడానికి
ఇలా చెప్పుకుంటారేమో అనుకున్నాను.
ఇక ఫణిగారు అడిగినట్లు తెలుఁగులోనా, ఎన్నైనా వుండవచ్చు మీరు
లెక్కవేసేదానిబట్టి. అంటే వత్తు తరువాత వత్తు తరువాత వత్తు పెట్టుకుంటూ
పోవడమే.
తమిళంలో 247 అని ఖచ్చితంగా వుండడం వలన OCR చేయడం చాలా తేలిక (మిగిలిన దేశ
భాషలతో పోల్చుకుంటే).
మన తెలుఁగులో పర్వాలేదు (అంటే ఆంగ్లం అంత తేలిక కాకపోయినా..) హిందీ
అరబ్బీ వంటి భాషల్లో ఇంకా కష్టం.
మనము కొరియను OCRలు దీనిని ఎలా పరిష్కరిస్తున్నాయో చూసి దాని బట్టి
తెలుగు OCR ని మార్చవచ్చు. నా లెక్క ప్రకారం చిన్నప్పుడు మనం
నేర్చుకున్నట్టు.
ముందు ఉత్త అక్షరాలు, తరువాత గుణింతాలు, ఆ పై వత్తులు లెక్కవేసుకోవచ్చు.
(56 + 37 x 16 + 37).
కానీ తెలుగు OCR కోసం మాత్రం తెలుగులో వాడబడే అన్ని సంయుక్త అక్షరాల
ట్రెయినింగు ఇవ్వాలి. ష్ట్ర, స్త్రీ వంటివాటికి సైతం.
దీని మీద వివరంగా మరెప్పుడైన వ్రాస్తాను.
- రాకేశ్వర
On Jun 24, 5:50 pm, Phani Pradeep <phani.prad...@gmail.com> wrote:
> కొన్ని రోజుల క్రితం ఒక తమిళుడు నా దగ్గరకొచ్చి, మా భాషలో అక్షరాలు 247 మీ
> భాషలో ఎన్ని అన్నాడు,
> 247 ఎక్కడరా అంటే హల్లులు, అచ్చుల కాంబినేషన్ అంట (http://en.wikipedia.org/wiki/Tamil_language#Writing_<http://en.wikipedia.org/wiki/Tamil_language#Writing_system>
> system <http://en.wikipedia.org/wiki/Tamil_language#Writing_system>)
> తెలుగులో ఎన్నంటే ఏమి చెప్పాలి? చిన్న ప్రశ్నే కావచ్చు, సమాధానం చైనా వాలంత
> పెద్దది ఇవ్వాల్సి వచ్చింది.
> అక్షరాల వద్దే ఇంత ఇబ్బంది ఎదురైతే ఇక పదాల వద్ద ఎంత ఎదురవుతుందో తెలుసు.
>
> మా ఇంటిలో సూర్యరాయవారి నిఘంటువు ఆరు భాగాలుగా ఉంది.
> (అచ్చులతో మొదలయ్యే పదాలకు ఒకటి, హల్లులతో మొదలయ్యే పదాలకు ఐదు). ఈసారి ఇంటికి
> వెళ్ళినప్పుడు పదాల సంఖ్య లెక్క ఏమైనా తేల్చగలనేమో చూడాలి.
> ఒక్కో భాగానికి పదివేల పదాల లెక్క వేసుకున్నా మొత్తం అరవై వేల పైచిలుకే
> ఉంటాయి. బ్రౌన్ నిఘంటువులోని పదాల సంఖ్య తక్కువనుకుంటాను
> నేను రిలీజ్ చేసిన నిఘంటువులో సుమారు ఇరవై వేల పదాలు ఉన్నాయి.
>
> Thanks and Regards,
> Phani Pradeephttp://pradeepblog.miriyala.in
>
> 2009/6/24 Ravi Chandra Enaganti <ravichandra.enaga...@gmail.com>
>
> > వెంకట్ గారూ! మంచి ఆలోచన. దీని కార్యాచరణ కోసం కోసం మనకు దీర్ఘకాలిక ప్రణాలిక
> > అవసరమౌతుంది. కొంత మంది తెలుగు భాషా పండితుల సహకారం కూడా ఉంటే బాగుంటుంది.
>
> > 2009/6/24 venkat <friend...@gmail.com>