Re: ఒక సలహా ఇవ్వండి

42 views
Skip to first unread message

Rakesh A

unread,
Jul 22, 2011, 12:20:56 AM7/22/11
to pandurangasharma ramaka, సంగణన
నమస్కారము పాండురంగ శర్మ గారు,

చాలా మంచి తలఁపు. కానీ మన దురదృష్టమూ, ప్రసారభారతి వారి సాంకేతికవిజ్ఞానశూన్యతా, అడోబీ వాడి ఆఁబోతుదనమూ కలసినవి.

మీకు ప్రసారభారతిలో పరిచయస్థులు ఎవరైనా వుంటే, వారికి వేంటనే యూనీకోడు గూర్చి తెలియఁజేయండి. వారే యూనీకోడుకి మారిస్తే మఱేసమస్యా వుండదు. ఇది అసలు పరిష్కారము.

కానీ అందాకా ఎవరైనా, ఆ కాపీపేష్టు చేసిన ఆంగ్లాక్షరాలను తీసుకొని వాటిని దేవనగరి కానీ తెలుఁగులోనికి గానీ మార్చగల యంత్రలిపి వ్రాయగలిగితే బాగుంటుంది కూడాఁ.
దీన్ని ఏదైనా ఇంజనీరింగు కాలేజీ ప్రఫసరు వారి పిల్లలతో చేయించవచ్చుఁ.

pdfలో యూనీకోడు చెడకుండా వుండాలంటే, CID fonts తయారుచేసుకోవాలని నేను కొంతకాలం పరిశోధించి తెలుసుకున్నాను. ఆ పనీ ఎవరైనా నెత్తినపెట్టుకొనవలసివుంది.

సంగణన గుంపులో వేఱెవరికైనా వేఱేమైనే తడితే చెప్పగలరు.

విధేయుఁడు
రాకేశ్వర



2011/7/21 pandurangasharma ramaka <rpandura...@gmail.com>
అయ్యా రాకేశ్వర్ రావు గారూ ! నమస్కారములు.

మీరు పని ఒత్తిడిలో ఉండి ఉంటారు. మీకు తీరిక ఉన్నప్పుడు ఈ కింది విషయంలో సలహా ఇవ్వగలరు.

ప్రతిరోజు ఆకాశవాణిలో వచ్చే సంస్కృతవార్తలు PDF లో
http://newsonair.nic.in/Text-nsd-Bulletins-schedule.asp
లింక్ లో లభిస్తాయి. వాటిని Blog ఒకటి ప్రారంభించి అందులో ఉంచాలని నా తపన.
అలా బ్లాగ్ లో పెట్టడంవల్ల అగ్రిగేటర్ లో వస్తుంది, ఆసక్తి ఉన్నవాళ్ళు చదువుతారు అని ఆశ.

కాని అక్కడ రెండు ఇబ్బందులు కనిపించాయి.
1. అది PDF లో లభించడం.
2. అది Unicode లో ఉండక పోవడం.
ఈ రెండు కారణాలవల్ల వాటిని Copy & Paste పద్ధతిలో బ్లాగ్ లోకి పెట్టడం సాధ్యపడతం లేదు. ఇటువంటి వాని విషయంలో మీరు గతంలో ఏదో పరిశ్రమ చేసినట్టున్నారు. ఆ ఉపాయమేదో నాకు గూడా చెబితే ఈ పని చెయ్యగలుగుతాను.

మీ Mail కొరకు ఎదిరిచూస్తుంటాను.

పాండురంగశర్మ.


Dr.R.P.Sharma

unread,
Jul 22, 2011, 2:13:14 AM7/22/11
to తెలుగు సంగణన (telugu-computing)
ఈ విషయం చదివే ముందు మీరు చదవాల్సింది.....

అయ్యా రాకేశ్వర్ రావు గారూ ! నమస్కారములు.

మీరు పని ఒత్తిడిలో ఉండి ఉంటారు. మీకు తీరిక ఉన్నప్పుడు ఈ కింది విషయంలో
సలహా ఇవ్వగలరు.

ప్రతిరోజు ఆకాశవాణిలో వచ్చే సంస్కృతవార్తలు PDF లో
http://newsonair.nic.in/Text-nsd-Bulletins-schedule.asp
లింక్ లో లభిస్తాయి. వాటిని Blog ఒకటి ప్రారంభించి అందులో ఉంచాలని నా
తపన.
అలా బ్లాగ్ లో పెట్టడంవల్ల అగ్రిగేటర్ లో వస్తుంది, ఆసక్తి ఉన్నవాళ్ళు
చదువుతారు అని ఆశ.

కాని అక్కడ రెండు ఇబ్బందులు కనిపించాయి.
1. అది PDF లో లభించడం.
2. అది Unicode లో ఉండక పోవడం.
ఈ రెండు కారణాలవల్ల వాటిని Copy & Paste పద్ధతిలో బ్లాగ్ లోకి పెట్టడం
సాధ్యపడతం లేదు. ఇటువంటి వాని విషయంలో మీరు గతంలో ఏదో పరిశ్రమ
చేసినట్టున్నారు. ఆ ఉపాయమేదో నాకు గూడా చెబితే ఈ పని చెయ్యగలుగుతాను.

మీ Mail కొరకు ఎదిరిచూస్తుంటాను.

పాండురంగశర్మ.

On Jul 22, 9:20 am, Rakesh A <rakesh...@gmail.com> wrote:
> నమస్కారము పాండురంగ శర్మ గారు,
>
> చాలా మంచి తలఁపు. కానీ మన దురదృష్టమూ, ప్రసారభారతి వారి
> సాంకేతికవిజ్ఞానశూన్యతా, అడోబీ వాడి ఆఁబోతుదనమూ కలసినవి.
>
> మీకు ప్రసారభారతిలో పరిచయస్థులు ఎవరైనా వుంటే, వారికి వేంటనే యూనీకోడు గూర్చి
> తెలియఁజేయండి. వారే యూనీకోడుకి మారిస్తే మఱేసమస్యా వుండదు. ఇది అసలు
> పరిష్కారము.
>
> కానీ అందాకా ఎవరైనా, ఆ కాపీపేష్టు చేసిన ఆంగ్లాక్షరాలను తీసుకొని వాటిని
> దేవనగరి కానీ తెలుఁగులోనికి గానీ మార్చగల యంత్రలిపి వ్రాయగలిగితే బాగుంటుంది
> కూడాఁ.
> దీన్ని ఏదైనా ఇంజనీరింగు కాలేజీ ప్రఫసరు వారి పిల్లలతో చేయించవచ్చుఁ.
>
> pdfలో యూనీకోడు చెడకుండా వుండాలంటే, CID fonts తయారుచేసుకోవాలని నేను కొంతకాలం
> పరిశోధించి తెలుసుకున్నాను. ఆ పనీ ఎవరైనా నెత్తినపెట్టుకొనవలసివుంది.
>
> సంగణన గుంపులో వేఱెవరికైనా వేఱేమైనే తడితే చెప్పగలరు.
>
> విధేయుఁడు
> రాకేశ్వర
>

> 2011/7/21 pandurangasharma ramaka <rpandurangasha...@gmail.com>

haridallas

unread,
Sep 6, 2013, 3:01:28 PM9/6/13
to telugu-c...@googlegroups.com, pandurangasharma ramaka
 I sent the following email to  akashavani hyderabad  and to the  Ap IT/ministry/ department  
let us see if there will be any response .

I  suggest  everyone  using this  group to send  such  emails applications . to raise the awareness.
 we can atleast have the academic  websites of all engineering  and medical and other colleges  to adopt unicode to increse uniformity.


"

 To Who so ever it may concern,
I am interested in  Telugu language  and  telugu computational linguistics and  specially telugu OCR.

One of the  problems  we face in  research is  lack of standardized  unicode  font  text in large quantities  for  making a corpus to create telugu computer programs .

I see that  the website makes  the  telugu news transcripts in PDF format but unfortunately the font used   gets corrupted  when  I try to copy paste it in to a text form.

I  Humbly plead with you to  make  the transcripts available in  plaintext /RTF   in unicode fonts  and also make it available in  an archive fashion  which can be  down loaded  in  a monthly fashion and  yearly  collected fashion to further  the  computational development of the   telugu language.

Also the IT department  should make  it compulsary for all  webcontent to be  available  in  unicode  text  to improve  telugu language computing .

I hope  the  Minister  and  other  officers will take  an interest in this  and  do what is needed at an early date  

thank you 

thank you .


-- 
 Dr.Hariharan  Ramamurthy .M.D."

Dileep.M

unread,
Sep 17, 2014, 12:37:48 PM9/17/14
to సంగణన, pandurangasharma ramaka

--
--
For more options, visit "తెలుగు సంగణన (telugu-computing)" group at
http://groups.google.com/group/telugu-computing?hl=te
---
You received this message because you are subscribed to the Google Groups "తెలుగు సంగణన (telugu-computing)" group.
To unsubscribe from this group and stop receiving emails from it, send an email to telugu-computi...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.

haridallas

unread,
Dec 28, 2014, 1:38:14 PM12/28/14
to telugu-c...@googlegroups.com, rpandura...@gmail.com
I saw your presentation .
it is  very good if used by everyone. but unfortunately  even  computer linguistic center papers are  in PDF docuyments whicgh are not even unicode!
for example all the  articles in  the   
are created using different kinds of software so much so that when I tried to copy and paste the content I am getting different results.

Although I am hearing about a 4 million word corpus created by LERC UH am not even able to open the website?
Is is there any way to get hold of this corpus?
If that can be done I do not not having to go through all this basic problems of trying to get a set of words to check out whether Dragon NaturallySpeaking could be bootstrapped to be used for Telugu speech recognition.
At the present time I am trying to use a speech profile in Dragon naturally speaking and add words which are transliterated in the RTS standard.
And I am trying to train them.
I had done significant amount of training on the version 10 but then lost interest and my hard disk crashed.
Recently I have been trying to redo this training using version 13 which is significantly better. So much so I am using that software to dictate this email.
I am giving my first experiment using the hundred most used words according to the paper given by umaa mahESvara raavu umaa mahESvara row my mahESvara raavu

హ్త్త్ప్://తెలుగువిజయం.ఒర్గ్/ఇతిచ్/ఇతిచ2012శొఉవెనిర్.ప్ద్ఫ్
ఋఎందెల్ల్ ఇం థె కాని ఉంటుంది కొన్ని, అత్ థె అని
లొవ్
నొవ్ నేను
ఉంటాయి ఒవ్నెర్
ఆన్న
లేదు మన నుండి అంటారు
అచqఉఇరె మె థొఉ వారు
గూద్ ఇంచ్ ఇం
మందిర్ నుంచి ద్వారా
కాదు ఐతే ఒం థె దాని రె: వారి మాత్రమే ఇవి,
ప్రతి లేక అనేక ఫని
విధంగా తరువాత దెల్ల ఇరొం కాబట్టి పెద్ద వల్ల మొరె దొ వె నీద్ తొ వారి వివిధ
నొవ్ గొ అత్ అన్య్ చిన్న టెలుగు వెల్ల్ ఇం ఆర్మఘ్ ఆన్న ఇతర వాటిని శ్రి గాని మరియు కూడ కూడ అరె నొ ముందు ఇంతొ ఒక ఒకయ్ ఒకయ్ ఒకయ్ ఒకె ఒక
కొంత కాని దానిని బాగా అతడు సంభందించిన
చేసి
వరకు ఈల మాత్రం అ మొదెరతెల్య్ మొదటి
మాత్రమే ఉంటుంది
ఋఅవి నొ తెలెవిసిఒం, శ్హర్మ శ్హస్త్రి రేద్ థె రొలె థత్ హద్ చొమె రేద్య్

Dileep.M

unread,
Dec 29, 2014, 2:42:51 AM12/29/14
to సంగణన, pandurangasharma ramaka
  1. I'm not aware of  how to get this data form HCU. But we can make ours.
  2. I made an attempt to build a corpus for a spell checker. Crawled emaata.com  and some other rich content blogs and built 5Lac words.
  3. I have another word dictionary based on telugubhagavatam.org with around 63K words.
  4. Similarly we can crawl  andrabharati.com 
  5. I can share these if you are interested.
For more options, visit https://groups.google.com/d/optout.

Reply all
Reply to author
Forward
0 new messages