యూనీకోడు డంపు కావలెను

34 views
Skip to first unread message

Rakesh A

unread,
Feb 5, 2013, 4:33:23 AM2/5/13
to సంగణన, Dileep M
నమస్కారం

ఈ పని మీరు పూర్వం విరివిగా చేసినదే అనుకుంటున్నాను.
నాకు ఎన్-గ్రాముల కోసం చాలా యూనీకోడు డాటా టెక్సటు కావాలి.

మీ దగ్గర పైతాను స్క్రిప్టులుంటే పంపగలరు. బ్లాగులు, వికిపీడియా , వికీసోర్సు, నాకు కనబడుతున్న మూలాలు, మీకు ఇంకా ఏమైనా తడితే చెప్పగలరు.

విధేయుఁడు
రాకేశ్వర

Dileep.M

unread,
Feb 5, 2013, 5:22:30 AM2/5/13
to Rakesh A, సంగణన
I dumped around 6Lac unique unicode telugu words from "eemaata"
some time back.


It was in SQL Server Database format. I need to dump it as a txt
file. I'll try to pull some of time will send this week. I have a C#
script.

If you can use windows machine I can make it configurable [Like
website name,no.of threads etc.]

I don't have python script.

Mean while you can use Telugu Spell check for Mozilla . (Chek this
zip file it got around 1 Lac Telugu unicode words)

https://addons.mozilla.org/en-us/firefox/addon/telugu-spell-checker/



--
Dileep.M
--
Dileep.M
+91-897-855-9072
telugu_spell_checker-0.3-tb+fx+sm.zip

Dileep.M

unread,
Feb 5, 2013, 5:29:23 AM2/5/13
to Rakesh A, సంగణన
We can't use all blogs for crawling & dumping.
Many blogs nowadays are with so many spelling mistakes. We need to
find some blogs with high quality like Veeven's, TBLS(unfortunately
his blog is down for many reasons.).

May be this group can help in finding Telugu portal's/blogs with
minimum spelling mistakes.

May be we have to look at the Telugu wiki raw dump instead of crawling that.


--
Dileep.M



On 2/5/13, Rakesh A <rake...@gmail.com> wrote:
--
Dileep.M
+91-897-855-9072

సురేశ్ కొలిచాల

unread,
Feb 5, 2013, 10:53:02 AM2/5/13
to telugu-c...@googlegroups.com, Rakesh A
రాకేశ్వర, దిలీపులకు,

మీకు ఉపయోగపడుతుందంటే 15 సంవత్సరాల ఈమాట సంచికల డాటాబేసును అందివ్వగలను. ఈమాట ఎడిటర్లు క్షుణ్ణంగా పరిశీలించి, పరిష్కరించారు కాబట్టి అచ్చుతప్పులు తక్కువేనని నా నమ్మకం.

ఈమాట సంచికలు: http://eemaata.com/em

Regards,
Suresh.

Dileep.M

unread,
Feb 5, 2013, 11:33:16 AM2/5/13
to Rakesh A, సంగణన
Dear Rakesh,

Total: >5,11,000 and <5,12,000
You may open with Excel.
Let me know your feedback.

Dear Group,

Please provide with a list of Quality [in spelling sense] Telugu blogs.



--
Dileep.M
--
Dileep.M
+91-897-855-9072
te.zip

Dileep.M

unread,
Feb 5, 2013, 11:45:03 AM2/5/13
to Rakesh A, సంగణన
Is there any rules set to determine varient of a Telugu Word?
Something like Stop words??

Ex:For అంగీకారం following all are the varients.

అంగీకార
అంగీకారం
అంగీకారంగా
అంగీకరించ
అంగీకరించి
అంగీకరించే
అంగీకరించింది
అంగీకరించేందుకు
అంగీకరించక
అంగీకరించాక
అంగీకరించకపోయినా
అంగీకరించకపోవచ్చు
అంగీకరించకపోవటం
అంగీకరించకపోవుట
అంగీకరించకుంటోంది
అంగీకరించకుండా
అంగీకరించకూడదు
అంగీకరీంచకూడదు
అంగీకరించగానే
అంగీకరించగల
అంగీకరించగలిగినప్పుడే
అంగీకరించగలవా
అంగీకరించొచ్చు
అంగీకరించటం
అంగీకరించటానికీ
అంగీకరించటమూ
అంగీకరించేటువంటిది
అంగీకరించడం
అంగీకరించాడని
అంగీకరించడానికి
అంగీకరించడానికీ
అంగీకరించడమే
అంగీకరించడమేమిటి
అంగీకరించడు
అంగీకరించాడు
అంగీకరించతగిన
అంగీకరించేది
అంగీకరించేదే
అంగీకరించదు
అంగికరించని
అంగీకరించని
అంగీకరించిన
అంగీకరించినా
అంగీకరీంచిన
అంగీకరించినందుకు
అంగీకరించినందున
అంగీకరించనఖ్ఖర్లేదు
అంగీకరించినట్టు
అంగీకరించినట్టుగా
అంగీకరించినట్లే
అంగీకరించినట్లుగా
అంగీకరించినాడని
అంగీకరించినాడేమో
అంగీకరించినాడు
అంగీకరించినాడుగాణి
అంగీకరించినదే
అంగీకరించినాను
అంగీకరించినారు
అంగీకరించను
అంగీకరించాను
అంగీకరించనూ
అంగీకరించిపోయినాడు
అంగీకరించబడిందే
అంగీకరించబడ్డ
అంగీకరించబడ్డది
అంగీకరించబడతాయి
అంగీకరించబడని
అంగీకరించబడిన
అంగీకరించేముందు
అంగీకరించారా
అంగీకరించారట
అంగీకరించరు
అంగీకరించారు
అంగీకరించరూ
అంగీకరించాలా
అంగీకరించేలా
అంగీకరించలేం
అంగీకరించలేక
అంగీకరించలేకపోతున్నాడు
అంగీకరించలేకపోయాను
అంగీకరించలేకున్నాడు
అంగీకరించలేడు
అంగీకరించలేదని
అంగీకరించలేదేమో
అంగీకరించలేదు
అంగీకరించలేదు[4]
అంగీకరించాలని
అంగీకరించాలనీ
అంగీకరించాలనే
అంగీకరించలేను
అంగీకరించలేరు
అంగీకరించలేవేమోనన్న
అంగీకరించాల్సి
అంగీకరించాల్సిన
అంగీకరించేవి
అంగీకరించవచ్చని
అంగీకరించవచ్చు
అంగీకరించేవారట
అంగీకరించవలసి
అంగీకరించవలసిందే
అంగీకరించవలసినదే
అంగీకరించవలసివచ్చినది
అంగీకరించేశారు
అంగీకరించేసి
అంగీకరించు
అంగీకరించుకోలేదు
అంగీకరించుట
అంగీకరింప
అంగీకరింపక
అంగీకరింపబడిన
అంగీకారంలో
అంగీకరిచాలనీ
అంగీకరణం
అంగీకరణోపన్యాసం
అంగీకరణలు
అంగీకారతను
అంగీకరిద్దాము
అంగీకారానికి
అంగీకారానికీ
అంగీకారానికొచ్చాకే
అంగీకారాన్ని
అంగీకారాన్నీ
అంగీకారపత్రం
అంగీకారప్రాయంగా
అంగీకారమే
అంగీకరిమచుట
అంగీకారమైన
అంగీకారమయితే
అంగీకారమయిన
అంగీకారము
అంగీకారముంటే
అంగీకారముందన్నాడు
అంగీకారమును
అంగీకార్యం
అంగీకారయోగ్యం
అంగీకారయోగ్యంగా
అంగీకారయోగ్యత
అంగీకారయోగ్యమైన
అంగీకార్యమే
అంగీకార్యమని
అంగీకార్యాలేననీ
అంగీకారావశ్యకత
అంగికరిస్తే
అంగీకరిస్తా
అంగీకరిస్తే
అంగీకరిస్తాం
అంగీకరిస్తాడు
అంగీకరిస్తేనే
అంగీకరిస్తాను
అంగీకరిస్తామా
అంగీకరిస్తారా
అంగీకరిస్తారో
అంగీకరిస్తారనే
అంగీకరిస్తారన్నమాట
అంగీకరిస్తారనుకొంటా
అంగీకరిస్తారనుకొంటాను
అంగీకరిస్తారనుకుంటాను
అంగీకరిస్తారేమో
అంగీకరిస్తారు
అంగీకరిస్తుంది
అంగీకరిస్తున్న
అంగీకరిస్తున్నాం
అంగీకరిస్తున్నట్లు
అంగీకరిస్తున్నాను
అంగీకరిస్తున్నప్పుడు
అంగీకరిస్తున్నాము
అంగీకరిస్తున్నారని
అంగీకరిస్తున్నారు
అంగీకరిస్తూ
అంగీకరిస్తూనే
--
Dileep.M
+91-897-855-9072

Dileep M

unread,
Feb 5, 2013, 11:53:40 AM2/5/13
to telugu-c...@googlegroups.com, Rakesh A
Already crawled  eemaata.com in or  I crawled only eemaata.com. Please suggest some other blogs/sites.

Suresh Kolichala

unread,
Feb 5, 2013, 12:02:39 PM2/5/13
to telugu-c...@googlegroups.com, Rakesh A
You need a morphological analyzer to split the morphemes of a given word, and then look up the morphemes. For example, 

పగులగొట్టించిపెట్టమనడలేకపోతున్నాను should be split up as:

పగులు + అ  + కొట్టు + -ఇంచు + ఇ + పెట్టు + అ + -మను + లేక + పోతు + -ఉన్నాను

UoH has released a morphological analyzer during the World Telugu Conference, but I have not been able to locate this tool on their website. Here are their two papers:
  • Telugu Morphological Analyser Uma Maheshwar Rao, G., Amba P. Kulkarni, Christopher M., International Telugu Internet Conference Proceedings, Milpitas, California, USA, 28th - 30th September, 2011.
  • Telugu Spell Checker Uma Maheshwar Rao, G., Amba P. Kulkarni, Christopher M. Parameshwari K., International Telugu Internet Conference Proceedings, Milpitas, California, USA, 28th - 30th September, 2011.
Regards,
Suresh.

2013/2/5 Dileep.M <m.di...@gmail.com>
--
--
For more options, visit "తెలుగు సంగణన (telugu-computing)" group at
http://groups.google.com/group/telugu-computing?hl=te
---
You received this message because you are subscribed to the Google Groups "తెలుగు సంగణన  (telugu-computing)" group.
To unsubscribe from this group and stop receiving emails from it, send an email to telugu-computi...@googlegroups.com.
For more options, visit https://groups.google.com/groups/opt_out.



Dileep M

unread,
Feb 6, 2013, 12:40:43 AM2/6/13
to telugu-c...@googlegroups.com
Thanks for   the links.
I have that CD with me.
Not yet explored these tools.

Dileep M

unread,
Feb 7, 2013, 9:50:19 AM2/7/13
to telugu-c...@googlegroups.com, Rakesh A
Dear Rakesh,
 
I'm assuming you are building N-Gram for OCR.
 
In that case what is the unit for "Aksharam\Letter"  ?
 
 
Are you taking "Visual Unit i.e Glyph"  as the unit or "Logical Aksharam"[Refer exampl given below]. 
 
For better result Glyph may be taken as the unit at least in the case of OCR.
 
EX:
క్కా    ==>
  1. Case1: Whole kkA itself. i.e. Single Unit.
  2. Case2:  kA +^k . Two units
క్ష్యా==>
  1. Case1: Whole kshyA
  2. Case2: [It's again open for debate]
    1. Case 2.1: kSha+^y  Two units  
    2. Case2.2:  kA+(Ksha Body)+ ^y Three units.
 
 
Correct me   if I'm wrong.
   

Rakesh A

unread,
Feb 7, 2013, 10:23:18 AM2/7/13
to telugu-c...@googlegroups.com

Makes sense.

I have not finalized the details as of now.
The easiest way is to do as you said.

But I am thinking of consulting an expert on Context Free Grammars or something like that and ask for opinion.

- Rakesh

Dileep.M

unread,
Feb 8, 2013, 5:49:09 AM2/8/13
to Rakesh A, సంగణన

Dileep.M

unread,
Feb 8, 2013, 7:07:39 AM2/8/13
to Rakesh A, సంగణన
Eenadu is one of the sites with high quality.Even though it is not
available in unicode. It can be easily converted to Unicode. I
think last 90 days is only available in public domain.

Sakshi and Andhra Jyothy are now available in uni-code but with less
quality compared to Eendau.

Wiki,Eeenadu, Sakshi,AndhraJyothy- I think enough sources.

And also can be think of pdf books with Anu fonts. Those are also with
some better quality.

http://TeluguBhaktiPages.com
--
Dileep.M
+91-897-855-9072

Rakesh A

unread,
Feb 13, 2013, 4:21:08 AM2/13/13
to Dileep.M, సంగణన

వికీపీడియా డంపులో కొన్ని కనబడరాని పదాలు ఎక్కువగా కనబడుతున్నాయి.

ఙ కారం అస్సలు కనబడకూడదు. వై'ఙా'సత్య మాట దేఁవుఁడెఱుఁగు.

ఇక్కడ పేర్కొన బడ్డ సమస్య నాకూ వుంది. దానికి పరిష్కారం తెలిస్తే చెప్పగలరు.


వైఙాసత్య                2201 సార్లు కనబడింది
రోజు                    2266 సార్లు కనబడింది
వరంగల్                  2294 సార్లు కనబడింది
ఉంది                    2317 సార్లు కనబడింది
వి                      2378 సార్లు కనబడింది
శ్రీ                    2384 సార్లు కనబడింది
తూర్పు                  2390 సార్లు కనబడింది
మెదక్                   2402 సార్లు కనబడింది
కు                      2460 సార్లు కనబడింది
కరీంనగర్                2473 సార్లు కనబడింది
గురించి                 2523 సార్లు కనబడింది
ఘంటసాల                  2550 సార్లు కనబడింది
ఇక్కడ                   2577 సార్లు కనబడింది
అనే                     2633 సార్లు కనబడింది
అని                     2677 సార్లు కనబడింది
బొమ్మ                   2711 సార్లు కనబడింది
ఎస్                     2714 సార్లు కనబడింది
కి                      2839 సార్లు కనబడింది
ఉన్నాయి                 2888 సార్లు కనబడింది
ఉన్న                    3015 సార్లు కనబడింది
ఇది                     3029 సార్లు కనబడింది
చాలా                    3031 సార్లు కనబడింది
వ                       3071 సార్లు కనబడింది
భారత                    3294 సార్లు కనబడింది
చూడండి                  3305 సార్లు కనబడింది
మీ                      3309 సార్లు కనబడింది
మండలం                   3333 సార్లు కనబడింది
చిత్తూరు                3401 సార్లు కనబడింది
మహబూబ్                  3544 సార్లు కనబడింది
పి                      3612 సార్లు కనబడింది
నుండి                   3661 సార్లు కనబడింది
ప్రదేశ్                 3816 సార్లు కనబడింది
నగర్                    4048 సార్లు కనబడింది
జిల్లాలోని              4138 సార్లు కనబడింది
గోదావరి                 4198 సార్లు కనబడింది
ఆంధ్ర                   4261 సార్లు కనబడింది
కూడా                    4468 సార్లు కనబడింది
వికీపీడియా              4992 సార్లు కనబడింది
మరియు                   5218 సార్లు కనబడింది
ఆ                       5832 సార్లు కనబడింది
సినిమా                  5883 సార్లు కనబడింది
ఒక                      7360 సార్లు కనబడింది
తెలుగు                  7605 సార్లు కనబడింది
మండలంలోని               9362 సార్లు కనబడింది
లో                     10836 సార్లు కనబడింది
మండలానికి              12589 సార్లు కనబడింది
గ్రామము                13695 సార్లు కనబడింది
ఈ                      14624 సార్లు కనబడింది
చెందిన                 14787 సార్లు కనబడింది
వర్గం                  15663 సార్లు కనబడింది
గ్రామాలు               17813 సార్లు కనబడింది
జిల్లా                 24290 సార్లు కనబడింది

Dileep.M

unread,
Feb 13, 2013, 4:42:45 AM2/13/13
to Rakesh A, సంగణన
అర్ధం కాలేదు. ఇంకాస్త వివరంగా చెప్పండి
"వికీపీడియా డంపులో కొన్ని కనబడరాని పదాలు ఎక్కువగా కనబడుతున్నాయి."
కింద ఇచ్చిన వాటిలో కనిపించరానివి ఏమి వున్నాయి?


On 2/13/13, Rakesh A <rake...@gmail.com> wrote:
> వికీపీడియా డంపులో కొన్ని కనబడరాని పదాలు ఎక్కువగా కనబడుతున్నాయి.
>
> ఙ కారం అస్సలు కనబడకూడదు. వై'ఙా'సత్య మాట దేఁవుఁడెఱుఁగు.
>
> ఇక్కడ<http://stackoverflow.com/questions/11060877/remove-wiki-markup-from-string-in-python>పేర్కొన
--
Dileep.M
+91-897-855-9072

Rakesh A

unread,
Feb 13, 2013, 4:50:44 AM2/13/13
to Dileep.M, సంగణన
ఇంకొద్దిగా వివరంగా వ్రాయవలసినదేమో...
I took the xml dump and extracted the pages. These pages are now in Wiki Metalanguage.

From that wiki marked up text, I just removed all Enlgish letters and puctuation and special characters.

That way I got these telugu words. Understandably words like దస్త్రం వర్గం జిల్లా from the templates stayed on.
Also some user names stayed over.

I need to use a better system to remove wiki markup text. Like this one I think.

The main problem is that the dump does not reflect the frequency of word usage in Telugu language it is skewed towards
wiki technical terms.

In this matter, I think eemaata might be better.



2013/2/13 Dileep.M <m.di...@gmail.com>

Dileep.M

unread,
Feb 13, 2013, 5:08:38 AM2/13/13
to Rakesh A, సంగణన
1. Need better Wiki page cleaning mechanism. May be you need to look
at extracting printable version. I haven't gone through Wiki Dump.So
I'm not sure whether it is included in the dump or not.

2. Of course can think of other data sources too.

3. Are you aiming at predicating on Word sequences or character
sequences? Please re-think on the model.

[..]that the dump does not reflect the frequency of word usage in
Telugu language[...]

On 2/13/13, Rakesh A <rake...@gmail.com> wrote:
> ఇంకొద్దిగా వివరంగా వ్రాయవలసినదేమో...
> I took the xml dump and extracted the pages. These pages are now in Wiki
> Metalanguage.
>
> From that wiki marked up text, I just removed all Enlgish letters and
> puctuation and special characters.
>
> That way I got these telugu words. Understandably words like దస్త్రం వర్గం
> జిల్లా from the templates stayed on.
> Also some user names stayed over.
>
> I need to use a better system to remove wiki markup text. Like
> this<http://pastebin.com/idw8vQQK>one I think.
--
Dileep.M
+91-897-855-9072
Reply all
Reply to author
Forward
0 new messages