I would love to participate in Language Modeling, Multilingual LMs and Translation, open OCR etc etc

47 views
Skip to first unread message

Ravi Annaswamy

unread,
Mar 18, 2019, 12:55:35 PM3/18/19
to indicnlp
Muru and team,

This is one of the happiest days to see this initiative and also to see energy behind this.
The visual word2vec demo is so awesome :)

I have been building pytorch based Eng->Tam and Tam->Eng translators which have become better and better
in the last 2, 3 months. I would love to open source them for you all to build on for our mother tongues.

Also have created a fastai based Language model for Tamil based on the work on one Mr.Gaurav for Hindi/Punjabi.
As we speak, I am running them on Wikipedia.

Our ancient languages guided the world in language modeling and in programming language theory creation.

AI can pay back to boost these languages again for peace, knowledge through fluent language-agnostic (instant multilingual)
communications.

Ravi Annaswamy

Muru Selvakumar

unread,
Mar 18, 2019, 1:29:04 PM3/18/19
to Ravi Annaswamy, indicnlp
Hi Ravi Annaswamy,

Excellent. Please share your repo link or data if you will. That will greatly aid our cause.
Please find our work here. We could add you to our indicnlp organization in github, if you will share your github username.

Thanks,
Muru Selvakumar.

--
You received this message because you are subscribed to the Google Groups "indicnlp" group.
To unsubscribe from this group and stop receiving emails from it, send an email to indicnlp+u...@googlegroups.com.
To post to this group, send email to indi...@googlegroups.com.
To view this discussion on the web visit https://groups.google.com/d/msgid/indicnlp/52899fdb-004c-4aaf-b78a-e89acf973d50%40googlegroups.com.
For more options, visit https://groups.google.com/d/optout.


--
~Selvakumar v3.0

Ravi Annaswamy

unread,
Mar 18, 2019, 2:12:12 PM3/18/19
to indicnlp
I have a repo, but have not shared anything yet, shame on me. I am an eternal researcher and rewriter without finishing :)
I have become better at this though, and nowadays I see through and finish whatever I start and come back to it again and again.

On the positive side, both the language model code and the translation code and all my other side projects for some scraping,
 are in single stand alone notebooks, so I will start sharing them one by one to your repo.

There is a public bilingual corpus of 200,000 sentences eng-tam data from Loganathan Ramasamy:
which I used for one of the experiments. It has a mix of Movie news, Bible and a Socialist website.

In addition I am in the process of getting human translations of books and aligning them.

Thanks
Ravi

Ashok Ramachandran

unread,
Mar 19, 2019, 7:52:04 AM3/19/19
to indicnlp
Hi Ravi,

I translated over 20 articles from opensource.com from English to Tamil. These are fairly well aligned, I think, because I used the open source OmegaT, which is a Computer Assisted Translation (CAT) tool. I have these translations in the form of two folders, namely source and target, with the same file names. Are you interested in these? Let me know.

Thanks,
Ashok

Ravi Annaswamy

unread,
Mar 19, 2019, 8:25:54 AM3/19/19
to Ashok Ramachandran, indicnlp
Thanks Ashok, that is really great.

 Yes please, for a learner, every pair we get adds to its knowledge and tricks.

If you have it online you can send links or you can post to github.

Or for now you can zip into two zip folders 
Os_ar1_eng.zip and os_ar1_tam.zip and email me?

I can sentence split the files and have a page for parallel corpus on my github for now or if Muru has another idea suggestions please?


1.  I have heard of omegaT but never used it. Your example encourages me to try it.
2. Anyone used hunalign for pair alignment?

Thanks again
Ravi




Sent from my iPhone

Ashok Ramachandran

unread,
Mar 22, 2019, 2:54:43 AM3/22/19
to Ravi Annaswamy, indicnlp
Hi Ravi,

I uploaded them to my GitHub repo here:

Best,
Ashok

Malai

unread,
Mar 25, 2019, 1:17:04 PM3/25/19
to indicnlp
Hi Ashok,

I went through your Github Repo, you have an amazing collection of code for TamilNLP. We are planning to host a meetup in the next week or so in Chennai. Would you be interested in giving a talk ?

Thanks! Malai

Ravi Annaswamy

unread,
Mar 26, 2019, 1:56:00 AM3/26/19
to Ashok Ramachandran, indicnlp
Thank you Ashok
 i will review this weekend


Sent from my iPhone

Ashok Ramachandran

unread,
Mar 26, 2019, 1:54:18 PM3/26/19
to Malai, indicnlp
Hi Malai,

Thanks for the good words about my TamilNLP GitHub repo. However, due to personal commitments I am unable to present at the meetup.

Best wishes,
Ashok


Ravi Annaswamy

unread,
Mar 29, 2019, 11:58:33 PM3/29/19
to indicnlp
Vanangamudi,
I have shared on my github Tamil Language Model Notebook using Fast AI. (built based on Gaurav (goru001's) initial Hindi example.

It has a wikidump parser, a sentencepiece tokenizer, fast ai ULMFit LM with perplexity of 37 and a random text sampling function.
It is one long notebook but hope it will be of use to someone.

Thanks
Ravi


Ravi Annaswamy

unread,
Mar 30, 2019, 12:11:12 AM3/30/19
to indicnlp
Here are some wiki article (imagined) by the language model. 
These are not facts, but we can see how well the grammar and even topicality and semantics are learned by it. This quality was unthinkable just a year ago. 
The model learns to properly open and close the tags. It creates well formed urls (though nonexistent). It learns to repeat the title.
And in each article it stays on related places and concepts!

<doc id="9204" url="https: / / ta.wikipedia.org / wiki?curid= xxrep 4 3 " title="விக்கிரமசிங்க"> விக்கிரமசிங்க விக்கிரமசிங்க ("vancarare") என்பது இலங்கையின் கிழக்கு மாகாணத்தில் யாழ்ப்பாண மாவட்டத்தில் அம்பாறை மாவட்டத்தில் உள்ள ஒரு கிராமம் ஆகும். இது யாழ்ப்பாண மாவட்டத்தின் தலைநகரை உள்ளடக்கி இருந்தது. இது யாழ்ப்பாண மாவட்டத்தின் வடமத்தியப் பகுதியில் அமைந்துள்ளது. இது 1770 இல் கட்டப்பட்டு, பின்னர் 1844 இல் பிரித்தானியர் ஆட்சிக்குட்பட்டது. இங்கு இந்துக்களும், இந்துக்களும் பெரும்பான்மையாகக் கொண்ட பேரூர், யாழ்ப்பாணம், மாவேலிக்கரசி, யாழ்ப்பாணம் ஆகிய இடங்களில் வாழ்கின்றனர். இலங்கையில் பெரும்பான்மையாக வாழும் அம்பக்கரக்கள், தமிழ் முஸ்லிம்கள், முஸ்லிம்கள், சிங்களவர், தமிழருக்கு ஒரு பிரிவினர் ஏனையோர் ஆவர். ஏனைய தமிழின மக்கள் தொகை 4, 33,000

 <doc id="9204" url="https: / / ta.wikipedia.org / wiki?curid= xxrep 4 1 04" title="மகாகவி"> மகாகவி மகாகவி, (பிறப்பு: பிப்ரவரி 10, 1954) இலங்கை அரசியல்வாதியும், நாடாளுமன்ற உறுப்பினரும் ஆவார். இவர் பேராதனைப் பல்கலைக்கழகத்தின் (united school of indian) தேசிய சபை (ac)யில் (mc) சட்டமன்ற உறுப்பினராக உள்ளார். இலங்கையின் நாடாளுமன்ற உறுப்பினராக இருந்தும், 2004 முதல் 2010 வரை நாடாளுமன்றத்தில் 35 ஆண்டுகள் பிரதிநிதித்துவப் பதவி வகித்தார். 2010 ஆம் ஆண்டில் ஐக்கிய தேசியக் கட்சியில் இணைந்து நாடாளுமன்ற உறுப்பினராகவும், ஐக்கிய மக்கள் சுதந்திரக் கூட்டணியின் உறுப்பினராகவும் தேர்ந்தெடுக்கப்பட்டார். அட்சாவின் மரணத்திற்குப் பின்னர், இவர் நாடாளுமன்றத்தின் அதிபராக தெரிவுசெய்யப்பட்டார். இவர் தற்போது ஐக்கிய மக்கள் சுதந்திரக் கூட்டணியில் 5வது மக்களவை

 <doc id="9204" url="https: / / ta.wikipedia.org / wiki?curid= xxrep 4 1 04" title="சபீதுர்கான் (துடுப்பாட்டக்காரர்)"> சபீதுர் கான் (துடுப்பாட்டக்காரர்) சபீதுர் கான் (இறப்பு: மார்ச் 10, 2016) ஒரு தென்னிந்தியத் திரைப்பட நடிகர். இவர் மூன்று தமிழ் திரைப்படங்களுக்கு பின்னணியிசைகளுக்கான பின்னணி இசையை இயக்கியுள்ளார். இவர் தற்போது தமிழ் பாடகி மற்றும் திரைப்படத் தயாரிப்பாளர். இவர் தற்போது தமிழ் திரைப்படங்களில் நடிக்கத் துவங்கினார். இவர் திரைப்படத் துறையில் சென்னைக்கு வரும் நடிகராக விளங்குகிறார். தற்போது திரைப்பட இயக்குநர் நிர்மலா "அறிமுகம்" திரைப்படத்தில் நடித்துள்ளார். இவர் "சௌந்தரபாணி" என்ற படத்தில் நடித்ததற்காக சிறந்த நடிகைக்கான தேசிய விருது பெற்றார். இவர் பெரியார், "சத்யஜித்குமாரர்" என்னும் படத்தில் நடித்து

 <doc id="9204" url="https: / / ta.wikipedia.org / wiki?curid= 7708" title="திசையிழையங்கள்"> குருதியிழையங்கள் குருதியிழையங்கள் அல்லது குருதியணுக்களின் குருதியணுக்கள் (ecg plasma) அல்லது குருதியணுக் கலங்கள் ("pyrmond periods") என்பவை புரத நோய்களை கட்டுப்படுத்துவதற்கும், குருதிக் கலங்களுக்குள் உள்ள தாக்கங்களை ஏற்படுத்தி, அவற்றை அணுகவும் பயன்படும் உயிரணுக்களைக் கொண்ட உயிரணுக்களைக் குறிக்கும். இவற்றில் முக்கியக் காரணிகள் உயிரணுக்களின் இனப்பெருக்க உறுப்புக்களே ஆகும். இழையங்கள், இழையங்களின் தொழிற்பாடு, இழையம், இழையம், இழையம் என்பன பொதுவாக ஒரு தனியன் தொகுதியாகவோ அல்லது ஒரே தொகுதியாகவோ இருக்கும். உயிரணுக்கள், இழையங்கள், கொம்புகள், தண்டுகள் போன்றன இழையுரு

 <doc id="9204" url="https: / / ta.wikipedia.org / wiki?curid= xxrep 4 4 " title="பால்வீடசர்"> பால்வீடசர் பால்வீடசர் ("marter") என்பது நாற்புறமும், புறப்பரப்பில் உள்ள மனிதரின் மூளையின் அமைப்பைப் கூறுவதுமாகும். இதன் வழியாகச் செல்லும் அளவு, உடலின் இன்னொரு பகுதி, நாற்புறமும், ஒருவருக்கும் இடையே அமைந்த மடக்கையின் உடல்கள், மற்றும் நாண்கள், நாண்கள், கண்கள், நாக்கு, முள் போன்ற சில உறுப்புகள் இணைந்து இருக்கும். இந்த நாக்கு மேல்முனையில் ஓடும். நாக்கு பகுதி வயிற்றில் செம்பு, கழுத்தின் கீழ் பகுதி, இளம், மார்பு, வயிறு, மார்பு உட்பட பாதங்களை பிடித்து விடுகிறது. நாக்கின் வெளிப்புறத்தில் இருக்கும். தாயின் உடலின் அடி

vanangamudi

unread,
Mar 30, 2019, 2:12:10 AM3/30/19
to indicnlp
Wow. It seems to work really well. I have added your work to the indicnlp resource list.
To unsubscribe from this group and stop receiving emails from it, send an email to indicnlp+unsubscribe@googlegroups.com.

Ravi Annaswamy

unread,
Mar 30, 2019, 6:42:18 AM3/30/19
to vanangamudi, indicnlp
Thank you Vanangamudi

Sent from my iPhone
To unsubscribe from this group and stop receiving emails from it, send an email to indicnlp+u...@googlegroups.com.

To post to this group, send email to indi...@googlegroups.com.
Reply all
Reply to author
Forward
0 new messages