2 பேசுவான் 95 3 பண்ணுவான் 86 4 போடுவான் 69 5 தருவான் 63 6 சொல்லுவான் 49 7 விடுவான் 47 8 காட்டுவான் 42 9 போய்விடுவான் 33 10 வந்துவிடுவான் 32 11 எழுதுவான் 26 12 பாடுவான் 25 13 ஓடுவான் 22 14 போயிடுவான் 22 15 வாங்குவான் 20 16 போயிருவான் 19 17 சாப்பிடுவான் 19 18 கூப்பிடுவான் 19 19 வந்துடுவான் 16 20 விளையாடுவான் 16
What does a woman do?
ending='ுவாள்'
i=0
for w,c in word_stream.most_common():
if w[-len(ending):]==ending:
i+=1
print(i,w,c)
1 வருவாள் 110 2 பேசுவாள் 41 3 விடுவாள் 34 4 போய்விடுவாள் 31 5 அழுவாள் 31 6 வந்துவிடுவாள் 28 7 தருவாள் 26 8 பாடுவாள் 23 9 போடுவாள் 17 10 சொல்லுவாள் 13 11 புலம்புவாள் 12 12 அருவாள் 12 13 எழுதுவாள் 12 14 சாப்பிடுவாள் 11 15 தொடங்குவாள் 10 16 காட்டுவாள் 9 17 திட்டுவாள் 9
Here is a query that shows what man usually does that woman does not :)
ஆண்விகுதி = 'ுவான்'
பெண்விகுதி = 'ுவாள்'
print([w for w,c in word_stream.most_common()
if w[len(ஆண்விகுதி):]==ஆண்விகுதி and
w[:len(ஆண்விகுதி)]+பெண்விகுதி not in word_stream])
['போயிருவான்', 'இறங்குவான்', 'வித்துவான்', 'போய்டுவான்', 'தாண்டுவான்', 'மாட்டுவான்', 'துப்புவான்', 'திருடுவான்', 'மயக்குவான்', 'மாறிடுவான்', 'அடங்குவான்', 'ஈடுபடுவான்', 'மாற்றுவான்', 'நீங்குவான்', 'துழாவுவான்', 'தாக்குவான்', 'அலட்டுவான்', 'சிக்குவான்', 'விட்ருவான்', 'சாற்றுவான்', 'தேறிடுவான்', 'சிந்துவான்', 'இயக்குவான்', 'கலக்குவான்', 'மாறிருவான்', 'தீண்டுவான்', 'கலங்குவான்', 'கையாளுவான்', 'தின்றுவான்', 'மீட்டுவான்', 'தொகுறுவான்', 'மாத்துவான்', 'பரப்புவான்', 'அரற்றுவான்', 'தொங்குவான்', 'டுவிடுவான்', 'நோங்குவான்', 'ஆடிவருவான்', 'கூப்புவான்', 'கொல்லுவான்', 'பேசிடுவான்', 'போட்ருவான்', 'மூழ்குவான்', 'தூண்டுவான்', 'வாச்சுவான்', 'தீட்டுவான்', 'நெம்புவான்', 'வணங்குவான்', 'டப்படுவான்', 'அசத்துவான்', 'நோக்குவான்', 'ஜொள்ளுவான்', 'வுட்ருவான்', 'அரசாளுவான்', 'செருமுவான்', 'மயங்குவான்', 'அகற்றுவான்', 'திருகுவான்', 'வாகிருவான்', 'கைவிடுவான்', 'சிச்சுவான்', 'அலறிருவான்', 'உறவாடுவான்']
--
You received this message because you are subscribed to the Google Groups "indicnlp" group.
To unsubscribe from this group and stop receiving emails from it, send an email to indicnlp+u...@googlegroups.com.
To post to this group, send email to indi...@googlegroups.com.
To view this discussion on the web visit https://groups.google.com/d/msgid/indicnlp/ad8858f0-ef84-40ce-ba8a-5e6539d33139%40googlegroups.com.
For more options, visit https://groups.google.com/d/optout.
--
You received this message because you are subscribed to the Google Groups "indicnlp" group.
To unsubscribe from this group and stop receiving emails from it, send an email to indicnlp+u...@googlegroups.com.
To post to this group, send email to indi...@googlegroups.com.
To view this discussion on the web visit https://groups.google.com/d/msgid/indicnlp/ad8858f0-ef84-40ce-ba8a-5e6539d33139%40googlegroups.com.
For more options, visit https://groups.google.com/d/optout.
900k words from 30k articles? We need a principled tokenization methods for Tamil.SOTA model in many language tasks across many languages BERT used something called word-piece tokenization, which is equivalent to byte pair encoding where the vocab achieves maximum likelihood in language modelling.
Standard news articles does follow Tamil grammatical features for combining words into compound words. We could use morphological analyzer based tokenization. At the same time dialect variations do not follow the rules and how do we account for those cases is still a question.
To unsubscribe from this group and stop receiving emails from it, send an email to indi...@googlegroups.com.
--
You received this message because you are subscribed to the Google Groups "indicnlp" group.
To unsubscribe from this group and stop receiving emails from it, send an email to indicnlp+u...@googlegroups.com.
To post to this group, send email to indi...@googlegroups.com.
To view this discussion on the web visit https://groups.google.com/d/msgid/indicnlp/fe03662e-b043-4409-b387-eb251ef8833d%40googlegroups.com.
Selva, I am amazed by how you nailed down the issues so concisely. (900k words from 30k articles) and (news versus dialect)
The 8K SP model (SP for Google sentence-piece) is built using wikipedia 1.2 lakh article dump so it is primarily from 'regularized' written Tamil.
To unsubscribe from this group and stop receiving emails from it, send an email to indicnlp+u...@googlegroups.com.
To view this discussion on the web visit https://groups.google.com/d/msgid/indicnlp/78d4826f-ffcd-45bf-bb68-9cb3631243d2%40googlegroups.com.
To unsubscribe from this group and stop receiving emails from it, send an email to indicnlp+u...@googlegroups.com.
To view this discussion on the web visit https://groups.google.com/d/msgid/indicnlp/78d4826f-ffcd-45bf-bb68-9cb3631243d2%40googlegroups.com.
"வித்துவான்" விதைப்பவனும் வித்துவான்(தொழில்), புலவனும் வித்துவான்(பெயர்).
--
You received this message because you are subscribed to the Google Groups "indicnlp" group.
To unsubscribe from this group and stop receiving emails from it, send an email to indicnlp+u...@googlegroups.com.
To post to this group, send email to indi...@googlegroups.com.
To view this discussion on the web visit https://groups.google.com/d/msgid/indicnlp/ad8858f0-ef84-40ce-ba8a-5e6539d33139%40googlegroups.com.
For more options, visit https://groups.google.com/d/optout.