Common Voice Tamil - Sentence Review

138 views
Skip to first unread message

Natkeeran L.K.

unread,
Nov 4, 2020, 2:42:12 PM11/4/20
to
அனைவருக்கும் வணக்கம்:

கடந்த பொதுக் குரல் தமிழ் போட்டி தொடர்பான சந்திப்பில் கலந்து கொண்டு பங்கேற்றமைக்கு நன்றிகள்.  அந்த சந்திப்பின் குறிப்புக்களை இங்கு காணலாம்:

https://utoronto-my.sharepoint.com/:w:/g/personal/kirsta_stapelfeldt_utoronto_ca/EUth8AX7utpHq1UByZEnWvIBYBXYx3PO1OgaA1KTfNCp4g?e=fMuuJ8

அந்த சந்திப்பில் நாம் உரையாடியபடி, நாம் பொது குரல் சேர்க்க விரும்பும் வசனங்களை இங்கு இணைத்துள்ளேன்:  கூகிள் அட்டவணையின் ஒவ்வொரு sheet இலும் 50,000 வசனங்களாக  சுமார் 350,000 வசனங்கள் உள்ளன.  

https://docs.google.com/spreadsheets/d/18WJzv1kuA-MwsgNoCiBIHBNTiX5ZDf4vC47yj4_7MtA/edit#gid=1067362622

சந்திப்பில் ஆர்வம் காட்டியவர்கள் அனைவருக்கும் கூகிள் ஆவணத்தை தொகுக்க அனுமதி வழங்கி உள்ளேன்.  அவர்கள் பிறரையும் இணைக்க முடியும்.  signup sheet இல் நீங்கள் தொகுக்க விரும்பும் பகுதியை தயந்து குறிக்கவும்.  பங்களிக்க விரும்புபவர்கள் தயந்து அறியத் தந்தால் தொகுத்தல் அனுமதி வழங்க முடியும். 

மீளாய்வின் பொழுது ஒரு வசனம் சரியாக இருந்தால் Accept என்பதை validation_status இல் இடவும்.  இல்லை என்றால் Reject என்பதை தெரிவு செய்யவும்.

Reject பண்ணினால், validation_issue இல் ஒரு காரணத்தை தெரிவு செய்யவும்.  மேலதிக விளக்கங்கள் தேவை என்றால் எனக்கு அறியத் தரவும்.

இந்தச் செயற்திட்டம்/போட்டி தொடர்பான தொடர்பாடல்களை மேற்கொள்ள உங்களூக்கு https://groups.google.com/g/digital-tamil-studies கூகிள் குழுவிற்கு அழைப்பு விடுத்துள்ளேன்.  அங்கு நாம் வெளிப்படையாக எமது தகவல்களைப் பகிர்ந்து கொள்ளக் கூடியதாக இருக்கும்.

அடுத்த சந்திப்பை நாம் nov 17 (செவ்வாய் கிழமை) வைக்க எண்ணி உள்ளோம்.  அதே நேரம்.  அந்த நேரம் பொருந்தவிட்டால் அறியத் தரவும்.

மிக்க நன்றி.

---

சில நுட்பக் குறிப்புகள்:

AshokR அவர்கள் கட்டற்ற மென்பொருளாக பகிர்ந்த் இருந்த தமிழ் வசனம் பிரிப்பான் வளத்தை பயன்படுத்தியுள்ளேன்.  https://github.com/AshokR/TamilNLP/wiki/Tamil-Sentence-Splitter.  இது nltk இன் sent_tokenize விட கூடிய திறனாக இருக்கும் என்று கருதுகிறேன்.  கட்டற்ற மென்பொருளின் பயன்பாட்டுக்கு இது மேலும் ஒர் எடுத்துக்காட்டு.


--
Regards,
Natkeeran
Reply all
Reply to author
Forward
0 new messages