அனைவருக்கும் வணக்கம்:
கடந்த பொதுக் குரல் தமிழ் போட்டி தொடர்பான சந்திப்பில் கலந்து கொண்டு பங்கேற்றமைக்கு நன்றிகள். அந்த சந்திப்பின் குறிப்புக்களை இங்கு காணலாம்:
https://utoronto-my.sharepoint.com/:w:/g/personal/kirsta_stapelfeldt_utoronto_ca/EUth8AX7utpHq1UByZEnWvIBYBXYx3PO1OgaA1KTfNCp4g?e=fMuuJ8அந்த சந்திப்பில் நாம் உரையாடியபடி, நாம் பொது குரல் சேர்க்க விரும்பும் வசனங்களை இங்கு இணைத்துள்ளேன்: கூகிள் அட்டவணையின் ஒவ்வொரு sheet இலும் 50,000 வசனங்களாக சுமார் 350,000 வசனங்கள் உள்ளன.
https://docs.google.com/spreadsheets/d/18WJzv1kuA-MwsgNoCiBIHBNTiX5ZDf4vC47yj4_7MtA/edit#gid=1067362622சந்திப்பில் ஆர்வம் காட்டியவர்கள் அனைவருக்கும் கூகிள் ஆவணத்தை தொகுக்க அனுமதி வழங்கி உள்ளேன். அவர்கள் பிறரையும் இணைக்க முடியும். signup sheet இல் நீங்கள் தொகுக்க விரும்பும் பகுதியை தயந்து குறிக்கவும். பங்களிக்க விரும்புபவர்கள் தயந்து அறியத் தந்தால் தொகுத்தல் அனுமதி வழங்க முடியும்.
மீளாய்வின் பொழுது ஒரு வசனம் சரியாக இருந்தால் Accept என்பதை validation_status இல் இடவும். இல்லை என்றால் Reject என்பதை தெரிவு செய்யவும்.
Reject பண்ணினால், validation_issue இல் ஒரு காரணத்தை தெரிவு செய்யவும். மேலதிக விளக்கங்கள் தேவை என்றால் எனக்கு அறியத் தரவும்.
இந்தச் செயற்திட்டம்/போட்டி தொடர்பான தொடர்பாடல்களை மேற்கொள்ள உங்களூக்கு
https://groups.google.com/g/digital-tamil-studies கூகிள் குழுவிற்கு அழைப்பு விடுத்துள்ளேன். அங்கு நாம் வெளிப்படையாக எமது தகவல்களைப் பகிர்ந்து கொள்ளக் கூடியதாக இருக்கும்.
அடுத்த சந்திப்பை நாம் nov 17 (செவ்வாய் கிழமை) வைக்க எண்ணி உள்ளோம். அதே நேரம். அந்த நேரம் பொருந்தவிட்டால் அறியத் தரவும்.
மிக்க நன்றி.
---
சில நுட்பக் குறிப்புகள்:
AshokR அவர்கள் கட்டற்ற மென்பொருளாக பகிர்ந்த் இருந்த தமிழ் வசனம் பிரிப்பான் வளத்தை பயன்படுத்தியுள்ளேன்.
https://github.com/AshokR/TamilNLP/wiki/Tamil-Sentence-Splitter. இது nltk இன் sent_tokenize விட கூடிய திறனாக இருக்கும் என்று கருதுகிறேன். கட்டற்ற மென்பொருளின் பயன்பாட்டுக்கு இது மேலும் ஒர் எடுத்துக்காட்டு.
--