Dataset requirements

39 views
Skip to first unread message

quasilinguist

unread,
Nov 5, 2020, 7:03:47 AM11/5/20
to Digital Tamil Studies
https://lionbridge.ai/datasets/best-speech-recognition-datasets-for-machine-learning/   
குறைந்தது 200 மணிநேரம் என்பதை இலக்காகக் கொண்டாலும் 500- 1000 மணிநேரம் என்பதை சற்று கூடுதல் இலக்காகக் கொண்டால் உதவியாக இருக்கும். வெவ்வேறு பணிகளுக்கு வெவ்வேறு வகையிலான தரவுகள் தேவைப்படுகிறது. சிலவற்றுக்கு ஒரே உரையைப் பலர் பேசிப் பதிவு செய்தால் உதவுகிறது. பிறவற்றுக்கு பல்வேறுவகையான உரைகள் இருந்தால் நல்லது. இயன்றால் ஒரு 10% வரிகளையாவது ஒன்றுக்கு மேற்பட்டோர் பதிவு செய்தால் நன்றாக இருக்கும்.

இதற்கென நாம் ஏற்பாடு செய்யும் உரைத் தொகுதியையும் https://dravidian-codemix.github.io/2020/datasets.html   போல வெளியிடலாம்.

அன்புடன்,
சுந்தர்    
Reply all
Reply to author
Forward
0 new messages