لما بدأنا نعمل Arabic Sentiment Analyzer كان بيقابلنا مشكلة كبيرة اللي بتقابل أي حد بيحاول يشتغل باللغة العربية في مجال ال ML وهي ال Dataset اللي باللغة العربية.
لما بدأنا ندور لاقينا فعلاً Datasets موجودة بس كان فيها عيوب:
1) جمل كتير ملهاش لازمة = زيادة التشتت لل نموذج اللي بيتم بناءه.
2) التباين اللي بين ال Classes الإيجابي والسلبي مكنش واضح اوي للنموذج ولينا بردك.
3) التنوع الكافي في المواضيع (اقتصاد/سياسة/رياضة/عامة/ثقافة) = زيادة كفاءة النموذج.
فقررنا نجمع أكتر عدد ممكن من ال Datasets اللي موجودة فعلاً ونعمل عليها بشكل يدوي filtration ونشيل الجمل اللي مش هتزود تنوع للنموذج والجمل العشوائية اللي هتزود التشتت وجمعنا من الناس جمل وتم تخليق جمل بالذكاء الإصطناعي.
هتلاقي هنا Dataset متقسمة ل 5 مواضيع تقدر تختار اللي أنت محتاجه عشان يناسب شغلك اللي محتاج Dataset باللغة العربية.
1)اقتصاد
2)ثقافة
3)سياسة
4)رياضة
5)عامة(بدون موضوع مُحدد.)
ال Dataset هتلاقي فيها جمل بالعامية واللغة العربية الفصحى ولكن بيغلب عليها العامية(عشان المشروع يكون مفيد فعلاً لازم يكون قايم على الكلمات/الجمل العامية ويكون عنده ثراء كويس للمصطلحات المُنتشرة في مصر).
النموذج أتمرن تقريباً على 7k جملة وبيطلع نتائج كويسة جداً وهو شغال على Classical ML Algorithm = Naive Bayes