Arabic Dataset

331 views

Skip to first unread message

Si Si

unread,

Sep 27, 2023, 5:16:13 AM9/27/23

to sig...@googlegroups.com

لما بدأنا نعمل Arabic Sentiment Analyzer كان بيقابلنا مشكلة كبيرة اللي بتقابل أي حد بيحاول يشتغل باللغة العربية في مجال ال ML وهي ال Dataset اللي باللغة العربية.

لما بدأنا ندور لاقينا فعلاً Datasets موجودة بس كان فيها عيوب:

1) جمل كتير ملهاش لازمة = زيادة التشتت لل نموذج اللي بيتم بناءه.

2) التباين اللي بين ال Classes الإيجابي والسلبي مكنش واضح اوي للنموذج ولينا بردك.

3) التنوع الكافي في المواضيع (اقتصاد/سياسة/رياضة/عامة/ثقافة) = زيادة كفاءة النموذج.

فقررنا نجمع أكتر عدد ممكن من ال Datasets اللي موجودة فعلاً ونعمل عليها بشكل يدوي filtration ونشيل الجمل اللي مش هتزود تنوع للنموذج والجمل العشوائية اللي هتزود التشتت وجمعنا من الناس جمل وتم تخليق جمل بالذكاء الإصطناعي.

هتلاقي هنا Dataset متقسمة ل 5 مواضيع تقدر تختار اللي أنت محتاجه عشان يناسب شغلك اللي محتاج Dataset باللغة العربية.

1)اقتصاد

2)ثقافة

3)سياسة

4)رياضة

5)عامة(بدون موضوع مُحدد.)

ال Dataset هتلاقي فيها جمل بالعامية واللغة العربية الفصحى ولكن بيغلب عليها العامية(عشان المشروع يكون مفيد فعلاً لازم يكون قايم على الكلمات/الجمل العامية ويكون عنده ثراء كويس للمصطلحات المُنتشرة في مصر).

النموذج أتمرن تقريباً على 7k جملة وبيطلع نتائج كويسة جداً وهو شغال على Classical ML Algorithm = Naive Bayes

ولو حد استخدم ال Dataset دي على تقنيات وأساليب أحدث هيطلع نتائج أفضل إن شاء الله.
https://github.com/SssiiiSssiii/ArabicDataset/tree/main

Virus-free.www.avast.com

Hamdy S. Hussein

unread,

Sep 27, 2023, 5:18:59 AM9/27/23

to Si Si, sig...@googlegroups.com

Let's always use the standard language, not dialectal variations, as much as we can!

Sent from Outlook for Android

From: sig...@googlegroups.com <sig...@googlegroups.com> on behalf of Si Si <elsi...@gmail.com>
Sent: Wednesday, September 27, 2023 12:15:59 PM
To: sig...@googlegroups.com <sig...@googlegroups.com>
Subject: [SIGARAB] Arabic Dataset

--
You received this message because you are subscribed to the Google Groups "SIGARAB: Special Interest Group on Arabic Natural Language Processing" group.
To unsubscribe from this group and stop receiving emails from it, send an email to sigarab+u...@googlegroups.com.
To view this discussion on the web visit https://groups.google.com/d/msgid/sigarab/CAOH-KUAx8U07K0sdzaHqSDg0BcEBs1OrW1yFf-3Kexrp%3DSPU4w%40mail.gmail.com.

Reply all

Reply to author

Forward

0 new messages