ACRPS releases DALLA: Doha Arabic LLM Framework

11 views
Skip to first unread message

Fadi Zaraket

unread,
Dec 18, 2025, 11:47:37 AM (9 days ago) Dec 18
to SIGARAB: Special Interest Group on Arabic Natural Language Processing

🌟 دعوة لتجربة دلّة:  English version attached

إطار عمل المركز العربي المفتوح لبناء نماذج (الـدوحة) الضخمة للّــغة العربيــة

(محاولة مفتوحة لنماذج واعية ثقافيًا واجتماعيًا)


الزملاء والأصدقاء الأعزّاء،

 

يسعدنا أن ندعوكم لتجربة واستكشاف إطار دلّة؛ لبناء نماذج لغوية عربية جديدة، طوِّرت لتكون واعية اجتماعيًا وثقافيًا في سياق العالم العربي. هذا الاطار والنماذج نتاج مبادرة رائدة تثبت بالدليل أن فرقًا صغيرة بميزانيات بسيطة تملك كل ما يحتاجه بناء وفهم وتوليد نماذج لغوية عربية ضخمة لديها حساسية ثقافية واجتماعية.

 

روابط موقع تسجيل دلة، الأوزان المفتوحة، والبرامج المفتوحة المصدر:


دلّة:               https://dalla.acrps.ai/register

GitHub 📦:  https://acr.ps/1L9BPrA

HuggingFace 🤗: https://acr.ps/1L9BPBV

A logo with a black background

AI-generated content may be incorrect.

A blue square with black and black writing

AI-generated content may be incorrect.

 

 

🌟 القيمة المضافة لدلّة

نماذج دلّة تختلف عن النماذج الفائقة الضخامة المعروفة؛ فهي تتبنى الحجم الصغير مقارنة بحجم النماذج الرائدة عالميًا. ومع ذلك، فإنها بُنيت وصُمّمت لتبرهن أنه بالإمكان تقديم أداء مقبول وفعّال في مهمات تهم المستخدم، من خلال عملية إعادة تدريب وتنقيح النماذج باستخدام بيانات عربية وتقنيات ذكية لتنقية ومعالجة البيانات.وهذا كله من دون الحاجة لمشاركة بيانات التدريب أو التشغيل مع الشركات الضخمة، ما يحافظ على خصوصية المؤسسات والأفراد المستخدمين لأي من نماذج دلّة المفتوحة الأوزان.

 

كما أن إطار دلة يقدّم تقنية إعادة استخدام الرموز لتخفيض كلفة التدريب والتشغيل، والتي نجحت بأن تخفّض عدد الرموز المطلوبة لمعالجة نصوص اللغة العربية بمعدل أربع مرات إلى مرتين مقارنة بالنماذج الأصلية. مما يجعل النماذج اللغوية العربية المتقدّمة متاحة ومستديمة أكثر. نلاحظ أن بعض القدرات المتعلقة بالرموز المستخدمة قد تتأثر وبالتالي قد يستوجب ذلك بعض عمليات إعادة التدريب للاحتفاظ بهذه القدرات إن كانت مطلوبة.

 

ويمكن لفرق مطوّرين بحثية صغيرة نسبيًا استخدام البرامج المفتوحة المصدر لدلة لبناء وتنقيح نماذجهم الخاصة والمساهمة ببناء مستقبل الذكاء الاصطناعي العربي.

 

⚠️ ملاحظات مهمّة حول سقف التوقعات عند استخدام نماذج دلة المفتحة الأوزان

نماذج دلّة لا تزال في مراحل مبكرة. قد "تُهلوس" أحيانًا، أو تقدّم إجابات غير دقيقة، أو تُسيء فهم السياق أحيانًا أخرى. وهنا يأتي دور تفاعلكم وتواصلكم مع النماذج ومع الفريق. حيث تشكل تفاعلاتكم وملاحظاتكم عناصر أساسية في تحسين النماذج، وتعزيز قدراتها، وتطويرها لتخدم المستخدمين العرب بصورة أفضل. الرجاء استخدام أدوات التعبير عن حالة الرضا عبر النجوم(stars) ، والتعليق (comments)، والإبهام المرفوع والمقلوب (thumbs up/down) ليستطيع الفريق من الاستفادة من تعليقاتكم والاعتناء بها في النماذج القادمة.

 

🌍 لماذا نعتبر هذا المشروع مهمًا؟

يتضمّن الإطلاق منصّة مفتوحة المصدر(CC BY-NC-S) تمكّن المجموعات العلمية العربية من:

  • الاستفادة من نماذج مفتوحة الأوزان مع المحافظة على قواعدها المعرفية الأصلية، https://dalla.acrps.ai
  • إعادة تدريب نماذج مفتوحة الأوزان بما يتوافق مع اللغة العربية وسياقاتها،

GitHub 📦:  https://acr.ps/1L9BPrA

HuggingFace 🤗: https://acr.ps/1L9BPBV

  • تخصيص النماذج لمهام محددة: مثلًا في الإعلام، والبحث العلمي، والتعليم، والخدمات العامة، وغير ذلك،
  • تعزيز بناء بيئة عربية بحثية مفتوحة تُطوَّر فيها نماذج لغوية فعّالة، وحسّاسة اجتماعيًا وثقافيًا، ومنخفضة التكلفة.

ندعوكم لاستخدام النماذج، وانتقادها، وتقديم ملاحظاتكم. بذلك تكونون مساهمين أساسيين في تشكيل الجيل القادم من تقنيات الذكاء الاصطناعي المبنية عربيًا ولأجل العالم العربي. ذكاء اصطناعي عربي أولًا، بجهود جماعية ذكيّة.

فلنصنع مستقبل الذكاء الاصطناعي العربي… معًا.

مع خالص وأحرّ التحيات،

 

فريق عمل دلّة

وحدة أبحاث المجال الرقمي والاجتماعي العربي

المركز العربي للأبحاث ودراسة السياسات

الدوحة، قطر

 

DallaLaunchInvite_En_AB_v2.pdf
Reply all
Reply to author
Forward
0 new messages