We are very happy to release
𝐐𝐚𝐛𝐚𝐬 - 𝐚𝐧 𝐎𝐩𝐞𝐧-𝐒𝐨𝐮𝐫𝐜𝐞 𝐋𝐞𝐱𝐢𝐜𝐨𝐠𝐫𝐚𝐩𝐡𝐢𝐜 𝐃𝐚𝐭𝐚𝐛𝐚𝐬𝐞 (English below),
يسرنا الاعلان عن معجم قبس الحاسوبي
أطلق مختبر سينا لحوسبة اللغة والذكاء الاصطناعي في جامعة بيرزيت معجم قبس الحاسوبي، الذي يعد أضخم معجم مفتوح المصدر للغة العربية (58 ألف مدخلة). وأهم ما يميز المعجم هو مضمونه الفريد، حيث تم ربط مدخلاته بمدخلات 110 معاجم، إضافةً الى ربطها بمدخلات في مدونات نصية موسومة صرفياً (حوالي 2 مليون كلمة)، مما يشكل شبكة بيانات معجمية تناسب استخدامات الذكاء الاصطناعي. والجدير بالذكر أن العمل على قبس امتد لحوالي أربعة عشر عاماً.
يهدف معجم قبس لتلبية الاحتياجات التقنية المستجدة، خصوصاً وأن المعاجم اللغوية الحالية مصممة للاستخدام الورقي وليست مخصصة لمهام معالجة اللغة الطبيعية (NLP) وتطوير تطبيقات الذكاء الاصطناعي. فبالرغم من الجهود الحثيثة التي بُذلت من أجل رقمنة المعاجم العربية، إلا أن هذه المعاجم غير متوفرة كمصادر مفتوحة لمطوري البرمجيات؛ وذلك بسبب قيود حقوق النشر المفروضة من قبل أصحاب هذه المعاجم. بالإضافة إلى ذلك، فإن المعاجم التقليدية غالباً ما تقتصر في محتواها على جوانب لغوية معينة دون إيلاء الاهتمام الكافي لتنوع الخصائص اللغوية والمعاني والاستخدامات. كما يتميز معجم قبس بتنوع مدخلاته المعجمية، حيث يحتوي على مدخلات عربية فصحى معاصرة، وأخرى عامية، بالإضافة إلى مدخلات أجنبية تم تعريبها. يضم المعجم حوالي 58 ألف مدخلة، منها 44 ألف مدخلة اسمية، و12.5 ألف مدخلة فعلية، بالإضافة إلى 500 مدخلة وظيفية. الجديد في معجم قبس من حيث الأصالة العلمية يكمن في ربطه للعديد من الموارد المعجمية، حيث تم ربط كل مدخلة معجمية (lemma) بمعجم قبس بالمدخلات المقابلة في 110 معاجم، وكذلك ربطها مع 12 مدونة نصوص تم توسيمها صرفياً (حوالي 2 مليون كلمة). وبذلك، فإن معجم قبس هو شبكة بيانات معجمية ضخمة تربط المعاجم العربية والمدونات النصية.
وبين مدير المشروع والمؤلف الرئيسي للمعجم د. مصطفى جرار أهمية إتاحة المعجم كمصدر مفتوح، مما يتيح للجميع الحصول عليه واستخدامه بحرية، سواء لأغراض ربحية أو غير ربحية. ويأمل د. جرار أن يتمكن الباحثون والشركات ومطورو البرمجيات من الاستفادة من بيانات المعجم لتطوير محتوى وتطبيقات إبداعية تخدم الإنسانية.
وأكد رئيس جامعة بيرزيت د. طلال شهوان أنه ورغم الجراح والظروف الصعبة التي تمر بها فلسطين حالياً، تظل جامعة بيرزيت ملتزمة بتميزها ورسالتها المعرفية، مبيناً أن هذا الإنجاز لم يكن ليتحقق لولا تميز الأساتذة والباحثين في الجامعة.
المعجم متاح للعامة عبر: https://sina.birzeit.edu/qabas
مقدمة المعجم وتنزيله: https://sina.birzeit.edu/qabas/about
Birzeit University’s SinaLab for Computational Linguistics and Artificial Intelligence has officially launched Qabas, an open-source lexicographic database for Arabic, designed specifically for Natural Language Processing (NLP) applications.
Qabas stands out by linking its lexical entries (lemmas) with lemmas from 110 different lexicons and numerous morphologically annotated corpora (around 2 million tokens), creating an extensive lexicographic graph. This project has been under development for over fourteen years.
Lexicons have evolved from being primarily hard-copy resources for human use to having substantial significance in NLP applications. Although Arabic is a highly resourced language in terms of traditional lexicons, not enough attention is given to developing AI-oriented lexicographic databases. Additionally, none of the Arabic lexicons are available open-source, due to copyright restrictions imposed by their owners. As for Qabas, it is an open-source Arabic lexicon designed for NLP applications, and its novelty lies in its synthesis of many lexical resources. Each lexical entry (i.e., lemma) in Qabas is linked with equivalent lemmas in 110 other lexicons, and with 12 morphologically-annotated corpora (about 2M tokens); The philosophy of Qabas is to construct a large lexicographic data graph by linking existing Arabic lexicons and annotated corpora. Qabas stands as the largest Arabic lexicon, encompassing about 58K lemmas (45K nominal lemmas, 12.5K verbal lemmas, and 500 function word lemmas).
Prof. Mustafa Jarrar, the project’s manager and main author, emphasized the importance of making Qabas freely available as an open-source resource, allowing everyone to access and use it for both commercial and non-commercial purposes. Prof. Jarrar hopes that researchers, companies, and software developers will leverage the lexicon’s data to develop innovative content and applications that benefit humanity.
Prof. Talal Shahwan, President of Birzeit University, stated that despite the challenging conditions in Palestine, the university remains committed to excellence and to its mission towards knowledge. He emphasized that this achievement was made possible by the dedication of the university’s faculty and researchers.
Qabas is publicly available online at: https://sina.birzeit.edu/qabas
To download Qabas and find out more, see: https://sina.birzeit.edu/qabas/about
We’d love your feedback:
Facebook: https://shorturl.at/ed7zz
LinkedIn: https://shorturl.at/0qndY
X: https://x.com/mjarrar/status/1823360126516072829
Best
--Mustafa
__________________________
Mustafa Jarrar, PhD
Professor of Artificial Intelligence
Chair, PhD Program in Computer Science
Birzeit University, Palestine
WhatsApp:+972599662258
Page: http://www.jarrar.info
SinaLab: https://sina.birzeit.edu
ما شاء الله
May Allah Reward you all for your noble work and giving it away freely to benefit humanity.
May Allah Free your people from occupation, tyranny and oppression soon.
Aameen.
--
You received this message because you are subscribed to the Google Groups "SIGARAB: Special Interest Group on Arabic Natural Language Processing" group.
To unsubscribe from this group and stop receiving emails from it, send an email to sigarab+u...@googlegroups.com.
To view this discussion on the web visit https://groups.google.com/d/msgid/sigarab/B138CAEC-CD0D-4396-81A9-1D2E696C284A%40gmail.com.
-- Find me at: https://www.kentoseth.com https://fosstodon.org/web/@kentoseth