سلام
من مدتی هست که بر روی این موضوع متمرکز شدم تا برای خودم یک ویراستار بنویسم شاید از غلط املاییهایم کمی کاسته شود :))
پیرامون یکسانسازی حروف / نرمالسازی نوشتار / ریشیپ / انکودینگهای مختلف( کدینگهای تحت داس داس و فارسی نویسهای مختلف مثل پروین/مریم) کلی تحقیق و پژوهش کردم و همچنین پکیجها و کتابخانههای مختلفی رو تست زدم.
چند نمونه :
پکیجهای متعددی وجود دارد که شما میتوانید بیشتر آنها را فهرست مخزنهایی
که ستاره زدم را در گیت من پیدا کنید. :
https://github.com/zoghal?tab=starsنتیجه:
متاسفانه باید
بگویم که هیچ پکیج یا کتابخانه کاملی وجود ندارد که بتواند بدرستی و اصولی
کلیه عملیاتهای یکسانسازی حروف تا نرمال سازی نوشتار را انجام دهد.
تمامی
پروژههای موجود فقط نوشتار فارسی را پوشش میدهند یعنی اگر در یک متن
کلمات عربی / قرآنی / لاتین درهم وجود داشته باشد قادر به تجزیه و تحلیل و
نرمال سازی متن نیستند.
این مقاله را نگاه کنید:
http://www.magiran.com/article.asp?AID=4374در بخشی از مقاله همچین متنی دارد:
به عنوان يك قاعدة كلي و سنت ثابت الهي تحولات تاريخي را به دگرگونيهاي دروني هر جامعه مستند ميسازد؛ يعني به تغيير فرهنگ آن. به اعتقاد مفسران «جملة إنَّ اللّهَ لايُغَيِّرُ ما بِقومٍ حتّي يُغَيِّروا ما بِأنفُسِهِم (سورة رعد، آية 11) كه در دو سورة قرآن با تفاوت مختصري آمده است
کلمه سوره:
با زنگ قهوهای عربی بنظر میرسد
با رنگ قرمز فارسی است.
شما برای تحلیل شبکههای اجتماعی نیاز دارید در بالاترین حالت ممکن نوشتار را تجزیه و تحلیل نمایید، مثلا من در یک تست روی توییتر شدیدا با یکسری از این موارد و استثنائات برخوردم.
آخرش به این نتیجه رسیدم که نمیشود به یک کتابخانه و یکسری توابع Regular Expressions بسنده کرد. برای مثال نمونه زیر:
برای همین فعلا آهسته آهسته دارم روی یک پارسر ماژولار کار میکنم که بتونم این استثنائات رو هندل کنم.
بگذریم امیدوارم توانسته باشم با این توضیحات، کمکی به شما کرده باشم.
شاد و پیروز باشید.