Fwd: یکسان ساز حروف زبان فارسی

37 views
Skip to first unread message

Behnam Esfahbod

unread,
Oct 22, 2018, 1:14:08 PM10/22/18
to محاسبات فارسی, عباس معاذاللهی, Yahya Tabesh


---------- Forwarded message ----------
From: Yahya Tabesh <yahya....@gmail.com>
To: persian-computing@googlegroups.com
Date: Mon, 22 Oct 2018 09:18:57 -0700
Subject: Fwd: یکسان ساز حروف زبان فارسی

دوستان گرامی
اگر لطفا می‌توانید به عباس کمک کنید که از بچه‌های کار درست در شریف است، ممنون می‌شوم.

با تشکر، یحیی تابش
---------- Forwarded message ---------
From: عباس معاذاللهی <abba...@gmail.com>
Date: Mon, Oct 22, 2018 at 2:47 AM
‪Subject: یکسان ساز حروف زبان فارسی‬
‪To: دکتر تابش <yahya....@gmail.com>‬


جناب آقای دکتر تابش

با عرض سلام
امیدوارم حالتون خوب باشه
احتراما ما در حال کار بر روی یکسان سازی حروف برای نوشتار زبان فارسی هستیم. (موضوع کارمون تحلیل شبکه‌های اجتماعی هست)
در این بین نیاز به یک مپینگ کلی برای تمام یونیکدها داریم که حروف نزدیک به نوشتار فارسی را به حروف اصلی زبان فارسی تبدیل کند. در واقع نوشتارهای مختلف یک کلمه را به یک شکل واحد تبدیل کنیم. مثل انواع ی را به ی اصلی تبدیل کنیم.
مزاحمتون شدم تا اگر در این خصوص پکیج مناسبی را میشناسید یا کسی را سراغ دارین بفرمائید.
بسیار ممنون و به امید دیدار

-- 
Yours Sincerely,
Abbas Maazallahi

Omid Kashefi

unread,
Oct 22, 2018, 1:40:44 PM10/22/18
to Behnam Esfahbod, محاسبات فارسی, عباس معاذاللهی, Yahya Tabesh
سلام

می‌تونید از «پرشین تولزِ» ویراستیار کلاس «پرشین کَر فیلتر» استفاده کنید، این لایبرری پرایویت کرکترها رو هم پوشش میده که ممکنه خروجی «او سی آر» های ناآگاه از الفبای عربی/فارسی باشن یا کپی پیست از پی دی اف‌هایی که درست کامپایل نشدن

https://sourceforge.net/p/virastyar/code/HEAD/tree/PersianTools/PersianTools.Lib/

از هضم هم میتونید استفاده کنید، پایتان لایبرری هست

http://www.sobhe.ir/hazm/


--
--
http://groups.google.com/group/persian-computing-fa

---
‏این پیام را به خاطر این دریافت کردید که برای مبحثی در گروه «محاسبات فارسی» در ‏گروه Google ثبت‌نام شده‌اید.
جهت لغو اشتراک از این گروه و قطع دریافت ایمیل از آن، ایمیلی به persian-computin...@googlegroups.com ارسال کنید.
برای گزینه‌های بیشتر از https://groups.google.com/d/optout بازدید کنید.

Saleh Souzanchi

unread,
Dec 30, 2018, 3:37:02 PM12/30/18
to محاسبات فارسی
سلام
من مدتی هست که بر روی این موضوع متمرکز شدم تا برای خودم یک ویراستار بنویسم شاید از غلط املایی‌هایم کمی کاسته شود :))
پیرامون یکسان‌سازی حروف / نرمال‌سازی نوشتار / ریشیپ / انکودینگ‌های مختلف( کدینگ‌های تحت داس داس و فارسی نویس‌های مختلف مثل پروین/مریم) کلی تحقیق و پژوهش کردم و همچنین پکیج‌ها و کتابخانه‌های مختلفی رو تست زدم.
 چند نمونه :
ویراستار(juvee.github.io/virastar/)
ویراستار نسخه ادیت شده خودم (https://zoghal.github.io/virastar/)
پکیج‌های متعددی وجود دارد که شما می‌توانید بیشتر آنها را فهرست مخزن‌هایی که ستاره زدم را در گیت من پیدا کنید. : https://github.com/zoghal?tab=stars

نتیجه:
متاسفانه باید بگویم که هیچ پکیج یا کتابخانه کاملی وجود ندارد که بتواند بدرستی و اصولی کلیه عملیات‌های یکسان‌سازی حروف تا نرمال سازی نوشتار را انجام دهد.
تمامی پروژه‌های موجود فقط نوشتار فارسی را پوشش می‌دهند یعنی اگر در یک متن کلمات عربی / قرآنی / لاتین درهم وجود داشته باشد قادر به تجزیه و تحلیل و نرمال سازی متن نیستند.

این مقاله را نگاه کنید: http://www.magiran.com/article.asp?AID=4374
در بخشی از مقاله همچین متنی دارد:
به عنوان يك قاعدة كلي و سنت ثابت الهي تحولات تاريخي را به دگرگوني‌هاي دروني هر جامعه مستند مي‌سازد؛ يعني به تغيير فرهنگ آن. به اعتقاد مفسران «جملة إنَّ اللّهَ لايُغَيِّرُ ما بِقومٍ حتّي يُغَيِّروا ما بِأنفُسِهِم (سورة رعد، آية 11) كه در دو سورة قرآن با تفاوت مختصري آمده است
کلمه سوره:
با زنگ قهوه‌ای عربی بنظر می‌رسد
با رنگ قرمز فارسی  است.

شما برای تحلیل شبکه‌های اجتماعی نیاز دارید در بالاترین حالت ممکن نوشتار را تجزیه و تحلیل نمایید، مثلا من در یک تست روی توییتر شدیدا با یکسری از این موارد و استثنائات برخوردم.
آخرش به این نتیجه رسیدم که نمی‌شود به یک کتابخانه و یکسری توابع Regular Expressions بسنده کرد. برای مثال نمونه زیر:

991fc39f-c8d3-4389-af54-74bb4bc4f597.png


برای همین فعلا آهسته آهسته دارم روی یک پارسر ماژولار کار می‌کنم که بتونم این استثنائات رو هندل کنم.
بگذریم امیدوارم توانسته باشم با این توضیحات، کمکی به شما کرده باشم.
شاد و پیروز باشید.
Reply all
Reply to author
Forward
0 new messages