استخراج متن فارسی از پی‌دی‌اف (pdf)

87 views
Skip to first unread message

mrza...@gmail.com

unread,
Apr 18, 2016, 3:42:56 PM4/18/16
to محاسبات فارسی

سلام دوستان،

ن اخیرا با این گروه آشنا شدم و دنبال یک ابزاری هستم که بشه متن فارسی PDF رو استخراج کرد.

ابزار‌های مختلف رو امتحان کردم اما جواب نمیده. یا کلا حروف رو نمی‌شناسه یا اینکه متن رو بر عکس می‌کنه. مخصوصاً که می‌خوام توی سرور لینوکس ازش استفاده کنم بنابر این ترجیح میدم که به زبان PHP باشه. 

می‌خواستم ببینم آیا دوستان اینجا تجربه ائی دارن که بتونه به من کمک کنه؟

 

ممنون از همه


Saleh Souzanchi

unread,
Apr 19, 2016, 1:33:17 AM4/19/16
to محاسبات فارسی, mrza...@gmail.com
من چهار ماهی روی همین تبدیل پی دی اف کار کردم.
کلا خیلی داستان داره.  و فعلا گوگل یکی از بهترین مبدل ها هست. ابزاری که بتونه یک  پاراگراف فارسی رو درست استخراج کنه وجود نداره.
البته منظورم یک پراگراف در یک ثفحه روزنامه هست. صفحه چینی شده.

علت برعکس شدند جملات هم به این خاطر هست که  آبجت متن بر اساس موقعیت x,y تو پی دی اف ذخیره می شوند
یعنی یک پراگراف به چندین خط  و در چندین ابجکت نگه داره میشه.
وقتی این  ابجکت رو دارند استخراج میشه بر اساس انگلیسی با هم جمع میشه به همین خاطر  جملات برعکس می شوند و  ....

مباحث انکودینگ هم مطرح هست.

در کل ابزار آماده فعلا وجود نداره.

Shayan A Tabrizi

unread,
May 18, 2016, 12:41:57 AM5/18/16
to mrza...@gmail.com, محاسبات فارسی

سلام

Tika رو تست کردید؟ قبلا اون هم همین مشکل رو داشت فکر کنم ولی اگر اشتباه نکنم این موضوع گزارش شد و ایشوش بعد از مدتی resolve شد

--
--
http://groups.google.com/group/persian-computing-fa

---
‏این پیام را به خاطر این دریافت کردید که برای مبحثی در گروه «محاسبات فارسی» در ‏گروه Google ثبت‌نام شده‌اید.
جهت لغو اشتراک از این گروه و قطع دریافت ایمیل از آن، ایمیلی به persian-computin...@googlegroups.com ارسال کنید.
برای گزینه‌های بیشتر از https://groups.google.com/d/optout بازدید کنید.
Reply all
Reply to author
Forward
0 new messages