استخراج متن فارسی از پی‌دی‌اف (pdf)

已查看 83 次
跳至第一个未读帖子

mrza...@gmail.com

未读,
2016年4月18日 15:42:562016/4/18
收件人 محاسبات فارسی

سلام دوستان،

ن اخیرا با این گروه آشنا شدم و دنبال یک ابزاری هستم که بشه متن فارسی PDF رو استخراج کرد.

ابزار‌های مختلف رو امتحان کردم اما جواب نمیده. یا کلا حروف رو نمی‌شناسه یا اینکه متن رو بر عکس می‌کنه. مخصوصاً که می‌خوام توی سرور لینوکس ازش استفاده کنم بنابر این ترجیح میدم که به زبان PHP باشه. 

می‌خواستم ببینم آیا دوستان اینجا تجربه ائی دارن که بتونه به من کمک کنه؟

 

ممنون از همه


Saleh Souzanchi

未读,
2016年4月19日 01:33:172016/4/19
收件人 محاسبات فارسی、mrza...@gmail.com
من چهار ماهی روی همین تبدیل پی دی اف کار کردم.
کلا خیلی داستان داره.  و فعلا گوگل یکی از بهترین مبدل ها هست. ابزاری که بتونه یک  پاراگراف فارسی رو درست استخراج کنه وجود نداره.
البته منظورم یک پراگراف در یک ثفحه روزنامه هست. صفحه چینی شده.

علت برعکس شدند جملات هم به این خاطر هست که  آبجت متن بر اساس موقعیت x,y تو پی دی اف ذخیره می شوند
یعنی یک پراگراف به چندین خط  و در چندین ابجکت نگه داره میشه.
وقتی این  ابجکت رو دارند استخراج میشه بر اساس انگلیسی با هم جمع میشه به همین خاطر  جملات برعکس می شوند و  ....

مباحث انکودینگ هم مطرح هست.

در کل ابزار آماده فعلا وجود نداره.

Shayan A Tabrizi

未读,
2016年5月18日 00:41:572016/5/18
收件人 mrza...@gmail.com、محاسبات فارسی

سلام

Tika رو تست کردید؟ قبلا اون هم همین مشکل رو داشت فکر کنم ولی اگر اشتباه نکنم این موضوع گزارش شد و ایشوش بعد از مدتی resolve شد

--
--
http://groups.google.com/group/persian-computing-fa

---
‏این پیام را به خاطر این دریافت کردید که برای مبحثی در گروه «محاسبات فارسی» در ‏گروه Google ثبت‌نام شده‌اید.
جهت لغو اشتراک از این گروه و قطع دریافت ایمیل از آن، ایمیلی به persian-computin...@googlegroups.com ارسال کنید.
برای گزینه‌های بیشتر از https://groups.google.com/d/optout بازدید کنید.
回复全部
回复作者
转发
0 个新帖子