iast with other scripts

214 views
Skip to first unread message

Awp

unread,
Aug 27, 2019, 10:33:08 AM8/27/19
to tesser...@googlegroups.com
Hello,
I'm trying to use tesseract on a document (see attachment) containing both chinese and IAST script using iast from tesseract-ocr/langdata.
With -l chi_tra+iast I've got:
一 切 如 來 寶 等 持 門 sarva﹣tathggata﹣ratna﹣samadhi

一 切 如 來 灌 頂 出 生 智 藏 般 若 波 羅 蜴 多 教 ”” sarva﹣
tathagatgbhiseka﹣sambhava﹣jBana﹣garbham ngma
prajnaparamit3﹣nayamn

一 切 如 來 灌 頂 出 現 智 藏 實 相 般 若 波 羅 蜜 多 理 趣 法
門 ”” sarva﹣tathggatgbhiseka﹣sSambhava﹣jngna﹣
garbham nama prajnaparamnit3﹣nayam

一 切 如 來 灌 頂 生 智 藏 般 若 波 羅 蜜 經 ”” sarva﹣ta﹥
thagat&bhiseka﹣sambhava﹣jBana﹣garbham ﹍ ngma
prajnaparamita﹣nayam
[...]
With -l iast+chi_tra I've got:
一切女口來賓等持F弓Sarvaˉtath复gataˉratnaˉSam盄dh…

一 切 如 來 灌 頂 出 生 智 藏 般 若 波 羅 蜴 多 教 ”” sarva﹣
tathagatgbhiseka﹣sambhava﹣jBana﹣garbham ngma
prajnaparamit3﹣nayamn

一 切 如 來 灌 頂 出 現 智 藏 實 相 般 若 波 羅 蜜 多 理 趣 法
門 ”” sarva﹣tathggatgbhiseka﹣sSambhava﹣jngna﹣
garbham nama prajnaparamnit3﹣nayam

[...]
It seems that these langdata are incompatible.

I've also tried with this iast, which provided among the best results (may be update repo with this one?):
iast-plus-3600+chi_tra
一 切 如 來 寶 等 持 門 sarva﹣tathggata﹣ratna﹣samadhi

一 切 如 來 灌 頂 出 生 智 藏 般 若 波 羅 蜴 多 教 ”” sarva﹣
tathagatgbhiseka﹣sambhava﹣jBana﹣garbham ngma
prajñāpāramitā-nayam

一 切 如 來 灌 頂 出 現 智 藏 實 相 般 若 波 羅 蜜 多 理 趣 法
門 ”” sarva﹣tathggatgbhiseka﹣sSambhava﹣jngna﹣
garbhaṃ nāma prajñāpāramitā-nayam
[...]
chi_tra+iast-plus-3600
一 切 如 來 寶 等 持 門 sarva﹣tathggata﹣ratna﹣samadhi

一 切 如 來 灌 頂 出 生 智 藏 般 若 波 羅 蜴 多 教 ”” sarva﹣
tathagatgbhiseka﹣sambhava﹣jBana﹣garbham ngma
prajñāpāramitā-nayam

一 切 如 來 灌 頂 出 現 智 藏 實 相 般 若 波 羅 蜜 多 理 趣 法
門 ”” sarva﹣tathggatgbhiseka﹣sSambhava﹣jngna﹣
garbhaṃ nāma prajñāpāramitā-nayam
[...]
I've also done some snooping around and I've used tesstrain_minuschars.sh to remove the [a-zA-Z] range from chi_tra and then tried chi_trad+iast again:
chi_trad-minuschars+iast-plus-3600
一 雪 如 來 寶 等 持 門 。-((--$;
一 雪 如 來 灌 頂 出 生 智 茂 般 基 波 羅 蜜 多 教 ”?” 5-
(((&-5--
-

一 雪 如 來 灌 頂 出 現 智 茂 實 相 般 基 波 羅 蜜 多 理 趣 法
門 "”” -4(-5-)-
& )-

一 雪 如 來 灌 頂 生 智 茂 般 蓑 波 羅 蜜 經 ”” 。5-
(-5-- _
1-
[...]
iast-plus-3600+chi_trad-minuschars
= sarva-tathāgata-ratna-samādhi

= ā ˚ ˚ sarva-
tathāgatḍbhiṣeka-saṃbhava-jñāna-garbhaṃ nāma
prajñāpāramitā-nayam

₹ ā
P sarva-tathāgatābhiṣeka -sambhava-jñāna-
garbhaṃ nāma prajñāpāramitā-nayam
[...]
Not quite there yet.
If you have any idea on how I could do to get both scripts at once, I'd appreciate it.
doc.tif
Reply all
Reply to author
Forward
0 new messages