Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

patch for KAKASI

3 views
Skip to first unread message

Hajime BABA

unread,
Jul 8, 1996, 3:00:00 AM7/8/96
to

馬場@京大宇宙物理 です。

ちょっとした手違いで最初の記事を一旦キャンセルしました。失礼しまし
た。またクロスポストは止めました。


同様のものがすでに存在したのかもしれないのですが、漢字かな交じり文
をある程度意味のある「わかち書き」にするために、KAKASI に当てるた
めのパッチを作りました。
# KAKASI とは、漢字かな交じり文をひらがな・カタカナ・ローマ字文に
# 書き下すためのプログラムおよびその辞書の総称です。

これ単独で使う人がそんなにいるともおもえないのですが (^_^;)、せっ
かく作ったのでともかく投稿します。ご笑納下さいませ。


このパッチを見た時一番最初におもうのは、KAKASI 標準の -s オプションと
何が違うのかということでしょう。以下のサンプル文でその違いを示します。
(文章の内容に意味はありません)

% cat test.doc
私は京都大学理学部宇宙物理学教室修士課程二回生の馬場肇です。
大会申し込みの締め切りの直前に受け付けを済ませました。

% kakasi -s < test.doc
私 は 京都大学理学部宇宙物理学教室修士課程二回生 の 馬場肇 です 。
大会申 し 込 みの 締 め 切 りの 直前 に 受 け 付 けを 済 ませました 。

% kakasi -w < test.doc
私 は 京都大学 理学部 宇宙物理 学 教室 修士課程 二 回生 の 馬場 肇 です 。
大会 申し込み の 締め切り の 直前 に 受け付け を 済ま せました 。

というように、-s オプションに比べて -w オプションでは意味のある単語ご
とに「わかち書き」が行なわれているのがわかります。

KAKASI は辞書を引いた上で単語を決めていますので、単語の境界を単純に文
字状態(ASCII・ひらがな・カタカナ・全角記号・漢字)の変化とした場合(-s)
に比べれば、-w オプションはだいぶ賢いです。むろんカンペキとはいきませ
んが、freeWAIS-sf で使うことを前提に考えるとこれでもナカナカ使えます。

特に、「申し込み」のような、かなと漢字の混ざった複合語をひとつの単語と
して認識させることができますので、使い方によってはかなり強力になります。
また、「京大宇宙物理」は「京大」と「宇宙物理」の二つの単語に認識します
ので、漢字ばかりの文章でもソコソコ単語を拾うことができます。

freeWAIS-sf に当てるパッチには、次はこれを用いようとおもっています。
# 私には JUMAN は難し過ぎたということで... (-_-;)
# それに、簡便でもかなりいい性能ですから...
--
馬場 肇 ( Hajime BABA ) E-mail: ba...@kusastro.kyoto-u.ac.jp
京都大学理学部宇宙物理学教室 修士課程2回生
--


begin 644 kakasi-ext.tar.gz
<uuencoded_portion_removed>
!`#TH
`
end

0 new messages