uimsh-tutctool: uim-tutcodeを使用したコマンドラインツール

47 views
Skip to first unread message

KIHARA Hideto

unread,
Aug 31, 2012, 7:14:11 PM8/31/12
to tc...@googlegroups.com
uim-tutcodeの一部機能を、コマンドラインから使えるようにする
uim-shスクリプトを作ってみました。
https://github.com/deton/uimsh-tutctool

+ 目的
+ 普段IMを動かしてない環境で、ちょっとだけ日本語が欲しくなった場合に、
コマンドラインで簡単に入力。
$ grep `seq2kanji jsnf` ~/data/audio/sacd

+ エディタからコマンドラインツールを呼び出して、
シーケンスがずれて意味不明な漢字文字列になったものを修復。
$ echo '電地給月分動田新同 ' | kanji2seq | cut -b 2- | seq2kanji
うかもしれません。

+ 機能リスト
+ bushuconv: 部首合成変換
+ bushucand: 部首合成変換候補を表示
+ tutchelp: uim-tutcodeでの文字の打ち方のヘルプを表示
+ kanji2seq: 漢字をuim-tutcodeキーシーケンスに変換
+ seq2kanji: uim-tutcodeキーシーケンスを漢字に変換
+ kcodeucs: Unicodeコードポイント(U+XXXX)に対応するEUC-JP文字を出力
+ kuten: 区点番号に対応するEUC-JP文字を出力


* JIS X 0213対応のuim-tutcode用部首合成変換辞書
上記bushucandコマンドや、uim-tutcodeで、JIS X 0213に含まれる漢字を
合成するための部首合成変換辞書を以下に置きました。
http://www1.interq.or.jp/~deton/tutcode/#bushudic
# uim-tutcode用のため、Emacsではそのままでは使えません。少なくとも再ソート要。
## Emacs23では、以下にある辞書(UTF-8)がそのまま使えます。
## https://github.com/deton/uim-bushuconv/tree/master/bushudict
## ただし、uim-tutcode用のため、漢字を部首として使うことを示す"{}"を
## 削除しているので、Emacsで生成する方が良いと思います。


* 参考
部首合成変換を行うためのIMとして、uim-bushuconvを作ってみました。
https://github.com/deton/uim-bushuconv

uim-tutcodeの高機能な部首合成変換を、
漢字直接入力以外のIMで使えるようにするのを目的に作りました。
# uim-tutcodeのラッパーとして作っています。

以下の特徴があります。
- 複数の部首を指定することで、漢字候補の絞り込みが可能
- 漢字の一部を部首として使って合成可能
入力された漢字を分解した部首の集合から合成可能な漢字を候補として表示します。
+ 漢字の合成に使う部首をクリップボードやセレクションやカーソル前から取得可能
+ カーソル前の文字のUnicodeコードポイントや漢字集合
(jisx0208,jisx0213,jisx0212等)を表示する機能あり
+ 画数ごとの部首リストから選択(部首の読み方がわからなくてもOK)
- ユーザ辞書により、ユーザ独自の部首合成を登録可能
+ 漢字の確定前に、annotationで漢字集合(jisx0208,jisx0213-1,jisx0213-2,
jisx0212等)を確認可能
+ JIS第3・第4水準(JIS X 0213)とJIS補助漢字(JIS X 0212)と一部のUnicodeに対応
ただし、uim-1.8.2では、部首合成変換辞書に長い行があるため、
UTF-8文字の途中までしか読み込まれずエラーが発生するので、
JIS補助漢字を含む辞書は使えません。

# -はuim-tutcodeの対話的な部首合成変換機能の特徴。
# +はuim-bushuconvの特徴(uim-tutcodeには無し)。

** uim-bushuconvに含まれるコマンドラインツール
+ tools/uimsh-bushuconv.scm: 部首合成変換
+ tools/uimsh-kanjiset.scm: 漢字集合(jisx0208,jisx0213,jisx0212等)の判定
+ tools/uimsh-ucs.scm: UnicodeコードポイントのU+XXXXX表記の置換
uimsh-tutctoolのkcodeucs機能との違い:
+ uimsh-tutctoolは1文字のみ対応。uimsh-ucsは文字列内の複数のU+XXXXXを置換。
+ uimsh-tutctoolはEUC-JP出力。uimsh-ucsはUTF-8入出力。
+ tools/uimsh-rk.scm: ローマ字かな変換

--
木原 英人 / KIHARA, Hideto / de...@m1.interq.or.jp
http://www1.interq.or.jp/~deton/
Reply all
Reply to author
Forward
0 new messages