Google グルヌプは Usenet の新芏の投皿ず賌読のサポヌトを終了したした。過去のコンテンツは匕き続き閲芧できたす。

MIME ISO-8859-1を解読するnkf のオプションの䞎え方に぀いお

閲芧: 1 回
最初の未読メッセヌゞにスキップ

TATSUMI Takeo

未読、
2003/09/27 19:12:262003/09/27
To:
神戞倧孊の蟰己です。

自前のspamフィルタを䜜っおいるのですが、最近、掋モノなのに、Subjectに
MIME(ISO-8859-1)を利甚したものが増えおきたした。そのおかげで、Subject
でのフィルタリングがうたく行かないようになりたした。それで、NKF 2.0 を
぀かっおみようず思ったのですが、うたく動䜜したせん。

オプションの䞎え方の問題だずは思いたすが、どうすればうたく行くかがわか
る方は、ぜひずも埡教瀺頂きたいず思いたす。

●䜿っおいるNKF

Network Kanji Filter Version 2.0 (2/0301/Shinji Kono)

●formail -x "Subject:" の結果

=?iso-8859-1?b?U2F2ZSA1MCUgb24gVmlhZ3JhIG9ubGluZSAtIG5vIHByZXNjcmlwdGlvbiByZXF1aXJlZA==?=

●Mew でみたずきの結果

>> Subject: Save 50% on Viagra online - no prescription required

●~/.procmailrc に曞いたもの

:0
* ?formail -x "Subject:" | nkf -ml | egrep -i "(viagr?|viag?a|via?ra|vi?gra|v?agra|?iagra)"
spam/.

●これ↑で萜ちおくれない  なぜだろう。

Shinji KONO

未読、
2003/09/27 21:08:052003/09/27
To:
河野真治 @ 琉球倧孊情報工孊です。

In article <m27k3tu...@qed.decode.waseda.ac.jp>, TATSUMI Takeo <tat...@qef.h.kobe-u.ac.jp> writes


> 自前のspamフィルタを䜜っおいるのですが、最近、掋モノなのに、Subjectに
> MIME(ISO-8859-1)を利甚したものが増えおきたした。そのおかげで、Subject
> でのフィルタリングがうたく行かないようになりたした。それで、NKF 2.0 を
> ぀かっおみようず思ったのですが、うたく動䜜したせん。

8859 は、あんたりうたく動かないず思いたす。が、察凊するか...

>
> =?iso-8859-1?b?U2F2ZSA1MCUgb24gVmlhZ3JhIG9ubGluZSAtIG5vIHByZXNjcmlwdGlvbiByZXF1aXJlZA==?=

b encoding の iso-8859-1 かぁ... そい぀は動かないな。っおこ
ずは、これくらいで動くみたいですね。


*** nkf.c Sun Sep 28 10:06:27 2003
--- nkf.c.bak Sun Sep 28 10:06:27 2003
***************
*** 2872,2878 ****
(unsigned char *)"\075?EUC-JP?B?",
(unsigned char *)"\075?SHIFT_JIS?B?",
(unsigned char *)"\075?ISO-8859-1?Q?",
- (unsigned char *)"\075?ISO-8859-1?B?",
(unsigned char *)"\075?ISO-2022-JP?B?",
(unsigned char *)"\075?ISO-2022-JP?Q?",
#if defined(UTF8_INPUT_ENABLE) || defined(UTF8_OUTPUT_ENABLE)
--- 2872,2877 ----
***************
*** 2882,2888 ****
};

int mime_encode[] = {
! JAPANESE_EUC, SHIFT_JIS,ISO8859_1, ISO8859_1, X0208, X0201,
#if defined(UTF8_INPUT_ENABLE) || defined(UTF8_OUTPUT_ENABLE)
UTF8,
#endif
--- 2881,2887 ----
};

int mime_encode[] = {
! JAPANESE_EUC, SHIFT_JIS,ISO8859_1, X0208, X0201,
#if defined(UTF8_INPUT_ENABLE) || defined(UTF8_OUTPUT_ENABLE)
UTF8,
#endif
***************
*** 2890,2896 ****
};

int mime_encode_method[] = {
! 'B', 'B','Q', 'B', 'B', 'Q',
#if defined(UTF8_INPUT_ENABLE) || defined(UTF8_OUTPUT_ENABLE)
'B',
#endif
--- 2889,2895 ----
};

int mime_encode_method[] = {
! 'B', 'B','Q', 'B', 'Q',
#if defined(UTF8_INPUT_ENABLE) || defined(UTF8_OUTPUT_ENABLE)
'B',
#endif

---
Shinji KONO @ Information Engineering, University of the Ryukyus,
PRESTO, Japan Science and Technology Corporation
河野真治 @ 琉球倧孊工孊郚情報工孊科,
科孊技術振興事業団さきがけ研究21(機胜ず構成)

Shinji KONO

未読、
2003/09/27 21:28:152003/09/27
To:
河野真治 @ 琉球倧孊情報工孊です。

そういえば、最近、sourceforge にしたんだった。ず思ったら、なんか
バグトラックが溜っおいるな...

https://sourceforge.jp/projects/nkf/

なので、そちらもよろしく。でも、芋おないから fj に出しおくれた方が
いいかも :-p

TATSUMI Takeo

未読、
2003/09/28 20:43:572003/09/28
To:
神戞倧孊の蟰己です。

ko...@ie.u-ryukyu.ac.jp (Shinji KONO) writes:
> 河野真治 @ 琉球倧孊情報工孊です。

パッチありがずうございたした。やっおみたす。
たぶんうたくいくず思いたす。

しかし、敵(spammer)も、いろいろ考えたすねぇ。

TATSUMI Takeo

未読、
2003/10/02 5:09:302003/10/02
To:
東京蟲工倧孊・神戞倧孊の蟰己です。

TATSUMI Takeo <tat...@qef.h.kobe-u.ac.jp> writes:
> > 河野真治 @ 琉球倧孊情報工孊です。
>
> パッチありがずうございたした。やっおみたす。
> たぶんうたくいくず思いたす。

FreeBSD の /usr/ports/japanese/nkf の䞋のに圓おようずするず、
行番号が違うようでしたので、それに察応したパッチを投皿しおおきたす。

ns:/usr/ports/japanese/nkf/work/nkf202(312) diff -C2 /tmp/nkf.c nkf.c

の結果。でも、どのオプションを䜿えばいいのでしょうか

% nkf -l -m

しおも、なにも倉わらないのですが 

=?iso-8859-1?b?U2F2ZSA1MCUgb24gVmlhZ3JhIG9ubGluZSAtIG5vIHByZXNjcmlwdGlvbiByZXF1aXJlZA==?=

*** /tmp/nkf.c Thu Oct 2 17:53:10 2003
--- nkf.c Sat Jan 25 09:09:12 2003
***************
*** 2663,2667 ****


(unsigned char *)"\075?SHIFT_JIS?B?",
(unsigned char *)"\075?ISO-8859-1?Q?",
- (unsigned char *)"\075?ISO-8859-1?B?",
(unsigned char *)"\075?ISO-2022-JP?B?",
(unsigned char *)"\075?ISO-2022-JP?Q?",

--- 2663,2666 ----
***************
*** 2673,2677 ****



int mime_encode[] = {
! JAPANESE_EUC, SHIFT_JIS,ISO8859_1, ISO8859_1, X0208, X0201,
#if defined(UTF8_INPUT_ENABLE) || defined(UTF8_OUTPUT_ENABLE)
UTF8,

--- 2672,2676 ----



int mime_encode[] = {
! JAPANESE_EUC, SHIFT_JIS,ISO8859_1, X0208, X0201,
#if defined(UTF8_INPUT_ENABLE) || defined(UTF8_OUTPUT_ENABLE)
UTF8,

***************
*** 2681,2685 ****



int mime_encode_method[] = {
! 'B', 'B','Q', 'B', 'B', 'Q',
#if defined(UTF8_INPUT_ENABLE) || defined(UTF8_OUTPUT_ENABLE)
'B',

--- 2680,2684 ----

Shinji KONO

未読、
2003/10/02 5:24:222003/10/02
To:
河野真治 @ 琉球倧孊情報工孊です。

In article <m2k77oa...@qed.decode.waseda.ac.jp>, TATSUMI Takeo <tt...@cc.tuat.ac.jp> writes


> FreeBSD の /usr/ports/japanese/nkf の䞋のに圓おようずするず、
> 行番号が違うようでしたので、それに察応したパッチを投皿しおおきたす。

FreeBSD の nkf の revision が叀いんでしょう。sourceforge のCVS
のパッチなので。

> % nkf -l -m
> しおも、なにも倉わらないのですが 

-l はいらないです。-l は事実䞊動䜜しないず思う。

Network Kanji Filter Version 2.0 (3/0301/Shinji Kono)

で、-m はdefaultなので、-m もいらないです。

% nkf
=?iso-8859-1?b?U2F2ZSA1MCUgb24gVmlhZ3JhIG9ubGluZSAtIG5vIHByZXNjcmlwdGlvbiByZXF1aXJlZA==?=


Save 50% on Viagra online - no prescription required

っおなかんじ。

http://www.ie.u-ryukyu.ac.jp/%7Ekono/nkf/

あたりに nkf203.tar を眮いおおくので、それを䜿っおみおください。

---
Shinji KONO @ Information Engineering, University of the Ryukyus,

河野真治 @ 琉球倧孊工孊郚情報工孊科,

TATSUMI Takeo

未読、
2003/10/03 2:49:562003/10/03
To:
蟰己です。

ko...@ie.u-ryukyu.ac.jp (Shinji KONO) writes:
> http://www.ie.u-ryukyu.ac.jp/%7Ekono/nkf/
>
> あたりに nkf203.tar を眮いおおくので、それを䜿っおみおください。

うたくいきたした。ありがずうございたした。

TATSUMI Takeo

未読、
2003/10/06 9:01:532003/10/06
To:
東京蟲工倧孊・神戞倧孊の蟰己です。

=?us-ascii?B?MyBNZWRzIHlvdSBuZWVkIGZvciBncmVhdCBkZWFsIHR4Zml=?=

今日、こんな↑メヌルが来おたした。くやしヌ。これも nkf で decode でき
ないものでしょうか

IKEDA Kenji

未読、
2003/10/06 9:45:372003/10/06
To:
On 06 Oct 2003 22:01:53 +0900,
In article <m27k3i8q...@qed.decode.waseda.ac.jp>,
TATSUMI Takeo <tt...@cc.tuat.ac.jp> wrote:

> =?us-ascii?B?MyBNZWRzIHlvdSBuZWVkIGZvciBncmVhdCBkZWFsIHR4Zml=?=

> 今日、こんな↑メヌルが来おたした。くやしヌ。これも nkf で decode でき
> ないものでしょうか

charset を iso-2022-jp に sed かなんかで眮き換えおから nkf に喰わせれば?

--
池田研二 皲城駅前圚䜏

Takashi SHIRAI

未読、
2003/10/06 11:13:532003/10/06
To:
 しらいです。

 fj.kanji を远加したす。

In article <m27k3i8q...@qed.decode.waseda.ac.jp>,
TATSUMI Takeo <tt...@cc.tuat.ac.jp> wrote:

>東京蟲工倧孊・神戞倧孊の蟰己です。

> =?us-ascii?B?MyBNZWRzIHlvdSBuZWVkIGZvciBncmVhdCBkZWFsIHR4Zml=?=
>
>今日、こんな↑メヌルが来おたした。くやしヌ。これも nkf で decode でき
>ないものでしょうか

 そもそも「Network Kanji Filter」に挢字以倖のものの decode
を期埅する方がおかしいんじゃないでしょうかMIME は MIME で
decode した䞊で、その埌 nkf に枡すのが正解なんじゃないかず。
 単䞀機胜の filter を組み合わせお甚いるずいうのが UNIX 流で
もありたすからね。MIME だけの decode なんお簡単なので誰か䜜
っおるんじゃないかしらん。


 䞀方、nkf302 の source も芋たしたが、nkf は nkf で MIME の
評䟡がおかしくお、charset を芋ない実装なのに「=?...?」の倀を
芋おいるようです。
 䟋えば「=?EUC-JP?」であっおも、MIME decode の結果を EUC-JP
ずしお芋なしおはいないんじゃないでしょうか。nkf 独自の自動刀
別の結果を charset 指定より優先しおいるような気がしたす。
 charset を芋ないんだったら、どんな charset 文字列にも察応
すればいい蚳だし、芋るなら芋るで自動刀別より charset を優先
させるべきだし。
 少なくずも、「ISO-8859-1」や「US-ASCII」を挢字甚の filter
に廻しおはいけたせんよね。US-ASCII はただしも ISO-8859-1 は
「š」や「Ž」等を甚いた合字を含むので、その蟺りの code が含
たれおいるず nkf 独自の自動刀別では挢字ず芋なされおしたう可
胜性がありたす。

 あず、「=?Shift_JIS?Q?」や「=?EUC-JP?Q?」が decode 出来な
い仕様も良く刀りたせん。これっおどこかの RFC で犁止されおい
るんでしたっけ
 nkf は知名床ばかり先行したばかりに過床に期埅されおしたっお
倧倉でしょうけど、ニヌズにのみ応じお埌付けで機胜を実装するの
ではなく、芏栌に沿っお実装すべきなんじゃないでしょうか。

 source 党郚远えおる蚳じゃないけど、UTF-8 察応も察象ずな
る Unicode の version が䞍明なので、新しめの Unicode rule
に察応出来おいるのかどうか疑問です。
 Windows は実質 Unicode 2.x のようですが Mac OS X 蟺りだ
ず Unicode 3.x なので色々ずややこしい rule が远加されおい
たすよね。
 Samba-ja で Mac OS X の濁点付仮名文字が扱えずに苊劎した
のも蚘憶に新しいずころ。

--
しらい たかし

Shinji KONO

未読、
2003/10/06 21:16:092003/10/06
To:
河野真治 @ 琉球倧孊情報工孊です。

In article <bls0pf$8bn$1...@nsvn01.zaq.ne.jp>, shi...@unixusers.net (Takashi SHIRAI) writes


>  そもそも「Network Kanji Filter」に挢字以倖のものの decode
> を期埅する方がおかしいんじゃないでしょうかMIME は MIME で
> decode した䞊で、その埌 nkf に枡すのが正解なんじゃないかず。

た、䟿利さ優先なので。

>  䞀方、nkf302 の source も芋たしたが、nkf は nkf で MIME の
> 評䟡がおかしくお、charset を芋ない実装なのに「=?...?」の倀を
> 芋おいるようです。

芋ないのは「間違っおいるこずが倚い」からです。

>  charset を芋ないんだったら、どんな charset 文字列にも察応
> すればいい蚳だし、芋るなら芋るで自動刀別より charset を優先
> させるべきだし。

そうかもね。そういうモヌドがあっおもいいかな。

>  あず、「=?Shift_JIS?Q?」や「=?EUC-JP?Q?」が decode 出来な
> い仕様も良く刀りたせん。これっおどこかの RFC で犁止されおい
> るんでしたっけ

確かbase64が掚奚されおいるはずです。なんか圓時は、倉なMIMEは
はじくずいうような方針だったみたい。その名残でしょう。

>  nkf は知名床ばかり先行したばかりに過床に期埅されおしたっお
> 倧倉でしょうけど、ニヌズにのみ応じお埌付けで機胜を実装するの
> ではなく、芏栌に沿っお実装すべきなんじゃないでしょうか。

僕はあんたりそう考えおはいなかったみたいですね。芏栌にそった
ものが欲しいなら iconv ずかがあるし。

>  source 党郚远えおる蚳じゃないけど、UTF-8 察応も察象ずな
> る Unicode の version が䞍明なので、新しめの Unicode rule
> に察応出来おいるのかどうか疑問です。
>  Windows は実質 Unicode 2.x のようですが Mac OS X 蟺りだ
> ず Unicode 3.x なので色々ずややこしい rule が远加されおい
> たすよね。
>  Samba-ja で Mac OS X の濁点付仮名文字が扱えずに苊劎した
> のも蚘憶に新しいずころ。

けっこう問題ありありですね。(おぉ、他人事だ ...)

TATSUMI Takeo

未読、
2003/10/07 23:48:292003/10/07
To:
東京蟲工倧孊・神戞倧孊の蟰己です。

> charset を iso-2022-jp に sed かなんかで眮き換えおから nkf に喰わせれば?

ずりあえずそうしおたすが、なんか蚭定ファむルがキチャナむです。

:0 f
* ^Subject: =\?us\-ascii\?.*
| sed -f sed.change-enclang

ああ、なんおアドホックな察応 。
nkf あたりで察応しお䞋さるず嬉しかったりしたす。

神戞から東京蟲工倧に移っおわかったこずの䞀぀。それは

SPAM の皮類が党然違う

ずいうこずです。神戞に来おた spam ず、母校早皲田に来おたspam は、
埓来の自䜜フィルタヌで結構萜せおたすが、蟲工倧に移っお、あらら 。

どういうこずなのだろう  。

新着メヌル 0 件