NoCeM Report ncmreport4.x-velveeta-fj.20030822-003237 ignore @@NCM

Eiji KATSURA

未読、

2003/08/21 22:05:332003/08/21

To:

半年位前から行われている NoCeN Report ですが、
精度が悪すぎて、役に立っていないと思う。

実験的に始めた動機は理解できるけれど、そのそろ評価の
時期に来ているのでは？

誰か、この Report が役に立っている人はいますか？

<ncmreport4.x-velveeta-...@news.efnet.com>の記事において
ne...@news.efnet.comさんは書きました。

> NOTE: This automated notification system is highly experimental, and should
> be regarded with caution. Practical use is *not* recommended.
>
> This posting is an automated NoCeM (No See 'Em) notice, listing abusive
> messages that have been posted to the Usenet news system.

# 個人的には、そろそろ Path に efnet.com が含まれているものを
# SPAM 扱い( local cancel, no feed ) にしようと思う。

桂英治＠(株)横浜インテリジェンス
(kat...@hamaint.co.jp)

-

未読、

2003/08/21 23:58:132003/08/21

To:

"Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
news:0308221104...@psv.hamaint.co.jp...

> 半年位前から行われている NoCeN Report ですが、
> 精度が悪すぎて、役に立っていないと思う。

確認したところ、反応された
<ncmreport4.x-velveeta-...@news.efnet.com>
に問題は見当たりませんが…

判定には一部を除き、広く使われている cleanfeed の判定アルゴリズムを
ほぼそのまま流用しており、その精度が悪すぎるということは、私だけでなく、
同じ cleanfeed を採用している全世界のサーバに影響を与える深刻な
問題です。一刻も早く調査したいと思いますので、問題があったリポートを
具体的に挙げて頂けるよう、お願いいたします。

-tt

Naoto Zushi

未読、

2003/08/22 9:58:332003/08/22

To:

　厨子です。

"Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
news:0308221104...@psv.hamaint.co.jp...

> 半年位前から行われている NoCeN Report ですが、
> 精度が悪すぎて、役に立っていないと思う。

　そうですか？
　うちのサイトで購読している人からは非常に評判がよいですが。

> # 個人的には、そろそろ Path に efnet.com が含まれているものを
> # SPAM 扱い( local cancel, no feed ) にしようと思う。

　したらいいんじゃないですか？
　わざわざ表明は不要だと思いますが。
　表明するってことは、何らかの指摘を伴うわけですが、具体的な指摘
がないってことは、単なる放言ですね。

--
---------------------------------------------------
Go ride safely by motorcycles around the world !
Naoto Zushi（厨子　直人） <news-...@muzik.gr.jp>
---------------------------------------------------

Eiji KATSURA

未読、

2003/08/22 10:03:122003/08/22

To:

<bi44ht$ap7$1...@pita.efnet.com>の記事において
t...@efnet.comさんは書きました。

> "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
> news:0308221104...@psv.hamaint.co.jp...
> > 半年位前から行われている NoCeN Report ですが、
> > 精度が悪すぎて、役に立っていないと思う。
>
> 確認したところ、反応された
> <ncmreport4.x-velveeta-...@news.efnet.com>
> に問題は見当たりませんが…

そう思うのは、たぶん、「精度」とか「役に立つ」という言葉の
解釈が違うのでしょう。

a. 排除するべき記事を排除するべきでないと判定する
b. 排除するべきでない記事を排除するべきと判定する

この二つの割合が多いとき、「精度が悪い」と称しています。
で、さらに細かく言えば、 a. のタイプの誤判定は、多少多くても
比較的許容できるけれども、b. のタイプの誤判定は、それに比べれば
許容されにくい。

a. のタイプの誤判定が 30%あってもそれほど気にならないが、
b. のタイプの誤判定は 1%程度でもいやだ。

> 判定には一部を除き、広く使われている cleanfeed の判定アルゴリズムを
> ほぼそのまま流用しており、その精度が悪すぎるということは、私だけでなく、
> 同じ cleanfeed を採用している全世界のサーバに影響を与える深刻な
> 問題です。一刻も早く調査したいと思いますので、問題があったリポートを
> 具体的に挙げて頂けるよう、お願いいたします。

最近の上のリストに引っかかっているのは、
fj.sci.math fj.sci.physics fj.soc.politics japan.jiji
にクロスポストされている、
Re: 天候デリバティブ、キタ━━━━━━(゜∀
というスレッドですが、どこかの abuser の判定法をそのまま
使っているのかな？

クロスポストの数で判定するなら、
fj.1st-readme
fj.1st-readme.discussion
fj.announce
fj.archives.d
fj.archives.documents
にクロスポストされているとか ( アルファベット順に連なっている
ニュースグループへのクロスポスト ... SPAMMER 達はしばしば、
こういうポストをする )、

Follow-up されている記事があるとか無いとか、そういった情報まで
取り込まないと、まともな判定はできないのでは?

... で、この Report が役に立っている人はいるのかな?

桂英治＠(株)横浜インテリジェンス
(kat...@hamaint.co.jp)

Tsuneo Tanaka

未読、

2003/08/22 12:12:202003/08/22

To:

重大欠陥かと気を揉んでいたら、そんなことでしたか。

"Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message

news:0308222302...@psv.hamaint.co.jp...

> <bi44ht$ap7$1...@pita.efnet.com>の記事において
> t...@efnet.comさんは書きました。
>
> > "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in
message
> > news:0308221104...@psv.hamaint.co.jp...
> > > 半年位前から行われている NoCeN Report ですが、
> > > 精度が悪すぎて、役に立っていないと思う。
> >
> > 確認したところ、反応された
> > <ncmreport4.x-velveeta-...@news.efnet.com>
> > に問題は見当たりませんが…
>
> そう思うのは、たぶん、「精度」とか「役に立つ」という言葉の
> 解釈が違うのでしょう。

失礼ながら言葉の解釈以前に目的そのものを誤解しています。

Message-ID: <b35420$elk$1...@pita.efnet.com> をご覧になれば
一目瞭然なのですが、タイプ x-velveeta-fj のリポートは、
単純に Newsgroups ヘッダに記載されたグループのうち、
fj.* にマッチするものの数を数え、
その数が 3 以上となるものを排除すべき記事と判定し、
リストしているだけです。

> a. 排除するべき記事を排除するべきでないと判定する
> b. 排除するべきでない記事を排除するべきと判定する
>
> この二つの割合が多いとき、「精度が悪い」と称しています。

何も難しく考える必要は有りません。数え間違えさえ無ければ、
false negatives は常にゼロであり、 false positives も常にゼロです。
数え間違いがゼロであれば、精度は常に 100% です。

逆に、精度が 100% でないということは、数え間違いが発生して
いることになります。にわかには信じられませんが、有り得ないとも
言い切れません。早速、検証してみましょう。

問題の記事
<ncmreport4.x-velveeta-...@news.efnet.com>
には、
<Ead1b.755$U8....@news1.dion.ne.jp> fj.soc.politics
japan.jiji
fj.sci.math
fj.sci.physics
とあります。 fj.* にマッチするものは、
fj.soc.politics
fj.sci.math
fj.sci.physics
の三つ。確かに三つですね。あ、ひょっとして正解は四つなのに、
バグか何かで三つと報告しているのかもしれません。元の記事
<Ead1b.755$U8....@news1.dion.ne.jp>
にもあたりましょう。ヘッドには、
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
とあります。 fj.* にマッチするものは、えーと、
fj.soc.politics
fj.sci.math
fj.sci.physics
の三つ。やはり三つです。ディスクかメモリに問題? 有り得ます。
他所のサーバで調べましょう。

(順不同)
ベルガコム・スカイネット
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
アドバンスド・テレコム
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
リムネット
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
ベクター・インターネット・サービセズ
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
シラキュース大学
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
自由ベルリン大学
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
京都大学
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>

もう勘弁。全て三つです。ここまで来れば、間違い有りません。

数え直してみてください。

> Follow-up されている記事があるとか無いとか、そういった情報まで
> 取り込まないと、まともな判定はできないのでは?

ただ数えれば済む話です。話を複雑にする必要は全く有りません。

-tt

Eiji KATSURA

未読、

2003/08/22 12:40:162003/08/22

To:

<bi5fif$9qm$1...@pita.efnet.com>の記事において
t...@efnet.comさんは書きました。

> 重大欠陥かと気を揉んでいたら、そんなことでしたか。
>
> "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
> news:0308222302...@psv.hamaint.co.jp...
> > <bi44ht$ap7$1...@pita.efnet.com>の記事において
> > t...@efnet.comさんは書きました。
> >
> > > "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in
> message
> > > news:0308221104...@psv.hamaint.co.jp...
> > > > 半年位前から行われている NoCeN Report ですが、
> > > > 精度が悪すぎて、役に立っていないと思う。
> > >
> > > 確認したところ、反応された
> > > <ncmreport4.x-velveeta-...@news.efnet.com>
> > > に問題は見当たりませんが…
> >
> > そう思うのは、たぶん、「精度」とか「役に立つ」という言葉の
> > 解釈が違うのでしょう。
>
> 失礼ながら言葉の解釈以前に目的そのものを誤解しています。
>
> Message-ID: <b35420$elk$1...@pita.efnet.com> をご覧になれば
> 一目瞭然なのですが、タイプ x-velveeta-fj のリポートは、
> 単純に Newsgroups ヘッダに記載されたグループのうち、
> fj.* にマッチするものの数を数え、
> その数が 3 以上となるものを排除すべき記事と判定し、
> リストしているだけです。

だから、フィルターすることを目的とせず、リストする
ことだけが目的なら、投稿するべきニュースグループは
fj.news.lists.filters でなく、fj.news.lists
ではありませんか？

+fj.news.lists News-related statistics and lists.
ニュースに関する統計情報。投稿者別、グループ別の投稿数とか伝搬時間等。
+fj.news.lists.filters Notices for automated news filtering systems.
自動ニュース・フィルタリング・システムのための通報。

どの通報を自動ニュース・フィルタリング・システムの入力と
するかはニュースサーバー管理者の裁量権の範囲ですから、
あてにならない通報があること自体は、構いませんが、
自動ニュース・フィルタリング・システムの入力となることを
最初から放棄しているのであれば、fj.news.lists.filters は
ふさわしいニュースグループではないでしょう。

> > a. 排除するべき記事を排除するべきでないと判定する
> > b. 排除するべきでない記事を排除するべきと判定する
> >
> > この二つの割合が多いとき、「精度が悪い」と称しています。
>
> 何も難しく考える必要は有りません。数え間違えさえ無ければ、
> false negatives は常にゼロであり、 false positives も常にゼロです。
> 数え間違いがゼロであれば、精度は常に 100% です。

そりゃ、「プログラムが、プログラムされた通りに動いているから
バグではない」というのと同じ程度の意味しかもたない主張でしょう？

> もう勘弁。全て三つです。ここまで来れば、間違い有りません。
>
> 数え直してみてください。

だから、そんなリストは「役に立たない」でしょ？

桂英治＠(株)横浜インテリジェンス
(kat...@hamaint.co.jp)

Shinji KONO

未読、

2003/08/22 16:21:272003/08/22

To:

河野真治 @ 琉球大学情報工学です。

In article <0308230140...@psv.hamaint.co.jp>, Eiji KATSURA <blackhole(I_dont_read_mails)@hamaint.co.jp> writes

> だから、フィルターすることを目的とせず、リストする
> ことだけが目的なら、投稿するべきニュースグループは
> fj.news.lists.filters でなく、fj.news.lists
> ではありませんか？

それは反対です。不便だから。逆に、fj.news.lists.filters に
入っていても僕は困りません。

僕はNoCeMはfilterには使ってません。

---
Shinji KONO @ Information Engineering, University of the Ryukyus,
PRESTO, Japan Science and Technology Corporation
河野真治 @ 琉球大学工学部情報工学科,
科学技術振興事業団さきがけ研究21(機能と構成)

Eiji KATSURA

未読、

2003/08/22 18:46:452003/08/22

To:

<3988874...@insigna.ie.u-ryukyu.ac.jp>の記事において
ko...@ie.u-ryukyu.ac.jpさんは書きました。

> 河野真治 @ 琉球大学情報工学です。
>
> In article <0308230140...@psv.hamaint.co.jp>, Eiji KATSURA <blackhole(I_dont_read_mails)@hamaint.co.jp> writes
> > だから、フィルターすることを目的とせず、リストする
> > ことだけが目的なら、投稿するべきニュースグループは
> > fj.news.lists.filters でなく、fj.news.lists
> > ではありませんか？
>
> それは反対です。不便だから。逆に、fj.news.lists.filters に
> 入っていても僕は困りません。

不便だからには同意です。fj.news.lists は人も読んでいるグループですから
うっとうしさは今以上でしょうね。

桂英治＠(株)横浜インテリジェンス
(kat...@hamaint.co.jp)

-

未読、

2003/08/22 20:02:072003/08/22

To:

"Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message

news:0308230140...@psv.hamaint.co.jp...
> だから、そんなリストは「役に立たない」でしょ？

公開鍵が三桁のクローラー以外の人に「ダウンロード」されて
いるところを見ると、使っている人はいるようです。

それはそうと、始める直前に、
三つ以上のグループにクロスポストされた記事は
問答無用でキャンセルする
という提案があったのを覚えています? さしたる反論も無く、
あと一歩で実施という情況でした。

あのタイプのリポートは、その提案が実行に移されたら
どうなるのかを検証することを目的の一つとしています。
(だから独立しているし、どんな記事が引っ掛かったのか、
ひと目で分かるように作ってある。単なる入力目的なら、
あんな詳細は入れない)

桂さんが「問題が無い記事がリストされている。けしからん」と
思ったのであれば、そのこと自体に意味があるわけです。
気付いていなかったことを気付かせてくれたのは、
ほかならぬその「役に立たない」リポートなのですから。

もう少し具体的に書くと、あのリポートは、入力用のみならず、
実施寸前だった問答無用のキャンセルに代わる代替手段を
提供することでその実施を食い止めるとともに、もし実施されたら
どうなるか、その危険性を知らしめるためのものです。
実際に、半年経った現在、キャンセルは行われず、こうして
危険性に気付く人が現れたのですから、こちらとしては、
期待通りの働きです。

もっとも、桂さんがキャンセルを切に希望していのであれば、
実施を妨げられてしまったわけですから、大層ご不満でしょうね。
お気持ちは十分に理解します。

-tt

-

未読、

2003/08/22 20:20:112003/08/22

To:

"Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message

news:0308230746...@psv.hamaint.co.jp...

news.lists.filters を見たことがあれば、間違っても主として人間様に
読まれるグループに投稿して欲しいとは思わないでしょう。
そういうもんです。嫌ならお隣さんに !*.lists.filters を加えて
もらいましょう。 (私も線が細かった頃はそうしてた)

-tt

Koichiro

未読、

2003/08/22 21:11:192003/08/22

To:

"-" <t...@efnet.com> wrote:
> それはそうと、始める直前に、
> 三つ以上のグループにクロスポストされた記事は
> 問答無用でキャンセルする
> という提案があったのを覚えています? さしたる反論も無く、
> あと一歩で実施という情況でした。

Message-ID: <87lm1tn...@zzr.yamada.gr.jp> のことですね。
「x-velveeta-fj」でクリテリアとして挙げられている記事。

そこでは「経験則」程度の根拠しか示されてなかったわけですが、
<bhk84b$gsr$2...@news511.nifty.com> で少し突っ込んだ説明がされてます。
この提案および背景をどう考えるか、ですよね。
(わたしは「なるほどな」と肯きましたが)

Eiji KATSURA

未読、

2003/08/22 20:58:182003/08/22

To:

<bi6b3a$5lcch$1...@ID-183872.news.uni-berlin.de>の記事において
t...@efnet.comさんは書きました。

> "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
> news:0308230140...@psv.hamaint.co.jp...
> > だから、そんなリストは「役に立たない」でしょ？
>
> 公開鍵が三桁のクローラー以外の人に「ダウンロード」されて
> いるところを見ると、使っている人はいるようです。

そうですか。

> それはそうと、始める直前に、
> 三つ以上のグループにクロスポストされた記事は
> 問答無用でキャンセルする
> という提案があったのを覚えています? さしたる反論も無く、
> あと一歩で実施という情況でした。

その時点で誰が本当の abuser かというのはかなりはっきり
していましたからね。

> あのタイプのリポートは、その提案が実行に移されたら
> どうなるのかを検証することを目的の一つとしています。
> (だから独立しているし、どんな記事が引っ掛かったのか、
> ひと目で分かるように作ってある。単なる入力目的なら、
> あんな詳細は入れない)
>
> 桂さんが「問題が無い記事がリストされている。けしからん」と
> 思ったのであれば、そのこと自体に意味があるわけです。
> 気付いていなかったことを気付かせてくれたのは、
> ほかならぬその「役に立たない」リポートなのですから。

確かにそういう意味では役にたちましたけど、

> もう少し具体的に書くと、あのリポートは、入力用のみならず、
> 実施寸前だった問答無用のキャンセルに代わる代替手段を
> 提供することでその実施を食い止めるとともに、もし実施されたら
> どうなるか、その危険性を知らしめるためのものです。
> 実際に、半年経った現在、キャンセルは行われず、こうして
> 危険性に気付く人が現れたのですから、こちらとしては、
> 期待通りの働きです。

もう、使命を終えたのでは？まあ、3桁のオーダーで
利用している人がいるならこれ以上文句はいいません。

桂英治＠(株)横浜インテリジェンス
(kat...@hamaint.co.jp)

Koichiro

未読、

2003/08/22 21:44:522003/08/22

To:

Eiji KATSURA <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote:
> 最近の上のリストに引っかかっているのは、
> fj.sci.math fj.sci.physics fj.soc.politics japan.jiji
> にクロスポストされている、
> Re: 天候デリバティブ、キタ━━━━━━(゜∀
> というスレッドですが、どこかの abuser の判定法をそのまま
> 使っているのかな？

個人的には、そのスレッドは
フィルタされてもまんざら不適切ではなさそうに思います。
投稿先のチョイスが
スレッド先頭の <bhg281$t8f$1...@news511.nifty.com> からして
咬み合ってないですもん。
japan.jijiはよいですしfj.soc.politicsも許容範囲かもですが
(でも多分fj.soc.economyのほうがより適切そうな気がする)
残りの2つは無理がありますよね。

投稿先選択の根拠は
<bhfj5n$ahs$1...@news511.nifty.com> から類推できますが、
当人以外は誰も賛同・支持しない考え方でしょう。

Tsuneo Tanaka

未読、

2003/08/23 12:14:022003/08/23

To:

"▲▽▲▽▲" <le...@cwo.zaq.ne.invalid> wrote in message
news:3f470645.7691%le...@cwo.zaq.ne.invalid...
> マルチポストに関する規定はないんですかね？

そのタイプではマルチポストは考慮していません。考慮されているのは
spam です。

細かく説明しようとすると、数千行のプログラムを一行一行解説する
はめになるので、概略だけ…

現時点では、 cleanfeed-20020501 が EMP または Bot signature と
判定したものと、独自のフィルタに引っ掛かったものが spam に載ります。

前者は基本的にテキスト・フィルタ (文字列照合) とレート・フィルタ
(増水量検査) の組み合わせです。ランキング・フィルタ (得点判定) は
false positives が目に余るので、使用していません。この二種類の
フィルタが、ほぼ全てです。

後者はごく初歩的なテキスト・フィルタで、前者で捕捉できないものを
捕捉するために、必要に応じてその都度手作業で書き起こします。
少し前に shknews や pipex.com から大量に注入された記事が、
ある時点から漏れなく判定されるようになったのは、このためです。
効果は絶大ですが、いわば特定用途向けであり、一般の記事に
適用されることは有りません。

詳しくは、 cleanfeed のソースをご覧ください。

-tt