実験的に始めた動機は理解できるけれど、そのそろ 評価 の
時期に来ているのでは?
誰か、この Report が 役に立っている人は いますか?
<ncmreport4.x-velveeta-...@news.efnet.com>の記事において
ne...@news.efnet.comさんは書きました。
> NOTE: This automated notification system is highly experimental, and should
> be regarded with caution. Practical use is *not* recommended.
>
> This posting is an automated NoCeM (No See 'Em) notice, listing abusive
> messages that have been posted to the Usenet news system.
# 個人的には、 そろそろ Path に efnet.com が含まれているものを
# SPAM 扱い( local cancel, no feed ) にしようと思う。
桂 英治@(株)横浜インテリジェンス
(kat...@hamaint.co.jp)
確認したところ、反応された
<ncmreport4.x-velveeta-...@news.efnet.com>
に問題は見当たりませんが…
判定には一部を除き、広く使われている cleanfeed の判定アルゴリズムを
ほぼそのまま流用しており、その精度が悪すぎるということは、私だけでなく、
同じ cleanfeed を採用している全世界のサーバに影響を与える深刻な
問題です。一刻も早く調査したいと思いますので、問題があったリポートを
具体的に挙げて頂けるよう、お願いいたします。
-tt
"Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
news:0308221104...@psv.hamaint.co.jp...
> 半年位前から 行われている NoCeN Report ですが、
> 精度が悪すぎて、役に立っていないと思う。
そうですか?
うちのサイトで購読している人からは非常に評判がよいですが。
> # 個人的には、 そろそろ Path に efnet.com が含まれているものを
> # SPAM 扱い( local cancel, no feed ) にしようと思う。
したらいいんじゃないですか?
わざわざ表明は不要だと思いますが。
表明するってことは、何らかの指摘を伴うわけですが、具体的な指摘
がないってことは、単なる放言ですね。
--
---------------------------------------------------
Go ride safely by motorcycles around the world !
Naoto Zushi(厨子 直人) <news-...@muzik.gr.jp>
---------------------------------------------------
> "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
> news:0308221104...@psv.hamaint.co.jp...
> > 半年位前から 行われている NoCeN Report ですが、
> > 精度が悪すぎて、役に立っていないと思う。
>
> 確認したところ、反応された
> <ncmreport4.x-velveeta-...@news.efnet.com>
> に問題は見当たりませんが…
そう思うのは、たぶん、「精度」とか「役に立つ」という言葉の
解釈が 違うのでしょう。
a. 排除するべき記事を 排除するべきでないと判定する
b. 排除するべきでない記事を 排除するべきと判定する
この二つの割合が多いとき、「精度が悪い」と称しています。
で、さらに細かく言えば、 a. のタイプの誤判定は、多少多くても
比較的許容できるけれども、b. のタイプの誤判定は、それに比べれば
許容されにくい。
a. のタイプの誤判定が 30%あってもそれほど気にならないが、
b. のタイプの誤判定は 1%程度でも いやだ。
> 判定には一部を除き、広く使われている cleanfeed の判定アルゴリズムを
> ほぼそのまま流用しており、その精度が悪すぎるということは、私だけでなく、
> 同じ cleanfeed を採用している全世界のサーバに影響を与える深刻な
> 問題です。一刻も早く調査したいと思いますので、問題があったリポートを
> 具体的に挙げて頂けるよう、お願いいたします。
最近の上のリストに引っかかっているのは、
fj.sci.math fj.sci.physics fj.soc.politics japan.jiji
にクロスポストされている、
Re: 天候デリバティブ、キタ━━━━━━(゜∀
というスレッドですが、 どこかの abuser の判定法をそのまま
使っているのかな?
クロスポストの数で判定するなら、
fj.1st-readme
fj.1st-readme.discussion
fj.announce
fj.archives.d
fj.archives.documents
にクロスポストされているとか ( アルファベット順に連なっている
ニュースグループへのクロスポスト ... SPAMMER 達はしばしば、
こういうポストをする )、
Follow-up されている記事があるとか無いとか、そういった情報まで
取り込まないと、まともな判定はできないのでは?
... で、この Report が役に立っている人はいるのかな?
桂 英治@(株)横浜インテリジェンス
(kat...@hamaint.co.jp)
"Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
news:0308222302...@psv.hamaint.co.jp...
> <bi44ht$ap7$1...@pita.efnet.com>の記事において
> t...@efnet.comさんは書きました。
>
> > "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in
message
> > news:0308221104...@psv.hamaint.co.jp...
> > > 半年位前から 行われている NoCeN Report ですが、
> > > 精度が悪すぎて、役に立っていないと思う。
> >
> > 確認したところ、反応された
> > <ncmreport4.x-velveeta-...@news.efnet.com>
> > に問題は見当たりませんが…
>
> そう思うのは、たぶん、「精度」とか「役に立つ」という言葉の
> 解釈が 違うのでしょう。
失礼ながら言葉の解釈以前に目的そのものを誤解しています。
Message-ID: <b35420$elk$1...@pita.efnet.com> をご覧になれば
一目瞭然なのですが、タイプ x-velveeta-fj のリポートは、
単純に Newsgroups ヘッダに記載されたグループのうち、
fj.* にマッチするものの数を数え、
その数が 3 以上となるものを排除すべき記事と判定し、
リストしているだけです。
> a. 排除するべき記事を 排除するべきでないと判定する
> b. 排除するべきでない記事を 排除するべきと判定する
>
> この二つの割合が多いとき、「精度が悪い」と称しています。
何も難しく考える必要は有りません。数え間違えさえ無ければ、
false negatives は常にゼロであり、 false positives も常にゼロです。
数え間違いがゼロであれば、精度は常に 100% です。
逆に、精度が 100% でないということは、数え間違いが発生して
いることになります。にわかには信じられませんが、有り得ないとも
言い切れません。早速、検証してみましょう。
問題の記事
<ncmreport4.x-velveeta-...@news.efnet.com>
には、
<Ead1b.755$U8....@news1.dion.ne.jp> fj.soc.politics
japan.jiji
fj.sci.math
fj.sci.physics
とあります。 fj.* にマッチするものは、
fj.soc.politics
fj.sci.math
fj.sci.physics
の三つ。確かに三つですね。あ、ひょっとして正解は四つなのに、
バグか何かで三つと報告しているのかもしれません。元の記事
<Ead1b.755$U8....@news1.dion.ne.jp>
にもあたりましょう。ヘッドには、
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
とあります。 fj.* にマッチするものは、えーと、
fj.soc.politics
fj.sci.math
fj.sci.physics
の三つ。やはり三つです。ディスクかメモリに問題? 有り得ます。
他所のサーバで調べましょう。
(順不同)
ベルガコム・スカイネット
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
アドバンスド・テレコム
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
リムネット
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
ベクター・インターネット・サービセズ
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
シラキュース大学
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
自由ベルリン大学
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
京都大学
Newsgroups: fj.soc.politics,japan.jiji,fj.sci.math,fj.sci.physics
Message-ID: <Ead1b.755$U8....@news1.dion.ne.jp>
もう勘弁。全て三つです。ここまで来れば、間違い有りません。
数え直してみてください。
> Follow-up されている記事があるとか無いとか、そういった情報まで
> 取り込まないと、まともな判定はできないのでは?
ただ数えれば済む話です。話を複雑にする必要は全く有りません。
-tt
> 重大欠陥かと気を揉んでいたら、そんなことでしたか。
>
> "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
> news:0308222302...@psv.hamaint.co.jp...
> > <bi44ht$ap7$1...@pita.efnet.com>の記事において
> > t...@efnet.comさんは書きました。
> >
> > > "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in
> message
> > > news:0308221104...@psv.hamaint.co.jp...
> > > > 半年位前から 行われている NoCeN Report ですが、
> > > > 精度が悪すぎて、役に立っていないと思う。
> > >
> > > 確認したところ、反応された
> > > <ncmreport4.x-velveeta-...@news.efnet.com>
> > > に問題は見当たりませんが…
> >
> > そう思うのは、たぶん、「精度」とか「役に立つ」という言葉の
> > 解釈が 違うのでしょう。
>
> 失礼ながら言葉の解釈以前に目的そのものを誤解しています。
>
> Message-ID: <b35420$elk$1...@pita.efnet.com> をご覧になれば
> 一目瞭然なのですが、タイプ x-velveeta-fj のリポートは、
> 単純に Newsgroups ヘッダに記載されたグループのうち、
> fj.* にマッチするものの数を数え、
> その数が 3 以上となるものを排除すべき記事と判定し、
> リストしているだけです。
だから、フィルターすることを目的とせず、リストする
ことだけが目的なら、投稿するべきニュースグループは
fj.news.lists.filters でなく、fj.news.lists
ではありませんか?
+fj.news.lists News-related statistics and lists.
ニュースに関する統計情報。投稿者別、グループ別の投稿数とか伝搬時間等。
+fj.news.lists.filters Notices for automated news filtering systems.
自動ニュース・フィルタリング・システムのための通報。
どの通報を 自動ニュース・フィルタリング・システム の入力 と
するかは ニュースサーバー管理者の裁量権の範囲ですから、
あてにならない通報があること自体は、構いませんが、
自動ニュース・フィルタリング・システム の入力 となることを
最初から放棄しているのであれば、fj.news.lists.filters は
ふさわしいニュースグループではないでしょう。
> > a. 排除するべき記事を 排除するべきでないと判定する
> > b. 排除するべきでない記事を 排除するべきと判定する
> >
> > この二つの割合が多いとき、「精度が悪い」と称しています。
>
> 何も難しく考える必要は有りません。数え間違えさえ無ければ、
> false negatives は常にゼロであり、 false positives も常にゼロです。
> 数え間違いがゼロであれば、精度は常に 100% です。
そりゃ、「プログラムが、プログラムされた通りに動いているから
バグではない」というのと同じ程度の意味しかもたない主張でしょう?
> もう勘弁。全て三つです。ここまで来れば、間違い有りません。
>
> 数え直してみてください。
だから、そんなリストは「役に立たない」でしょ?
桂 英治@(株)横浜インテリジェンス
(kat...@hamaint.co.jp)
In article <0308230140...@psv.hamaint.co.jp>, Eiji KATSURA <blackhole(I_dont_read_mails)@hamaint.co.jp> writes
> だから、フィルターすることを目的とせず、リストする
> ことだけが目的なら、投稿するべきニュースグループは
> fj.news.lists.filters でなく、fj.news.lists
> ではありませんか?
それは反対です。不便だから。逆に、fj.news.lists.filters に
入っていても僕は困りません。
僕はNoCeMはfilterには使ってません。
---
Shinji KONO @ Information Engineering, University of the Ryukyus,
PRESTO, Japan Science and Technology Corporation
河野真治 @ 琉球大学工学部情報工学科,
科学技術振興事業団さきがけ研究21(機能と構成)
> 河野真治 @ 琉球大学情報工学です。
>
> In article <0308230140...@psv.hamaint.co.jp>, Eiji KATSURA <blackhole(I_dont_read_mails)@hamaint.co.jp> writes
> > だから、フィルターすることを目的とせず、リストする
> > ことだけが目的なら、投稿するべきニュースグループは
> > fj.news.lists.filters でなく、fj.news.lists
> > ではありませんか?
>
> それは反対です。不便だから。逆に、fj.news.lists.filters に
> 入っていても僕は困りません。
不便だからには同意です。fj.news.lists は 人も読んでいるグループですから
うっとうしさは今以上でしょうね。
桂 英治@(株)横浜インテリジェンス
(kat...@hamaint.co.jp)
公開鍵が三桁のクローラー以外の人に「ダウンロード」されて
いるところを見ると、使っている人はいるようです。
それはそうと、始める直前に、
三つ以上のグループにクロスポストされた記事は
問答無用でキャンセルする
という提案があったのを覚えています? さしたる反論も無く、
あと一歩で実施という情況でした。
あのタイプのリポートは、その提案が実行に移されたら
どうなるのかを検証することを目的の一つとしています。
(だから独立しているし、どんな記事が 引っ掛かったのか、
ひと目で分かるように作ってある。 単なる入力目的なら、
あんな詳細は入れない)
桂さんが「問題が無い記事がリストされている。けしからん」と
思ったのであれば、そのこと自体に意味があるわけです。
気付いていなかったことを気付かせてくれたのは、
ほかならぬその「役に立たない」リポートなのですから。
もう少し具体的に書くと、あのリポートは、入力用のみならず、
実施寸前だった問答無用のキャンセルに代わる代替手段を
提供することでその実施を食い止めるとともに、もし実施されたら
どうなるか、その危険性を知らしめるためのものです。
実際に、半年経った現在、キャンセルは行われず、こうして
危険性に気付く人が現れたのですから、こちらとしては、
期待通りの働きです。
もっとも、桂さんがキャンセルを切に希望していのであれば、
実施を妨げられてしまったわけですから、大層ご不満でしょうね。
お気持ちは十分に理解します。
-tt
news.lists.filters を見たことがあれば、間違っても主として人間様に
読まれるグループに投稿して欲しいとは思わないでしょう。
そういうもんです。嫌ならお隣さんに !*.lists.filters を加えて
もらいましょう。 (私も線が細かった頃はそうしてた)
-tt
Message-ID: <87lm1tn...@zzr.yamada.gr.jp> のことですね。
「x-velveeta-fj」でクリテリアとして挙げられている記事。
そこでは「経験則」程度の根拠しか示されてなかったわけですが、
<bhk84b$gsr$2...@news511.nifty.com> で少し突っ込んだ説明がされてます。
この提案および背景をどう考えるか、ですよね。
(わたしは「なるほどな」と肯きましたが)
> "Eiji KATSURA" <blackhole(I_dont_read_mails)@hamaint.co.jp> wrote in message
> news:0308230140...@psv.hamaint.co.jp...
> > だから、そんなリストは「役に立たない」でしょ?
>
> 公開鍵が三桁のクローラー以外の人に「ダウンロード」されて
> いるところを見ると、使っている人はいるようです。
そうですか。
> それはそうと、始める直前に、
> 三つ以上のグループにクロスポストされた記事は
> 問答無用でキャンセルする
> という提案があったのを覚えています? さしたる反論も無く、
> あと一歩で実施という情況でした。
その時点で誰が本当の abuser かというのはかなりはっきり
していましたからね。
> あのタイプのリポートは、その提案が実行に移されたら
> どうなるのかを検証することを目的の一つとしています。
> (だから独立しているし、どんな記事が 引っ掛かったのか、
> ひと目で分かるように作ってある。 単なる入力目的なら、
> あんな詳細は入れない)
>
> 桂さんが「問題が無い記事がリストされている。けしからん」と
> 思ったのであれば、そのこと自体に意味があるわけです。
> 気付いていなかったことを気付かせてくれたのは、
> ほかならぬその「役に立たない」リポートなのですから。
確かにそういう意味では役にたちましたけど、
> もう少し具体的に書くと、あのリポートは、入力用のみならず、
> 実施寸前だった問答無用のキャンセルに代わる代替手段を
> 提供することでその実施を食い止めるとともに、もし実施されたら
> どうなるか、その危険性を知らしめるためのものです。
> 実際に、半年経った現在、キャンセルは行われず、こうして
> 危険性に気付く人が現れたのですから、こちらとしては、
> 期待通りの働きです。
もう、使命を終えたのでは? まあ、3桁のオーダーで
利用している人がいるならこれ以上文句はいいません。
桂 英治@(株)横浜インテリジェンス
(kat...@hamaint.co.jp)
個人的には、そのスレッドは
フィルタされてもまんざら不適切ではなさそうに思います。
投稿先のチョイスが
スレッド先頭の <bhg281$t8f$1...@news511.nifty.com> からして
咬み合ってないですもん。
japan.jijiはよいですしfj.soc.politicsも許容範囲かもですが
(でも多分fj.soc.economyのほうがより適切そうな気がする)
残りの2つは無理がありますよね。
投稿先選択の根拠は
<bhfj5n$ahs$1...@news511.nifty.com> から類推できますが、
当人以外は誰も賛同・支持しない考え方でしょう。
そのタイプではマルチポストは考慮していません。考慮されているのは
spam です。
細かく説明しようとすると、数千行のプログラムを一行一行解説する
はめになるので、概略だけ…
現時点では、 cleanfeed-20020501 が EMP または Bot signature と
判定したものと、独自のフィルタに引っ掛かったものが spam に載ります。
前者は基本的にテキスト・フィルタ (文字列照合) とレート・フィルタ
(増水量検査) の組み合わせです。ランキング・フィルタ (得点判定) は
false positives が目に余るので、使用していません。この二種類の
フィルタが、ほぼ全てです。
後者はごく初歩的なテキスト・フィルタで、前者で捕捉できないものを
捕捉するために、必要に応じてその都度手作業で書き起こします。
少し前に shknews や pipex.com から大量に注入された記事が、
ある時点から漏れなく判定されるようになったのは、このためです。
効果は絶大ですが、いわば特定用途向けであり、一般の記事に
適用されることは有りません。
詳しくは、 cleanfeed のソースをご覧ください。
-tt