韓国語spamを弾く方法を色々考えています。
Subjectの「韻壱」という文字列で判定できるというのは、
webで調べてわかりました。
EUC-KRで書かれた「広告」という意味の言葉をEUC-JPで表示すると
「韻壱」になるのだそうです。
更に、実際に届いたspamを調べてみたところ、「舛左」という文字列でも
判定出来る事に気付きました。
この「舛左」に対応する韓国語は、どういう意味なんでしょうか?
--
HAT
> この「舛左」に対応する韓国語は、どういう意味なんでしょうか?
MacOSXのSherlockで、「韓国語から英語」に変換してみたら、
「Information」でした。
他にも、韓国語を弾くのによい文字列はあるでしょうか?
--
HAT
At 12 Feb 2004 15:09:14 GMT,
HAT wrote:
> 他にも、韓国語を弾くのによい文字列はあるでしょうか?
BodyやSubjectではなくて、
Content-Type: ks_c
Content-Type: euc-kr
にてはじく、というのはかなり以前から常套手段として用いられている
手法ですね。
--
柏崎 礼生 (Hiroki Kashiwazaki)@HUIIC
Ph.D candidate in the Division of Electronics & Information
Engineering, Hokkaido University
mailto:r...@cc.hokudai.ac.jp
Tel:+81-11-706-2998
これだと、EUC-KRで書いた日本語メールもヒットしてしまうので、
やってません。
# 極稀に、そういうのが届く。内容はspamじゃなくて、ちゃんとしたやつ。
--
HAT
ただ、これだとMulti-Partは駄目なんですよねぇ…
#.co.jpドメインの人間にハングルで送っても、意味どころか読めるヤツさえ
#少ないのに。ま、うちには何年か前に、白菜は赤いもんだと思ってた通訳で
#きる女性がいたけど。
--
___ わしは、山吹色のかすてーらが大好きでのぅ
[[o o]] ふぉっふぉっふぉ
'J' 森下 お代官様 MaNMOS 英夫@ステラクラフト
PGP Finger = CD EA D5 A8 AD B2 FE 7D 02 74 87 52 7C B7 39 37
At 12 Feb 2004 16:37:38 GMT,
HAT wrote:
> これだと、EUC-KRで書いた日本語メールもヒットしてしまうので、
> やってません。
それって特定の人からじゃないですか ? もし特定の個人からであれば
その人からのメールを先に振り分ければ良いのですが。
あんまり頻繁に知らない重要な人から euc-krのメールは受けとらない
もので…。
というより、もしそうならその人にメーラの設定を直してもらうのが筋であろ
うと思います。
ni...@ics.nara-wu.ac.jp
いや、不特定です。
日本語を勉強してる韓国人学生とかですね。
> というより、もしそうならその人にメーラの設定を直してもらうのが筋であろ
> うと思います。
なんとかやっと日本語が読み書き出来るようになったというレベルでしょうから、
そもそもISO-2022-JP対応メーラかどうかも謎。
--
HAT
とりあえず、代表的なものは以下のようなところでしょう。
正しい和訳 日本語EUC環境 シフトJIS環境
[広告] [韻壱] [ア、ー偰
[成人広告] [失昔韻壱] [シコタホア、ー偰
[案内] [照鎧] [セネウサ]
[情報] [舛左] [チ、コク]
[広告] [瞭猶] [ホニヘア]
最後のはハングルではなく、漢字で「[廣告]」と書いてあります。
シフトJIS環境におけるカタカナ・読点・長音符は、全て「いわゆる半角文字」です。
あと、これらの文字列の一部を「𘚟」の形式で
unicode表示してある場合もあります。
戸田 孝@滋賀県立琵琶湖博物館
to...@lbm.go.jp
人数が多かったとしても韓国人学生からメイルが来るということは
特定の学校の特定のクラスに所属していて課題や質問等を送ってくる
ということでしょうから、
その人たちに教えるメイルアドレスを特定のものにしてTo:で振り分けるのが
よいと思います。
私はqmailの拡張アドレスをほぼそのためだけに使っています。
Yorihito Tanaka
Keio University
Graduate School of Media and Governance
> 人数が多かったとしても韓国人学生からメイルが来るということは
> 特定の学校の特定のクラスに所属していて課題や質問等を送ってくる
> ということでしょうから、
いや、そういう話ではなくて、
http://www02.so-net.ne.jp/~hat/imail/cover.html
こういうページをやってるので、世界中から、
「メールが化けるのですが。」という日本語の質問自体が文字化けした状態で
届くのです。これらを全部復元して読んでます。
# 復元したら、実はspamだったというのが、悲しい。
> その人たちに教えるメイルアドレスを特定のものにしてTo:で振り分けるのが
> よいと思います。
なるほど。
charsetとTo/Ccの両方をみてやるという手法が使えますね。
検討します。
--
HAT
本当だ。grepしてみたら結構ヒットしました。
早速設定します。
> あと、これらの文字列の一部を「𘚟」の形式で
> unicode表示してある場合もあります。
これはコードを調べるのにちょっと時間がかかりそうですが、
とりあえず、
(광
が、良くヒットすることがわかりました。
ありがとうございました。
--
HAT
で、ことのついでにgoogleで「韻壱」というキーワードで
「日本語のページ」を検索してみたんですが、
最初の方はgoogleの「言語誤判定」ばっかりX-<
しばらく行くと、何故か「信長の野望」のページがズラズラ……
どうも「○○の韻」というのが何種類もあって、
各々に「壱弐参……」の番号がついた細目があるようです。
もう少し進んだところで、ようやく韓国語SPAMに関するページが出始めました。
それにしても、
http://www7.ocn.ne.jp/~ri-su/diary/top1.html
の大袈裟な反応には笑いました^_^;
ちなみに、このページに出てくる「物騒な化け文字」ですが、
呪重 =受信
省生獣檎=~しなければ
嘘発 =交換
紗亀人 =速度と
尻喰 =連絡
です。「呪重」は「呪重暗採」(受信拒否)というパターンで頻出します。
韓国政府の指導で、受信拒否手続きの明示が義務付けられているからです。
戸田 孝@滋賀県立琵琶湖博物館
to...@lbm.go.jp