私はニュースを読み書きするのにMT-NewsWatcherを使っており、
記事はテキストファイルで保存しています。関係する記事が
まとめて1ファイルになっています(あまりにもファイルサイズが
大きい場合は分割しています)。
最近、保存している記事が増えたこともあり、せっかくなら
ファイルメーカーProで管理しようかなと思ったのですが、
うまく取り込む方法はあるでしょうか?
記事のヘッダと本文を一つのフィールドに取り込むとともに、
Subject、From、Newsgroups、Date、Message-IDくらいはそれぞれ
別のフィールドに入れられればと思っております。
保存している記事の文字コードはiso-2022-jpで、Subjectがデコード
されていないものもあります。
各記事の先頭は、「From ???@??? Fri Jan 01 00:00:00 1999」
という文字列になっています。
--
阿部圭介(ABE Keisuke)
ko...@mcc.sst.ne.jp (NetNews用)
>記事のヘッダと本文を一つのフィールドに取り込むとともに、
>Subject、From、Newsgroups、Date、Message-IDくらいはそれぞれ
>別のフィールドに入れられればと思っております。
http://www.namazu.org/cgi-bin/namazu.cgi?lang=ja
「フィールド指定の検索」で間に合うかもしれません。
>保存している記事の文字コードはiso-2022-jpで、Subjectがデコード
>されていないものもあります。
>各記事の先頭は、「From ???@??? Fri Jan 01 00:00:00 1999」
>という文字列になっています。
namazuと共に使用するnkfでデコード可能です。
http://www.ie.u-ryukyu.ac.jp/%7Ekono/nkf/
>最近、保存している記事が増えたこともあり、せっかくなら
>ファイルメーカーProで管理しようかなと思ったのですが、
UnixではINN & suck & namazuで検索システムを作ることが多いようです。
http://www.namazu.org/index.html.ja
} ... Mail/News 形式ならば、何も加えることなしに利用出来ますし、...
ただ、INNをMacOSXで動かすのはこれからの課題のようです。
anyone tried CURRENT on OSX 10.2.1?
http://marc.theaimsgroup.com/?l=inn-workers&m=103389671111245&w=2
NAMAZU on Darwin (MAC OS X)
http://www.namazu.org/ml/namazu-users-ja/thrd17.html#01642
NNTPCACHE 3.0.1 (runs under MacOSX too!)
http://www.nntpcache.org/
お手軽に、Leafnode+とnamazuを組合わせて使えれば便利ですが...
http://konosiro.phys.saga-u.ac.jp/~makino/Linux/old_contents/Linux-leafnode.htm
l
--
Shuichi YAMAGAMI, Kyoto, JAPAN
yam...@mbox.kyoto-inet.or.jp
In article <bg2qsj$10h4$1...@news2.wakwak.com>,
yam...@mbox.kyoto-inet.or.jp (Shuichi YAMAGAMI) wrote:
> http://www.namazu.org/cgi-bin/namazu.cgi?lang=ja
> 「フィールド指定の検索」で間に合うかもしれません。
実は、フィールドを分けたいと思ったのは、検索の目的も
ありますが、ファイルメーカーだったらリスト表示も簡単に
できるというもくろみもありました。
> namazuと共に使用するnkfでデコード可能です。
> http://www.ie.u-ryukyu.ac.jp/%7Ekono/nkf/
文字コードの変換に便利そうですが、Mac OS Xのターミナルから
使ったりすることはできるのでしょうか。
AppleScriptから使えれば、文字コード変換問題は解決しそう
です。
あとは、どうファイルメーカーに取り込むか、になります。
> あとは、どうファイルメーカーに取り込むか、になります。
これがややこしそうですね。Unixはテキスト処理は得意ですから、前処
理を工夫すれば可能だとは思いますが。
In article <bg66uo$1teh$1...@news2.wakwak.com>,
yam...@mbox.kyoto-inet.or.jp (Shuichi YAMAGAMI) wrote:
> > 文字コードの変換に便利そうですが、Mac OS Xのターミナルから
> > 使ったりすることはできるのでしょうか。
> http://members.jcom.home.ne.jp/advweb/index_p3_s5.html
> にnkfのインストールの解説がありました。
ああ、ちゃんとそういうページがあるんですね。ご紹介
ありがとうございます。今度試してみます。
> > あとは、どうファイルメーカーに取り込むか、になります。
> これがややこしそうですね。Unixはテキスト処理は得意ですから、前処
> 理を工夫すれば可能だとは思いますが。
Subjectなどヘッダのいくつかの要素を別のフィールドにして、
なおかつヘッダと本文を取り込むというのは難しいかも知れませんね。
On 03.7.30 9:29 PM, in article
koabe-885F6A....@news.fu-berlin.de, "ABE Keisuke"
<ko...@mcc.sst.ne.jp> wrote:
> 阿部です。
>
> Subjectなどヘッダのいくつかの要素を別のフィールドにして、
> なおかつヘッダと本文を取り込むというのは難しいかも知れませんね。
ComputerWorksの鬼頭さんのホームページにある「EUDORAtoFileMakerPro」
というものが参考になるかもしれません。
http://www.computerworks.co.jp/html/dl_free_ef.htm
これ自体はファイルメーカProに関するメーリングリストのメールを
取り込んで表示する専用のフリーウエアですが、有償で解析・改変できる
ノンプロテクト版も配付しているようです。
ご参考まで。
将来、ニュースをメールに変換して取り込みたい場合には、たとえば、
delegateが使えます。
http://www.delegate.org/delegate/Manual.htm#serv_POP
} Example: NNTP server to POP client gateway
} SERVER=pop
} MOUNT="* nntp://nntpserver/*"
} MOUNT="ns2-* nntp://nntpserver1/* apop=password"
} MOUNT="ns3-* nntp://nntpserver2/* pass=password"
Windowsの場合ですが、こんな感じです。
> delegate.exe -P8110 ADMIN="f...@abc.jp" SERVER=pop REMITTABLE=nntp
MOUNT="* nntp://nntpserver/* pass=password" RES_NS=192.168.123.123
メーラー側の設定は(AL-Mail32 on Windowsの場合)、
ユーザ名: fj.sys.mac
パスワード: (pass=passwordで設定した)password
メールアドレス: f...@abc.jp(実は、適当でよい)
POP3サーバ名: 192.168.123.123(自分のマシンのIP番号)
POP3ポート番号: 8110
受信したメールをサーバに残す(残さない設定ではエラーが発生)
のような(購読するNewsgroup名をユーザ名にした)ユーザアカウントを
複数個作り、自動巡回受信します。同様のことはEudoraでも可能だと思
います。nntpのユーザー認証は、
} nntp://user1:pass1@server1/
で対処できるでしょう(未検証)。
postについても(smtp->nntp)工夫すれば可能でしょう(未検証)。
MacOS X用delegateについては、
http://www.eternal.nest.or.jp/~shiro/macosx/life0010.html
http://www.eternal.nest.or.jp/%7Eshiro/macosx.html
Netnews記事の検索システムについて考えてみました。
一応個人用ということで、Netnews記事が数十万個程度の検索システムに
限定し、ポイントを以下の点におきました。
1. 数十万個(400,000~500,000)程度のNetnews記事を対象とする
2. すばやく検索するためインデックスを作成する
3. できるだけ楽に検索システムを作る
3.1 簡単にソフトウェアをインストールしたい
3.2 Netnews記事の初回取込み、以後の取込みも簡単に
3.3 インデックス作成、メンテナンスも簡単に
4. フリーのシステムであればうれしい
5. 多くを望まない
6. 多くのOSに対応しているほうがよい
以上の観点から、一応以下のような結論になりました。
# インターネット接続はADSLを前提としました。
# WindowsでSlrnpullのみ検証。MacOS Xは未検証。
a. Netnews記事の取込みには、Slrnpullを使用
# http://one-of-all.ges.de/doc/packages/slrn/slrnpull/
メリット: - Netnews記事の取込みスピードがかなり速い。
# 約700記事/分
- 設定が簡単
- 次回の取込み(新規記事のみ取込み)時のスピードが非
常に速い(activeファイルを使用するため)。
- Unix(MacOSXを含む)、Windows(MS-DOSプロンプト)対応
設定例(Windowsの場合):
slrnpull.conf
-----
default 50000 10000
fj.sys.mac
fj.sys.mac.os-x
authinfo
-----
your account
password
getnews.bat
-----
slrnpull -d spool -h News.CIS.DFN.DE
: -d SPOOLDIR Spool directory to use.
: -h HOSTNAME Hostname of NNTP server to connect to.
Slrn for MacOS X (SlrnpullはSlrnに含まれています)
http://slrn.sourceforge.net/index.html#sect_getslrn
http://www.kutilek.de/technik/news-macosx
http://www.mynetcologne.de/~nc-schuelfe/slrn/
# SlrnpullもMacOS Xでコンパイルできると思います(未検証)。
b. 検索システムにはnamazuを使用
メリット: - Slrnpullで取り込んだ記事に手を加えず、そのままイン
デックス化可能。
- Unix(MacOSXを含む)、Windows対応
- 拡張性あり(cgi、文書フィルタ等)
問題点: 全文検索システムなので(キーワード数が非常に多い)、イ
ンデックス作成に時間がかかる。
http://search.namazu.org/ml/avocado/msg01948.html
http://www.namazu.org/index.html.ja
400,000件のニュースであれば、2日(50時間)ほどかかる
んじゃないかと思います(PentiumII 400MHz、RAM 256MB)。
その後の追加に関しては速いです。
全文検索システム Namazu
http://www.namazu.org/index.html.ja
NAMAZU on Darwin (MAC OS X)
http://www.namazu.org/ml/namazu-users-ja/thrd17.html#01642
c. スレッド表示には適当なonline Newsreaderを併用
namazuではスレッド表示はできません。
連動はできませんが、適当なonline Newsreaderを併用すれば便利。
Slrnpullは、約700記事/分、つまり約40,000記事/時のスピードでデータを
取り込むので、たとえば、初回取り込み時に10時間かければ、約400,000記
事を取り込めます(次回の取り込みは、通常数分~数十分)。2G~3G程度
のハードディスク空き容量が必要です。
参考までに、publicなNewsServer news.media.kyoto-u.ac.jpのNewsgroup
で多数の記事が含まれているのは、一例をあげれば、
fj.life.in-japan: 約66,000個
fj.soc.politics: 約39,000個
fj.sys.mac: 約5,000個
fj.os.linux: 約4,400個
ちょっと気になったので、再度調べてみたところ、2日(50時間)はかか
らないようです。環境によっても異なるでしょうが、
http://www.namazu.org/ml/namazu-ring/msg00961.html
http://www.namazu.org/ml/namazu-ring/msg00964.html
http://www.yomogi.sakura.ne.jp/~hiro/diary/?200210c&to=200210230#200210230
によれば、単なる予想ですが、400,000件のニュース記事の場合(テキス
トファイル、ファイルサイズが小さい)、工夫すればインデックス作成は
10時間程ですみそうです(PentiumII 400MHz、RAM384MBの場合)。
ただし、Windows9xの場合はトラブルが生じやすいようです。
namazuは、
http://www.namazu.org/events/lc2000s/handout.html#characteristics
} ・複数のインデックスを同時に検索できる
ため、検索可能な最大件数は1個のインデックスに依存しないので、
巨大なインデックスを作る意味はあまりありませんが、
参考までに、最大インデックスサイズ(理論値)は、
http://www.namazu.org/ml/namazu-ring/msg00962.html
によれば、
} ファイル数: 2,048 / 687 * 878,914 = 2,620,110 (約262万)
} 合計サイズ: 2,048 / 687 * 2,167,480,108 = 6,461,425,416 (約 6 Gb)
だそうです。
In <bghjn1$21is$1...@news2.wakwak.com> Shuichi YAMAGAMI wrote:
> Netnews記事の検索システムについて考えてみました。
> 一応個人用ということで、Netnews記事が数十万個程度の検索システムに
> 限定し、ポイントを以下の点におきました。
(以下大幅略)
ええと...
http://groups.google.co.jp/ というのがあって
> 1. 数十万個(400,000~500,000)程度のNetnews記事を対象とする
> 2. すばやく検索するためインデックスを作成する
> 3. できるだけ楽に検索システムを作る
> 3.1 簡単にソフトウェアをインストールしたい
> 3.2 Netnews記事の初回取込み、以後の取込みも簡単に
> 3.3 インデックス作成、メンテナンスも簡単に
> 4. フリーのシステムであればうれしい
> 5. 多くを望まない
> 6. 多くのOSに対応しているほうがよい
というのは満足しているようにも思えますが...
--
ishida-yuusuke #5002(greenmover)
的確なフォローありがとうございます(^^;
Netnewsの検索に関しては、上記のような専用の検索サイトを利用する方
法が資源の有効利用という面からみても、合理的ですね。