Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

I Can't Index S-JIS Pages.

1 view
Skip to first unread message

en...@msv.cc.iwate-u.ac.jp

unread,
Oct 17, 1997, 3:00:00 AM10/17/97
to

みなさん、こんにちは。岩手大学の遠藤と申します。

さて、こちらでは、

1)freeWAIS-sf 2.1.2 with 京都大学馬場氏のjp3(Sparc LX, Solaris2.2)
2)SFgate4.0.35(Linux 1.2.13.)

を、http://www.hss.iwate-u.ac.jp/index-j.html
の一番下にある、サーバー内検索に使わせていただいております。
1)のマシンが遅いので、SFgateは別マシンで動かしています。
(これで大分速くなりました。なお、LinuxでもfreeWAIS-sf 2.1.2
 with jp3 を別用途のために動かしています。)

おかげさまでかなり便利なのですが、なぜかS-JISでかかれた日本語
ページがindexingできていません。実は一般ユーザーにはsambaを使
ってもらっているので、どうしてもS-JIS になってしまいます。

みなさんは、S-JIS のファイルをうまくIndexingできておられますか?
SFgate4.0.35を使っているので、古いパッチをそのまま使っているのが
いけないのでしょうか?

#SFgate5は、以前wais-japanese(富士通さんで公開されている古い
 もの)で使って見たのですが、大して速くない割にはインストール
 が面倒なので避けています。wais.pm のインストールが面倒だと感
じました

--
岩手大学 人文社会科学部 遠藤 教昭


Shigeru Ishida

unread,
Oct 18, 1997, 3:00:00 AM10/18/97
to

石田@インテック・システム研究所です。

In article <EI6B7...@msv.cc.iwate-u.ac.jp> en...@msv.cc.iwate-u.ac.jp (en...@msv.cc) writes:
> Date: Fri, 17 Oct 1997 02:06:48 GMT

# 馬場さんの作成された日本語化パッチの話しではないのですが...

元コンテンツの日本語文字コードが JIS, SJIS の場合でも内部で EUC に
自動変換してインデックスする日本語化パッチキットとして、大学で開発
された日本語形態素解析システムを用いて作成したものが以下にあります。
この中には、SFgate-4.0.35 の日本語対応パッチも含まれています。


o ChaSen 1.5 対応

ftp://paprika.noc.intec.co.jp/pub/ishida/freeware/freeWAIS-sf/jp.tar.gz

<< ChaSen 1.5 (1997.7.8) 開発元 >>

- 奈良先端科学技術大学院大学 情報科学研究科 松本研究室 自然言語処理学講座


o JUMAN 3.2 対応

ftp://paprika.noc.intec.co.jp/pub/ishida/freeware/freeWAIS-sf/juman/jp.tar.gz

<< JUMAN 3.2 (1997.5.22) 開発元 >>

- 京都大学工学部 電気系 長尾研究室
- 奈良先端科学技術大学院大学 情報科学研究科 松本研究室 自然言語処理学講座


また、freeWAIS-sf 2.1.2 の実験的な拡張として、Z39.50 のプロトコル
バージョンを、V2 (1992), V3 (1995) に対応させた ZWAIS (zwaisserver)
なるものを開発しています。この zwaisserver と apache-1.2.4 のサーバサイド
(SFgate のような CGI 形態ではありません)で連携するコードのサンプルも
公開しています。

ftp://paprika.noc.intec.co.jp/pub/ishida/freeware/zwais/zwais-0.102.tar.gz
ftp://paprika.noc.intec.co.jp/pub/ishida/freeware/zwais/misc/apache_module.tar.gz

この連携形態では、SFgate と比較してマシンリソースの消費は少ないですし、
処理時間はかなり短縮されます。

- zwaisserver (on Sun IPX)
- apache-1.2.4 (on SS20)

個人的に幾つかの技術ドキュメントを URL 対応でインデックスして、
上記の連携で使用しています。zwaisserver には Sun IPX と古いマシンを
使用していますが、全体のレスポンスにストレスは特に感じていません。

--
ish...@isl.intec.co.jp

en...@msv.cc.iwate-u.ac.jp

unread,
Oct 21, 1997, 3:00:00 AM10/21/97
to

In article <EI6B7...@msv.cc.iwate-u.ac.jp>, en...@msv.cc.iwate-u.ac.jp says...

>おかげさまでかなり便利なのですが、なぜかS-JISでかかれた日本語
>ページがindexingできていません。実は一般ユーザーにはsambaを使
>ってもらっているので、どうしてもS-JIS になってしまいます。
>
>みなさんは、S-JIS のファイルをうまくIndexingできておられますか?

自己フォローです。

実は、nkf-1.4という古いのを使用していたので、最新のnkf-1.6
にしてみたら、S-JISもちゃんとインデックスできました。

私の不注意のためにお騒がせしまして、たいへん失礼いたしました。

また、石田さん、有益なリプライをどうもありがとうございました。
ぜひトライさせていただきたいと思います。


岩手大学 人文社会科学部 遠藤 教昭

0 new messages