DBクロールから検索結果への反映までのタイムラグ

62 views
Skip to first unread message

marutak

unread,
Jan 29, 2009, 9:37:05 PM1/29/09
to 検索アプライアンスと Google Mini
DBクロールしたメタデータをサイトの表示に反映させるかどうかを判断する材料として、DBクロールのデータが検索結果に反映されるまのタイムラグを知
りたいと思っています。

Feeds Protocol Developer's Guide(http://code.google.com/intl/ja/apis/
searchappliance/documentation/50/
feedsguide.html#docs_not_in_search_results) の Time Required to Process
a Feed の項目には、特にタイムラグについては具体的な記述がなく、FAQには、読み込まれたフィードが検索結果に反映されるまでには15分はか
かるように読める表記があるのですが、これが検索結果に反映されるタイムラグの要素の全てなのかが分かりません。

-----------------------------
Documents that are fed into the search appliance can show up in Crawl
Diagnostics up to 15 minutes before they are searchable in the index.
-----------------------------

一方で、GSAの管理画面でDBクロール関連のログをみてみたところ、下記のような状況でした。

クロール対象のデータは18.6万行ありますが、DBクロール自体は30秒ほどで完了し、フィードもすぐに取り込まれているように見えます。

■DBクロールのログ
-----------------------------
Jan 28, 2009 10:47:47 AM com.google.enterprise.database.TableCrawler
<init>
INFO: Current local time: 2009/01/28 10:47:47 JST
Jan 28, 2009 10:47:47 AM com.google.enterprise.database.Table
getConnection
INFO: connecting to database xxxxx on host 192.168.xx.xxxx via port
1521
Jan 28, 2009 10:47:48 AM
com.google.enterprise.database.AbstractTableReader parse
INFO: full crawl
Jan 28, 2009 10:47:48 AM
com.google.enterprise.database.AbstractTableReader parse
INFO: metadata-and-url crawl
186252 rows crawled.
0 rows failed.
Jan 28, 2009 10:48:11 AM com.google.enterprise.database.TableCrawler
crawl
INFO: total time = 23518
-----------------------------

■フィードのログ
-----------------------------
メタ データと URL Wed, 28 Jan 2009 10:48:11 +0900 完了 186252 0
-----------------------------

変更のあったデータが検索結果に反映されるまでの時間を検索を周期的にかけることで実際に計測することも考えたのですが、フィードが処理される順番が分
からないので、サンプルデータが検索結果に反映されたことをもって「DBクロールされたデータが全て検索結果に反映された」と考えてよいのか、判断がつ
かずにおります。(もしもDBクロール時の select 文で受け取ったレコードセットの順番通りに検索結果への反映が行われているのであれば、最後
の1行のデータが反映される時間を計れると思うのですが・・・。)

何かよい方法がありましたら、ご教授いただけると幸いです。




Andy Wu

unread,
Jan 31, 2009, 9:40:06 PM1/31/09
to 検索アプライアンスと Google Mini
これは基本的に実際のフィードタイプに依存します。

metadata-and-url の場合は、metadata の部分はフィードログに書かれた終了時間通りにインデックス化終了、その後、URL
の部分のクロールはスタートします。(要するに、メタデータは瞬時にインデックス化に対して、URL は別途クロールされます。)

full feed の場合は分かりやすい。インデックス化終了時間はフィードログに書かれた終了時間通りです。パフォーマンスは早いですから、クロー
ル診断はすぐ反映されませんが、すでに検索可能だと思います。

ちなみに、インデックス化されたどうかについては、文書のキャッシュを確認すれば分かります。Admin Toolkit の中には、Cache
Copy Checker というスクリプットがありますので、少し修正を加えれば、DB フィードの完了時間を計測することができるかと思います。

Admin Toolkit
http://code.google.com/p/gsa-admin-toolkit/

以上、よろしくお願いします。

アンディ

marutak

unread,
Feb 4, 2009, 10:55:11 AM2/4/09
to 検索アプライアンスと Google Mini
回答ありがとうございます。

URLは先にクロール済みなので、メタデータは瞬時に検索可能になるんですね。早い!

> ちなみに、インデックス化されたどうかについては、文書のキャッシュを確認すれば分かります。

情報ありがとうございます。世間一般のGoogleだと全ての検索結果にキャッシュがある
わけではなく、またキャッシュの内容も最新クロール時のものとは限らないというイメージが
あるためか、GSAにおいてもインデックスとキャッシュは全く関連しているという意識が
ありませんでした・・・。

#GSAにおけるキャッシュの説明ってマニュアルで見た記憶がないのですが、もしも
どこかにあるようでしたら教えていただけると幸いです。

Andy Wu

unread,
Feb 5, 2009, 10:57:44 PM2/5/09
to 検索アプライアンスと Google Mini
キャッシュに関する説明マニュアルみたいな資料は特にないと思いますが、裏技みたいな情報なら二つのリンクがあります。

キャッシュを隠し・非表示にする方法 (noarchive)
http://code.google.com/apis/searchappliance/documentation/52/admin_crawl/Preparing.html#page

クエリでキャッシュを見る方法 (cache:<URL>)
http://code.google.com/apis/searchappliance/documentation/52/xml_reference.html#request_query_terms

少しでもお役に立てばと思います。

marutak

unread,
Feb 11, 2009, 5:02:56 AM2/11/09
to 検索アプライアンスと Google Mini
情報どうもありがとうございます。
参考になりました。
Reply all
Reply to author
Forward
0 new messages