DBクロールしたメタデータをサイトの表示に反映させるかどうかを判断する材料として、DBクロールのデータが検索結果に反映されるまのタイムラグを知
りたいと思っています。
Feeds Protocol Developer's Guide(
http://code.google.com/intl/ja/apis/
searchappliance/documentation/50/
feedsguide.html#docs_not_in_search_results) の Time Required to Process
a Feed の項目には、特にタイムラグについては具体的な記述がなく、FAQには、読み込まれたフィードが検索結果に反映されるまでには15分はか
かるように読める表記があるのですが、これが検索結果に反映されるタイムラグの要素の全てなのかが分かりません。
-----------------------------
Documents that are fed into the search appliance can show up in Crawl
Diagnostics up to 15 minutes before they are searchable in the index.
-----------------------------
一方で、GSAの管理画面でDBクロール関連のログをみてみたところ、下記のような状況でした。
クロール対象のデータは18.6万行ありますが、DBクロール自体は30秒ほどで完了し、フィードもすぐに取り込まれているように見えます。
■DBクロールのログ
-----------------------------
Jan 28, 2009 10:47:47 AM com.google.enterprise.database.TableCrawler
<init>
INFO: Current local time: 2009/01/28 10:47:47 JST
Jan 28, 2009 10:47:47 AM com.google.enterprise.database.Table
getConnection
INFO: connecting to database xxxxx on host 192.168.xx.xxxx via port
1521
Jan 28, 2009 10:47:48 AM
com.google.enterprise.database.AbstractTableReader parse
INFO: full crawl
Jan 28, 2009 10:47:48 AM
com.google.enterprise.database.AbstractTableReader parse
INFO: metadata-and-url crawl
186252 rows crawled.
0 rows failed.
Jan 28, 2009 10:48:11 AM com.google.enterprise.database.TableCrawler
crawl
INFO: total time = 23518
-----------------------------
■フィードのログ
-----------------------------
メタ データと URL Wed, 28 Jan 2009 10:48:11 +0900 完了 186252 0
-----------------------------
変更のあったデータが検索結果に反映されるまでの時間を検索を周期的にかけることで実際に計測することも考えたのですが、フィードが処理される順番が分
からないので、サンプルデータが検索結果に反映されたことをもって「DBクロールされたデータが全て検索結果に反映された」と考えてよいのか、判断がつ
かずにおります。(もしもDBクロール時の select 文で受け取ったレコードセットの順番通りに検索結果への反映が行われているのであれば、最後
の1行のデータが反映される時間を計れると思うのですが・・・。)
何かよい方法がありましたら、ご教授いただけると幸いです。