Google Groups no longer supports new Usenet posts or subscriptions. Historical content remains viewable.
Dismiss

mdc japan progress

0 views
Skip to first unread message

Atsushi Shimono

unread,
May 5, 2010, 12:02:30 PM5/5/10
to mdc ja discussion
-----BEGIN PGP SIGNED MESSAGE-----
Hash: SHA512

 shimonoです

 連休、ということもあって、ちょっと時間が取れたので、x時間(x>1)くらい気合入れて
スクリプトの問題を調査してみました。

 データ収集スクリプトはcrontabで一定間隔で実行され、処理の流れは以下のような感じ
です。
・RSSを取得して更新されたページリストを生成 (ページID、更新ID)
・更新IDに対するデータを取得
・ページIDに対して一般的なデータを取得、言語間・言語内リンク先をたどる
・未知のページIDに対して上記のルーチンを繰り返す
・最終的にリストされたページについてすべて情報更新済みのフラグが立てば終了

 問題点は、リストの情報更新済みフラグが一部たたなくて、数日に1回(50回に一度位?)
無限に同じページを取得し続ける、というものでした。(killしてたw)
 で、デバッグ出力から調べると、ページのリストの情報のうちページ名でのインデックス
はurlencodeされたページ名のリストになっているはずだったのが、一部のルーチンでデコ
ードされたページ名に対して情報取得済みのフラグを立てていました。


 ということで、懸案がたぶん解決したので、

jpmoz.netにsvnレポジトリを移動 (done; これまでも一応公開はしていた)
・DBデータのjpmoz.netへの移動
cron1.jpmoz.netでデータ収集スクリプトを動かすようにする
・InterLangList.plベースのウェブサービスを公開する
・その他の機能の実装

あたりを進めていこうと思ってます。


 すでにサンプルはどこかで出した気はしますが、、以下のような出力が出ます。

% ./InterLangList.pl 1560
de1 es1 cn1 pl1 pt1 ko1 ja1 cs1 fr1 it1 en1
de1 - o o o o o o x o o o
es1 o - o o o o o x o o o
cn1 o o - o o o o x o o o
pl1 o o o - o o o x o o o
pt1 o o x o - x o x o x o
ko1 o o x o o - o x o o o
ja1 o o o o o o - x o o o
cs1 o o x o o x o - o x o
fr1 o o o o o o o x - o o
it1 o o o o o x o x o - o
en1 o o o o o o o x o o -

ja1: ja/Gecko (1560)
en1: en/Gecko (1651)
zh-cn1: cn/Gecko (1669)
ko1: ko/Gecko (1332)
pt1: pt/Gecko (1721)
de1: de/Gecko (1455)
fr1: fr/Gecko (1575)
pl1: pl/Gecko (1642)
es1: es/Gecko (1448)
it1: it/Gecko (1503)
cs1: cs/Gecko (1467)

 では
- --
Atsushi Shimono - shi...@bug-ja.org
Mozilla Evangelist
Bugzilla Localization WG member; Bugzilla Users Group in Japan
skype:shimono_univ; http://blog.himor.in/; http://facebook.com/himorin
-----BEGIN PGP SIGNATURE-----
Version: GnuPG v1.4.10 (MingW32)

iQIcBAEBCgAGBQJL4ZaVAAoJEHI5evwJBSZdqV8P/2JA7HakpNJFF6vSJ4It9UQ4
mONE++0Kf5tPuozp8HnFf/k+wYmu9lWRAKcd1U6oanTYwJoL93qKmEXWJghGkuuD
T1Oy4cjyu/UuSvtehBlfyJvozdtWRm055YkyzSblxUT3uaPj4P6cJHIXGkXWvoU4
NNW9ksiFftHN7rb5uxK1Lw6CtCG/ZJ3/elBQ8U8HPYNo/TIswET0Kt2rim4BmPzh
gfMCkOgRpt9Dy9g4YfjNW1/IbEA/XA4P/ix9OCK+E3u/NaPP7hbCQxJ8o4KzeklD
TZ3pEGGjX0E/3iZgbvcep3WIoO/lG2jUkqrCX61Vx7tnzKEb3Fwi/vdKOfBc7VXd
A5EPuL9oKywtyGxNAVC7lEvuidV0zuHA3e1JlwxGFBdCZKxnbUauKJn069x+c1+M
yOTQkgw8ic7xrL0rNRJxTnH/rx0hefL3nzkeOcMB39ShCyPa75C4SyV85O2RKuks
nA/P4HvqNrQ749mJSCavDBHavU0OpreGtqtVrpTp+7ZIWn4YO2aNDE2cuX3Mn7tG
d3TTlsKuonXO16HsX3nnmn1NWfs9yE0uh4q19iOyShNyd6EAVVS52i1xxgBa29q8
Tx6n9g1z8Rj1nGcTuuq74dmVe80q2xuZId8tHJ+kj75ntL+uOgqTbcj5dBbb6E7F
CMu2WyNegpGzj3F5I8D+
=LRqL
-----END PGP SIGNATURE-----

0 new messages