Отсутствуют некоторые результаты в выдаче поисковика 2

20 views
Skip to first unread message

itJunky

unread,
Feb 28, 2012, 3:56:08 AM2/28/12
to DataparkSearch
Заметил странность в поведении "indexer -TZZZ".
По логике он должен за один проход найти и удалить все потерянные
записи("дырки" в выдаче), а при повторном запуске выводить везде нули.
На практике же мы видим совершенно обратную ситуацию:

Первым делом выключаю задание в кроне по переиндексации. Таким образом
новых данных в базе поисковика появляться теперь не должно, а
следовательно и новых ошибок тоже.

Затем запускаю "indexer -TZZZ" и вижу строки
indexer[18534]: {00} tree/wrd0187, total 3178892 lost records found
indexer[18534]: {00} Cached database checkup finished.
indexer[18534]: {00} Base url/info store 020, 16850 lost records
deleted
Тоесть сначала он находит ошибки в деревьях, затем начинает удалять
лишние записи по URLам.
Пока всё хорошо, но вот когда я запускаю "indexer -TZZZ" снова, то
почему-то вижу что он опять нашёл ошибки в деревьях и снова что-то
удаляет в URLах. Затем после завершения я в третий раз запускаю
"indexer -TZZZ" и что я вижу? Да да, он снова что-то находит и что-то
там себе фиксит и так видимо до бесконечности, сколько бы раз я не
запускал, он всегда будет что-то находить, хотя новых данных в базе не
появляется, а старые ошибки эта штука удалила в прошлый проход...
АНОМАЛИЯ какая-то...

Кроме того, никак не могу понять причины появления этих самых "дарок"
в выдаче. Ведь уже несколько месяцев у меня сугубо по крону
запускается индексатор и всегда от одного и того же пользователя и
конфликтов у разных индексеров тоже быть не может потому что
используется соответствующий ключик -b
find alp # crontab -u dpsearch -l
10 */2 * * * /www/find.zet/dpsearch/sbin/indexer -be -UN 4 -n
100000
Так в чём же причина их появления в "сырости" движка или в каких-то
моих не корректных действиях, которые я постарался максимально
исключить.


ЗЫ Почему-то при отправке сообщения в одноимённую ветку гуглогрупп
сообщения просто пропадают и даже не выводится никакой ошибки о том,
что я не смог запостить новое сообщение в той теме.

On 9 сен 2011, 18:50, Maxime <dp.max...@gmail.com> wrote:
> Попробуйты выполнить команду "indexer -TZZZ", она произведет проверку
> базы cached и исправит "потерянные" документы (они могли потерятся из-
> за сбоя в работе splitter). Эта команда выполняется долго. Если
> используется cached, то все работу будет выполнять он, а indexer по
> этой команде завершится сразу, отослав соответсвующую команду cached.

Reply all
Reply to author
Forward
0 new messages