Отсутствуют некоторые результаты в выдаче поисковика

31 views
Skip to first unread message

itJunky

unread,
Sep 9, 2011, 5:00:50 AM9/9/11
to DataparkSearch
Что-то такое уже обсуждалось, но я забыл и не смог найти на форуме где
это обсуждалось.
Суть такова: после переиндексации при клике по ссылке [Все результаты
с этого сайта (1639 total)] вижу помимо обычных граф с заголовком,
описанием и ссылкой, ещё и такие записи

1. [Баллы: 5,642% Популярность: 0,25338]
- bytes [] - Срд, 10 Авг 2011, 15:52:01 MSD

Как видно запись как бы есть, но ни ссылки, ни описания ничего кроме
статистики по ссылке не наблюдается. Очистка var/cache и indexer -TW
не помогают убрать такие вот дырки.

Maxime

unread,
Sep 9, 2011, 10:50:59 AM9/9/11
to DataparkSearch
Попробуйты выполнить команду "indexer -TZZZ", она произведет проверку
базы cached и исправит "потерянные" документы (они могли потерятся из-
за сбоя в работе splitter). Эта команда выполняется долго. Если
используется cached, то все работу будет выполнять он, а indexer по
этой команде завершится сразу, отослав соответсвующую команду cached.

itJunky

unread,
Sep 15, 2011, 4:40:17 AM9/15/11
to DataparkSearch
On 9 сен, 18:50, Maxime <dp.max...@gmail.com> wrote:
> Попробуйты выполнить команду "indexer -TZZZ", она произведет проверку...
> Эта команда выполняется долго...

Безумно долго выполняется эта команда...

У меня такая система:
Intel(R) Xeon(R) CPU 5160 @ 3.00GHz и HDD Hitachi_HUA722020ALA330(SATA
3Gb/s/7200 rpm/32 Мб cache/) объединённые в софтверный RAID1

find linux # ps aux |grep -E "indexer|PID" |grep -v grep
USER PID %CPU %MEM VSZ RSS TTY STAT START TIME
COMMAND
root 20158 1.3 4.3 229828 178332 pts/2 D Sep13 38:17
dpsearch/sbin/indexer -TZZZ

Тоесть уже 38 часов работает, и судя по логу прошло только до tree/
wrd013C а последний wrd02ff.s... Тоесть по расчётам 4-5 суток на базу
всего из 8-ми сайтов =/ и всего 560 тысяч ссылок.

grep Server dpsearch/etc/sites.txt | wc -l
8

dpsearch/sbin/indexer -S

Database statistics

Status Expired Total
-----------------------------
0 169537 170743 Not indexed yet
200 127891 184439 OK
301 2 2 Moved Permanently
302 28826 53402 Moved Temporarily
403 2 3 Forbidden
404 6430 7860 Not found
415 115 153 Unsupported Media Type
502 22 43 Bad Gateway
503 87614 87617 Service Unavailable
2200 31626 45660 Clones, OK
-----------------------------
Total 452065 549922

itJunky

unread,
Sep 16, 2011, 4:43:47 AM9/16/11
to DataparkSearch
Закончила работу чекалка "indexer -TZZZ", но результата ожидаемого так
и не наступило. Попрежнему довольно часто встречаются такие же пустые
записи в выдаче. =/
И после очистки кэша var/cache/search* так же выдача не изменилась.

Maxime

unread,
Sep 16, 2011, 8:12:49 AM9/16/11
to DataparkSearch
Выполнялась ли команда "indexer -TW" по окончании индексирования и
завершении работы "indexer -TZZZ" ?
Если используется старый режим работы cached (с последующим запуском
splitter), запускался ли run-splitter по окончании работы "indexer -
TZZZ" ? Если нет, его необходимо запустить.

itJunky

unread,
Sep 16, 2011, 9:25:17 AM9/16/11
to DataparkSearch
Да, "indexer -TW" так же выполнялся, но результат выдаётся попрежнему
с "дырками". cached вообще не используется.

Maxim Zakharov

unread,
Sep 16, 2011, 9:44:33 AM9/16/11
to datapar...@googlegroups.com
Если используется dbmode=cache, попробуйте выполнить команду "indexer -Edocinfo"

--
http://www.dataparksearch.org/ - an open source search engine.

itJunky

unread,
Sep 16, 2011, 10:13:18 AM9/16/11
to DataparkSearch
Тоже не помогло =(

Maxim Zakharov

unread,
Sep 16, 2011, 10:28:49 AM9/16/11
to datapar...@googlegroups.com
Какая версия dpsearch используется ?

itJunky

unread,
Sep 19, 2011, 3:25:31 AM9/19/11
to DataparkSearch
indexer from dpsearch-4.54-04072011-mysql

После нескольких циклов штатного индексирования некоторые, а возможно
и все подобные дырки пропали.
30 */6 * * * /www/find.zet/dpsearch/sbin/
indexer -drW -N 4 -c 4000 > /dev/null 2>&1

Зато не пропала другая трабла, которая так же была замечена ранее и
имеет странные симптомы:
Делаю поиск по слову "бонусы", вижу кучу результатов. Вижу много
результатов, например такой:

2. Какие бонусы держателям ресурсов - InterNet :: Форум [Баллы: 1,298%
Популярность: 0,25373]
... Какие бонусы держателям ресурсов ... Добрый день хотел бы узнать
какие бонусы держателям ресурсов. Например буду ... других топиках,
http://forum.site.ru/index.php... - 84972 bytes [text/html] - Чтв, 08
Сен 2011, 10:29:14 MSD [Все результаты с этого сайта (1015 total)]

Тыкаю в линк "Все результаты с этого сайта (1015 total)" и вижу: "Вы
искали бонусы. Результаты поиска: бонусы: 0 / 0" и это при том, что
выдача по этому сайту выглядит нормально! И так почти по всем сайтам
по этому слову. По последнему из сайтов написано что результатов два,
но когда кликаешь по ним виден только один, по всем остальным сайтам
0. Так же занятно, что если искать по слову "бонус", то всё отлично
находится и показывается много результатов с конкретного сайта.

Maxime

unread,
Sep 19, 2011, 10:06:36 AM9/19/11
to DataparkSearch

Используете ли вы кэширование результатов поиска (указана команда
"Cache yes" в search.htm или searchd.conf) ? Если да, очищаете ли вы
кэш результатов поиска в var/cache по окончании очередного
индексирвоания/переиндексирования?

Если используется dbmode cache, создан ли имит по сайту (указана
комианда Limit site:siteid в indexer.conf или cached.conf и выполнена
команда "indexer -TW" по окончании очередного индексирования)?

itJunky

unread,
Sep 20, 2011, 3:37:49 AM9/20/11
to DataparkSearch
On 19 сен, 18:06, Maxime <dp.max...@gmail.com> wrote:
> Используете ли вы кэширование результатов поиска (указана команда
> "Cache yes" в search.htm или searchd.conf) ? Если да, очищаете ли вы
> кэш результатов поиска в var/cache по окончании очередного
> индексирвоания/переиндексирования?
Да, выше я об этом писал.

> Если используется dbmode cache, создан ли имит по сайту (указана
> комианда Limit site:siteid в indexer.conf или cached.conf и выполнена
> команда "indexer -TW" по окончании очередного индексирования)?

Так же всё это установлено и выполняется обработка с -TW

Maxime

unread,
Sep 20, 2011, 8:36:52 AM9/20/11
to DataparkSearch

Добавьте, пожалуйста, команду

LogLevel 5

в search.htm или searchd.conf, если используется searchd, и покажите
вывод в stderr при выполнении этого запроса. (searchd можно запустить
с ключами -fv5, которые не дадут уйти ему в бэкграунд и выставят
максимальный уровень выдачи отладочной информации).

itJunky

unread,
Sep 26, 2011, 5:21:49 AM9/26/11
to DataparkSearch

find dpsearch # sbin/searchd -
fv5
searchd[735]: {00} searchd started with '/www/find.zet/dpsearch/etc/
searchd.conf'
searchd[735]: {00} VarDir: '/www/find.zet/dpsearch/
var'
searchd[735]: {00} MaxClients:
2
searchd[735]: {00} Affixes: 0, Spells: 0, Synonyms: 2872, Acronyms: 0,
Stopwords:
885
searchd[735]: {00} Chinese dictionary with 0
entries
searchd[735]: {00} Korean dictionary with 0
entries
searchd[735]: {00} Thai dictionary with 0
entries
searchd[735]: {00} Query tracker child
started.
searchd[735]: {00} Listening port
7003
searchd[735]: {00}
Ready
searchd[736]: {00} Query Track: starting directory
reading
searchd[736]: {00} Query Track: query[115]: 192.168.200.133??????
131608924902cmd??????!
np0sRPsite-1734755618sp1sy1tmpltsearch.htm
{searchd.c:1539} Query: INSERT INTO qtrack
(ip,qwords,qtime,found,wtime) VALUES ('192.168.200.133','??????',
1316089249,0,2)
SQL-server message: Unsupported SQL database type 401 @
searchd.c:1539

Здесь много раз повторяются подобные строки с разными запросами и в
конце выводится

searchd[736]: {00} Query Track: sleeping 10

^Csearchd[736]: {00} Query Tracker: SIGINT arrived
searchd[735]: {00} SIGINT arrived
searchd[735]: {00} Shutdown
searchd[738]: {300} SIGINT arrived
searchd[739]: {301} SIGINT arrived
searchd[739]: {301} SIGTERM arrived

Maxim Zakharov

unread,
Sep 26, 2011, 10:37:41 AM9/26/11
to datapar...@googlegroups.com
Используете ли вы параметр trackquery в DBAddr, когда используется
DBtype cache:// ?
Если да, вам нужно указать sql-based DBtype в команде TrackDBAddr
(такой, какой стоит в DBAddr в indexer.conf)

2011/9/26 itJunky <alpha...@gmail.com>:

--

Message has been deleted
Message has been deleted

itJunky

unread,
Sep 27, 2011, 2:48:50 AM9/27/11
to DataparkSearch
# grep -R DBAddr /www/find.zet/dpsearch/etc/* |grep -vE "#|-dist"
/www/find.zet/dpsearch/etc/indexer.conf:
DBAddr mysql://xxx:xxx@localhost/find_zet/?dbmode=cache

/www/find.zet/dpsearch/etc/search.htm:
DBAddr searchd://127.0.0.1:7003

/www/find.zet/dpsearch/etc/searchd.conf:
DBAddr cache://xxx:xxx@localhost/find_zet/?dbmode=cache&trackquery


Вот так лучше видно.

itJunky

unread,
Sep 27, 2011, 2:50:51 AM9/27/11
to DataparkSearch
Получается директиву:
TrackDBAddr mysql://xxx:xxx@localhost/find_zet/?dbmode=cache
Нужно вбить в конфиге searchd.conf?

Maxime

unread,
Sep 27, 2011, 4:42:30 AM9/27/11
to DataparkSearch
Да, совершенно правильно.

itJunky

unread,
Sep 27, 2011, 9:55:30 AM9/27/11
to DataparkSearch
Добавил, но не везде пропали такие дырки...
И по прежнему остались пустые выдачи по некоторым словам при нажатии
по ссылке "Все результаты с этого сайта (75 total)"

itJunky

unread,
Oct 4, 2011, 3:51:06 AM10/4/11
to DataparkSearch
Обнаружил причину возникновения таких дырок:

1. [Баллы: 5,642% Популярность: 0,25338]
- bytes [] - Срд, 10 Авг 2011, 15:52:01 MSD

Проблема вылазит когда индексацию случайно запускаешь под другим
юзером и ему в последствии не хватает прав на перезапись файлов в var/

Например я запустил индексер под рутом, он переписал кучу файлов с
новыми правами, а при очередном запуске по крону индексер уже не мог
записать новые данные в свои файлы.

Отсюда вопрос, как можно переиндексировать то что индексилось в
опредлённый период времени? А то ждать пока истечёт время индексации
или переиндексировать все миллионы документов, как-то не комильфо...

Maxim Zakharov

unread,
Oct 5, 2011, 7:36:26 AM10/5/11
to datapar...@googlegroups.com
Ключей, задающих такое переиндексирование, нет.
Однако, если у вас одно, общее, значение для Period, вы можете
используя его и значение url.next_index_time (которое равно времени
индексирования документа + Period) вычислить когда документ был
проиндексирован последний раз и для нужных вам документов обнулить
значение url.next_index_time что вызовет их индексирование при
следующем запуске indexer

2011/10/4 itJunky <alpha...@gmail.com>:


>
> Отсюда вопрос, как можно переиндексировать то что индексилось в
> опредлённый период времени? А то ждать пока истечёт время индексации
> или переиндексировать все миллионы документов, как-то не комильфо...

--

itJunky

unread,
Oct 5, 2011, 7:55:41 AM10/5/11
to DataparkSearch
А время то в этой таблице в каком формает хранится? В юникстайме
чтоли? Получается мне надо вычислить дату последней индексации за
период когда у меня индексер не мог писать в свою диру, а затем
обнулить next_index_time для всех них?

Если так то осталось понять как работает этот странный юникстайм и как
в него переводить нормальное время =)

Maxim Zakharov

unread,
Oct 5, 2011, 4:11:55 PM10/5/11
to datapar...@googlegroups.com
Да, это Unix timestamp, число секунд с первого января 1970 г.
Можно переводить в консоле PgSQL так:

SELECT 1234567890::abstime;

обратно

SELECT '06-10-2011'::abstime::integer;


Вам нужно определить первую и последнюю дату вашего периода и обнулить
все значения в этом интервале.


2011/10/5 itJunky <alpha...@gmail.com>:

--

itJunky

unread,
Oct 6, 2011, 6:33:24 AM10/6/11
to DataparkSearch
Спасибо, сделал, будем ждать обновления.

itJunky

unread,
Oct 10, 2011, 3:54:52 AM10/10/11
to DataparkSearch
Что-то из 100 000 переиндексированных командой "indexer mr -N 15 -n
100000" документов, те самые, что я обнулил попались индексеру только
2000, а осталось ещё целых 7135 =/

Может я неправильные ключики выбрал или у меня прям настолько много
документов проиндексировано?

find izet_scripts # time /www/find.zet/dpsearch/sbin/indexer -S

Database statistics

Status Expired Total
-----------------------------
0 186371 193208 Not indexed yet
200 99572 426196 OK
301 0 2 Moved Permanently
302 1505 348190 Moved Temporarily
403 0 5 Forbidden
404 1166 8992 Not found
415 3 407 Unsupported Media Type
502 68 88 Bad Gateway
503 21321 21321 Service Unavailable
2200 2708 10402 Clones, OK
-----------------------------
Total 312714 1008811

indexer[29063]: {00} Mon 10 11:54:37 [29063] Flushing all buffers...
indexer[29063]: {00} Done

real 0m1.631s
user 0m0.056s
sys 0m0.088s

Maxim Zakharov

unread,
Oct 10, 2011, 4:52:39 AM10/10/11
to datapar...@googlegroups.com
indexer выбирает на индексицию все устаревшие (expired) документы. В
вашем случае это более 312 тыс. документов.
Покольку вши документ теперь имеют next_index_time=0, стоит добавить
ключ -e к вашим ключам indexer, который задает приоритет документам с
меньшим значением next_index_time при прочих равных.

2011/10/10 itJunky <alpha...@gmail.com>:

--

itJunky

unread,
Oct 11, 2011, 5:13:26 AM10/11/11
to DataparkSearch
Посмотрел я сколько у меня документов со статусом next_index_time=0:
# mysql -e "select \`next_index_time\`,\`last_mod_time\` from \`url\`
where next_index_time = 0;" find_zet |grep "0" |wc -l
6908

Затем выполнил /www/find.zet/dpsearch/sbin/indexer -mre -N 15 -n 6908

Но не смотря на это к концу переиндексирования нужных мне документов
было переиндексировано всего около сотни:
# mysql -e "select \`next_index_time\`,\`last_mod_time\` from \`url\`
where next_index_time = 0;" -pnewpass find_zet |grep "0" |wc -l
6825

Там другие в минус ушли чтоли? Или почему так мало попаданий?

On 10 окт, 12:52, Maxim Zakharov <dp.max...@gmail.com> wrote:
> indexer выбирает на индексицию все устаревшие (expired) документы. В
> вашем случае это более 312 тыс. документов.
> Покольку вши документ теперь имеют next_index_time=0, стоит добавить
> ключ -e к вашим ключам indexer, который задает приоритет документам с
> меньшим значением next_index_time при прочих равных.
>

> 2011/10/10 itJunky <alphaqu4...@gmail.com>:

> --http://www.dataparksearch.org/- an open source search engine.

Message has been deleted

Maxim Zakharov

unread,
Oct 11, 2011, 6:58:58 AM10/11/11
to datapar...@googlegroups.com
Простите, упустил необходимость убрать ключ -r, который задает
рандомизацию, когда документы отбираются по значению url.seed, т.е.
заведомо не все ваши документы с нулевым newxt_index_time будут
отобраны, поскольку они все имеют разные значения url.seed

2011/10/11 itJunky <alpha...@gmail.com>:


>
> Затем выполнил /www/find.zet/dpsearch/sbin/indexer -mre -N 15 -n 6908
>

itJunky

unread,
Oct 12, 2011, 3:22:22 AM10/12/11
to DataparkSearch
Убрал ключик рэндомизации, но результат тот же. Урлы выбираются не
начиная с тех у кого нулевой next_index_time, а в каком-то другом
порядке, поскольку уже проиндексировано несколько сотен урлов, а
количество тех, что в базе содержать нулевой next_index_time так и не
изменилось.

On 11 окт, 14:58, Maxim Zakharov <dp.max...@gmail.com> wrote:
> Простите, упустил необходимость убрать ключ -r, который задает
> рандомизацию, когда документы отбираются по значению url.seed, т.е.
> заведомо не все ваши документы с нулевым newxt_index_time будут
> отобраны, поскольку они все имеют разные значения url.seed
>

> 2011/10/11 itJunky <alphaqu4...@gmail.com>:


>
> > Затем выполнил /www/find.zet/dpsearch/sbin/indexer -mre -N 15 -n 6908
>

> --http://www.dataparksearch.org/- an open source search engine.

Maxim Zakharov

unread,
Oct 12, 2011, 5:34:46 PM10/12/11
to datapar...@googlegroups.com
Попробуйте добавить ключи -s200 и -s304, которые задают индексирование
только документов, имеющий эти статусы, т.е. уже проиндексированные
ранее.

2011/10/12 itJunky <alpha...@gmail.com>:

--
http://www.dataparksearch.org/ - an open source search engine.

itJunky

unread,
Oct 18, 2011, 6:45:19 AM10/18/11
to DataparkSearch
Что-то не вычистились дырки даже после этих операций. Но была замечена
странность! Если делать выборку "select \`next_index_time\`,
\`last_mod_time\` from \`url\` where url.last_mod_time BETWEEN
1316116800 AND 1317499200" Тоесть ограничивать по дате последней
индексации в диапазоне от Thu, 15 Sep 2011 20:00:00 GMT до Sat, 01 Oct
2011 20:00:00 GMT, то очевидно, что после переиндексирования
некоторого количества страниц число записей по указанной выше выборке
должно сократиться. В реальности же я наблюдаю очень странную картину,
число таких записей не только не сокращается, а либо сохраняется после
переиндексирования всех этих записей с изменённой датой следующей
индексации на 0, либо, как было замечено сегодня, вообще увеличилось с
213 до 222 !!!
Не понимаю как такое возможно? Единственное объяснение, какая-то
ошибка в работе движка.

Maxim Zakharov

unread,
Oct 18, 2011, 7:35:53 AM10/18/11
to datapar...@googlegroups.com
Поле url.last_mod_time содержит время последней модификации документа,
сообщаемое удаленным сервером в заголовке ответа Last-Modified. Оно не
зависит от времени индексирования и, если удаленный сервер его не
меняет, то и в базе его значение не меняется.
Время последнего индексирования вычисляется вычитанием значения Period
из значения в поле url.next_index_time

2011/10/18 itJunky <alpha...@gmail.com>:

--

itJunky

unread,
Nov 11, 2011, 3:42:22 AM11/11/11
to DataparkSearch
Проблему с пустыми полями выдачи удалось побороть после выставления
нужных прав в каталоге var/ и переиндексации. Но вот эта проблема
осталась:

Опишу подробнее. Делаем поиск по слову "бонус" получаем совершенно
адекватную выдачу, в том числе и по ссылкам "Все результаты с этого
сайта", но стоит набрать слово "бонусы", как получаем такую же
адекватную выдачу: Ищем бонусы. Результаты поиска: бонусы: 46436 /
46436. Всего 1-6 из 6. Поиск занял 0,389 секунд
Но стоит кликнуть по любой из ссылок "Все результаты с этого сайта",
как видим пустую выдачу: Вы искали бонусы. Результаты поиска: бонусы:
0 / 0

Как такое возможно и почему происходит, а главное как пофиксить эту
аномалию?
Уточню, что другие слова с окончанием Ы не показывают такой же
аномалии, вообще пока других слов кроме "бонусы" с подобным глюком,
обнаружено небыло.

Maxim Zakharov

unread,
Nov 14, 2011, 7:29:09 AM11/14/11
to datapar...@googlegroups.com
Покажите, пожалуйста, вывод searchd, запущенного с ключами -fv5 при
поиске "бонус", "бонусы" и поиск "еще с сайта", который возвращает
нулевой результат.

2011/11/11 itJunky <alpha...@gmail.com>:

--

itJunky

unread,
Nov 15, 2011, 2:31:14 AM11/15/11
to DataparkSearch
По слову "бонус":
searchd[16350]: {00} Query Track: starting directory reading
searchd[16350]: {00} Query Track: sleeping 60
searchd[16351]: {300} Connect 127.0.0.1
searchd[16351]: {300} 127.0.0.1 Allow by default
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=3 len=207
searchd[16351]: {300} Received words len=207 words='q=%D0%B1%D0%BE
%D0%BD%D1%83%D1%81&cmd=%D0%98%D1%81%D0%BA%D0%B0%D1%82%D1%8C
%21&BrowserCharset=utf-8&IP=192.168.200.133&g-
lc=ru_RU&ExcerptSize=512&ExcerptPadding=40&DoExcerpt=yes&tmplt=search.htm&sp=1&sy=1&s=RP'
searchd[16351]: {300} Query: бон�� [Charset: utf-8]
searchd[16351]: {300} .spell lang: ru
searchd[16351]: {300} Prepare query: бон��, ltxt:бон��
searchd[16351]: {300} Segment lang:
searchd[16351]: {300} wrd {5}: бон��
searchd[16351]: {300} DpsFind for cache://XXX/?dbmode=cache&trackquery
searchd[16351]: {300} DpsGetWords for cache://XXX/?dbmode=cache&trackquery
searchd[16351]: {300} max_order: 0 max_order_inquery: 0
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0000.dat
OK
searchd[16351]: {300} 23808 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0001.dat
OK
searchd[16351]: {300} 48095 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0002.dat
OK
searchd[16351]: {300} 49200 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0003.dat
OK
searchd[16351]: {300} 42756 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0004.dat
OK
searchd[16351]: {300} 22308 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data000c.dat
OK
searchd[16351]: {300} 424 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data000d.dat
OK
searchd[16351]: {300} 167 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0011.dat
OK
searchd[16351]: {300} 2677 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0013.dat
OK
searchd[16351]: {300} 8 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0014.dat
OK
searchd[16351]: {300} 145 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0015.dat
OK
searchd[16351]: {300} 294 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0016.dat
OK
searchd[16351]: {300} 156 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0017.dat
OK
searchd[16351]: {300} 121 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data001a.dat
OK
searchd[16351]: {300} 405 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data001b.dat
OK
searchd[16351]: {300} 214 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data001d.dat
OK
searchd[16351]: {300} 387 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data001e.dat
OK
searchd[16351]: {300} 14289 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data001f.dat
OK
searchd[16351]: {300} 7927 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0020.dat
OK
searchd[16351]: {300} 601 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0021.dat
OK
searchd[16351]: {300} 3519 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0022.dat
OK
searchd[16351]: {300} 5260 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0023.dat
OK
searchd[16351]: {300} 1246 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0024.dat
OK
searchd[16351]: {300} 10287 records readed
searchd[16351]: {300} Open /www/find.zet/dpsearch/var/url/data0025.dat
OK
searchd[16351]: {300} 30480 records readed
searchd[16351]: {300} Sent total_found packet 27 bytes
buf='Total_found=7 1009'
searchd[16351]: {300} Sent WWL packet 88 bytes cmd=8 len=80 nwords=1
searchd[16351]: {300} Sent PerSite packet 64 bytes cmd=12 len=56
searchd[16351]: {300} Sent URLDATA packet 176 bytes cmd=13 len=168
searchd[16351]: {300} Sent words packet 64 bytes cmd=3 len=56 nwords=7
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=5 len=258
searchd[16351]: {300} Received DOCINFO command len=258 ndocs=7
searchd[16351]: {300} use_showcnt: 0 ratio: 0.000000
searchd[16351]: {300} ResAction in 0.34 sec.
searchd[16351]: {300} Start excerpts for http://dcclub.zet/forum/topic_12/2/
[dbnum:0]
searchd[16351]: {300} [] Retrieve rec_id: fdbb2359
searchd[16351]: {300} [] Retrieved rec_id: fdbb2359 Size: 90825 Ratio:
18.66%
searchd[16351]: {300} Start excerpts for http://forum.interzet.ru/lofiversion/index.php/t14939.html
[dbnum:0]
searchd[16351]: {300} [] Retrieve rec_id: 33699a3c
searchd[16351]: {300} [] Retrieved rec_id: 33699a3c Size: 18953 Ratio:
25.33%
searchd[16351]: {300} Start excerpts for http://active.zet/forum.php?action=showTopic&id=285290
[dbnum:0]
searchd[16351]: {300} [] Retrieve rec_id: a87fe3ca
searchd[16351]: {300} [] Retrieved rec_id: a87fe3ca Size: 29976 Ratio:
24.45%
searchd[16351]: {300} Start excerpts for http://video.zet/forum.php?action=showTopic&id=285290
[dbnum:0]
searchd[16351]: {300} [] Retrieve rec_id: cc4502c5
searchd[16351]: {300} [] Retrieved rec_id: cc4502c5 Size: 41227 Ratio:
24.04%
searchd[16351]: {300} Start excerpts for
http://rutrack.zet/new/film/1027-1c-predpriyatie-82-video-uroki-po-programmirovaniyu-ot-nasipova-farita-2011-webrip.html
[dbnum:0]
searchd[16351]: {300} [] Retrieve rec_id: 9f62241e
searchd[16351]: {300} [] Retrieved rec_id: 9f62241e Size: 83870 Ratio:
21.73%
searchd[16351]: {300} Start excerpts for http://www.interzet.ru/news/id778.html
[dbnum:0]
searchd[16351]: {300} [] Retrieve rec_id: d8169676
searchd[16351]: {300} [] Retrieved rec_id: d8169676 Size: 22308 Ratio:
34.71%
searchd[16351]: {300} Start excerpts for http://soft.zet/index.php?newsid=521
[dbnum:0]
searchd[16351]: {300} [] Retrieve rec_id: 31a0f8cb
searchd[16351]: {300} [] Retrieved rec_id: 31a0f8cb Size: 73138 Ratio:
22.40%
searchd[16351]: {300} Excerpts in 0.36 sec.
searchd[16351]: {300} Sent doc_info packet 4989 bytes
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=14 len=5
searchd[16351]: {300} Sent clone_info packet 19 bytes
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=14 len=7
searchd[16351]: {300} Sent clone_info packet 19 bytes
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=14 len=4
searchd[16351]: {300} Sent clone_info packet 19 bytes
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=14 len=6
searchd[16351]: {300} Sent clone_info packet 19 bytes
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=14 len=5
searchd[16351]: {300} Sent clone_info packet 19 bytes
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=14 len=7
searchd[16351]: {300} Sent clone_info packet 19 bytes
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=14 len=7
searchd[16351]: {300} Sent clone_info packet 19 bytes
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=4 len=0
searchd[16351]: {300} DpsTrackSearchd: qbuf[101]:
192.168.200.133бон��13213453097722cmd��ка��!sRPsp1sy1tmpltsearch.htm
searchd[16351]: {300} Received goodbye command. Work time: 0.722 sec.
searchd[16351]: {300} Quit


По слову "бонусы"

searchd[16352]: {301} Connect 127.0.0.1
searchd[16352]: {301} 127.0.0.1 Allow by default
searchd[16352]: {301} Waiting for command header
searchd[16352]: {301} Received header cmd=3 len=213
searchd[16352]: {301} Received words len=213 words='q=%D0%B1%D0%BE
%D0%BD%D1%83%D1%81%D1%8B&cmd=%D0%98%D1%81%D0%BA%D0%B0%D1%82%D1%8C
%21&BrowserCharset=utf-8&IP=192.168.200.133&g-
lc=ru_RU&ExcerptSize=512&ExcerptPadding=40&DoExcerpt=yes&tmplt=search.htm&sp=1&sy=1&s=RP'
searchd[16352]: {301} Query: бон��� [Charset: utf-8]
searchd[16352]: {301} .spell lang: ru
searchd[16352]: {301} Prepare query: бон���, ltxt:бон���
searchd[16352]: {301} Segment lang:
searchd[16352]: {301} wrd {6}: бон���
searchd[16352]: {301} DpsFind for cache://XXX/?dbmode=cache&trackquery
searchd[16352]: {301} DpsGetWords for cache://XXX/?dbmode=cache&trackquery
searchd[16352]: {301} max_order: 0 max_order_inquery: 0
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0000.dat
OK
searchd[16352]: {301} 23808 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000a.dat
OK
searchd[16352]: {301} 74 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0076.dat
FAIL
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data00e8.dat
FAIL
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data001e.dat
OK
searchd[16352]: {301} 14289 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0000.dat
OK
searchd[16352]: {301} 23808 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0001.dat
OK
searchd[16352]: {301} 48095 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0002.dat
OK
searchd[16352]: {301} 49200 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0003.dat
OK
searchd[16352]: {301} 42756 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0004.dat
OK
searchd[16352]: {301} 22308 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0005.dat
OK
searchd[16352]: {301} 256 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0006.dat
OK
searchd[16352]: {301} 183 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0007.dat
OK
searchd[16352]: {301} 176 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0008.dat
OK
searchd[16352]: {301} 129 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0009.dat
OK
searchd[16352]: {301} 87 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000a.dat
OK
searchd[16352]: {301} 74 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000b.dat
OK
searchd[16352]: {301} 80 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000a.dat
OK
searchd[16352]: {301} 74 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000b.dat
OK
searchd[16352]: {301} 80 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000a.dat
OK
searchd[16352]: {301} 74 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000b.dat
OK
searchd[16352]: {301} 80 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data020b.dat
FAIL
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000b.dat
OK
searchd[16352]: {301} 80 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000c.dat
OK
searchd[16352]: {301} 424 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000d.dat
OK
searchd[16352]: {301} 167 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000e.dat
OK
searchd[16352]: {301} 231 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data000f.dat
OK
searchd[16352]: {301} 249 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0010.dat
OK
searchd[16352]: {301} 272 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0011.dat
OK
searchd[16352]: {301} 2677 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0012.dat
OK
searchd[16352]: {301} 2 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0013.dat
OK
searchd[16352]: {301} 8 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0014.dat
OK
searchd[16352]: {301} 145 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0015.dat
OK
searchd[16352]: {301} 294 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0016.dat
OK
searchd[16352]: {301} 156 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0017.dat
OK
searchd[16352]: {301} 121 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0018.dat
OK
searchd[16352]: {301} 131 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0019.dat
OK
searchd[16352]: {301} 223 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data001a.dat
OK
searchd[16352]: {301} 405 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data001b.dat
OK
searchd[16352]: {301} 214 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data001c.dat
OK
searchd[16352]: {301} 213 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data001d.dat
OK
searchd[16352]: {301} 387 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data001e.dat
OK
searchd[16352]: {301} 14289 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data001f.dat
OK
searchd[16352]: {301} 7927 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0020.dat
OK
searchd[16352]: {301} 601 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0021.dat
OK
searchd[16352]: {301} 3519 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0022.dat
OK
searchd[16352]: {301} 5260 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0023.dat
OK
searchd[16352]: {301} 1246 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0024.dat
OK
searchd[16352]: {301} 10287 records readed
searchd[16352]: {301} Open /www/find.zet/dpsearch/var/url/data0025.dat
OK
searchd[16352]: {301} 30480 records readed
searchd[16352]: {301} Sent total_found packet 27 bytes
buf='Total_found=6 4748'
searchd[16352]: {301} Sent WWL packet 94 bytes cmd=8 len=86 nwords=1
searchd[16352]: {301} Sent PerSite packet 56 bytes cmd=12 len=48
searchd[16352]: {301} Sent URLDATA packet 152 bytes cmd=13 len=144
searchd[16352]: {301} Sent words packet 56 bytes cmd=3 len=48 nwords=6
searchd[16352]: {301} Waiting for command header
searchd[16352]: {301} Received header cmd=5 len=219
searchd[16352]: {301} Received DOCINFO command len=219 ndocs=6
searchd[16352]: {301} use_showcnt: 0 ratio: 0.000000
searchd[16352]: {301} ResAction in 0.18 sec.
searchd[16352]: {301} Start excerpts for http://dcclub.zet/forum/topic_246/1
[dbnum:0]
searchd[16352]: {301} [] Retrieve rec_id: 245e19b7
searchd[16352]: {301} [] Retrieved rec_id: 245e19b7 Size: 73657 Ratio:
20.72%
searchd[16352]: {301} Start excerpts for http://forum.interzet.ru/lofiversion/index.php/t54663.html
[dbnum:0]
searchd[16352]: {301} [] Retrieve rec_id: 9b6fa27c
searchd[16352]: {301} [] Retrieved rec_id: 9b6fa27c Size: 4213 Ratio:
41.04%
searchd[16352]: {301} Start excerpts for
http://rutrack.zet/films/comedy/1645-uzhin-s-pridurkami-dinner-for-schmucks-2010-hdrip.html
[dbnum:0]
searchd[16352]: {301} [] Retrieve rec_id: 439817c5
searchd[16352]: {301} [] Retrieved rec_id: 439817c5 Size: 83405 Ratio:
22.15%
searchd[16352]: {301} Start excerpts for http://active.zet/forum.php?action=showTopic&id=285290
[dbnum:0]
searchd[16352]: {301} [] Retrieve rec_id: a87fe3ca
searchd[16352]: {301} [] Retrieved rec_id: a87fe3ca Size: 29976 Ratio:
24.45%
searchd[16352]: {301} Start excerpts for http://video.zet/video.php?id=15180
[dbnum:0]
searchd[16352]: {301} [] Retrieve rec_id: 4d512364
searchd[16352]: {301} [] Retrieved rec_id: 4d512364 Size: 53749 Ratio:
23.48%
searchd[16352]: {301} Start excerpts for http://www.interzet.ru/news/id1166.html
[dbnum:0]
searchd[16352]: {301} [] Retrieve rec_id: 381ee17b
searchd[16352]: {301} [] Retrieved rec_id: 381ee17b Size: 23337 Ratio:
34.71%
searchd[16352]: {301} Excerpts in 0.17 sec.
searchd[16352]: {301} Sent doc_info packet 4231 bytes
searchd[16352]: {301} Waiting for command header
searchd[16352]: {301} Received header cmd=14 len=5
searchd[16352]: {301} Sent clone_info packet 19 bytes
searchd[16352]: {301} Waiting for command header
searchd[16352]: {301} Received header cmd=14 len=7
searchd[16352]: {301} Sent clone_info packet 19 bytes
searchd[16352]: {301} Waiting for command header
searchd[16352]: {301} Received header cmd=14 len=5
searchd[16352]: {301} Sent clone_info packet 19 bytes
searchd[16352]: {301} Waiting for command header
searchd[16352]: {301} Received header cmd=14 len=4
searchd[16352]: {301} Sent clone_info packet 19 bytes
searchd[16352]: {301} Waiting for command header
searchd[16352]: {301} Received header cmd=14 len=5
searchd[16352]: {301} Sent clone_info packet 19 bytes
searchd[16352]: {301} Waiting for command header
searchd[16352]: {301} Received header cmd=14 len=7
searchd[16352]: {301} Sent clone_info packet 19 bytes
searchd[16352]: {301} Waiting for command header
searchd[16352]: {301} Received header cmd=4 len=0
searchd[16352]: {301} DpsTrackSearchd: qbuf[103]:
192.168.200.133бон���13213454446463cmd��ка��!sRPsp1sy1tmpltsearch.htm
searchd[16352]: {301} Received goodbye command. Work time: 0.463 sec.
searchd[16352]: {301} Quit

Обнаружилось пара фэйлов при откртии файла, на диске этих файлов нет.


При переходе по "всем ссылкам с сайта" и запросе "бонусы"

searchd[16351]: {300} Connect 127.0.0.1
searchd[16351]: {300} 127.0.0.1 Allow by default
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=3 len=233
searchd[16351]: {300} Received words len=233 words='cmd=
%D0%98%D1%81%D0%BA%D0%B0%D1%82%D1%8C!&np=0&q=%D0%B1%D0%BE%D0%BD
%D1%83%D1%81%D1%8B&site=-1734755618&BrowserCharset=utf-8&IP=192.168.200.133&g-
lc=ru_RU&ExcerptSize=512&ExcerptPadding=40&DoExcerpt=yes&tmplt=search.htm&sp=1&sy=1&s=RP'
searchd[16351]: {300} val: -1734755618[-1734755618] 9899bade 0
9899bade 0
searchd[16351]: {300} Query: бон��� [Charset: utf-8]
searchd[16351]: {300} .spell lang: ru
searchd[16351]: {300} Prepare query: бон���, ltxt:бон���
searchd[16351]: {300} Segment lang:
searchd[16351]: {300} wrd {6}: бон���
searchd[16351]: {300} DpsFind for cache://XXX/?dbmode=cache&trackquery
searchd[16351]: {300} DpsGetWords for cache://XXX/?dbmode=cache&trackquery
searchd[16351]: {300} Linear limit for: 9899bade
searchd[16351]: {300} lims.0.size:12559
searchd[16351]: {300} max_order: 0 max_order_inquery: 0
searchd[16351]: {300} Sent total_found packet 24 bytes
buf='Total_found=0 0'
searchd[16351]: {300} Sent WWL packet 94 bytes cmd=8 len=86 nwords=1
searchd[16351]: {300} Sent URLDATA packet 8 bytes cmd=13 len=0
searchd[16351]: {300} Sent words packet 8 bytes cmd=3 len=0 nwords=0
searchd[16351]: {300} Waiting for command header
searchd[16351]: {300} Received header cmd=4 len=0
searchd[16351]: {300} DpsTrackSearchd: qbuf[123]:
192.168.200.133бон���132134550204cmd��ка��!
np0sRPsite-1734755618sp1sy1tmpltsearch.htm
searchd[16351]: {300} Received goodbye command. Work time: 0.004 sec.
searchd[16351]: {300} Quit

itJunky

unread,
Nov 22, 2011, 4:03:43 AM11/22/11
to DataparkSearch
Логи что-то прояснили?

Maxim Zakharov

unread,
Nov 22, 2011, 4:19:08 PM11/22/11
to datapar...@googlegroups.com
К сожалению нет.

Но вы можете попробовать добавить команду
PreloadURLData yes
в ваш searchd.conf чтобы уменьшить число таких обращений к диску при поиске:

>Open /www/find.zet/dpsearch/var/url/data0020.dat

и тем самым ускорить поиск.


2011/11/22 itJunky <alpha...@gmail.com>:
> Логи что-то прояснили?

itJunky

unread,
Nov 24, 2011, 2:03:30 AM11/24/11
to DataparkSearch
Сам поиск пока работает моментально, но есть проблемы со скоростью
переиндексирования и вот такими корявыми выдачами, где нет ни одного
результата, хотя по цифрам совпадений сотни и тысячи...
Reply all
Reply to author
Forward
0 new messages