индексирование больших обьемов

30 views
Skip to first unread message

Alex Smelkov

unread,
Feb 20, 2018, 6:49:30 AM2/20/18
to DataparkSearch Engine
Здравствуйте Максим.
Подскажите, существует необходимость индексирования больших объемов данных с сайтов досок объявлений, avito, drom, avto.ru и т.д.,
учитывает ли dpsearch XML файлы SItemap при индексировании, так-как с такими объемами легче работать через сайтмап а не сканировать весь сайт целиком для выявления новых объявлений.
И какая SQL база будет быстрее работать с большими объемами базы, или же настройка cashe лучше?
Как бы вы реализовали это..... 

Maxim Zakharov

unread,
Feb 26, 2018, 1:46:28 AM2/26/18
to DataparkSearch Engine
Добрый день Алекс,
Файлы sitemaps поддерживаются в аоследнем снапшоте, см.
http://www.dataparksearch.org/devel-doc/dpsearch-follow.ru.html#SITEMAPS_CMD
Эта поддержка включена по умолчанию.

Cache mode - самый быстрый режим поиска, однако для его работы тоже нужна SQL БД. Какую выбрать, mysql или pgsql зависит от того, какую вы сможете лучше настроить на большую производительность. 

--
You received this message because you are subscribed to the Google Groups "DataparkSearch Engine" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dataparksearc...@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.



Alex Smelkov

unread,
Feb 27, 2018, 2:31:41 PM2/27/18
to DataparkSearch Engine
Спасибо, а подскажите как можно индексировать не весь сайт а только последние например за месяц страницы, ну и удалять их потом из базы.

вторник, 20 февраля 2018 г., 14:49:30 UTC+3 пользователь Alex Smelkov написал:

Maxim Zakharov

unread,
Mar 2, 2018, 11:20:35 PM3/2/18
to DataparkSearch Engine

Ограничивать возраст страниц в индексе
 можно при помощи команды DeleteOlder: http://www.dataparksearch.org/devel-doc/dpsearch-indexcmd.ru.html#DELETEOLDER_CMD

Однако учитывайте, что время для веб-страниц практически никто правильно выставлять не озабачивается.

--
You received this message because you are subscribed to the Google Groups "DataparkSearch Engine" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dataparksearch+unsubscribe@googlegroups.com.

For more options, visit https://groups.google.com/d/optout.
Reply all
Reply to author
Forward
0 new messages