Ошибка сегментирования

38 views
Skip to first unread message

Damian Linson

unread,
Apr 18, 2017, 1:53:31 PM4/18/17
to DataparkSearch Engine
Доброго времени суток. Максим, у меня снова сегмент фаулт. До этого работал индексатор, - хорошо. Были ошибки, но только на фронтенде.
Статистика:
          Database statistics

Status    Expired      Total
   -----------------------------
     0    2846086    2879219 Not indexed yet
   200        570     660321 OK
   204          0          2 No content
   206          0          2 Partial OK
   300          0          1 Multiple Choices
   301          3      56312 Moved Permanently
   302          6     249624 Moved Temporarily
   303          0         90 See Other
   307          0         25 Temporary Redirect
   400          0        637 Bad Request
   401          0        927 Unauthorized
   402          0         12 Payment Required
   403          0       1573 Forbidden
   404          0      16768 Not found
   405          0          1 Method Not Allowed
   408          0          3 Request Timeout
   410          0        384 Gone
   415          0       2169 Unsupported Media Type
   451          0         21 SSI Error(s)
   500        675        675 Internal Server Error
   502          0         26 Bad Gateway
   503       1296       1310 Service Unavailable
   504         13         13 Gateway Timeout
   505          0          4 HTTP Version not supported
   509          0          1 Unknown status
  2200          0       1540 Clones, OK
  2206          0          1 Clones, Patial OK
   -----------------------------
 Total    2848649    3871661

indexer[27219]: {00} Tue 18 20:41:54 [27219] Flushing all buffers...
indexer[27219]: {00} Done


indexer[26955]: {00} URL: https://www.kinopoisk.ru/rss/comment-41237.rss
indexer
[26955]: {00} Realm Allow wild '*://*.*.*/*'
indexer
[26955]: {00} Allow by default
indexer
[26955]: {00} robots.txt support is disallowed for 'www.kinopoisk.ru'
indexer
[26955]: {00} Request.Accept: text/html;q=1.0,application/xhtml+xml;q=1.0,application/xml;q=1.0,text/plain;q=0.9,text/xml;q=1.0,text/tab-separated-values;q=0.8,text/css;q=0.5,image/gif;q=0.5,audio/mpeg;q=0.5,application/pdf;q=0.6,application/vnd.ms-excel;q=0.6,application/msword;q=0.6,application/vnd.openxmlformats-officedocument.wordprocessingml.document;q=0.6,application/vnd.openxmlformats;q=0.6,text/rtf;q=0.6,application/rtf;q=0.6,application/vnd.ms-excel;q=0.6,application/vnd.ope
indexer
[26955]: {00} Request.Accept-Charset: UTF-8;q=1.0,UTF-8;q=0.5,*;q=0.1
indexer
[26955]: {00} Request.Accept-Encoding: gzip,deflate,compress
indexer
[26955]: {00} Request.accept-language: ru,en
indexer
[26955]: {00} Request.Connection: close
indexer
[26955]: {00} Request.from: damian@linson.ru
indexer
[26955]: {00} Request.Host: www.kinopoisk.ru
indexer
[26955]: {00} Request.Referer: https://www.kinopoisk.ru/film/41237/
indexer
[26955]: {00} Request.TE: gzip,deflate,compress,identity;q=0.5,chuncked;q=0.1
indexer
[26955]: {00} Request.User-Agent: Damian Linson Search (www.linson.ru)
indexer
[26955]: {00} connecting 0th addr for 0.0.0.0
indexer
[26955]: {00} Status: 200 OK
indexer
[26955]: {00} Executing XML parser
indexer
[26955]: {00} Guesser bytes: 512, Lang: cs, Charset: windows-1251
indexer
[26955]: {00} Allow method is retained
indexer
[26955]: {00} Preparing words
Ошибка сегментирования

indexer
[5133]: {00} URL: http://www.humans.ru/humans/
indexer
[5133]: {00} Realm Allow wild '*://*.*.*/*'
indexer
[5133]: {00} Allow by default
indexer
[5133]: {00} Resolver 0th checking for 31.192.108.237
indexer
[5133]: {00} robots.txt support is disallowed for 'www.humans.ru'
indexer
[5133]: {00} Request.Accept: text/html;q=1.0,application/xhtml+xml;q=1.0,application/xml;q=1.0,text/plain;q=0.9,text/xml;q=1.0,text/tab-separated-values;q=0.8,text/css;q=0.5,image/gif;q=0.5,audio/mpeg;q=0.5,application/pdf;q=0.6,application/vnd.ms-excel;q=0.6,application/msword;q=0.6,application/vnd.openxmlformats-officedocument.wordprocessingml.document;q=0.6,application/vnd.openxmlformats;q=0.6,text/rtf;q=0.6,application/rtf;q=0.6,application/vnd.ms-excel;q=0.6,application/vnd.ope
indexer
[5133]: {00} Request.Accept-Charset: UTF-8;q=1.0,UTF-8;q=0.5,*;q=0.1
indexer
[5133]: {00} Request.Accept-Encoding: gzip,deflate,compress
indexer
[5133]: {00} Request.accept-language: ru, en
indexer
[5133]: {00} Request.Connection: close
indexer
[5133]: {00} Request.from: damian@linson.ru
indexer
[5133]: {00} Request.Host: www.humans.ru
indexer
[5133]: {00} Request.Referer: http://child-stories.chat.ru/
indexer
[5133]: {00} Request.TE: gzip,deflate,compress,identity;q=0.5,chuncked;q=0.1
indexer
[5133]: {00} Request.User-Agent: Damian Linson Search (www.linson.ru)
indexer
[5133]: {00} connecting 0th addr for 0.0.0.0
indexer
[5133]: {00} Status: 200 OK
indexer
[5133]: {00} Executing HTML parser
indexer
[5133]: {00} Guesser bytes: 512, Lang: ru, Charset: MacCyrillic
indexer
[5133]: {00} Store by default
indexer
[5133]: {00} Allow method is retained
indexer
[5133]: {00} Preparing words
Ошибка сегментирования

По времени, всегда по-разному.. Когда час, когда четыре.. Спасибо за помощь.

Maxim Zakharov

unread,
Apr 23, 2017, 7:11:41 AM4/23/17
to DataparkSearch Engine
Добрый день,

не моглы бы вы сделать, пожплуйста, посметрный дамп, как указано на этой странице: http://www.dataparksearch.org/devel-doc/dpsearch-misc.ru.html#BUGS-CORE

Это поможет идентифицировать место в программе, которое примводит к этой ошибке.

--
You received this message because you are subscribed to the Google Groups "DataparkSearch Engine" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dataparksearch+unsubscribe@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.



--

Николай Негробов

unread,
Apr 25, 2017, 4:17:33 AM4/25/17
to datapar...@googlegroups.com
Удалил файлы. Заново создал базу данных. Запустил индексатор. Есть предположение, что я использовал неправильный архив. Скачал последний из GitHub. Так как ошибка эта уже встречалась. Робот набирает 2млн ссылок, или около того.. И падает. Также убрал некоторые опции. Напишу, если появится снова ошибка.. Максим, спасибо, что помогаете) Не все и не всегда, приходят на помощь.
С уважением,
Николай Негробов
+7 (473) 295-27-03
+7 (951) 560-73-77
dam...@linson.ru

23 апреля 2017 г. 14:11:39 GMT+03:00, Maxim Zakharov <dp.m...@gmail.com> пишет:
You received this message because you are subscribed to a topic in the Google Groups "DataparkSearch Engine" group.
To unsubscribe from this topic, visit https://groups.google.com/d/topic/dataparksearch/kx39GgUCHpQ/unsubscribe.
To unsubscribe from this group and all its topics, send an email to dataparksearc...@googlegroups.com.

dam...@linson.ru

unread,
Apr 26, 2017, 2:07:07 AM4/26/17
to datapar...@googlegroups.com
Ошибка не разрешилась. Возможно, что это отключенные опции в ядре, виноваты.
Посмертный дамп:
 
(gdb) run -W
The program being debugged has been started already.
Start it from the beginning? (y or n) y
Starting program: /usr/local/dpsearch/sbin/indexer -W
[Thread debugging using libthread_db enabled]
Using host libthread_db library "/lib64/libthread_db.so.1".
indexer[17794]: {00} indexer from dpsearch-4.54-2016-12-03-mysql started with '/usr/local/dpsearch/etc/indexer.conf'
..
Program received signal SIGSEGV, Segmentation fault.
0x00007ffff623b198 in aspeller::AffixMgr::suffix_check(aspeller::LookupInfo const&, acommon::ParmString, acommon::CheckInfo&, aspeller::GuessInfo*, int, aspeller::AffEntry*) const () from /usr/lib64/libaspell.so.15
 
(gdb) thread apply all bt
Thread 1 (Thread 0x7ffff7fcb740 (LWP 17794)):
#0  0x00007ffff623b198 in aspeller::AffixMgr::suffix_check(aspeller::LookupInfo const&, acommon::ParmString, acommon::CheckInfo&, aspeller::GuessInfo*, int, aspeller::AffEntry*) const () from /usr/lib64/libaspell.so.15
#1  0x00007ffff623b841 in aspeller::AffixMgr::affix_check(aspeller::LookupInfo const&, acommon::ParmString, acommon::CheckInfo&, aspeller::GuessInfo*) const () from /usr/lib64/libaspell.so.15
#2  0x00007ffff62146a0 in ?? () from /usr/lib64/libaspell.so.15
#3  0x00007ffff6219681 in ?? () from /usr/lib64/libaspell.so.15
#4  0x00007ffff6227a54 in aspeller::SpellerImpl::suggest(acommon::MutableString) () from /usr/lib64/libaspell.so.15
#5  0x00007ffff62520ca in aspell_speller_suggest () from /usr/lib64/libaspell.so.15
#6  0x00007ffff7b835be in DpsSpellSuggest (Indexer=0x60aa00 <Main>, Doc=0x82fdb0, uword=0xa83f50, uwlen=<optimized out>,
    crossec=0, speller=0xac3b20, suggest=0x7ffffffcd8e0, spelling=0x7ffffffcd5e0, Item=<optimized out>, Item=<optimized out>)
    at parsehtml.c:130
#7  0x00007ffff7b83cea in DpsProcessFantoms (Indexer=Indexer@entry=0x60aa00 <Main>, Doc=Doc@entry=0x82fdb0,
    Item=Item@entry=0xb558e0, min_word_len=min_word_len@entry=1, crossec=crossec@entry=0, have_bukva_forte=<optimized out>,
    uword=0xa83f50, make_prefixes=1, make_suffixes=0, strict=0, have_speller=1, speller=0xac3b20, suggest=0x7ffffffcd8e0)
    at parsehtml.c:301
#8  0x00007ffff7b865ab in DpsPrepareItem (Indexer=Indexer@entry=0x60aa00 <Main>, Doc=Doc@entry=0x82fdb0,
    Item=Item@entry=0xb558e0, ustr=ustr@entry=0x9e1f190, UStr=UStr@entry=0x9e0d3e0,
    content_lang=content_lang@entry=0x9e18a90 "eo", indexed_size=0x7ffffffcd8a0, indexed_limit=0x7ffffffcd8a8,
    max_word_len=256, min_word_len=1, crossec=0, have_speller=1, speller=0xac3b20, suggest=0x7ffffffcd8e0) at parsehtml.c:419
#9  0x00007ffff7b86d97 in DpsPrepareWords (Indexer=Indexer@entry=0x60aa00 <Main>, Doc=Doc@entry=0x82fdb0) at parsehtml.c:673
#10 0x00007ffff7b2e603 in DpsIndexNextURL (Indexer=Indexer@entry=0x60aa00 <Main>) at indexer.c:2757
#11 0x00000000004061a5 in thread_main (arg=arg@entry=0x60aa00 <Main>) at main.c:965
#12 0x00000000004044fa in DpsIndex (A=0x60aa00 <Main>) at main.c:1341
#13 main (argc=<optimized out>, argv=<optimized out>, envp=<optimized out>) at main.c:1733
 
 
23.04.2017, 14:11, "Maxim Zakharov" <dp.m...@gmail.com>:
To unsubscribe from this group and stop receiving emails from it, send an email to dataparksearc...@googlegroups.com.

For more options, visit https://groups.google.com/d/optout.

 

--

You received this message because you are subscribed to a topic in the Google Groups "DataparkSearch Engine" group.
To unsubscribe from this topic, visit https://groups.google.com/d/topic/dataparksearch/kx39GgUCHpQ/unsubscribe.
To unsubscribe from this group and all its topics, send an email to dataparksearc...@googlegroups.com.

dam...@linson.ru

unread,
Apr 26, 2017, 3:01:34 AM4/26/17
to datapar...@googlegroups.com
С отключенной настройкой AspellExtensions no,
робот индексирует без ошибок.


23.04.2017, 14:11, "Maxim Zakharov" <dp.m...@gmail.com>:
Добрый день,

You received this message because you are subscribed to a topic in the Google Groups "DataparkSearch Engine" group.
To unsubscribe from this topic, visit https://groups.google.com/d/topic/dataparksearch/kx39GgUCHpQ/unsubscribe.
To unsubscribe from this group and all its topics, send an email to dataparksearc...@googlegroups.com.

dam...@linson.ru

unread,
Apr 28, 2017, 5:04:37 PM4/28/17
to datapar...@googlegroups.com
Максим, ещё кое-что.. Падал из-за словарей не только индексатор,
но и фронтенд (linson.ru/s.cgi). Вот лог:
[Fri Apr 28 23:57:29.486221 2017] [cgi:error] [pid 10728:tid 140617942288128] [client 80.82.58.218:52646] End of script output before headers: s.cgi, referer: https://www.linson.ru/
[Fri Apr 28 23:57:32.970161 2017] [cgi:error] [pid 10730:tid 140617967466240] [client 80.82.58.218:52652] End of script output before headers: s.cgi
 
Если что-то нужно будет. Вы пишите. Вышлю на вашу почту.


23.04.2017, 14:11, "Maxim Zakharov" <dp.m...@gmail.com>:
Добрый день,

You received this message because you are subscribed to a topic in the Google Groups "DataparkSearch Engine" group.
To unsubscribe from this topic, visit https://groups.google.com/d/topic/dataparksearch/kx39GgUCHpQ/unsubscribe.
To unsubscribe from this group and all its topics, send an email to dataparksearc...@googlegroups.com.

Maxim Zakharov

unread,
Apr 30, 2017, 6:29:44 PM4/30/17
to DataparkSearch Engine
Добрый день,

Хотя причины этой ошибки пока обнеаружить не удалось, она врят ли связана с какими-либо настрйоками вашей системы.
Эта ошибка наюблюдается давно и вероятнее всего связана с aspell, а не dataparksearch, однако разработчики aspell не приняли её за таковую.

Попробкйте запускать indexer в однопоточной версии (без указания кюча -N), и посмотреть, будут ли повторяться такие подения.

С уважением,
Максим

To unsubscribe from this group and all its topics, send an email to dataparksearch+unsubscribe@googlegroups.com.

For more options, visit https://groups.google.com/d/optout.

--
You received this message because you are subscribed to the Google Groups "DataparkSearch Engine" group.
To unsubscribe from this group and stop receiving emails from it, send an email to dataparksearch+unsubscribe@googlegroups.com.
For more options, visit https://groups.google.com/d/optout.

Николай Негробов

unread,
Apr 30, 2017, 9:00:57 PM4/30/17
to datapar...@googlegroups.com
Хорошо. Попробую.. О результатах расскажу. Спасибо :)

С уважением,
Николай Негробов
+7 (473) 295-27-03
+7 (951) 560-73-77
dam...@linson.ru

1 мая 2017 г. 1:29:42 GMT+03:00, Maxim Zakharov <dp.m...@gmail.com> пишет:
To unsubscribe from this group and all its topics, send an email to dataparksearc...@googlegroups.com.

Damian Linson

unread,
Nov 28, 2017, 9:47:42 PM11/28/17
to DataparkSearch Engine
Доброго времени суток. Максим, сейчас всё хорошо. Сложность с сегментированием разрешилась сама собой (сервера перевёл с Генты на Фрю).

вторник, 18 апреля 2017 г., 20:53:31 UTC+3 пользователь Damian Linson написал:
Reply all
Reply to author
Forward
0 new messages