Удивительная история про то, как быстрый запрос стал медленным

Stepan Semiokhin

unread,

Oct 23, 2016, 7:17:04 PM10/23/16

to ClickHouse

Добрый день!

Произошла тут странная вещь при тестировании Кликхауса.

Начальные условия:

-кластер из 10 мощных машин;

-распределенная таблица на 560 млн. записей;

-довольно сложный запрос.

Изначально, запрос этот выполнялся за 8 секунд. Потом мы нагрузили Кликхаус этим запросом, чтобы посмотреть на реакцию.

Я сразу отметил непонятный момент - хотя в очереди на выполнение было 43 запроса, top говорил, что кликхаус использует только 800% CPU (вместо 3150% при 8-секундном запросе).

После рассасывания очереди запрос начал выполняться по 40 секунд с таким же "неполным" использованием CPU.

За пару дней запрос ускорился, сначала выполнялся 30 секунд, потом 20, сейчас вот 18.

Данные не менялись, ничего на машинах не менялось, ничего в настройках кликхауса не менялось.

Покопавшись в логах (прикладываю небольшой кусок логов быстрого запроса и кусок логов медленного) я выявил следующие отличия:

1) В старом быстром логе трейс аггрегатора включает в себя конвертацию даннах до второго уровня, т.е. имеет следующий вид:

...

2016.10.18 16:17:32.699 [ 593 ] <Trace> Aggregator: Aggregation method: concat

2016.10.18 16:17:32.706 [ 593 ] <Trace> Aggregator: Converting aggregation data to two-level.

2016.10.18 16:17:32.721 [ 594 ] <Trace> Aggregator: Aggregation method: concat

2016.10.18 16:17:32.722 [ 595 ] <Trace> Aggregator: Aggregation method: concat

2016.10.18 16:17:32.726 [ 594 ] <Trace> Aggregator: Converting aggregation data to two-level.

2016.10.18 16:17:32.728 [ 596 ] <Trace> Aggregator: Aggregation method: concat

...

В то время как в новом запросе никакой конвертации нет

2) Основное торможение происходит на этапе с трейсами:

...

2016.10.18 16:17:39.232 [ 581 ] <Trace> ParallelAggregatingBlockInputStream: Aggregated. 1457082 to 199 rows (from 119.272 MiB) in 6.832 sec. (213276.275 rows/sec., 17.458 MiB/sec.)

2016.10.18 16:17:39.232 [ 581 ] <Trace> ParallelAggregatingBlockInputStream: Aggregated. 1380278 to 189 rows (from 112.282 MiB) in 6.832 sec. (202034.306 rows/sec., 16.435 MiB/sec.)

....

В новом медленном запросе время в 3 раза больше

3) Разное количество блоков данных, в быстром запросе блоков больше

4) В логах быстрого запроса Query pipeline почему-то пустой, в то время как в новом медленном запросе он красиво нарисован. Мелочь, но мало ли...

Что могло случится? Выполнилась какая-то оптимизации или что?

И "как вернуть, как было"? :)

Message has been deleted

Stepan Semiokhin

unread,

Oct 23, 2016, 7:31:38 PM10/23/16

to ClickHouse

Вот логи

fast_query.log

slow_query.log

Stepan Semiokhin

unread,

Oct 23, 2016, 7:50:17 PM10/23/16

to ClickHouse

Проблему решил рестарт всех хостов, но это странное поведение, так что последний вопрос не актуален, но остальные 2 в силе.

Могу приложить лог c моментом нагрузки, после которого произошла деградация, но там ничего интересного, разве что ошибки:

....

<Error> executeQuery: Code: 210, e.displayText() = DB::NetException: Connection reset by peer while writing to socket ([::ffff:10.233.10.42]:50496), e.what() = DB::NetException

....

с пустым стектрейсом

man...@gmail.com

unread,

Oct 25, 2016, 6:59:07 PM10/25/16

to ClickHouse

Тут довольно много деталей, легко запутаться.
Давайте сначала проверим, как влияет на выполнение запроса настройка group_by_two_level_threshold.
Попробуйте выполнить запрос с group_by_two_level_threshold = 0 и group_by_two_level_threshold = 1.

Результаты не дадут ответа на вопрос, но кое что прояснят.

man...@gmail.com

unread,

Oct 25, 2016, 7:29:37 PM10/25/16

to ClickHouse

Ещё хочу, чтобы вы попробовали поэкспериментировать с параметром max_block_size. Например, выставить его в значение 8192 вместо 65536 по-умолчанию.

Для запроса, который возвращает сотни строк после агрегации, потребление оперативки в ~2GB - это много, и наводит на подозрения, что запрос обрабатывает длинные строковые значения.

Для отладки, попробуйте ещё сделать такой же запрос, но убрав оттуда всё лишнее. Всякий мусор типа if(toInt32(-1) = 0, 0, 1) на производительность не влияет, но без него исследовать будет проще.

Stepan Semiokhin

unread,

Oct 26, 2016, 10:46:27 AM10/26/16

to ClickHouse

Попробовал поизменять max_block_size, 8192 действительно ускорило запрос, спасибо.

Параметр group_by_two_level_threshold на скорость не влияет никак.

Поведение при нагрузке воспроизводится, то есть: каждый раз, когда я сильно нагружаю базу с этим запросом, начинает валится ошибка с кодом 159, а после остановки "подачи нагрузки" и рассасывания всех запросов (по факту, я так понимаю, они все просто падают), каждый запрос начинает выполняться долго. Единственный спососб снова заставить его работать быстро - рестарт кликхауса на всех нодах.

Вот, что пишется в логи, когда начинают валиться запросы:

В clickhouse.log:

......

2016.10.26 16:56:01.074 [ 634 ] <Error> executeQuery: Code: 159, e.displayText() = DB::Exception: Timeout exceeded: elapsed 48.864352586 seconds, maximum: 40, e.what() = DB::Exception (from ::ffff:10.255.4.121) (in query: select ... limit 1000 FORMAT TabSeparatedWithNamesAndTypes), Stack trace:

0. clickhouse-server(StackTrace::StackTrace()+0x16) [0xfea856]

1. clickhouse-server(DB::Exception::Exception(std::string const&, int)+0x1f) [0xfadbbf]

2. clickhouse-server(DB::IProfilingBlockInputStream::checkLimits()+0x54a) [0x11e709a]

3. clickhouse-server(DB::IProfilingBlockInputStream::read()+0x1d6) [0x11e8456]

4. clickhouse-server(DB::ParallelInputsProcessor<DB::UnionBlockInputStream<(DB::StreamUnionMode)0>::Handler, (DB::StreamUnionMode)0>::loop(unsigned long)+0x10b) [0x133219b]

5. clickhouse-server(DB::ParallelInputsProcessor<DB::UnionBlockInputStream<(DB::StreamUnionMode)0>::Handler, (DB::StreamUnionMode)0>::thread(MemoryTracker*, unsigned long)+0x56) [0x1332a66]

6. clickhouse-server(execute_native_thread_routine+0x20) [0x32ecd00]

7. /lib/x86_64-linux-gnu/libpthread.so.0(+0x8184) [0x7f8973217184]

8. /lib/x86_64-linux-gnu/libc.so.6(clone+0x6d) [0x7f897283237d]

2016.10.26 16:56:01.074 [ 634 ] <Trace> UnionBlockInputStream: Waiting for threads to finish

2016.10.26 16:56:01.202 [ 1402 ] <Trace> RemoteBlockInputStream: (control002:9000, 10.233.10.43) Cancelling query

2016.10.26 16:56:01.497 [ 1402 ] <Trace> RemoteBlockInputStream: (control003:9000, 10.233.10.44) Cancelling query

2016.10.26 16:56:01.567 [ 1403 ] <Trace> Aggregator: Aggregation method: concat

2016.10.26 16:56:01.619 [ 1404 ] <Trace> Aggregator: Aggregation method: concat

2016.10.26 16:56:01.631 [ 1402 ] <Trace> RemoteBlockInputStream: (control004:9000, 10.233.10.45) Cancelling query

2016.10.26 16:56:01.670 [ 1405 ] <Trace> Aggregator: Aggregation method: concat

2016.10.26 16:56:02.002 [ 1402 ] <Trace> RemoteBlockInputStream: (control005:9000, 10.233.10.46) Cancelling query

2016.10.26 16:56:02.314 [ 1406 ] <Trace> Aggregator: Aggregation method: concat

2016.10.26 16:56:02.338 [ 1407 ] <Trace> Aggregator: Aggregation method: concat

2016.10.26 16:56:02.427 [ 1402 ] <Trace> RemoteBlockInputStream: (control006:9000, 10.233.10.47) Cancelling query

2016.10.26 16:56:02.427 [ 1402 ] <Trace> RemoteBlockInputStream: (control007:9000, 10.233.10.48) Cancelling query

.....

В clickhouse.err.log тоже самое:

.....

2016.10.26 16:58:54.778 [ 1800 ] <Error> HTTPHandler: Code: 159, e.displayText() = DB::Exception: Timeout exceeded: elapsed 137.316989926 seconds, maximum: 40, e.what() = DB::Exception, Stack trace: