Добрый день.
Железо такое:
Двухсокетный Intel(R) Xeon(R) CPU E5-2650 v2 @ 2.60GHz
128 GiB RAM
8 x 6 TB HDD SATA 7200 RPM в RAID-5 (md)
Для простоты, бенчмарки проводились в односерверной конфигурации.
(За исключением результатов, помеченных как Vertica x3 и x6 - на трёх и шести серверах, соответственно. Эти тесты проводились на другом железе (более-менее сравнимом - тоже двухсокетные серверы) другими людьми, которые самостоятельно всё настраивали.)
Для некоторых систем подробно написано, как они устанавливались и как загружались данные, а для некоторых эта информация не сохранена.
Та, что есть, находится здесь:
https://github.com/yandex/ClickHouse/tree/master/dbms/benchmarkНасчёт данных.
Так получилось, что данные для этих тестов - это кусочек реальных данных Метрики и их нельзя раскрывать.
Конечно, это нехорошо. Поэтому, есть желание сделать хотя бы одно из двух:
1. Написать генератор псевдослучайных данных такой же структуры. Это не очень легко, потому что нужно сохранить все вероятностные распределения. Например, для строковых полей - распределение одинаковых строк, распределение длин строк, коэффициент сжатия. Но если постараться, можно сделать.
2. Перевести тесты на другой dataset. У нас есть заготовки для этого, смотрите здесь:
https://github.com/yandex/ClickHouse/tree/master/doc/example_datasetsНапример, тест ontime взят из вашего блога :)
Вы можете получить результаты по инструкции примерно за 30 минут.
По поводу таблиц.
Да, все тесты сделаны на одной таблице hits.
Запросы для бенчмарка были выбраны осенью 2013, и тогда ClickHouse не поддерживал JOIN.
Тест состоит из 43 запросов, из них 36 - запросы на full scan, а остальные 7 - запросы по диапазону первичного ключа.
В основном, бенчмарк проверяет производительность чтения, фильтрации и агрегации данных.
При этом проверяются различные комбинации типов полей, селективности условий, кардинальности ключей агрегации.