Во перых хочу выразить благодарность за продукт, результаты впечатляют! Но есть пара вопросов:
1) Каким вы видите наиболее быстрый сценарий вставки данных?
Мы собрали тестовый кластер из 6 машин: 3 шарда, по 2 реплики, используем таблицы типа ReplicatedMergeeTree + Distributed версия.
На каждом сервере через http интерфейс в несколько потоков вставляем данные на локальный сервер, однако в Distributed таблицу (преследуется цель равномерно размазать данные). Однако периодически база перестает принимать запросы на вставку с такой ошибкой: "Code: 252, e.displayText() = DB::Exception: Too much parts. Merges are processing significantly slower than inserts., e.what() = DB::Exception". При вставке мы некоторым образом еще процессим наши данные, чем создаем доп. нагрузку на CPU. С чем может быть связана данная ошибка?
В качестве пожелания: было бы удобно если-бы была загрузка из локальных файлов!
2) На сколько важно, чтобы все сервера находились в одной стойке? Или же достаточно того что все находится в одном ДЦ (например hetzner). На сколько я понимаю при выполнении запроса данные пересылаемые между нодами не очень большие и проблем тут не возникнет.