В ближайший четверг (завтра) в 16:30 состоится доклад Лыкова Ивана по статье "Workload Insights From The Snowflake Data Cloud: What Do Production Analytic Queries Really Look Like?"
Аннотация:
Выявление характеристик реальных аналитических нагрузок является сложной, но критически важной задачей для развития передового отраслевого опыта и академических исследований. Исторически получение точных характеристик запросов и данных было затруднительным, во многом потому, что подробная информация о нагрузках часто не выходила за пределы локальных (on-premises) систем баз данных.
С распространением cloud-native баз данных, таких как Snowflake, стало возможным анализировать production нагрузки по обработке запросов в больших масштабах и с высокой степенью детализации. Опираясь на эту возможность, данное исследование представляет комплексный анализ аналитических нагрузок среди различных клиентов и отраслей.
В частности, мы исследуем характеристики 667 миллионов запросов, направленных к Snowflake из самых популярных BI-инструментов за двухнедельный период. На основе этого набора данных в данной статье сделаны два основных вклада: во-первых, мы проводим детальное изучение свойств запросов, уделяя особое внимание фильтрам, соединениям (joins), агрегациям и другим ранее малоизученным аспектам. Во-вторых, мы выявляем уникальные и практически значимые паттерны запросов, которые, как правило, отсутствуют в стандартных бенчмарках баз данных.