Аннотация
Потоковые алгоритмы, основанные на скетчах, широко используются для аналитики неограниченных потоков данных, позволяя выполнять приближённую обработку запросов без полного хранения данных. Однако большинство существующих решений ограничены обработкой потоков данных с одним атрибутом и не так эффективны при выполнении запросов с сложными предикатами по нескольким атрибутам.
Авторы статьи предлагают алгоритм OnmiSketch, который масштабируется для работы с высокоскоростными и сложными потоками данных (с большим числом атрибутов) и поддерживает агрегирование с фильтрацией по нескольким атрибутам, динамически выбираемым во время выполнения запроса.
Я начну доклад с обзора некоторых подходов к задачам потоковой аналитики и их ограничений. Затем перейду к описанию самого алгоритма и его теоретическим гарантиям и оценкам. Наконец мы посмотрим на результаты замеров и экспериментов, а также на сравнение предложенного алгоритма с другим state-of-the-art подходом.