В ближайший четверг в 16:30 состоится доклад Николая Слинкина OmniSketch: Efficient Multi-Dimensional High-Velocity Stream Analytics with Arbitrary Predicates
Аннотация
Потоковые алгоритмы, основанные на скетчах, широко используются для аналитики неограниченных потоков данных, позволяя выполнять приближённую обработку запросов без полного хранения данных. Однако большинство существующих решений ограничены обработкой потоков данных с одним атрибутом и не так эффективны при выполнении запросов с сложными предикатами по нескольким атрибутам.
Авторы статьи предлагают алгоритм OnmiSketch, который масштабируется для работы с высокоскоростными и сложными потоками данных (с большим числом атрибутов) и поддерживает агрегирование с фильтрацией по нескольким атрибутам, динамически выбираемым во время выполнения запроса.
Я начну доклад с обзора некоторых подходов к задачам потоковой аналитики и их ограничений. Затем перейду к описанию самого алгоритма и его теоретическим гарантиям и оценкам. Наконец мы посмотрим на результаты замеров и экспериментов, а также на сравнение предложенного алгоритма с другим state-of-the-art подходом.