[07.05.2026] PDX: A Data Layout for Vector Similarity Search

2 views
Skip to first unread message

Ruslan Savchenko

unread,
May 7, 2026, 9:32:07 AMMay 7
to msu...@googlegroups.com, cs-se...@yandex-team.ru

Сегодня в 16:30 состоится доклад Дамира Ачоха по статье PDX: A Data Layout for Vector Similarity Search.


Аннотация

 

Векторный поиск сегодня - это критическое узкое место в RAG-пайплайнах LLM, мультимодальных поисковиках и рекомендательных системах. Профайлинг показывает, что до 84% времени уходит на вычисления расстояний для векторов, которые в итоге даже не попадают в топ-k. 


Авторы статьи задают вопрос: а что если проблема не в алгоритме, а в раскладке данных? И предлагают PDX - формат, который хранит векторы блоками с вертикальной декомпозицией внутри, по аналогии с PAX из мира аналитических СУБД. Результат: чистый скалярный C++ в 1.5–7.4 раза быстрее ручного AVX512-кода, а старые алгоритмы pruning (ADSampling, BSA) на новой раскладке выигрывают 2.2x у FAISS и 3.5x у Milvus.

Ruslan Savchenko

unread,
May 7, 2026, 9:32:22 AMMay 7
to msu...@googlegroups.com, cs-se...@yandex-team.ru

Уже начинаем https://yandex.zoom.us/j/92419106876

--
Best regards,
Ruslan Savchenko
Reply all
Reply to author
Forward
0 new messages