[23.04.2026] SGLB: Scalable and Robust Global Load Balancing in Commodity AI Clusters

0 views
Skip to first unread message

Ruslan Savchenko

unread,
Apr 23, 2026, 5:50:05 AMApr 23
to msu...@googlegroups.com, cs-se...@yandex-team.ru

Сегодня в 16:30 состоится доклад Сергея Яковлева по статье "SGLB: Scalable and Robust Global Load Balancing in Commodity AI Clusters" (SIGCOMM '25) от команды ByteDance — компании, стоящей за TikTok.


Аннотация


Обучение больших ML-моделей идёт на кластерах из десятков тысяч GPU, и сетевой трафик между ними обладает интересным паттерном: вместо миллионов мелких потоков по сети бегает несколько десятков "слонов". Классический ECMP с хэшированием на таких паттернах регулярно сталкивает крупные потоки на один линк, оставляя другие пустыми, и становится bottleneck всего обучения.


Авторы предлагают SGLB — систему балансировки, в которой коммутаторы в реальном времени обмениваются информацией о загрузке путей по всему кластеру и направляют пакеты по наименее загруженным маршрутам, а при отказе линка восстанавливаются за ~45 µs.


В докладе сначала разберём, как балансировка работает в обычных ДЦ для TCP/UDP-трафика, и почему этого недостаточно, затем обсудим, откуда в распределённом обучении берётся такой специфический трафик, сформулируем задачу и подробно разберём сам алгоритм SGLB.

Ruslan Savchenko

unread,
Apr 23, 2026, 9:34:42 AMApr 23
to msu...@googlegroups.com, cs-se...@yandex-team.ru

Уже начинаем https://yandex.zoom.us/j/92419106876

--
Best regards,
Ruslan Savchenko
Reply all
Reply to author
Forward
0 new messages