Сегодня в 16:30 состоится доклад Сергея Яковлева по статье "SGLB: Scalable and Robust Global Load Balancing in Commodity AI Clusters" (SIGCOMM '25) от команды ByteDance — компании, стоящей за TikTok.
Аннотация
Обучение больших ML-моделей идёт на кластерах из десятков тысяч GPU, и сетевой трафик между ними обладает интересным паттерном: вместо миллионов мелких потоков по сети бегает несколько десятков "слонов". Классический ECMP с хэшированием на таких паттернах регулярно сталкивает крупные потоки на один линк, оставляя другие пустыми, и становится bottleneck всего обучения.
Авторы предлагают SGLB — систему балансировки, в которой коммутаторы в реальном времени обмениваются информацией о загрузке путей по всему кластеру и направляют пакеты по наименее загруженным маршрутам, а при отказе линка восстанавливаются за ~45 µs.
В докладе сначала разберём, как балансировка работает в обычных ДЦ для TCP/UDP-трафика, и почему этого недостаточно, затем обсудим, откуда в распределённом обучении берётся такой специфический трафик, сформулируем задачу и подробно разберём сам алгоритм SGLB.