金枪鱼之夜——IO500: Money + Rust + Rjgg = 7043.99

78 views
Skip to first unread message

陈晟祺

unread,
Nov 21, 2020, 10:05:11 AM11/21/20
to TUNA 主邮件列表
Hi Tunars,

是的,你没看错,今天的 Tunight 刚结束,这封邮件是下周 Tunight 的预告。

IO500 是近年来新设立的世界高性能存储系统排行榜。在刚刚于 SC20 发布的最新榜单中,鹏城实验室与清华大学和华为公司合作在 “鹏城云脑 II” 系统中,以 7043.99 的分数取得了第一名的成绩。

由于硬件环境是全新的 ARM 处理器和 RoCE 网卡,现有的软件难以适配。我们被迫从零开发了一个分布式文件系统——MadFS。MadFS 使用 Rust 语言编写,基于 UCX 进行网络通信,并专为打榜进行了极致性能优化。在拿到机器的最后 10 天时间里,打榜团队进行极限操作,从 200 分一路调优到 7000 分,达到了原来第一名的 4 倍左右(见官方榜单)。此外 MadFS 还助力清华超算团队在 SC20 VSCC 的 IO500 项目中,以 144 分取得第一名,领先第二名 5 倍以上。

本次 Tunight 由 rjgg 来为大家分享这次 IO500 打榜过程中跌宕起伏的幕后故事。主要内容包括:

  • IO500 和 鹏城云脑 II 集群的基本情况
  • MadFS 的设计与实现:
    • 突发缓冲(Burst Buffer)文件系统的设计原理
    • 如何利用 Rust 的 async 机制实现高性能 IO
  • 最后 10 天战斗的调优过程和经验

活动信息:

  • 主讲人:王润基
  • 时间:2020/11/28(校历第十一周周六)19:30 UTC +08:00
  • 活动形式:线下 + 线上会议
    • 地点:待定(教室借用批准后另行)
    • Zoom:621 219 8453

P.S. 由于主讲人要求,本次活动不直播、不录像、结束后不提供讲稿

P.P.S. 本次 Tunight 的主题由康总亲自拟定。

欢迎一起来玩!

[1]: https://www.vi4io.org/io500/list/20-11/start
[2]: https://studentclustercompetition.us/
[3]: https://tuna.moe/event/2020/io500/

-- 

Shengqi Chen

陈晟祺

unread,
Nov 24, 2020, 3:12:14 AM11/24/20
to TUNA 主邮件列表
活动已经通过学校审批,地点为六教 6A213。

-- 
Shengqi Chen

Reply all
Reply to author
Forward
0 new messages