背景
总的一个step(8 个 microbatch):

去掉头尾 2 个慢的 microbatch:

故:参考 https://infrawaves.feishu.cn/wiki/QPvqwMZ94iSz2BkphSbcyk9hnYu 内的计算方式 总的一个 step 内 9.5s,共 1920/5=384 次 dispatch backward,预计 overlap 后最低收益为 384ms / 9500ms = 4.04% 假设是中间感觉 MoE 阶段则是:1440/5=288,预计 overlap 后收益为:288 / 5787= 4.97% 理论收益为:4 % 到 5 % 之间
收益来源
见下图的 speed up