2026-03-19 Daily

🧠 今天学到了什么

🚀 今日TODO

  • vccl alltoallv b300 机内机间数据 + h200 数据,发现机间性能问题,在 H200 上 nsys 看到机间的 proxyPut 一直低于 25GB/s 尝试了在 gin.cc内的ncclGinIbProxyIPutSignal选择 QP 的时候从只选 0 变成选择多个:
原来:
struct ncclIbQp *qp = &comm->base.qps[0];
改后:
int qpIdx = cComm->qpRRCounter++ % comm->base.nqps;
struct ncclIbQp *qp = &comm->base.qps[qpIdx];

性能无变化。❌

🧩 遇到的问题 / 卡点

  • [ ]

📌 明天该干啥

  • [ ]

💡 随手记录