2026-03-19 Daily
🧠 今天学到了什么
🚀 今日TODO
- vccl alltoallv b300 机内机间数据 + h200 数据,发现机间性能问题,在 H200 上 nsys 看到机间的 proxyPut 一直低于 25GB/s 尝试了在 gin.cc内的ncclGinIbProxyIPutSignal选择 QP 的时候从只选 0 变成选择多个:
原来:
struct ncclIbQp *qp = &comm->base.qps[0];
改后:
int qpIdx = cComm->qpRRCounter++ % comm->base.nqps;
struct ncclIbQp *qp = &comm->base.qps[qpIdx];性能无变化。❌
🧩 遇到的问题 / 卡点
- [ ]
📌 明天该干啥
- [ ]