2026-04-14 Daily
🧠 今天记录
- debug flagcx connector
- 看到flagcxWaitSignal 报错raise RuntimeError(f”FLAGCX error: {error_str}”)。
- 确定了 error 码是 1,就是Unhandled device error
- 先增加了 comm 初始化 并发的隔离
- 然后怀疑是 context 用了其他的 cudaDevice 导致的,加了之后导致会出现 hang,不会直接报错。
🚀 今日TODO
- [ ]
🧩 遇到的问题 / 卡点
- [ ]
📌 明天该干啥
- [ ]