2026-04-14 Daily

🧠 今天记录

  • debug flagcx connector
  • 看到flagcxWaitSignal 报错raise RuntimeError(f”FLAGCX error: {error_str}”)。
    • 确定了 error 码是 1,就是Unhandled device error
    • 先增加了 comm 初始化 并发的隔离
    • 然后怀疑是 context 用了其他的 cudaDevice 导致的,加了之后导致会出现 hang,不会直接报错。

🚀 今日TODO

  • [ ]

🧩 遇到的问题 / 卡点

  • [ ]

📌 明天该干啥

  • [ ]

💡 随手记录