2026-04-02 Daily

🧠 今天记录

  • 确定 batch_transfer_sync_write 的完整逻辑,mooncake 先找多个request内的连续地址 重分配出来 mooncake 格式的 task,再每个 task 切成更小的 slice 给 ibv_post_send,同理再 ibv_poll_cq所有 slice,都是complete 状态后结束。 ✅ 2026-04-03
  • 机内 mooncake 传输逻辑?
  • mooncake实例化engine 和 engine initialize怎么做的?是实例化一个TransferEngineImpl 实例 ✅ 2026-04-03
  • get_rpc_port 应该怎么做?返回的是 RPC 服务的 TCP 端口,这是每个 engine 用来传输网卡注册后的 MR 索引,rkey 的 ✅ 2026-04-02
  • 怎么 batch 粒度的去 register?还需要确定使用 flagcx 现在的一堆接口中单边还是双边的 register?这里是一下注册一大块 kv cache,在通过 RPC 去交换 NIC 需要的 metadata。flagcx 内单边把自己这一块大的给注册了。✅ 2026-04-02
  • 补充开发 flagcx的注册可以拿到 Mr 的索引映射

🚀 今日TODO

  • 完成 mooncake 传输流程梳理(task 重组与 slice 发送/完成机制),理清 engine 初始化路径及 RPC 端口在 MR 索引与 rkey 交换中的作用;同时确定 flagcx 当前采用单边大块内存注册并通过 RPC 交换元数据的实现方案。

🧩 遇到的问题 / 卡点

  • [ ]

📌 明天该干啥

💡 随手记录