Inference optimization

由于 nixl 可以跑通，给出 nixl 支持双边 flagcx 设计文档，设计文档见：nixl support flagcx backend ✅ 2026-03-13

讨论后，核心问题是 nccl 也是双边，但是deepseek v3.2为什么跑不通 vllm pd 分离，找到根本原因并修复 bug1. Bugfix for vllm deepseek v3.2 1p1d ✅ 2026-03-16

修复方案提交 vllm 社区 pr https://github.com/vllm-project/vllm/pull/37265 ✅ 2026-03-17

给出当前修改/测试方案（支持 flagcx/falgGems/vllm-plugin-fl 跑通 vllm deepseek v3.2 pd 分离）2. vllm use vllm-plugin-fl、flagGemms and flagcx run Deepseek v3.2 ✅ 2026-03-25

1P1D更改为 qwen 的 moe 模型跑出 mooncake/nixl/nccl 的 baseline 基础上，看 flagos 的性能 4. vllm mooncake&&nixl connector test ✅ 2026-03-30

nsys去 profiler mooncake/nixl 32K 输入的 case profiler 1P1D ✅ 2026-03-31

学习 mooncake 源码和 vllm 的不同 connector 的 kv cache 调度逻辑，拆分 flagcx connector 开发方案 ✅ 2026-05-23

nixl 源码整体实现0. nixl research ✅ 2026-04-01
flagcx connector实现，放在vllm-plugin-fl；Nccl engine→flagcx engine，和mooncake性能对齐； 5. flagcx connector design&&dev&&test ✅ 2026-05-7
Mooncake xfer engine源码学习 0. mooncake rdma transfer ✅ 2026-05-23
vllm 如何管理 kv cache，nixl 和 mooncake 的 connector 如何使用 block 索引 kv cache 并指挥底层 rdma ✅ 2026-05-23

在 flagcx 内设计、开发、测试一套多线程高性能的post wr+poll cq（定义general的数据结构处理上层的业务输入，然后flagcx_p2p内能初始化2worker）2. 多后端多线程的 ibrc p2p 方案设计 ✅ 2026-06-02

flagcx p2p engine 增加 rpc 服务以及对外的 python wrapper 3. flagcx ibrc p2p RPC 服务 + flagcx connector 改动 ✅ 2026-06-02

不连续 kv transfer benchmark 设计开发测试 1. 不连续kv transfer benchmark 设计开发测试 ✅ 2026-06-15

跑通海光平台 qwen / glm 以及 pd 分离 0. hygon && muxi

跑通沐曦平台 qwen / glm 以及 pd 分离 0. hygon && muxi

glm 模型用 flagos 跑通 3. vllm glm5 1P1D 推理

Leoda