0. 背景
在 v1 中无核分为 normal 和 zerocopy 两种 mode,数据面:都由 cpu 侧 hostfunc 来增加开始/降低结束的 atomic(proxy 以 atomic 的 value 来控制 cudaMemcpy / RNIC 搬运操作), 控制面:devshm 内的跨进程共享通知(机内),本地的 cpu 和 nic 的同进程通知。其中机间去掉了 cudaMemcpyAsync 后解决了 hang,机内无法避免至少一次 cudaMemcpyAsync,固需要现在有一个新的方案代替 hostfunc 去控制拷贝操作。