
创业思考--3天把延迟从200ms压到34ms:FDE工程师,AI落地的最后一个环节
去年冬天,我跟着老张去了某军工单位。任务是把我们训练的模型部署到客户内网环境。我心想:Docker一拉不就完了?半天搞定。第一天就出了问题——客户内网没有Docker,没有conda,所有依赖要手动编译。gcc版本不对,glibc版本不对,某个算子库和客户国产加速卡不兼容。老张不慌不忙掏出U盘,里面是他自己维护的一套离线依赖包和编译脚本。三天后模型跑起来了——延迟200ms,客户要求50ms以内。
本文是一篇个人创业笔记。
什么是FDE
FDE(Field Deployment Engineer)是AI落地最被忽视的角色。我面试过不少AI工程师,算法背景扎实,但问到"你部署的模型在客户现场跑了多久出了什么问题"时大部分人说不出来。这就是AI行业的缺口:懂算法的人不懂现场,懂现场的人不懂算法。
老张在那个项目里,接下来一周做的事:把模型从PyTorch转到客户硬件厂商的私有推理框架,重写了三个算子,内存访问模式从NHWC切成NCHW,batch维度拆成多个micro-batch流水线并行。最终延迟压到了34ms——比客户要求还低32%。
FDE的五项核心能力
1. 离线部署与依赖管理。 客户环境断网是常态。能手工编译PyTorch/TensorRT/ONNX Runtime全家桶,维护各glibc版本的预编译包。工具:patchelf修改动态链接器路径、auditwheel修复whl包兼容性、自建pypi离线源。
2. 推理性能调优。 不动模型结构的前提下压榨硬件。算子融合、量化(FP16→INT8)、内存复用(多请求共享KV Cache)。工具:nsys定位瓶颈、triton inference server做动态batching。
3. 跨硬件迁移。 客户的卡不一定是NVIDIA。昇腾、寒武纪、燧原各有各的算子覆盖率和精度差异。能看懂各家算子的数值误差范围,知道哪些层可以近似哪些不行,逐层对比输出差异。
4. 客户沟通与培训。 跟一线操作工讲清楚"这个按钮点了之后要等多久""这个大红字报警要不要慌"。用客户的术语而不是技术黑话——把"置信度阈值"说成"把握程度",把"误报率"说成"虚惊一场的概率"。
5. 问题定位三板斧。 客户说"系统崩了"——先看日志,再复现,再隔离。会看dmesg、nvidia-smi、journalctl,能从OOM堆栈反推是哪条数据触发的。最狠一招:把客户数据脱敏后带回公司复现。
FDE为什么值钱
AI行业有一个残酷漏斗:论文发表→开源代码→产品Demo→客户验收→生产运行。每一步都在筛走项目。一个顶尖FDE把验收和生产的gap缩到最小。
老张在那个项目交付的推理性能比客户要求高出57%,不是因为算法多牛,是因为他在现场看到了算法工程师看不到的东西。
FDE是AI公司的核心竞争力——产品可以被模仿,驻扎在客户一线的技术团队和行业Knowhow复制不了。
算法决定上限,FDE决定下限
模型再好,落不了地就是零。老张跟我说过这句话。
如果你在做技术,去客户现场。脏数据、弱硬件、急工期——理解这些真实约束比多读10篇论文有价值。FDE方向人才缺口巨大,薪资还在快速上涨,AI越火这个岗位越稀缺。
延伸思考
FDE能不能被AI部分替代。 老张的那些技能——离线编译、性能调优、跨硬件迁移——知识密度很高但操作模式化。理论上AI Agent可以学。但"客户内网的坑"没有教科书——每一次部署遇到的新问题都是独一无二的(某个特定版本的国产加速卡驱动和你用的CUDA版本之间有个隐藏不兼容)。AI能处理这种"没见过的问题"吗?还是说FDE的价值就在"处理没见过的问题"这件事上——恰好是AI最不擅长的那部分?
本文数据来源于作者个人项目经验。