2026-06-08·创业思考

创业思考--3天把延迟从200ms压到34ms：FDE工程师，AI落地的最后一个环节

金

金柘

#FDE#AI落地#职业发展

去年冬天，我跟着老张去了某军工单位。任务是把我们训练的模型部署到客户内网环境。我心想：Docker一拉不就完了？半天搞定。第一天就出了问题——客户内网没有Docker，没有conda，所有依赖要手动编译。gcc版本不对，glibc版本不对，某个算子库和客户国产加速卡不兼容。老张不慌不忙掏出U盘，里面是他自己维护的一套离线依赖包和编译脚本。三天后模型跑起来了——延迟200ms，客户要求50ms以内。

本文是一篇个人创业笔记。

什么是FDE

FDE（Field Deployment Engineer）是AI落地最被忽视的角色。我面试过不少AI工程师，算法背景扎实，但问到"你部署的模型在客户现场跑了多久出了什么问题"时大部分人说不出来。这就是AI行业的缺口：懂算法的人不懂现场，懂现场的人不懂算法。

老张在那个项目里，接下来一周做的事：把模型从PyTorch转到客户硬件厂商的私有推理框架，重写了三个算子，内存访问模式从NHWC切成NCHW，batch维度拆成多个micro-batch流水线并行。最终延迟压到了34ms——比客户要求还低32%。

FDE的五项核心能力

1. 离线部署与依赖管理。 客户环境断网是常态。能手工编译PyTorch/TensorRT/ONNX Runtime全家桶，维护各glibc版本的预编译包。工具：patchelf修改动态链接器路径、auditwheel修复whl包兼容性、自建pypi离线源。

2. 推理性能调优。 不动模型结构的前提下压榨硬件。算子融合、量化（FP16→INT8）、内存复用（多请求共享KV Cache）。工具：nsys定位瓶颈、triton inference server做动态batching。

3. 跨硬件迁移。 客户的卡不一定是NVIDIA。昇腾、寒武纪、燧原各有各的算子覆盖率和精度差异。能看懂各家算子的数值误差范围，知道哪些层可以近似哪些不行，逐层对比输出差异。

4. 客户沟通与培训。 跟一线操作工讲清楚"这个按钮点了之后要等多久""这个大红字报警要不要慌"。用客户的术语而不是技术黑话——把"置信度阈值"说成"把握程度"，把"误报率"说成"虚惊一场的概率"。

5. 问题定位三板斧。 客户说"系统崩了"——先看日志，再复现，再隔离。会看dmesg、nvidia-smi、journalctl，能从OOM堆栈反推是哪条数据触发的。最狠一招：把客户数据脱敏后带回公司复现。

FDE为什么值钱

AI行业有一个残酷漏斗：论文发表→开源代码→产品Demo→客户验收→生产运行。每一步都在筛走项目。一个顶尖FDE把验收和生产的gap缩到最小。

老张在那个项目交付的推理性能比客户要求高出57%，不是因为算法多牛，是因为他在现场看到了算法工程师看不到的东西。

FDE是AI公司的核心竞争力——产品可以被模仿，驻扎在客户一线的技术团队和行业Knowhow复制不了。

算法决定上限，FDE决定下限

模型再好，落不了地就是零。老张跟我说过这句话。

如果你在做技术，去客户现场。脏数据、弱硬件、急工期——理解这些真实约束比多读10篇论文有价值。FDE方向人才缺口巨大，薪资还在快速上涨，AI越火这个岗位越稀缺。

延伸思考

FDE能不能被AI部分替代。 老张的那些技能——离线编译、性能调优、跨硬件迁移——知识密度很高但操作模式化。理论上AI Agent可以学。但"客户内网的坑"没有教科书——每一次部署遇到的新问题都是独一无二的（某个特定版本的国产加速卡驱动和你用的CUDA版本之间有个隐藏不兼容）。AI能处理这种"没见过的问题"吗？还是说FDE的价值就在"处理没见过的问题"这件事上——恰好是AI最不擅长的那部分？

本文数据来源于作者个人项目经验。

查看所有文章 →