
创业思考--4小时搭完月费230,自建RAG管道的维护成本我至今没算清
上个月一个老客户在微信上问我:"金哥,3000份PDF,每周还新增50份——自建RAG还是买服务?"
我说自建更便宜。
"那坏了谁修?"
我顿了一下。我的管道跑了四个月没出过故障,所以我下意识把故障概率当成了零。但一个面向付费客户的生产系统,故障率不可能是零。
核心判断
自建RAG的直接成本在任何查询量级下都碾压SaaS。维护人力的折价,是整道题里唯一一个"没有标准答案"的变量。问三个创业者,答案能差10倍。
三条证据:为什么自建在直接成本上赢定了
证据一:开源工具链越过了"能用"的线。
我的管道三个组件全是开源的:MinerU做文档解析、Dify做编排、Milvus做向量存储。
MinerU对复杂表格的解析准确率超过90%1。单机跑一份15页PDF约8-12秒,3000份文档一个周末入库完毕。Dify社区版支持拖拽搭建检索增强管道,非工程师也能上手2。
门槛从"需要ML团队"降到了"有后端经验就行"。我花一个下午搭完,四个月没大改过。
证据二:模型API成本在跌,SaaS定价没跟。
DeepSeek-V4-Flash的API调用成本过去半年下降了约80%3。我自己的月均API费从最早的¥120降到了¥30。
但国内主流RAG SaaS企业版月费仍然在¥3000上下,过去一年几乎没动。海外RAG服务的个人版$39/月、企业版$299/月,同样坚挺。
自建和SaaS的成本差距不是在缩小——是在拉大。
证据三:边际成本方向完全相反。
自建方案最大支出是服务器(¥200/月),这是固定成本。API调用和文档入库都是微支。查询量越大,边际成本越接近零。
SaaS刚好反过来——按调用次数、文档量、用户数逐级加价。用量越大,SaaS的账单涨得越快。
这两条曲线在任何量级都不会交叉。
我的成本账
| 项目 | 方案 | 月费 |
|---|---|---|
| 文档解析 | MinerU(开源) | ¥0 |
| 编排管线 | Dify社区版(开源) | ¥0 |
| 向量库 | Milvus(开源自托管) | ¥0 |
| 大模型API | DeepSeek-V4-Flash | ≈¥30 |
| 服务器 | 4核16G云服务器 | ≈¥200 |
| 合计 | ≈¥230 |
按每天50次查询、每次约2000 token估算。
| 日查询量 | 月API费用 | 月总成本 |
|---|---|---|
| 50次 | ≈¥30 | ≈¥230 |
| 200次 | ≈¥120 | ≈¥320 |
| 500次 | ≈¥300 | ≈¥500 |
| 1000次 | ≈¥600 | ≈¥800 |
日查询1000次时月成本约¥800——SaaS企业版依然是¥3000。直接成本上自建在任何量级都是更低的那一方。
但上面这张表只算了机器的钱。
延伸思考事:维护成本该怎么折价
我的管道四个月维护时间几乎为零。文档全是技术文章和博客素材,格式统一、结构稳定,MinerU几乎没有解析失败的情况。
但那个客户的3000份PDF来自不同部门:有合同、财务报表、技术手册、会议纪要。格式横跨结构化PDF、扫描件、手写批注、加密文件、跨页表格。
MinerU对结构化PDF很好,遇到扫描件需要先跑OCR,跨页表格可能解析错乱4。
维护成本在这里不是线性的——它取决于文档类型的多样性,而不是文档数量的多少。
我把"维护人力怎么折算"这个问题发到朋友圈,收集了三个回答:
- 做法律AI的创始人:有人专职负责管道维护,每月15-20小时。按市场价折算约¥1500-2400。
- 做电商客服AI的CEO:文档都是商品信息,格式统一,每月花不到2小时检查。
- 做企业内部知识库的CTO:直接选了SaaS。文档类型三天两头变,自己维护的精力成本远超SaaS的差价。
三个答案差了10倍。
所以自建的"真实月成本"到底是多少?是¥230(只算机器)还是¥1230(加¥1000维护人力)还是¥2230?
取决于你的文档长什么样。
也因此,我至今写不出一个"自建vs SaaS"的通用公式。只能给出方向性的判断——
如果你的文档和我一样,类型单一、有后端能力、不面向付费客户:自建,几百块钱搞定。
如果你的情况接近那个客户——文档五花八门、付费客户在等、故障就是投诉:SaaS的溢价买的是"故障时有人兜底"这五个字。
带走
自建更划算的场景:
- 文档量超过1000份、类型单一(全部是技术手册、或全部是合同)
- 公司有后端工程师,可以把管道维护当作日常工作的一部分
- 查询量在持续增长——自建的账单几乎不变,SaaS的账单跟着涨
SaaS更合理的场景:
- 没有工程师,或工程师没时间管这个
- 文档类型多且频繁变化(今天合同、明天财务报表、后天技术手册)
- 面向付费客户,故障容忍度零——SaaS有SLA,你自己搭的没有
两种情况都别搭:
- 文档不到100份:直接上传到ChatGPT或Claude,连服务器都不用开
- 手写体扫描件占大多数:开源工具对这类文件的处理有限,用自带OCR优化能力的商业产品更实际
这道题我算了四个月,结论不是"自建好"或"SaaS好",而是——先看你的文档长什么样,再看你愿不愿意用人的时间换机器的钱。我的文档简单,选了自建。但换个客户、换个文档结构、换个故障容忍度,答案可能完全相反。
Footnotes
-
MinerU GitHub仓库,复杂表格解析benchmark数据(2025年12月发布版)。访问于2026年3月。 ↩
-
Dify官方文档,可视化编排功能介绍。https://docs.dify.ai ↩
-
DeepSeek API官方定价页历史对比(2025年Q3与2026年Q1)。价格变动幅度为不同模型版本的估算值。 ↩
-
MinerU GitHub Issues讨论区,跨页表格和扫描件处理相关问题(2026年1月)。 ↩