
AI技术趋势--4个Agent辩论1支股票,从3K到4K星只用了1小时,多Agent分析的范式立住了
6月27日上午,ai-berkshire的star曲线垂直拉升——从3000跳到4000,一小时干到4089。685个新star不是来自硅谷,是一个叫xbtlin的中文开发者。他做了件很简单的事:让四个AI各自扮演一个投资大师,然后让它们吵架。
本文是一篇行业分析,基于公开信息和作者个人判断。
发生了什么
xbtlin/ai-berkshire 是一个基于Claude Code的多Agent投资分析项目。用户输入股票代码(如AAPL、2330.TW),系统启动四个Agent:
- 巴菲特Agent:护城河、商业模式可持续性
- 芒格Agent:管理层质量、逆向思维、风险边界
- 格雷厄姆Agent:安全边际、资产负债表、账面价值
- 费雪Agent:成长性、产业趋势、创新潜力
四个Agent先独立出报告,然后结构化辩论——只针对分歧点。最后元分析Agent标出一致点和分歧点,输出一份分歧矩阵给用户。不做选股推荐,只暴露视角。
核心创新
不是"让四个AI同时跑"——这技术上不新鲜。是对抗式验证。
单Agent分析股票有个致命问题:你给它设定"我是价值投资者",它就像打了鸡血一样去找支持论点的证据。低PE、好现金流、高股息——列出一堆漂亮数据,但绝不会问"如果消费电子市场萎缩30%,护城河还在吗?"
这个反问,是芒格Agent在ai-berkshire里会做的事。
多Agent的威力不在并行计算。在于四个独立视角互相挑战前提假设。巴菲特说"护城河很深"——芒格反问"你怎么确定三年后它还在?"格雷厄姆兴奋地说"PB低于1"——费雪冷静地回"低PB是因为市场在定价结构性衰退,不是捡便宜。"
核心设计:先独立分析(互不影响),再结构化辩论(只针对分歧点),最后分开输出。 用户看到的不是"四个Agent的共识",而是"一致点和分歧点"。
分歧矩阵
这可能是整个项目最被低估的设计。不是简单地把四个结论排成表格,而是对每个分析维度(护城河、管理层、财务健康、成长性、估值)单独标注一致/分歧,附带每个Agent的推理依据。
举个例子:分析特斯拉时,巴菲特和格雷厄姆对"估值"都给了警告——但理由完全不同。巴菲特认为估值脱离商业模式可持续性,格雷厄姆认为账面资产撑不住当前市值。结论一致,推理框架不同。这种"异因同果"的信息比单一结论有价值十倍。
传统单Agent分析只会输出:"估值偏高,建议谨慎。"你分不出这是价值投资的逻辑、成长投资的逻辑,还是单纯被数字吓到了。
能用在哪些场景
投资分析只是第一个场景。同样的架构可以平移:
法律分析: 原告Agent + 被告Agent + 法官Agent,同时分析案例,辩论,暴露单视角漏掉的法律依据。
产品决策: 用户Agent + 技术Agent + 商业Agent,分别评估方案,从不同维度反馈。不会出现"技术说好做、商业说好卖、但用户根本不想要"的撕裂。
学术研究: 定性Agent + 定量Agent + 实验Agent + 理论Agent,不同方法论分析同一问题。
多Agent的本质不是"让AI更快"——是"让AI更全面"。一个Agent给答案,多个Agent给视角。对需要权衡利弊的复杂决策,后者远比前者有价值。
带来了什么变化
| 维度 | 单Agent分析 | 多Agent对抗分析 |
|---|---|---|
| 输出 | 一维结论 | 多维分歧矩阵 |
| 论证 | 找证据支持预设框架 | 不同框架互相挑战 |
| 盲区 | 框架内置的盲区不会被暴露 | 被其他Agent的框架戳破 |
| 决策权 | AI给建议,用户半盲从 | AI给视角,用户自己判 |
投资分析的范式在变——从"AI帮你做决策"变成"AI帮你看清楚,你自己做决策"。
方向判断
多Agent系统过去两年的问题是:知道该怎么做,但找不到正确的场景。 CrewAI、LangGraph、AutoGen都在做编排,但大多数落地场景是"让Agent写个PPT"——这种任务不需要多Agent,一个人工智能就够了。
ai-berkshire找到的场景之所以成立,是因为投资分析天然需要多视角。没有完美公司,只有"好到让你愿意接受它缺点"的公司。单视角看到的是优点和缺点,多视角看到的是"这个缺点到底能不能接受"。
我判断:多Agent的下一个爆款场景,是"对抗性"而非"协作性"的。 法律、医学诊断、政策评估——所有需要"第二个意见"的领域,都是多Agent的土壤。
对创业者的意义
两条。
第一,如果你在做AI投资分析产品,不要做"AI推荐股票"——这条路是死胡同。准确率不够+监管风险,没人敢用。做"AI帮你暴露盲区"——不担责任,用户觉得有用。
第二,多Agent编排不是终极方案,分歧的暴露方式才是。ai-berkshire的分歧矩阵比它的Agent编排更值得研究。怎么把"不同立场下的推理差异"可视化——这是产品设计问题,不是技术问题。
延伸思考
三个问题。
第一,Token成本怎么降。 四个Agent独立分析+辩论+综合,单支股票20到50万token。用Claude Opus跑,一次几美元。偶尔看一支股票没问题,但你要批量分析10支——这个成本对个人开发者不友好。如果用Sonnet或DeepSeek,结论质量会不会显著下降?目前没有公开的对比测试。
第二,四个Agent同质化。 我实测时遇到几次:巴菲特和芒格的分析角度高度重叠——两个Agent的投资哲学有交集(都强调管理层质量、营城河),需要prompt里手动限定范围才能拉开差异。随着分析次数增加,它们会不会不自觉滑向"稳妥的共识"?也就是说,多Agent的差异化是设计出来的,还是维持出来的?
第三,中文公司的分析质量。 底层LLM对中文年报和公告的理解弱于英文财报。分析A股或港股时,四个Agent都会遗漏关键信息。用DeepSeek或GLM替换底层模型能不能解决?还是会引入新的问题?这个问题影响整个中文投资分析的使用边界。
数据来源:ai-berkshire GitHub仓库(截至2026年6月,4,089星);多Agent编排设计参考Claude Code sub-agent机制、CrewAI、LangGraph开源框架;投资分析框架参考巴菲特/芒格/格雷厄姆/费雪经典著作。本文不构成任何投资建议。