跳转到内容
AI技术趋势--4个Agent辩论1支股票,从3K到4K星只用了1小时,多Agent分析的范式立住了
·AI技术趋势

AI技术趋势--4个Agent辩论1支股票,从3K到4K星只用了1小时,多Agent分析的范式立住了

返回博客
金柘
#多Agent#投资#Claude Code#ai-berkshire#Agent

6月27日上午,ai-berkshire的star曲线垂直拉升——从3000跳到4000,一小时干到4089。685个新star不是来自硅谷,是一个叫xbtlin的中文开发者。他做了件很简单的事:让四个AI各自扮演一个投资大师,然后让它们吵架。

本文是一篇行业分析,基于公开信息和作者个人判断。

发生了什么

xbtlin/ai-berkshire 是一个基于Claude Code的多Agent投资分析项目。用户输入股票代码(如AAPL、2330.TW),系统启动四个Agent:

  • 巴菲特Agent:护城河、商业模式可持续性
  • 芒格Agent:管理层质量、逆向思维、风险边界
  • 格雷厄姆Agent:安全边际、资产负债表、账面价值
  • 费雪Agent:成长性、产业趋势、创新潜力

四个Agent先独立出报告,然后结构化辩论——只针对分歧点。最后元分析Agent标出一致点和分歧点,输出一份分歧矩阵给用户。不做选股推荐,只暴露视角。

核心创新

不是"让四个AI同时跑"——这技术上不新鲜。是对抗式验证

单Agent分析股票有个致命问题:你给它设定"我是价值投资者",它就像打了鸡血一样去找支持论点的证据。低PE、好现金流、高股息——列出一堆漂亮数据,但绝不会问"如果消费电子市场萎缩30%,护城河还在吗?"

这个反问,是芒格Agent在ai-berkshire里会做的事。

多Agent的威力不在并行计算。在于四个独立视角互相挑战前提假设。巴菲特说"护城河很深"——芒格反问"你怎么确定三年后它还在?"格雷厄姆兴奋地说"PB低于1"——费雪冷静地回"低PB是因为市场在定价结构性衰退,不是捡便宜。"

核心设计:先独立分析(互不影响),再结构化辩论(只针对分歧点),最后分开输出。 用户看到的不是"四个Agent的共识",而是"一致点和分歧点"。

分歧矩阵

这可能是整个项目最被低估的设计。不是简单地把四个结论排成表格,而是对每个分析维度(护城河、管理层、财务健康、成长性、估值)单独标注一致/分歧,附带每个Agent的推理依据。

举个例子:分析特斯拉时,巴菲特和格雷厄姆对"估值"都给了警告——但理由完全不同。巴菲特认为估值脱离商业模式可持续性,格雷厄姆认为账面资产撑不住当前市值。结论一致,推理框架不同。这种"异因同果"的信息比单一结论有价值十倍。

传统单Agent分析只会输出:"估值偏高,建议谨慎。"你分不出这是价值投资的逻辑、成长投资的逻辑,还是单纯被数字吓到了。

能用在哪些场景

投资分析只是第一个场景。同样的架构可以平移:

法律分析: 原告Agent + 被告Agent + 法官Agent,同时分析案例,辩论,暴露单视角漏掉的法律依据。

产品决策: 用户Agent + 技术Agent + 商业Agent,分别评估方案,从不同维度反馈。不会出现"技术说好做、商业说好卖、但用户根本不想要"的撕裂。

学术研究: 定性Agent + 定量Agent + 实验Agent + 理论Agent,不同方法论分析同一问题。

多Agent的本质不是"让AI更快"——是"让AI更全面"。一个Agent给答案,多个Agent给视角。对需要权衡利弊的复杂决策,后者远比前者有价值。

带来了什么变化

维度单Agent分析多Agent对抗分析
输出一维结论多维分歧矩阵
论证找证据支持预设框架不同框架互相挑战
盲区框架内置的盲区不会被暴露被其他Agent的框架戳破
决策权AI给建议,用户半盲从AI给视角,用户自己判

投资分析的范式在变——从"AI帮你做决策"变成"AI帮你看清楚,你自己做决策"。

方向判断

多Agent系统过去两年的问题是:知道该怎么做,但找不到正确的场景。 CrewAI、LangGraph、AutoGen都在做编排,但大多数落地场景是"让Agent写个PPT"——这种任务不需要多Agent,一个人工智能就够了。

ai-berkshire找到的场景之所以成立,是因为投资分析天然需要多视角。没有完美公司,只有"好到让你愿意接受它缺点"的公司。单视角看到的是优点和缺点,多视角看到的是"这个缺点到底能不能接受"。

我判断:多Agent的下一个爆款场景,是"对抗性"而非"协作性"的。 法律、医学诊断、政策评估——所有需要"第二个意见"的领域,都是多Agent的土壤。

对创业者的意义

两条。

第一,如果你在做AI投资分析产品,不要做"AI推荐股票"——这条路是死胡同。准确率不够+监管风险,没人敢用。做"AI帮你暴露盲区"——不担责任,用户觉得有用。

第二,多Agent编排不是终极方案,分歧的暴露方式才是。ai-berkshire的分歧矩阵比它的Agent编排更值得研究。怎么把"不同立场下的推理差异"可视化——这是产品设计问题,不是技术问题。

延伸思考

三个问题。

第一,Token成本怎么降。 四个Agent独立分析+辩论+综合,单支股票20到50万token。用Claude Opus跑,一次几美元。偶尔看一支股票没问题,但你要批量分析10支——这个成本对个人开发者不友好。如果用Sonnet或DeepSeek,结论质量会不会显著下降?目前没有公开的对比测试。

第二,四个Agent同质化。 我实测时遇到几次:巴菲特和芒格的分析角度高度重叠——两个Agent的投资哲学有交集(都强调管理层质量、营城河),需要prompt里手动限定范围才能拉开差异。随着分析次数增加,它们会不会不自觉滑向"稳妥的共识"?也就是说,多Agent的差异化是设计出来的,还是维持出来的?

第三,中文公司的分析质量。 底层LLM对中文年报和公告的理解弱于英文财报。分析A股或港股时,四个Agent都会遗漏关键信息。用DeepSeek或GLM替换底层模型能不能解决?还是会引入新的问题?这个问题影响整个中文投资分析的使用边界。


数据来源:ai-berkshire GitHub仓库(截至2026年6月,4,089星);多Agent编排设计参考Claude Code sub-agent机制、CrewAI、LangGraph开源框架;投资分析框架参考巴菲特/芒格/格雷厄姆/费雪经典著作。本文不构成任何投资建议。