2026-06-30·行业动态

行业动态--12家国产大模型用世界杯对赌推理能力，腾讯混元登顶

返回博客

金

金柘

#国产大模型#世界杯#腾讯混元#评测#热点

电子工程专辑在世界杯期间做了一件事：把12家国产大模型拉来同台PK赛事预测。赢的不是大家最熟的千问也不是智谱——是腾讯混元。

本文是一篇热点快评，基于24小时内公开信息整理。

发生了什么

12家国产大模型，一个任务：世界杯赛事预测。评测机构是电子工程专辑，冠军是腾讯混元。（来源：电子工程专辑，6月29日报道）

任务本身是个综合推理测试：分析历史数据、理解球队实力、考虑临场因素、判断概率分布。这不是做选择题，是真正的多维度推理。

为什么这事值得看

三个点。

第一，世界杯预测跟传统NLP benchmark不一样。它不问你"以下哪个选项正确"，它让你整合多源信息给出一个判断。这更接近用户日常跟AI的交互方式——没有人会跟AI说"请做一道选择题"。

第二，12家国产模型能同台PK这个任务，本身证明了国产模型的多维推理能力到了一个能打的水准。两年前你要做这种测试，大概率只有GPT和Claude能跑。

第三，腾讯混元登顶说明——在你没注意的时候，它已经追到了第一梯队。腾讯在AI上一直不是声量最大的那个，但这种横评结果比PR稿有说服力。

对创业者来说，一个附带信息：如果你需要"预测类"AI能力，现在有12家国产模型可以选，不需要调海外API。

延伸思考

为什么没有第三方持续做这件事。 MLLM Leaderboard追踪视觉模型，LMSYS Chatbot Arena追踪对话模型，但国产大模型的多维推理能力没有持续追踪的机制。世界杯预测是一次性的。一次性能说明问题，但无法追踪趋势——比如三个月后谁进步了、谁退步了、谁的某个维度突然炸了。没有持续评测，我们只能靠"感觉"判断模型好不好用。

本文数据来源于互联网公开信息，仅供行业趋势参考，不构成任何商业建议。

查看所有文章 →