
·行业动态
行业动态--12家国产大模型用世界杯对赌推理能力,腾讯混元登顶
返回博客
金
金柘#国产大模型#世界杯#腾讯混元#评测#热点
电子工程专辑在世界杯期间做了一件事:把12家国产大模型拉来同台PK赛事预测。赢的不是大家最熟的千问也不是智谱——是腾讯混元。
本文是一篇热点快评,基于24小时内公开信息整理。
发生了什么
12家国产大模型,一个任务:世界杯赛事预测。评测机构是电子工程专辑,冠军是腾讯混元。(来源:电子工程专辑,6月29日报道)
任务本身是个综合推理测试:分析历史数据、理解球队实力、考虑临场因素、判断概率分布。这不是做选择题,是真正的多维度推理。
为什么这事值得看
三个点。
第一,世界杯预测跟传统NLP benchmark不一样。它不问你"以下哪个选项正确",它让你整合多源信息给出一个判断。这更接近用户日常跟AI的交互方式——没有人会跟AI说"请做一道选择题"。
第二,12家国产模型能同台PK这个任务,本身证明了国产模型的多维推理能力到了一个能打的水准。两年前你要做这种测试,大概率只有GPT和Claude能跑。
第三,腾讯混元登顶说明——在你没注意的时候,它已经追到了第一梯队。腾讯在AI上一直不是声量最大的那个,但这种横评结果比PR稿有说服力。
对创业者来说,一个附带信息:如果你需要"预测类"AI能力,现在有12家国产模型可以选,不需要调海外API。
延伸思考
为什么没有第三方持续做这件事。 MLLM Leaderboard追踪视觉模型,LMSYS Chatbot Arena追踪对话模型,但国产大模型的多维推理能力没有持续追踪的机制。世界杯预测是一次性的。一次性能说明问题,但无法追踪趋势——比如三个月后谁进步了、谁退步了、谁的某个维度突然炸了。没有持续评测,我们只能靠"感觉"判断模型好不好用。
本文数据来源于互联网公开信息,仅供行业趋势参考,不构成任何商业建议。