跳转到内容
100个模型怎么选:5分钟决策树
·灿海星图指南

100个模型怎么选:5分钟决策树

返回博客
金柘
#灿海星图#模型选择#Claude#GPT#DeepSeek

朋友上个月看了我的灿海星图账单——42块。他打开自己的Anthropic账单,510块。我看了他的调用记录:翻译、润色、写邮件标题,全用的Claude 3.5 Opus。等于用手术刀削苹果。

本文是一篇实操指南。

核心操作

三层分级策略

第一层:轻量模型——日常80%的任务。 判断标准:不需要深度推理、不需要写代码、不需要读长文。典型任务:问答、润色、翻译、标题、邮件。推荐:MiniMax-abab6.5s。成本:~0.5元/百万token[¹]。

第二层:主力模型——日常15%的任务。 判断标准:需要写代码、写长文、数据分析。推荐:Claude Sonnet 4(编程首选)/ DeepSeek-V4-Flash(中文)。成本:~5-10元/百万token[¹]。

第三层:深度模型——日常5%的任务。 判断标准:需要架构设计、安全审查、深度研究。推荐:Claude 3.5 Opus / o1-mini / DeepSeek-R1。成本:~20-40元/百万token[¹]。

快速判断法

拿不准时问三个问题:

  1. 这个任务需要"创造力"吗?→ 需要 → 至少第二层
  2. 这个任务错了会有什么后果?→ 严重 → 至少第二层
  3. 这个任务以前人类做需要多少时间?→ >30分钟 → 至少第二层

三个都是"否"→第一层。一个"是"→第二层。两个以上"是"→第三层。

速度对比

模型首token延迟输出速度上下文窗口适合场景
MiniMax-abab6.5s0.3-0.8s80-120 tok/s128K实时对话、快速迭代
Claude Sonnet 40.8-1.5s50-80 tok/s200K日常编程、代码生成
DeepSeek-V4-Flash1.5-3.0s30-50 tok/s1M中文长文、全仓库分析
GLM-5.22.0-4.0s20-40 tok/s1M论文阅读、长文档分析
Moonshot-v11.0-2.0s40-60 tok/s256K创意写作、脚本
Claude 3.5 Opus3.0-8.0s20-40 tok/s200K架构设计、深度推理
o1-mini5.0-15.0s15-30 tok/s200K数学推理、复杂分析

速度不等于效率。Opus和o1-mini的"慢"是内部多步推理。如果你频繁打断模型嫌慢,说明用的模型太强了;如果回答缺乏深度,说明用的模型太弱了[¹]。

按供应商逐个分析

Claude系列:Sonnet写TypeScript时类型推断和错误处理明显优于其他模型。写复杂泛型函数,GPT可能给any,Sonnet给精确类型约束。劣势:中文用词偏正式。Opus在架构设计场景给你完整方案——服务边界、数据流、通信协议、容错策略,不是提纲。

DeepSeek系列:百万上下文是实质优势——把50个文件的NestJS项目全丢进去分析依赖关系。中文技术写作是强项。R1的思维链推理强但等待时间长(10-30秒才开始输出),不适合日常对话。

GPT系列:Codex在调试场景有"直觉"——描述bug现象经常直接猜到根因。o1-mini适合数学推理。GPT-5.6英文写作最自然。

Kimi系列:Moonshot-v1中文创意写作最好——公众号软文、短视频脚本、广告文案。技术文档不行。和DeepSeek是互补:DeepSeek长于技术文档(准确严谨),Kimi长于创意文案(生动有感染力)。

GLM系列:GLM-5.2在百万上下文模型里长文理解精度最高。读50页论文能准确找出方法论创新点、实验细节、结论局限性。

MiniMax系列:规则很简单——每次先问自己,MiniMax够不够?够了就省。 很多人低估MiniMax,在简单任务上和高端模型差距极小,速度极快(首token < 1s)。

完整决策树

写代码:日常功能→Sonnet 4 / 全仓库分析→DeepSeek V4 / 架构设计→Opus / 复杂Debug→GPT-5.6 / 中文项目→Qwen-Max / 写测试→MiniMax

写文章:中文技术→DeepSeek / 中文创意→Moonshot / 英文→GPT-5.6 / 翻译→qwen-mt-turbo / 润色→MiniMax

自媒体:选题分析→DeepSeek / 脚本→Moonshot / 标题→MiniMax / 英文出海→GPT-5.6

科研:文献调研→GLM-5.2 / 实验设计→Opus / 数据分析→GPT-5.6 / 论文润色→GPT-5.6 / 深度推理→o1-mini / 中文论文→DeepSeek

成本优化

原则一:80/20法则。 80%任务用MiniMax,月均约42元。全用Opus月均约510元——12倍差距[¹]。

原则二:设预算上限。 在灿海星图后台设每日调用上限。

原则三:用批处理。 不逐条发"翻译这句话",合并成"翻译这10句话"——节省90%的overhead。

模型路由机制

指定模型→路由引擎检查是否存在/健康→转发厂商API→返回。

不指定模型(自动路由):分析prompt特征→<500字符+中文→MiniMax / >10K字符→百万上下文模型 / 包含"写代码"→Sonnet 4 / 包含"架构"→Opus。

常见选模型错误

  • "反正不贵,都用最强的"→80%任务用轻量模型,Opus比MiniMax慢5倍消耗10倍token
  • "便宜模型质量差"→MiniMax在翻译润色上表现几乎无差异
  • "上下文越大越好"→很多任务不需要百万上下文,越大越慢越贵
  • "新模型一定比旧模型好"→新模型在某些场景可能退步
  • 生产环境固定用命名版本,不要用"最新"这类通配符

常见疑问

Q1:为什么不能所有任务全用最强模型?

80%的日常任务(翻译、润色、简单问答)轻量模型效果几乎没差别,但Opus速度慢5倍、消耗token多10倍。全用Opus月成本约510元,三层分级策略约42元——12倍差距。

Q2:Claude Sonnet和DeepSeek都能写代码,实际怎么选?

Sonnet类型推断和泛型处理更精确。DeepSeek百万上下文是关键优势——需要把整个项目仓库丢进去分析依赖关系,或输出以中文为主,选DeepSeek。日常功能开发首选Sonnet。

Q3:自动路由和手动指定,什么时候必须手动?

自动路由适合日常使用。生产环境或关键任务必须手动——自动路由可能把"请帮我设计微服务拆分方案"判断为普通问答,用轻量模型出浅薄方案。另外厂商原地升级导致模型行为变化时,手动固定命名版本避免突然翻车。

我为什么不用"一个模型打天下"的方案

OpenRouter这类聚合平台也支持多模型,但灿海星图的核心差异在于:(1) 中文模型覆盖——通义、Kimi、GLM、DeepSeek国产模型齐全;(2) 价格优势——内置议价能力,不是简单加价转卖;(3) 统一计费——一个账单看清所有模型消费,不用在厂商后台之间切换。