2026-06-23·灿海星图指南

100个模型怎么选：5分钟决策树

返回博客

金

金柘

#灿海星图#模型选择#Claude#GPT#DeepSeek

朋友上个月看了我的灿海星图账单——42块。他打开自己的Anthropic账单，510块。我看了他的调用记录：翻译、润色、写邮件标题，全用的Claude 3.5 Opus。等于用手术刀削苹果。

本文是一篇实操指南。

核心操作

三层分级策略

第一层：轻量模型——日常80%的任务。 判断标准：不需要深度推理、不需要写代码、不需要读长文。典型任务：问答、润色、翻译、标题、邮件。推荐：MiniMax-abab6.5s。成本：~0.5元/百万token[¹]。

第二层：主力模型——日常15%的任务。 判断标准：需要写代码、写长文、数据分析。推荐：Claude Sonnet 4（编程首选）/ DeepSeek-V4-Flash（中文）。成本：~5-10元/百万token[¹]。

第三层：深度模型——日常5%的任务。 判断标准：需要架构设计、安全审查、深度研究。推荐：Claude 3.5 Opus / o1-mini / DeepSeek-R1。成本：~20-40元/百万token[¹]。

快速判断法

拿不准时问三个问题：

这个任务需要"创造力"吗？→ 需要 → 至少第二层
这个任务错了会有什么后果？→ 严重 → 至少第二层
这个任务以前人类做需要多少时间？→ >30分钟 → 至少第二层

三个都是"否"→第一层。一个"是"→第二层。两个以上"是"→第三层。

速度对比

模型	首token延迟	输出速度	上下文窗口	适合场景
MiniMax-abab6.5s	0.3-0.8s	80-120 tok/s	128K	实时对话、快速迭代
Claude Sonnet 4	0.8-1.5s	50-80 tok/s	200K	日常编程、代码生成
DeepSeek-V4-Flash	1.5-3.0s	30-50 tok/s	1M	中文长文、全仓库分析
GLM-5.2	2.0-4.0s	20-40 tok/s	1M	论文阅读、长文档分析
Moonshot-v1	1.0-2.0s	40-60 tok/s	256K	创意写作、脚本
Claude 3.5 Opus	3.0-8.0s	20-40 tok/s	200K	架构设计、深度推理
o1-mini	5.0-15.0s	15-30 tok/s	200K	数学推理、复杂分析

速度不等于效率。Opus和o1-mini的"慢"是内部多步推理。如果你频繁打断模型嫌慢，说明用的模型太强了；如果回答缺乏深度，说明用的模型太弱了[¹]。

按供应商逐个分析

Claude系列：Sonnet写TypeScript时类型推断和错误处理明显优于其他模型。写复杂泛型函数，GPT可能给any，Sonnet给精确类型约束。劣势：中文用词偏正式。Opus在架构设计场景给你完整方案——服务边界、数据流、通信协议、容错策略，不是提纲。

DeepSeek系列：百万上下文是实质优势——把50个文件的NestJS项目全丢进去分析依赖关系。中文技术写作是强项。R1的思维链推理强但等待时间长（10-30秒才开始输出），不适合日常对话。

GPT系列：Codex在调试场景有"直觉"——描述bug现象经常直接猜到根因。o1-mini适合数学推理。GPT-5.6英文写作最自然。

Kimi系列：Moonshot-v1中文创意写作最好——公众号软文、短视频脚本、广告文案。技术文档不行。和DeepSeek是互补：DeepSeek长于技术文档（准确严谨），Kimi长于创意文案（生动有感染力）。

GLM系列：GLM-5.2在百万上下文模型里长文理解精度最高。读50页论文能准确找出方法论创新点、实验细节、结论局限性。

MiniMax系列：规则很简单——每次先问自己，MiniMax够不够？够了就省。 很多人低估MiniMax，在简单任务上和高端模型差距极小，速度极快（首token < 1s）。

完整决策树

写代码：日常功能→Sonnet 4 / 全仓库分析→DeepSeek V4 / 架构设计→Opus / 复杂Debug→GPT-5.6 / 中文项目→Qwen-Max / 写测试→MiniMax

写文章：中文技术→DeepSeek / 中文创意→Moonshot / 英文→GPT-5.6 / 翻译→qwen-mt-turbo / 润色→MiniMax

自媒体：选题分析→DeepSeek / 脚本→Moonshot / 标题→MiniMax / 英文出海→GPT-5.6

科研：文献调研→GLM-5.2 / 实验设计→Opus / 数据分析→GPT-5.6 / 论文润色→GPT-5.6 / 深度推理→o1-mini / 中文论文→DeepSeek

成本优化

原则一：80/20法则。 80%任务用MiniMax，月均约42元。全用Opus月均约510元——12倍差距[¹]。

原则二：设预算上限。 在灿海星图后台设每日调用上限。

原则三：用批处理。 不逐条发"翻译这句话"，合并成"翻译这10句话"——节省90%的overhead。

模型路由机制

指定模型→路由引擎检查是否存在/健康→转发厂商API→返回。

不指定模型（自动路由）：分析prompt特征→<500字符+中文→MiniMax / >10K字符→百万上下文模型 / 包含"写代码"→Sonnet 4 / 包含"架构"→Opus。

常见选模型错误

"反正不贵，都用最强的"→80%任务用轻量模型，Opus比MiniMax慢5倍消耗10倍token
"便宜模型质量差"→MiniMax在翻译润色上表现几乎无差异
"上下文越大越好"→很多任务不需要百万上下文，越大越慢越贵
"新模型一定比旧模型好"→新模型在某些场景可能退步
生产环境固定用命名版本，不要用"最新"这类通配符

常见疑问

Q1：为什么不能所有任务全用最强模型？

80%的日常任务（翻译、润色、简单问答）轻量模型效果几乎没差别，但Opus速度慢5倍、消耗token多10倍。全用Opus月成本约510元，三层分级策略约42元——12倍差距。

Q2：Claude Sonnet和DeepSeek都能写代码，实际怎么选？

Sonnet类型推断和泛型处理更精确。DeepSeek百万上下文是关键优势——需要把整个项目仓库丢进去分析依赖关系，或输出以中文为主，选DeepSeek。日常功能开发首选Sonnet。

Q3：自动路由和手动指定，什么时候必须手动？

自动路由适合日常使用。生产环境或关键任务必须手动——自动路由可能把"请帮我设计微服务拆分方案"判断为普通问答，用轻量模型出浅薄方案。另外厂商原地升级导致模型行为变化时，手动固定命名版本避免突然翻车。

我为什么不用"一个模型打天下"的方案

OpenRouter这类聚合平台也支持多模型，但灿海星图的核心差异在于：(1) 中文模型覆盖——通义、Kimi、GLM、DeepSeek国产模型齐全；(2) 价格优势——内置议价能力，不是简单加价转卖；(3) 统一计费——一个账单看清所有模型消费，不用在厂商后台之间切换。

查看所有文章 →