选型指南
不确定用哪个模型?
按你的场景给出首选与备选 —— Claude、GPT、Gemini 同一接口、同一把 key,随时切换。下方还有一张能力对比矩阵。
日常对话 / 写作
聊天机器人、文案、摘要、改写等通用文本任务。
Sonnet 4.6 质量与成本最均衡;预算更紧可用 Gemini 2.5 Flash。
代码 / Agent
写代码、重构、工具调用、多步自动化(Agent)。
Sonnet 4.6 是编码性价比首选;要最强推理上 Opus 4.8 或 GPT-5。
复杂推理 / 深度分析
数学、复杂推断、长链路分析、高质量长文创作。
质量优先选 Opus 4.8(注意不支持 temperature);GPT-5 为推理模型,用 max_completion_tokens。
超长文档 / 检索
整本手册、海量上下文、RAG 检索增强。
Gemini 2.5 Pro 提供 100 万 tokens 上下文;思考型,记得给足 max_tokens(≥4096)。
低延迟 / 客服
实时对话、意图识别、需要快速首字响应的场景。
Haiku 4.5 延迟低、便宜;Gemini 2.5 Flash 同样快且带超长上下文。
高并发 / 低成本批处理
大批量分类、标注、抽取等对单价敏感的任务。
Flash-Lite 单价最低且支持百万上下文;GPT-4o mini / 5.4 nano 也很省。
多模态 / 视觉
图文混合输入、看图问答、带视觉的理解任务。
GPT-4o 多模态成熟;Gemini 2.5 Pro 视觉 + 超长上下文,Claude 系列也支持视觉输入。
能力与价格对比矩阵
全部为当前可调用模型。价格单位「元 / 百万 tokens」,完整定价见 价格表。
| 模型 | 厂商 | 档位 | 上下文 | 输入 | 输出 | 擅长 |
|---|---|---|---|---|---|---|
| Claude Opus 4.8 | Anthropic | 旗舰 | 200K | ¥53.3 | ¥266.3 | 复杂推理深度分析长文创作 |
| Claude Sonnet 4.6 | Anthropic | 标准 | 200K | ¥32 | ¥159.8 | 代码推理长文档 |
| Claude Haiku 4.5 | Anthropic | 经济 | 200K | ¥10.7 | ¥53.3 | 低延迟高并发客服 |
| GPT-5 | OpenAI | 旗舰 | 400K | ¥13.3 | ¥106.5 | 复杂推理代码Agent |
| GPT-5.4 | OpenAI | 旗舰 | 400K | ¥26.6 | ¥159.8 | 复杂推理代码Agent |
| GPT-5.5 | OpenAI | 旗舰 | 400K | ¥53.3 | ¥319.5 | 复杂推理代码Agent |
| GPT-4o | OpenAI | 标准 | 128K | ¥26.6 | ¥106.5 | 多模态视觉代码 |
| GPT-5 mini | OpenAI | 标准 | 400K | ¥2.7 | ¥21.3 | 高性价比低延迟 |
| GPT-5.4 mini | OpenAI | 标准 | 400K | ¥8 | ¥47.9 | 高性价比低延迟 |
| GPT-4o mini | OpenAI | 经济 | 128K | ¥1.6 | ¥6.4 | 低成本高并发 |
| GPT-5.4 nano | OpenAI | 经济 | 400K | ¥2.1 | ¥13.3 | 低成本高并发 |
| Gemini 2.5 Pro | 旗舰 | 1M | ¥13.3 | ¥106.5 | 超长上下文多模态视频理解 | |
| Gemini 2.5 Flash | 标准 | 1M | ¥3.2 | ¥26.6 | 超长上下文低延迟多模态 | |
| Gemini 2.5 Flash-Lite | 经济 | 1M | ¥1.1 | ¥4.3 | 超长上下文超低成本多模态 |
一句话速选
- 不知道选啥 → Claude Sonnet 4.6,综合最稳。
- 要最强质量、不在乎成本 → Claude Opus 4.8 / GPT-5。
- 上下文超大(整本文档/海量检索)→ Gemini 2.5 Pro(100 万 tokens)。
- 要快、要便宜、跑量 → Haiku 4.5 / Gemini 2.5 Flash-Lite。
- GPT-5 系列是推理模型 → 用
max_completion_tokens;Opus 4.8 不支持temperature(详见 文档)。