如果你在用 Claude API 做客服、RAG 或代码助手,最近的几项更新很值得立刻跟进:更长的输出、更清晰的引用、更省钱的提示复用,以及更好用的控制台工具。下面按“能马上用起来”的角度,把 Claude API 新功能梳理一遍。
更长输出:Sonnet 扩展到 8192 tokens
Claude API 已支持 Claude Sonnet 3.5 的扩展输出能力,单次最大输出从 4096 提升到 8192。对长文总结、代码生成、报告撰写这类任务,截断会明显减少。
启用方式也很直接:在调用 Claude API 时加上指定的 beta 请求头即可,让服务端放宽该模型的输出上限。上线前建议先用同一组输入对比扩展前后的结尾完整度与幻觉率,再决定默认是否开启。
长上下文:Sonnet 提供 1M token 测试支持
Claude API 在 Claude Sonnet 4 上提供了超长上下文窗口的测试支持,并同步提高了长上下文相关的速率限制。对“整仓库代码审阅”“整套合同/投标文件比对”“跨多章节知识库问答”这类任务,长上下文会显著减少分段拼接的工程成本。
需要注意的是,长上下文并不等于更便宜:当提示过长时计费与吞吐会更敏感。实际落地时可以把“必须进上下文的原文”与“可检索的资料”分层,避免把所有内容一次性塞满。
引用与搜索结果内容块:RAG 更像“可核对的答案”
Claude API 已提供引用能力,用于在回答中给出来源归属;同时,搜索结果内容块也已正式可用,适合搭配检索增强生成(RAG)做“带出处的回复”。对合规、法务、售后知识库这类场景,引用能减少扯皮成本:用户能看到答案依据来自哪里。
