这次主要聊 Claude API 的几项实用新能力:提示缓存、引用与搜索结果内容块,以及更细的工具调用控制。它们不花哨,但能明显影响成本、延迟和可控性。下面按“你能怎么用”的角度快速拆开讲清楚。
提示缓存:把重复的系统提示先存起来
如果你的 Claude API 场景里有大量重复的系统提示(例如统一的客服话术规则、固定的抽取格式、长的业务背景),提示缓存会很合适。官方说明中,缓存后复用可将延迟降低最高约 80%,成本降低最高约 90%,对批量任务特别友好。
实践上建议把“长期不变的部分”拆到可缓存段,把“每次变化的用户输入”单独放在后续消息里。这样 Claude API 既能保持输出一致,又不会每次为同一段长提示重复计费。
引用能力与搜索结果内容块:RAG 更容易做对
Claude API 已提供引用能力,用来给回答里的关键信息做来源归属。做知识库问答或检索增强生成时,引用能减少“看起来很对但其实没证据”的尴尬,也方便你在前端把来源展示给用户核对。
另外,搜索结果内容块已转为正式能力,更适合把外部检索结果以“可引用的结构”交给模型处理。你可以让 Claude API 在总结时带上引用标记,再由业务侧决定是否强制“无引用不输出结论”。
