На этот раз разберём несколько практичных новых возможностей Claude API: кэширование промптов, цитирование и блоки содержимого результатов поиска, а также более тонкий контроль вызова инструментов. Они не «показные», но заметно влияют на стоимость, задержку и управляемость. Ниже быстро разложим по полочкам с точки зрения «как это использовать».
Кэширование промптов: заранее сохраняем повторяющиеся системные подсказки
Если в вашем сценарии Claude API много повторяющихся системных промптов (например, единые правила для службы поддержки, фиксированный формат извлечения, длинный бизнес-контекст), кэширование промптов отлично подходит. Согласно официальному описанию, повторное использование после кэширования может снизить задержку до ~80% и стоимость до ~90%, что особенно полезно для пакетных задач.
На практике рекомендуется вынести «долгосрочно неизменяемую часть» в кэшируемый сегмент, а «каждый раз меняющийся пользовательский ввод» — отдельно, в последующие сообщения. Так Claude API сможет сохранять единообразие вывода и при этом не будет каждый раз повторно тарифицировать один и тот же длинный промпт.
Возможности цитирования и блоки содержимого результатов поиска: RAG проще сделать правильно
Claude API уже поддерживает цитирование, чтобы привязывать ключевую информацию в ответе к источникам. В задачах вопросов-ответов по базе знаний или в retrieval-augmented generation цитаты помогают избежать неловких ситуаций «выглядит правдоподобно, но доказательств нет», а также позволяют на фронтенде показывать пользователю источники для проверки.
Кроме того, блоки содержимого результатов поиска переведены в статус официальной возможности — так удобнее передавать внешние результаты поиска модели в «структуре, пригодной для цитирования». Вы можете попросить Claude API при суммировании проставлять маркеры цитат, а затем на стороне приложения решить, стоит ли принудительно требовать правило «нет цитат — нет вывода».


