Prompt caching เป็นอีกหนึ่ง feature ที่น่าสนใจ
ที่ provider ต่าง ๆ เพิ่มเข้ามา ทั้ง OpenAI, Gemini, Anthropic และ DeepSeek
ซึ่งจะทำ caching ของ prompt + context ต่าง ๆ ให้เรา
เพื่อช่วยลดค่าใช้จ่ายลงไป รวมทั้งช่วยให้สามารถ share context ได้
และเพิ่ม performance ของการทำงานอีกด้วย
นั่นคือ ลด response time ลงไป
โดยที่ OpenAI จะทำการ caching ให้กับทุก ๆ API ที่ใช้งาน model เหล่านี้
- gpt-4o (excludes gpt-4o-2024-05-13 and chatgpt-4o-latest)
- gpt-4o-mini
- o1-preview
- o1-mini
ซึ่งจะทำ caching ให้อัตโนมัติ สำหรับ prompt ที่มีความยาวมากกว่า 1,024 tokens
จะเหมาะมาก ๆ สำหรับ structured prompt
สิ่งที่ OpenAI จะทำ caching ให้ประกอบไปด้วย
- Message
- Images
- Structured output
ส่วนของ Anthropic นั้นต้องเขียนใช้งาน caching ใน code เลย
โดยใช้งาน anthropic.beta.prompt_caching.messages.create()
จำนวนของ token ที่จะทำ caching ได้แบ่งตาม model ดังนี้
- Claude Sonnet >= 1,024 tokens
- Claude Haiku >= 2,048 tokens
โดย use cases ที่เหมาะต่อการใช้งาน
- Agent ที่ใช้งาน tool และ structured output
- Chatbot เพื่อเห็บ context ที่ใช้ในการพูดคุย
- กลุ่มของ Coding และ writing assistant
ดังนั้นอะไรที่เป็น static จะใช้ประโยชน์จาก caching อย่างมาก
ลองใช้งานกันดูครับ
Reference Websites
- OpenAI :: Prompt Caching in the API
- Anthropic :: Prompt Caching (beta)
- Gemini :: Context caching
- DeepSeek :: Context caching