Quantcast
Channel: cc :: somkiat
Viewing all articles
Browse latest Browse all 1997

ว่าด้วยเรื่องของ Prompt Caching

$
0
0

Prompt caching เป็นอีกหนึ่ง feature ที่น่าสนใจ
ที่ provider ต่าง ๆ เพิ่มเข้ามา ทั้ง OpenAI, Gemini, Anthropic และ DeepSeek
ซึ่งจะทำ caching ของ prompt + context ต่าง ๆ ให้เรา
เพื่อช่วยลดค่าใช้จ่ายลงไป รวมทั้งช่วยให้สามารถ share context ได้
และเพิ่ม performance ของการทำงานอีกด้วย
นั่นคือ ลด response time ลงไป

โดยที่ OpenAI จะทำการ caching ให้กับทุก ๆ API ที่ใช้งาน model เหล่านี้

  • gpt-4o (excludes gpt-4o-2024-05-13 and chatgpt-4o-latest)
  • gpt-4o-mini
  • o1-preview
  • o1-mini

ซึ่งจะทำ caching ให้อัตโนมัติ สำหรับ prompt ที่มีความยาวมากกว่า 1,024 tokens
จะเหมาะมาก ๆ สำหรับ structured prompt

สิ่งที่ OpenAI จะทำ caching ให้ประกอบไปด้วย

  • Message
  • Images
  • Structured output

ส่วนของ Anthropic นั้นต้องเขียนใช้งาน caching ใน code เลย

โดยใช้งาน anthropic.beta.prompt_caching.messages.create()
จำนวนของ token ที่จะทำ caching ได้แบ่งตาม model ดังนี้

  • Claude Sonnet >= 1,024 tokens
  • Claude Haiku >= 2,048 tokens

โดย use cases ที่เหมาะต่อการใช้งาน

  • Agent ที่ใช้งาน tool และ structured output
  • Chatbot เพื่อเห็บ context ที่ใช้ในการพูดคุย
  • กลุ่มของ Coding และ writing assistant

ดังนั้นอะไรที่เป็น static จะใช้ประโยชน์จาก caching อย่างมาก

ลองใช้งานกันดูครับ

Reference Websites


Viewing all articles
Browse latest Browse all 1997

Trending Articles