heise+ | KI-Kosten reduzieren: Wie man mit Prompt-Caching messbar Token sparen kann (opens original article in a new tab)
Prompt-Caching reduziert KI-Kosten und erhöht die Antwortgeschwindigkeit, indem es interne Berechnungen wiederverwendet. Lokal kann die Geschwindigkeit um das Zehnfache steigen, in der Cloud bis zu 90 Prozent der Token sparen. Die Struktur des Prompts ist entscheidend für die Effektivität.
- Prompt-Caching speichert interne Berechnungsergebnisse eines gleichbleibenden Promptpräfixes, um Token zu sparen.
- Die Technik kann die Inferenzgeschwindigkeit lokal um das Zehnfache steigern und in der Cloud die Kosten um 90 Prozent reduzieren.
- Stabile Inhalte sollten am Anfang des Prompts stehen, variable Daten am Ende.
Conversation
No comments yet
Threaded discussion is coming next — this is where the community conversation about this story will live.