Beim Arbeiten stelle ich der KI Fragen — und bekomme Antworten. Hier ein paar davon, unbearbeitet und im Original-Wortlaut. Genau so, wie sie entstanden sind.
Wie funktioniert das mit den Tokens und dem Kontext? Wie viel wird vom Kontext jedes Mal nach einer neuen Nachricht geschickt? Sind auch deine Output-Tokens vom letzten Request dann Input-Tokens beim nächsten Request?
Kurz gesagt: Die API ist zustandslos (stateless). Das Modell „erinnert" sich zwischen zwei Requests an nichts. Jeder einzelne Request muss die komplette bisherige Konversation enthalten, sonst wäre sie weg.
Was bei jedem Request als Input geht
Es wird also nicht „ein Delta" geschickt, sondern jedes Mal der ganze Kontext erneut.
Deine eigentliche Frage: ja. Die Output-Tokens des letzten Requests werden im nächsten Request zu Input-Tokens — sie sind nicht „gratis", nur weil sie schon einmal generiert wurden.
Das Wachstumsmuster
Turn 1: Input = System + Msg1
Turn 2: Input = System + Msg1 + Output1 + Msg2
Turn 3: Input = System + Msg1 + Output1 + Msg2 + Output2 + Msg3
Bei ähnlich langen Nachrichten wächst die kumulierte Input-Menge über eine Konversation hinweg grob quadratisch. Darum werden lange Chats spürbar teurer und stoßen irgendwann ans Kontextfenster (bei den Claude-Modellen i. d. R. 200K Tokens; was beim Überschreiten passiert — abschneiden, zusammenfassen — entscheidet der Client, nicht das Modell).
Wo Prompt Caching reinkommt
Der stabile Präfix (System-Prompt, frühe Turns) wird zwischengespeichert. Cache-Reads kosten nur ca. 10 % des normalen Input-Preises, der Cache-Write ca. das 1,25-fache. Da bei langen Konversationen der Großteil des Inputs jedes Mal derselbe Präfix ist, drückt das die Kosten erheblich.
Wenn ich als Entwickler mit der KI zu einem Projekt kommuniziere — wird die Konversation gespeichert für späteres Training, damit die KI aus Fehlern lernt, die ich im Verlauf einer Session korrigiert habe?
Gute Frage — sie hat zwei Ebenen: die rechtlich-organisatorische (wird gespeichert und fürs Training verwendet?) und die technische (lernt die KI tatsächlich aus deinen Korrekturen?).
Wird gespeichert / fürs Training verwendet?
Bei den Consumer-Plänen (Free, Pro, Max — einschließlich Claude Code über so ein Konto) gilt seit dem 28.08.2025: Neue Modelle werden mit diesen Daten trainiert, wenn die Einstellung aktiv ist — als Opt-out. Wer nichts unternimmt, ist standardmäßig dabei; die Aufbewahrung kann bis zu fünf Jahre betragen. Bei Opt-out bleibt es bei 30 Tagen ohne Trainingsnutzung.
Anders bei API-Zugang und Geschäftskonten (Claude for Work / Government / Education, API): Dort wird standardmäßig nicht fürs Training verwendet.
Lernt die KI aus deinen Korrekturen innerhalb einer Session?
Für projektübergreifendes Wissen ist Training also der falsche Hebel — dafür eignen sich CLAUDE.md, Memory oder gezieltes Wiedereinspielen, das du selbst kontrollierst.
Das ist kein Widerspruch zur Idee, dass Programmierer sich selbst abschaffen. Das „Opt-out" setzen sicher nur wenige Entwickler — so ist das bei Opt-out üblich. Bei „Opt-in" wäre es genau umgekehrt: Nur wenige würden aktiv dafür sorgen, dass ihre Daten ins Training wandern.
Unbearbeitet wiedergegeben. Mehr solcher Dialoge folgen.