Kosten die uit de hand lopen

Hoe je budget-rails zet zonder je workflow te verstikken

Een maand aan het einde van het jaar. Je logt in bij Anthropic om je factuur te downloaden. Daar staat het bedrag. Vier keer hoger dan je had begroot. Ergens in je code zit een loop die per klantbericht drie keer Opus aanroept met een context van 40.000 tokens. Niemand heeft het opgemerkt, want het ging "gewoon goed". Dit is hoe AI-kosten sluipen. In deze les leer je waar het geld weglekt en hoe je het afknijpt zonder je product te verzwakken.

Wat een token eigenlijk kost

Frontier-modellen rekenen per miljoen tokens. Claude Sonnet 4.7 zit rond de 3 dollar per miljoen input en 15 dollar per miljoen output. Claude Opus 4.7 zit tussen de 15 en 75 dollar per miljoen, afhankelijk van input of output. GPT-5 en Gemini 2.x liggen vergelijkbaar. De kleinere modellen — Haiku, GPT-5-mini, Gemini Flash — zitten een factor tien tot honderd goedkoper.

Eén token is ruwweg drie tot vier tekens Nederlands. Een gemiddelde e-mail van 200 woorden is zo'n 350 tokens. Een langere handleiding kan 5.000 tokens zijn. Een volledig PHP-bestand 2.000 à 10.000. Als je hele klantdossiers als context meestuurt, kom je zonder moeite aan 50.000 tokens per call. Doe dat duizend keer per dag, en je zit boven de honderd euro per dag — voor één functie.

Waar het geld sluipt

Drie grote lekken komen het meest voor. Ten eerste: een loop zonder limiet. Een agent die "blijft proberen tot het lukt" en bij een bug in stilte miljoenen tokens verbrandt. Ten tweede: lange contexten als default, ook als een korte zou volstaan. Je gooit het hele klantdossier erin omdat het "maar veilig" is, elke keer opnieuw. Ten derde: het dure model als default, ook voor taken waar een klein model prima werkt. Opus voor een "ja/nee is dit een factuur?"-vraag is geldverspilling.

✦ De factor tien-trap

Van Haiku naar Sonnet is ongeveer factor vijf in kosten. Van Sonnet naar Opus nogmaals factor vijf. Als jij het dure model gebruikt waar het goedkope ook volstaat, betaal je vijfentwintig keer te veel. Dat klinkt dramatisch en is het ook — en het is tegelijk een van de makkelijkste wins van allemaal.

Budget-alerts, meteen

Zet bij elke provider een budget-alert op voordat je één productie-call doet. Anthropic, OpenAI en Google hebben alle drie een usage-dashboard met daily en monthly limits en e-mailwaarschuwingen. Stel een zachte grens (80% van verwacht budget) en een harde (100%). Als de harde wordt geraakt, stoppen de calls — je klant krijgt dan een foutmelding, maar je krijgt geen verrassing van duizend euro op kerstavond.

Dit is geen leuke klus, maar het kost tien minuten en redt je van dezelfde soort ramp die vroeger ontstond als een cronjob vastliep in een logfile die vol raakte. Verschil: tokens kosten geld per stuk.

Model-routing — paard voor elk karwei

De grootste besparing haal je met routing. Splits je taken in drie categorieën:

Simpel en repeterend: classificatie, extractie van velden, ja/nee, korte samenvattingen. Haiku, GPT-5-mini of Gemini Flash. Goedkoop, snel, meestal goed genoeg.
Gemiddeld en inhoudelijk: concept-teksten, e-mailantwoorden, redelijk complexe redeneringen. Sonnet of GPT-5. Sweet spot tussen prijs en kwaliteit.
Hard en kritisch: juridische analyse, complexe codegeneratie, meerstaps-redenering. Opus of GPT-5-pro. Duur maar nodig.

Een eerste cheap pass kan beslissen welke input door naar het dure model mag. Bij e-mailtriage: Haiku bepaalt welke mails überhaupt een inhoudelijk antwoord nodig hebben, Sonnet schrijft alleen voor die subset de concepten. Je behandelt 100% van de mails maar betaalt dure tokens voor misschien 20%.

Caching — betaal één keer voor wat je vaker leest

Prompt caching is sinds 2024 gemeengoed. Je plaatst een vaste systeem-prompt of vaste context vooraan je request met een cache-marker. Bij de eerste call gaat die door de gewone (hogere) prijs; bij latere calls binnen de cache-window (5 tot 60 minuten afhankelijk van provider) betaal je rond 10% van de normale input-prijs voor dat deel.

Voor een support-chatbot die telkens dezelfde handleiding van 30.000 tokens als context nodig heeft, is dat een reductie van 90% op dat deel van de kosten. Voor een code-assistent die elke call dezelfde architectuur-documentatie leest: idem. Als je merkt dat bepaalde context meermaals per sessie of per dag terugkomt, cache hem. Het is een kleine ingreep in je API-call met een grote rekening-impact.

Context opruimen

Langere context is niet gratis en ook niet altijd beter. Veel modellen presteren slechter bij volgeladen contexten dan bij strakke, relevante contexten. Stuur alleen mee wat nodig is. Gebruik retrieval om de juiste stukken op te halen in plaats van hele dossiers. Vervang volledige geschiedenis door samenvattingen als de chatsessie langer dan tien rondes duurt. Strip overbodige HTML, lege regels en boilerplate voor je iets naar de API stuurt.

Een PHP-helper van twintig regels die input-tekst schoonmaakt en overbodige witruimte verwijdert kan zomaar 20% van je tokens schrappen. Die runt in een microseconde en spaart jou maandelijks echte euro's.

✦ Rate-limiting je eigen code

Zet in je eigen applicatie een per-klant- of per-user-limiet: bijvoorbeeld maximaal X calls of Y tokens per uur per account. Dat beschermt tegen misbruik én tegen je eigen bugs. Een redis-counter of zelfs een MySQL-tabel met een simpele check is genoeg. Wanneer je dat bedenkt als je 300% over budget zit, ben je een week te laat.

Wanneer wordt self-hosting goedkoper

Open-source modellen — Llama 3.x, Mistral, Qwen — zijn in 2026 sterk genoeg voor veel zakelijke taken. Op eigen hardware kunnen ze concurrerend zijn met de middenklasse frontier-modellen. Maar de break-even ligt hoger dan veel mensen denken.

Een GPU-server met een behoorlijke kaart is al gauw 500 tot 1500 euro per maand, afhankelijk van of je cloud-GPU huurt of eigen hardware koopt. Voor minder dan ongeveer honderd miljoen tokens per maand (vuistregel) ben je goedkoper uit met een frontier-API. Pas boven dat volume, met consistente belasting, begint self-hosting lonend te worden. En dan betaal je met tijd: patches, schaalbaarheid, GPU-drivers, rate-limiting zelf bouwen. Voor de meeste solo-SaaS-bouwers is dat nog geen rationele keuze.

De uitzondering: een klein, gespecialiseerd model voor één taak (classificatie, embeddings) kan lokaal op een bescheiden server prima draaien. Voor de generieke, creatieve taken blijft een frontier-API voorlopig de zuinigste keuze.

Sonnet versus Opus — een concrete vergelijking

Stel je wil 10.000 klantvragen per maand afhandelen. Gemiddeld 2.000 tokens input, 500 tokens output per vraag. Dan zit je op 20 miljoen input en 5 miljoen output tokens per maand.

Met Sonnet: 20 × 3 + 5 × 15 = 60 + 75 = 135 dollar per maand.

Met Opus: 20 × 15 + 5 × 75 = 300 + 375 = 675 dollar per maand.

Vijf keer het verschil. Als je met Sonnet 95% kwaliteit haalt en met Opus 98%, is de vraag niet welke beter is — de vraag is of die 3% extra kwaliteit 540 dollar per maand waard is. Voor de meeste klantvragen: nee. Voor de juridische adviezen van je tophoek klanten: ja. Routing, niet default.

Drie dingen om mee te nemen

Budget-alerts zijn niet optioneel. Zet ze voor je de eerste productie-call doet. Ze zijn de brandmelder van je serverkosten.
Route op taak, niet op merk. Klein model voor simpele taken, middel voor de bulk, duur model alleen waar het echt nodig is. Dat is 80% van de kostenwinst.
Cache en strip. Prompt caching en strakke contexten zijn makkelijke besparingen van tientallen procenten. Gratis ontwerp-discipline.

Genoeg over wat er fout kan gaan. In de volgende week wordt het hands-on: drie uitgewerkte cases die je vanaf nul kunt bouwen. We beginnen bij de offerte-generator.

Tot dan. Blijf scherp.

Case 1: AI-geassisteerde offerte-generator