Wat kost AI eigenlijk?
Tokens, pricing en waar je portemonnee leegloopt
Een bevriende ondernemer lanceerde vorig jaar een AI-widget in zijn webshop — een slimme productzoeker waar klanten in natuurlijke taal konden vragen "iets warms voor buiten onder de 80 euro". Briljante feature, klanten waren enthousiast. De dag na de nieuwsbrief kreeg hij een API-factuur van 900 euro, in één etmaal. Verkeerde model, geen caching, geen limiet op tokens per gesprek. Het idee klopte; de rekenkunde niet. In deze les zorgen we dat dát jou niet overkomt.
Tokens zijn je munteenheid
Alle grote AI-aanbieders rekenen in tokens. Je betaalt twee dingen: de input (alles wat je aan het model stuurt) en de output (alles wat het model je teruggeeft). De output is meestal drie tot vijf keer zo duur als de input, omdat elke output-token "live" gegenereerd moet worden terwijl input-tokens alleen gelezen worden.
Prijzen in 2026, als ruwe indicatie: Claude Sonnet zit rond $3 per miljoen input-tokens en $15 per miljoen output-tokens. Claude Haiku ligt rond $1 input en $5 output. Claude Opus is fors duurder — vaak 4 tot 5 keer Sonnet. GPT-5 en Gemini Pro zitten in dezelfde ordes van grootte als Sonnet. Gemini Flash en kleine modellen gaan nog onder Haiku. Getallen schommelen per maand — aanbieders verlagen prijzen geregeld. Neem ze altijd rechtstreeks van de officiële prijspagina voor je calculatie.
Een miljoen tokens klinkt veel, maar het is sneller op dan je denkt. Eén klantmail heen en weer is al gauw 1.500 tokens. Een gesprekje van vijf beurten met een chatbot waar de geschiedenis steeds meegestuurd wordt — waar we zo op terugkomen — kan makkelijk 10.000 tokens worden.
Eén token is ongeveer 0,75 woord in het Engels, en iets meer in het Nederlands — reken zo'n 0,6 tot 0,7 woord. Een A4-pagina tekst is ongeveer 500 woorden, dus 700 tot 850 tokens. Een boek van 300 pagina's is zo'n 200.000 tokens. Een gemiddelde klantenservice-chat (5 beurten, context-historie erbij) is 5.000 tot 15.000 tokens.
Rekenvoorbeeld: een klantenservice-widget
Laten we concreet worden. Stel je bouwt een klantenservice-chat op je webshop. Elke gespreksbeurt bestaat uit:
- System prompt met instructies: 500 tokens
- Kennisbank-snippets (FAQ's, retourbeleid): 2.000 tokens
- Gespreksgeschiedenis tot nu toe: gemiddeld 800 tokens
- Nieuwe vraag van de klant: 100 tokens
- Antwoord van het model: 300 tokens output
Totaal per beurt: 3.400 input + 300 output tokens. Met Claude Sonnet: (3.400 × $3 + 300 × $15) / 1.000.000 = ongeveer $0,015. Oftewel 1,5 cent per beurt. Met Haiku: ongeveer 0,5 cent per beurt. Bij 10.000 beurten per maand: $150 op Sonnet, $50 op Haiku.
Tot zover nog behapbaar. Maar let op de valkuil van de gespreksgeschiedenis. Als je "het hele gesprek" elke beurt meestuurt, groeit die input lineair. Een klant die 15 keer heen en weer typt, krijgt op de 15e beurt misschien 8.000 tokens geschiedenis meegestuurd. Die tokens tellen elke keer opnieuw als input. Dat is waar het hard kan gaan.
De vier plekken waar je portemonnee leegloopt
Eén: je gebruikt een te groot model voor een simpele taak. Een klant classificeren als "boos" of "tevreden"? Daar heb je geen Opus voor nodig. Sterker, een Haiku of zelfs een kleine open-source model doet dat prima. Check altijd of een goedkoper model het ook kan.
Twee: je stuurt te veel context mee. Als je systemprompt 10.000 tokens is omdat je "voor de zekerheid" alle FAQ's meestuurt, betaal je elke call voor al die zekerheid. Ga slim selecteren: pak alleen de FAQ-items die relevant lijken op basis van de vraag, niet alles tegelijk.
Drie: geen limiet op gesprekslengte. Laat een gesprek niet ongelimiteerd doorgroeien. Vat periodiek de geschiedenis samen in een paar zinnen, of knip de oude beurten gewoon weg. Een gesprek dat over vijftig beurten loopt, moet niet nog steeds de eerste vraag meesturen.
Vier: uitlopende output door vage prompts. Vraag je "schrijf een mail", dan krijg je misschien 600 tokens output. Vraag je "schrijf een mail van maximaal 4 zinnen", dan krijg je er 150. Output is duur. Wees altijd specifiek over de lengte die je wilt.
Elke grote aanbieder (Anthropic, OpenAI, Google) laat je een maandbudget instellen per project of API-key. Doe dat direct bij elke nieuwe deployment. Zelfs al ken je je code, een bug of een misbruik-aanval kan in een paar uur honderden euro's verbranden. Een hard budget is je veiligheidsnet.
Prompt caching — de knop die weinig mensen indrukken
Hier komt een techniek die je factuur kan halveren. Als je dezelfde lange context (system prompt, FAQ's, documentatie) bij elke call meestuurt, kun je die caches. Je betaalt dan de eerste keer vol, maar bij volgende calls binnen een tijdsraam (meestal 5 minuten tot een uur) betaal je voor die gecachte tokens een fractie — bij Anthropic typisch 10% van de normale input-prijs.
Concreet: als je system prompt 5.000 tokens is en je doet 100 calls in een uur, betaal je die 5.000 tokens één keer vol en 99 keer tegen 10%. Dat is 99 × 90% besparing op die 5.000 tokens = een stevige korting, vooral als je veel calls doet met dezelfde basis.
Niet elk gebruik leent zich voor caching. Eenmalige, verschillende calls profiteren nauwelijks. Maar klantenservice-widgets, dashboards die steeds dezelfde context nodig hebben, en batch-verwerkingen met vaste prompts — daar is caching bijna altijd de moeite waard om aan te zetten.
Batch-verwerking voor werk dat niet direct moet
Als je niet direct antwoord nodig hebt — bijvoorbeeld: 's nachts 10.000 klantmails categoriseren voor een rapport — dan hebben OpenAI en Anthropic batch-API's waarbij je werk indient dat binnen 24 uur klaar moet zijn. In ruil daarvoor krijg je ongeveer 50% korting op zowel input als output. Voor offline-werk is dat een no-brainer.
Kleine modellen eerst, grote modellen voor moeilijk
Een patroon dat veel serieuze bouwers gebruiken: probeer elke taak eerst op het kleine model. Als de output een bepaalde confidence-drempel haalt, ben je klaar. Zo niet — stuur hem door naar het grote model. Zo betaal je alleen het dure tarief waar het écht nodig is. Dit heet een "cascade" en kan je totaalrekening makkelijk met 60-70% drukken zonder waarneembaar kwaliteitsverlies.
Voor classificatie-taken werkt het prachtig: 90% van de mails is duidelijk "retour-verzoek" of "factuurvraag" en kan door Haiku worden afgedaan. De 10% twijfelgevallen gaan naar Sonnet. Je betaalt zo ongeveer 15% van wat een "alles op Sonnet"-aanpak zou kosten.
Monitoring: je kunt pas sturen wat je meet
Bouw vanaf dag één logging in. Per call wil je weten: welk model, hoeveel input-tokens, hoeveel output-tokens, welke klant of feature. Als je dat niet hebt en je factuur is ineens drie keer zo hoog, kun je niet achterhalen waar het fout ging. Elke grote aanbieder biedt een dashboard met basis-cijfers, maar voor serieus inzicht log je zelf — in een tabelletje, een spreadsheet, of bij volwassen gebruik een tool als Helicone of Langfuse.
Een mentale checklist voor elke feature
Voordat je iets met AI naar productie rolt, loop je langs deze vragen: Welk model gebruik ik, en is dat het goedkoopste dat deze taak aankan? Heb ik een max-tokens-limiet op zowel input als output gezet? Heb ik een maandbudget op mijn API-key? Gebruik ik prompt caching waar mogelijk? Is de gesprekshistorie gecapped? Log ik elk gebruik zodat ik na een week kan terugkijken? Als je op al die zes vragen "ja" kunt zeggen, zit je goed.
Drie dingen om mee te nemen
- Reken vooruit, niet achteraf. Voordat je een feature bouwt, maak een ruwe kostenschatting: tokens per call, verwacht aantal calls per maand, model-tarief. Als het getal je doet schrikken, pas het ontwerp aan vóór je bouwt, niet na je eerste dure maand.
- Goedkoop eerst, duur alleen als het moet. Klein model als standaard, groot model als fallback. Caching aan, batch waar kan, output-limiet streng. Deze vier knoppen samen maken het verschil tussen een betaalbaar en een onhoudbaar product.
- Budget op je API-key is verplicht, geen optie. Eén bugje, één misbruik-aanval, één oneindige loop — en zonder plafond sta je in de min. Zet het zelfs voor je testomgeving. Het duurt één minuut en het redt ooit een zware nacht.
In de volgende les verlaten we de rekenmachine en gaan we naar de ambacht: de prompt. Want zelfs het duurste model geeft je matig werk met een matige prompt, en zelfs een goedkoop model doet verrassend veel met een scherpe instructie. De vier bouwstenen van een goede prompt, dat wordt het volgende stuk.
Tot dan. Reken voor je bouwt.