Chain-of-thought en reasoning-modellen

Laat het model hardop denken — en weet wanneer dat loont

Hier is een bekende puzzel: Er liggen drie lampen op een tafel, alledrie uit. Je moet in één tot twaalf kaarsen gieten, elk brandend — laat maar. De versie waar het om gaat: "Als Jan drie appels heeft en er twee weggeeft, en Mia vijf appels heeft en er één erbij krijgt — wie heeft er dan meer?" Simpel voor jou. Niet altijd simpel voor een taalmodel dat token voor token het meest plausibele volgende woord voorspelt. Tenzij je één zin toevoegt: "denk stap voor stap". Ineens begint het model te redeneren, en de accuraatheid op dit soort vraagjes schiet omhoog. Welkom bij chain-of-thought, en bij de nieuwe generatie modellen die dit trucje standaard ingebakken hebben.

Wat chain-of-thought is, in gewone woorden

Een taalmodel is van nature geen redeneerder. Hij is een voorspeller. Geef je hem een vraag en vraag direct om een antwoord, dan gokt hij het meest plausibele antwoord — wat voor eenvoudige feitjes prima werkt maar voor meerstaps-problemen niet. De oplossing, ontdekt rond 2022: vraag het model om zijn werk te laten zien. Niet meteen het antwoord, maar eerst het redeneren, stap voor stap.

De klassieke formulering is bijna te simpel om serieus te nemen. Je zet aan het eind van je prompt: "Denk stap voor stap." Dat is het. Het model gaat dan niet meteen naar het antwoord, maar schrijft eerst kleine stukjes redenering op. En omdat het model zijn eigen eerdere tokens steeds meeweegt bij het voorspellen van nieuwe, bouwt het zo een steeds betere basis voor zijn uiteindelijke antwoord.

Er zijn nog een paar variaties die net even anders werken. "Laat je werk zien." "Werk het probleem uit voordat je het antwoord geeft." "Schrijf eerst je redenering op, dan pas de conclusie." Allemaal triggers voor hetzelfde effect: geef het model token-ruimte om na te denken voordat het commit.

✦ Waarom dit eigenlijk werkt

Zie een model als iemand die een zin moet afmaken zonder tijd om na te denken. Vraag je direct "is 47 een priemgetal?" dan moet hij gokken. Laat je hem eerst opschrijven "47 gedeeld door 2 is geen heel getal, door 3 niet, door 5 niet, door 7 is ongeveer 6,7, en de wortel van 47 is ongeveer 6,9 dus we zijn klaar — dus ja, 47 is priem" — dan heeft hij intermediaire tokens die zijn uiteindelijke antwoord veel betrouwbaarder maken. Tokens zijn zijn werkgeheugen.

Reasoning-modellen — denken ingebouwd

Sinds 2024 is er een aparte categorie modellen gekomen: reasoning-modellen. OpenAI begon met de o1-familie, doorontwikkeld naar o3. Anthropic heeft bij Claude "extended thinking" of "thinking mode" in sommige varianten. DeepSeek bracht DeepSeek R1 uit, open source. Google heeft vergelijkbare functionaliteit in Gemini.

Het idee: deze modellen denken automatisch hardop voordat ze antwoorden, in een apart "thinking" gedeelte dat je wel of niet kunt tonen. Ze zijn getraind om uitgebreid door problemen te werken, alternatieven te verkennen, en pas dan te antwoorden. Op logica-, wiskunde- en planningstaken scoren ze fors beter dan gewone modellen. Voor bepaalde code-problemen ook.

Het heeft een prijs. Reasoning-modellen zijn trager — soms tien keer zo traag — en duurder, want al die denk-tokens tel je mee. Een eenvoudige vraag die op een gewoon model een halve seconde en drie cent kost, kan op een reasoning-model tien seconden en dertig cent kosten. Voor een live widget is dat te veel, voor een offline analyse is het niets.

Wanneer het loont

Chain-of-thought en reasoning-modellen renderen het best op taken met deze eigenschappen:

Meerdere stappen. "Bereken het BTW-bedrag, voeg transportkosten toe, geef de totaalprijs en leg uit hoe je eraan komt."
Logica of eliminatie. "Welke van deze vijf leveranciers past het best bij onze criteria, en waarom?"
Rekenkunde of data-analyse. "Gegeven deze omzetcijfers, bepaal de trend en voorspel het volgende kwartaal."
Debuggen. "Deze code geeft een onverwachte output bij input X. Vind de bug."
Afwegingen maken. "Welke van deze drie ontwerpopties past het best bij de eisen, en wat zijn de trade-offs?"

Bij dit soort taken zie je vaak dat de accuraatheid van 60-70% (gewoon model, direct antwoord) naar 85-95% (chain-of-thought of reasoning-model) stijgt. Dat is het verschil tussen "leuk demo" en "bruikbaar in productie".

Wanneer het juist averechts werkt

Niet elke taak wint bij "denk stap voor stap". Sommige taken zelfs verliezen. Hier een aantal voorbeelden waar je het juist niet doet:

Creatieve tekst. Als je een prachtig gedicht, een pakkende koptekst, of een origineel verhaal wilt — laat het model niet eerst analyseren. Creativiteit leeft van associatie, niet van stap-voor-stap redeneren. Je krijgt blander werk als je het dwingt te redeneren.

Classificatie met duidelijke labels. Moet een mail geclassificeerd worden als "retour" of "klacht"? Dan wil je snel een antwoord, niet een epistel over waarom. Few-shot voorbeelden (vorige les) zijn hier beter dan chain-of-thought.

Stijl-matchen. Een tekst herschrijven in een bepaalde stijl gaat beter door voorbeelden te geven dan door het model te vragen "te analyseren welke stijl passend is". Je wilt imitatie, geen reflectie.

Simpele feitelijke vragen. "Wat is de hoofdstad van Duitsland?" Geen redenering nodig. Chain-of-thought maakt het antwoord niet beter en maakt de call duurder.

Waar consistentie telt. Reasoning-modellen zijn minder voorspelbaar in hun output-vorm. Als je in je code een strikt JSON-schema terug moet krijgen, is een gewoon model op temperature 0 vaak veiliger dan een reasoning-model.

✦ De simpele keuzeregel

Heb je een taak waar een mens ook even zou moeten nadenken — rekenen, afwegen, analyseren? Gebruik chain-of-thought of een reasoning-model. Heb je een taak waar een mens direct een gevoel of een antwoord bij heeft — herkennen, schrijven, classificeren? Gebruik een gewoon model, direct.

Een concreet voorbeeld uit de praktijk

Stel je bouwt een offerte-systeem. Een klant vult wensen in, jij wilt dat AI helpt met het opstellen van een offerte met prijzen, kortingen en leveringsvoorwaarden. Twee aanpakken.

Aanpak 1 — direct: "Gegeven deze klantwensen en onze prijslijst, genereer een offerte." Het model gokt en produceert meestal een offerte met kleine rekenfouten of onlogische kortingen.

Aanpak 2 — chain-of-thought: "Gegeven deze klantwensen en onze prijslijst:
1) bereken eerst de basissom per regel,
2) pas daarna de juiste staffelkorting toe,
3) voeg transportkosten toe volgens de regels,
4) controleer of de totaalprijs klopt met de som van de regels,
5) stel dan pas de offertetekst op.
Werk stap voor stap en laat je rekenwerk zien."

Aanpak 2 duurt langer en kost meer tokens, maar geeft een offerte die klopt. Voor iets wat de klant ingaat, is die extra zekerheid elke cent waard.

Reasoning tonen of verbergen

Bij reasoning-modellen kun je meestal kiezen: geef je het redeneergedeelte mee aan je eindgebruiker, of toon je alleen de conclusie? Voor klantgerichte output is het meestal verbergen — je klant hoeft het worstel-proces niet te zien. Voor intern gebruik (audit, debugging, controle van hoe een beslissing tot stand kwam) juist wel tonen. Zo weet je later of het model het om de juiste redenen goed had.

Combineren met andere technieken

Chain-of-thought sluit niets anders uit. Je kunt het combineren met few-shot (voorbeelden waarin óók de redenering zichtbaar is — heel krachtig), met rol-definities, met specifieke output-formats. Een veelgebruikt patroon: geef een voorbeeld waarin het redeneren en het eindantwoord beide staan. Het model leert dan zowel wat hij moet redeneren als in welke vorm het eindantwoord moet komen.

Het werkt ook fijn met structuur-instructies: "Laat je redenering zien tussen <denken>-tags, en geef dan het eindantwoord tussen <antwoord>-tags." Zo kun je de redenering in je logging bewaren maar alleen het antwoord aan de klant tonen.

Een klein moment van terughoudendheid

Chain-of-thought is krachtig maar geen wondermiddel. Als het probleem gewoon te moeilijk is voor het model, of als de context ontoereikend is, zal redeneren het niet oplossen — het maakt alleen dat de foute conclusie overtuigender klinkt. Een model dat verkeerd redeneert, lijkt aan zijn stappen-lijstje een gezag te ontlenen dat het niet heeft. Controleer steekproefsgewijs of de redenering ook klopt. Fouten in stap 2 komen via stap 5 naar boven als "klopt" — maar alleen als je ernaar kijkt.

Drie dingen om mee te nemen

"Denk stap voor stap" is de goedkoopste upgrade die er is. Bij analytische taken kan één zin in je prompt het verschil zijn tussen 70% en 90% accuraatheid. Gratis, bij elk model.
Reasoning-modellen zijn voor specifieke taken, niet voor alles. Traag en duur voor simpel werk, magistraal voor logica en planning. Gebruik ze gericht, niet als standaard.
Creativiteit en classificatie houden niet van redeneren. Chain-of-thought is een hamer — prachtig voor spijkers, minder voor schroeven. Kies de techniek die past bij de taak in plaats van een favoriet voor alles in te zetten.

Dit was de afsluiter van het tweede hoofdstuk. Je hebt nu het fundament om serieus te werk te gaan: wat een model is, welke je wanneer gebruikt, wat het kost, en hoe je prompts bouwt die écht werken. In de volgende hoofdstukken gaan we naar integratie in je product, agents die tools aanroepen, en ethiek en veiligheid. De gereedschapskist is van nu af aan steeds voller.

Tot dan. Denk scherp, en laat het denken zien.

Vervangbaar vs onvervangbaar