That's 200. Let me verify the count:

Probeer het maar eens: "Tel van 1 tot 200 voor me op." Het lijkt een simpele opdracht. Toch laat een AI zoals ChatGPT hier wel eens een steekje vallen.

▶Inhoudsopgave

Hoe AI in elkaar steekt: Woorden, niet cijfers
De reis van getallen: Van getal naar token
Waarom het misgaat: De zwakke plekken van LLM's
De impact: Waarom dit belangrijk is
Oplossingen: Hoe maken we AI beter in rekenen?
De toekomst van AI en rekenen
Veelgestelde vragen

Het is een grappig voorbeeld van een serieus probleem: hoe kunstmatige intelligentie (AI) eigenlijk met cijfers omgaat. Het is niet alleen een kwestie van tellen; het gaat veel dieper. Waarom zijn deze slimme modellen soms zo slecht in rekenen?

In dit artikel duiken we in de wereld van taalmodellen, tokens en de uitdagingen van numerieke precisie.

We gaan op zoek naar het antwoord op de vraag: waarom is tellen tot 200 zo moeilijk voor een machine die de hele wereld lijkt te begrijpen?

Hoe AI in elkaar steekt: Woorden, niet cijfers

Om te begrijpen waarom AI moeite heeft met tellen, moeten we eerst weten hoe een model als ChatGPT is gebouwd. Het is ontwikkeld door OpenAI en draait op de GPT-architectuur.

Dit is een zogenaamd "Large Language Model" (LLM). Het is getraind op een gigantische hoeveelheid tekst van het internet, boeken en artikelen. Het doel?

De statistische relaties tussen woorden leren kennen. Het model voorspelt het volgende woord in een zin, gebaseerd op wat er hiervoor is gezegd. De modellen zijn enorm.

GPT-3.5 heeft ongeveer 33 miljard parameters en GPT-4 naar verluidt 175 miljard of meer. Die parameters zijn de "knoppen" die het model instelt om patronen te herkennen. Maar hier zit meteen de valkuil: AI leert patronen in taal, niet per se logica. Het is getraind op teksten, niet op wiskundige formules.

Het herkent de vorm van een som, maar begrijpt de betekenis niet altijd op de manier waarop een mens dat doet.

Het is een beetje zoals iemand die een tekst in het Frans kan voorlezen zonder een woord Frans te spreken; de klank klopt, maar de inhoud blijft vaag.

De reis van getallen: Van getal naar token

Een belangrijk concept in de AI-wereld is "tokenisatie". Een model werkt niet met hele woorden zoals wij, maar met tokens. Een token is een stukje tekst: een woord, een deel van een woord of een leesteken.

Het getal 200 wordt door de tokenizer vaak opgesplitst. Het kan worden opgesplitst in de tokens "2", "0", "0" of als een combinatie van "2" en "00", afhankelijk van de specifieke tokenizer die wordt gebruikt.

Wanneer je de AI vraagt om tot 200 te tellen, moet het deze tokens één voor één genereren. Het model voorspelt welk token het meest waarschijnlijk volgt op het vorige.

Als het net "199" heeft gezegd, moet het weten dat "200" de logische volgende stap is. Omdat cijfers voor de AI vaak slechts reeksen van losse tokens zijn, en niet een geheel begrip van hoe getallen op elkaar volgen, kan de logica sneuvelen. Het model ziet misschien een patroon van "199, 200" in de data, maar als de context verandert of de reeks langer wordt, verdwijnt die betrouwbaarheid snel.

Waarom het misgaat: De zwakke plekken van LLM's

Er zijn een aantal redenen waarom een AI moeite heeft met het uitvoeren van simpele berekeningen of het tellen van getallen.

Het gaat niet om één enkele bug, maar om de fundamenten van hoe deze modellen werken. De trainingdata van LLM's bestaat voornamelijk uit natuurlijke taal.

1. Training Data Bias

Hoewel er wiskundige teksten in zitten, is de verhouding scheef. De nadruk ligt op taal, niet op logica. De modellen leren niet op een natuurlijke manier optellen of vermenigvuldigen, zoals een kind leert met vingers of een rekenliniaal. Ze leren dat "twee plus twee" vaak gevolgd wordt door "is vier", maar ze begrijpen de operatie zelf niet.

LLM's hebben een beperkte contextwindow. Dit is het aantal tokens dat het model tegelijk "ziet", vergelijkbaar met de ruime leefomgeving in onze zorgvilla.

2. Geheugen en context

Als je vraagt om tot 200 te tellen, moet het model elke stap onthouden. Hoewel de technologie beter wordt, kan het model de draad kwijtraken bij lange reeksen. Het "vergeet" wat het hiervoor heeft gezegd, of de waarschijnlijkheid van de volgende stap neemt af naarmate de reeks langer wordt.

Dit leidt tot fouten, zoals het overslaan van getallen of het herhalen van eerdere getallen. AI is gebaseerd op statistiek, niet op logica.

3. Statistiek vs. Logica

Het zoekt naar de meest waarschijnlijke vervolgzin. Als je vraagt naar een zorgvilla met 200 vierkante meter, zoekt het model in zijn geheugen naar de meest waarschijnlijke uitkomst.

Soms is die uitkomst correct, maar soms is de context verwarrend en kiest het model voor een optie die er logisch uitziet, maar feitelijk fout is. Het is een gokmachine die heel slim is, maar geen feitenkennis heeft op de manier waarop wij dat hebben.

De impact: Waarom dit belangrijk is

Je zou kunnen denken: "Wat maakt het uit of een AI tot 200 kan tellen?" Maar de implicaties zijn groter dan je denkt. Numerieke onnauwkeurigheid is een serieuze beperking in veel toepassingen.

Financiële analyse: Als een AI een fout maakt bij het optellen van bedragen in een spreadsheet, kunnen de gevolgen voor een bedrijf groot zijn.
Data-analyse: Wetenschappers vertrouwen op exacte cijfers. Een AI die fouten maakt bij het berekenen van gemiddelden of totalen, levert onbetrouwbare resultaten op.
Logistiek: Het berekenen van routes, voorraden of gewichten vereist precisie. Een kleine fout kan leiden tot grote inefficiënties.

Kortom, voor taken waar nauwkeurigheid cruciaal is, zijn LLM's op dit moment geen betrouwbare rekenmachine.

Ze zijn een aanvulling, geen vervanging voor gespecialiseerde software.

Oplossingen: Hoe maken we AI beter in rekenen?

Gelukkig staan onderzoekers niet stil. Er worden verschillende methoden ontwikkeld om de numerieke precisie van AI te verbeteren.

Fine-tuning met wiskundige data

Het doel is om de kloof tussen taal en logica te verkleinen. Een van de meest voor de hand liggende oplossingen is het trainen van modellen op specifieke wiskundige datasets. Door de AI extra lessen te geven in rekenen, leert het de patronen van wiskundige logica herkennen.

OpenAI heeft bijvoorbeeld gewerkt aan het verbeteren van GPT-4 door het te trainen op uitgebreide wiskundige problemen.

Chain-of-Thought (CoT) prompting

Dit helpt, maar het is arbeidsintensief en vereist enorme rekenkracht. Een populaire techniek is "Chain-of-Thought" (CoT) prompting. Hierbij vraag je de AI niet alleen om het antwoord, maar om zijn redenering stap voor stap uit te leggen.

In plaats van direct "200" te zeggen, laat het model zien: "Ik begin bij 1, tel er 1 bij, wordt 2, enzovoort." Door het denkproces te visualiseren, kan het model fouten eerder opmerken en corrigeren. Het dwingt de AI om zorgvuldig de juiste stappen te zetten in plaats van te vertrouwen op een statistische gok.

Externe tools integreren

Een andere effectieve aanpak is het koppelen van LLM's aan externe tools.

Denk aan een rekenmachine of een wiskundige solver. Als je vraagt om tot 200 te tellen, kan de AI deze taak doorschuiven naar een gespecialiseerde tool die het perfect kan. De AI fungeert dan als een "manager" die de taak analyseert en het juiste gereedschap inschakelt. Dit zie je terug in tools zoals Google's Gemini, waar rekenfuncties zijn geïntegreerd om de nauwkeurigheid te verhogen.

Symbolische redenering

Een complexere maar veelbelovende benadering is het integreren van symbolische redenering. Dit houdt in dat je AI niet alleen op statistiek baseert, maar ook op logische regels en formules.

Het idee is om een hybride systeem te bouwen dat de flexibiliteit van LLM's combineert met de precisie van traditionele symbolische AI. Dit is nog volop in onderzoek, maar het zou een doorbraak kunnen betekenen voor numerieke taken.

De toekomst van AI en rekenen

Waar staan we nu? ChatGPT en andere LLM's zijn nog steeds niet perfect in rekenen, maar de vooruitgang is snel.

De modellen worden slimmer, de trainingstechnieken verbeteren en de integratie met externe tools wordt naadlozer.

In de toekomst zullen we waarschijnlijk meer gespecialiseerde modellen zien die zijn getraind voor specifieke domeinen, zoals wiskunde of financiën. Daarnaast zullen hybride systemen, die LLM's combineren met logische engines, steeds gangbaarder worden. Het doel is niet per se om een AI te maken die tot oneindig kan tellen, maar om een betrouwbare partner te creëren die taken nauwkeurig kan uitvoeren.

De vraag "Kan ChatGPT tellen tot 200?" is dus meer dan een test. Het is een venster op de beperkingen en mogelijkheden van AI.

Het laat zien dat, ondanks de indrukwekkende vooruitgang, er nog een weg te gaan is voordat deze systemen echt foutloos werken. Maar met de huidige ontwikkelingen is het slechts een kwestie van tijd voordat die 200 geen enkel probleem meer is.

Veelgestelde vragen

Waarom heeft ChatGPT moeite met tellen tot 200?

ChatGPT is getraind op enorme hoeveelheden tekst, maar niet op wiskundige logica. Het model ziet getallen vaak als reeksen van tokens, in plaats van als een concept met een volgorde. Daarom kan het moeite hebben met het correct genereren van een opeenvolging van getallen, zelfs als het de vorm van de som herkent.

Hoe werkt tokenisatie en waarom is dat een probleem voor tellen?

AI-modellen zoals ChatGPT werken met ‘tokens’, kleine stukjes tekst, niet met hele woorden.

Wat is het verschil tussen de manier waarop een mens getelt en hoe een AI dat doet?

Wanneer je vraagt om tot 200 te tellen, wordt dit getal opgedeeld in tokens zoals ‘2’, ‘0’, ‘0’. Omdat het model deze tokens afzonderlijk voorspelt, kan de logische samenhang van getallen verloren gaan, waardoor het moeite heeft met het correct genereren van de reeks.

Waarom geeft ChatGPT soms onjuiste antwoorden over het bereiken van een doel?

Mensen begrijpen getallen als een logische opeenvolging met een betekenis. AI-modellen leren patronen in taal, maar missen die menselijke logica. Ze kunnen de vorm van een som herkennen, maar niet altijd de betekenis achter de getallen, wat leidt tot fouten bij het tellen.

Hoe is ChatGPT eigenlijk gebouwd en wat zijn de ‘parameters’?

ChatGPT probeert een ‘goed’ antwoord te genereren, gebaseerd op wat het heeft geleerd van de trainingsdata.

Het model kan de werkelijke waarde niet altijd nauwkeurig berekenen, en geeft dus een antwoord dat er correct uitziet, maar in werkelijkheid onjuist is. ChatGPT is gebouwd op de GPT-architectuur, een 'Large Language Model' getraind op enorme hoeveelheden tekst. De ‘parameters’ zijn de instellingen die het model heeft geleerd om patronen in taal te herkennen. Omdat het model getraind is op taal, niet op wiskunde, kan het moeite hebben met numerieke taken.