AI agent bouwen voor je MKB: wat 1.000 gesprekken je leert
Wij draaien een AI klantcontact-agent die inmiddels meer dan 1.000 gesprekken per week afhandelt. Dit is een eerlijk verslag van wat we in de eerste weken niet wisten en welke vijf architectuurkeuzes bepalen of jouw agent slaagt of stilstaat.
TL;DR: Wij draaien een AI klantcontact-agent die inmiddels meer dan 1.000 gesprekken per week afhandelt voor MKB-klanten. Dit artikel is geen framework-tutorial. Het is een eerlijk verslag van wat we in de eerste weken niet wisten, wat er echt misging, en welke vijf architectuurkeuzes bepalen of jouw agent over zes maanden nog betrouwbaar draait of stilstaat.
De gangbare opvatting dat je een AI agent in een dag kunt bouwen is technisch waar. Praktisch is het misleidend. De bouw duurt een dag; de betrouwbaarheid bereiken die je nodig hebt om klanten te bedienen duurt 4-8 weken van monitoren, bijsturen en edge cases afvangen. Dat is het eerlijke verhaal dat dit artikel vertelt.
Wil je eerst een overzicht van wat een AI medewerker voor jouw bedrijf kan betekenen? Lees dan Een AI Medewerker Inzetten: De Ultieme Gids. Dit artikel gaat over de stap daarna: hoe bouw je het goed?
Wat is een echte AI agent (en wat is het niet)?
80% van wat "AI agent" wordt verkocht is een n8n- of Zapier-flow met een GPT-call erin. Dat is geen agent, dat is een conditionele workflow. Nuttig, goedkoop en snel te bouwen, maar fragiel bij onverwachte invoer en niet schaalbaar als de business groeit.
Het onderscheid is praktisch, niet theoretisch. Er zijn drie niveaus die je moet kennen voordat je een beslissing neemt:
Laag 1: Workflow met LLM-call n8n, Make of Zapier met een AI-stap erin. De flow bepaalt de beslissing, niet het model. Als een klant iets vraagt dat buiten het script valt, loopt hij vast of krijgt hij een generiek antwoord. Goed startpunt voor eenvoudige routering of sortering, geen eindpunt voor complexe meerstapsprocessen.
Laag 2: Agentic loop De agent evalueert zijn eigen output en besluit zelfstandig een volgende stap. Frameworks: LangGraph (Python, maximale controle over de beslissingsboom), CrewAI (meerdere rollen, goed voor parallelle taken) of de Claude Agent SDK van Anthropic (snel te integreren, sterke ingebouwde safety-guardrails). Dit is het niveau waarbij je van "automatisering" naar "autonomie" gaat, en waarbij het actieve onderhoud begint.
Laag 3: Multi-agent orkestratie Meerdere gespecialiseerde agents werken samen onder één orchestratoragent. Gartner voorspelt dat minder dan 1% van enterprise-software dit had in 2024; in 2028 zal dat 33% zijn (bron: stratalytic.nl, AI Trends 2026). Ons data-enrichment platform, dat dagelijks meer dan 100 bedrijven verwerkt via KvK-koppelingen en Google-crawlers, draait op dit niveau.
Het cruciale inzicht: de keuze tussen laag 1 en laag 2 is geen technische keuze, het is een onderhoudskeuze. Laag 2 vereist monitoring, logging en actief beheer. Begin pas met laag 2 als je die capaciteit hebt of wil inrichten.
De vijf architectuurkeuzes die bepalen of je agent overleeft
Dit is de kern van het artikel. Vijf beslissingen bepalen of jouw agent over zes maanden nog betrouwbaar draait. Neem ze voordat je begint te bouwen, want achteraf zijn ze duur om te wijzigen.
| Beslissing | Lichtvoetige keuze (snel live) | Productiegerade keuze (duurzaam) |
|---|---|---|
| Trigger | Handmatige knop of tijdschema | Webhook of event-driven (direct bij actie in systeem) |
| Geheugen | Stateloos: elke run start fresh | Stateful: session memory plus vector database |
| Toolset | Zoveel mogelijk integraties | Maximaal 3 tools per agent; elke extra verhoogt het hallucination-risico |
| Escalatiepaden | Agent doet zijn best | Expliciete stop-condities: agent stopt en escaleert naar mens |
| Monitoring | Geen logging | Elke run gelogd: input, output en beslissing |
Over geheugen: de meest gemaakte fout is stateloos beginnen en pas na drie weken ontdekken dat multi-turn gesprekken breken. Een klant die in bericht vier terugverwijst naar bericht één krijgt dan een antwoord alsof het gesprek net begint. Frustrerend voor de klant, lastig te traceren zonder logs.
Over toolset: meer tools betekent meer mogelijkheden, maar ook een grotere kans op hallucination-loops. Een agent die e-mails stuurt, CRM bijwerkt, agenda inplant én facturen aanmaakt, maakt vaker de verkeerde keuze dan een agent die alleen mag e-mailen en escaleren. Begin smal en breid uit op basis van bewijs.
Over escalatiepaden: agents zonder expliciete escalatiegrenzen sturen soms zelfstandig e-mails naar klanten met foutieve informatie. Definieer altijd wanneer de agent stopt en een mens inschakelt. Dat is geen beperking, dat is een veiligheidsmechanisme.
Voor de planning en fasering van het bouwproces: AI-agent in 6 weken voor je MKB. Dit artikel gaat over architectuurkeuzes; dat artikel over tijdlijn en iteraties.
Wat er in productie echt kapotgaat (na week 1)
De demo werkte perfect. Na een week in productie is dat een ander verhaal. Dit zijn onze eigen observaties uit productiesystemen die inmiddels maanden draaien.
Intent-drift in de eerste weken. Bij de klantcontact-agent, inmiddels goed voor meer dan 1.000 gesprekken per week, viel in de eerste vier weken 15 tot 20% van de gesprekken buiten de verwachte intent-categorieën. De agent escaleerde inconsistent: de ene keer stuurde hij een klant door naar een medewerker, de andere keer gaf hij een gedeeltelijk correct antwoord zonder door te verwijzen. De oplossing was niet technisch: wekelijkse reviews van alle escalaties in de eerste twee maanden, plus een iteratieve uitbreiding van de intent-library op basis van de werkelijke gesprekken. Na week 12 was het percentage onverwachte intents gedaald naar minder dan 5%.
Datakwaliteit is agentintelligentie. Ons data-platform verrijkt dagelijks meer dan 100 bedrijven via KvK-data en Google-crawlers. Wat we leerden: agents die draaien op onvolledige of verouderde data geven misleidende antwoorden, niet door een model-fout, maar door een data-fout. CRM-data veroudert 20 tot 30% per jaar (bron: bedrijfsdata.nl). Als jouw agent informatie ophaalt uit een CRM dat voor het laatst werd opgeschoond in 2023, zit die veroudering direct in de klantantwoorden.
Dit is de les die vrijwel geen enkel NL-artikel over AI agents noemt: het model en het framework zijn niet de bottleneck. De datakwaliteit is de bottleneck.
Prompt drift. Na circa 500 gesprekken begon onze klantcontact-agent licht af te wijken van de gewenste toon en structuur. Oorzaak: de context window liep vol met legacy-conversaties die nieuwe gesprekken kleurden. Oplossing: sessiegeheugen comprimeren bij meer dan 10 turns. Zonder monitoring ontdek je dit pas als een klant klaagt.
De vier meest voorkomende productiefouten op een rij:
- Geen geheugen: agent "vergeet" context in multi-turn gesprekken en behandelt elk bericht als een nieuw ticket
- Te breed systeemprompt: agent doet te veel, prioriteert verkeerd en geeft inconsistente antwoorden naarmate de situatie complexer wordt
- Geen logging: blinde vlek voor falende edge cases; je denkt dat alles goed gaat terwijl 15% van de gesprekken inconsistent escaleert
- Data-rot: verouderde brondata geeft verouderde antwoorden (20-30% van CRM-records veroudert jaarlijks)
Frameworks vergelijken: welke kies je voor jouw use case?
Geen encyclopedische vergelijking, maar een praktische beslissingstabel:
| Use case | Aanbevolen aanpak | Reden |
|---|---|---|
| E-mailsortering of routering | n8n no-code (Laag 1) | Geen overkill, snel live, lage onderhoudsdrempel |
| Klantcontact met multi-turn gesprekken | Claude Agent SDK of n8n + session memory | Balans controle en snelheid |
| Leadkwalificatie met CRM-update | CrewAI of LangGraph | Stateful, meerdere opeenvolgende beslissingen vereist |
| Complexe multi-agent orkestratie | LangGraph | Maximale controle over de uitvoeringsgraph |
Kostenrealiteit bij 1.000 gesprekken per week: verwacht €150 tot €400 per maand aan API-kosten, afhankelijk van het model (GPT-4o, Claude Sonnet, Gemini Flash) en de gemiddelde gespreklengte. Maatwerk laten bouwen kost bij een NL-bureau €100 tot €150 per uur; een middelgroot project loopt op tot €20.000 tot €60.000 (bron: clevertech.nl, 2026). Wil je eerst valideren met leadopvolging? Leadopvolging automatiseren met AI laat zien hoe je klein begint met bewezen impact.
Zelf bouwen of laten bouwen?
Een eerlijk overzicht van de beslissingscriteria:
| Criterium | Zelf bouwen | Laten bouwen |
|---|---|---|
| Developer in huis (Python/TypeScript) | Ja: vereist voor laag 2 | Nee: externe partij regelt dit |
| Bedrijfskritiek proces | Nee: begin met intern experiment | Ja: met afspraken en SLA |
| Budget maatwerk (>€15.000) | Niet nodig voor laag 1 | Beschikbaar voor maatwerk |
| Vendor lock-in vermijden | Eigen codebase, meer controle | Afhankelijk van bureauaanpak |
| Snelheid eerste werkende versie | 4-8 weken | 6-12 weken inclusief briefing |
Eerlijk advies: als je geen developer hebt en het budget is beperkt, begin dan met een n8n-flow (Laag 1). Schaal pas op naar Laag 2 als die flow aantoonbaar tegen zijn grenzen loopt. Wil je een MVP bouwen zonder volledig devteam? Vibe Coding bij NDO is een tussenweg die steeds vaker werkt voor MKB-bedrijven die snel willen valideren.
Wij zijn niet het goedkoopste alternatief. Maar we bouwen geen PowerPoints, we bouwen werkende systemen. Bekijk onze cases voor concrete voorbeelden uit de praktijk.
Wanneer is jouw MKB-bedrijf klaar voor een autonome agent?
Gebruik de onderstaande checklist voordat je de knoop doorhakt. Zijn 4 van de 5 items groen? Dan ben je klaar om te starten. Zijn er minder dan 4? Los dan eerst de ontbrekende punten op, anders bouw je weken aan een agent die op dag één al problemen veroorzaakt.
## Readiness-checklist: autonome AI agent voor MKB
- [ ] Ik heb een afgebakend proces met een duidelijke trigger en een duidelijk eindresultaat
- [ ] Mijn CRM of brondata is actueel en volledig voor minimaal 80% van de gevallen
- [ ] Er is iemand beschikbaar voor wekelijkse monitoring in de eerste 4-8 weken
- [ ] Ik heb escalatiepaden gedefinieerd: wie neemt over als de agent vastloopt?
- [ ] Ik kan de ROI kwantificeren: <uren bespaard per week> x <uurloon medewerker>
Score:
- 5/5 = klaar om te bouwen
- 3-4/5 = los de ontbrekende punten op, start daarna
- 0-2/5 = begin met een Laag 1 workflow (n8n of Make)
Een agent die draait op rommelige data of zonder escalatiepad is erger dan geen agent: hij geeft klanten verkeerde antwoorden terwijl jij denkt dat alles goed gaat. Dat is de les die wij in de eerste maand op de harde manier leerden.
Wil je sparren over welke architectuur bij jouw use case past? Plan een gratis gesprek.
