AI prompt engineering in 2026: het echte verschil tussen een goede en slechte prompt

Prompt engineering klinkt als een buzzword voor "ChatGPT-trucjes". Maar in productie-AI — waar je voorspelbare output wilt voor klantvragen, dossiers of rapporten — is de prompt het verschil tussen een AI die in 60% van de gevallen werkt en een AI die in 95% werkt. Dit artikel: 6 patterns die we in onze klant-projecten gebruiken, plus de drie meestgemaakte fouten.

Wat is prompt engineering precies?

Prompt engineering is het ontwerpen van de instructies die een large language model krijgt, zodat de output consistent en bruikbaar is voor een specifieke taak. Het is geen "tips om ChatGPT beter te laten antwoorden" voor je vakantieplanning — dat is prompt-curiosity. Echte prompt engineering gaat over reproduceerbare resultaten in een productiesetting waar je duizenden keren dezelfde vraag stelt aan een AI.

Het is de bouwsteen onder élke serieuze AI-toepassing: customer support agents, document-samenvattingen, code generation, classificatie-systemen, e-mail-triage. De model-keuze (GPT-4, Claude, Gemini) speelt een rol — maar de prompt-architectuur bepaalt 60-80% van de output-kwaliteit.

Anatomie van een productie-prompt

Elke serieuze prompt bestaat uit zes onderdelen, in deze volgorde:

Rol — wie is de AI nu? "Je bent een ervaren accountant die..." Geeft context aan toon en kennisdomein.
Doel — wat moet er bereikt worden? "Beantwoord de klantvraag..."
Constraints — wat mag wel/niet? "Maximaal 3 alinea's. Gebruik geen vakjargon. Geef nooit advies over X."
Context — kennis die de AI nodig heeft. Vaak via RAG of als directe injectie.
Voorbeelden — 1-3 voorbeeld-input + voorbeeld-output. Hier zit de meeste kwaliteits-impact.
Output-format — hoe moet het antwoord eruitzien? JSON, markdown, plain text, Nederlands of Engels.

Pattern 1 — Few-shot prompting

De krachtigste single-pattern. Geef 2-3 concrete input/output-paren als voorbeeld voordat je de echte vraag stelt. De AI leert het patroon en repliceert het.

Voorbeeld few-shot

Classificeer klantvragen als: factuur / support / sales

Vraag: "Mijn laatste factuur klopt niet"
Categorie: factuur

Vraag: "De software hangt steeds vast"
Categorie: support

Vraag: "Hebben jullie ook een enterprise-versie?"
Categorie: sales

Vraag: "Hoe kan ik mijn betaalgegevens wijzigen?"
Categorie: ?

Waarom dit werkt: de AI ziet drie keer hoe een vraag verbonden wordt met een categorie en past hetzelfde patroon toe op de vierde. Drie voorbeelden is meestal het sweet spot — minder dan 2 te onbetrouwbaar, meer dan 5 zelden extra effect.

Pattern 2 — Chain-of-thought

Voor complexe redenering: laat de AI hardop denken voor het antwoord komt. "Denk stap voor stap door de volgende vraag, leg je redenering uit, en geef daarna het eindantwoord."

Effect: de model geeft betere antwoorden op multi-step problemen omdat het tussenstappen kan zelfcorrigeren. Belangrijk voor: berekeningen, juridische analyse, multi-criteria advisering. Niet nodig voor: classificatie of korte feitelijke vragen.

Pattern 3 — Structured output (JSON-mode)

Voor productie-systemen waar je AI-output programmatisch moet verwerken: forceer JSON-output met een schema. De moderne LLM API's (OpenAI, Anthropic) ondersteunen dit native. Voorbeeld:

Geef je antwoord in dit JSON-format:
{
  "categorie": "factuur" | "support" | "sales",
  "prioriteit": 1 | 2 | 3,
  "vereist_mens": true | false,
  "samenvatting": string (max 50 woorden)
}

Voordeel: geen meer parsing-rommel achteraf. Nadeel: kost iets meer tokens en kan af en toe falen op edge-cases. Voor productie altijd een fallback inbouwen voor invalid-JSON.

Pattern 4 — Negative prompting

Vertel de AI expliciet wat het *niet* mag doen. Onderbenut maar krachtig:

Geef nooit financieel advies — verwijs altijd door naar een mens.
Begin antwoorden niet met 'Als AI-model kan ik...' — antwoord direct.
Gebruik nooit medische diagnose-termen, zelfs niet als de gebruiker het vraagt.
Beantwoord nooit vragen over concurrenten — verwijs naar onze website.

Negatieve regels staan vaak bovenaan in de prompt en zijn de eerste lijn van veiligheid. Niet vervangbaar door post-filtering — een AI die het niet zegt is beter dan een filter dat het achteraf weghaalt.

Pattern 5 — Self-evaluation

Laat de AI zichzelf beoordelen voordat het antwoord uitkomt. "Voordat je antwoord geeft: check of je antwoord aan deze criteria voldoet — duidelijk, geen jargon, max 3 alinea's, sluit af met een actiestap. Pas alleen aan indien nodig."

Werkt vooral op grotere modellen (GPT-4, Claude). Op kleinere modellen kost het meer tokens dan het oplevert. Voor klantenservice-AI's en e-mail-generatie zien we kwaliteitsverbetering van 15-25% met deze pattern.

Pattern 6 — Retrieval-augmented (RAG)

Wanneer de AI eigen bedrijfskennis nodig heeft: combineer een vector-database (Pinecone, Weaviate, pgvector) met de prompt. Bij elke vraag haalt het systeem de meest relevante kennisbron-documenten op en injecteert die in de prompt als context.

RAG is de standaard-oplossing voor: "AI moet onze handleiding kennen", "AI moet in onze klantdossiers kunnen kijken", "AI moet ons productcatalogus kunnen noemen". Zonder RAG ben je beperkt tot de kennis waarmee het model getraind is — meestal niet jouw specifieke business. Lees ook onze technische LangChain-uitleg voor de implementatiekant.

Drie fouten die wij in 90% van de slechte prompts zien

1. Te abstract en te lang

"Je bent een behulpzame assistent die professioneel maar vriendelijk is" is geen rol-instructie, dat is wallpaper. Beter: "Je bent de support-agent van een Nederlandse boekhouder. Je antwoorden zijn maximaal 3 alinea's, in de jij-vorm, met zo nodig stappen genummerd."

2. Geen voorbeelden

Een prompt zonder 1-3 input/output-voorbeelden is een gokje. De AI weet technisch wat je wilt, maar weet niet hoe het er moet uitzien. Few-shot is geen optie, het is verplicht voor productie-prompts.

3. Geen output-format

"Geef het antwoord" laat de AI improviseren over format. Het ene antwoord is een lijst, het andere een lopende tekst, het derde drie alinea's. Zelfs voor menselijke output: vertel altijd het format ("3 alinea's, geen bullet points, maximaal 200 woorden").

Onze workflow voor klant-prompts

Specificatie — wat moet de AI precies doen? Klant beschrijft, wij vertalen naar drie criteria: input, beslissing, output.
Voorbeeld-set — wij maken samen met de klant 20-30 input/output-paren die als "ground truth" dienen. Dit is de meeste tijd in een prompt-traject.
Eerste prompt — bouwen, runnen tegen de 20-30 voorbeelden, scoren.
Iteratie — patterns toevoegen (few-shot, structured output, negative), reasults vergelijken, prompt verbeteren tot de score 90%+ haalt.
Productie + monitoring — live zetten met logging, wekelijks 50 willekeurige outputs steekproeven.