Je AI-agent vergeet alles zodra het gesprek eindigt. Dat kost je klanten, context en geld. Er zijn drie geheugensystemen die dit oplossen -- maar kies je het verkeerde, dan bouw je weken aan iets dat je in een middag had kunnen regelen.
Drie geheugentypen -- en ze doen fundamenteel iets anders
Elk geheugensysteem voor AI agents valt in een van drie categorieen. Kies de verkeerde en je bouwt te veel, of te weinig.
1. Built-in context window memory
Het werkgeheugen van je LLM. Alles wat je in de system prompt en conversatiegeschiedenis stopt, vormt het "geheugen." Simpel en direct, maar beperkt tot het context window van je model (128K tokens bij GPT-4o, 200K bij Claude). Sessie voorbij? Geheugen weg.
2. Externe vector memory (Mem0, Zep)
Conversaties en feiten worden omgezet naar embeddings en opgeslagen in een vectordatabase. Bij elke nieuwe interactie zoekt je agent relevante herinneringen op via similarity search. Onthoudt tussen sessies door.
3. Three-tier memory
Een gelaagde architectuur: short-term (huidige sessie), mid-term (recente sessies, samengevat) en long-term (kernfeiten, voorkeuren). De meest complete aanpak -- en de meest complexe.
De afwegingen die ertoe doen
Built-in context memory is het simpelst. Relevante info in je system prompt plakken en klaar.
Maar je betaalt per token. Bij lange conversaties lopen kosten snel op. En na de sessie weet je agent niets meer.
Vector memory (Mem0) lost het vergeetprobleem op.
Informatie blijft bestaan tussen sessies. Je hoeft niet de hele conversatiegeschiedenis mee te sturen. Maar similarity search haalt niet altijd de juiste herinneringen op -- irrelevante resultaten veroorzaken hallucinaties. En je hebt een extra infrastructuurlaag nodig (Pinecone, Qdrant).
Three-tier memory biedt het meeste, maar kost het meeste.
Je hebt samenvattingslogica nodig, een promotiemechanisme dat bepaalt wanneer informatie van mid-term naar long-term verhuist, en een retrieval-laag die weet uit welke tier te putten. Ontwikkeltijd: minstens 3x zo lang als Mem0.
Welk systeem past bij jouw situatie?
De keuze hangt af van drie factoren: levensduur van interacties, budget en complexiteit van je use case.
- Built-in context -- je agent doet single-session taken. Klantenservice per gesprek, code-review per pull request. Geen noodzaak om tussen sessies te onthouden. Implementatie: een middag.
- Mem0 / vector memory -- je agent heeft terugkerende gebruikers die verwachten "gekend" te worden. Een assistent die onthoudt dat je vegetarisch bent, een sales-agent die eerdere bezwaren van prospects kent. Setup: een dag of twee.
- Three-tier memory -- geheugen is een kernfunctie van je product. Een AI-therapeut, een langlopende projectmanagement-agent, een enterprise kennisbank met duizenden interacties per gebruiker. Minimaal een week ontwikkeltijd.
Vuistregel: kies het simpelste systeem dat aan je eisen voldoet. Schaal pas op wanneer je concrete beperkingen tegenkomt.
Vandaag beginnen -- ongeacht welk systeem je kiest
Start altijd met dezelfde stap: definieer wat je agent moet onthouden.
Maak een lijst van maximaal 10 informatiecategorieen -- naam, voorkeuren, eerdere vragen, bedrijfscontext. Meer heb je in eerste instantie niet nodig.
Built-in context: schrijf een system prompt template met placeholders die je per sessie vult vanuit je database.
Mem0: installeer de Python SDK (pip install mem0ai), configureer je API key, en roep mem0.add() aan na elke relevante interactie. Mem0 extraheert automatisch feiten en slaat ze gestructureerd op. Retrieval via mem0.search() met de gebruikersvraag als query.
Three-tier: begin met een SQLite database met drie tabellen:
short_term-- raw messages, max 24 uurmid_term-- samenvattingen per sessie, max 30 dagenlong_term-- geextraheerde feiten, permanent
Schrijf een achtergrondproces dat elke 24 uur short_term samenvat naar mid_term, en een wekelijks proces dat kernfeiten promoveert naar long_term.
Begin simpel. Meet de kwaliteit van opgehaalde herinneringen. Itereer. Het geheugen van je agent hoeft niet perfect te zijn -- het moet beter zijn dan niets.