Large Language Models
Large Language Models (LLM’s) zijn tegenwoordig overal te vinden, van chatbots en schrijfassistenten tot programmeerhulpprogramma’s en zoekmachines. Echter zijn niet alle LLM’s hetzelfde opgebouwd. Nu deze modellen steeds meer ingebed raken in onze dagelijkse tools en besluitvormingsprocessen, is inzicht in hoe ze werken niet alleen weggelegd voor techneuten; het iss essentieel voor iedereen die erop vertrouwt. In dit artikel bespreken we de belangrijkste typen LLM’s, hoe ze werken en waar ze goed (of minder goed) in zijn.
Wat zijn LLM’s?
Ten eerste, wat is een LLM? Zoals eerder besproken in Aura’s blog is een LLM een AI model dat getraind is om menselijke taal te brijpen en te genereren. Deze modellen gebruiken een soort neural network genaamd transformer, waarmee ze patronen in enorme hoeveelheden tekst kunnen herkennen en reproduceren. En als we enorm zeggen, bedoelen we ook echt enorm: LLM’s vereisen enorme datasets variërend van webpagina’s en boeken tot forums en codebases, veel meer dan kleinere modellen (vaak SLM’s of Small Language Models genoemd). Waar een SLM getraind kan worden op domeinspecifieke datasets, vetrouwen LLM’s op grootschalige, diverse bronnen om de reikwijdte van menselijke taal vast te leggen. Maar een belangrijke kanttekening is dat LLM’s niet echt ‘denken’ zoals mensen. Ze voorspellen welk woord (of stuk tekst) erna komt op basis van wat ze al hebben gezien.
Autoregressive Models
De bekendste modellen zijn de schrijvers (autoregressieve modellen). Dit zijn de modellen die tekst genereren, woord voor woord, op basis van de input. Modellen zoals GPT (OpenAI), Claude (Anthropic) en LLaMA (Meta) vallen in deze categorie. Ze kunnen worden gezien als de creatieve schrijvers van AI; geef ze een prompt en ze gaan door. Deze LLM’s zijn erg goed in het schrijven van teksten die natuurlijk klinken, zoals blogposts, gesprekken, verhalen, code en zelfs gedichten. Omdat ze echter niet controleren wat ze zeggen, maar alleen waarschijnlijke vervolgstappen voorspellen, kunnen ze soms dingen verzinnen. Dit wordt een ‘hallucinatie’ genoemd. Het klink overtuigend… Tenzij je zelf meer kennis hebt over het onderwerp of je meer onderzoek doet.
Masked Language Models
Maar er bestaat ook een ander type model, het zogenaamde Masked Language Model, zoals BERT en RoBERTa. In plaats van tekst te genereren, worden ze getraind om ontbrekende woorden in een zin aan te vullen, vergelijkbaar met het oplossen van woordpuzzels. Deze trainingsopzet stelt hen in staat een sterk begrip van betekenis en context te ontwikkelen, waardoor ze ideaal zijn voor taken zoals classificaties, spamfiltering en Q&A systemen.
In tegenstelling tot GPT-modellen zijn deze modellen niet bedoeld om volledige artikelen te genereren of gesprekken te voeren. Echter, als het gaat om het interpreteren en analyseren van tekst zijn ze ongelooflijk efficiënt en vaak nauwkeuriger. Zijn deze modellen dus ‘beter’ dan bijvoorbeeld GPT? In hun niche zijn ze inderdaad doorgaans compacter, sneller en minder vatbaar voor hallucinaties. Maar ze zijn geen generalisten; je zou BERT niet vragen om een nieuwbrief voor je te schrijven.
General Encoder-Decoder Models
Sommige transformermodellen zijn ontworpen om één tekstsoort om te zetten in een andere, zoals T5 of MariamMT. Dit zijn de algemene encoder-decoder modellen. Ze werken in twee delen: de encoder leest en begrijpt de input, en de decoder genereert de output. Dit maakt ze ideaal voor gestructureerde taaltaken, zoals vertalen, samenvatten of herschrijven. Vergeleken met andere typen LLM’s zijn deze vaak zwaarder en trager, maar meer gecontroleerd en taakspecifiek. Dus als je een nauwkeurige vertaling of samenvatting wilt, kan een model zoals T5 beter presteren dan bijvoorbeeld GPT, dat meer algemeen toepasbaar is.
Retrieval-Augmented Generation Modellen
Sommige nieuwere modellen vertrouwen niet alleen op geheugen, maar zoeken ook dingen op. Deze hybride modellen gebruiken externe tools, zoals zoekmachines of databases, om feiten op te halen en tegelijkertijd antwoorden te genereren. Dit wordt retrieval-augmented generation (RAG) genoemd. Modellen zoals Cohere’s Command R gebruiken deze aanpak. Deze modellen zijn echter complexer om te bouwen en meestal langzamer, en dus duurder in gebruik.
Samenvatting
Large Language Models zijn krachtige tools, maar de keuze van het juiste model (of het ontwerpen van het juiste systeem) hangt af van wat je wilt doen. Sommige LLM’s zijn beter in creatief schrijven, andere blinken uit in diepgaand redeneren of zijn kleiner en sneller, en weer andere zijn gespecialiseerd in veiligheid of het ophalen van informatie. Naarmate de LLM-technologie zich verder ontwikkelt zullen we waarschijnlijk nog slimmere, snellere en meer gespecialiseerde modellen zien die we goed kunnen gebruiken, of we nu chatten met AI, informatie zoeken of realtime vertalingen op onze telefoons ontvangen. Voor jou als beslisser is het daarom belangrijk om de verschillende modellen te begrijpen om ook beter te begrijpen wat er nodig is en wat er moet worden gecreëerd bij de start van je project. De onderstaande tabel vat de voor- en nadelen van alle besproken modellen samen.
Model | Voordelen | Nadelen | Kosten | Opmerkingen |
Autoregressieve Modellen (GPT, Claude, LLaMA) | – Creatieve en vloeiende teksgeneratie – Veelzijdig: schrijven, coderen, gesprekken voeren | – Kan hallucineren (feiten verzinnen) – Beperkte feitelijke nauwkeurigheid | Gemiddeld – hoog | Goed voor creatieve toepassingen, maar minder betrouwbaar voor feitelijke informatie |
Masked Language Modellen (BERT, RoBERTa) | – Sterk contextueel begrip – Goed voor classificatie, Q&A, analyse – Minder vatbaar voor hallucinaties | – Niet ontworpen voor volledige tekstgeneratie – Minder creatief | Laag – Gemiddeld | Ideaal voor tekstinterpretatie en analyse, niet voor generatieve taken |
Encoder-Decoder Modellen (T5, MarianMT) | – Nauwkeurig voor vertaling, samenvatting, herschrijven – Meer gecontroleerde output | – Langzamer en zwaarder – Minder flexibel buiten specifieke taken | Gemiddeld – hoog | Krijgt de voorkeur voor nauwkeurige, gestructureerde taaltaken zoals vertalen of samenvatten |
Retrieval-Augmented Modellen (Cohere Command R) | – Vermindert hallucinaties door het ophalen van externe feiten – Up-to-date en feitelijk | – Complexe architectuur – Slower en duurder in gebruik | Hoog | Uitstekend voor feitelijke en real-time toepassingen, maar hogere ontwikkeling- en gebruikskosten |