Retrieval-verrijkte generatie

In eerdere artikelen hebben we het gehad over generatieve AI, de voordelen en de risico’s ervan. Een van die risico’s is het feit dat generatieve AI kan hallucineren. Het heeft ook geen toegang tot de professionele informatie die u bijhoudt. Retrieval augmented generation (RAG), of retrieval-verrijkte generatie, pakt beide problemen aan. In dit artikel beantwoorden we de volgende vragen: Wat is retrieval-verrijkte generatie? Wat zijn de voordelen? En hoe kunt u retrieval-verrijkte generatie gebruiken met Copilot & SharePoint?

Wat is retrieval-verrijkte generatie?

De Engelse Wikipedia definieert retrieval augmented generation als “een techniek waarmee grote taalmodellen (LLM’s) nieuwe informatie kunnen ophalen en verwerken. Met RAG reageren LLM’s pas op de vragen van gebruikers als ze verwijzen naar een gespecificeerde set documenten. Deze documenten vormen een aanvulling op informatie uit de reeds bestaande trainingsgegevens van de LLM. Hierdoor kunnen LLM’s domeinspecifieke en/of bijgewerkte informatie gebruiken die niet beschikbaar is in de trainingsgegevens. Dit helpt LLM-gebaseerde chatbots bijvoorbeeld om toegang te krijgen tot interne bedrijfsgegevens of om antwoorden te genereren op basis van gezaghebbende bronnen. RAG verbetert grote taalmodellen (LLM’s) door het ophalen van informatie te integreren voordat reacties worden gegenereerd.” (De Nederlandstalige Wikipedia heeft de term nog niet).

RAG maakt m.a.w. grote taalmodellen beter door ze te koppelen aan externe kennisbronnen. In plaats van alleen te vertrouwen op de informatie die het model tijdens de training heeft geleerd, haalt RAG eerst relevante documenten of gegevens op uit een database of uw kennisbank. Vervolgens gebruikt het die opgehaalde informatie om antwoorden te genereren die nauwkeuriger en actueler zijn.

Het basisidee is eenvoudig: als u een vraag stelt, doorzoekt het systeem eerst een verzameling documenten (zoals bedrijfsbestanden, onderzoekspapers of websites) om relevante informatie te vinden. Vervolgens worden zowel uw vraag als de gevonden documenten naar het taalmodel gestuurd. Het model gebruikt deze context om een antwoord te produceren dat is gebaseerd op uw specifieke gegevens in plaats van alleen op zijn eigen algemene trainingskennis.

Dit naam retrieval augmented generation of retrieval-verrijkte generatie verwijst m.a.w. naar de drie stappen:

  • Ophalen of Retrieval: wanneer een gebruiker een vraag stelt, zoekt het RAG-systeem in een externe kennisbank (zoals de specifieke documenten van een bedrijf) naar relevante informatie. 
  • Uitbreiding (augmentation): de opgehaalde informatie wordt dan toegevoegd aan de oorspronkelijke vraag, waardoor een “augmented” verzoek ontstaat.
  • Generatie (generation): het grote taalmodel (LLM) genereert vervolgens een antwoord op basis van deze uitgebreide prompt, waarbij de externe gegevens worden gebruikt om een specifieker en nauwkeuriger antwoord te geven. 

Deze aanpak lost een aantal veel voorkomende problemen met standaard LLM’s op. Het vermindert hallucinaties omdat het model a) zijn antwoorden baseert op daadwerkelijk opgehaalde tekst, b) het systeem toegang heeft tot actuele informatie na de afsluitdatum voor de opleiding van het model, en c) toelaat om uw domein-specifieke kennis te gebruiken zonder het hele model opnieuw te hoeven trainen. RAG is vooral nuttig voor toepassingen zoals systemen voor klantondersteuning die bedrijfsspecifieke informatie nodig hebben. Het is ook nuttig voor onderzoeksassistenten die werken met wetenschappelijke literatuur, of in scenario’s waarin u accurate antwoorden nodig hebt op basis van een bepaalde kennisbasis.

Als u onderzoek begint te doen m.b.t. retrieval augmented generation, komt u vaak de termen pipes of pipelines tegen. Dit verwijst naar de verwerkingsstappen die de zoekopdracht van een gebruiker omzetten in een uiteindelijke respons. Ze vormen in wezen de workflow of gegevensstroom die verschillende onderdelen van het RAG systeem met elkaar verbindt. De “pipe” metafoor komt van Unix pipes, waar gegevens van het ene proces naar het andere stromen.

Verschillende RAG implementaties kunnen verschillende pijplijnarchitecturen hebben. Sommige zijn eenvoudig met alleen opvragen, ophalen en genereren. Andere zijn complex met meerdere opvraagstappen, feedbacklussen of parallelle verwerkingspaden.

Wat zijn de voordelen?

RAG biedt verschillende voordelen die het aantrekkelijk maken voor echte toepassingen.

Het feit dat het toegang biedt tot actuele en specifieke informatie is misschien wel het meest voor de hand liggende voordeel. Omdat het model informatie uit uw eigen database of documenten haalt, kan het werken met gegevens die a) recenter zijn dan de training cutoff of b) met zeer gespecialiseerde kennis die niet in de oorspronkelijke trainingsgegevens zat. Dit betekent dat bedrijven nauwkeurige antwoorden kunnen krijgen over hun meest recente beleid, onderzoekspapers of bedrijfseigen informatie. Afhankelijk van hoe u het instelt, kan het voor advocatenkantoren toegang hebben tot uw juridische documentatie, uw kennisbank, uw dossiers en/of documenten.

Zoals vermeld in de inleiding zijn verminderde hallucinaties een ander belangrijk voordeel. Wanneer taalmodellen antwoorden genereren puur op basis van hun training, geven ze soms vol vertrouwen onjuiste informatie. RAG baseert de antwoorden van het model op daadwerkelijk opgehaalde documenten. Hierdoor citeert of baseert het model zijn antwoorden op echte bronnen in plaats van dingen te verzinnen. Het resultaat is dat de output betrouwbaarder is.

Een ander belangrijk punt is kosteneffectiviteit. Met RAG hoeft u geen grote taalmodellen bij te stellen of opnieuw te trainen telkens als uw informatie verandert. In plaats daarvan hoeft u alleen maar uw documentendatabase bij te werken en het RAG-systeem haalt de nieuwe informatie op. Dit is veel goedkoper en sneller dan het opnieuw trainen van modellen. Dat vereist immers aanzienlijke rekenkracht en technische expertise.

RAG pakt ook de problemen van transparantie en bronverificatie aan omdat u kunt zien welke documenten het systeem heeft opgehaald om een vraag te beantwoorden. Dit maakt het makkelijker om antwoorden te verifiëren en problemen op te lossen. Het helpt ook om vertrouwen op te bouwen bij gebruikers die zelf de bronnen kunnen verifiëren.

Een laatste voordeel wordt domeinaanpasbaarheid genoemd. Dit betekent dat u hetzelfde basismodel snel kunt inzetten in verschillende domeinen of gebruiksscenario’s door simpelweg de documentverzameling waaruit de informatie wordt opgehaald te verwisselen. Het ene model kan worden gebruikt voor medische toepassingen, en andere voor juridisch onderzoek of voor klantenondersteuning door gewoon de onderliggende kennisbank te veranderen.

Retrieval-verrijkte generatie met Copilot & SharePoint

Interessant voor advocatenkantoren die Copilot en SharePoint gebruiken is dat Copilot kan worden gebruikt in combinatie met SharePoint om RAG-antwoorden mogelijk te maken. Microsoft heeft deze integratie behoorlijk krachtig gemaakt.

Hoe werkt het? Microsoft 365 Copilot biedt een opvraag-API waarmee ontwikkelaars AI-reacties kunnen baseren op organisatiegegevens die zijn opgeslagen in SharePoint, OneDrive en Copilot-connectoren. Dit betekent dat u aangepaste AI-oplossingen kunt bouwen die relevante tekstfragmenten ophalen uit SharePoint zonder dat u de gegevens elders hoeft te repliceren of opnieuw hoeft te indexeren. De API begrijpt de context en intentie van de gebruiker, voert querytransformaties uit en retourneert zeer relevante resultaten uit uw Microsoft 365-content.

Deze aanpak biedt verschillende voordelen voor RAG-implementaties. U hoeft geen aparte vector databases op te zetten: U kunt de traditionele RAG-setup overslaan die normaliter het insluiten, opsplitsen en indexeren van documenten inhoudt. De API respecteert automatisch bestaande toegangscontroles en beleidsregels. Dit zorgt voor beveiliging en compliance. Bovendien kunt u SharePoint-gegevens combineren met andere Microsoft 365-bronnen en bronnen van derden om rijkere, uitgebreidere antwoorden te creëren.

Voor persoonlijk experimenteren

Als u eerst zelf wilt experimenteren, kunt u Google’s nieuwe Notebook LM proberen, waarin de RAG-technologie is geïmplementeerd. Het is een AI-gestuurde onderzoeks- en schrijfassistent die gebruikers helpt informatie uit specifieke websites en geüploade bronnen samen te vatten en te begrijpen.

Bronnen:

Een vrijblijvend gesprek met Cicero

Het lijkt ons leuk u te leren kennen.