Tilbake til bloggen

Hva er RAG? En enkel forklaring for norske bedrifter

RAG gjør at en AI-chatbot svarer fra dine egne dokumenter i stedet for å gjette. Det gir mer presise svar, mer kontroll og en bedre kundeopplevelse.

Henning Thorsvoll, grunnlegger · · 9 min lesing

Kort forklart

RAG står for Retrieval-Augmented Generation. Enkelt sagt betyr det:

Uten RAG svarer modellen mest ut fra generell trening — altså det den har sett under treningen, ofte for over et år siden. Med RAG svarer den med utgangspunkt i dokumentene du har gitt den. Det er forskjellen på et svar som kunne vært riktig og et svar du faktisk kan stå for.

Hvor RAG kommer fra

Begrepet ble popularisert av en forskningsartikkel fra Meta AI i 2020 (Lewis m.fl., «Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks»). Ideen var enkel: i stedet for å pakke all kunnskap inn i selve modellen, skal modellen få slå opp informasjon når den trenger den. Da blir kunnskapen oppdaterbar uten å trene modellen på nytt.

I årene som fulgte ble RAG raskt standard for chatboter som svarer på bedrifters egne data. Bransjeundersøkelser fra leverandører som Microsoft, Databricks, OpenAI og Anthropic peker på det samme: de fleste produksjonssatte enterprise-chatboter i dag bruker en eller annen form for retrieval — nettopp fordi det reduserer hallusinasjon og gjør systemet vedlikeholdbart.

Forskningen har siden raffinert ideen på mange måter (HyDE, multi-hop RAG, GraphRAG, agentisk RAG), men kjernen er den samme: hent først, generer så.

Slik fungerer RAG i praksis

En typisk flyt ser slik ut:

  1. Brukeren stiller et spørsmål i chatten.
  2. Systemet finner relevante avsnitt i dokumentasjonen.
  3. Avsnittene sendes sammen med spørsmålet til en språkmodell.
  4. Modellen skriver et svar basert på grunnlaget den fikk.
  5. Svaret kontrolleres mot kildene før det vises til brukeren.

Det høres rett frem ut. I praksis er hvert av disse stegene en liten designbeslutning som avgjør hvor god chatboten faktisk blir — og det er her ulike RAG-systemer skiller seg fra hverandre.

RAG-PIPELINEN — FRA SPØRSMÅL TIL SVAR Brukerens spørsmål Omformulering + kontekst fra samtale Ordsøk (BM25) eksakte termer Semantisk søk mening / embeddings Rangering + tema-vekting Språkmodell får spørsmål + valgte avsnitt som grunnlag Grounding-sjekk svaret matcher kildene? Svar med kilder streames til bruker Kunnskapsbase
En typisk RAG-pipeline. Spørsmålet omformuleres, to søkemotorer leter parallelt i kunnskapsbasen, en rangerer plukker de beste avsnittene, språkmodellen skriver svar basert på dem, og en grounding-sjekk fanger opp det som ikke har dekning i kildene. Detaljene varierer mellom leverandører, men hovedstegene er stort sett de samme.
Poenget med RAG

Du trenger ikke trene en egen AI-modell for hvert produkt eller hver tjeneste. Du vedlikeholder dokumentasjonen din, og chatboten bruker den løpende. Språkmodellen er motoren — dokumentasjonen er drivstoffet.

Hvorfor dokumenter må kuttes opp

En språkmodell kan ikke få et helt nettsted eller en håndbok som input på én gang — selv med dagens lange kontekstvinduer er det både dyrt og lite presist. Innholdet må derfor kuttes i mindre biter. I bransjen kalles disse chunks. Hvor stort en chunk bør være er en av de mest diskuterte avveiningene i RAG-litteraturen:

De fleste produksjonssystemer lander på chunks som rommer ett tema — ofte et avsnitt eller to — med litt overlapp til naboavsnittene slik at sammenhengen ikke ryker på tvers av kuttene. Mange systemer henter også med seg naboavsnitt når en chunk treffer, fordi det relevante svaret ofte ligger på tvers av to avsnitt. Det er en tilnærming vi også bruker.

Et poeng som ofte undervurderes: god chunking starter med god struktur i dokumentet. En FAQ med tydelige overskrifter er enklere å jobbe med enn en lang prosatekst uten avsnitt. Bransjeerfaringen er ganske entydig — jo bedre strukturert kildematerialet er, jo bedre fungerer RAG.

Hvorfor hybrid søk slo enkeltmodeller

Det finnes to grunnleggende måter å finne relevant innhold:

Forskningen har gjennom flere år vist at hver av dem har blindsoner. Ordsøk bommer på omskrivinger; semantisk søk kan misse på spesifikke termer som modellen ikke har sterke vektorer for — for eksempel produktnavn, tekniske akronymer eller norske egennavn. En velkjent referanseartikkel fra Microsoft Research (2021) viste at det å kombinere de to og fusjonere resultatene (typisk via en algoritme som heter Reciprocal Rank Fusion) ga merkbart bedre treff enn hver av dem alene.

Dette er nå standard praksis i de fleste seriøse RAG-implementasjoner, og det er også tilnærmingen vi har valgt. I logger ser man tydelig at én av motorene kan dra inn et avsnitt den andre aldri ville funnet — og det er ofte der det gode svaret bor.

Spørsmålet er sjelden det brukeren mener

Folk skriver «hva med levering?» når de mener «når kommer pakken min, og hvor mye koster det». De skriver «funker det med Vipps?» når de egentlig lurer på om man kan dele opp betalingen. Et rått søk på den korte versjonen gir dårlige treff — uansett hvor god søkemotoren er.

Et vanlig grep i nyere RAG-arkitekturer er derfor å omformulere spørsmålet før det går til søket. Det kan være en kort formulering som «hvilke leveringsalternativer og priser tilbyr dere?». Noen ganger deles spørsmålet opp i flere delspørsmål som søkes parallelt. Andre ganger løftes implisitt kontekst inn («forrige melding handlet om bestilling 1024»).

Forskningsteknikker som HyDE (Hypothetical Document Embeddings) tar dette enda lenger og lar modellen først gjette hvordan svaret kunne sett ut, for så å bruke den hypotetiske teksten som søke-input. Det høres sirkulært ut, men i praksis gir det ofte bedre embeddings å matche mot enn brukerens kortform. I systemer der dette steget er slått av, faller treffraten merkbart — det er ofte her enklere chatboter mister terreng.

Rangering: hvorfor «topp 10» ikke alltid er topp 10

Søket gir en sortert liste med kandidater. Men «topp 10» fra et raskt søk er ikke nødvendigvis det beste grunnlaget for et svar. Et vanlig grep er derfor en ekstra rangering (reranking) der hver kandidat sammenlignes med spørsmålet mer grundig — ofte med en mindre, dedikert modell — og de virkelig relevante avsnittene dyttes opp.

I tillegg er det vanlig å veie inn:

Resultatet er at det som sendes til språkmodellen er nøye plukket — ikke bare «de 10 første fra søket». Dette steget er en av de største forskjellene mellom et hjemmesnekret RAG-prosjekt og et produksjonssatt system.

Hvorfor det føles raskt

RAG har naturlig latency: søk, rangering, modell-svar. Hvis brukeren må vente på hele svaret før noe vises, kan det føles tregt selv når totaltiden er rimelig. To grep er nesten universelle i bransjen:

Begge deler tar høyde for at opplevd hastighet ofte betyr mer enn rå tid — en innsikt fra UX-forskning som går tilbake lenge før AI-chatboter fantes.

Grounding: å stoppe feilsvar før de når brukeren

Den største frykten når man slipper en AI-chatbot på kunder er at den finner på ting (i forskningen kalt hallusinasjon). RAG reduserer dette dramatisk — flere bransjestudier (Stanford HAI, Vectara Hallucination Leaderboard) viser at retrieval-baserte systemer hallusinerer betydelig sjeldnere enn rene LLM-svar — men ikke til null.

Det avgjørende grepet er grounding: at svaret sjekkes mot kildene før det sendes ut. Hvis modellen finner på et tall som ikke står noe sted i kildene, eller påstår noe som ikke har dekning i de hentede avsnittene, bør systemet helst:

Det siste er ofte bedre enn det første. En kunde tilgir å bli rutet til et menneske. De tilgir sjelden å ha fått et selvsikkert feilsvar.

Hvor mye dette betyr i praksis

De fleste «chatboten løy!»-historiene som når media handler om systemer uten god grounding — eller hvor grounding ble droppet for å spare tid. Det er dyrt å spare seg til.

Hvorfor dette gir bedre svar

1. Mindre gjetting

Når svaret må bygges fra konkrete tekstbiter, blir det mindre rom for spekulasjon.

2. Raskere oppdateringer

Endrer du pris, åpningstid eller rutiner i dokumentasjonen, kan chatboten bruke ny informasjon med en gang. Ingen retraining, ingen venting.

3. Samme svar i alle kanaler

Når teamet ditt og chatboten bruker samme kunnskapsbase, blir svarene mer konsistente. Kunden får samme beskjed enten de chatter eller ringer.

4. Sporbare svar

Fordi svaret bygger på konkrete avsnitt, kan systemet vise hvilke kilder det brukte. Da kan teamet etterspøre hvor chatboten hentet en påstand fra — og rette i kilden hvis noe er feil.

Hva RAG ikke løser alene

RAG er ikke en magisk knapp. Kvaliteten avhenger av kvaliteten i innholdet du legger inn.

Etter lansering er det lurt at noen i teamet eier kunnskapsbasen på samme måte som man eier en FAQ-side — med jevnlig gjennomgang av hva chatboten ikke klarer å svare på.

Hva du bør måle etter lansering

Tre mål er ekstra nyttige de første ukene:

  1. Deflection-rate: Hvor mange henvendelser boten løser uten menneskelig hjelp. Måles realistisk over 4–6 uker, ikke fra dag én.
  2. Tilfredshet: Hvordan brukerne vurderer svarene (tommel opp/ned, eller fritekst-kommentar). Dette er det raskeste signalet om hvor det skurrer.
  3. Topp 20 ubesvarte spørsmål: Hva som mangler i dokumentasjonen. Dette gir en konkret huskeliste til den som eier kunnskapsbasen.

Dette gir en konkret liste over hva som bør forbedres, i stedet for synsing. Det er ikke uvanlig å se deflection-raten løfte seg merkbart i andre måned bare ved å lukke topp-10 av disse hullene — et mønster som går igjen i bransjerapporter fra blant annet Gartner og Forrester.

Vil du teste dette i praksis?

Test Chatbot Norge gratis i 14 dager — ingen kortinfo, ingen oppstartskostnad. Se hvordan chatboten svarer fra din egen dokumentasjon.

Test gratis i 14 dager