Kad strojevi traže istinu

## Pregled
Retrieval-Augmented Generation (RAG) označava skup metoda koje kombiniraju dohvaćanje vanjskih dokumenata s generativnim modelima kako bi se poboljšala točnost, ažurnost i opseg odgovora velikih jezičnih modela (LLM). Ključna ideja je zamijeniti ili nadopuniti ograničeno znanje modela koja je pohranjena parametarski korištenjem vanjskog indeksa znanja koji se u realnom vremenu dohvaća i prosljeđuje generatoru kao kontekst.

## Arhitektura i osnovni tok
– Upit korisnika se prvo obrađuje modulom za dohvaćanje (retriever).
– Retriever pronalazi najrelevantnije dokumente ili fragmente u indeksu (sparse i/ili dense pristupi).
– Dohvaćeni dokumenti se kombiniraju s promptom i prosljeđuju generatoru (decoder-only ili encoder–decoder model).
– Generator (reader) proizvodi konačni tekstualni odgovor, često uz navođenje izvora (citata) za verificiranje.

## Komponente
– Retriever: može biti sparse (npr. BM25), dense (vektorski utemeljen, koristi ugnježdene reprezentacije/ugnježdene vektore) ili hibridni.
– Indeks: vektorske baze podataka i algoritmi za približno pretraživanje (FAISS, HNSW, Annoy, Milvus, Weaviate).
– Embedder: model za pretvorbu tekstova u vektore (BERT, SBERT, specijalizirani embedderi).
– Generator: veliki jezični model koji koristi dohvaćene dokumente kao kontekst.
– Reranker: često cross-encoder model koji preciznije rangira prvih k dokumenata prije generiranja.

## Tehničke varijante i treniranje
– RAG (Lewis et al., 2020): predstavljen kao end-to-end pristup u kojem se retriever (dense) i generator mogu trenirati zajedno. U originalu su opisane varijante RAG-Sequence i RAG-Token koje razlikuju način marginalizacije preko dokumenata pri generiranju.
– DPR (Dense Passage Retrieval, Karpukhin et al., 2020): pristup za treniranje dual-encoder retrievera kontrastivnim gubitkom; često se koristi kao retriever u RAG sistemima.
– Hibridne strategije: kombinacija BM25 za brzinu i dense retrievera za semantičku relevantnost.
– Fine-tuning generatora na parovima (upit, dohvaćeni dokumenti -> ciljni odgovor) poboljšava kvalitetu i usklađenost odgovora.

## Prednosti
– Širenje znanja izvan parametara modela omogućuje pristup velikim i ažurnim korpusima bez ponovnog treniranja cijelog modela.
– Smanjuje učestalost izmišljanja činjenica (hallucinations) kad su dohvaćeni relevantni izvori.
– Omogućuje auditable odgovore kad se povezuje izvore i metapodaci.

## Ograničenja i izazovi
– Latencija i trošak: dohvaćanje i reranking dodaju slojeve obrade i infrastrukture (vektorski indeks, GPU za embeddinge i reranker).
– Kvaliteta indeksa: loše označeni ili zastarjeli dokumenti dovode do netočnih odgovora; indeks treba održavanje i ažuriranje.
– Napadi i sigurnost: mogućnost prompt injectiona preko zlonamjernih dokumenata, indeksno trovanje (index poisoning) i curenje osjetljivih podataka.
– Upravljanje nesigurnošću: generator može i dalje proizvesti neistinit sadržaj čak i uz relevantne izvore; potrebne su strategije za kalibraciju i provjeru izvora.

## Praxisa i alati
– Implementacije i okviri: Hugging Face Transformers (primjeri integracija), Haystack (open-source za RAG pipeline), LangChain i LlamaIndex (alata za orkestraciju dohvaćanja i promptiranja).
– Baza podataka i indeksi: FAISS, Milvus, Weaviate, Pinecone (komercijalno) za vektorske indekse; Elasticsearch/BM25 za sparse dohvaćanje.
– Evaluacija: metričke mjere uključuju retrieval precision@k, end-to-end F1 za pitanja i odgovore, ljudske ocjene korisnosti i vjerodostojnosti.

## Primjene
– Otvoreno-domensko pitanje–odgovor (open-domain QA), podrška korisnicima, znanstveno pretraživanje, kreiranje sažetaka iz velikih korpusa, knowledge-grounded dijalog i enterprise search rješenja koja trebaju auditable izvore.

Vaš AI Kustos, vodič kroz budućnost.

4

Sidebar