Veliki jezični modeli (LLM & Generative AI)

Rođenje razgovornog uma

Povijest i razvoj – ChatGPT je konverzacijski sustav razvijen od OpenAI temeljen na seriji generativnih velikih jezičnih modela (LLM). Prva široko dostupna verzija ChatGPT-a lansirana je krajem 2022. temeljem GPT-3.5 arhitekture; kasnije su uvedene naprednije varijante temeljene na GPT-4 i optimiziranim izvedenicama (npr. „Turbo“ implementacije). Razvoj je kombinirao široko predtrenirane autoregresivne modele s nadzorovanim i… read more »

Skulptori digitalne misli

## Definicija Prompt engineering označava skup tehnika za oblikovanje i upravljanje unosima (promptima) koji se daju velikim jezičnim modelima (LLM — veliki jezični model) i srodnim modelima kako bi se dobili željeni odgovori ili ponašanja. Radi se o praktičnom sučelju između ljudskog zahtjeva i modela: oblikovanje teksta, konteksta i instruktivnih signala koji vode generiranje. ##… read more »

Granica pamćenja digitalnih umova

## Definicija Kontekstualni prozor (eng. context window) u velikim jezičnim modelima (LLM) označava ograničenje količine ulaznog teksta koju model može istovremeno obraditi. Mjeri se u tokenima (jedinice koje predstavljaju riječi ili dijelove riječi) i određuje maksimalnu duljinu niza nad kojim se izračunava samopažnja (self-attention). ## Kako to radi – Transformer arhitektura koristi mehanizam samopažnje koji… read more »

Kad strojevi traže istinu

## Pregled Retrieval-Augmented Generation (RAG) označava skup metoda koje kombiniraju dohvaćanje vanjskih dokumenata s generativnim modelima kako bi se poboljšala točnost, ažurnost i opseg odgovora velikih jezičnih modela (LLM). Ključna ideja je zamijeniti ili nadopuniti ograničeno znanje modela koja je pohranjena parametarski korištenjem vanjskog indeksa znanja koji se u realnom vremenu dohvaća i prosljeđuje generatoru… read more »

Varljiva stvarnost jezičnih modela

### Što su halucinacije Halucinacije u kontekstu velikih jezičnih modela (LLM) odnose se na generiranje netočnih, izmisljenih ili nekonzistentnih informacija koje model iznosi s naletom povjerenja. To nisu samo jezične greške: radi se o tvrdnjama koje nemaju potporu u podacima ili stvarnom svijetu — primjerice izmišljeni citati, netočne činjenice ili pogrešne reference. ### Vrste halucinacija… read more »

Tajne jezika u tokenima

## Definicija Tokenizacija je proces razbijanja teksta u diskretne jedinice (tokena) koje model može obraditi. U kontekstu obrade prirodnog jezika najčešće se radi o riječima, podriječnim jedinicama (subword), znakovima ili bajtovima. Tokenizacija preslikava tekst u niz identifikatora (token ID) koji se potom mapiraju na vektorske reprezentacije u modelu. ## Glavne kategorije tokenizacije – Riječna (word-level):… read more »

LLaMA nova jezična revolucija

Pozadina i svrha – LLaMA (Large Language Model Meta AI) je serija velikih jezičnih modela koje je razvio tim Meta AI s namjerom da ponudi visoku učinkovitost na raznim zadacima jezika uz manji broj parametara u odnosu na neke konkurentske modele. – Prva generacija (LLaMA) i sljedeća (LLaMA 2) objavljene su tijekom 2023. godine. Meta… read more »

Gemini otvara epohu multimodalnosti

Opis Gemini je obitelj velikih modela jezika koju su razvili Google DeepMind i Google Research za generativne i multimodalne zadatke. Modeli iz Gemini serije dizajnirani su za obradu teksta i slika te za integraciju u proizvode i usluge Googlea (npr. Bard, Google Workspace) te kao komercijalna ponuda kroz Google Cloud/Vertex AI. Gemini zamjenjuje ili nadograđuje… read more »

Claude Ustavni Glas Budućnosti

Opis Claude je obitelj velikih jezičnih modela (LLM — veliki jezični model) razvijenih od strane Anthropic, tvrtke osnovane 2021. godine. Modeli su dizajnirani za rad u obliku asistenta za tekstualne zadatke i dijaloge, s naglaskom na sigurnost, upravljivost i robusnost u interakciji s korisnicima. Povijest i razvoj Anthropic su osnovali bivši istraživači iz velikih AI… read more »

GPT tka jezike i budućnost

Koncept i razvoj – GPT (Generative Pre-trained Transformer) je obitelj velikih jezičnih modela (LLM; large language model) koje je razvio OpenAI. Prvi radovi koji su doveli do GPT arhitekture objavljeni su krajem 2010-ih, s ključnim iteracijama: GPT-1 (Radford i sur., 2018), GPT-2 (2019) i GPT-3 (2020). GPT-3 je privukao široku pozornost zbog 175 milijardi parametara… read more »

Sidebar