Multimedijalna AI

Oživljavanje zaboravljenih prizora

Uvod Upscaling (povećanje razlučivosti) i restauracija slike i videa obuhvaćaju skup tehnika koje poboljšavaju vizualnu kvalitetu sadržaja: uklanjaju šum, ispravljaju zamućenja, vraćaju detalje i povećavaju prostornu razlučivost. U posljednjem desetljeću dominantnu ulogu imaju metode temeljene na dubokim neuronskim mrežama, no klasične tehnike i dalje služe kao referenca i komponenta hibridnih rješenja. Tehnike i arhitekture –… read more »

Dovršavanje Izgubljenih Svjetova

Uvod ——- Inpainting i outpainting su tehnike obrade slika kojima se dopunjuju ili proširuju vizualni sadržaji. Inpainting (ispunjavanje) uklanja ili popravlja nedostajuće dijelove unutar granica slike. Outpainting (proširivanje) generira novi sadržaj izvan postojećih rubova slike, zadržavajući koherentnost sa središnjim dijelom. Obje metode služe za restauraciju, umetničku manipulaciju i proširenje okvira fotografija ili scena. Kako to… read more »

Suno Udio Ekosustav zvučne revolucije

Suno i Udio — sažeta analiza tehnologije, mogućnosti i implikacija Suno Opis – Suno je sustav za generiranje glazbe potpomognut dubokim učenjem koji omogućuje stvaranje glazbenih zapisa iz tekstualnih ili kratkih audio uputa. Cilj mu je omogućiti brzo prototipiranje melodija, aranžmana i produkcijskih ideja bez potrebe za ručnim komponiranjem svakog elementa. Tehnologija i način rada… read more »

Glasovi budućnosti pod nadzorom

Sažetak ElevenLabs je tvrtka specijalizirana za sintezu govora temeljenu na dubokim neuronskim mrežama. Njihova rješenja omogućuju generiranje prirodnog, izražajnog govora iz teksta, kreiranje prilagođenih glasova te integraciju putem web sučelja i programskog sučelja (API). Proizvodi su namijenjeni izdavaštvu, igrama, proizvodnji sadržaja, pristupačnosti i poslovnim aplikacijama. Tehnologija i načelo rada – Pipeline: tipičan sustav za sintezu… read more »

Sora preobražava filmsku imaginaciju

Sažetak Sora je model za generiranje i uređivanje videozapisa koji je razvio OpenAI. Namijenjen je pretvaranju tekstualnih opisa u video sadržaj i fleksibilnom uređivanju postojećih snimaka pomoću tekstualnih ili vizualnih uputa. Predstavlja nastavak trenda velikih modela za generativni video koji kombiniraju tehnike za prostorno-vremensko modeliranje i kontrole izlaza. Značajke – Generiranje iz teksta: pretvara tekstualne… read more »

Vizualna inteligencija u zoru

Sažetak ——- DALL·E 3 je generativni model za stvaranje slika kojeg je OpenAI predstavio u listopadu 2023. Nasljednik je DALL·E 2 i donosi značajna poboljšanja u razumijevanju složenih tekstualnih uputa, vjernijem prikazu detalja (uključujući tekst unutar slike) te u sposobnosti produciranja kompozicija s poboljšanom anatomijom, perspektivom i sklapanjem elemenata. Model je dizajniran za rad u… read more »

Midjourney digitalna alkemija slike

Opis Midjourney je komercijalni alat za generiranje slika iz teksta koji radi kroz nalogovan interfejs (najpoznatije putem Discord bota) te dodatne web i API opcije. Namijenjen je stvaranju vizualnog sadržaja na temelju tekstualnih opisa, stilskih uputa i uzoraka slike. Cilj mu je omogućiti brzu iteraciju vizualnih ideja za dizajnere, umjetnike i profesionalce u kreativnim industrijama…. read more »

Tkanje svjetla iz riječi

## Sažetak Stable Diffusion je skup generativnih modela za stvaranje slika iz tekstualnih opisa temeljen na pristupu latentne difuzije. Prvi veći javni izdanci pojavljeni su 2022. godine kao open-source projekt u suradnji Stability AI, istraživača iz CompVis-a i LAION-a. Model je brzo postao široko korišten zbog kombinacije kvalitete rezultata, fleksibilnosti i dostupnosti za lokalno izvođenje… read more »

Sidebar