Filtri koji uče vidjeti
## Sažetak
Konvolucijske neuralne mreže (CNN) su vrsta dubokih neuralnih mreža dizajnirana za obradu podataka s regularnom mrežnom strukturom, najčešće slika. Njihova ključna svojstva su lokalna povezivost, dijeljenje težina i hijerarhijsko učenje značajki, što ih čini učinkovitima za zadatke poput klasifikacije, detekcije i segmentacije slika.
## Temeljni koncepti i arhitektura
– Konvolucijski sloj: primjenjuje skup učljivih filtara (jezgre) preko ulaznog prostora, rezultirajući mapama značajki. Filtri uče detektirati lokalne obrasce (rubove, teksture).
– Jezgra, korak i padding: veličina jezgre određuje receptivno polje; korak (stride) kontrolira pomak jezgre; padding upravlja dimenzijama izlaza.
– Aktivacijske funkcije: najčešće se koristi ReLU (rectified linear unit) zbog jednostavnosti i ubrzanja učenja, rjeđe Sigmoid ili tanh u specifičnim dijelovima mreže.
– Pooling (smanjivanje): operacije poput max-pool ili average-pool smanjuju prostorne dimenzije i povećavaju translacijsku otpornost.
– Batch normalization i dropout: tehnike za stabilizaciju i regularizaciju učenja.
– Fully connected slojevi: koriste se pri kraju mreže za donošenje konačnih odluka (klasifikacija), mada moderni arhitekturni obrasci često zamjenjuju dio toga (npr. global average pooling).
## Povijesni kontekst i razvoj
– Rana istraživanja: počeci s idejama lokalne povezanosti u 1980-ima; Fukushima i raniji modeli.
– LeNet: jedna od prvih praktičnih CNN arhitektura za prepoznavanje rukom pisanih znamenki (Yann LeCun i suradnici).
– Moderna renesansa: AlexNet (2012) pokazao je prednost dubokih CNN-a na velikim skupovima podataka (ImageNet), potaknuvši široku primjenu i razvoj dubljih i efikasnijih arhitektura (VGG, Inception, ResNet).
## Napredni elementi i varijante
– Duboke arhitekture: veći broj slojeva omogućuje učenje hijerarhijskih reprezentacija; problem nestajanja gradijenta riješen je, primjerice, residual vezama u ResNetu.
– Dilatirane/atrous konvolucije: povećavaju receptivno polje bez gubitka prostorne rezolucije.
– Separable konvolucije: depthwise separable konvolucije smanjuju računsku složenost (MobileNet, Xception).
– U-Net i FCN: arhitekture posebno prilagođene za semantičku i instancijsku segmentaciju s koder-dekoder strukturama i preskočnim vezama.
## Primjene
– Obrada slike: klasifikacija, detekcija objekata, semantička i instancijska segmentacija.
– Video: analize vremenskih okvira, kombiniranje CNN-a s rekurentnim mrežama ili 3D konvolucijama.
– Audio: spektrogrami tretirani kao slike za zadatke prepoznavanja govora ili zvuka.
– Medicina, autonomna vozila, nadzor i industrijska kontrola — široka primjena u poljima koja zahtijevaju analizu vizualnih podataka.
## Trening, infrastruktura i ograničenja
– Trening se izvodi putem unatrag-propagacije i optimizatora (SGD, Adam). Veliki skupovi podataka i GPU/TPU ubrzanje često su neophodni.
– Transfer učenje i fino podešavanje omogućuju upotrebu prethodno naučenih modela na manjim skupovima podataka.
– Ograničenja: potreba za velikim brojem označenih podataka, ranjivost na adversarijalne primjere, visoki zahtjevi za računskom snagom i memorijom te ograničena sposobnost modela da izvan domene generalizira bez prilagodbe.
## Objašnjivost i evaluacija
– Vizualizacija mapa značajki, metoda poput Class Activation Mapping (CAM) i Grad-CAM pomažu razumjeti što mreža uči.
– Evaluacija uključuje metrike poput točnosti, preciznosti/odziva, IoU (Intersection over Union) za segmentaciju i mAP za detekciju objekata.
Vaš AI Kustos, vodič kroz budućnost.
6