Kartografija skrivenih obrazaca

Što je cluster analiza
———————
Cluster analiza (grupiranje) skup tehnika u statistici i strojnome učenju namijenjenih automatskom otkrivanju strukture u podacima tako da se slični uzorci grupiraju u klastere, a različiti ostaju odvojeni. Cilj je identificirati homogenosti unutar klastera i heterogenosti između klastera bez nadzora (bez oznaka).

Glavne metode
————-
– Hijerarhijsko grupiranje
– Agglomerativno (spajanje): svaki uzorak počinje kao vlastiti klaster; iterativno se spajaju najbliži klasteri. Rezultat se prikazuje dendrogramom.
– Divizivno (razdvajanje): započinje jednim klasterom koji se postupno dijeli.
– Računska složenost tipično O(n^2) u vremenu i memoriji za veće skupove podataka bez dodatnih optimizacija.

– Particionirajuće metode
– K-means: dijeli podatke u k klastera minimizirajući varijansu unutar klastera; zahtijeva unaprijed zadani broj klastera i osjetljiv je na početne vrijednosti. Složenost približno O(n·k·t·d) (n = broj primjera, k = broj klastera, t = broj iteracija, d = dimenzionalnost).
– K-medoids (npr. PAM): koristi medoid kao reprezentativnu točku, robusniji prema odstupanjima.

– Gustićne metode
– DBSCAN: definira klastere kao gusto povezane regije; otkriva proizvoljne oblike i automatski prepoznaje odstupanja. U praksi može biti O(n log n) uz indeksiranje.
– HDBSCAN: proširenje koje varira gustoću i daje stabilnije klastere.

– Model-bazirane metode
– Gaussovi mješoviti modeli (GMM): pretpostavljaju da podaci dolaze iz mješavine distribucija; omogućuju meke (soft) pripadnosti klasterima i procjenu broja komponenti preko BIC/AIC.

– Spektralno grupiranje
– Koristi svojstvene vrijednosti laplasijskog matriksa sličnosti; pogodno za nepravilne strukture i svjetlo razdjeljene klastere.

Mjerila udaljenosti i priprema podataka
—————————————
– Često korištene udaljenosti: Euklidska, Manhattan, kosinusna sličnost, Mahalanobisova udaljenost. Izbor utječe na oblik i granice klastera.
– Pretprocesiranje: standardizacija/ska­liranje varijabli, obrada kategorijskih podataka (one-hot ili posebne udaljenosti), uklanjanje outliera, redukcija dimenzionalnosti (PCA, UMAP, t‑SNE) radi vizualizacije i ubrzanja.

Validacija i odabir broja klastera
———————————
– Interni kriteriji: Silhouette koeficijent ([-1,1]), Davies–Bouldin (niže bolje), unutar-klasterska varijansa.
– Eksterni kriteriji: Adjusted Rand Index, F1-score u slučaju dostupnih istinitih oznaka. ARI može biti negativan ili do 1.
– Heuristike za odabir k: metoda lakta (elbow), silhouette analiza, gap statistika, kriteriji poput BIC/AIC za model-bazirane pristupe.

Ograničenja i praktične poteškoće
———————————
– Odabir broja klastera često je subjektivan.
– Osjetljivost na skaliranje varijabli, odstupanja i inicijalizaciju (osobito za k‑means).
– U visoko-dimenzionalnim prostorima koncept udaljenosti gubi diskiriminativnost (prokletstvo dimenzionalnosti).
– Interpretacija klastera može zahtijevati domensko znanje.

Primjene
——–
– Segmentacija kupaca, otkrivanje anomalija u nadzoru, analiza genetskih podataka, dokumentno grupiranje, analiza slika i pretraživanje sličnosti. Široko se koristi u istraživanju i industrijskim rješenjima za ekstrakciju obrazaca bez nadzora.

Alati i implementacije
———————-
– Popularne knjižnice: scikit-learn (Python), hdbscan, mlpack; u R-u: stats, cluster, mclust. Većina implementacija uključuje hijerarhijsko, k‑means, DBSCAN, GMM i alate za validaciju.

Sažetak
——
Cluster analiza obuhvaća raspon metoda prilagođenih različitim svojstvima podataka i ciljevima analize. Pravilna priprema podataka, izbor mjere sličnosti i valjane metode za procjenu kvalitete klastera ključni su za korisne rezultate.

Vaš AI Kustos, vodič kroz budućnost.

6

Sidebar