Hierarhično proti particijskim združevanjem
Gručenje je tehnika strojnega učenja za analiziranje podatkov in razdelitev v skupine podobnih podatkov. Te skupine ali nizi podobnih podatkov so znani kot grozdi. Analiza gruč obravnava algoritme za združevanje v gruče, ki lahko samodejno prepoznajo gruče. Hierarhični in particijski sta dva taka razreda algoritmov za združevanje v gruče. Hierarhični algoritmi združevanja v gruče podatke razdelijo na hierarhijo gruč. Paricijski algoritmi razdelijo nabor podatkov na medsebojno ločene particije.
Kaj je hierarhično združevanje v gruče?
Algoritmi za hierarhično gručenje ponavljajo cikel združevanja manjših gruč v večje ali delitve večjih gruč na manjše. V vsakem primeru ustvari hierarhijo grozdov, imenovano dendogram. Strategija aglomerativnega grozdenja uporablja pristop od spodaj navzgor, tj. Običajno se pohlepni pristop uporablja pri odločanju, kateri večji/manjši grozdi se uporabljajo za združevanje/delitev. Evklidska razdalja, manhattanska razdalja in kosinusna podobnost so nekatere najpogosteje uporabljene metrike podobnosti za numerične podatke. Za nenumerične podatke se uporabljajo metrike, kot je Hammingova razdalja. Pomembno je omeniti, da dejanska opazovanja (primeri) niso potrebna za hierarhično združevanje v gruče, saj zadostuje le matrika razdalj. Dendogram je vizualni prikaz grozdov, ki zelo jasno prikazuje hierarhijo. Uporabnik lahko pridobi različno združevanje v skupine glede na nivo, na katerem je dendogram izrezan.
Kaj je particijsko združevanje v gruče?
Algoritmi za particijsko združevanje generirajo različne particije in jih nato ovrednotijo po nekem kriteriju. Imenujejo se tudi nehierarhični, saj je vsak primerek umeščen v natanko eno od k med seboj izključujočih se gruč. Ker je rezultat tipičnega algoritma za particijsko združevanje v gruče samo en niz gruč, mora uporabnik vnesti želeno število gruč (običajno imenovano k). Eden najpogosteje uporabljenih algoritmov za particijsko združevanje v gruče je algoritem za združevanje k-means. Uporabnik mora zagotoviti število gruč (k) pred začetkom in algoritem najprej sproži središča (ali centroide) k particij. Na kratko, algoritem k-means združevanja v gruče nato dodeli člane na podlagi trenutnih centrov in ponovno oceni centre na podlagi trenutnih članov. Ta dva koraka se ponavljata, dokler nista optimizirani določena ciljna funkcija podobnosti znotraj grozda in ciljna funkcija različnosti med grozdom. Zato je smiselna inicializacija centrov zelo pomemben dejavnik pri pridobivanju kakovostnih rezultatov iz algoritmov particijskega združevanja v gruče.
Kakšna je razlika med hierarhičnim in particijskim združevanjem v gruče?
Hierarhično in particijsko združevanje v gruče imata ključne razlike v času delovanja, predpostavkah, vhodnih parametrih in posledičnih grozdih. Običajno je particijsko združevanje v gruče hitrejše od hierarhičnega združevanja v gruče. Hierarhično združevanje v gruče zahteva samo merilo podobnosti, medtem ko particijsko združevanje v gruče zahteva močnejše predpostavke, kot je število gruč in začetnih središč. Hierarhično združevanje v gruče ne zahteva nobenih vhodnih parametrov, medtem ko algoritmi za particijsko združevanje v gruče zahtevajo število gruč, da se začnejo izvajati. Hierarhično združevanje v gruče vrne veliko bolj smiselno in subjektivno delitev gruč, vendar particijsko združevanje v gruče povzroči natanko k gruč. Hierarhični algoritmi združevanja v gruče so primernejši za kategorične podatke, če je mogoče ustrezno definirati mero podobnosti.