Ključna razlika – nadzorovano in nenadzorovano strojno učenje
Nadzorovano učenje in nenadzorovano učenje sta dva temeljna koncepta strojnega učenja. Nadzorovano učenje je naloga strojnega učenja učenja funkcije, ki preslika vhod v izhod na podlagi primerov vhodno-izhodnih parov. Nenadzorovano učenje je naloga strojnega učenja sklepanja o funkciji za opis skrite strukture iz neoznačenih podatkov. Ključna razlika med nadzorovanim in nenadzorovanim strojnim učenjem je, da nadzorovano učenje uporablja označene podatke, medtem ko nenadzorovano učenje uporablja neoznačene podatke.
Strojno učenje je področje računalništva, ki računalniškemu sistemu omogoča učenje iz podatkov, ne da bi bil izrecno programiran. Omogoča analizo podatkov in napovedovanje vzorcev v njih. Obstaja veliko aplikacij strojnega učenja. Nekatere med njimi so prepoznavanje obraza, prepoznavanje kretenj in prepoznavanje govora. Obstajajo različni algoritmi, povezani s strojnim učenjem. Nekateri od njih so regresija, klasifikacija in grozdenje. Najpogostejša programska jezika za razvoj aplikacij, ki temeljijo na strojnem učenju, sta R in Python. Uporabljajo se lahko tudi drugi jeziki, kot so Java, C++ in Matlab.
Kaj je nadzorovano učenje?
V sistemih, ki temeljijo na strojnem učenju, model deluje v skladu z algoritmom. Pri nadzorovanem učenju je model nadzorovan. Najprej je potrebno usposobiti model. S pridobljenim znanjem lahko napove odgovore za prihodnje primere. Model se uri z uporabo označenega nabora podatkov. Ko je sistemu dan vzorčni podatek, lahko predvidi rezultat. Sledi majhen izvleček iz priljubljenega nabora podatkov IRIS.
Glede na zgornjo tabelo se dolžina čašnice, širina čašice, dolžina čašice, širina čašice in Vrsta imenujejo atributi. Stolpci so znani kot značilnosti. Ena vrstica vsebuje podatke za vse atribute. Zato se ena vrstica imenuje opazovanje. Podatki so lahko numerični ali kategorični. Modelu so podana opažanja z ustreznim imenom vrste kot vhod. Ko je podano novo opazovanje, mora model napovedati vrsto vrste, ki ji pripada.
Pri nadzorovanem učenju obstajajo algoritmi za klasifikacijo in regresijo. Razvrščanje je postopek razvrščanja označenih podatkov. Model je ustvaril meje, ki so ločevale kategorije podatkov. Ko se modelu zagotovijo novi podatki, lahko kategorizira glede na to, kje točka obstaja. K-najbližji sosedje (KNN) je klasifikacijski model. Glede na vrednost k se določi kategorija. Na primer, ko je k 5, če je določena podatkovna točka blizu osmih podatkovnih točk v kategoriji A in šestih podatkovnih točk v kategoriji B, bo podatkovna točka razvrščena kot A.
Regresija je postopek napovedovanja trenda prejšnjih podatkov za napovedovanje izida novih podatkov. Pri regresiji je lahko rezultat sestavljen iz ene ali več zveznih spremenljivk. Napoved se izvede z uporabo črte, ki pokriva večino podatkovnih točk. Najenostavnejši regresijski model je linearna regresija. Je hiter in ne zahteva nastavitvenih parametrov, kot je v KNN. Če podatki kažejo parabolični trend, model linearne regresije ni primeren.
To je nekaj primerov algoritmov za nadzorovano učenje. Na splošno so rezultati, pridobljeni z metodami nadzorovanega učenja, natančnejši in zanesljivejši, ker so vhodni podatki dobro znani in označeni. Zato mora stroj analizirati le skrite vzorce.
Kaj je nenadzorovano učenje?
Pri nenadzorovanem učenju model ni nadzorovan. Model deluje samostojno, da napove rezultate. Uporablja algoritme strojnega učenja, da pride do zaključkov na neoznačenih podatkih. Na splošno so algoritmi za nenadzorovano učenje težji od algoritmov za nadzorovano učenje, ker je malo informacij. Grozdenje je vrsta nenadzorovanega učenja. Uporablja se lahko za združevanje neznanih podatkov z uporabo algoritmov. K-srednja vrednost in združevanje v gruče na podlagi gostote sta dva algoritma za združevanje v gruče.
algoritem k-povprečja, naključno postavi k centroid za vsako gručo. Nato je vsaka podatkovna točka dodeljena najbližjemu centroidu. Evklidska razdalja se uporablja za izračun razdalje od podatkovne točke do težišča. Podatkovne točke so razvrščene v skupine. Položaji za k težišč se ponovno izračunajo. Nov položaj težišča je določen s povprečjem vseh točk v skupini. Spet je vsaka podatkovna točka dodeljena najbližjemu centroidu. Ta postopek se ponavlja, dokler se centroidi ne spreminjajo več. k-mean je hiter algoritem za združevanje v gruče, vendar ni določene inicializacije točk združevanja v gruče. Obstaja tudi velika variacija modelov gručenja, ki temeljijo na inicializaciji točk gruče.
Drug algoritem za združevanje v gruče je združevanje v gruče na podlagi gostote. Znana je tudi kot aplikacije prostorskega združevanja v gruče na podlagi gostote s šumom. Deluje tako, da definira gručo kot največji nabor gostoto povezanih točk. To sta dva parametra, ki se uporabljata za združevanje v gruče na podlagi gostote. So Ɛ (epsilon) in minimalne točke. Ɛ je največji polmer soseske. Najmanjše število točk je najmanjše število točk v soseski Ɛ za definiranje grozda. To je nekaj primerov združevanja v gruče, ki spadajo v nenadzorovano učenje.
Na splošno rezultati, ustvarjeni z algoritmi za nenadzorovano učenje, niso preveč natančni in zanesljivi, ker mora stroj definirati in označiti vhodne podatke, preden določi skrite vzorce in funkcije.
Kakšna je podobnost med nadzorovanim in nenadzorovanim strojnim učenjem?
Tako nadzorovano kot nenadzorovano učenje sta vrsti strojnega učenja
Kakšna je razlika med nadzorovanim in nenadzorovanim strojnim učenjem?
Nadzorovano proti nenadzorovanemu strojnemu učenju |
|
Nadzorovano učenje je naloga strojnega učenja učenja funkcije, ki preslika vhod v izhod na podlagi primerov vhodno-izhodnih parov. | Nenadzorovano učenje je naloga strojnega učenja sklepanja o funkciji za opis skrite strukture iz neoznačenih podatkov. |
Glavna funkcionalnost | |
Pri nadzorovanem učenju model napove izid na podlagi označenih vhodnih podatkov. | Pri nenadzorovanem učenju model napove rezultat brez označenih podatkov tako, da sam identificira vzorce. |
Točnost rezultatov | |
Rezultati, ustvarjeni z metodami nadzorovanega učenja, so natančnejši in zanesljivejši. | Rezultati, ustvarjeni z nenadzorovanimi metodami učenja, niso preveč natančni in zanesljivi. |
Glavni algoritmi | |
Obstajajo algoritmi za regresijo in klasifikacijo v nadzorovanem učenju. | Obstajajo algoritmi za združevanje v skupine pri nenadzorovanem učenju. |
Povzetek – Nadzorovano in nenadzorovano strojno učenje
Nadzorovano učenje in nenadzorovano učenje sta dve vrsti strojnega učenja. Nadzorovano učenje je naloga strojnega učenja učenja funkcije, ki preslika vhod v izhod na podlagi primerov vhodno-izhodnih parov. Nenadzorovano učenje je naloga strojnega učenja sklepanja o funkciji za opis skrite strukture iz neoznačenih podatkov. Razlika med nadzorovanim in nenadzorovanim strojnim učenjem je v tem, da nadzorovano učenje uporablja označene podatke, medtem ko nenadzorovano učenje uporablja neoznačene podatke.