KDD proti rudarjenju podatkov
KDD (Knowledge Discovery in Databases) je področje računalništva, ki vključuje orodja in teorije za pomoč ljudem pri pridobivanju uporabnih in prej neznanih informacij (tj. znanja) iz velikih zbirk digitaliziranih podatkov. KDD je sestavljena iz več korakov in eden izmed njih je Data Mining. Podatkovno rudarjenje je uporaba posebnega algoritma za pridobivanje vzorcev iz podatkov. Kljub temu se KDD in Data Mining uporabljata izmenično.
Kaj je KDD?
Kot že omenjeno, je KDD področje računalništva, ki se ukvarja z ekstrakcijo prej neznanih in zanimivih informacij iz neobdelanih podatkov. KDD je celoten proces poskušanja razumeti podatke z razvojem ustreznih metod ali tehnik. Ta postopek se ukvarja s preslikavo podatkov na nizki ravni v druge oblike, ki so bolj kompaktne, abstraktne in uporabne. To dosežemo z ustvarjanjem kratkih poročil, modeliranjem procesa generiranja podatkov in razvojem napovednih modelov, ki lahko napovejo prihodnje primere. Zaradi eksponentne rasti podatkov, zlasti na področjih, kot je poslovanje, je KDD postala zelo pomemben proces za pretvorbo tega velikega bogastva podatkov v poslovno inteligenco, saj je ročno pridobivanje vzorcev v zadnjih nekaj desetletjih postalo na videz nemogoče. Trenutno se na primer uporablja za različne aplikacije, kot so analiza družbenih omrežij, odkrivanje goljufij, znanost, naložbe, proizvodnja, telekomunikacije, čiščenje podatkov, šport, iskanje informacij in predvsem za trženje. KDD se običajno uporablja za odgovarjanje na vprašanja, kot je, kateri so glavni produkti, ki bi lahko pripomogli k doseganju visokega dobička naslednje leto v Wal-Martu?. Ta postopek ima več korakov. Začne se z razvojem razumevanja aplikacijske domene in cilja ter nato z ustvarjanjem ciljnega nabora podatkov. Sledi čiščenje, predprocesiranje, redukcija in projekcija podatkov. Naslednji korak je uporaba podatkovnega rudarjenja (razloženo spodaj) za prepoznavanje vzorca. Končno se odkrito znanje utrdi z vizualizacijo in/ali interpretacijo.
Kaj je podatkovno rudarjenje?
Kot je omenjeno zgoraj, je podatkovno rudarjenje le korak v celotnem procesu KDD. Obstajata dva glavna cilja podatkovnega rudarjenja, ki ju definira cilj aplikacije, in sicer preverjanje ali odkrivanje. Verifikacija je preverjanje uporabnikove hipoteze o podatkih, medtem ko je odkrivanje samodejno iskanje zanimivih vzorcev. Obstajajo štiri glavne naloge podatkovnega rudarjenja: združevanje v gruče, klasifikacija, regresija in povezovanje (povzemanje). Grozdenje je prepoznavanje podobnih skupin iz nestrukturiranih podatkov. Klasifikacija je učenje pravil, ki jih je mogoče uporabiti za nove podatke. Regresija je iskanje funkcij z minimalnimi napakami za modeliranje podatkov. In povezovanje išče odnose med spremenljivkami. Nato je treba izbrati določen algoritem podatkovnega rudarjenja. Odvisno od cilja je mogoče izbrati različne algoritme, kot so linearna regresija, logistična regresija, odločitvena drevesa in naivni Bayes. Nato se preiščejo zanimivi vzorci v eni ali več reprezentacijskih oblikah. Na koncu so modeli ovrednoteni z uporabo napovedne natančnosti ali razumljivosti.
Kakšna je razlika med KDD in podatkovnim rudarjenjem?
Čeprav se izraza KDD in podatkovno rudarjenje pogosto uporabljata kot sopomenka, se nanašata na dva sorodna, a nekoliko različna koncepta. KDD je celoten proces pridobivanja znanja iz podatkov, medtem ko je podatkovno rudarjenje korak v procesu KDD, ki se ukvarja z ugotavljanjem vzorcev v podatkih. Z drugimi besedami, podatkovno rudarjenje je le uporaba določenega algoritma, ki temelji na splošnem cilju postopka KDD.