DBMS proti podatkovnemu rudarjenju
A DBMS (Database Management System) je celovit sistem za upravljanje digitalnih baz podatkov, ki omogoča shranjevanje vsebine baze podatkov, ustvarjanje/vzdrževanje podatkov, iskanje in druge funkcionalnosti. Po drugi strani pa je podatkovno rudarjenje področje računalništva, ki se ukvarja z ekstrakcijo prej neznanih in zanimivih informacij iz neobdelanih podatkov. Običajno so podatki, ki se uporabljajo kot vhodni podatki za proces rudarjenja podatkov, shranjeni v bazah podatkov. Uporabniki, ki so nagnjeni k statistiki, uporabljajo Data Mining. Za iskanje skritih vzorcev v podatkih uporabljajo statistične modele. Podatkovne rudarje zanima iskanje uporabnih razmerij med različnimi podatkovnimi elementi, kar je na koncu dobičkonosno za podjetja.
DBMS
DBMS, ki se včasih imenuje samo upravljalnik baz podatkov, je zbirka računalniških programov, namenjenih upravljanju (tj. organizaciji, shranjevanju in pridobivanju) vseh baz podatkov, ki so nameščene v sistemu (tj. trdem disku ali omrežju). V svetu obstajajo različne vrste sistemov za upravljanje baz podatkov in nekateri od njih so zasnovani za pravilno upravljanje baz podatkov, konfiguriranih za posebne namene. Najbolj priljubljeni komercialni sistemi za upravljanje baz podatkov so Oracle, DB2 in Microsoft Access. Vsi ti izdelki zagotavljajo sredstva za dodeljevanje različnih ravni privilegijev za različne uporabnike, kar omogoča, da DBMS centralno nadzoruje en sam skrbnik ali da se dodeli več različnim osebam. V vsakem sistemu za upravljanje baz podatkov so štirje pomembni elementi. So modelni jezik, podatkovne strukture, poizvedbeni jezik in mehanizem za transakcije. Jezik modeliranja določa jezik vsake baze podatkov, ki gostuje v DBMS. Trenutno je v praksi več priljubljenih pristopov, kot so hierarhični, mrežni, relacijski in objektni. Podatkovne strukture pomagajo organizirati podatke, kot so posamezni zapisi, datoteke, polja in njihove definicije ter objekte, kot so vizualni mediji. Jezik podatkovnih poizvedb ohranja varnost baze podatkov s spremljanjem podatkov za prijavo, pravic dostopa do različnih uporabnikov in protokolov za dodajanje podatkov v sistem. SQL je priljubljen jezik poizvedb, ki se uporablja v sistemih za upravljanje relacijskih baz podatkov. Nazadnje, mehanizem, ki omogoča transakcije, pomaga pri sočasnosti in množici. Ta mehanizem bo zagotovil, da istega zapisa ne bo spreminjalo več uporabnikov hkrati, s čimer bo ohranjena celovitost podatkov. Poleg tega DBMS zagotavlja varnostno kopiranje in druge zmogljivosti.
Podatkovno rudarjenje
Podatkovno rudarjenje je znano tudi kot odkrivanje znanja v podatkih (KDD). Kot že omenjeno, gre za računalniško znanost, ki se ukvarja z ekstrakcijo prej neznanih in zanimivih informacij iz neobdelanih podatkov. Zaradi eksponentne rasti podatkov, zlasti na področjih, kot je poslovanje, je podatkovno rudarjenje postalo zelo pomembno orodje za pretvorbo tega velikega bogastva podatkov v poslovno inteligenco, saj je ročno pridobivanje vzorcev v zadnjih nekaj desetletjih postalo na videz nemogoče. Trenutno se na primer uporablja za različne aplikacije, kot so analiza socialnih omrežij, odkrivanje goljufij in trženje. Podatkovno rudarjenje se običajno ukvarja z naslednjimi štirimi nalogami: združevanjem v gruče, klasifikacijo, regresijo in asociacijo. Grozdenje je prepoznavanje podobnih skupin iz nestrukturiranih podatkov. Klasifikacija je učna pravila, ki jih je mogoče uporabiti za nove podatke in običajno vključuje naslednje korake: predhodno obdelavo podatkov, načrtovanje modeliranja, učenje/izbira funkcij in vrednotenje/validacijo. Regresija je iskanje funkcij z minimalnimi napakami za modeliranje podatkov. In povezovanje išče odnose med spremenljivkami. Podatkovno rudarjenje se običajno uporablja za odgovore na vprašanja, kot je, kateri so glavni izdelki, ki bi lahko v Wal-Martu prihodnje leto pomagali doseči visok dobiček?
Kakšna je razlika med DBMS in rudarjenjem podatkov?
DBMS je celovit sistem za namestitev in upravljanje niza digitalnih baz podatkov. Vendar je podatkovno rudarjenje tehnika ali koncept v računalništvu, ki se ukvarja z pridobivanjem uporabnih in prej neznanih informacij iz neobdelanih podatkov. Večino časa so ti neobdelani podatki shranjeni v zelo velikih zbirkah podatkov. Zato rudarji podatkov uporabljajo obstoječe funkcije DBMS za obdelavo, upravljanje in celo predhodno obdelavo neobdelanih podatkov pred in med procesom rudarjenja podatkov. Vendar sistema DBMS samega ni mogoče uporabiti za analizo podatkov. Toda nekateri DBMS imajo trenutno vgrajena orodja ali zmožnosti za analizo podatkov.