Podatkovno rudarjenje proti OLAP
Tako podatkovno rudarjenje kot OLAP sta dve pogosti tehnologiji poslovne inteligence (BI). Poslovno obveščanje se nanaša na računalniško podprte metode za prepoznavanje in pridobivanje uporabnih informacij iz poslovnih podatkov. Podatkovno rudarjenje je področje računalništva, ki se ukvarja z ekstrakcijo zanimivih vzorcev iz velikih nizov podatkov. Združuje številne metode od umetne inteligence, statistike in upravljanja baz podatkov. OLAP (spletna analitična obdelava), kot že ime pove, je zbirka načinov za poizvedovanje po večdimenzionalnih zbirkah podatkov.
Podatkovno rudarjenje je znano tudi kot odkrivanje znanja v podatkih (KDD). Kot že omenjeno, gre za področje računalništva, ki se ukvarja z ekstrakcijo prej neznanih in zanimivih informacij iz neobdelanih podatkov. Zaradi eksponentne rasti podatkov, zlasti na področjih, kot je poslovanje, je podatkovno rudarjenje postalo zelo pomembno orodje za pretvorbo tega velikega bogastva podatkov v poslovno inteligenco, saj je ročno pridobivanje vzorcev v zadnjih nekaj desetletjih postalo na videz nemogoče. Trenutno se na primer uporablja za različne aplikacije, kot so analiza socialnih omrežij, odkrivanje goljufij in trženje. Podatkovno rudarjenje se običajno ukvarja z naslednjimi štirimi nalogami: združevanjem v gruče, klasifikacijo, regresijo in asociacijo. Grozdenje je prepoznavanje podobnih skupin iz nestrukturiranih podatkov. Klasifikacija je učna pravila, ki jih je mogoče uporabiti za nove podatke in običajno vključuje naslednje korake: predhodno obdelavo podatkov, načrtovanje modeliranja, učenje/izbira funkcij in vrednotenje/validacijo. Regresija je iskanje funkcij z minimalnimi napakami za modeliranje podatkov. In povezovanje išče odnose med spremenljivkami. Podatkovno rudarjenje se običajno uporablja za odgovarjanje na vprašanja, kot je, kateri so glavni izdelki, ki bi lahko pripomogli k doseganju visokega dobička naslednje leto v Wal-Martu.
OLAP je razred sistemov, ki ponuja odgovore na večdimenzionalne poizvedbe. Običajno se OLAP uporablja za trženje, načrtovanje proračuna, napovedovanje in podobne aplikacije. Ni treba posebej poudarjati, da so baze podatkov, ki se uporabljajo za OLAP, konfigurirane za zapletene in ad-hoc poizvedbe z mislijo na hitro delovanje. Običajno se za prikaz izhoda OLAP uporablja matrika. Vrstice in stolpce tvorijo dimenzije poizvedbe. Za pridobitev povzetkov pogosto uporabljajo metode združevanja v več tabelah. Na primer, ali ga je mogoče uporabiti, če želite izvedeti o letošnji prodaji v Wal-Martu v primerjavi z lanskim letom? Kakšna je napoved glede prodaje v naslednjem četrtletju? Kaj lahko rečemo o trendu, če pogledamo odstotek spremembe?
Čeprav je očitno, da sta rudarjenje podatkov in OLAP podobna, ker delujeta na podatkih za pridobivanje inteligence, je glavna razlika v tem, kako delujeta na podatkih. Orodja OLAP zagotavljajo večdimenzionalno analizo podatkov in zagotavljajo povzetke podatkov, nasprotno pa se podatkovno rudarjenje osredotoča na razmerja, vzorce in vplive v nizu podatkov. To je obravnava OLAP z združevanjem, ki se skrči na delovanje podatkov prek "seštevanja", vendar rudarjenje podatkov ustreza "delitvi". Druga opazna razlika je, da medtem ko orodja za podatkovno rudarjenje modelirajo podatke in vračajo izvedljiva pravila, bo OLAP izvajal primerjalne in kontrastne tehnike vzdolž poslovne razsežnosti v realnem času.