Razlika med rudarjenjem podatkov in skladiščenjem podatkov

Razlika med rudarjenjem podatkov in skladiščenjem podatkov
Razlika med rudarjenjem podatkov in skladiščenjem podatkov

Video: Razlika med rudarjenjem podatkov in skladiščenjem podatkov

Video: Razlika med rudarjenjem podatkov in skladiščenjem podatkov
Video: New Super Mario Bros. U Deluxe ALL Worlds ALL Star Coins - Полная игра 100% Прохождение 2024, Julij
Anonim

Podatkovno rudarjenje proti skladiščenju podatkov

Podatkovno rudarjenje in skladiščenje podatkov sta zelo zmogljivi in priljubljeni tehniki za analizo podatkov. Uporabniki, ki so nagnjeni k statistiki, uporabljajo Data Mining. Za iskanje skritih vzorcev v podatkih uporabljajo statistične modele. Podatkovne rudarje zanima iskanje uporabnih razmerij med različnimi podatkovnimi elementi, kar je na koncu dobičkonosno za podjetja. Po drugi strani pa podatkovni strokovnjaki, ki lahko neposredno analizirajo razsežnosti podjetja, običajno uporabljajo podatkovna skladišča.

Podatkovno rudarjenje je znano tudi kot odkrivanje znanja v podatkih (KDD). Kot že omenjeno, gre za področje računalništva, ki se ukvarja z ekstrakcijo prej neznanih in zanimivih informacij iz neobdelanih podatkov. Zaradi eksponentne rasti podatkov, zlasti na področjih, kot je poslovanje, je podatkovno rudarjenje postalo zelo pomembno orodje za pretvorbo tega velikega bogastva podatkov v poslovno inteligenco, saj je ročno pridobivanje vzorcev v zadnjih nekaj desetletjih postalo na videz nemogoče. Trenutno se na primer uporablja za različne aplikacije, kot so analiza socialnih omrežij, odkrivanje goljufij in trženje. Podatkovno rudarjenje se običajno ukvarja z naslednjimi štirimi nalogami: združevanjem v gruče, klasifikacijo, regresijo in asociacijo. Grozdenje je prepoznavanje podobnih skupin iz nestrukturiranih podatkov. Klasifikacija je učna pravila, ki jih je mogoče uporabiti za nove podatke in običajno vključuje naslednje korake: predhodno obdelavo podatkov, načrtovanje modeliranja, učenje/izbira funkcij in vrednotenje/validacijo. Regresija je iskanje funkcij z minimalnimi napakami za modeliranje podatkov. In povezovanje išče odnose med spremenljivkami. Podatkovno rudarjenje se običajno uporablja za odgovore na vprašanja, kot je, kateri so glavni izdelki, ki bi lahko v Wal-Martu prihodnje leto pomagali doseči visok dobiček?

Kot je omenjeno zgoraj, se skladiščenje podatkov uporablja tudi za analizo podatkov, vendar za različne skupine uporabnikov in z nekoliko drugačnim ciljem. Na primer, ko gre za maloprodajni sektor, uporabnike podatkovnih skladišč bolj skrbi, kakšne vrste nakupov so priljubljene med kupci, zato lahko rezultati analize kupcu pomagajo z izboljšanjem uporabniške izkušnje. Toda rudarji podatkov najprej domnevajo hipotezo, na primer, kateri kupci kupujejo določeno vrsto izdelka, in analizirajo podatke, da preverijo hipotezo. Skladiščenje podatkov bi lahko izvajal večji trgovec na drobno, ki svoje trgovine na začetku založi z enakimi velikostmi izdelkov, da bi kasneje ugotovil, da prodajalne v New Yorku prodajajo zaloge manjše velikosti veliko hitreje kot v trgovinah v Chicagu. Če pogledamo ta rezultat, lahko trgovec založi trgovino v New Yorku z manjšimi velikostmi v primerjavi s trgovinami v Chicagu.

Torej, kot lahko jasno vidite, se zdi, da sta ti dve vrsti analize s prostim očesom iste narave. Oba skrbita za povečanje dobička na podlagi preteklih podatkov. Seveda pa obstajajo ključne razlike. Preprosto povedano, podatkovno rudarjenje in skladiščenje podatkov sta namenjena zagotavljanju različnih vrst analitike, a vsekakor za različne vrste uporabnikov. Z drugimi besedami, podatkovno rudarjenje išče korelacije, vzorce za podporo statistične hipoteze. Vendar Data Warehousing odgovarja na sorazmerno širše vprašanje in podatke od tam dalje razčlenjuje, da prepozna načine za izboljšave v prihodnosti.

Priporočena: