Centralna tendenca proti disperziji
V deskriptivni in inferencialni statistiki se za opis nabora podatkov uporablja več indeksov, ki ustrezajo njegovi osrednji tendenci, disperziji in asimetriji: trem najpomembnejšim lastnostim, ki določajo relativno obliko porazdelitve nabora podatkov.
Kaj je osrednja težnja?
Centralna tendenca se nanaša in locira središče distribucije vrednosti. Povprečna vrednost, način in mediana so najpogosteje uporabljeni indeksi pri opisovanju osrednje tendence nabora podatkov. Če je nabor podatkov simetričen, potem mediana in povprečje nabora podatkov sovpadata.
Glede na nabor podatkov se povprečje izračuna tako, da se vsota vseh vrednosti podatkov deli in nato deli s številom podatkov. Na primer, izmerjena teža 10 ljudi (v kilogramih) je 70, 62, 65, 72, 80, 70, 63, 72, 77 in 79. Potem je lahko povprečna teža desetih ljudi (v kilogramih) izračunana na naslednji način. Vsota uteži je 70 + 62 + 65 + 72 + 80 + 70 + 63 + 72 + 77 + 79=710. Srednja vrednost=(vsota) / (število podatkov)=710 / 10=71 (v kilogramih). Razume se, da odstopanja (podatkovne točke, ki odstopajo od običajnega trenda) ponavadi vplivajo na povprečje. Tako ob prisotnosti izstopajočih vrednosti samo povprečje ne bo dalo pravilne slike o središču nabora podatkov.
Mediana je podatkovna točka, ki se nahaja točno na sredini nabora podatkov. Eden od načinov za izračun mediane je, da razvrstite podatkovne točke v naraščajočem vrstnem redu in nato poiščete podatkovno točko na sredini. Na primer, če je enkrat urejen, je prejšnji nabor podatkov videti kot 62, 63, 65, 70, 70, 72, 72, 77, 79, 80. Zato je (70+72)/2=71 na sredini. Iz tega je razvidno, da ni treba, da je mediana v naboru podatkov. Prisotnost izstopajočih vrednosti ne vpliva na mediano. Zato bo mediana služila kot boljše merilo osrednje tendence v prisotnosti izstopajočih vrednosti.
Način je najpogostejša vrednost v nizu podatkov. V prejšnjem primeru se vrednosti 70 in 72 pojavita dvakrat, zato sta obe načini. To kaže, da je v nekaterih distribucijah več kot ena modalna vrednost. Če obstaja samo en način, se nabor podatkov imenuje unimodalen, v tem primeru pa je nabor podatkov bimodalen.
Kaj je disperzija?
Disperzija je količina širjenja podatkov o središču porazdelitve. Razpon in standardni odklon sta najpogosteje uporabljeni meri disperzije.
Razpon je preprosto najvišja vrednost minus najnižja vrednost. V prejšnjem primeru je najvišja vrednost 80, najnižja vrednost pa 62, tako da je razpon 80-62=18. Vendar razpon ne daje zadostne slike o disperziji.
Za izračun standardnega odklona se najprej izračunajo odstopanja vrednosti podatkov od povprečja. Koren kvadratnega povprečja odstopanj se imenuje standardni odklon. V prejšnjem primeru so ustrezna odstopanja od povprečja (70 – 71)=-1, (62 – 71)=-9, (65 – 71)=-6, (72 – 71)=1, (80 – 71)=9, (70 – 71)=-1, (63 – 71)=-8, (72 – 71)=1, (77 – 71)=6 in (79 – 71)=8. Vsota kvadrati odstopanja so (-1)2 + (-9)2 + (-6)2+ 12 + 92 + (-1)2 + (-8) 2 + 12 + 62 + 82=366 Standardni odklon je √(366/10)=6,05 (v kilogramih). Razen če nabor podatkov ni močno popačen, je iz tega mogoče sklepati, da je večina podatkov v intervalu 71±6,05, in v tem konkretnem primeru je res tako.
Kakšna je razlika med centralno tendenco in disperzijo?
• Centralna tendenca se nanaša in locira središče porazdelitve vrednosti
• Razpršenost je količina širjenja podatkov o središču nabora podatkov.