Variance proti kovarianci
Varianca in kovarianca sta dve meri, ki se uporabljata v statistiki. Varianca je merilo razpršenosti podatkov, kovarianca pa kaže stopnjo spremembe dveh naključnih spremenljivk skupaj. Varianca je precej intuitiven koncept, vendar je kovarianca definirana matematično in sprva ni tako intuitivna.
Več o Variance
Varianca je merilo razpršitve podatkov glede na srednjo vrednost porazdelitve. Pove, kako daleč so podatkovne točke od srednje vrednosti porazdelitve. Je eden od primarnih deskriptorjev porazdelitve verjetnosti in eden od momentov porazdelitve. Poleg tega je varianca parameter populacije, varianca vzorca iz populacije pa deluje kot ocenjevalec variance populacije. Z enega vidika je definiran kot kvadrat standardnega odklona.
V preprostem jeziku ga lahko opišemo kot povprečje kvadratov razdalje med vsako podatkovno točko in povprečje porazdelitve. Za izračun variance se uporablja naslednja formula.
Var(X)=E[(X-µ)2] za populacijo in
Var(X)=E[(X-‾x)2] za vzorec
Lahko ga še poenostavimo, da damo Var(X)=E[X2]-(E[X])2.
Variance ima nekaj značilnih lastnosti in se pogosto uporablja v statistiki za lažjo uporabo. Varianca je nenegativna, ker je kvadrat razdalj. Vendar razpon variance ni omejen in je odvisen od posamezne porazdelitve. Varianca konstantne naključne spremenljivke je nič in se varianca ne spreminja glede na lokacijski parameter.
Več o kovarianci
V statistični teoriji je kovarianca merilo, koliko se dve naključni spremenljivki spremenita skupaj. Z drugimi besedami, kovarianca je merilo moči korelacije med dvema naključnima spremenljivkama. Prav tako ga lahko obravnavamo kot posplošitev koncepta variance dveh naključnih spremenljivk.
Kovarianca dveh naključnih spremenljivk X in Y, ki sta skupaj porazdeljeni s končnim sekundnim momentom, je znana kot σXY=E[(X-E[X])(Y-E[Y])]. Iz tega lahko na varianco gledamo kot na poseben primer kovariance, kjer sta dve spremenljivki enaki. Cov(X, X)=Var(X)
Z normalizacijo kovariance lahko dobimo linearni korelacijski koeficient ali Pearsonov korelacijski koeficient, ki je definiran kot ρ=E[(X-E[X])(Y-E[Y])]/(σ X σY)=(Cov(X, Y))/(σX σY )
Grafično lahko kovarianco med parom podatkovnih točk vidimo kot površino pravokotnika s podatkovnimi točkami na nasprotnih točkah. Razlagati ga je mogoče kot merilo velikosti razmika med dvema podatkovnima točkama. Ob upoštevanju pravokotnikov za celotno populacijo se lahko prekrivanje pravokotnikov, ki ustrezajo vsem podatkovnim točkam, šteje za moč ločevanja; varianco obeh spremenljivk. Kovarianca je dvodimenzionalna zaradi dveh spremenljivk, toda če jo poenostavimo na eno spremenljivko, dobimo varianco ene same kot ločitev v eni dimenziji.
Kakšna je razlika med varianco in kovarianco?
• Varianca je merilo širjenja/razpršenosti v populaciji, medtem ko se kovarianca obravnava kot merilo variacije dveh naključnih spremenljivk ali jakosti korelacije.
• Varianco lahko obravnavamo kot poseben primer kovariance.
• Varianca in kovarianca sta odvisni od velikosti vrednosti podatkov in ju ni mogoče primerjati; zato so normalizirani. Kovarianca je normalizirana v korelacijski koeficient (deljeno s produktom standardnih odklonov dveh naključnih spremenljivk), varianca pa je normalizirana v standardni odklon (s kvadratnim korenom)