Standardavvik Statistikk

0 views

Skip to first unread message

Terry Chavarin

unread,

Jul 24, 2024, 12:09:21 PM7/24/24

to queblenpanhe

Det finnes bde observerbart standardavvik og teoretisk standardavvik. Det observerbare standardavviket er et tall som beskriver variasjonen eller spredningen i et innsamlet tallmateriale. Det er oftest dette som menes nr man snakker om standardavvik.

standardavvik statistikk

Download ✸ https://urllie.com/2zL6WX

Nr statistiske data skal oppsummeres, trenger man beskrive bde hva som er en sentral eller typisk verdi i dataene og variasjonen i dataene. Gjennomsnitt og median er verdier som beskriver det typiske, mens standardavvik og kvartiler er verdier som beskriver variasjonen.

Gjennomsnittet og standardavviket gir en god oppsummering av symmetriske, ntoppede data uten ekstremverdier, og disse to tallene oppgis derfor ofte sammen nr slike data skal oppsummeres p en kort og konsis mte.

Standardavviket kan regnes ut for alt som kan telles eller mles p en tallskala. Man kan for eksempel beregne standardavviket for temperaturen i Troms i mars, og standardavviket for antall katter per familie i et nabolag.

Standardavviket skrives ofte som SD, Sd eller sd, etter forkortelsen av det engelske begrepet standard deviation. Denne forkortelsen finnes ofte i faglitteratur og utskrifter fra statistiske dataprogrammer. Noen ganger brukes ogs s, S eller st.dev. om standardavviket.

Selv om standardavviket kan regnes ut for alt som kan telles eller mles, er det frst og fremst et godt oppsummeringstall for variasjonen i en ntoppet, symmetrisk fordeling. Nr fordelingen til data er ntoppet, symmetrisk og har lette haler p hver side, slik figuren under viser, kan man si at den er normalfordelt.

Da kan standardavviket brukes til beregne intervaller som inneholder en gitt andel av de observerte verdiene. Det mest brukte intervallet er det som strekker seg fra to standardavvik til venstre for midten, til to standardavvik til hyre for midten. Hvis dataene er rimelig normalfordelte, vil dette intervallet inneholde om lag 95 prosent av alle de observerte verdiene. Samtidig vil svrt f verdier vre lenger unna midten enn tre standardavvik.

I dette eksemplet var det bare 10 hydemlinger. Da er det ikke s praktisk snakke om 95 prosent av disse, men i eksempler der det er mange flere mlinger, er dette en svrt nyttig tolkning av standardavviket.

Nr noen oppgir gjennomsnitt og standardavvik for beskrive et tallmateriale, kan man ofte g ut fra at de har sjekket at fordelingen til dataene er rimelig normalfordelt, at gjennomsnittet og standardavviket er gode oppsummeringstall, og at gjennomsnittet pluss/minus to standardavvik vil inneholde de fleste observasjonene. Ved tegne en normalfordelingsskisse og markere gjennomsnittet i midten, og regne seg frem til to standardavvik p hver side av gjennomsnittet, kan man som leser kjapt skaffe seg en oversikt over fordelingen.

Men det er ikke alltid dette stemmer. Noen ganger resulterer dette i en merkelig skisse som umulig kan stemme med virkeligheten. I en artikkel om komavarighet for terrorofre i Midtsten ble det for eksempel oppgitt en gjennomsnittlig komavarighet p 6,6 dager, og et standardavvik p 8,5 dager. Hvis disse tallene tegnes opp som om de var normalfordelte, ser det rart ut. Regner man ut gjennomsnittet minus to standardavvik, havner vi langt til venstre for null. Men det gir ikke mening si at noen er i koma et negativt antall dager. Det betyr at gjennomsnitt og standardavvik ikke gir en god oppsummering av data, og at dataene antakelig er spass skjevfordelt at man heller burde brukt median og kvartiler som oppsummeringstall. Da er det grunn til vre litt p vakt for feil bruk av analyser i resten av teksten ogs, selv om temaet fortsatt kan vre interessant, og andre analyser og resultater kan vre riktige.

Den russiske matematikeren Pafnutij Tsjebysjev (Chebyshev) viste at selv om data ikke er normalfordelte, vil intervallet som strekker seg fra to standardavvik til venstre for gjennomsnittet, til to standardavvik til hyre for gjennomsnittet, alltid inneholde minst 75 prosent av observasjonene.

Forkortelsene SE, S.E., SEM eller S.E.M er noe annet enn standardavviket. Disse forkortelsene brukes om den skalte standardfeilen, ogs kalt estimeringsusikkerhet, og de er forkortelser for det engelske begreper standard error. Dette er alts ikke det samme som standardavviket.

Varians er et annet statistisk ml for variasjon i et datamateriale. Sammenhengen mellom variansen og standardavviket er enkel: Standardavviket er kvadratroten av variansen, og variansen er standardavviket ganget med seg selv, alts kvadrert.

Det er lettere gi en praktisk tolkning av standardavviket enn av variansen, og derfor oppsummeres gjerne variasjonen i observerte data med dette tallet. Standardavviket har samme benevning som observasjonene selv: hvis noe mles i cm, er standardavviket ogs gitt i cm.

Det teoretiske standardavviket spesifiserer variasjonen i en statistisk modell. Dette standardavviket kalles gjerne en parameter i modellen, og noteres med den greske bokstaven sigma, \(\sigma\). Det teoretiske standardavviket er kvadratroten av den teoretiske variansen, og for en stokastisk variabel \(X\) gjelder at \(Var(X) = \sigma^2\).

Normalfordelingen er den mest kjente statistiske modellen. I en normalfordeling er verdiene symmetrisk fordelt rundt et midtpunkt, med mange verdier rundt midten, og frre verdier langt unna midten, p begge sider.

Det finnes uendelig mange versjoner av normalfordelingen, avhengig av hvilken verdi som forventes vre midt p, og hvor stor spredning verdiene har. Midtpunktet spesifiseres av forventningsverdien \(\mu\), og spredningen av verdier spesifiseres av standardavviket \(\sigma\). De to strrelsene \(\mu\) og \(\sigma\) kalles parameterne til modellen.

Bde \(\mu\) og \(\sigma\) er vanligvis ukjente tall, og de m beregnes fra tall man samler inn. bruke innsamlede tall til gjette hva de ukjente parameterverdiene er, kalles estimering. Tallene som regnes ut for estimere de ukjente parameterverdiene, kalles estimater.

En normalfordelingsmodell for IQ-verdier i en befolkning. IQ er en konstruert strrelse, og den er konstruert slik at verdiene i befolkningen er tenkt vre normalfordelte med forventningsverdi p 100 og (et teoretisk) standardavvik p 15.

Store norske leksikon er et gratis og fritt tilgjengelig oppslagsverk skrevet avfagfolk p bokml og nynorsk. Med opptil 3,4 millioner brukere i mneden og600 000 leste artikler hver dag er leksikonet Norges strste nettstedfor forskningsformidling. Leksikonet er eid av de norske universitetene ogflere ideelle stiftelser/organisasjoner.

Standardavviket er et ml for spredningen av verdiene i et datasett eller av verdien av en stokastisk variabel. Standardavviket gir verdienes gjennomsnittlige avstand fra gjennomsnittet. Den er definert som kvadratroten av variansen.

En av grunnene til at standardavviket er en viktig parameter, er Tsjebysjevs ulikhet som sier at de fleste verdiene i et datasett av tilfeldige variabler vil ligge i nrheten av gjennomsnittet, hvor i nrheten er definert ved hjelp av standardavviket. Standardavviket ligger p det punktet hvor kurven i normalfordelingen endrer retning.

Fr man bruker standardavvik br man bruke et histogram eller en frekvenstabell for underske om datasettet er normalfordelt da mange statistiske metoder ikke kan stoles p dersom datasettet har skjevhet eller ekstremverdier[1].

Standardavvik har som regel samme benevning som mleenheten til verdiene i datasettet. Et unntak er for verdier som har prosent som benevning. Siden en differanse mellom to prosentmlinger har enhet prosentpoeng, vil standardavviket til slike datasett ha enhet prosentpoeng. Det gjres likevel ofte feil med dette, og prosent brukes som benevning ogs for standardavviket, noe som gjr det uklart om det er snakk om et vanlig standardavvik eller et relativt standardavvik.

For f oversikt over statistiske data er det nyttig ha informasjon om blant annet spredningen i materialet. Spredningsmlene viser hvor spredt tallene ligger rundt de sentrale verdiene. Et mye brukt spredningsml er varians.

Legg merke til at uansett om differansen mellom et tall og gjennomsnittet er positivt eller negativt er kvadratet av differansen alltid positivt. Variansen direkte er ikke s lett tolke, s etter ha regnet den ut tar vi kvadratroten av variansen, og tallet vi fr da kalles for standardavviket. Dette er et "forventet" avvik fra gjennomsnittet.

Datamaterialene for begge elevgruppene har gjennomsnitt, median og typetall lik 3. Vi s p forrige side at vi kan fange noe av forskjellen p datasettene ved bruke variasjonsbredde, men n skal vi heller bruke varians og standardavvik.

Regn ut gjennomsnittet
Regn forskjellene mellom gjennomsnittet og hvert av tallene
Kvadrer forskjellene
Summer kvadrater av forskjellene
Divider summen med det totale antallet data

Hva er relevante ml p sentraltendens og variasjon hvis dataene ikke er normalfordelt? De matematiske uttrykkene for beregne gjennomsnitt og standardavvik forutsetter ingenting om fordelingen, og er veldefinert ogs for data som ikke er normalfordelt. La oss se p et tenkt talleksempel, hentet fra (1): Anta at vi har registrert antall dager p sykehus for 13 pasienter med en gitt diagnose (hhv. 3, 9, 10, 10, 10, 12, 13, 14, 18, 21, 27, 38 og 62 dager). Her blir gjennomsnittet 19 dager, mens medianen blir 13 dager. Standardavviket blir 15,8 dager, og nedre og vre kvartil blir hhv. 10 og 24 dager. Hvis vi nsker estimere kostnad eller behov for personell, er gjennomsnittet en mer relevant strrelse enn medianen. Hvis man nsker si noe om typisk liggetid for en enkelt pasient, vil medianen kunne vre mere relevant.

Nr dataene er kategoriske med f kategorier, for eksempel med de mulige verdiene 1, 2, 3 og 4, vil median og kvartiler vre uegnet for beskrive fordelingen. Det vil vi komme tilbake til i en senere artikkel i Medisin og tall.

I likhet med varians er standardavviket til en stokastiske variabel et ml p hvor mye verdien til denne variabelen vil variere hvis man gjentar det underliggende stokastiske forsket uendelig mange ganger. Standardavviket til en stokastisk variabel \(X\) angir typisk avvik mellom verdien til \(X\) og forventningsverdien til \(X\).