Statistik

Deskriptiv (beskrivende) statistik er den diciplin, der trækker de væsentligste oplysninger ud af et ofte uoverskueligt materiale.
Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser der udtrykker materialets karakteristiske egenskaber.
Denne "destillationsproces" er naturligvis ikke uden omkostninger. Mange oplysninger går tabt, men håbet er, at de væsentligste informationer er i behold.

Testteorien anviser metoder til at be- eller afkræfte hypoteser om en fordeling.

Emner

Grupperede observationer

Oftest begynder processen med, at talmaterialet grupperes, det vil sige ordnes i et antal (n) intervaller, for at gøre materialet overskueligt.

Antallet af intervaller er et kompromis:
– med få intervaller går næsten al information tabt
– med mange intervaller går overblikket tabt.

[ Hovedmenu ] [ Ordliste ]

Hyppighed, frekvens og middelværdi

Lad talmaterialet være ordnet (grupperet) i intervallerne

Intervalhyppigheden h( I ) er antallet af observationer, der falder i intervallet I.

Intervalfrekvensen f( I ) er brøkdelen af observationer, der falder i intervallet I.

Histogrammet er en illustration, hvor observationsintervallerne I1 til In afsættes på 1–aksen. Over hvert interval tegnes et rektangel, hvis areal måler frekvensen (eller hyppigheden) for intervallet.

Middelværdien for fordelingen er det vægtede gennemsnit af intervalmidtpunkterne

Histogram og sumkurve
Beklager; din browser kan ikke vise applets!

[ Hovedmenu ] [ Ordliste ]

Kumuleret frekvens og sumkurve

Den kumulerede frekvens F er en funktion, hvis værdi i et tal er brøkdelen af observationer med værdier op til og med tallet.

Dens graf kaldes Sumkurven. Den viser den kumulerede frekvens som funktion af observationerne. Sumkurven er stykkevis lineær, og "knæk"punkterne ligger ved intervalendepunkterne.
Da andelen af observationer ≤ x ikke kan falde, når x vokser, er F(x) en ikke–aftagende funktion.
Værdimængden er [ 0; 1 ]

[ Hovedmenu ] [ Ordliste ]

Fraktiler og kvartilsæt

Ligger de p% laveste observationer op til og med værdien x, siges fordelingens p-fraktil at ligge ved x. Husk, at fraktiler er x-værdier.
Fraktilerne aflæses lettest på sumkurven, idet man går ind på 2-aksens p-punkt og tegner vandret, til man når kurven, hvorefter man tegner lodret ned, til man rammer 1-aksen i p-fraktilen.

De mest benyttede fraktiler er 25%-, 50%- og 75%-fraktilen. De kaldes også nedre kvartil, median og øvre kvartil - tilsammen kvartilsættet.

Denne regnemaskine giver dig middelværdi, spredning og kvartilsæt for grupperede observationer.
Indtast første første intervals venstre endepunkt og derefter skiftevis værdierne for højre endepunkt og intervalfrekvens og klik uden for boksen.
venstre : , højre : og frekvens :
giver middelværdi = , spredning =
og kvartilsæt = ( , , )

[ Hovedmenu ] [ Ordliste ]

Kontinuerte fordelinger

Hvis en stokastisk variabel kan antage uendelig mange værdier, er begrebet "udfald" ikke frugtbart fordi mange af dem antages med sandsynligheden 0. I stedet anvendes "hændelser" og vi indfører en frekvensfunktion (tæthedsfunktion) f(x) ved, at hændelsen a ≤ x ≤ b har sandsynligheden

Er f(x) kontinuert, taler man om en kontinuert fordeling med fordelingsfunktionen F(x)

Vi ser, at P(a ≤ x ≤ b) = F(b) – F(a) .

Frekvensfunktionen og fordelingsfunktionen for en kontinuert fordeling svarer til histogram og sumkurve for en diskret (endelig) fordeling.

[ Hovedmenu ] [ Ordliste ]

Middelværdi, varians og spredning

Begreberne er fastsat ved følgende definitioner

TypeMiddelværdiVarians
Diskretμ = E(X) = Σi xi · p(xi) σ2 = Var(X) = E((X – 6mu;)2) = Σi (xi – μ)2 · p(xi)
Kontinuert
μ = E(X) =

–∞
x · f(x) dx
σ2 = Var(X) = E((X – μ)2) =

–∞
(x – μ)2 · f(x) dx

Spredningen σ er kvadratroden af variansen (spredningskvadratet). Tilsammen kaldes μ og σ fordelingens parametre.

For både diskrete og kontinuerte fordelinger gælder

Danner vi en ny variabel Y ud fra X ved Y = a X + b, gælder

Danner vi en ny variabel Z = X + Y ud fra X og Y, gælder

Størrelsen E(XY) – E(X)E(Y) kaldes covariansen af X og Y.

Hvis der er stor sandsynlighed for, at X og Y på samme tid er større end deres middelværdier og på samme tid mindre, er Cov(X, Y) > 0. Er X ofte større end sin middelværdi når Y er mindre end sin og omvendt, er Cov(X, Y) < 0. Er der ingen sådan sammenhæng mellem X og Y, siges X og Y at være uafhængige, og Cov(X, Y) = 0. Vi har altså

[ Hovedmenu ] [ Ordliste ]

Stikprøver

Har vi n variable X1, X2, ... , Xn, der alle har middelværdi μ og varians σ2, er gennemsnittet X^ = (X1 + ... + Xn) / n. Ifølge ovenstående er

Så ser vi på størrelsen

Middelværdien af S2 kan beregnes

Disse regninger begrunder, at μ kan estimeres af X^ og σ2 af S2 / (n – 1) = s2.

Tallet f = n – 1 kaldes antallet af frihedsgrader for en n - foldig stikprøve.

Denne
regnemaskine giver dig middelværdi og spredning for en stikprøve.
Indtast observationerne enkeltvis og klik uden for boksen.
xi : giver X^ = og s = med n :

[ Hovedmenu ] [ Ordliste ]

Normalfordelingen

Mange fordelinger viser sig at have fælles træk. Histogrammerne er symmetriske "muldvarpeskud". Og sumkurverne er pæne s-formede kurver, symmetriske om medianpunktet. D.v.s. at for sådanne fordelinger er middelværdi = median.

Matematikere kalder disse fordelinger normale.

Normalfordelingspapir er funktionspapir, hvor andenaksen er speciel, så en normalfordelings sumkurve bliver en ret linie.
Man kan altså teste en fordelings "normalitet" ved at plotte støttepunkter til sumkurven (pånær 0% og 100% punkter) på normalfordelingspapir. Jo nærmere punkterne ligger ved en ret linie, jo mere "normal" er fordelingen.

Normalfordelingen (μ = m og σ = s)
Beklager; din browser kan ikke vise applets!

Binomialfordelinger tilnærmer normalfordelingen.

Denne regnemaskine giver dig tilnærmede værdier af normalfordelinger.
Indtast værdier for middelværdi μ, spredning σ og x og klik uden for boksen.
μ : , σ : og x : giver Φ(x) =

[ Hovedmenu ] [ Ordliste ]

Γ - funktionen
Leonhard Euler I den teoretiske statistik ser man mange frekvens- og fordelingsfunktioner, der matematisk er beslægtede med Eulers Γ - funktion (læses "gamma - funktion"). Her er mere om Γ - funktionen.
Beklager; din browser kan ikke vise applets!

Denne regnemaskine giver dig tilnærmede værdier af Gammafunktionen.
Indtast værdien for x og klik uden for boksen.
x = giver ln(Γ(x)) = og Γ(x) =

[ Hovedmenu ] [ Ordliste ]

Test af hypoteser

En hovedopgave i matematisk statistik er at kunne sige noget rimeligt om en fordeling ud fra stikprøver. Men det kan gå galt på to måder:

I det følgende antager vi, at fordelingen er normal med (de ukendte) parametre μ og σ. Vi kalder den (μ, σ)-normal. Desuden antages, at stikprøven er regulær d.v.s. at de enkelte elementer i stikprøven er (μ, σ)-normale og uafhængige af hinanden.

Én type test drejer sig om at teste hypotesen: middelværdi = μ ud fra en stikprøve.

Er σ kendt, beregnes teststørrelsen u. Ellers beregnes t. Derefter slår man op i henholdsvis (0, 1) - normalfordelingen eller t - fordelingen og finder sandsynligheden for at få en teststørrelse, der er mindre end den målte. Jo mærmere sandsynligheden er ved 0.5 = 50%, jo større tillid har vi til hypotesen middelværdi = μ.

Vil man teste, om to fordelinger er ens (den ene kan f.eks. være normalfordelingen), beregnes χ2 - teststørrelsen. Derefter slår man op i χ2 - fordelingen og finder sandsynligheden for at få en teststørrelse, der er mindre end den målte. Jo mærmere sandsynligheden er ved 0, jo større tillid har vi til hypotesen: de to fordelinger er ens.

Ofte accepterer man en risiko på op til 5% for at begå en fejl af første type. I det tilfælde taler man om et signifikansnivau på 95%.

[ Hovedmenu ] [ Ordliste

t - fordelingen

Gennemsnittet X^ af værdierne af n uafhængige stikprøver taget fra en (μ, σ) - normal fordeling er ifølge ovenstående fordelt μ, σ / √n) - normal. Heraf følger, at

er fordelt (0, 1) - normal. Er σ ukendt, er det nærliggende at anvende det bedste estimat
s = S / √(n – 1) og sætte

som siges at være t - fordelt med f = n – 1 såkaldte frihedsgrader. Jo flere frihedsgrader, jo større stikprøve, og jo mere nærmer t-fordelingen sig til (0, 1)-normalfordelingen.

For at sammenligne to fordelinger X1 og X2 med parametrene 1, σ) og 2, σ) udtages to stikprøver af størrelse n1 og n2 henholdsvis. Ifølge ovenstående er variablen X1 – X2 normalfordelt med parametrene 1 – μ2, √(1/n1 + 1/n2)). Det betyder, at

er fordelt (0, 1) - normal. Er σ ukendt, er det nærliggende at anvende det bedste estimat s.

hvor s beregnes udfra de to stikprøvers spredninger s1 og s2

t er t - fordelt med n1 + n2 – 2 frihedsgrader.

Beklager; din browser kan ikke vise applets!

Frekvensfunktionen for t-fordelingen er

Denne regnemaskine giver dig middelværdi, spredning og t - værdi for en stikprøve.
Indtast først μ og derefter observationerne enkeltvis og klik uden for boksen.
μ = xi = giver X^ = , s = og t = med n =
Denne regnemaskine giver dig t - værdien for sammenligning af to stikprøver.
Indtast X1^, X2^, s1, s2 og strikprøvestørrelserne og klik uden for boksen.
X1^ = s1 = n1 = X2^ = s2 = n2 =
giver t = med f = frihedsgrader

Denne regnemaskine giver dig sandsynligheden for, at t - værdien ligger under den målte værdi ved f frihedsgrader.
Ændr t eller f værdier og klik uden for boksen.
t = f = giver p =

[ Hovedmenu ] [ Ordliste ]

χ2 - fordelingen

I en undersøgelse af en normalfordelt stokastisk variabel grupperes observationerne i n grupper.

Summen af kvadraterne på den relative forskel mellem målte og forventede værdier kaldes

Q er χ2 - fordelt (læs ki-i-anden-fordelt) med f = n – 1 frihedsgrader.

Beklager; din browser kan ikke vise applets!

x siges at være χ2 - fordelt med f frihedsgrader, hvis frekvensfunktionen er

Denne regnemaskine giver dig χ2 - værdien for en frekvensfordeling.
Indtast skiftevis målte og forventede værdier og klik uden for boksen.
målt = forventet = giver χ2 = med f = frihedsgrader.
Denne regnemaskine giver dig sandsynligheden for, at χ2 - værdien ligger under den målte værdi ved f frihedsgrader.
Indtast χ2 eller f værdier og klik uden for boksen.
χ2 = f = giver p =

[ Hovedmenu ] [ Ordliste ] [ Tilbage til hovedsiden ]