Deskriptiv (beskrivende) statistik er den diciplin, der trækker de væsentligste oplysninger
ud af et ofte uoverskueligt materiale.
Det sker f.eks. ved at konstruere forskellige deskriptorer, d.v.s. regnestørrelser
der udtrykker materialets karakteristiske egenskaber.
Denne "destillationsproces" er naturligvis ikke uden omkostninger. Mange oplysninger går tabt,
men håbet er, at de væsentligste informationer er i behold.
Testteorien anviser metoder til at be- eller afkræfte hypoteser om en fordeling.
Oftest begynder processen med, at talmaterialet grupperes, det vil sige ordnes i et antal (n) intervaller, for at gøre materialet overskueligt.
Antallet af intervaller er et kompromis:
med få intervaller går næsten al information tabt
med mange intervaller går overblikket tabt.
Lad talmaterialet være ordnet (grupperet) i intervallerne
Intervalhyppigheden h( I ) er antallet af observationer, der falder i intervallet I.
Intervalfrekvensen f( I ) er brøkdelen af observationer, der falder i intervallet I.
Histogrammet er en illustration, hvor observationsintervallerne I1 til In afsættes på 1aksen. Over hvert interval tegnes et rektangel, hvis areal måler frekvensen (eller hyppigheden) for intervallet.
Middelværdien for fordelingen er det vægtede gennemsnit af intervalmidtpunkterne
Den kumulerede frekvens F er en funktion, hvis værdi i et tal er brøkdelen af observationer med værdier op til og med tallet.
Dens graf kaldes Sumkurven. Den viser den kumulerede frekvens
som funktion af observationerne. Sumkurven er stykkevis lineær,
og "knæk"punkterne ligger ved intervalendepunkterne.
Da andelen af observationer ≤ x
ikke kan falde, når x vokser, er F(x) en ikkeaftagende funktion.
Værdimængden er [ 0; 1 ]
Ligger de p% laveste observationer op til og med værdien x, siges fordelingens
p-fraktil at ligge ved x. Husk, at fraktiler er x-værdier.
Fraktilerne aflæses lettest på sumkurven, idet man går ind på 2-aksens p-punkt og tegner
vandret, til man når kurven, hvorefter man tegner lodret ned, til man rammer 1-aksen i p-fraktilen.
De mest benyttede fraktiler er 25%-, 50%- og 75%-fraktilen. De kaldes også nedre kvartil, median og øvre kvartil - tilsammen kvartilsættet.
Hvis en stokastisk variabel kan antage uendelig mange værdier, er begrebet "udfald" ikke frugtbart fordi mange af dem antages med sandsynligheden 0. I stedet anvendes "hændelser" og vi indfører en frekvensfunktion (tæthedsfunktion) f(x) ved, at hændelsen a ≤ x ≤ b har sandsynligheden
P(a ≤ x ≤ b) = | ∫ | b a |
f(x) dx . |
Er f(x) kontinuert, taler man om en kontinuert fordeling med fordelingsfunktionen F(x)
F(x) = P(∞ < t ≤ x) = | ∫ | x ∞ |
f(t) dt . |
Vi ser, at P(a ≤ x ≤ b) = F(b) F(a) .
Frekvensfunktionen og fordelingsfunktionen for en kontinuert fordeling svarer til histogram og sumkurve for en diskret (endelig) fordeling.
Begreberne er fastsat ved følgende definitioner
Type | Middelværdi | Varians | ||||||||
---|---|---|---|---|---|---|---|---|---|---|
Diskret | μ = E(X) = Σi xi · p(xi) | σ2 = Var(X) = E((X 6mu;)2) = Σi (xi μ)2 · p(xi) | ||||||||
Kontinuert |
|
|
Spredningen σ er kvadratroden af variansen (spredningskvadratet). Tilsammen kaldes μ og σ fordelingens parametre.
For både diskrete og kontinuerte fordelinger gælder
Danner vi en ny variabel Y ud fra X ved Y = a X + b, gælder
Danner vi en ny variabel Z = X + Y ud fra X og Y, gælder
Størrelsen E(XY) E(X)E(Y) kaldes covariansen af X og Y.
Hvis der er stor sandsynlighed for, at X og Y på samme tid er større end deres middelværdier og på samme tid mindre, er Cov(X, Y) > 0. Er X ofte større end sin middelværdi når Y er mindre end sin og omvendt, er Cov(X, Y) < 0. Er der ingen sådan sammenhæng mellem X og Y, siges X og Y at være uafhængige, og Cov(X, Y) = 0. Vi har altså
Har vi n variable X1, X2, ... , Xn, der alle har middelværdi μ og varians σ2, er gennemsnittet X^ = (X1 + ... + Xn) / n. Ifølge ovenstående er
Så ser vi på størrelsen
Middelværdien af S2 kan beregnes
Disse regninger begrunder, at μ kan estimeres af X^ og σ2 af S2 / (n 1) = s2.
Tallet f = n 1 kaldes antallet af frihedsgrader for en n - foldig stikprøve.
Mange fordelinger viser sig at have fælles træk. Histogrammerne er symmetriske "muldvarpeskud". Og sumkurverne er pæne s-formede kurver, symmetriske om medianpunktet. D.v.s. at for sådanne fordelinger er middelværdi = median.
Matematikere kalder disse fordelinger normale.
Normalfordelingspapir er funktionspapir, hvor andenaksen er speciel,
så en normalfordelings sumkurve bliver en ret linie.
Man kan altså teste en fordelings "normalitet" ved at plotte støttepunkter til sumkurven
(pånær 0% og 100% punkter)
på normalfordelingspapir. Jo nærmere punkterne ligger ved en ret linie,
jo mere "normal" er fordelingen.
φ(x) = |
1 σ√ (2π) |
exp( |
(x μ)2 2σ2 |
) og Φ(x) = | ∫ | x ∞ |
Φ(t) dt . |
Binomialfordelinger tilnærmer normalfordelingen.
![]() |
I den teoretiske statistik ser man mange frekvens- og fordelingsfunktioner, der matematisk er beslægtede med Eulers Γ - funktion (læses "gamma - funktion"). Her er mere om Γ - funktionen. |
Γ(x) = | ∫ | ∞ 0 |
tx 1e t dt . |
En hovedopgave i matematisk statistik er at kunne sige noget rimeligt om en fordeling ud fra stikprøver. Men det kan gå galt på to måder:
I det følgende antager vi, at fordelingen er normal med (de ukendte) parametre μ og σ. Vi kalder den (μ, σ)-normal. Desuden antages, at stikprøven er regulær d.v.s. at de enkelte elementer i stikprøven er (μ, σ)-normale og uafhængige af hinanden.
Én type test drejer sig om at teste hypotesen: middelværdi = μ ud fra en stikprøve.
Er σ kendt, beregnes teststørrelsen u. Ellers beregnes t. Derefter slår man op i henholdsvis (0, 1) - normalfordelingen eller t - fordelingen og finder sandsynligheden for at få en teststørrelse, der er mindre end den målte. Jo mærmere sandsynligheden er ved 0.5 = 50%, jo større tillid har vi til hypotesen middelværdi = μ.
Vil man teste, om to fordelinger er ens (den ene kan f.eks. være normalfordelingen), beregnes χ2 - teststørrelsen. Derefter slår man op i χ2 - fordelingen og finder sandsynligheden for at få en teststørrelse, der er mindre end den målte. Jo mærmere sandsynligheden er ved 0, jo større tillid har vi til hypotesen: de to fordelinger er ens.
Ofte accepterer man en risiko på op til 5% for at begå en fejl af første type. I det tilfælde taler man om et signifikansnivau på 95%.
Gennemsnittet X^ af værdierne af n uafhængige stikprøver taget fra en (μ, σ) - normal fordeling er ifølge ovenstående fordelt μ, σ / √n) - normal. Heraf følger, at
u = |
X^ μ σ / √n |
er fordelt (0, 1) - normal. Er σ ukendt, er det
nærliggende at anvende det bedste estimat
s = S / √(n 1) og sætte
t = |
X^ μ s / √n |
, |
som siges at være t - fordelt med f = n 1 såkaldte frihedsgrader. Jo flere frihedsgrader, jo større stikprøve, og jo mere nærmer t-fordelingen sig til (0, 1)-normalfordelingen.
For at sammenligne to fordelinger X1 og X2 med parametrene (μ1, σ) og (μ2, σ) udtages to stikprøver af størrelse n1 og n2 henholdsvis. Ifølge ovenstående er variablen X1 X2 normalfordelt med parametrene (μ1 μ2, √(1/n1 + 1/n2)). Det betyder, at
u = |
X1^ X2^
(μ1
μ2)
|
er fordelt (0, 1) - normal. Er σ ukendt, er det nærliggende at anvende det bedste estimat s.
t = |
X1^ X2^
(μ1
μ2)
|
, |
hvor s beregnes udfra de to stikprøvers spredninger s1 og s2
s2 = |
(n1 1)s12 + (n2
1)s22 n1 + n2 2 |
. |
t er t - fordelt med n1 + n2 2 frihedsgrader.
Frekvensfunktionen for t-fordelingen er
t(x) = |
Γ((f + 1) / 2) √(πf) Γ(f / 2) |
(1 + | x2 f |
)(f+1)/2 . |
I en undersøgelse af en normalfordelt stokastisk variabel grupperes observationerne i n grupper.
Summen af kvadraterne på den relative forskel mellem målte og forventede værdier kaldes
Q = | n Σ i = 1 |
( |
(målt(i) forventet(i)) forventet(i) |
) | 2 |
. |
Q er χ2 - fordelt (læs ki-i-anden-fordelt) med f = n 1 frihedsgrader.
x siges at være χ2 - fordelt med f frihedsgrader, hvis frekvensfunktionen er
χ2(x) = |
1 2f/2 Γ(f/2) |
xf/21 ex/2 . |
[ Hovedmenu ] [ Ordliste ] [ Tilbage til hovedsiden ]