Det er et estimat av et intervall som brukes i statistikken, som inneholder en populasjonsparameter. Denne ukjente populasjonsparameteren er funnet gjennom en prøvemodell beregnet fra innsamlede data.
Eksempel: gjennomsnittet av en samlet prøve x̅ kan eller ikke falle sammen med den sanne populasjonsgjennomsnittet μ. For dette er det mulig å vurdere et utvalg av utvalgsmidler der denne populasjonsgjennomsnittet kan inngå. Jo lenger dette området er, desto mer sannsynlig er det å gjøre det.
Konfidensintervallet uttrykkes som en prosentandel, kalt konfidensnivå, med 90%, 95% og 99% som det mest passende. I bildet nedenfor har vi for eksempel et 90% konfidensintervall mellom dets øvre og nedre grense (o og -a).
Eksempel 90% konfidensintervall mellom øvre (a) og nedre (-a) grense.
Tillitsintervallet er et av de viktigste begrepene i statistisk hypotesetesting, da det brukes som et mål på usikkerhet. Begrepet ble introdusert av den polske matematikeren og statistikeren Jerzy Neyman i 1937.
Hva er relevansen av et tillitsintervall?
Konfidensintervallet er viktig for å indikere usikkerhetsmarginen (eller upresisjon) foran en beregning som er gjort. Denne beregningen bruker studieprøven for å estimere den faktiske størrelsen på resultatet i kildepopulasjonen.
Å beregne et konfidensintervall er en strategi som tar hensyn til feilprøvetaking. Størrelsen på studieresultatet og konfidensintervallet karakteriserer de antatte verdiene for den opprinnelige populasjonen.
Jo smalere konfidensintervallet er, desto større er sannsynligheten for befolkningsprosenten på studie representerer det reelle antallet av opprinnelsespopulasjonen, noe som gir større sikkerhet med hensyn til resultatet av gjenstanden til studere.
Hvordan tolke et tillitsintervall?
Korrekt tolkning av konfidensintervallet er trolig det mest utfordrende aspektet ved dette statistiske konseptet. Et eksempel på den vanligste tolkningen av konseptet er som følger:
Det er en 95% sannsynlighet at den sanne verdien av populasjonsparameteren (for eksempel middel) i fremtiden faller innenfor området X (nedre grense) og Y (øvre grense).
Dermed tolkes konfidensintervallet slik: det er 95% trygg på at området mellom X (nedre grense) og Y (øvre grense) inneholder den sanne verdien av populasjonsparameteren.
Ville vært helt feil oppgi at: det er en 95% sannsynlighet for at intervallet mellom X (nedre grense) og Y (øvre grense) inneholder den faktiske verdien av populasjonsparameteren.
Ovennevnte utsagn er den vanligste misforståelsen om konfidensintervallet. Når det statistiske området er beregnet, kan det bare inneholde populasjonsparameteren eller ikke.
Områdene kan imidlertid variere mellom prøvene, mens den sanne populasjonsparameteren er den samme uavhengig av prøven.
Derfor kan sannsynlighetsuttalelsen angående konfidensintervallet bare gjøres i tilfelle konfidensintervallene beregnes på nytt for antall prøver.
Trinnene for å beregne tillitsintervallet
Området beregnes ved hjelp av følgende trinn:
- Samle eksempeldata: Nei;
- Beregn prøvenes gjennomsnitt x̅;
- Bestem om et populasjonsstandardavvik (σ) er kjent eller ukjent;
- Hvis et populasjonsstandardavvik er kjent, kan et punkt brukes. z for tilsvarende konfidensnivå;
- Hvis et populasjonsstandardavvik er ukjent, kan vi bruke en statistikk t for tilsvarende konfidensnivå;
- Dermed blir de nedre og øvre grensene for konfidensintervallet funnet ved hjelp av følgende formler:
De) Standardavvik for en kjent populasjon:
Formel for beregning av standardavviket til en kjent populasjon.
B) Standardavvik for en ukjent populasjon:
Formel for beregning av standardavvik for en ukjent populasjon.
Praktisk eksempel på et konfidensintervall
En klinisk studie evaluerte sammenhengen mellom tilstedeværelse av astma og risikoen for å utvikle obstruktiv søvnapné hos voksne.
Noen voksne ble tilfeldig rekruttert fra en liste over statlige tjenestemenn som skulle følges over fire år.
Deltakere med astma, sammenlignet med de uten, hadde høyere risiko for å utvikle apné innen fire år.
Når man gjennomfører kliniske studier som dette eksemplet, rekrutterer man vanligvis en delmengde av befolkningen av interesse for å øke effektiviteten i studien (mindre kostnad og mindre tid).
Denne undergruppen av individer, den studerte befolkningen, består av de som oppfyller inklusjonskriteriene og godtar å delta i studien, som vist på bildet nedenfor.
Forklarende graf over befolkningen studert i eksemplet.
Deretter er studien fullført og en effektstørrelse beregnes (for eksempel: en gjennomsnittlig forskjell eller en relativ risiko) for å svare på spørreundersøkelsen.
Denne prosessen, kalt slutning, innebærer å bruke data samlet fra studiepopulasjonen for å estimere den faktiske effektstørrelsen i populasjonen av interesse, dvs. kildepopulasjonen.
I eksemplet som ble gitt rekrutterte forskerne et tilfeldig utvalg av statsansatte (kildepopulasjon) som var kvalifiserte og ble enige om å delta i studien (studiepopulasjonen) og rapporterte at astma øker risikoen for å utvikle apné i befolkningen studerte.
For å gjøre rede for en prøvetakingsfeil på grunn av å rekruttere bare en delmengde av populasjonen av interesse, beregnet de også en 95% konfidensintervall (rundt estimatet) på 1,06 - 1,82, noe som indikerer en sannsynlighet for 95% at den virkelige relative risikoen i opprinnelsespopulasjonen ville være mellom 1.06 og 1.82.
Tillitsintervall for gjennomsnitt
Når du har informasjon om standardavviket til en populasjon, kan du beregne et konfidensintervall for gjennomsnittet eller gjennomsnittet av denne populasjonen.
Når en statistisk karakteristikk som måles (som inntekt, IQ, pris, høyde, mengde eller vekt) er numerisk, anslås det i de fleste tilfeller å være funnet gjennomsnittsverdien for befolkningen.
Dermed søker vi å finne befolkningens gjennomsnitt (μ) ved hjelp av et prøve gjennomsnitt (x̅), med feilmargin. Resultatet av denne beregningen kalles konfidensintervall for populasjonens gjennomsnitt.
Når populasjonsstandardavviket er kjent, er formelen for et konfidensintervall (CI) for et populasjonsmiddel:
Hvor:
- x̅ er gjennomsnittet av prøven;
- σ er populasjonsstandardavviket;
- Neier prøvestørrelsen;
- Ζ* representerer riktig verdi av standard normalfordeling for ønsket konfidensnivå.
Nedenfor er verdiene for de forskjellige konfidensnivåene (Ζ*):
Tillitsnivå | Z-verdi * - |
---|---|
80% | 1.28 |
90% | 1645 (konvensjonell) |
95% | 1.96 |
98% | 2.33 |
99% | 2.58 |
Tabellen over viser z * verdier for de gitte konfidensnivåene. Merk at disse verdiene er hentet fra standard normalfordeling (Z-).
Området mellom hver z * -verdi og negativt av denne verdien er prosentkonfidens (omtrentlig). For eksempel er området mellom z * = 1,28 og z = -1,28 omtrent 0,80. Derfor kan denne tabellen også utvides til andre tillitsprosent. Tabellen viser bare de mest brukte tillitsprosentene.
Se også betydningen av Hypotese.