3.5 Oppgaver
3.5.1 Standard oppgaver
Introduksjon til hypotesetesting
- For hvert av scenarioene i a og b, gjør følgende:
- Sett opp relevant nullhypotese og alternativhypotese (hint: nullhypotese avhenger av hvor ‘bevisbyrden’ bør ligge)
- Definer type I-og type II-feil.
- Diskuter konsekvensene av type I-feil og type II-feil i det aktuelle scenarioet.
En ny type medisin skal vurderes for kommersialisering. Du sitter i et vurderingspanel som skal vurdere om medisinen kan bli godkjent eller ikke.
Du blir presentert to ulike investeringer å velge mellom. En av dem er veldig risikabel, men med stor potensiell profitt. Den andre er mindre risikabel, men med lavere potensiell profitt.
Løsning
- \(H_0\): Den nye medisinen er ikke trygg og effektiv. \(H_1\): Den nye medisinen er trygg og effektiv. Type I-feil: Forkaste \(H_0\) når \(H_0\) er sann. Konsekvens: Risikerer at vi begynner å produsere en medisin som ikke er trygg og effektiv. Type II-feil: Forkaster ikke \(H_0\) når \(H_1\) er sann. Konsekvens: Vi lar være å produsere en medisin som faktisk er trygg og effektiv.
Kommentar: Signifikansnivået ved produksjon av medisiner settes ofte lavt fordi konsekvensene av en type I-feil kan være svært alvorlige.
- \(H_0\): Den mest risikable investeringen er mest lønnsom. \(H_1\): Den mest risikable investeringen er ikke mest lønnsom. Type I-feil: Forkaste \(H_0\) når \(H_0\) er sann. Konsekvens:Vi investerer i den minst risikable investeringen, som ikke er mest lønnsom. Type II-feil: Forkaster ikke \(H_0\) når \(H_1\) er sann. Konsekvens: Vi investerer i den mest risikable investeringen, som ikke er mest lønnsom.
Vi har følgende hypoteser og informasjon om dataene: \(H_0: \mu = 150\) mot \(H_1: \mu \neq 150\). \(\sigma = 10\), \(n =100\), \(\overline{x} = 150\).
Bestem verdi av testobservator, forkastelsesområde dersom signifikansnivået er \(\alpha = 0.05\), og p-verdi. Konkluder.
Løsning
Her er \(\sigma\) kjent så vi kan bruke en z-observator. Forkastelsesområde \(Z < -z_{0.025}=-1.96\) eller \(Z> z_{0.025}=1.96\).
\[Z = \frac{\overline{x} - \mu}{\sigma/\sqrt{n}} = \frac{150 - 150}{10/\sqrt{100}}=0\]
p-verdi\(=2P(Z > 0) = 2\times0.5=1\). Vi kan ikke forkaste nullhypotesen \(H_0: \mu = 0\). Faktisk er det ekstremt sannsynlig (p-verdi = 1) å observere det vi har observert dersom nullhypotesen er sann.
Vi har følgende hypoteser og informasjon om dataene: \(H_0: \mu = 55\) mot \(H_1: \mu > 55\). \(\sigma = 20\), \(n = 25\), \(\overline{x} = 67\).
Regn ut testobservatoren \(Z\).
Regn ut p-verdi.
Regn ut p-verdi, denne gangen med \(\overline{x}\) = 63.
Regn ut p-verdi, denne gangen med \(\overline{x}\) = 59.
Fastslå hva som skjer med verdien av testobservatoren (Z) og p-verdien når \(\overline{x}\) nærmer seg \(55\) (verdien av \(\mu\) under \(H_0\)).
Løsning
\[Z = \frac{\overline{x} - \mu}{\sigma/\sqrt{n}} = \frac{67 - 55}{20/\sqrt{25}}=3\]
\(\text{p-verdi} = P(Z > 3.00) = 1 – P(Z<3) = 1 – 0.9987 = 0.0013\). Kommentar: Her kan du bruke
pnorm(3)
i R til å regne ut \(P(Z<3)\).Ny verdi av testobservator blir da \(Z = 2\). \(\text{p-verdi} = P(Z > 2.00) = 1 – 0.9772 = 0.0228\).
Ny verdi av testobservator blir da \(Z = 1\). \(\text{p-verdi} = P(Z > 1.00) = 1 – 0.8413 = 0.1587\).
Vi ser at testobservatoren minker og p-verdien øker når \(\overline{x}\) nærmer seg \(55\).
Forklaring: La \(\mu_0 = 55\) være verdien av \(\mu\) under \(H_0\). Z-observatoren måler avviket mellom antagelsen under \(H_0\) og dataene vi observerer og avtar derfor når vår observasjon av \(\overline{x}\) nærmer seg \(\mu_0\). P-verdien sier hvor sannsynlig det er å observere de dataene vi har dersom \(H_0\) er sann og øker følgelig når \(\overline{x}\) nærmer seg \(\mu_0\).
Annta at vi har følgende hypoteser og informasjon om dataene: \(H_0: \mu = 50\) mot \(H_1: \mu > 50\). \(\sigma = 10\), \(n = 40\), \(\alpha = 0.05\).
Bestem \(\beta\), altså sannsynligheten for en type-II feil, under antagelsen at \(\mu = 55\).
Løsning
Forkastningsområdet blir da
\[Z = \frac{\overline{X} - 50}{10/\sqrt{40}} > Z_{0.05} = 1.645 \] dvs at vi forkaster \(H_0\) når \[\overline{X} > 50 + 1.645\times\frac{10}{\sqrt{40}}=52.6\] En type-II feil svarer til å ikke forkaste \(H_0\) når \(H_1\) er sann. For å regne på sannsynligheten for type-II feil må vi ikke bare anta at \(H_1\) er sann, men være spesifike på hva verdien til \(\mu\) er (i dette tilfellet 55). Vi lurer altså på hva sannsynligheten for at vi ikke er i forkastnings området (\(\overline{X} < 52.6\)) gitt at \(\mu = 55\): \[\begin{equation*} \begin{split} \beta &= P(\overline{X} < 52.6\quad\text{gitt at $\mu = 55$})\\ &= P(\frac{\overline{X} - 55}{10/\sqrt{40}} < \frac{52.6 - 55}{10/\sqrt{40}})\\ &=P(Z < -1.52) = 0.064 \end{split} \end{equation*}\] Merk: Et begrep som ofte blir brukt om tester er styrken til testen \(1-\beta\) som da er sannsynligheten for å forkaste \(H_0\) når \(H_1\) er sann. En god test har god (stor) styrke. Hadde vi gjentatt denne testen mange ganger ville vi ha forkastet \(H_0\) i \((100 - 6.4)\% = 93.6\%\) av gangene dersom det faktisk er slik at sann \(\mu\) er 55.
En leder frykter at den gjennomsnittlige tiden ansatte daglig bruker på sosiale medier overstiger 45 minutter. For å teste denne mistanken, plukker han ut et tilfeldig utvalg på 15 personer, og spør om tid brukt på sosiale medier etter en tilfeldig arbeidsdag. Resultatene er oppsummert nedenfor.
70, 96, 58, 88, 34, 42, 34, 56, 68, 46, 26, 18, 22, 60, 84
Hvis samlingen av tider er normalfordelt med standardavvik på 20 minutter, kan lederen hevde at mistanken hans stemmer på et 1 % signifikans-nivå?
Tror du observasjonene over er et representativt utvalg? Hva kunne lederen gjort annerledes?
Løsning
- Lederen ønsker altså å teste \(H_0: \mu = 45\) mot alternativ hypotesen \(H_1: \mu > 45\). Testobservatoren er da gitt ved
\[Z = \frac{\overline{X} - \mu_0}{\sigma/\sqrt{n}} = \frac{53.46 - 45}{20/\sqrt{15}} = 1.64\]
Sannsynligheten for å observerer noe minst like ekstremt og til fordel for \(H_1\) (p-verdien) er da
\[P-verdi = P(Z > 1.645) \approx 0.05 > 0.01\].
Lederen kan altså ikke trekke denne konklusjonen på 1 % signifikansnivå. For å forkaste null hypotesen på et 1 % signifikansnivå, måtte vi hatt p-verdi lavere enn 1 %.
- Dersom lederen spør ansatte fjes til fjes er det nærliggende å tro at de ansatte vil underdrive sin bruk av sosiale medier. En anonym spørreundersøkelse ville nok gitt et mer representativt utvalg.
Gjennomsnitt og standardavvik i et utvalg på \(n=100\) er \(\overline{x} = 20\) og \(s = 2\).
Finn 95 % konfidensintervall av gjennomsnitt (\(\mu\)) i populasjonen.
Gjenta a. med \(s = 5\).
Gjenta a. med \(s = 10\).
Fastslå hvordan det estimerte konfidensintervallet endrer seg når vi øker \(s\).
Anta at \(s=5\) og regn et 95 % konfidensintervall dersom størrelsen på utvalget er henholdsvis \(n = 50\) og \(n=10\).
Fastlå hvordan det estimerte konfidensintervallet endrer seg når vi øker \(n\).
Løsning
\[\overline{x} \pm t_{\alpha/2, n - 1}s/\sqrt{n} = 20 \pm 1.984\times 2/\sqrt{100} = [19.60 ,20.40]\]
\[ 20 \pm 1.984\times 5/\sqrt{100} = [19.01 ,20.99]\]
\[ 20 \pm 1.984\times 10/\sqrt{100} = [18.02 ,21.98]\]
Konfidensintervallet blir større når \(s\) øker.
\[\overline{x} \pm t_{\alpha/2, n - 1}s/\sqrt{n} = 20 \pm 2.09\times 5/\sqrt{50} = [18.58 ,21.42]\] \[\overline{x} \pm t_{\alpha/2, n - 1}s/\sqrt{n} = 20 \pm 2.26\times 5/\sqrt{10} = [16.42 ,23.58]\]
Vi ser at jo større \(n\) er jo mindre blir konfidensintervallet. Flere observasjoner gjør at vi med større sikkerhet (smalere intervall) kan si hvor \(\mu\) ligger.
- Med sterkt fall i flyreiser og passasjerer på grunn av koronakrisen var det i samme periode sannsynlig med færre forsinkelser i flytrafikken. Før krisen hevdet et flyselskap at de landet presist 92 % av flyreisene. I et tilfeldig utvalg flyreiser hos det samme selskapet under krisen ble 156 av 165 vurdert til å være presise. Kan vi konkludere på 5 % signifikansnivå at det er færre forsinkelser under koronakrisen?
Løsning
La \(p\) være den sanne andelen av flyreiser som kommer presist under krisen. Vi skal da teste \(H_0: p = 0.92\) mot \(H_1: p > 0.92\). Vårt estimat på \(p\) er \(\hat{p}=156/165 \approx 0.945\) og testobservatoren er gitt ved
\[z = \frac{\hat{p} - p_0}{\sqrt{p_0(1 - p_0)/n}} = \frac{0.945 - 0.92}{\sqrt{0.92(1 - 0.92)/165}} \approx 1.18\] Dersom vi bruker kritisk verdi ville forkastningsområdet vært \(z > 1.645\) og siden \(z < 1.645\) kan vi altså ikke forkaste \(H_0\). Alternativt kan vi regne ut p-verdien som er “sannsynligheten for det vi har observert eller noe enda mer til fordel for \(H_1\). En enda mer positiv verdi enn 1.18 ville vært til fordel for \(H_1\), derfor er
\[p-verdi = P(Z > 1.18) = = 1 - P(Z < 1.18) \approx 0.12\] og vi kan derfor ikke forkaste \(H_0\) siden p-verdien ikke er mindre enn 0.05. TIPS: \(P(Z<1.18) =\)
pnorm(1.18)
i R.
- Vi har følgende informasjon fra to tilfeldige utvalg fra to ulike normalfordelte populasjoner: \(\overline{x}_1 = 400\), \(s_1 = 130\), \(n_1 = 130\), \(\overline{x}_2 = 390\), \(s_2 = 50\), \(n_2 = 130\).
- Kan vi hevde på et 5 % signifikansnivå at \(\mu_1\) er større enn \(\mu_2\)? Det oppgis at
\[\nu = \frac{\left(\frac{s^2_{1}}{n_1} + \frac{s^2_{2}}{n_2}\right)^2}{\left(\frac{s^2_{1}}{n_1}\right)^2/(n_1 - 1) + \left(\frac{s^2_{2}}{n_2}\right)^2/(n_2 - 1)}\approx 166\]
Gjenta a., denne gangen med \(s_1 = 30\) og \(s_2 = 15\). Som over, oppgis det at \(\nu \approx 190\).
Fastslå hva som skjer hvis utvalgenes standardavvik blir mindre.
Gjenta a., denne gangen med utvalg på \(n_1 = n_2 = 20\) observasjoner. Som over, oppgis det at \(\nu \approx 28\).
Fastslå effekten av å redusere utvalgsstørrelser.
Løsning
- Vi skal altså teste \(H_0: \mu_1 - \mu_2 = 0\) mot \(H_1: \mu_1 - \mu_2 > 0\). Siden variansene i utvalget er såpass ulike antar vi at vi må bruke varianten av testen med ulik varians. Testobservatoren er da gitt ved
\[T = \frac{\overline{x}_1 - \overline{x}_2 - 0}{\sqrt{\frac{s^2_{1}}{n_1} + \frac{s^2_{2}}{n_2}}}=\frac{400 - 390}{\sqrt{\frac{130^2}{130} + \frac{50^2}{130}}} = 0.82\] Antall frihetsgrader oppgis til å være \(v \approx 166\). Vi forkaster \(H_0\) dersom \(T > t_{0.05, 166} = 1.654\), og siden dette ikke er tilfelle her kan vi ikke forkaste \(H_0\) ved 5 % signifikansnivå.
- Testobservatoren blir i dette tilfellet
\[T = \frac{\overline{x}_1 - \overline{x}_2 - 0}{\sqrt{\frac{s^2_{1}}{n_1} + \frac{s^2_{2}}{n_2}}}=\frac{400 - 390}{\sqrt{\frac{30^2}{130} + \frac{15^2}{130}}} = 3.40\] Antall frihetsgrader oppgis til å være \(v \approx 190\). Siden \(T = 3.40 > t_{0.05, 190} = 1.653\) forkaster vi \(H_0\) på 5 % signifikansnivå.
Når standardavvikene i utvalgene blir mindre øker verdien av testobservatoren. Mindre standardavvik betyr at vi er mer sikre på at \(\overline{x}_1 - \overline{x}_2\) ligger nær \(\mu_1 - \mu_2\), og at en evt. differanse kan tyde på avvik fra \(H_0\). Dette blir reflektert av en større testobservator.
Testobservatoren blir da
\[T = \frac{\overline{x}_1 - \overline{x}_2 - 0}{\sqrt{\frac{s^2_{1}}{n_1} + \frac{s^2_{2}}{n_2}}}=\frac{400 - 390}{\sqrt{\frac{130^2}{20} + \frac{50^2}{20}}} = 0.32\] Antall frihetsgrader oppgis til å være \(v \approx 28\). Vi forkaster \(H_0\) dersom \(T > t_{0.05, 28} = 1.701\), og siden dette ikke er tilfelle her kan vi ikke forkaste \(H_0\) ved 5 % signifikansnivå.
- Få observasjoner representerer større usikkerhet om differansen \(\overline{x}_1 - \overline{x}_2\) bare skyldes tilfeldighet, og dette reflekteres av testobservatoren som vil synke når utvalgsstørrelsen reduseres.
Et nystartet firma har utviklet to løsninger for automatisk registrering av av antall lus på oppdrettslaks. Metode A er litt dyrere enn metode B, men firmaet mener Metode A en den raskeste metoden. For å teste ut denne hypotesen blir begge metodene brukt til å registrere lus på 11 basseng av ulik størrelse og med forskjellig antall fisk. Antall minutter hver metode tar blir registrert for hvert basseng.
- Under er det gitt en R-utskrift fra en to-utvalgs t-test. Still opp nullhypotesen og den alternative hypotesen i samsvar med R-utskriften. Bruk også utskriften til å formulere en konklusjon for en test med 5% signifikansnivå.
##
## Welch Two Sample t-test
##
## data: metodeB and metodeA
## t = 1.6129, df = 18.969, p-value = 0.06164
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## -0.7959228 Inf
## sample estimates:
## mean of x mean of y
## 83.44886 72.41662
- Under er det gitt en R-utskrift fra en paret t-test for de samme dataene. Still opp nullhypotesen og den alternative hypotesen i samsvar med R-utskriften. Formuler testobservatoren og bruk også utskriften til å formulere en konklusjon for en test med 5% signifikansnivå.
##
## Paired t-test
##
## data: metodeB and metodeA
## t = 5.4477, df = 10, p-value = 0.0001409
## alternative hypothesis: true mean difference is greater than 0
## 95 percent confidence interval:
## 7.361811 Inf
## sample estimates:
## mean difference
## 11.03225
- Hvilke av de to foregående testene bør en bruke i dette tilfellet?
Løsning
- La \(\mu_1\) og \(\mu_2\) være forventet tid til registrering av lus i et basseng for hhv metode B og metode A. Da er R-utskriften en test av \(H_0: \mu_1 - \mu_2 = 0\) mot det enside alternativet \(H_1: \mu_1-\mu_2 > 0\). Fra utskriften ser vi at \(p-value= 0.06164 > 0.05\), altså kan vi ikke forkaste \(H_0\) ved \(5\%\) signifikansnivå.
Praktisk tolkning: Vi kan ikke konkludere med at det er noe forskjell i tiden de to metodene bruker.
b.I en paret t-test baserer vil testen på de parvise differansene \(d_i = x_i - y_i\), der \(x_i\) og \(y_i\) er tiden hhv metode B og A bruker på å registrere lus i basseng nr. i. Utskriften viser en test av \(H_0: \mu_d = 0\) mot det ensidige alternativet \(H_1: \mu_d > 0\). Testobservatoren er da gitt ved
\[T=\frac{\overline{d}-0}{s_d/\sqrt{n}}\]
Fra utskriften ser vi at \(p-value= 0.0001409 < 0.05\), altså kan vi forkaste \(H_0\) ved \(5\%\) signifikansnivå.
Praktisk tolkning: Det ser ut til at metode A er raskere enn metode B.
- En paret t-test er generelt det riktige valget dersom observasjonene som blir “paret” er avhengige. I dette tilfellet er det naturlig å tro at tiden metode A og B bruker på et basseng er avhengige størrelser (f.eks vil et basseng med mye fisk ta lang tid å registrere for begge metodene). I en to-utvalgs t-test antar vi derimot at tiden det tar for metode A og B å registrere lus for et basseng er uavhengige.
Vi har følgende informasjon fra to tilfeldige utvalg fra to ulike normalfordelte populasjoner: \(s_{1}^2 = 1400\), \(n_1 = 60\), \(s_{2}^2 = 700\), \(n_2 = 60\).
Kan vi hevde at de to utvalgene har ulik varians? Bruk 5 % signifikansnivå.
Gjenta a., denne gangen med \(n_1 = 30\) og \(n_2 = 30\).
Fastslå hva som er effekten på verdi av testobservator og konklusjon av testen når vi reduserer utvalgsstørrelse.
Løsning
- Her ønsker vi å test \(H_0: \sigma_{1}^2/\sigma_{2}^2 = 1\) mot \(H_1: \sigma_{1}^2/\sigma_{2}^2 \neq 1\). Husk at for en tosidig test er det smart å formulere null- og alternativ hypotesen slik at den største utvalgsvariansen kommer i telleren til testobservatoren:
\[F = s_{1}^2/s_{2}^2 = 1400/700 = 2\]
Da trenger vi nemlig kun å sammenligne testobservatoren med den øvre kvantilen i F-fordelingen. Forkastningsområdet blir i dette tilfellet \(F > F_{0.025, 59, 59} = 1.67\). Siden \(F = 2\) er større enn \(1.67\) kan vi altså forkaste \(H_0\) til fordel for \(H_1\) på et 5 % signifikansnivå.
- Forkastningsområdet er da \(F > F_{0.025, 29, 29} = 2.1\) og siden \(F < 2.1\) kan vi ikke forkaste \(H_0\) på et 5 % signifikansnivå.
- Testobservatoren forblir uendret, men vi ser at den kritiske verdien som må overstiges for å få forkastning øker når antall observasjoner avtar. Konklusjonen blir derfor motsatt i oppgave b. Skulle vi fått forkastning også i b. måtte det reduserte utvalget blitt kompensert av et større avvik mellom \(s_1\) og \(s_2\).
- En bedrift som har en dyr leieavtale av en parkeringsplass vurderer innkjøp av elektroniske sparkesykler. Tanken er at de som bor nær bedriften da kan benytte seg av disse istedenfor å kjøre bil. I et prøveprosjekt får bedriften leid en rekke sparkesykler i 20 arbeidsdager og antall biler på parkeringsplassen blir registrert daglig. Den samme registreringen blir gjort de 20 påfølgende arbeidsdagene når sparkesyklene ikke er tilgjengelig. En ansatt som er ansvarlig for prøveprosjektet bruker R til å utføre to tester basert på data fra disse to registreringene.
Formuler null- og alternativhypotesen til den første testen. Hvorfor utfører den ansatte denne testen?
Formuler null- og alternativhypotesen samt testobservatoren til den andre testen. Trekk en praktisk konklusjon om innføringen av sparkesykler ut fra utskriften.
##
## F test to compare two variances
##
## data: uten_sparkesykkel and med_sparkesykkel
## F = 1.5385, num df = 19, denom df = 19, p-value = 0.3559
## alternative hypothesis: true ratio of variances is not equal to 1
## 95 percent confidence interval:
## 0.6089665 3.8870052
## sample estimates:
## ratio of variances
## 1.538524
##
## Two Sample t-test
##
## data: uten_sparkesykkel and med_sparkesykkel
## t = 2.4621, df = 38, p-value = 0.009232
## alternative hypothesis: true difference in means is greater than 0
## 95 percent confidence interval:
## 2.525173 Inf
## sample estimates:
## mean of x mean of y
## 39.91587 31.90524
Løsning
- La \(\sigma^2_{1}\) og \(\sigma^2_{2}\) være populasjonsvariansene til antall biler som kommer for å parkere på henholdsvis dager der sparkesykler ikke er tilgjengelig og dager der sparkesykler er tilgjengelig. Utskriften viser da en test av \(H_0: \sigma^2_{1}/\sigma^2_{2} = 1\) mot \(H_1: \sigma^2_{1}/\sigma^2_{2} \neq 1\).
Den ansatte utfører denne testen for å se om han kan bruke varianten av to-utvalgs t-test som antar lik varians når vedkommende tester om innføringen av sparkesykler har noen effekt (se b.). Ut fra p-verdien på 0.3559 (altså ingen forkastning av \(H_0\)) vil det være greit å bruke en slik test i dette tilfellet.
Tips: variabel navnet som står først i testen (“uten_sparkesykkel”) indikerer hvilke av de to variansen som står i telleren av \(\sigma^2_{1}/\sigma^2_{2}\) (i \(H_0\)) og \(s^2_{1}/s^2_{2}\) (i testobservatoren) i testen R utfører.
- La \(\mu_1\) og \(\mu_2\) være forventet antall biler på henholdsvis dager der sparkesykler ikke er tilgjengelig og dager der sparkesykler er tilgjengelig. Utskriften viser en en-sidig, to-utvalgs t-test av hypotesen \(H_0: \mu_1 - \mu_2 = 0\) mot \(H_1: \mu_1 - \mu_2 > 0\). \(H_1\) er altså om det forventes ferre biler på dager med sparkesykler enn på dager uten sparkesykler.
“Two sample t-test” betyr at vi har antatt lik varians (ellers ville det stått “Welch two sample t-test”), og testobservatoren er derfor gitt ved:
\[T = \frac{\overline{x}_1 - \overline{x}_2 - 0}{\sqrt{s^2_{P}(1/n_1 + 1/n_2)}}\]
der \[s^2_{P} = \frac{(n_1 - 1)s^2_{1} + (n_2 - 1)s^2_{2}}{n_1 + n_2 -2}\]
Ut fra p-verdien på 0.009232 forkaster vi \(H_0\) på 1 % (!) signifikansnivå. Vi har med andre ord god grunn til å tro at en innføring av sparkesykler vil redusere antall biler på parkeringsplassen.
Tips: Variabelnavnet som står først (“uten_sparkesykkel”) indikerer hva som er første verdi i differansene \(\mu_1 - \mu_2\) (i hypotesene) og \(\overline{x}_1 - \overline{x}_2\) (i testobservatoren) i testen R utfører.
- Vi har følgende informasjon om fra to tilfeldige utvalg fra to populasjoner: I utvalg 1 har \(x_1 = 100\) av \(n_1 = 200\) individer et spesielt kjennetegn, mens i utvalg 2 er det det tilsvarende tallet \(x_2 = 90\) av \(n_2 = 200\).
Utfør en test for å undersøke om de to populasjonene har ulik andel av kjennetegnet. Bruk 5 % signifikansnivå.
Regn ut p-verdien for testen over.
Gjenta a., denne gangen med \(x_1 = 190\) og \(x_2 = 180\). Fastslå effekten på p-verdien av å øke andelene (dersom differansen er uendret).
Løsning
- Vi skal her teste hypotsen \(H_0: p_1 - p_2 = 0\) mot \(H_1: p_1 - p_2 \neq 0\). Med \(\hat{p_1} = 100/200 = 0.5\), \(\hat{p}_2 = 90/200 = 0.45\) og \(\hat{p} = (100 + 90)/(200 + 200) = 0.475\) er testobservatoren er gitt ved
\[Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n_1 + 1/n_2)}} = \frac{0.5 - 0.45}{\sqrt{0.475(1-0.475)(1/200 + 1/200)}}=1.00\]
Siden dette er en tosidig test er forkastningsområdet til testen \(|Z| > z_{\alpha/2} = z_{0.025}=1.96\). Siden 1 < 1.96 kan vi altså ikke forkaste \(H_0\) ved 5 % signifikansnivå.
- P-verdier for tosidige tester kan være litt tricky å forstå. Vi er altså ute etter sannsynligheten for at noe “minst like ekstremt og til fordel for \(H_1\) intreffer”. For en tosidig test ville vi også reagert på store negative verdier av \(Z\), og “minst like ekstremt” i negativ retning ville vært \(Z < - 1.00\). Altså blir p-verdien
\[\text{P-value} = P(Z < -1.00\quad \text{og/eller}\quad Z > 1.00)\\ = P(Z < -1.00) + P(Z > 1.00) = 2P(Z > 1.00) = 2*(1 - 0.841) = 0.317\]
- Regner på nytt ut \(\hat{p}_1 = 0.95, \hat{p}_2 = 0.90, \hat{p} = 0.925\). Testobservatoren er da gitt ved
\[Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n_1 + 1/n_2)}} = \frac{0.95 - 0.90}{\sqrt{0.925(1-0.925)(1/200 + 1/200)}}=1.89\]
P-verdien er som før gitt ved
\[ \text{P-value} = 2P(Z > 1.89) = 2*(1 - 0.97) = 0.06 \]
Vi ser at p-verdien avtar når andelene blir større. Vi er her ganske nære på å forkaste \(H_0\) selv om differansen mellom \(\hat{p}_1\) og \(\hat{p}_2\) er den samme som i oppgave a. I nevneren til testobservatoren ser vi at variansen til differansen \(\hat{p}_1 - \hat{p}_2\) er proposjonal med \(\hat{p}(1-\hat{p})\). Denne vil bli mindre når \(\hat{p}\) nærmer seg 1 (eller 0), og er størst når \(\hat{p} = 0.5\). Vi er derfor sikrere på at differansen \(\hat{p}_1 - \hat{p}_2\) i oppgave b. ligger nær den sanne differansen i populasjon sammenlignet med oppgave a. Bevismateriale mot \(H_1\) øker (p-verdien går ned), men i dette tilfellet holder det ikke til å forkaste \(H_0\).
- En kredittutsteder gir kundene en rating basert på blant annet gjeld, formue og tidligere betalingsanmerkninger. Tanken er at en lav rating medfører høyere sannsynlighet mislighold av lånet sitt. For å sjekke om ratingen gir en reell indikasjon på mislighold, blir det registrert antall mislighold i et utvalg med rating under 800, og i et utvalg med rating 800 eller høyere.
Rating < 800 | Rating > 800 | |
---|---|---|
Utvalgsstørrelse | 612 | 854 |
Mislighold | 14 | 9 |
Kan vi konkludere med at personer med rating lavere enn 800 har høyere sannsynlighet for mislighold av lånet sitt sammenlignet med de med rating over 800? Bruk 5 % signifikansnivå.
Løsning
La \(p_1\) være sannsynlighet for mislighold for de med rating under 800 og la \(p_2\) være den samme sannsynligheten for de med rating over 800. Vi skal da teste \(H_0: p_1 - p_2 = 0\) mot det ensidige alternativet \(H_1: p_1 - p_2 > 0\). Med \(\hat{p_1} = 14/612 = 0.0229\), \(\hat{p}_2 = 0.0105\), og \(\hat{p}=(14 + 9)/(612 + 854)=0.0157\) er testobservatoren gitt ved
\[Z = \frac{\hat{p}_1 - \hat{p}_2}{\sqrt{\hat{p}(1-\hat{p})(1/n_1 + 1/n_2)}} = \frac{0.0229 - 0.0105}{\sqrt{0.0157(1-0.0157)(1/612 + 1/854)}}=1.874\]
Forkastningsområdet er gitt ved \(Z > z_\alpha = 1.645\), og siden 1.874 > 1.645 forkaster vi \(H_0\). Det er grunn til å tro at personer med rating lavere enn 800 har større sannsynlighet for mislighold.
- To konkurrerende selskaper, A og B, dominerer et marked for et bestemt produkt og har historisk sett hatt markedsandeler på hhv. 40 % og 50 % (altså 10 % til andre markeder). Selskap A gjennomfører så en markedsføringskampanje. For å avgjøre kampanjens effekt trekker et markedsanalyseselskap et tilfeldig utvalg av 300 kunder som spørres om deres produkt preferanse:
Foretrukket selskap | A | B | andre |
---|---|---|---|
Frekvens | 140 | 142 | 18 |
Har markedsandelene endret seg?
Løsning
Vi skal her test \(H_0: p_1 = 0.4, p_2 = 0.5, p_3 = 0.1\) mot \(H_1:\) minst to sannsynligheter er forskjellige. Utregning av testobservator blir da som følger:
Foretrukket selskap | \(f_i\) | \(e_i\) | \((f_i - e_i)^2/e_i\) |
---|---|---|---|
A | 140 | \(300\times 0.4 = 120\) | 3.3333 |
B | 142 | \(300\times 0.5 = 150\) | 0.4266 |
andre | 18 | \(300\times 0.1 = 30\) | 4.8000 |
Forkastelsesområdet er \(\chi^2 > \chi^2_{\alpha, k - 1} = \chi^2_{0.05, 2} = 5.99\). Siden \(\chi^2 = 8.564 > 5.99\) forkaster vi \(H_0\) på 5 % signifikansnivå.
- Et produksjonsselskap har mulighet til å bruke tre forskjellige kjemikalier for å fremstille det samme produktet. Lederen ved produksjonsselskapet ønsker å undersøke hvorvidt det er forskjell på hvor mange mangelfulle produkter som blir produsert når en varierer bruken av type kjemikalier. Hun gjør et tilfeldig utvalg på 700 produkter og klassifiserer dem som enten tilfredsstillende eller mangelfull. Funnene er oppsummert i tabellen nedenfor:
Klassifisering/kjemikalie | Kjemikalie 1 | Kjemikalie 2 | Kjemikalie 3 | sum |
---|---|---|---|---|
Tilfredstillende | 268 | 216 | 164 | 648 |
Mangelfull | 15 | 17 | 20 | 52 |
sum | 283 | 233 | 184 | 700 |
Utfør en test for å avgjøre om det er en sammenheng mellom mangelfulle produkter og kjemikalie brukt under produksjon.
Løsning
Vi skal altså teste \(H_0:\) De to variablene klassfisering og kjemikalie er uavhengige mot \(H_1:\) Variablene klassifisering og kjemikalie er avhengige. Vi begynner med å regne ut de forventede frekvensene ved bruk av formelen \(e_{ij} = f_{i.}f_{.j}/n\):
klas./kjem. | Kjem 1 | Kjem 2 | Kjem 3 | |
---|---|---|---|---|
Tilfreds. | \(e_{11} = 648\times 283/700 = 262.0\) | \(e_{12} = 648\times 233/700 = 215.7\) | \(e_{13} = 648\times 184/700 = 170.3\) | |
Mangel. | \(e_{21} = 52\times 283/700 = 21.0\) | \(e_{22} = 52\times 233/700 = 17.3\) | \(e_{23} = 52\times 184/700 = 13.7\) |
Så regner vi ut hvert element \((f_{ij} - e_{ij})^2/e_{ij}\) som skal inn i summen til test observatoren:
klas./kjem. | Kjem 1 | Kjem 2 | Kjem 3 | |
---|---|---|---|---|
Tilfreds. | \((268 - 262.0)^2/262 = 0.1384\) | 0.0004 | 0.2353 | |
Mangel. | 1.7255 | 0.0055 | 2.9327 |
Testobservatoren er da gitt ved
\[\chi^2 = \sum_{i = 1}^2\sum_{j = 1}^3(f_{ij} - e_{ij})^2/e_{ij} = 0.1385 + 0.0004 + 0.2352 + 1.7255 + 0.0055 + 2.9327 = 5.0378\]
Forkastelsesområdet er \(\chi^2 > \chi^2_{\alpha, (r - 1)(s - 1)} = \chi^2_{0.05, 2} = 5.99\). Siden \(\chi^2 = 5.0378 < 5.99\) forkaster vi ikke \(H_0\) på 5 % signifikansnivå.
I R ville vi gjort følgende:
##
## Pearson's Chi-squared test
##
## data: f
## X-squared = 5.038, df = 2, p-value = 0.08054