4.1 Enkel regresjon
4.1.2 Kommentarer
Vi har sett på en del figurer som illustrerer noen pedagogiske poenger, og lærebokens kapittel 16 går detaljert til verks når de beskriver de ulike læringsmomentene:
I kapittel 16.1 kan vi lese mer om den statistiske modellen som vi kaller enkel regresjon. I kapittel 16.2 introduseres minste kvadraters metode for å estimere regresjonskoeffisientene ved hjelp av data. De viser til og med hvordan det kan gjøres manuelt ved hjelp av bildatasettet, men det er selvsagt kun for å illustrere hvodan formlene ser ut. Vi estimerer ved hjelp av R, og vi har sett i videoforelesningen hvordan vi gjør det ved hjelp av lm()
-funksjonen.
Det som gjør regresjon til et statistisk problem er feilleddet \(\epsilon\). Vi tenker oss at for en gitt verdi av \(X\), så vil «naturen» regne ut verdien av \(Y\) ved å regne ut den lineære sammenhengen \(Y = \beta_0 + \beta_1 X\), og så legge til støyvariabelen \(\epsilon\) som trekkes fra en sannsynlighetsfordeling. Vi kan ikke observere direkte hvilke \(\epsilon\) som «naturen» har «trukket» (for da ville vi med en gang kunne regnet oss frem til verdiene av \(\beta_0\) og \(\beta_1\)). For gitte estimater av regresjonskoeffisientene \(\widehat \beta_0\) og \(\widehat \beta_1\) (som vi kan finne f.eks. ved hjelp av minste kvadraters metode), så kan vi regne ut de observerte residualene
\[\widehat\epsilon_i = Y_i - \widehat Y_i = Y_i - (\widehat \beta_0 + \widehat \beta_1 X_i).\]
Ved å analysere residualene kan vi si mer om f.eks
- Er det egentlig en lineær sammenheng mellom \(X\) og \(Y\)? Hvis det er mønstre og sammenhenger i de observerte residualene, tyder det på at den enkle lineære modellen ikke fanger opp hele sammenhengen mellom \(X\) og \(Y\).
- Vi kan gå mer spesifikt til verks: nøyaktig hvilke antakelser om residualene er ser ut til å være brutt? I senere økonometrikurs vil dere kunne lære mer om hvordan vi håndterer de ulike problemene.
- Hvor stor er variansen til \(\epsilon\)? Det brukes videre til å sette opp den viktige signifikanstesten for om stigningstallet i regresjonen er forskjellig fra null.
Alt dette behandles grudig i bokens kapittel 16.3–16.6. Her bør teksten leses godt. Kode til bileksempelet finnes i scriptet som følger med videoforelesningene.
Når det gjelder enkel regresjon kan du sjekke om du har fått med deg det vesentligste ved å diskutere følgende spørsmål:
- Hva er responsvariabelen og hva er forklaringsvariabelen i enkel regresjon?
- Hva er fortolkningen av de to regresjonskoeffisientene?
- Hvilket prinsipp er det vi legger til grunn når vi skal bestemme (estimere) verdien av koeffisientene ved hjelp av data?
- Skriv opp formlene for koeffisientestimatene. Kan du gi en intuitiv fortolkning av disse? Er de rimelige?
- Kan du ved hjelp av formelen for \(\widehat\beta_1\) utlede sammenhengen mellom stigningstallet \(\beta_1\) og korrelasjonskoeffisienten* mellom \(X\) og \(Y\)?
- Hvilken rolle spiller feilleddet (\(\epsilon\))?
- Skriv opp de 4 + 1 forutsetningene. Når må den siste være oppfylt? Når kan vi klare oss uten?
- Hva er testobservatoren når vi tester H\(_0: \beta_1 = 0\)?
- Kan du holde styr på de fire standardavvikene vi har jobbet med i denne forelesningen?
- Hva mener vi med å diagnostisere en regresjonsmodell?
- Hva er \(R^2\), og hva måler den?
- Hva sier \(R^2\) ikke noe om?
Her er noen grunnleggende ferdigheter fra kapittel 16. Klarer du dette?
- Bruke til å tilpasse en enkel regresjonsmodell for et datasett?
- Bruke til å skrive ut oversiktlige regresjonstabeller?
- Tolke en regresjonsutskrift?
- Hente ut relevant informasjon etter en slik tilpasning?
- Bruke informasjon fra regresjonsutskriften til å regne ut antall stjerner for hånd?
- Lage diagnoseplott i ?
- Diagnistisere en modell?
- Identifisere innflytelsesrike observasjoner?