4.2 Multippel regresjon
4.2.2 Kommentarer
I kapittel 17 utvides regresjonsbegrepet til multippel regresjon, som i prasis betyr at vi kan ha flere enn en forklaringsvariable:
\[Y = \beta_0 + \beta_1X_1 + \cdots \beta_kX_k + \epsilon,\] men utover dette er alle detaljene vi har snakket om de samme. For eksempel:
- Tolkningen av regresjonskoeffisienten: En endring på en enhet i forklaringsvariabelen \(X_j\) henger sammen med \(\beta_j\) enhets endring i responsvariabelen \(Y\) (merk at jeg ikke brukker begrepet “fører til”, vi kan ikke uten videre fortolke sammenhengen som kausal!).
- Analysen av residualene \(\widehat \epsilon_i = Y_i - \widehat Y_i\) er den samme og har samme formål 1–3 som over.
- \(R^2\) har samme fortolkning.
- R-kommandoen er den samme, vi bare sette pluss mellom forklaringsvariablene, f.eks
reg <- lm(Y ~ X1 + ... + Xk, data = x)
I tillegg innfører vi noen nye begreper:
Justert \(R^2\): Vi viste i forelesningen at vi vil alltid klare å øke \(R^2\) ved å legge til forklaringsvariable, selv om de ikke har noe med problemet å gjøre. Derfor innførte vi en justert \(R^2\) som tar høyde for nettopp dette, ved å bli større bare dersom den aktuelle forklaringsvariebelen faktisk forklarer en reell mengde av variasjonen i responsvariabelen. Se avsnitt 17-2f i læreboken.
Multikolinearitet: Dersom en forklaringsvariabel er sterkt korrelert med en eller flere andre forklaringsvariabler har vi multikolinearitet. Det blir naturlig nok et problem å skille effekter fra hverandre når de i realiteten er helt eller nesten like. Ekstremtilfellet er perfekt multikolinearitet der en variabel er en eksakt lineær funksjon av en eller flere andre variable. Det typiske tilfellet er at vi har to kolonner der vi måler det samme fenomenet, men med to ulike enheter, f.eks. cm og m. Selvsagt kan vi ikke klare å identifisere en separat og uavhengig effekt av \(X\) på \(Y\) om vi skifter måleenhet, og vi vil få en feilmelding dersom vi prøver på det. Det er ekvivalent med å dele på null (every time you divide by zero, God kills a kitten!). Løsning: fjern en av kolonnene fra regresjonsanalysen.
Verre er det om to variable måler nesten det samme, men ikke helt, som i skoledataeksempelet der vi kunne bruke både innbyggertall og antall femteklassinger i kommunen som forklaringsvariabler. De henger tett sammen, men selvsagt ikke eksakt, og det virker rart å kunne knytte separate efekter til disse to variablene. I dette tilfellet får vi likevel ikke feilmeldinger, men konsekvensen kan fort bli at standardavvikene (usikkerheten!) til koeffisientestimatene eksploderer, og at ingen av variablene blir signifikant forskjellige fra null, selv det det faktisk er en sterk sammenheng mellom kommunestørrelse og prøveresultat (husk at testobservatoren: \(t = \widehat \beta_k/\sigma_{\beta_k}\) blir liten når nevneren blir stor).
F-test for multiple sammenligninger: Dette henger nøye sammen med variansanalyse (analysis of variance, ANOVA), som nå er tatt ut av pensum i kurset. For å forstå dette kan vi sette opp et eksempel, med to forklaringsvariabler: \[Y = \beta_0 + \beta_1X_1 + \beta_2X_2.\] Etter å ha brukt miste kvadraters metode for å estimere de tre koeffisientene er vi kanskje interessert i å vurdere den statsistiske signifikansene til de to stigningstallene separat. Da tester vi de to nullhypotesene \(\beta_1 = 0\) og \(\beta_2 = 0\), som vi i praksis gjør ved å se på hvor mange stjerner de får i regresjonsutskriften. Men sett at ingen av koeffisientene er signifikant forskjellige fra null, kan vi da slutte at vi ikke kan forkaste hypotesen \(\beta_1 = \beta_2 = 0\), dvs at begge koeffisientene er lik null, og at ingen av forklaringsvariablene forklarer variasjon i \(Y\)? NEI, det kan vi ikke. Vi kan for eksempel lett tenke oss at vi på grunn av multikolinearitet ikke får separate forkastninger av de to nullhypotesene, men at ved å fjerne en variabel, så blir den andre signifikant.
For å virkelig forstå dette problemet kan du godt lese starten på kapittel 14.1 samt kapittel 14.2 om multiple sammenligninger (som strengt tatt ikke er pensum), men essensen er altså:
\[\textrm{Å forkaste H}_0: \beta_1 = 0 \textrm{ og H}_0: \beta_2 = 0 \textrm{ er ikke det samme som å forkaste H}_0: \beta_1 = \beta_2 = 0!\]
For å gjennomføre den siste testen må vi sette opp en egen testobservator, som viser seg å være \(F\)-fordelt. Læreboken lister opp noen detaljer i avsnitt 17-2f, og essensen er at vi setter opp en brøk på formen
\[F = \frac{\textrm{Variasjon i } Y \textrm{ som fanges opp av regresjonsmodellen med } X_1 \textrm{ og }X_2}{\textrm{Variasjon i } Y \textrm{ som fanges opp av regresjonsmodellen uten } X_1 \textrm{ og }X_2}.\]
Dersom denne brøken viser seg å være stor (som definert av signifikansnivå og frihetsgrader, se lærebok), forkaster vi nullhypotesen om at begge koeffisientene begge kan være lik null. I en generell multippel regresjon med \(k\) forklaringsvariable rapporterer R F-statistic:
etc, med verdien av \(F\)-observatoren i testen for
\[H_0: \beta_1 = \cdots = \beta_k = 0,\]
og dersom den oppgitte \(p\)-verdien er mindre enn f. eks. 5%, kan vi slutte at ikke alle koeffisientene kan være null samtidig (selv om ingen av koeffisientene i seg selv nødvendigvis er signifikant forskjellig fra null).
Som en såkalt fun fact kan vi nevne at det er enkelt å teste for signifikansen til grupper av variable på denne måten, f.eks hvis det er noen variable som måler lignende ting (si \(X_2, X_4\) og \(X_5\)). I R kan du estimere to modeller, en modell som inkluderer variablene (f.eks. reg_stor
) og en modell der du tar bort de aktuelle variablene (f.eks. reg_liten
). Du kan da kjøre kommandoen anova(reg_stor, reg_liten)
for å teste
\[H_0: \beta_2 = \beta_4 = \beta_5 = 0.\]
Kritikk av læreboken: Læreboken har en tabell på s. 701 som viser sammenhengen mellom ulike statistiske størrelser som vi kan regne ut for en regresjonsmodell. \(R^2\) kjenner vi som forklaringsgraden, \(s_{\epsilon}\) er standardavviket til residualene, \(F\) er testobservatoren for modellgyldighet som vi definerte uformelt over, og som er definert formelt nederst på s. 700, mens SSE (Sum of Squares Error) henger nøye sammen med standardavviket, som vi også kan se på s. 700. På disse sidene ser vi mange ligninger som viser hvordan disse størrelsene formelt henger sammen, og i tabellen på s. 701 ser vi blant annet at dersom SSE er liten, er også \(s_{\epsilon}\) liten, \(R^2\) er nær null, og \(F\)-observatoren er stor. Det er greit nok, men de har en ekstra kolonne som slår fast at regresjonsmodellen er good.
Her menes det ikke at regresjonsmodellen er god i den forstand at vi skal reagere med glede eller lettelse (slik noen gjerne gjør), men at variasjonen i datamaterialet i stor grad lar seg forklare av modellen vår. I et tenkt eksempel der den sanne sammenhengen mellom \(Y\) og \(X\) er gitt ved \(Y = \beta_0 + \beta_1X + \epsilon\), men der \(\beta_1\) er forholdsvis liten og \(s_{\epsilon}\) er relativt stor, vil f.eks. \(R^2\) bli liten, selv om den enkle lineære regresjonsmodellen repsesenterer sannheten og av alle tenkende mennesker må sies å være god.
Det er desverre mange lærebøker som blander disse to fortolkningene, ikke gjør det!
Her er enda noen grunnleggende begreper. Har du fått med deg dette?
- Hva mener vi med at en observasjon er innflytelsesrik?
- Hva er grunnen til at vi trenger justert \(R^2\) med flere forklaringsvariable?
- Hva er forskjellen på perfekt og tilnærmet multikolinearitet i lineær regresjon? Hva blir konsekvensen i hvert av tilfellene?
- Kan du gi en praktisk og intuitiv forklaring på hvorfor multikolinearitet nødvendigvis må være et problem?
- Hva er forskjellen på statistisk og økonomisk signifikans? Kan du sette opp konkrete eksempler der vi kan estimere statistisk signifikante, men ikke økonomisk signifikante effekter i multippel regresjon? Hva med den motsatte situasjonen, økonomisk signifikant, men ikke statistisk signifikant?
Grunnleggende ferdigheter: Klarer du dette?
- Bruke R til å tilpasse en multippel regresjonsmodell for et datasett?
- Bruke R til å finne særlig innflytelsesrike observasjoner?
- Tolke en multippel regresjonsutskrift?