6.1 Logistisk regresjon

6.1.1 Videoforelesninger

6.1.2 Kontrollspørsmål

  • I hvilke situasjoner bruker vi logistisk regresjon?
  • Hva er det vi modellerer?
  • Hvordan tolker vi èn enhets økning i forklaringsvariabelen?
  • Hvilken metode brukes til å estimere en logistisk regresjonsmodell?
  • Hva betyr klassifisering og hvordan gjøres dette?
  • Hvis vi har flere modeller, hvilke(n) metode(r) kan vi bruker til å velge den beste?

6.1.3 Teori

I denne forelesningen ser vi på situasjonen der vi ønsker å forklare utfallet av en binær variabel (en dummyvariabel) ved hjelp av et sett med forklaringsvariabler. Vi så at vanlig lineær regresjon ikke er særlig passende her fordi utfallet bare kan ta to verdier (0 eller 1, FALSE eller TRUE etc.), og fordi vi heller ikke kan tolke et kontinuerlig utfall direkte som en sannsynlighet fordi vi kan få ut verdier utenfor intervallet \([0, 1]\).

Løsningen er å heller forklare log-oddsen til suksessansynligheten. Sagt på en annen måte: på venstresiden i regresjonsligningen plasserer vi en transformasjon av suksessansynligheten, som gir oss en kontinuerlig variabel som kun kan variere mellom 0 og 1.

Pensumboken vår behandler desverre ikke logistisk regresjon. Heldigvis finnes det et meget godt alternativ, An Introduction to Statistical Learning (ISLR) av James m.fl. som kan lastes ned gratis her:

An introduction to statistical learning (trykk på “Download the first edition”)

Denne boken er for øvrig pensum i BAN404. Logistisk regresjon er omhandlet i kapittel 4.3 (avsnitt 4.3.5 er ikke pensum). Eksempelet vårt er tatt herfra, og datasettet er, som vist i forelesningsscriptet, inkludert i bokens egen R-pakke ISLR.

Bruk litt tid på å lese gjennom disse sidene, konseptet er ganske godt forklart. Bli også kjent med R-syntaksen, som ligner på den vi allerede kan for vanlig lineær regresjon. Vi bruker f.eks.

reg1 <- glm(default ~ balance, 
            data = Default,
            family = "binomial")

Når du er klar til å prøve selv, kan du se på oppg 10a, b og første del av d på s. 171 i ISLR. Dette datasettet er også inneholdt i ISLR-pakken.