library(dplyr)
library(ggplot2)
load("met4_v22.Rdata")

Oppgave 1

Det er mange muligheter for å gjøre deskriptiv statistikk her. Det er to viktige megatrender i dette datasettet: Utviklingen i demokratisering og utviklingen i tilgang til utdanning.

Vi kan for eksempel illustrere den stigende andelen demokratiske land som funksjon av år:

dem_df %>% 
  group_by(year, Region) %>% 
  summarise(share_democratic = mean(democratic_polity, na.rm = TRUE)) %>% 
  ggplot(aes(x = year, y = share_democratic, colour = Region)) +
  geom_line()

Her har vi splittet opp på de ulike regionene vi har i datasettet. Alternativt kan man regne ut gjennomsnittlig demokratiscore (polity2), eller man kan bruke stemmerett. Uansett så er trenden at alle deler av verden blir mer demokratisk i hele perioden.

Vi kan se tilsvarende figur for andel av befolkning som har tilgang til grunnskoleutdanning:

dem_df %>% 
  group_by(year, Region) %>% 
  summarise(ave_primary = mean(primratio, na.rm = TRUE)) %>% 
  ggplot(aes(x = year, y = ave_primary, colour = Region)) +
  geom_line()

Alternativer her kan være å kikke på sekundær- og tertiærutdanningen i tillegg. Trenden er igjen den samme: andelen i befolkningen med tilgang til de ulike utdanningene øker over tid.

I stedet for å ha årstall på \(x\)-aksen kan vi ha antall år siden demokratisering, for eksempel målt ved year_since_polity2 eller year_since_suffrage. Da blir nullpunktet året der landet ble demokratisert. Vi kan enten se på alle landene i datasettet:

ggplot(dem_df, aes(x = year_since_polity2, 
                   y = primratio, 
                   group_by = country,
                   colour = Region)) +
  geom_line()

Eller per kontinent:

dem_df %>% 
  group_by(year_since_polity2, Region) %>% 
  summarise(ave_primary = mean(primratio, na.rm = TRUE)) %>% 
  ggplot(aes(x = year_since_polity2, y = ave_primary, colour = Region)) +
  geom_line()

Det finnes mange flere muligheter og potensiale for flere figurer her, mer eller mindre komplekse, i tillegg til forskjellige tabeller som viser utvikling i demokratisering og tilgang til utdanning – og sammenhengen mellom disse. Konklusjonen bør i alle fall være at begge disse trendene har vært positive over tid, i alle deler av verden. I hvilken grad den ene ligger foran den andre utover disse makrotrendene (for eksempel demokratisering fører til utdanning) er ikke mulig å se i de figurene som vi har laget over.

Oppgave 2

Det naturlige her er å lage seg to populasjoner: en bestående av demokratiske land og en bestående av ikke-demokratiske land, og teste om de har forskjellige nivå av grunnskoleutdanning. Det kan gjøres på flere måter. For eksempel kan vi lage et tversnitt av land, for eksempel i år 1970, og dele opp i to grupper: de som var demokratiske og de som ikke var demokratiske:

tverrsnitt_1970 <- dem_df %>% filter(year == 1970)

demokratisk <- tverrsnitt_1970 %>% filter(democratic_polity) %>% select(primratio) %>% pull

ikke_demokratisk <- tverrsnitt_1970 %>% filter(!democratic_polity) %>% select(primratio) %>% pull

t.test(demokratisk, ikke_demokratisk)
## 
##  Welch Two Sample t-test
## 
## data:  demokratisk and ikke_demokratisk
## t = 5.3434, df = 85.095, p-value = 7.51e-07
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  14.06165 30.72720
## sample estimates:
## mean of x mean of y 
##  87.36548  64.97106

Her ser vi en klar forskjell i graden av grunnskoleutdanning, men dette kan selvsagt bare være et utslag av den generelle utviklingen i verden som vi så i forrige oppgave, der demokratisering og utdanning utvikler seg sammen.

En “renere” variant kan være at vi ser på grunnskoletilbudet i et land en viss tid før landet ble demokratisert første gang og sammenligne det med grunnskoletilbudet den tilsvarende tiden etter demokratiseringen.

tidsintervall <- 5

før_demokratisering <- 
  dem_df %>% 
  filter(year_since_polity2 == -tidsintervall) %>% 
  select(country, primratio) 

etter_demokratisering <- 
  dem_df %>% 
  filter(year_since_polity2 == tidsintervall) %>% 
  select(country, primratio) 

# Joiner sammen igjen slik at landene matcher
før_etter <- 
  full_join(før_demokratisering, etter_demokratisering, by = "country")

# Se på denne data framen, legg merke til variabelnavn:
før_etter
## # A tibble: 81 x 3
##    country             primratio.x primratio.y
##    <chr>                     <dbl>       <dbl>
##  1 Canada                     85.8        91.7
##  2 Haiti                      44          26  
##  3 Dominican Republic         72.2        50.6
##  4 Jamaica                   100          97.1
##  5 Trinidad and Tobago        94.8        92.4
##  6 Mexico                    100          98.6
##  7 Guatemala                  67.7        90.9
##  8 Honduras                   74.2        89.4
##  9 El Salvador                66.7        69.4
## 10 Nicaragua                  76          91.3
## # ... with 71 more rows
# Paret t-test
t.test(før_etter$primratio.x, før_etter$primratio.y, paired = TRUE)
## 
##  Paired t-test
## 
## data:  før_etter$primratio.x and før_etter$primratio.y
## t = -4.704, df = 74, p-value = 1.158e-05
## alternative hypothesis: true difference in means is not equal to 0
## 95 percent confidence interval:
##  -8.945642 -3.622145
## sample estimates:
## mean of the differences 
##               -6.283893

Her får vi også en klar forkastning, men det er på grunn av paringen. Uten at observasjonene er paret så er det ikke signifikant forskjell mellom disse to populasjonene. Igjen, så kan vi ikke isolere effekten som kommer fra demokratisering, og hva som kommer fra den generelle trenden i at tilgangen til utdanning jevnt over øker med tiden.

Oppgave 3

En måte å isolere den eventuelle effekten av demokratisering fra den generelle tidstrenden er å estimere regresjonsmodellen som i oppgaveteksten med en lineær tidstrend og dummy for om landet er demokratisk eller ikke. Vi bruker year_since_polity2 som tidsvariabel.

reg_ols <- lm(primratio ~ year_since_polity2 + democratic_polity, data = dem_df)
summary(reg_ols)
## 
## Call:
## lm(formula = primratio ~ year_since_polity2 + democratic_polity, 
##     data = dem_df)
## 
## Residuals:
##     Min      1Q  Median      3Q     Max 
## -68.611 -17.201   2.052  17.877  56.417 
## 
## Coefficients:
##                       Estimate Std. Error t value Pr(>|t|)    
## (Intercept)           64.96675    0.36969  175.73   <2e-16 ***
## year_since_polity2     0.29117    0.00558   52.18   <2e-16 ***
## democratic_polityTRUE  7.79676    0.67350   11.58   <2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Residual standard error: 23.08 on 8616 degrees of freedom
##   (4913 observations deleted due to missingness)
## Multiple R-squared:  0.4338, Adjusted R-squared:  0.4337 
## F-statistic:  3301 on 2 and 8616 DF,  p-value: < 2.2e-16

Vi ser at forventet andel i grunnskolen er 65% det året et land blir demokratisert første gang, og at forventningen øker med 0.29 prosentpoeng for hvert år som går (statistisk signifikant), og videre at vi forventer et skift på hele 7.8 prosentpoeng dersom landet er demokratisk det aktuelle året; også det statistisk signifikant. Standard diagnoseplott viser imidlertid at det er klare mønster i resiualplottet og at residualene er sterkt autokorrelerte. Det gjør for det første at den statistiske inferensen over ikke er så presis, men kanskje enda viktigere at modellen er for enkel; den isolerer for eksempel ikke tidseffekten godt nok. Det er ikke overraskende hvis vi refererer til figurene i Oppgave 1 som viser at tidstrenden ikke er lineær, og at den varierer mye fra land til land. Systematisk variasjon mellom land blir ikke plukket opp her, men henvist til feilleddet. Vi bør med andre ord sette opp en skikkelig paneldatamodell for å konkludere.

Oppgave 4

I stedet for en lineær tidstrend så kan vi legge til år som en dummy, eller faste effekter om du vil. Vi må konvertere den aktuelle årskolonnen til en kategorisk variabel:

reg_fe1 <- lm(primratio ~ democratic_polity + as.factor(year), data = dem_df)

Alle årseffektene gjør det upraktisk å skrive ut hele regresjonsutskriften, men vi ser i alle fall at koeffisienten til demokratidummyen er signifikant forskjellig fra null. For å estimere den andre modellen så kan vi enten bare legge til alle landene som dummy, eller så kan vi bruke plm-pakken som gir en mer effektiv estimering.

library(plm)
p.df <- pdata.frame(dem_df, index = c("country", "year"))

reg_fe2 <- plm(primratio ~ democratic_polity, data = p.df, model = "within")
summary(reg_fe2)
## Oneway (individual) effect Within Model
## 
## Call:
## plm(formula = primratio ~ democratic_polity, data = p.df, model = "within")
## 
## Unbalanced Panel: n = 104, T = 20-187, N = 9696
## 
## Residuals:
##     Min.  1st Qu.   Median  3rd Qu.     Max. 
## -70.7300 -12.9188   1.0309  13.2823  81.8899 
## 
## Coefficients:
##                       Estimate Std. Error t-value  Pr(>|t|)    
## democratic_polityTRUE 24.33162    0.58486  41.603 < 2.2e-16 ***
## ---
## Signif. codes:  0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
## 
## Total Sum of Squares:    4744300
## Residual Sum of Squares: 4019000
## R-Squared:      0.15287
## Adj. R-Squared: 0.14369
## F-statistic: 1730.79 on 1 and 9591 DF, p-value: < 2.22e-16

Når vi bruker plm-pakken så kan vi skrive ut modellen slik som over, siden den da ikke vil vise alle de faste effektene. Vi ser bare koeffisienten til demokratidummyen, som fortsatt er statistisk signifikant forskjellig fra null.

Til slutt kan vi estimere den siste modellen, der vi tar med faste effekter for både tid og land:

reg_fe3 <- plm(primratio ~ democratic_polity + as.factor(year), data = p.df, model = "within")

Nå blir det igjen upraktisk å skrive ut hele modellen ved hjelp av summary() på grunn av alle årseffektene. Det beste er kanskje å lage en liten tabell med \(\widehat\delta_1\) med standardavvik og stjerner for de tre modellene.

Uansett, vi ser, endelig kan vi kanskje si, at demokratidummyen ikke har en koeffisient som er statistisk signifikant forskjellig fra null. Konklusjonen er da at demokratiseringen av land ikke bidrar nevneverdig til variasjon i grunnskoledekning når vi tar høyde for både tidsutvikling og landeffekter.

Nå betyr selvsagt ikke dette at vi kan konkludere med at demokratisering ikke har en kausal betydning for grunnskoledekning, men det kan se ut som at det er et gode som i stor grad har bredt om seg før demokratiet. Dette er et poeng som går an å illustrere ved hjelp av ulike figurer, og en sterk besvarelse vil kanskje her kunne referere tilbake til funn fra oppgave 1.

Oppgave 5

a.

La \(\mu_{i,t}\) være forventet skoledekning for verdensdel \(i\) ved tidspunkt \(t\). Vi skal altså regne ut \(\mu_{i,t} = E(Y_{i,t}) = E(\gamma_i + \phi_t + \delta_1D_{i,t} + \epsilon_{i,t})\) for \(i = 1,2\) og \(t=1,2\). Her bruker vi vanlige regneregler for forventning og setter inn de rette indeksene i modell (3). Ut fra oppgaveteksten er dummyvariabelen for demokratisering \(D_{i,t}\) lik \(1\) kun for verdensdel \(i=1\) ved tidspunkt \(t=2\) og \(0\) ellers, og \(\phi_1\) er lik 0. F.eks er forventningen til verdensdel 1 ved tidspunkt 2:

\[\begin{equation*} \mu_{1,2} = E(Y_{1,2}) = E(\gamma_1 + \phi_2 + \delta_1\times 1 + \epsilon_{1,2}) \end{equation*}\] Her er de tre første leddene bare konstanter og forventningen til en konstant er bare konstanten selv. Forventningen til det siste feilleddet er \(E(\epsilon_{1,2}) = 0\) slik vi antar for alle (panel/) regresjonsmodeller, slik at

\[\begin{equation*} \mu_{1,2} = \gamma_1 + \phi_2 + \delta_1 \end{equation*}\]

Gjør vi tilsvarende for alle 4 kombinasjoner av \(t\) og \(i\) får vi:

verdensdel (i) Tidspunkt (t) Forventning (\(\mu_{i,t}\))
verdensdel 1 \(t=1\) \(\mu_{1,1} = \gamma_1\)
verdensdel 1 \(t=2\) \(\mu_{1,2} = \gamma_1 + \phi_2 + \delta_1\)
verdensdel 2 \(t=1\) \(\mu_{2,1} = \gamma_2\)
verdensdel 2 \(t=2\) \(\mu_{2,2} = \gamma_2 + \phi_2\)

Ut fra tabellen ser vi at \(\gamma_1\) og \(\gamma_2\) representerer grunnskoledekningen i hhv. verdensdel 1 og verdensdel 2 ved tidspunkt 1. Det at \(\gamma_1\) ikke nødvendigvis er lik \(\gamma_2\) betyr at vi tillater forskjellig nivå i grunnskoledekning i de to verdensdelene. Dette er fornuftig da det gjerne kan være lokale forhold som er forskjellige i de to verdensdelene som gjør at de ved tidspunkt 1 har forskjellig grunnskoledekning. I begge verdensdelene er det en felles global endring i grunnskoledekningen fra tidspunkt 1 til tidspunkt 2 som vi antar skjer uansett demokratisering eller ei, og denne endringen er representert ved leddet \(\phi_2\) (Se også oppgave 5c). verdensdel 1 har så en tilleggseffekt av demokratiseringen representert ved leddet \(\delta_1\) som da er størrelsen vi er på jakt etter.

b.

Generelt har vi lært at forventningen til et gjennomsnitt er lik forventningen til èn enkelt observasjon fra populasjonen vi ser på. F.eks i det vanlige tilfellet der vi har \(n\) observasjoner \(Y_1, Y_2,...,Y_n\) med \(E(Y_i)=\mu\), så er \(E(\bar{Y}) = E(Y_i) = \mu\). Med dette i bakhodet har vi at:

\[\begin{equation}\label{eq:ddiff} \begin{split} E(\hat{\delta}_1) &= E[(\bar{Y}_{1,2} - \bar{Y}_{1,1}) - (\bar{Y}_{2,2} - \bar{Y}_{2,1})]\\ &=\left(E(\bar{Y}_{1,2}) - E(\bar{Y}_{1,1})\right) - \left(E(\bar{Y}_{2,2}) - E(\bar{Y}_{2,1})\right)\\ &=\left(\mu_{1,2} - \mu_{1,1}\right) - \left(\mu_{2,2} - \mu_{2,1}\right)\\ &=\left(\gamma_1 + \phi_2 + \delta_1 - \gamma_1\right) - \left(\gamma_2 + \phi_2 - \gamma_2\right)\\ &= \delta_1 \end{split} \end{equation}\]

Altså er \(\hat{\delta}_1\) en forventningsrett estimator av \(\delta_1\).

INFO (ikke nødvendig i besvarelsen): Dette er den tradisjonelle strategien i en såkalt differanse i differansene modell. Hvis vi forkorter \(\hat{\delta}_1 = D_1 - D_2\) så er første steg, nemlig utregningen av \(D_1\) og \(D_2\), en strategi for å kvitte seg med verdensdelheterogeniteten (\(\gamma_1\) versus \(\gamma_2\)). \(D_1\) inneholder da bare den globale tidsutviklingen og effekten av demokratisering \(\phi_2 + \delta_1\), mens \(D_2\) kun inneholder den globale tidsutviklingen \(\phi_2\). Når vi så tar differansen av disse differansene (\(D_1 - D_2\)) fjerner vi også den globale tidsutviklingen og sitter igjen med et estimat på effekten av demokratiseringen. Det er mest vanlig å estimere \(\delta\) direkte med OLS og modell (3).

c.

Selv om dette er et naturlig eksperiment er tanken at verdensdel 2 fungerer som en kontrollgruppe for verdensdel 1 slik vi kan gjøre en kausal tolkning. Verdensdel 2 må derfor være så lik som mulig verdensdel 1 med unntak av demokratiseringen. Med lik mener vi at det implisitt i modell (3) antas at \(\phi_2\) er en felles global trend i grunnskoledekning fra tidspunkt 1 til tidspunkt 2 som vil skje uavhengig av demokratiseringen og den er lik i begge verdensdeler. Dette er en ganske sterk antagelse som vi strengt tatt ikke kan teste da vi ikke vet hva trenden hadde vært i verdensdel 1 dersom demokratiseringen ikke hadde funnet sted. Det kan jo tenkes at det er andre grunner enn demokratisering som gjør at grunnskoledekningen utvikler seg forskjellig i de to verdensdelene. Det vi derimot kan undersøke er om trenden før demokratiseringen er noen lunde lik. Dette er i det minste en indikasjon på at de to gruppene ville hatt samme trend i grunnskoledekning dersom begge hadde forblitt ikke-demokratiske. Vi ser også at denne antagelsen er avgjørende for kanselleringen av \(\phi_2\) når vi viser at estimatoren av \(\delta_1\) i oppgave 5 b er forventningsrett.

En litt mer teknisk forklaring (ikke nødvendig i besvarelsen): Teknisk sett antar vi at \(\phi_2\) er den kontrafaktiske utviklingen i grunnskoledekningen for verdensdel 1 dersom demokratiet ikke hadde blitt innført. Dette høres komplisert ut men la oss gjøre følgende tankeeksperiment: Tenk at du er en verdensdiktator med en fetisj for kausalitet og har tilgang til en tidsmaskin. Først lar du verdensdel 1 få innføre demokrati slik som beskrevet i oppgaven. Så reiser du tilbake i tid med tidsmaskinen og nekter den samme verdensdelen demokrati i den samme perioden. Vi brukes så samme modell (3), men lar den sistnevnte verdensversjonen spille rollen til verdensdel 2. Den eneste forskjellen på disse to verdensversjonene er demokratiseringen og vi har derfor skapt oss en perfekt kontrollgruppe. Hvis endringen i grunnskoledekning i den første verdensversjonen er \(\phi_2 + \delta\), mens den er \(\phi_2\) i den andre så må nødvendigvis \(\delta_1\) være den kausale effekten av demokratisering. Det er dette vi mener med at \(\phi_2\) representerer den kontrafaktiske utviklingen i grunnskoledekningen for verdensdel 1.

I mangelen på verdensdiktatur og tidsmaskiner må vi finne en gruppe land (f.eks de i verdensdel 2) hvor demokratisering ikke har funnet sted og hvor det er rimelig å tro at trenden i grunnskoledekning svarer til den kontrafaktiske trenden vi ville ha observert i verdensdel 1 dersom de ikke hadde blitt demokratisert. Denne antagelsen er umulig å teste eksakt (uten verdensdiktatur og tidsmaskiner), men en kan f.eks undersøke om trenden i grunnskoledekning i perioden før demokratiseringen er noenlunde lik i de to verdensdelene. Dette er i det minste en indikasjon på at de to gruppene ville hatt samme utvikling i grunnskoledekning dersom begge hadde forblitt ikke-demokratiske.