#getwd()
#setwd("")
library(rio)
= import("./data/s12/PVotos_CirElectoral_idh.xlsx")
dataVOTO
#names(dataVOTO)
#str(dataVOTO)
11 Regresión Lineal
11.1 PRIMERA BASE DE DATOS: ELECCIONES PERÚ (CASTILLO)
- IDH Y CASTILLO:
12 Modelo 1
<- lm(VotosV_Castillo ~ IDH, data = dataVOTO)
modelo1 summary(modelo1)
Call:
lm(formula = VotosV_Castillo ~ IDH, data = dataVOTO)
Residuals:
Min 1Q Median 3Q Max
-0.25650 -0.10446 -0.02506 0.13784 0.20256
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.7566 0.1715 4.413 0.000185 ***
IDH -0.9311 0.3225 -2.887 0.008096 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.1391 on 24 degrees of freedom
Multiple R-squared: 0.2578, Adjusted R-squared: 0.2269
F-statistic: 8.337 on 1 and 24 DF, p-value: 0.008096
INTERPRETACION:
12.1 1. ¿Existe una relación de depencia entre las variables? ¿Y depende de X1?
H0: La variable independiente (
IDH
) no tiene efecto sobre la variable dependiente (VotosV_Castillo
)Al revisar el p-value (0.008096), el cual es menor a 0.05, rechazamos la H0. Por lo que a un 95% de confianza, el (
IDH
) tiene impacto significativo / sí tiene un efecto / sí influye en (VotosV_Castillo
). Así se determina que el “modelo1” es válido para predecir el porcentaje de votos válidos a Castillo en los departamentos del país a partir del IDH; es decir, existe una relación lineal entre ambas variables.
12.2 2. ¿Cuánto explica el modelo?
- La mejor recta graficada del “modelo1” de regresión lineal ayuda a predecir el 22% de la variabilidad total de la variable (
VotosV_Castillo
) explicada por la variable (IDH
). Por lo que podemos concluir que es un modelo bajo.
12.3 3. ¿Cómo Y depende de X 1?
COEFICIENTE:
- El porcentaje de votos válidos de Castillo va a ser igual a 0.7566 + (-0.9311)*IDH. En ese sentido, cuando el (
IDH
) se incrementa en una unidad, el porcentaje de votos válidos de Castillo disminuye / se reduce en 0.9311 puntos porcentuales / 93%.
INTERCEPTO:
Cuando IDH toma el valor 0, el porcentaje de votos válidos para Castillo sería 0.7566.
Y = 0.7566 +(-0.9311)*X
Y = 0.7566 +(-0.9311)*IDH
summary(dataVOTO$IDH)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.3838 0.4688 0.5125 0.5249 0.5849 0.7255
- ¿Qué sucede con la región que tiene el min de IDH? remplazar 0.3838 en –> Y= 0.7566 + (-0.9311)*IDH
= 0.7566 + (-0.9311)*0.3838
Y1 Y1
[1] 0.3992438
- Porcentaje de voto a castillo al 40%
12.4 Gráfica
#plot(VotosV_Castillo ~ IDH, dataVOTO)
#abline(modelo1, col = "red")
# GRÁFICO FACHEREX:
library(ggplot2)
library(hrbrthemes)
ggplot(dataVOTO, aes(x = IDH, y = VotosV_Castillo, color = "")) +
geom_point(size = 6,
alpha = 1/2) + xlab("IDH") + ylab("Votos por Castillo") +
ggtitle("IDH \ Votos por Castillo") +
theme_light() + geom_smooth(method="lm",
se = F) + # Se eliminan las bandas de confianza (se = standard error)
theme_ipsum()
INTERPRETACIÓN:
- Las regiones con mayor IDH votaron menos por castillo.
13 SEGUNDA BASE DE DATOS: ELECCIONES COLOMBIA (PETRO)
- IDH Y PETRO:
#getwd()
#setwd("")
library(rio)
= import("./data/s12/Colombia2022.xlsx")
dataCOLOM
#names(dataCOLOM)
#str(dataCOLOM)
str(dataCOLOM$`Petro (%)`)
num [1:33] 0.24 0.547 0.47 0.499 0.314 ...
str(dataCOLOM$`IDH-2019`)
num [1:33] 0.772 0.786 0.813 0.756 0.76 0.778 0.717 0.719 0.729 0.716 ...
14 Modelo 2
<- lm(`Petro (%)` ~ `IDH-2019`, data = dataCOLOM)
modelo2 summary(modelo2)
Call:
lm(formula = `Petro (%)` ~ `IDH-2019`, data = dataCOLOM)
Residuals:
Min 1Q Median 3Q Max
-0.25500 -0.11035 -0.02323 0.09892 0.22906
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 2.0028 0.4968 4.032 0.000334 ***
`IDH-2019` -2.1193 0.6670 -3.178 0.003354 **
---
Signif. codes: 0 '***' 0.001 '**' 0.01 '*' 0.05 '.' 0.1 ' ' 1
Residual standard error: 0.141 on 31 degrees of freedom
Multiple R-squared: 0.2457, Adjusted R-squared: 0.2214
F-statistic: 10.1 on 1 and 31 DF, p-value: 0.003354
14.1 INTERPRETACION:
H0: La variable independiente (
IDH-2019
) no tiene efecto sobre la variable dependiente (Petro (%)
)Al revisar el p-value (0.003354), el cual es menor a 0.05, rechazamos la H0. Por lo que a un 95% de confianza el (
IDH-2019
) tiene impacto significativo en (Petro (%)
). Así se determina que el modelo2 es válido para predecir el porcentaje de votos válidos a Petro en las regiones del país colombiano a partir del IDH. Es decir, existe una relación lineal entre ambas variables.La mejor recta graficada del modelo2 de regresión lineal ayuda a predecir el 24% de la variabilidad total de la variable (
Petro (%)
) explicada por la variable (IDH-2019
). Por lo que podemos concluir que es un modelo bajo.
COEFICIENTE:
- El porcentaje de votos válidos de Petro va a ser igual a 2.0028 + (-2.1193)*
IDH-2019
. En ese sentido, cuando elIDH-2019
se incrementa en una unidad, el porcentaje de votos válidos de Petro disminuye/se reduce en 2.1193 puntos porcentuales.
INTERCEPTO:
- Cuando IDH toma el valor 0, el porcentaje de votos válidos para Petro sería 2.0028.
summary(dataCOLOM$`IDH-2019`)
Min. 1st Qu. Median Mean 3rd Qu. Max.
0.6390 0.7190 0.7500 0.7439 0.7740 0.8130
= 2.0028 +(-0.9311*0)
Y2 Y2
[1] 2.0028
14.2 GRÁFICA
#plot(`Petro (%)` ~ `IDH-2019`, dataCOLOM)
#abline(modelo2, col = "red")
# GRÁFICO FACHEREX:
library(ggplot2)
ggplot(dataCOLOM, aes(x=`IDH-2019`, y = `Petro (%)`)) +
geom_point(colour="red", size = 3, alpha = 1/2) +
xlab("IDH 2019") +
ylab("Votos por Petro") +
ggtitle("IDH 2019 \ Votos por Petro") +
theme_light()+ geom_smooth(method="lm",
se = F) # Se eliminan las bandas de confianza (se = standard error)
- Del mismo modo las regiones con mayor IDH votaron menos por Petro.