REGRESION simple

En el primer caso, la curva a la que se aproxime la nube de puntos sugerirá el modelo a utilizar: lineal (Y = a + bX) si
78KB Größe 149 Downloads 155 Ansichten
REGRESION simple Correlaci´ on Lineal: Dadas dos variable num´ericas continuas X e Y , decimos que est´an correlacionadas si entre ambas variables hay cierta relaci´on, de modo que puede predecirse (aproximadamente) el valor de una de ellas conocido el valor de la otra; en este sentido, decimos que la correlaci´on es positiva si al aumentar una de las variables aumenta tambi´en la otra, y negativa en caso contrario. Si queremos predecir el valor de Y a partir de X, decimos que X es el regresor, e Y la variable explicada. Si X e Y no est´an relacionadas en modo alguno, decimos que son incorreladas. Si X e Y est´an correlacionadas, tiene sentido buscar la “f´ormula” que permita aproximar una de ellas, digamos Y , conocida la otra. Seg´ un el tipo de f´ormula que mejor se adapte a los datos, hablamos de correlaci´ on lineal (Y = a+bX), correlaci´ on cuadr´ atica (Y = a + bx + cx2 ), exponencial (Y = abX ), etc. En nuestro caso, nos centraremos en la correlaci´on lineal. Medida de la Correlaci´ on Lineal: Para evaluar la fuerza de la correlaci´on lineal entre dos variables X e Y , es decir, la idoneidad de una aproximac´on Y = a + bX, lo primero que haremos ser´a reunir datos del tipo (x1 , y1 ), (x2 , y2 ), . . . , (xn , yn ); es decir, mediremos los valores de X e Y sobre n individuos de una cierta poblaci´on; a un conjunto de datos de este tipo se le llama una distribuci´ on bidimensional. A partir de estos datos, calcularemos los siguientes par´ametros, que permiten evaluar distintos aspectos de la correlaci´on lineal. (1) Nube de Puntos: Es la representaci´on gr´afica de los datos (xi , yi ). La forma de la regi´on que configuran permite evaluar si hay o no correlaci´on entre las variables: si la nube de puntos se aproxima a una curva con forma geom´etrica definida, hay correlaci´on entre ambas; si la nube de puntos no se aproxima a ninguna curva en particular (es decir, es m´as bien informe), entonces son incorreladas. En el primer caso, la curva a la que se aproxime la nube de puntos sugerir´a el modelo a utilizar: lineal (Y = a + bX) si es una recta, cuadr´atica (Y = a + bX + cX 2 ) si es una par´abola, etc. En el caso de la correlaci´on lineal, la nube de puntos debe ser alargada, y pr´oxima a una recta “intermedia”. (2) Covarianza: Es un par´ametro que depende tanto de la fuerza de la correlaci´on lineal, como de la dispersi´on y el tama˜ no de las xi , por un lado, y 1

las yj , por otro. Cuanto m´as pr´oxima est´e a 0, m´as d´ebil ser´a la correlaci´on lineal entre las variables. Se calcula como: P

sxy =

i=1,...,n (xi

− x¯)(yi − y¯) = n

P i=1,...,n

xi yi

n

− x¯y¯

Si la correlaci´on es positiva, entonces sxy > 0; si es negativa, sxy < 0. (3) Coeficiente de correlaci´ on lineal de Pearson: sxy sx · sy

ρ=

Se cumple que: · Depende s´olo de la fuerza de la correlaci´on lineal. · −1 ≤ ρ ≤ 1 · Si ρ > 0, la correlaci´on es positiva; si ρ < 0, negativa. · La correlaci´on es tanto m´as fuerte cuanto m´as pr´oximo est´e ρ a 1 o −1. (4) Coeficiente de correlaci´ on lineal de Spearman (o por Rangos): Es m´as robusto que ρ (es decir, menos sensible a datos at´ıpicos). Si representamos por Rx , Ry los rangos de los xi , yj , respectivamente, entonces rs =

sRx ,Ry sRx · sRy

Sus propiedades son completamente an´alogas a las de ρ. Modelo de Correlaci´ on Lineal: Con m´as precisi´on, decimos que la relaci´on entre dos variables X e Y puede ser descrita a partir de un modelo lineal, cuando puede afirmarse que Y = a + bX + ² donde ² recibe el nombre de residuo, de modo que se cumple: (i) La relaci´on entre Y y X es lineal (es decir, la f´ormula Y = a + bX aproxima bien el valor de Y , conocido X) (ii) La media de los residuos es 0. (iii) Los residuos son normales. (iv) La varianza de Y no depende del valor de X (homocedasticidad). (v) Los residuos son aleatorios. En resumen, ² = N (0, σ), donde σ recibe el nombre de error experimental, y permite evaluar hasta qu´e punto pueden desviarse las predicciones, de los valores reales. 2

Los valores a, b se estiman como: b=

sxy s2x

a = y¯ − b · x¯ donde x¯, y¯ son las medias de los xi , yj , respectivamente, y s2x es la varianza de los xi . El par´ametro a se llama ordenada, y b pendiente. En general, dado un cierto valor xi , representaremos por yˆi el valor esperado de la variable Y , correspondiente al valor xi de la variable X, conforme al modelo anterior; es decir, yˆi = a + bxi Se tiene que ²i = yi − yˆi (el valor “real” menos el “predicho”). Variabilidad y Correlaci´ on Lineal: Puede realizarse una descomposici´on de la variabilidad de la variable Y similar a la del ANOVA simple, a partir del modelo anterior. Concretamente, si y¯ representa la media de la variable Y , entonces: X |

(yi − y¯)2 = {z

}

X |

SCT

(yi − yˆi )2 + {z

}

X |

SCR

(ˆ yi − y¯)2 {z

}

SCE

Se llama coeficiente de determinaci´ on o R2 , a R2 =

SCE × 100 SCT

Este coeficiente debe entenderse como el porcentaje de variabilidad de los datos que est´a siendo explicado por el modelo (de hecho, si el modelo es bueno yˆi , yi ser´an muy similares, luego SCR ser´a pr´oxima a cero. Si R2 es suficientemente grande, entonces entenderemos que el modelo Y = a+bX est´a explicando bien la variabilidad encontrada, y por tanto que se ajusta bien a los datos. En particular, cuanto m´as pr´oximo a 100 sea R2 , m´as fuerte ser´a la correlaci´on lineal. Adem´as, aplicando t´ecnicas similares a las del ANOVA, podemos producir un p-valor para la hip´otesis H0 : “no hay correlaci´on lineal”, frente a la alternativa H1 : “hay correlaci´on lineal”. Finalmente, R2 es exactamente igual al cuadrado del coeficiente de correlaci´on lineal de Pearson, multiplicado por 100; de ah´ı el hecho de que el coeficiente de correlaci´on de Pearson mida la fuerza de la correlaci´on. Tests de Hip´ otesis para contrastar la existencia de correlaci´ on lineal: • Si b es la pendiente del modelo de regresi´on, aceptar H0 : b = 0, H1 : b 6= 0 equivale a admitir que no hay correlaci´on lineal. En ese caso, las variables pueden ser incorreladas, o puede existir entre ellas una correlaci´on de otro tipo. 3

• Si ρ es el coeficiente de correlaci´on de Pearson, aceptar H0 : ρ = 0, H1 : ρ 6= 0 equivale a admitir que no hay correlaci´on lineal. • Idem para el coeficiente de correlaci´on de Spearman, rs .

4

REGRESION m´ ultiple En este caso hay una variable explicada Y , y varios regresores X1 , . . . , Xn , de modo que el modelo que se intenta ajustar es Y = a1 X1 + · · · + an Xn Con mayor exactitud, Y = a1 X1 + · · · + an Xn + ², donde ² recibe, como en el caso de la regresi´on simple, el nombre de residuo; las propiedades que esta variable debe cumplir son las mismas que en el caso anterior. Adem´as, se exige tambi´en que las variables X1 , . . . , Xn no est´en linealmente correlacionadas (ya que, de otro modo, el modelo tendr´ıa m´as variables de las necesarias). Cuando dos de las variables Xi , Xj est´an linealmente correlacionadas, se dice que existe multicolinealidad. Para comprobar si el modelo de regresi´on m´ ultiple se ajusta bien a un cierto conjunto de observaciones, examinaremos si el coeficiente de determinaci´on, o R2 , es pr´oximo a 100. Esto se traduce tambi´en en un cierto p-valor que permite contrastar la hip´otesis H0 : “no hay correlaci´on lineal”, H1 : “hay correlaci´on lineal”.

5