¿Qué es la regresión lineal?

La regresión lineal, podemos afirmar, es el siguiente paso lógico después de la correlación.

Se utiliza cuando queremos predecir el valor de una variable en función del valor o valores de otras

La variable que queremos predecir se llama variable dependiente (o, a veces, variable de resultado o criterio)

La(s) variable(s) que estamos usando para predecir el valor de la otra variable se llaman variables independientes (o, a veces, variables predictoras).

Sucede, por tanto, que hablaremos de regresión lineal simple cuando exista sólo una variable predictora (Y = aX + b)

y de regresión lineal múltiple cuando hay dos o más variables predictoras (Y = a1X1 + a2X2 + … anXn)

Por ejemplo, puedes usar la regresión lineal para comprender si el rendimiento en un examen puede predecirse en función del tiempo de estudio,

si el consumo de cigarrillos puede predecirse en función de la duración del tabaquismo, etc.

En este artículo te muestro cómo llevar a cabo una regresión lineal múltiple utilizando el paquete estadístico para ciencias sociales SPSS, así como también a interpretar e informar los resultados de este análisis

Sin embargo, antes de presentarte el procedimiento, debemos comprender los diferentes supuestos que deben cumplir tus datos para que la regresión lineal dé un resultado válido.

Todo esto, como ya sospecharás, es porque vamos a usar métodos paramétricos, muy quisquillosos ellos en cuanto a las condiciones previas que deben satisfacer nuestros datos 😉

Vamos a por ello

Supuestos

Cuando eliges analizar tus datos mediante regresión lineal, parte del proceso consiste en verificar que los datos realmente puedan analizarse mediante esta técnica estadística

Debes hacer esto porque sólo es apropiado usar la regresión lineal si tus datos “pasan el filtro” de seis supuestos necesarios para que la regresión lineal te dé un resultado válido.

En la práctica, la comprobación de estos seis supuestos sólo agrega un poco más de tiempo a tu análisis,

lo que requiere que hagas clic en algunos botones más en SPSS,

así como pensar un poco más sobre tus datos, pero es No es una tarea difícil

Antes de presentarte estas seis suposiciones, no se sorprendas si, al analizar tus propios datos con SPSS, se viola una o más de estas suposiciones (es decir, no se cumplen)

Esto no es raro cuando se trabaja con datos del mundo real en lugar de ejemplos sacados de libros de texto,

que a menudo sólo te muestran cómo llevar a cabo una regresión lineal cuando todo es color de rosas

Sin embargo, no te preocupes.

Incluso cuando tus datos fallan ciertos supuestos, a menudo hay una solución para superar esto.

Primero, echemos un vistazo a esas seis premisas

#1. Tipos de variables

Tus dos o más variables (dependiente e independientes) deben medirse a nivel continuo (es decir, son variables de intervalo o de razón).

Ejemplos de variables continuas incluyen el tiempo de estudio (medido en horas), la inteligencia (medida usando el coeficiente IQ), rendimiento en un examen (medido de 0 a 100), peso (medido en kgs), y así por el estilo

Puedes obtener más información sobre las variables de intervalo y de razón en nuestro artículo: tipos de variables

#2. Relación lineal

Debe haber una relación lineal entre la variable dependiente y las independientes

Si bien hay varias formas de verificar este supuesto,

Te sugiero crear un diagrama de dispersión utilizando SPSS donde puedas trazar la variable dependiente contra cada una de las variables independientes,

y luego inspeccionar visualmente el diagrama para verificar la linealidad.

Tu diagrama de dispersión puede parecerse a uno de los siguientes:

Si la relación que se muestra en tu diagrama de dispersión no es lineal, deberás ejecutar un análisis de regresión no lineal,

realizar una regresión polinómica o “transformar” tus datos,

Todo eso lo puedes hacer con el mismo SPSS

#3. Presencia de valores atípicos

No debe haber valores atípicos influyentes en tu conjunto de datos

Un valor atípico (o, outlier) es un punto de datos observado que tiene un valor en la variable dependiente que es muy diferente al valor predicho por la ecuación de regresión.

Como tal, un valor atípico será un punto en un diagrama de dispersión que está (verticalmente) lejos de la línea de regresión lo cual indica que tiene un gran residuo, como se resalta a continuación:

El problema con los valores atípicos es que pueden tener un efecto negativo en el análisis de regresión (por ejemplo, reducir la bondad de ajuste del modelo)

que se usa para predecir el valor de la variable dependiente (resultado) en función de las variables independiente (predictores).

Esto cambiará el resultado que produce SPSS y reducirá la precisión predictiva de tu modelo.

#4. Independencia de las observaciones

Los datos que vas a procesar en tu análisis deben ser independientes, vale decir, que hayan sido obtenidos a través de un muestreo aleatorio

Y esto lo puedes verificar fácilmente con el estadígrafo de Durbin-Watson, que te proporciona SPSS

#5. Homocedasticidad

Tus datos deben mostrar homocedasticidad, que es cuando las variaciones a lo largo de la línea de mejor ajuste permanecen similares a medida que se avanza a través de ella.

La situación contraria que es la heterocedasticidad (no deseable) consiste en el hecho de que la varianza de los residuos, no se mantiene constante para todos los valores de las variables independientes

Dale un vistazo a los dos diagramas de dispersión a continuación, que proporcionan ejemplos simples:

Homocedasticidad. Fuente de imagen: economipedia

Uno de los conjuntos de datos que falla en el supuesto (presenta heterocedasticidad) y el otro cumple con esta premisa (presenta homocedasticidad)

Si bien estos diagramas ilustrar las diferencias en los datos que cumplen o violan el supuesto de homocedasticidad,

los datos del mundo real pueden ser mucho más confusos y presentan diferentes patrones de heterocedasticidad.

#6. Distribución normal de los residuos

Finalmente, debes verificar que los residuos (errores) de la línea de regresión estén distribuidos aproximadamente de manera normal

Dos métodos comunes para verificar esta suposición incluyen el uso de un histograma (con una curva normal superpuesta) o un diagrama PP normal.

Puedes verificar los supuestos # 2, # 3, # 4, # 5 y # 6 usando SPSS

El supuesto #2 debe verificarse primero, antes de pasar a los demás

Sugerimos probar los supuestos en este orden porque los supuestos #3, #4, # 5 y #6 requieren que primero ejecutes el procedimiento de regresión lineal en SPSS,

por lo que es más fácil abordarlos después de verificar el supuesto #2.

Regresión lineal múltiple: ejemplo con 5 predictores en dos pasos

Usaremos para demostrar los procedimientos estadísticos que hay que desarrollar, los datos del archivo college success.sav(1) el cual proporciona calificaciones de secundaria, puntajes SAT y promedio de calificaciones gpa de 224 estudiantes universitarios.

Fíjate en la siguiente para entender cómo están estructurados los datos

Regresión lineal - data set — Regresión lineal – data set

Variables:

id: ID del participante.
gpa – Promedio de calificaciones (GPA) después de tres semestres en la universidad.
hsm – Promedio de calificaciones de secundaria en matemáticas.
hss – Promedio de calificación de secundaria en ciencias.
hse – Promedio de calificación de la escuela secundaria en inglés.
satm – puntaje SAT (prueba de admisión a universidades norteamericanas) para matemáticas.
satv – puntaje SAT (prueba de admisión a universidades norteamericanas) para habilidad verbal.
sexo – género (1 = hombre, 2 = mujer)

Específicamente, examinaremos qué variables predicen mejor el GPA.

Para ello hacemos clic en Analizar > Regresión > Lineales tal y como se observa en la figura

Vamos a seguir un enfoque por bloques de variables

El primer bloque de variables está conformado por GPA (variable dependiente) y hsm, hss y hse (variables independientes) como puedes observar en la figura siguiente

Esto quiere decir que ajustaremos un modelo que predice el promedio de calificaciones (GPA) según los promedios de notas en secundaria (hsm, hss y hse)

En el segundo bloque de variables, incorporaremos al modelo de predicción de GPA las notas universitarias en matemática y habilidad verbal (SATM, SATV) como puedes observar a continuacion

Luego, hacemos clic en el botón Estadísticos… lo que abre el cuadro de diálogo correspondiente donde marcamos las opciones indicadas

Luego hacemos clic en el botón Gráficos… para abrir el cuadro de diálogo de la figura, ahí marcamos las opciones indicadas

Finalmente, el mismo software SPSS se encargará de señalarnos cuáles combinaciones de variables independientes predicen mejor a la variable dependiente GPA

Estadísticos descriptivos

Antes de realizar el análisis, es bueno producir algunas estadísticas descriptivas.

Matriz de correlaciones

Los análisis exploratorios de correlación revelan que todas las variables están positivamente correlacionadas.

La variable dependiente GPA tiene un ligero sesgo negativo.

Esto nos dice que debemos examinar la distribución de los residuos con cuidado.

Las variables independientes muestran un alto sesgo, especialmente las tres calificaciones de secundaria (hsm, hss, hse)

Las correlaciones entre todos los predictores sugieren que debemos tener en cuenta la multicolinealidad.

Regresión lineal múltiple con 5 variables predictoras en dos bloques (hsm, hss, hse, satm y satv)

Una vez que hacemos clic en el botón Aceptar de la fig. 4, el software SPSS realiza los cálculos correspondiente y arroja los siguientes resultados

Identifica 2 modelos: el modelo 1 utilizando sólo la variable hsm como predictor de GPA

El modelo 2, incluye además a las calificaciones universitarias, satm y satv, como predictoras junto con hsm de GPA

El modelo 2 explica el 19,4% de la varianza en el GPA.

Este porcentaje de varianza explicada por las variables predictoras en la variable criterio es francamente bajo

Lo ideal sería que fuese superior al 60%, pero no olvidemos que estamos trabajado con datos reales provenientes de un trabajo de investigación de campo(1)

El coeficiente de Durbin-Watson tiene un valor aceptable, suficientemente cercano a 2, por lo que damos por satisfecho el supuesto #4 de independencia de las observaciones

La varianza explicada del modelo es estadísticamente significativa: podemos rechazar la hipótesis nula que incluye sólo una gran media.

De las tres calificaciones de secundaria, sólo hsm es un predictor significativo de GPA.

Las estadígrafos de VIF sugieren que no hay ningún problema con la multicolinealidad (puntajes de VIF <2).

Residuales versus valores pronosticados

Los residuos no parecen tener una relación problemática con las variables predictoras o con los valores pronosticados.

La gráfica P-P muestra que los residuos aunque están ligeramente sesgados, se distribuyen aproximadamente como una distribución normal

Se verifica, en consecuencia, razonablemente bien el supuesto #6

Esto sugiere además que el modelo está bien especificado.

A partir del examen de gráfico de dispersión de la fig. 10, se comprueba que no hay ninguna relación sistemática entre los residuos tipificados y los valores pronosticados tipificados de GPA

Por tanto, podemos dar por cumplido el supuesto #5 en cuanto a la homocedastidad de los datos

Para finalizar…

Luego de todos los cálculos y ajustes realizados hasta aquí, nos quedamos con el modelo 2 como mejor ecuación para predecir el puntaje GPA:

GPA = 0,680 + 0,193*hsm + 0,001*satm – 0,00007*satv

No obstante, no hay que olvidar que las variables predictores sólo explican el 19,4% de la varianza total en GPA

También es importante que notes que los coeficientes que acompañan a las variables satm y satv son muy cercanos a cero, razón por la cual si nos hubiésemos quedado con el modelo 1 no introduciría mayor diferencia

Por tanto, sería necesario hacer análisis ulteriores como un análisis de la varianza incluyendo otros factores que pudiesen influir en las puntuaciones GPA

¿Te ha gustado el análisis de regresión lineal múltiple?

Espero tus comentarios al final del artículo

Referencias

(1) Campbell, P. F. and McCabe, G. P. (1984). Predicting the success of freshmen in a computer science major. Communications of the ACM, 27: 1108–1113. Disponible Aquí

Please follow and like us:

6 comentarios

efrain
31 octubre, 2020 at 8:11 pm
Responder
muy interesante el aporte
- Carlos Godoy Rodríguez Autor de la entrada
  1 noviembre, 2020 at 6:33 am
  Responder
  Hola Efrain,
  Gracias por tu positivo comentario y por ser seguidor de lo que publicamos en Tesis de Cero a 100
  Esperamos verte pronto de nuevo por aquí
  Saludos Cordiales,
  Dr. Carlos Godoy Rodríguez, MSc.
César Augusto Paitan Mendez
5 noviembre, 2020 at 6:56 am
Responder
Excelente aporte gracias por compartir
- Carlos Godoy Rodríguez Autor de la entrada
  14 noviembre, 2020 at 7:50 am
  Responder
  Hola Cesar Augusto,
  Mil Gracias por darte una vuelta por Tesis de Cero a 100 y por tu auspicioso comentario
  M e complace que la información te haya sido de utilidad
  Saludos Cordiales,
  Dr. Carlos Godoy Rodríguez, MSc.
Percy
24 noviembre, 2020 at 3:05 pm
Responder
Un gran aporte a la investigación y gracias por la manera didáctica de presentar la información
- Carlos Godoy Rodríguez Autor de la entrada
  26 noviembre, 2020 at 6:38 am
  Responder
  Hola Percy,
  Muchas Gracias por tu opinión acerca del artículo referido a la Regresión Lineal y por ser seguidor de Tesis de Cero a 100
  Me complace que te haya sido de utilidad
  Te comento también, que tenemos el canal de Youtube Tesis de Cero a 100 – TV al cual te puedes suscribir a través del link y donde encontraras varios vídeos que complementan los temas abordados en el blog
  Un fuerte abrazo,
  Dr. Carlos Godoy Rodríguez, MSc.

Regresión lineal múltiple + ejemplo completo con SPSS