Menú Cerrar

Regresión lineal múltiple + ejemplo completo con SPSS

Regresión lineal múltiple 0

¿Qué es la regresión lineal?


La regresión lineal, podemos afirmar,  es el siguiente paso lógico después de la correlación.

Se utiliza cuando queremos predecir el valor de una variable en función del valor o valores de otras

La variable que queremos predecir se llama variable dependiente (o, a veces, variable de resultado o criterio)

La(s)  variable(s) que estamos usando para predecir el valor de la otra variable se llaman variables independientes (o, a veces, variables predictoras).

Sucede, por tanto, que hablaremos de regresión lineal simple cuando exista sólo una variable predictora  (Y = aX + b)

y de regresión lineal múltiple cuando hay dos o más variables predictoras (Y = a1X1 + a2X2 + … anXn)

Por ejemplo, puedes usar la regresión lineal para comprender si el rendimiento en un  examen puede predecirse en función del tiempo de estudio,

si el consumo de cigarrillos puede predecirse en función de la duración del tabaquismo, etc.

En este artículo te muestro cómo llevar a cabo una regresión lineal múltiple utilizando el paquete estadístico para ciencias sociales SPSS, así como también a interpretar e informar los resultados de este análisis

Sin embargo, antes de presentarte el procedimiento, debemos comprender los diferentes supuestos que deben cumplir tus datos para que la regresión lineal  dé un resultado válido.

Todo esto, como ya sospecharás,  es porque vamos a usar  métodos paramétricos, muy quisquillosos ellos en cuanto a las condiciones previas que deben satisfacer nuestros datos  😉

Vamos a por ello

 

Supuestos


Cuando eliges analizar tus datos mediante regresión lineal, parte del proceso consiste en verificar que los datos realmente puedan analizarse mediante esta técnica estadística

Debes hacer esto porque sólo es apropiado usar la regresión lineal si tus datos “pasan el filtro” de seis supuestos necesarios para que la regresión lineal te dé un resultado válido.

En la práctica, la comprobación de estos seis supuestos sólo agrega un poco más de tiempo a tu análisis,

lo que requiere que hagas clic en algunos botones más en SPSS,

así como pensar un poco más sobre tus datos, pero es No es una tarea difícil

Antes de presentarte estas seis suposiciones, no se sorprendas si, al analizar tus propios datos con  SPSS, se viola una o más de estas suposiciones (es decir, no se cumplen)

Esto no es raro cuando se trabaja con datos del mundo real en lugar de ejemplos sacados de libros de texto,

que a menudo sólo te muestran cómo llevar a cabo una regresión lineal cuando todo es color de rosas

Sin embargo, no te preocupes.

Incluso cuando tus datos fallan ciertos supuestos, a menudo hay una solución para superar esto.

Primero, echemos un vistazo a esas seis premisas

 

#1. Tipos de variables

Tus  dos o más variables (dependiente e independientes) deben medirse a nivel continuo (es decir, son variables de intervalo o de razón).

Ejemplos de variables continuas incluyen el tiempo de estudio (medido en horas), la inteligencia (medida usando el coeficiente  IQ), rendimiento en un  examen (medido de 0 a 100), peso (medido en kgs), y así por el estilo

Puedes obtener más información sobre las variables de intervalo y de razón en nuestro artículo: tipos de variables

#2. Relación lineal

Debe haber una relación lineal entre la variable dependiente y las  independientes

Si bien hay varias formas de verificar este supuesto,

Te sugiero  crear un diagrama de dispersión utilizando SPSS  donde puedas trazar la variable dependiente contra cada una de las  variables independientes,

y luego inspeccionar visualmente el diagrama para verificar la linealidad.

Tu  diagrama de dispersión puede parecerse a uno de los siguientes:

Diagramas de dispersión
Diagramas de dispersión

 

Si la relación que se muestra en tu diagrama de dispersión no es lineal, deberás ejecutar un análisis de regresión no lineal,

realizar una regresión polinómica o “transformar” tus datos,

Todo eso lo puedes hacer con el mismo SPSS

#3. Presencia de valores atípicos

No debe haber valores atípicos influyentes en tu conjunto de datos

Un valor atípico (o,  outlier) es un punto de datos observado que tiene un valor en la  variable dependiente que es muy diferente al valor predicho por la ecuación de regresión.

Como tal, un valor atípico será un punto en un diagrama de dispersión que está (verticalmente) lejos de la línea de regresión lo cual  indica que tiene un gran residuo, como se resalta a continuación:

El problema con los valores atípicos es que pueden tener un efecto negativo en el análisis de regresión (por ejemplo, reducir la bondad de ajuste del modelo)

que se usa para predecir el valor de la variable dependiente (resultado) en función de las variables independiente (predictores).

Esto cambiará el resultado que produce SPSS  y reducirá la precisión predictiva de tu modelo.

 

Valores atípicos
Valores atípicos

#4. Independencia de las observaciones

Los datos que vas a procesar en tu análisis deben ser independientes, vale decir, que hayan sido obtenidos a través de un muestreo aleatorio

Y esto lo puedes verificar fácilmente con el estadígrafo de Durbin-Watson, que te proporciona SPSS

#5. Homocedasticidad

Tus datos deben mostrar homocedasticidad, que es cuando  las variaciones a lo largo de la línea de mejor ajuste permanecen similares a medida que se avanza a través de ella.

La situación contraria  que es la heterocedasticidad (no deseable)  consiste en el hecho de que la varianza de los residuos, no se mantiene constante para todos los valores de las variables independientes

Dale  un vistazo a los dos diagramas de dispersión a continuación, que proporcionan  ejemplos simples:

Homocedasticidad. Fuente de imagen: economipedia
Homocedasticidad. Fuente de imagen: economipedia

 

Uno de los conjuntos de datos que falla en el supuesto (presenta heterocedasticidad) y el otro  cumple con esta premisa (presenta homocedasticidad)

Si bien estos diagramas  ilustrar las diferencias en los datos que cumplen o violan el supuesto de homocedasticidad,

los datos del mundo real pueden ser mucho más confusos y presentan  diferentes patrones de heterocedasticidad.

#6. Distribución normal de los residuos

Finalmente, debes verificar que los residuos (errores) de la línea de regresión estén distribuidos aproximadamente de manera normal

Dos métodos comunes para verificar esta suposición incluyen el uso de un histograma (con una curva normal superpuesta) o un diagrama PP normal.

Puedes verificar los supuestos # 2, # 3, # 4, # 5 y # 6 usando SPSS

El supuesto #2  debe verificarse primero, antes de pasar a los demás

Sugerimos probar los supuestos en este orden porque los supuestos  #3,  #4, # 5 y  #6 requieren que primero ejecutes el procedimiento de regresión lineal en SPSS,

por lo que es más fácil abordarlos después de verificar el supuesto  #2.

 

Regresión lineal múltiple: ejemplo con 5 predictores en dos pasos


Usaremos para demostrar los procedimientos estadísticos que hay que desarrollar, los datos del archivo college success.sav(1) el cual proporciona calificaciones de secundaria, puntajes SAT y promedio de calificaciones gpa de 224 estudiantes universitarios.

Fíjate en la  siguiente para entender cómo están estructurados los datos

Regresión lineal - data set
Regresión lineal – data set

Variables:

  • id: ID del participante.
  • gpa – Promedio de calificaciones (GPA) después de tres semestres en la universidad.
  • hsm – Promedio de calificaciones de secundaria en matemáticas.
  • hss – Promedio de calificación de secundaria en ciencias.
  • hse – Promedio de calificación de la escuela secundaria en inglés.
  • satm – puntaje SAT (prueba de admisión a universidades norteamericanas) para matemáticas.
  • satv – puntaje SAT (prueba de admisión a universidades norteamericanas) para habilidad verbal.
  • sexo – género (1 = hombre, 2 = mujer)

 

Específicamente, examinaremos qué variables predicen mejor el GPA.

Para ello hacemos clic en Analizar > Regresión > Lineales  tal y como se observa en la figura

 

Regresión lineal múltiple
Regresión lineal múltiple

 

Vamos a seguir un enfoque por bloques de variables

El primer bloque de variables está conformado por GPA (variable dependiente) y hsm, hss y hse (variables independientes) como puedes observar en la figura siguiente

Esto quiere decir que ajustaremos un modelo que predice el promedio de calificaciones (GPA) según los promedios de notas en secundaria (hsm, hss y hse)

 

Regresión lineal múltiple 3
Regresión lineal múltiple 3

En el segundo bloque de variables, incorporaremos al modelo de predicción de GPA las notas universitarias en matemática y habilidad verbal (SATM, SATV) como puedes observar a continuacion

 

Regresión lineal múltiple 4
Regresión lineal múltiple 4

 

Luego, hacemos clic en el botón Estadísticos… lo que abre el cuadro de diálogo correspondiente  donde marcamos las opciones indicadas

 

Regresión lineal múltiple 5
Regresión lineal múltiple 5

 

Luego hacemos clic en el botón Gráficos…   para abrir el cuadro de diálogo de la figura, ahí marcamos las opciones indicadas

 

Regresión lineal múltiple 6
Regresión lineal múltiple 6

 

Finalmente, el mismo software SPSS se encargará de señalarnos  cuáles combinaciones de variables independientes predicen mejor a la variable dependiente GPA

Estadísticos descriptivos

Antes de realizar el análisis, es bueno producir algunas estadísticas descriptivas.

Estadísticos descriptivos
Estadísticos descriptivos

Matriz de correlaciones

Los análisis exploratorios de correlación revelan que todas las variables están positivamente correlacionadas.

Correlaciones
Correlaciones

 

Diagramas de dispersión conjuntos
Diagramas de dispersión conjuntos

 

La variable dependiente GPA tiene un ligero sesgo negativo.

Esto nos dice que debemos examinar la distribución de los residuos con cuidado.

Las variables independientes muestran un alto sesgo, especialmente las tres calificaciones de secundaria (hsm, hss, hse)

Las correlaciones entre todos los predictores sugieren que debemos tener en cuenta la multicolinealidad.

 

Regresión lineal múltiple con 5 variables predictoras en dos bloques (hsm, hss, hse, satm y satv)

Una vez que hacemos clic en el botón Aceptar de la fig. 4, el software SPSS realiza los cálculos correspondiente y arroja los siguientes resultados

Identifica 2 modelos: el  modelo 1  utilizando sólo la variable hsm como predictor de GPA

El modelo 2, incluye además a las calificaciones universitarias, satm y satv, como predictoras junto con hsm de GPA

El modelo 2 explica el 19,4% de la varianza en el GPA.

Este porcentaje de varianza explicada por las variables predictoras en la variable criterio es francamente bajo

Lo ideal sería que fuese superior al 60%, pero no olvidemos que estamos trabajado con datos reales provenientes de un trabajo de investigación de campo(1)

El coeficiente de Durbin-Watson tiene un valor aceptable, suficientemente cercano a 2, por lo que damos por satisfecho el supuesto #4 de independencia de las observaciones

 

Resultados 1
Resultados 1

La varianza explicada del modelo es estadísticamente significativa: podemos rechazar la hipótesis nula  que incluye sólo una gran media.

Resultados 2
Resultados 2

De las tres calificaciones de secundaria, sólo hsm es un predictor significativo de GPA.

Las estadígrafos  de VIF sugieren que no hay ningún problema con la multicolinealidad (puntajes de VIF <2).

 

Residuales versus valores pronosticados

Los residuos no parecen tener una relación problemática con las variables predictoras o con los valores pronosticados.

La  gráfica P-P muestra que los residuos aunque están ligeramente sesgados, se distribuyen aproximadamente  como una distribución normal

Se verifica, en consecuencia, razonablemente bien el supuesto #6

Esto sugiere además que el modelo está bien  especificado.

 

Resultados 3
Resultados 3

 

A partir del examen de gráfico de dispersión de la fig. 10, se comprueba que no hay ninguna relación sistemática entre los residuos tipificados y los valores pronosticados tipificados de GPA

Por tanto, podemos dar por cumplido el supuesto #5 en cuanto a la homocedastidad de los datos

 

Resultados 4
Resultados 4

Para finalizar…


Luego de todos los cálculos y ajustes realizados hasta aquí, nos quedamos con el modelo 2 como mejor ecuación para predecir el puntaje GPA:

 

GPA = 0,680 + 0,193*hsm + 0,001*satm  – 0,00007*satv

 

No obstante, no hay que olvidar que las variables predictores sólo explican el 19,4% de la varianza total en GPA

También es importante que notes que los coeficientes que acompañan a las variables satm y satv son muy cercanos a cero, razón por la cual si nos hubiésemos quedado con el modelo 1 no introduciría mayor diferencia

Por tanto, sería necesario hacer análisis ulteriores como un análisis de la varianza incluyendo otros factores que pudiesen influir en las puntuaciones GPA

¿Te ha gustado el análisis de regresión lineal múltiple?

Espero tus comentarios al final del artículo

 

Referencias


(1)  Campbell, P. F. and McCabe, G. P. (1984). Predicting the success of freshmen in a computer science major. Communications of the ACM, 27: 1108–1113. Disponible Aquí

 

 

Please follow and like us:

6 comentarios

    • Carlos Godoy Rodríguez

      Hola Efrain,

      Gracias por tu positivo comentario y por ser seguidor de lo que publicamos en Tesis de Cero a 100

      Esperamos verte pronto de nuevo por aquí

      Saludos Cordiales,

      Dr. Carlos Godoy Rodríguez, MSc.

    • Carlos Godoy Rodríguez

      Hola Cesar Augusto,

      Mil Gracias por darte una vuelta por Tesis de Cero a 100 y por tu auspicioso comentario

      M e complace que la información te haya sido de utilidad

      Saludos Cordiales,

      Dr. Carlos Godoy Rodríguez, MSc.

    • Carlos Godoy Rodríguez

      Hola Percy,

      Muchas Gracias por tu opinión acerca del artículo referido a la Regresión Lineal y por ser seguidor de Tesis de Cero a 100

      Me complace que te haya sido de utilidad

      Te comento también, que tenemos el canal de Youtube Tesis de Cero a 100 – TV al cual te puedes suscribir a través del link y donde encontraras varios vídeos que complementan los temas abordados en el blog

      Un fuerte abrazo,

      Dr. Carlos Godoy Rodríguez, MSc.

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Tesis de Cero a 100, El Diseño 🧐No vas a querer perderte este curso online!

Hola Doctor...

Suena bien, ¿no? Podrás obtener tu título de Doctor o Magister más rápido con nuestro curso  de cinco estrellas Tesis de Cero a 100, El Diseño. Aprende todo lo que el supervisor debería haberte enseñado sobre la planificación de una tesis de doctorado o maestría. Ahora a precios reducidos. Únete a cientos de otros estudiantes y conviértete en un mejor investigador.

Hola! ¿Te gustaría completar con éxito tu Tesis o Proyecto de Investigación? Clic AquíClose