Men煤 Cerrar

Regresi贸n lineal m煤ltiple + ejemplo completo con SPSS

Regresi贸n lineal m煤ltiple 0

驴Qu茅 es la regresi贸n lineal?


La regresi贸n lineal, podemos afirmar, 聽es el siguiente paso l贸gico despu茅s de la correlaci贸n.

Se utiliza cuando queremos predecir el valor de una variable en funci贸n del valor o valores de otras

La variable que queremos predecir se llama variable dependiente (o, a veces, variable de resultado o criterio)

La(s) 聽variable(s) que estamos usando para predecir el valor de la otra variable se llaman variables independientes (o, a veces, variables predictoras).

Sucede, por tanto, que hablaremos de regresi贸n lineal simple cuando exista s贸lo una variable predictora聽 (Y = aX + b)

y de regresi贸n lineal m煤ltiple cuando hay dos o m谩s variables predictoras (Y = a1X1 + a2X2 + 鈥 anXn)

Por ejemplo, puedes usar la regresi贸n lineal para comprender si el rendimiento en un 聽examen puede predecirse en funci贸n del tiempo de estudio,

si el consumo de cigarrillos puede predecirse en funci贸n de la duraci贸n del tabaquismo, etc.

En este art铆culo te muestro c贸mo llevar a cabo una regresi贸n lineal m煤ltiple utilizando el paquete estad铆stico para ciencias sociales SPSS, as铆 como tambi茅n a interpretar e informar los resultados de este an谩lisis

Sin embargo, antes de presentarte el procedimiento, debemos comprender los diferentes supuestos que deben cumplir tus datos para que la regresi贸n lineal聽 d茅 un resultado v谩lido.

Todo esto, como ya sospechar谩s,聽 es porque vamos a usar聽 m茅todos param茅tricos, muy quisquillosos ellos en cuanto a las condiciones previas que deben satisfacer nuestros datos聽聽馃槈

Vamos a por ello

 

Supuestos


Cuando eliges analizar tus datos mediante regresi贸n lineal, parte del proceso consiste en verificar que los datos realmente puedan analizarse mediante esta t茅cnica estad铆stica

Debes hacer esto porque s贸lo es apropiado usar la regresi贸n lineal si tus datos “pasan el filtro鈥 de seis supuestos necesarios para que la regresi贸n lineal te d茅 un resultado v谩lido.

En la pr谩ctica, la comprobaci贸n de estos seis supuestos s贸lo agrega un poco m谩s de tiempo a tu an谩lisis,

lo que requiere que hagas clic en algunos botones m谩s en SPSS,

as铆 como pensar un poco m谩s sobre tus datos, pero es No es una tarea dif铆cil

Antes de presentarte estas seis suposiciones, no se sorprendas si, al analizar tus propios datos con聽 SPSS, se viola una o m谩s de estas suposiciones (es decir, no se cumplen)

Esto no es raro cuando se trabaja con datos del mundo real en lugar de ejemplos sacados de libros de texto,

que a menudo s贸lo te muestran c贸mo llevar a cabo una regresi贸n lineal cuando todo es color de rosas

Sin embargo, no te preocupes.

Incluso cuando tus datos fallan ciertos supuestos, a menudo hay una soluci贸n para superar esto.

Primero, echemos un vistazo a esas seis premisas

 

#1. Tipos de variables

Tus 聽dos o m谩s variables (dependiente e independientes) deben medirse a nivel continuo (es decir, son variables de intervalo o de raz贸n).

Ejemplos de variables continuas incluyen el tiempo de estudio (medido en horas), la inteligencia (medida usando el coeficiente 聽IQ), rendimiento en un 聽examen (medido de 0 a 100), peso (medido en kgs), y as铆 por el estilo

Puedes obtener m谩s informaci贸n sobre las variables de intervalo y de raz贸n en nuestro art铆culo: tipos de variables

#2. Relaci贸n lineal

Debe haber una relaci贸n lineal entre la variable dependiente y las 聽independientes

Si bien hay varias formas de verificar este supuesto,

Te sugiero 聽crear un diagrama de dispersi贸n utilizando SPSS 聽donde puedas trazar la variable dependiente contra cada una de las 聽variables independientes,

y luego inspeccionar visualmente el diagrama para verificar la linealidad.

Tu 聽diagrama de dispersi贸n puede parecerse a uno de los siguientes:

Diagramas de dispersi贸n
Diagramas de dispersi贸n

 

Si la relaci贸n que se muestra en tu diagrama de dispersi贸n no es lineal, deber谩s ejecutar un an谩lisis de regresi贸n no lineal,

realizar una regresi贸n polin贸mica o “transformar” tus datos,

Todo eso lo puedes hacer con el mismo SPSS

#3. Presencia de valores at铆picos

No debe haber valores at铆picos influyentes en tu conjunto de datos

Un valor at铆pico (o, 聽outlier) es un punto de datos observado que tiene un valor en la 聽variable dependiente que es muy diferente al valor predicho por la ecuaci贸n de regresi贸n.

Como tal, un valor at铆pico ser谩 un punto en un diagrama de dispersi贸n que est谩 (verticalmente) lejos de la l铆nea de regresi贸n lo cual 聽indica que tiene un gran residuo, como se resalta a continuaci贸n:

El problema con los valores at铆picos es que pueden tener un efecto negativo en el an谩lisis de regresi贸n (por ejemplo, reducir la bondad de ajuste del modelo)

que se usa para predecir el valor de la variable dependiente (resultado) en funci贸n de las variables independiente (predictores).

Esto cambiar谩 el resultado que produce SPSS 聽y reducir谩 la precisi贸n predictiva de tu modelo.

 

Valores at铆picos
Valores at铆picos

#4. Independencia de las observaciones

Los datos que vas a procesar en tu an谩lisis deben ser independientes, vale decir, que hayan sido obtenidos a trav茅s de un muestreo aleatorio

Y esto lo puedes verificar f谩cilmente con el estad铆grafo de Durbin-Watson, que te proporciona SPSS

#5. Homocedasticidad

Tus datos deben mostrar homocedasticidad, que es cuando 聽las variaciones a lo largo de la l铆nea de mejor ajuste permanecen similares a medida que se avanza a trav茅s de ella.

La situaci贸n contraria聽 que es la heterocedasticidad (no deseable)聽 consiste en el hecho de que la varianza de los residuos, no se mantiene constante para todos los valores de las variables independientes

Dale 聽un vistazo a los dos diagramas de dispersi贸n a continuaci贸n, que proporcionan聽 ejemplos simples:

Homocedasticidad. Fuente de imagen: economipedia
Homocedasticidad. Fuente de imagen: economipedia

 

Uno de los conjuntos de datos que falla en el supuesto (presenta heterocedasticidad) y el otro 聽cumple con esta premisa (presenta homocedasticidad)

Si bien estos diagramas 聽ilustrar las diferencias en los datos que cumplen o violan el supuesto de homocedasticidad,

los datos del mundo real pueden ser mucho m谩s confusos y presentan 聽diferentes patrones de heterocedasticidad.

#6. Distribuci贸n normal de los residuos

Finalmente, debes verificar que los residuos (errores) de la l铆nea de regresi贸n est茅n distribuidos aproximadamente de manera normal

Dos m茅todos comunes para verificar esta suposici贸n incluyen el uso de un histograma (con una curva normal superpuesta) o un diagrama PP normal.

Puedes verificar los supuestos # 2, # 3, # 4, # 5 y # 6 usando SPSS

El supuesto #2聽 debe verificarse primero, antes de pasar a los dem谩s

Sugerimos probar los supuestos en este orden porque los supuestos聽 #3,聽 #4, # 5 y聽 #6 requieren que primero ejecutes el procedimiento de regresi贸n lineal en SPSS,

por lo que es m谩s f谩cil abordarlos despu茅s de verificar el supuesto聽 #2.

 

Regresi贸n lineal m煤ltiple: ejemplo con 5 predictores en dos pasos


Usaremos para demostrar los procedimientos estad铆sticos que hay que desarrollar, los datos del archivo college success.sav(1) el cual proporciona calificaciones de secundaria, puntajes SAT y promedio de calificaciones gpa de 224 estudiantes universitarios.

F铆jate en la聽 siguiente para entender c贸mo est谩n estructurados los datos

Regresi贸n lineal - data set
Regresi贸n lineal – data set

Variables:

  • id: ID del participante.
  • gpa – Promedio de calificaciones (GPA) despu茅s de tres semestres en la universidad.
  • hsm – Promedio de calificaciones de secundaria en matem谩ticas.
  • hss – Promedio de calificaci贸n de secundaria en ciencias.
  • hse – Promedio de calificaci贸n de la escuela secundaria en ingl茅s.
  • satm – puntaje SAT (prueba de admisi贸n a universidades norteamericanas) para matem谩ticas.
  • satv – puntaje SAT (prueba de admisi贸n a universidades norteamericanas) para habilidad verbal.
  • sexo 鈥 g茅nero (1 = hombre, 2 = mujer)

 

Espec铆ficamente, examinaremos qu茅 variables predicen mejor el GPA.

Para ello hacemos clic en Analizar > Regresi贸n > Lineales聽 tal y como se observa en la figura

 

Regresi贸n lineal m煤ltiple
Regresi贸n lineal m煤ltiple

 

Vamos a seguir un enfoque por bloques de variables

El primer bloque de variables est谩 conformado por GPA (variable dependiente) y hsm, hss y hse (variables independientes) como puedes observar en la figura siguiente

Esto quiere decir que ajustaremos un modelo que predice el promedio de calificaciones (GPA) seg煤n los promedios de notas en secundaria (hsm, hss y hse)

 

Regresi贸n lineal m煤ltiple 3
Regresi贸n lineal m煤ltiple 3

En el segundo bloque de variables, incorporaremos al modelo de predicci贸n de GPA las notas universitarias en matem谩tica y habilidad verbal (SATM, SATV) como puedes observar a continuacion

 

Regresi贸n lineal m煤ltiple 4
Regresi贸n lineal m煤ltiple 4

 

Luego, hacemos clic en el bot贸n Estad铆sticos鈥 lo que abre el cuadro de di谩logo correspondiente聽 donde marcamos las opciones indicadas

 

Regresi贸n lineal m煤ltiple 5
Regresi贸n lineal m煤ltiple 5

 

Luego hacemos clic en el bot贸n Gr谩ficos鈥聽聽 para abrir el cuadro de di谩logo de la figura, ah铆 marcamos las opciones indicadas

 

Regresi贸n lineal m煤ltiple 6
Regresi贸n lineal m煤ltiple 6

 

Finalmente, el mismo software SPSS se encargar谩 de se帽alarnos聽 cu谩les combinaciones de variables independientes predicen mejor a la variable dependiente GPA

Estad铆sticos descriptivos

Antes de realizar el an谩lisis, es bueno producir algunas estad铆sticas descriptivas.

Estad铆sticos descriptivos
Estad铆sticos descriptivos

Matriz de correlaciones

Los an谩lisis exploratorios de correlaci贸n revelan que todas las variables est谩n positivamente correlacionadas.

Correlaciones
Correlaciones

 

Diagramas de dispersi贸n conjuntos
Diagramas de dispersi贸n conjuntos

 

La variable dependiente GPA tiene un ligero sesgo negativo.

Esto nos dice que debemos examinar la distribuci贸n de los residuos con cuidado.

Las variables independientes muestran un alto sesgo, especialmente las tres calificaciones de secundaria (hsm, hss, hse)

Las correlaciones entre todos los predictores sugieren que debemos tener en cuenta la multicolinealidad.

 

Regresi贸n lineal m煤ltiple con 5 variables predictoras en dos bloques (hsm, hss, hse, satm y satv)

Una vez que hacemos clic en el bot贸n Aceptar de la fig. 4, el software SPSS realiza los c谩lculos correspondiente y arroja los siguientes resultados

Identifica 2 modelos: el聽 modelo 1聽 utilizando s贸lo la variable hsm como predictor de GPA

El modelo 2, incluye adem谩s a las calificaciones universitarias, satm y satv, como predictoras junto con hsm de GPA

El modelo 2 explica el 19,4% de la varianza en el GPA.

Este porcentaje de varianza explicada por las variables predictoras en la variable criterio es francamente bajo

Lo ideal ser铆a que fuese superior al 60%, pero no olvidemos que estamos trabajado con datos reales provenientes de un trabajo de investigaci贸n de campo(1)

El coeficiente de Durbin-Watson tiene un valor aceptable, suficientemente cercano a 2, por lo que damos por satisfecho el supuesto #4 de independencia de las observaciones

 

Resultados 1
Resultados 1

La varianza explicada del modelo es estad铆sticamente significativa: podemos rechazar la hip贸tesis nula聽 que incluye s贸lo una gran media.

Resultados 2
Resultados 2

De las tres calificaciones de secundaria, s贸lo hsm es un predictor significativo de GPA.

Las estad铆grafos 聽de VIF sugieren que no hay ning煤n problema con la multicolinealidad (puntajes de VIF <2).

 

Residuales versus valores pronosticados

Los residuos no parecen tener una relaci贸n problem谩tica con las variables predictoras o con los valores pronosticados.

La 聽gr谩fica P-P muestra que los residuos aunque est谩n ligeramente sesgados, se distribuyen aproximadamente聽 como una distribuci贸n normal

Se verifica, en consecuencia, razonablemente bien el supuesto #6

Esto sugiere adem谩s que el modelo est谩 bien 聽especificado.

 

Resultados 3
Resultados 3

 

A partir del examen de gr谩fico de dispersi贸n de la fig. 10, se comprueba que no hay ninguna relaci贸n sistem谩tica entre los residuos tipificados y los valores pronosticados tipificados de GPA

Por tanto, podemos dar por cumplido el supuesto #5 en cuanto a la homocedastidad de los datos

 

Resultados 4
Resultados 4

Para finalizar鈥


Luego de todos los c谩lculos y ajustes realizados hasta aqu铆, nos quedamos con el modelo 2 como mejor ecuaci贸n para predecir el puntaje GPA:

 

GPA = 0,680 + 0,193*hsm + 0,001*satm聽 – 0,00007*satv

 

No obstante, no hay que olvidar que las variables predictores s贸lo explican el 19,4% de la varianza total en GPA

Tambi茅n es importante que notes que los coeficientes que acompa帽an a las variables satm y satv son muy cercanos a cero, raz贸n por la cual si nos hubi茅semos quedado con el modelo 1 no introducir铆a mayor diferencia

Por tanto, ser铆a necesario hacer an谩lisis ulteriores como un an谩lisis de la varianza incluyendo otros factores que pudiesen influir en las puntuaciones GPA

驴Te ha gustado el an谩lisis de regresi贸n lineal m煤ltiple?

Espero tus comentarios al final del art铆culo

 

Referencias


(1)聽 Campbell, P. F. and McCabe, G. P. (1984). Predicting the success of freshmen in a computer science major. Communications of the ACM, 27: 1108鈥1113. Disponible Aqu铆

 

 

Please follow and like us:

Deja un comentario

Tu direcci贸n de correo electr贸nico no ser谩 publicada. Los campos obligatorios est谩n marcados con *

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si contin煤a navegando est谩 dando su consentimiento para la aceptaci贸n de las mencionadas cookies y la aceptaci贸n de nuestra pol铆tica de cookies, pinche el enlace para mayor informaci贸n.plugin cookies

ACEPTAR
Aviso de cookies