En la vida real, a diferencia de la investigación de laboratorio, es probable que descubras que tus datos se ven afectados por muchas cosas además de la variable que deseas probar.
Existen correlaciones entre elementos que nunca has considerado y el mundo es más complejo de lo que parece
El propósito del análisis multivariante o multivariado es hacer más sencillas las relaciones entre variables, mediante la creación de modelos abstractos que representen adecuadamente a la realidad
¿Cómo podemos simplificar el análisis de datos reales?
Hay cuatro formas de simplificar el análisis
- A través del diseño de la investigación
- Utilizar sub muestras
- Usar controles estadísticos
- Análisis multivariante
Hablemos a continuación de las tres primeras, para luego concentrarnos en la cuarta que es el propósito principal del artículo
#1. El Diseño de la investigación
Puedes diseñar tu investigación para que los factores causales sean independientes entre sí.
Por ejemplo, si crees que puede haber un vínculo entre la edad y el salario, tomar una muestra aleatoria de empleados correrá el riesgo de combinar los efectos de ambos.
Sin embargo, si divides la población en grupos por edad y luego seleccionas muestras al azar de igual tamaño en cada grupo, habrás hecho que la edad y el salario sean independientes.
#2. Uso de sub muestras
Aquí, seleccionas la muestra para que no esté influenciada por cualquier factor de confusión potencial.
Por ejemplo, el tipo de trabajo puede afectar el salario, por lo que si deseas estudiar los efectos de otro factor sobre el salario, puedes seleccionar sólo a personas que hagan el mismo tipo de trabajo.
#3. Uso de controles estadísticos
Si sospecha que tres variables pueden estar relacionadas, puedes controlar una para probar las correlaciones entre las otras dos.
Efectivamente, fija el valor de la variable control para que sea constante y prueba si todavía existe una relación entre las otras dos variables.
Pudieras encontrar que la relación observada permanece alta (es real) o se reduce considerablemente (probablemente no haya una correlación verdadera).
Hay un tercer caso: donde no hay relación hasta que controlas la tercera variable, lo que significa que la variable de control está enmascarando la relación entre las otras dos.
Análisis Multivariante
El análisis multivariante incluye muchos métodos estadísticos que están diseñados para permitirte incluir múltiples variables y examinar la contribución de cada una.
Los factores que incluyas en tu análisis multivariante seguirán dependiendo de lo que desees estudiar.
Algunas investigaciones querrán ver la contribución de ciertos factores y otras buscarán controlar esos factores para que no contaminen los resultados.
Dos tipos de variables
En el análisis multivariado, lo primero que hay que decidir es el papel que jugarán las variables.
Hay dos posibilidades:
- La variable causa un efecto: variable predictora
- La variable se ve afectada: variable dependiente
Las relaciones entre variables suelen estar representadas por una imagen como la de abajo:
También puedes observar variables directamente o inferirlas a partir de lo que está sucediendo.
Las primeras son las variables observadas
Las segundas se conocen como variables latentes.
Variables observadas versus variables latentes
Siempre que estés investigando, es probable que haya diferentes tipos de datos involucrados.
Por ejemplo, aquí hay tanto datos objetivos (éxito académico, duración media de una amistad) como datos subjetivos (esfuerzo percibido).
El tipo de datos que elijas tendrá un efecto en la calidad de tu investigación y también en las conclusiones que puedas sacar.
Hay más información sobre esto en nuestro artículo sobre Tipos de Variables
La idea detrás del análisis multivariante es que existen correlaciones entre las variables observadas y latentes
Se supone que estas correlaciones son causadas por factores comunes.
Cuanto mayor sea la influencia de los factores comunes (la carga factorial), mayores serán las correlaciones entre las variables observadas y las latentes
Por lo tanto, debes medir estas correlaciones para evaluar la confiabilidad, lo que puedes hacer de varias maneras.
Uno de las más comunes es utilizar el conocido Alfa de Cronbach (que la mayoría de los paquetes de software estadístico calcularán por ti).
Esto evalúa si la variable observada mide realmente la variable latente de interés, es decir, si la variable observada es indicador confiable para la variable latente.
El Alfa de Cronbach se utiliza para medir las correlaciones entre variables.
Un valor de 0,70 o más da un buen nivel de fiabilidad al modelo.
Análisis Multivariante ejemplo
Revisemos el siguiente caso: es difícil medir el éxito en la escuela, es una variable latente.
Podrías decidir que consiste en el éxito académico, junto con alguna medida de éxito social, digamos que el tamaño del grupo de amigos del estudiante
Estas son tus variables observadas.
El modelo de medición examina la relación entre esas variables observadas y la variable latente éxito académico
Análisis Multivariante y el concepto de medida
Existe una variedad de métodos de análisis para modelos de medición como este.
Incluyen Análisis Factorial Confirmatorio y Análisis Factorial Exploratorio, y generalmente se llevan a cabo por computadora.
Los detalles de cómo llevar a cabo cada uno los puedes consultar en el siguiente post, Análisis Factorial
Pero la idea básica es que miden cuánto de la variación observada en el constructo teórico es causada por cada factor.
Modelos Causales
Los modelos causales analizan la forma en que las variables se relacionan entre sí.
Si bien no es posible probar la causalidad más allá de toda duda, los modelos causales te permiten decir si la relación sugerida se ajusta a los datos y qué tan bien.
La fortaleza o debilidad de cualquier modelo causal está en la selección de las variables.
Si no se toma en cuenta un factor causal importante, las conclusiones serán limitadas o incorrectas.
Por lo tanto, vale la pena tomarse el tiempo para definir el modelo con el mayor cuidado posible.
Hay que encontrar un equilibrio entre la simplicidad y la inclusión de más variables para obtener un mejor ajuste.
Obviamente, no querrás perderte una variable causal importante, e incluir más variables siempre dará un mejor ajuste.
Pero debes considerar si la complejidad adicional vale la pena por la ganancia en calidad del modelo.
¿Cómo abordar los modelos causales?
Los métodos de análisis adecuados para los modelos causales son los llamados Modelos Lineales Generalizados
Incluyen análisis de regresión logística, análisis de regresión múltiple, análisis multivariado de covarianza (MANCOVA) y análisis multivariado de varianza (MANOVA).
Dale un vistazo a Guía Básica para entender el Análisis de la Varianza (ANOVA) para un mejor entendimiento de estos conceptos
Todos estos métodos te dicen cuánta variación en las variables dependientes es causada por los predictores y, por lo tanto, si tu modelo es bueno.
Nuevamente, existen softwares como SPSS que pueden realizar estos análisis por ti, pero asegúrate de comprender lo que hacen y de interpretar los resultados correctamente.
Por otra parte, el Modelado de Ecuaciones Estructurales (SEM) reúne modelos de medición y modelos causales.
Es una técnica de modelado por computadora que ajusta una ecuación estructural a una situación dada
Esta técnica es complicada, pero en esencia compara posibles modelos e identifica el que mejor se ajusta a los datos.
Aquí tienes una clasificación de los diferentes tipos de Análisis Multivariantes con los que te puedes topar:
Para finalizar…
El mundo es un lugar complejo y, a veces, la única forma de comprender lo que está sucediendo es utilizar técnicas estadísticas avanzadas para modelar la realidad
Sin embargo, estas también son complejas y no debes embarcarte en ellas sin entender los conceptos básicos.
Si no lo haces, es una buena idea consultar a alguien que sí lo haga, generalmente un estadístico.
Incluso si has utilizado la técnica antes, sigue siendo una buena idea conseguir que un estadístico eche un vistazo a lo que planeas hacer y verifique tus resultados después en caso de errores evidentes.
Un análisis deficiente afectará una buena investigación muy rápidamente.
Realmente una síntesis muy completa, me ha permitido tener un visión total del uso del análisis multivariable.
Buenas Tardes Eliseo,
Gracias por darte una vuelta por Tesis de Cero a 100
Me complace que el artículo que publicamos sobre Análisis Multivariante te haya sido de utilidad
Mantente atento a los próximos post que iremos agregando
Saludos Cordiales,
Dr. Carlos Godoy Rodríguez, MSc.