Menú Cerrar

Análisis exploratorio de datos: ¿conoces bien a tu muestra?

Análisis exploratorio de datos

¿Qué es el análisis exploratorio de datos (AED)?

 

El análisis exploratorio de datos  es el primer paso en el proceso de análisis de resultados de tu tesis

A través de él, le encuentras  sentido a los datos que recogiste, determinas cómo manipularlos, adecuarlos e interrogarlos para obtener las respuestas que necesitas

Para ello, analizas patrones, tendencias, valores atípicos, resultados inesperados, etc.,

utilizando métodos visuales y estadísticos  para tener una idea de la historia que cuentan

Estás buscando pistas que sugieran tus próximos pasos, preguntas o cursos de investigación posibles

Este paso no debe confundirse con la visualización de datos o con  obtener estadísticos de resumen.

Esas son meramente herramientas… medios para un fin.

El análisis exploratorio de datos  trata de responder preguntas.

Se trata de extraer suficientes puntos de vista acerca de un  conjunto de datos para corregir el curso antes de perdernos en la maleza.

 

¿Para qué sirve el análisis exploratorio de datos?

Desarrollado por John Tukey en la década de 1970, el análisis exploratorio a menudo se describe como una filosofía, y no hay reglas estrictas para su enfoque.

Dicho esto, también ha dado  lugar a toda una familia de software estadístico utilizados para abordar tareas específicas como:

  • Detectar errores y datos faltantes;
  • Mapeo de la estructura subyacente de los datos;
  • Identificación de las variables más importantes;
  • Listado de anomalías y valores atípicos;
  • Probar una hipótesis / verificar suposiciones relacionadas con un modelo específico;
  • Establecimiento de un modelo parsimonioso (uno que puede usarse para explicar relaciones entre los datos utilizando un número mínimo de variables predictores);
  • Estimación de parámetros y determinación de los intervalos de confianza asociados

 

¿Por qué explorar tu conjunto de datos por adelantado?

El propósito del análisis exploratorio de datos  es  “conocer” la muestra que tienes entre manos

Hacerlo por adelantado hará que el resto del proyecto transcurra sin sobresaltos, en 3 formas principales: rápido, eficiente y con seguridad

Sin embargo, ¡no debería ser muy largo y extenso!

No te saltes este paso, pero tampoco te atasques en él.

Como pronto verás, hay infinitas gráficas y tablas posibles, pero sólo necesitas unas pocas para “conocer” tus  datos, lo suficientemente bien, como para trabajar con ellos.

En este artículo, te mostraré las visualizaciones que proporcionan el mayor beneficio para el éxito de tu proyecto de tesis

 

Comienza con las preguntas más básicas

Primero, querrás responder a un conjunto de preguntas básicas sobre tu muestra:

¿Cuántas observaciones tengo?

¿Cuántas variables?

¿Cuáles son los tipos de datos asociados con mis variables?

¿Son numéricos? ¿Categóricos?

¿Tengo una variable objetivo?

Un Ejemplo práctico

Luego, querrás  mostrar observaciones pertenecientes a determinado  conjunto de datos.

Esto te dará una idea de los valores de cada variable  y es una buena forma de comprobar si todo tiene sentido.

 

Análisis exploratorio de datos - muestra
Análisis exploratorio de datos – muestra

 

El propósito de mostrar un conjunto de datos de ejemplo  no es realizar un análisis exploratorio de datos  riguroso.

Al contrario, es para obtener una visión panorámica  acerca del comportamiento en general  de los datos.

¿Las variables (las columnas) en nuestra muestra de datos tienen sentido?

¿Los valores que toman estas variables tienen sentido?

¿Están los valores  en la escala correcta?

¿Los datos faltantes (perdidos) aparentan convertirse en un problema a futuro, luego de una primera inspección visual de la muestra?

 

Variables numéricas o métricas

A continuación, puede ser muy esclarecedor graficar  las distribuciones de todas las variables métricas en la matriz de datos.

A menudo, con generar los respectivos histogramas  es suficiente para comprender estas  distribuciones

Sin embargo, hay algunas cosas que debes tener en cuenta:

  • Distribuciones que no te esperabas.
  • Posibles valores atípicos que no tienen sentido
  • Variables que deberían ser binarias y que, no obstante, incluyen otros valores
  • Límites que no tienen sentido
  • Errores potenciales de medición

En este punto, deberías  comenzar a tomar notas sobre las posibles correcciones que te gustaría realizar.

Si algo se ve fuera de lugar, como un posible valor atípico en una de tus variables,

este sería un buen momento para preguntarle a tu asesor o tutor de tesis o para profundizar un poco más.

 

Análisis exploratorio de datos - Histograma
Análisis exploratorio de datos – Histograma

Variables  categóricas

Las variables categóricas no se pueden visualizar a través de los histogramas.

En su lugar, puedes utilizar  gráficos de barras

En particular, querrás buscar  categorías  dispersas, que son aquellas  que tienen un número muy pequeño de observaciones.

Por ejemplo, el siguiente gráfico de barras muestra la distribución de la variable  nivel educativo

En este caso, los niveles “13,5” y “20,0”  son consideradas categorías dispersas para esta variable

 

Gráfico de barras
Gráfico de barras

 

De todos modos, volviendo a las categorías  dispersas… como puedes ver, algunas de ellas  para  la variable nivel educativo,  tienen barras muy cortas.

Todas ellas son categorías dispersas

Tienden a ser problemáticas a la hora de construir modelos.

En el mejor de los casos, no influyen mucho en el mismo.

En el peor de los casos, pueden hacer que el modelo se adapte.

Por lo tanto, recomendamos hacer una nota recordatorio  para  combinar o  reasignar  algunas de estas categorías dispersas  más adelante.

 

Segmentación de los datos

Las segmentaciones (o agrupamiento) son formas poderosas de observar la relación entre las variables categóricas y  numéricas.

Los diagramas de caja  te permiten hacerlo.

Aquí hay algunas ideas que puedes deducir  del siguiente gráfico.

La mediana del salario actual  (barra horizontal a mitad  de la caja) para los directivos  era mucho mayor que la del personal administrativo

Los salarios actuales del personal administrativo y de seguridad son comparables, salvo pocas excepciones,  entre las dos categorías

De hecho, la mediana de ambos salarios se encuentra alrededor de $30.000

 

Diagrama de caja y bigotes
Diagrama de caja y bigotes

 

Correlaciones entre los datos

Finalmente, las correlaciones te permiten ver las relaciones entre las variables numéricas

La correlación es un valor entre -1 y 1 que representa qué tan cerca se mueven dos variables numéricas  al unísono.

No necesitas recordar las fórmulas matemáticas para calcularlas.

Sólo tienes que tener en mente lo siguiente:

Una correlación positiva significa que a medida que una variable  aumenta, la otra también aumenta.

Ej. La edad de un niño y su altura.

Una correlación negativa significa que a medida que una variable aumenta, la otra disminuye.

Ej. Horas dedicadas al estudio y número de fiestas a las que asistió

Las correlaciones cercanas a -1 o 1 indican una relación fuerte entre ambas variables.

Aquellas más cercanas a 0 indican una relación débil.

0 indica que no hay relación.

Las tablas de correlaciones bivariadas  te  ayudan a visualizar esta información.

Aquí hay un ejemplo:

 

 Correlaciones
Correlaciones

 

En general, debes fijarte en:

¿Qué variables están fuertemente correlacionadas con la variable objetivo o variable dependiente?

¿Hay correlaciones fuertes interesantes o inesperadas entre otras variables?

Una vez más, tu objetivo es obtener una visión panorámica general sobre el conjunto de  datos, lo que te ayudará a lo largo del resto del flujo de trabajo.

 

¿Qué otros aspectos deberías comprobar?

Muchos procedimientos estadísticos exigen una serie de requisitos según de cual se trate, pero en términos sencillos, los podemos resumir así:

  • Homogeneidad
  • Independencia
  • Normalidad

 

Homogeneidad

En cuanto a la homogeneidad de los datos, es conveniente chequear la presencia de valores que sean exageradamente altos o bajos, en nuestra muestra

Este tipo de valores reciben el nombre de datos influyentes (outliers, en inglés)

Tales datos pueden sesgar las conclusiones de un estudio, por tanto, debemos mirarlos con lupa

La manera más fácil de detectar datos no homogéneos es a través del uso del gráfico de caja y bigotes, que ya utilizamos anteriormente

Por ejemplo, en el caso de la variable salario actual, los datos marcados con * (29, 218 y 272) son considerados datos atípicos (dale un vistazo al gráfico de caja y bigotes de arriba)

Independencia

Por otra parte, los datos que componen una muestra deben haber sido extraídos aleatoriamente

La mayoría de paquetes estadísticos que mencionaremos a continuación, proporcionan test que sirven para comprobar la independencia de los datos

Algunos de ellos son:  Test de los signos, test de autocorrelación de Durbin-Watson y gráficas de autocorrelación

Normalidad

Algo que no puedes olvidar es comprobar que tus datos se distribuyen normalmente, cuando el procedimiento estadísticos que vayas a utilizar así lo exija (pruebas paramétricas)

Aquí tienes un ejemplo,

 

Gráfico Q-Q de normalidad
Gráfico Q-Q de normalidad

 

Como es fácil detectar a través de una inspección visual del gráfico anterior, los valores observados de salario actual, no se “pegan” a la línea recta en diagonal

Por tanto, deberíamos sospechar que la distribución de los datos muestrales para la variable salario actual se separa evidentemente de la normalidad

Esta sospecha la podemos comprobar a nivel analítico con los test de Kolgomorov-Smirnov y Shapiro-Wilk

 

Pruebas de normalidad
Pruebas de normalidad

 

En ambos casos, los p-valor resultaron ser menores a 0,05, lo que corrobora la no normalidad de los datos

Herramientas y técnicas para hacer  análisis exploratorio de datos

Entre los paquetes estadísticos  más importantes que se utilizan para realizar el análisis exploratorio de datos  se encuentran SPSS, SAS, Minitab y R.

Las funciones y técnicas estadísticas específicas que pueden llevarse a cabo  con estas herramientas incluyen:

  • Técnicas de agrupación y reducción de dimensiones, que te ayudan a crear gráficos multidimensionales que contienen muchas variables;
  • Visualización univariable de cada campo en el conjunto de datos sin procesar, con estadísticas de resumen;
  • Visualizaciones bivariadas y estadísticas de resumen que te permiten evaluar la relación entre cada variable en el conjunto de datos y la variable objetivo;
  • Visualizaciones multivariadas, para mapear y comprender las interacciones entre diferentes campos en los datos;
  • K-Means Clustering (creación de “centros” para cada cluster, basado en la media más cercana);
  • Modelos predictivos, p. Ej. Regresión lineal.

 

Cómo encaja el análisis exploratorio de datos en tu proyecto de tesis

Los usos potenciales del análisis exploratorio de datos  son de gran alcance, pero en última instancia, se reduce a lo siguiente:

  • El análisis exploratorio de datos consiste en conocer y comprender tus datos antes de hacer suposiciones al respecto.
  • Te ayuda a evitar la creación accidental de modelos imprecisos o la creación de modelos que, aún con precisión aceptable, están basados ​​en datos incorrectos.

Hazlo  bien, y obtendrás  la confianza necesaria en tus datos como para comenzar a analizarlos y transformarlos de datos a información y finalmente a conocimiento, fin último de cualquier  investigación

Al contrario, si ignoras este paso crucial verás cómo las conclusiones de tu tesis  se basaran  en cimientos inestables.

Puede que te interese también, darle un vistazo a estos artículos:

Guía básica para Análisis Estadístico de datos

Tutorial de SPSS de la Universitat de Barcelona

 

En formato Vídeo

Dale un vistazo al siguiente vídeo si te adaptas mejor a lo visual

 

 

En resumen…

Al final de éste breve repaso acerca del análisis exploratorio de datos,

  • Comprenderás bastante bien a tu muestra
  • Habrás tomado algunas notas para hacer la limpieza de los datos, posteriormente
  • Tendrás una idea clara acerca de la naturaleza de las variables involucradas
  • ¿Qué tipos de variables pueden tener categorías dispersas?
  • ¿Cómo las verificarías?

¿Qué significa si el salario actual tiene una correlación de 0,78 y 0,66  con  categoría laboral y nivel de estudios, respectivamente?

¿Cuáles son los 3 controles adicionales  que se deben realizarse a  los valores de salario actual?

Please follow and like us:

Deja una respuesta

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Tesis de Cero a 100, El Diseño 🧐No vas a querer perderte este curso online!

Hola Doctor...

Suena bien, ¿no? Podrás obtener tu título de Doctor o Magister más rápido con nuestro curso  de cinco estrellas Tesis de Cero a 100, El Diseño. Aprende todo lo que el supervisor debería haberte enseñado sobre la planificación de una tesis de doctorado o maestría. Ahora a precios reducidos. Únete a cientos de otros estudiantes y conviértete en un mejor investigador.

Hola! ¿Te gustaría completar con éxito tu Tesis o Proyecto de Investigación? Clic AquíClose