¿Qué es el análisis exploratorio de datos (AED)?

El análisis exploratorio de datos es el primer paso en el proceso de análisis de resultados de tu tesis

A través de él, le encuentras sentido a los datos que recogiste, determinas cómo manipularlos, adecuarlos e interrogarlos para obtener las respuestas que necesitas

Para ello, analizas patrones, tendencias, valores atípicos, resultados inesperados, etc.,

utilizando métodos visuales y estadísticos para tener una idea de la historia que cuentan

Estás buscando pistas que sugieran tus próximos pasos, preguntas o cursos de investigación posibles

Este paso no debe confundirse con la visualización de datos o con obtener estadísticos de resumen.

Esas son meramente herramientas… medios para un fin.

El análisis exploratorio de datos trata de responder preguntas.

Se trata de extraer suficientes puntos de vista acerca de un conjunto de datos para corregir el curso antes de perdernos en la maleza.

¿Para qué sirve el análisis exploratorio de datos?

Desarrollado por John Tukey en la década de 1970, el análisis exploratorio a menudo se describe como una filosofía, y no hay reglas estrictas para su enfoque.

Dicho esto, también ha dado lugar a toda una familia de software estadístico utilizados para abordar tareas específicas como:

Detectar errores y datos faltantes;
Mapeo de la estructura subyacente de los datos;
Identificación de las variables más importantes;
Listado de anomalías y valores atípicos;
Probar una hipótesis / verificar suposiciones relacionadas con un modelo específico;
Establecimiento de un modelo parsimonioso (uno que puede usarse para explicar relaciones entre los datos utilizando un número mínimo de variables predictores);
Estimación de parámetros y determinación de los intervalos de confianza asociados

¿Por qué explorar tu conjunto de datos por adelantado?

El propósito del análisis exploratorio de datos es “conocer” la muestra que tienes entre manos

Hacerlo por adelantado hará que el resto del proyecto transcurra sin sobresaltos, en 3 formas principales: rápido, eficiente y con seguridad

Sin embargo, ¡no debería ser muy largo y extenso!

No te saltes este paso, pero tampoco te atasques en él.

Como pronto verás, hay infinitas gráficas y tablas posibles, pero sólo necesitas unas pocas para “conocer” tus datos, lo suficientemente bien, como para trabajar con ellos.

En este artículo, te mostraré las visualizaciones que proporcionan el mayor beneficio para el éxito de tu proyecto de tesis

Comienza con las preguntas más básicas

Primero, querrás responder a un conjunto de preguntas básicas sobre tu muestra:

¿Cuántas observaciones tengo?

¿Cuántas variables?

¿Cuáles son los tipos de datos asociados con mis variables?

¿Son numéricos? ¿Categóricos?

¿Tengo una variable objetivo?

Un Ejemplo práctico

Luego, querrás mostrar observaciones pertenecientes a determinado conjunto de datos.

Esto te dará una idea de los valores de cada variable y es una buena forma de comprobar si todo tiene sentido.

Análisis exploratorio de datos - muestra — Análisis exploratorio de datos – muestra

El propósito de mostrar un conjunto de datos de ejemplo no es realizar un análisis exploratorio de datos riguroso.

Al contrario, es para obtener una visión panorámica acerca del comportamiento en general de los datos.

¿Las variables (las columnas) en nuestra muestra de datos tienen sentido?

¿Los valores que toman estas variables tienen sentido?

¿Están los valores en la escala correcta?

¿Los datos faltantes (perdidos) aparentan convertirse en un problema a futuro, luego de una primera inspección visual de la muestra?

Variables numéricas o métricas

A continuación, puede ser muy esclarecedor graficar las distribuciones de todas las variables métricas en la matriz de datos.

A menudo, con generar los respectivos histogramas es suficiente para comprender estas distribuciones

Sin embargo, hay algunas cosas que debes tener en cuenta:

Distribuciones que no te esperabas.
Posibles valores atípicos que no tienen sentido
Variables que deberían ser binarias y que, no obstante, incluyen otros valores
Límites que no tienen sentido
Errores potenciales de medición

En este punto, deberías comenzar a tomar notas sobre las posibles correcciones que te gustaría realizar.

Si algo se ve fuera de lugar, como un posible valor atípico en una de tus variables,

este sería un buen momento para preguntarle a tu asesor o tutor de tesis o para profundizar un poco más.

Análisis exploratorio de datos - Histograma — Análisis exploratorio de datos – Histograma

Variables categóricas

Las variables categóricas no se pueden visualizar a través de los histogramas.

En su lugar, puedes utilizar gráficos de barras

En particular, querrás buscar categorías dispersas, que son aquellas que tienen un número muy pequeño de observaciones.

Por ejemplo, el siguiente gráfico de barras muestra la distribución de la variable nivel educativo

En este caso, los niveles “13,5” y “20,0” son consideradas categorías dispersas para esta variable

De todos modos, volviendo a las categorías dispersas… como puedes ver, algunas de ellas para la variable nivel educativo, tienen barras muy cortas.

Todas ellas son categorías dispersas

Tienden a ser problemáticas a la hora de construir modelos.

En el mejor de los casos, no influyen mucho en el mismo.

En el peor de los casos, pueden hacer que el modelo se adapte.

Por lo tanto, recomendamos hacer una nota recordatorio para combinar o reasignar algunas de estas categorías dispersas más adelante.

Segmentación de los datos

Las segmentaciones (o agrupamiento) son formas poderosas de observar la relación entre las variables categóricas y numéricas.

Los diagramas de caja te permiten hacerlo.

Aquí hay algunas ideas que puedes deducir del siguiente gráfico.

La mediana del salario actual (barra horizontal a mitad de la caja) para los directivos era mucho mayor que la del personal administrativo

Los salarios actuales del personal administrativo y de seguridad son comparables, salvo pocas excepciones, entre las dos categorías

De hecho, la mediana de ambos salarios se encuentra alrededor de $30.000

Correlaciones entre los datos

Finalmente, las correlaciones te permiten ver las relaciones entre las variables numéricas

La correlación es un valor entre -1 y 1 que representa qué tan cerca se mueven dos variables numéricas al unísono.

No necesitas recordar las fórmulas matemáticas para calcularlas.

Sólo tienes que tener en mente lo siguiente:

Una correlación positiva significa que a medida que una variable aumenta, la otra también aumenta.

Ej. La edad de un niño y su altura.

Una correlación negativa significa que a medida que una variable aumenta, la otra disminuye.

Ej. Horas dedicadas al estudio y número de fiestas a las que asistió

Las correlaciones cercanas a -1 o 1 indican una relación fuerte entre ambas variables.

Aquellas más cercanas a 0 indican una relación débil.

0 indica que no hay relación.

Las tablas de correlaciones bivariadas te ayudan a visualizar esta información.

Aquí hay un ejemplo:

En general, debes fijarte en:

¿Qué variables están fuertemente correlacionadas con la variable objetivo o variable dependiente?

¿Hay correlaciones fuertes interesantes o inesperadas entre otras variables?

Una vez más, tu objetivo es obtener una visión panorámica general sobre el conjunto de datos, lo que te ayudará a lo largo del resto del flujo de trabajo.

¿Qué otros aspectos deberías comprobar?

Muchos procedimientos estadísticos exigen una serie de requisitos según de cual se trate, pero en términos sencillos, los podemos resumir así:

Homogeneidad
Independencia
Normalidad

Homogeneidad

En cuanto a la homogeneidad de los datos, es conveniente chequear la presencia de valores que sean exageradamente altos o bajos, en nuestra muestra

Este tipo de valores reciben el nombre de datos influyentes (outliers, en inglés)

Tales datos pueden sesgar las conclusiones de un estudio, por tanto, debemos mirarlos con lupa

La manera más fácil de detectar datos no homogéneos es a través del uso del gráfico de caja y bigotes, que ya utilizamos anteriormente

Por ejemplo, en el caso de la variable salario actual, los datos marcados con * (29, 218 y 272) son considerados datos atípicos (dale un vistazo al gráfico de caja y bigotes de arriba)

Independencia

Por otra parte, los datos que componen una muestra deben haber sido extraídos aleatoriamente

La mayoría de paquetes estadísticos que mencionaremos a continuación, proporcionan test que sirven para comprobar la independencia de los datos

Algunos de ellos son: Test de los signos, test de autocorrelación de Durbin-Watson y gráficas de autocorrelación

Normalidad

Algo que no puedes olvidar es comprobar que tus datos se distribuyen normalmente, cuando el procedimiento estadísticos que vayas a utilizar así lo exija (pruebas paramétricas)

Aquí tienes un ejemplo,

Como es fácil detectar a través de una inspección visual del gráfico anterior, los valores observados de salario actual, no se “pegan” a la línea recta en diagonal

Por tanto, deberíamos sospechar que la distribución de los datos muestrales para la variable salario actual se separa evidentemente de la normalidad

Esta sospecha la podemos comprobar a nivel analítico con los test de Kolgomorov-Smirnov y Shapiro-Wilk

En ambos casos, los p-valor resultaron ser menores a 0,05, lo que corrobora la no normalidad de los datos

Herramientas y técnicas para hacer análisis exploratorio de datos

Entre los paquetes estadísticos más importantes que se utilizan para realizar el análisis exploratorio de datos se encuentran SPSS, SAS, Minitab y R.

Las funciones y técnicas estadísticas específicas que pueden llevarse a cabo con estas herramientas incluyen:

Técnicas de agrupación y reducción de dimensiones, que te ayudan a crear gráficos multidimensionales que contienen muchas variables;
Visualización univariable de cada campo en el conjunto de datos sin procesar, con estadísticas de resumen;
Visualizaciones bivariadas y estadísticas de resumen que te permiten evaluar la relación entre cada variable en el conjunto de datos y la variable objetivo;
Visualizaciones multivariadas, para mapear y comprender las interacciones entre diferentes campos en los datos;
K-Means Clustering (creación de “centros” para cada cluster, basado en la media más cercana);
Modelos predictivos, p. Ej. Regresión lineal.

Cómo encaja el análisis exploratorio de datos en tu proyecto de tesis

Los usos potenciales del análisis exploratorio de datos son de gran alcance, pero en última instancia, se reduce a lo siguiente:

El análisis exploratorio de datos consiste en conocer y comprender tus datos antes de hacer suposiciones al respecto.
Te ayuda a evitar la creación accidental de modelos imprecisos o la creación de modelos que, aún con precisión aceptable, están basados en datos incorrectos.

Hazlo bien, y obtendrás la confianza necesaria en tus datos como para comenzar a analizarlos y transformarlos de datos a información y finalmente a conocimiento, fin último de cualquier investigación

Al contrario, si ignoras este paso crucial verás cómo las conclusiones de tu tesis se basaran en cimientos inestables.

Puede que te interese también, darle un vistazo a estos artículos:

Guía básica para Análisis Estadístico de datos

Tutorial de SPSS de la Universitat de Barcelona