Men√ļ Cerrar

An√°lisis exploratorio de datos: ¬Ņconoces bien a tu muestra?

An√°lisis exploratorio de datos

¬ŅQu√© es el an√°lisis exploratorio de datos (AED)?

 

El análisis exploratorio de datos  es el primer paso en el proceso de análisis de resultados de tu tesis

A través de él, le encuentras  sentido a los datos que recogiste, determinas cómo manipularlos, adecuarlos e interrogarlos para obtener las respuestas que necesitas

Para ello, analizas patrones, tendencias, valores atípicos, resultados inesperados, etc.,

utilizando métodos visuales y estadísticos  para tener una idea de la historia que cuentan

Estás buscando pistas que sugieran tus próximos pasos, preguntas o cursos de investigación posibles

Este paso no debe confundirse con la visualización de datos o con  obtener estadísticos de resumen.

Esas son meramente herramientas… medios para un fin.

El análisis exploratorio de datos  trata de responder preguntas.

Se trata de extraer suficientes puntos de vista acerca de un  conjunto de datos para corregir el curso antes de perdernos en la maleza.

 

¬ŅPara qu√© sirve el an√°lisis exploratorio de datos?

Desarrollado por John Tukey en la década de 1970, el análisis exploratorio a menudo se describe como una filosofía, y no hay reglas estrictas para su enfoque.

Dicho esto, también ha dado  lugar a toda una familia de software estadístico utilizados para abordar tareas específicas como:

  • Detectar errores y datos faltantes;
  • Mapeo de la estructura subyacente de los datos;
  • Identificaci√≥n de las variables m√°s importantes;
  • Listado de anomal√≠as y valores at√≠picos;
  • Probar una hip√≥tesis / verificar suposiciones relacionadas con un modelo espec√≠fico;
  • Establecimiento de un modelo parsimonioso (uno que puede usarse para explicar relaciones entre los datos utilizando un n√ļmero m√≠nimo de variables predictores);
  • Estimaci√≥n de par√°metros y determinaci√≥n de los intervalos de confianza asociados

 

¬ŅPor qu√© explorar tu conjunto de datos por adelantado?

El prop√≥sito del an√°lisis exploratorio de datos¬† es¬† “conocer” la muestra que tienes entre manos

Hacerlo por adelantado har√° que el resto del proyecto transcurra sin sobresaltos, en 3 formas principales: r√°pido, eficiente y con seguridad

Sin embargo, ¡no debería ser muy largo y extenso!

No te saltes este paso, pero tampoco te atasques en él.

Como pronto ver√°s, hay infinitas gr√°ficas y tablas posibles, pero s√≥lo necesitas unas pocas para “conocer” tus ¬†datos, lo suficientemente bien, como para trabajar con ellos.

En este artículo, te mostraré las visualizaciones que proporcionan el mayor beneficio para el éxito de tu proyecto de tesis

 

Comienza con las preguntas m√°s b√°sicas

Primero, querr√°s responder a un conjunto de preguntas b√°sicas sobre tu muestra:

¬ŅCu√°ntas observaciones tengo?

¬ŅCu√°ntas variables?

¬ŅCu√°les son los tipos de datos asociados con mis variables?

¬ŅSon num√©ricos? ¬ŅCateg√≥ricos?

¬ŅTengo una variable objetivo?

Un Ejemplo pr√°ctico

Luego, querrás  mostrar observaciones pertenecientes a determinado  conjunto de datos.

Esto te dará una idea de los valores de cada variable  y es una buena forma de comprobar si todo tiene sentido.

 

An√°lisis exploratorio de datos - muestra
An√°lisis exploratorio de datos – muestra

 

El propósito de mostrar un conjunto de datos de ejemplo  no es realizar un análisis exploratorio de datos  riguroso.

Al contrario, es para obtener una visión panorámica  acerca del comportamiento en general  de los datos.

¬ŅLas variables (las columnas) en nuestra muestra de datos tienen sentido?

¬ŅLos valores que toman estas variables tienen sentido?

¬ŅEst√°n los valores ¬†en la escala correcta?

¬ŅLos datos faltantes (perdidos) aparentan convertirse en un problema a futuro, luego de una primera inspecci√≥n visual de la muestra?

 

Variables numéricas o métricas

A continuación, puede ser muy esclarecedor graficar  las distribuciones de todas las variables métricas en la matriz de datos.

A menudo, con generar los respectivos histogramas  es suficiente para comprender estas  distribuciones

Sin embargo, hay algunas cosas que debes tener en cuenta:

  • Distribuciones que no te esperabas.
  • Posibles valores at√≠picos que no tienen sentido
  • Variables que deber√≠an ser binarias y que, no obstante, incluyen otros valores
  • L√≠mites que no tienen sentido
  • Errores potenciales de medici√≥n

En este punto, deberías  comenzar a tomar notas sobre las posibles correcciones que te gustaría realizar.

Si algo se ve fuera de lugar, como un posible valor atípico en una de tus variables,

este sería un buen momento para preguntarle a tu asesor o tutor de tesis o para profundizar un poco más.

 

An√°lisis exploratorio de datos - Histograma
An√°lisis exploratorio de datos – Histograma

Variables  categóricas

Las variables categóricas no se pueden visualizar a través de los histogramas.

En su lugar, puedes utilizar  gráficos de barras

En particular, querr√°s buscar¬† categor√≠as ¬†dispersas, que son aquellas ¬†que tienen un n√ļmero muy peque√Īo de observaciones.

Por ejemplo, el siguiente gráfico de barras muestra la distribución de la variable  nivel educativo

En este caso, los niveles “13,5” y “20,0”¬† son consideradas categor√≠as dispersas para esta variable

 

Gr√°fico de barras
Gr√°fico de barras

 

De todos modos, volviendo a las categor√≠as ¬†dispersas… como puedes ver, algunas de ellas ¬†para¬† la variable nivel educativo,¬† tienen barras muy cortas.

Todas ellas son categorías dispersas

Tienden a ser problem√°ticas a la hora de construir modelos.

En el mejor de los casos, no influyen mucho en el mismo.

En el peor de los casos, pueden hacer que el modelo se adapte.

Por lo tanto, recomendamos hacer una nota recordatorio  para  combinar o  reasignar  algunas de estas categorías dispersas  más adelante.

 

Segmentación de los datos

Las segmentaciones (o agrupamiento) son formas poderosas de observar la relación entre las variables categóricas y  numéricas.

Los diagramas de caja  te permiten hacerlo.

Aquí hay algunas ideas que puedes deducir  del siguiente gráfico.

La mediana del salario actual  (barra horizontal a mitad  de la caja) para los directivos  era mucho mayor que la del personal administrativo

Los salarios actuales del personal administrativo y de seguridad son comparables, salvo pocas excepciones,  entre las dos categorías

De hecho, la mediana de ambos salarios se encuentra alrededor de $30.000

 

Diagrama de caja y bigotes
Diagrama de caja y bigotes

 

Correlaciones entre los datos

Finalmente, las correlaciones te permiten ver las relaciones entre las variables numéricas

La correlación es un valor entre -1 y 1 que representa qué tan cerca se mueven dos variables numéricas  al unísono.

No necesitas recordar las fórmulas matemáticas para calcularlas.

Sólo tienes que tener en mente lo siguiente:

Una correlación positiva significa que a medida que una variable  aumenta, la otra también aumenta.

Ej. La edad de un ni√Īo y su altura.

Una correlación negativa significa que a medida que una variable aumenta, la otra disminuye.

Ej. Horas dedicadas al estudio y n√ļmero de fiestas a las que asisti√≥

Las correlaciones cercanas a -1 o 1 indican una relación fuerte entre ambas variables.

Aquellas más cercanas a 0 indican una relación débil.

0 indica que no hay relación.

Las tablas de correlaciones bivariadas  te  ayudan a visualizar esta información.

Aquí hay un ejemplo:

 

 Correlaciones
Correlaciones

 

En general, debes fijarte en:

¬ŅQu√© variables est√°n fuertemente correlacionadas con la variable objetivo o variable dependiente?

¬ŅHay correlaciones fuertes interesantes o inesperadas entre otras variables?

Una vez más, tu objetivo es obtener una visión panorámica general sobre el conjunto de  datos, lo que te ayudará a lo largo del resto del flujo de trabajo.

 

¬ŅQu√© otros aspectos deber√≠as comprobar?

Muchos procedimientos estad√≠sticos exigen una serie de requisitos seg√ļn de cual se trate, pero en t√©rminos sencillos, los podemos resumir as√≠:

  • Homogeneidad
  • Independencia
  • Normalidad

 

Homogeneidad

En cuanto a la homogeneidad de los datos, es conveniente chequear la presencia de valores que sean exageradamente altos o bajos, en nuestra muestra

Este tipo de valores reciben el nombre de datos influyentes (outliers, en inglés)

Tales datos pueden sesgar las conclusiones de un estudio, por tanto, debemos mirarlos con lupa

La manera más fácil de detectar datos no homogéneos es a través del uso del gráfico de caja y bigotes, que ya utilizamos anteriormente

Por ejemplo, en el caso de la variable salario actual, los datos marcados con * (29, 218 y 272) son considerados datos atípicos (dale un vistazo al gráfico de caja y bigotes de arriba)

Independencia

Por otra parte, los datos que componen una muestra deben haber sido extraídos aleatoriamente

La mayoría de paquetes estadísticos que mencionaremos a continuación, proporcionan test que sirven para comprobar la independencia de los datos

Algunos de ellos son:  Test de los signos, test de autocorrelación de Durbin-Watson y gráficas de autocorrelación

Normalidad

Algo que no puedes olvidar es comprobar que tus datos se distribuyen normalmente, cuando el procedimiento estadísticos que vayas a utilizar así lo exija (pruebas paramétricas)

Aquí tienes un ejemplo,

 

Gr√°fico Q-Q de normalidad
Gr√°fico Q-Q de normalidad

 

Como es f√°cil detectar a trav√©s de una inspecci√≥n visual del gr√°fico anterior, los valores observados de salario actual, no se ‚Äúpegan‚ÄĚ a la l√≠nea recta en diagonal

Por tanto, deberíamos sospechar que la distribución de los datos muestrales para la variable salario actual se separa evidentemente de la normalidad

Esta sospecha la podemos comprobar a nivel analítico con los test de Kolgomorov-Smirnov y Shapiro-Wilk

 

Pruebas de normalidad
Pruebas de normalidad

 

En ambos casos, los p-valor resultaron ser menores a 0,05, lo que corrobora la no normalidad de los datos

Herramientas y técnicas para hacer  análisis exploratorio de datos

Entre los paquetes estadísticos  más importantes que se utilizan para realizar el análisis exploratorio de datos  se encuentran SPSS, SAS, Minitab y R.

Las funciones y técnicas estadísticas específicas que pueden llevarse a cabo  con estas herramientas incluyen:

  • T√©cnicas de agrupaci√≥n y reducci√≥n de dimensiones, que te ayudan a crear gr√°ficos multidimensionales que contienen muchas variables;
  • Visualizaci√≥n univariable de cada campo en el conjunto de datos sin procesar, con estad√≠sticas de resumen;
  • Visualizaciones bivariadas y estad√≠sticas de resumen que te permiten evaluar la relaci√≥n entre cada variable en el conjunto de datos y la variable objetivo;
  • Visualizaciones multivariadas, para mapear y comprender las interacciones entre diferentes campos en los datos;
  • K-Means Clustering (creaci√≥n de “centros” para cada cluster, basado en la media m√°s cercana);
  • Modelos predictivos, p. Ej. Regresi√≥n lineal.

 

Cómo encaja el análisis exploratorio de datos en tu proyecto de tesis

Los usos potenciales del an√°lisis exploratorio de datos ¬†son de gran alcance, pero en √ļltima instancia, se reduce a lo siguiente:

  • El an√°lisis exploratorio de datos consiste en conocer y comprender tus datos antes de hacer suposiciones al respecto.
  • Te ayuda a evitar la creaci√≥n accidental de modelos imprecisos o la creaci√≥n de modelos que, a√ļn con precisi√≥n aceptable, est√°n basados ‚Äč‚Äčen datos incorrectos.

Hazlo ¬†bien, y obtendr√°s¬† la confianza necesaria en tus datos como para comenzar a analizarlos y transformarlos de datos a informaci√≥n y finalmente a conocimiento, fin √ļltimo de cualquier¬† investigaci√≥n

Al contrario, si ignoras este paso crucial verás cómo las conclusiones de tu tesis  se basaran  en cimientos inestables.

Puede que te interese también, darle un vistazo a estos artículos:

Guía básica para Análisis Estadístico de datos

Tutorial de SPSS de la Universitat de Barcelona

 

En resumen…

Al final de éste breve repaso acerca del análisis exploratorio de datos,

  • Comprender√°s bastante bien a tu muestra
  • Habr√°s tomado algunas notas para hacer la limpieza de los datos, posteriormente
  • Tendr√°s una idea clara acerca de la naturaleza de las variables involucradas
  • ¬ŅQu√© tipos de variables pueden tener categor√≠as dispersas?
  • ¬ŅC√≥mo las verificar√≠as?

¬ŅQu√© significa si el salario actual tiene una correlaci√≥n de 0,78 y 0,66 ¬†con¬† categor√≠a laboral y nivel de estudios, respectivamente?

¬ŅCu√°les son los 3 controles adicionales ¬†que se deben realizarse a ¬†los valores de salario actual?

Please follow and like us:
Facebook
Twitter
Visit Us
LinkedIn
Pinterest
Pinterest

Deja un comentario

Tu dirección de correo electrónico no será publicada. Los campos obligatorios están marcados con *

Este sitio web utiliza cookies para que usted tenga la mejor experiencia de usuario. Si contin√ļa navegando est√° dando su consentimiento para la aceptaci√≥n de las mencionadas cookies y la aceptaci√≥n de nuestra pol√≠tica de cookies, pinche el enlace para mayor informaci√≥n.plugin cookies

ACEPTAR
Aviso de cookies