33.1 Estadística descriptiva

Presentar la distribución de los datos es fundamental en la estadística descriptiva y la exploración de datos (EDA). Permite observar las medidas de tendencia central (media, mediana y moda), de posición (percentiles), de dispersión (rango, IRQ, varianza o desviación estándar), sesgo y curtosis.

Los histogramas, diagramas de densidad y diagramas de caja y bigotes están diseñados para presentar las estadísticas de resumen y la distribución de probabilidad de variables numéricas continuas. Si se añaden los puntos con perturbaciones aleatorias (jittered dots) o indicadores de ubicaciones de los datos por medio del diagrama de flecos (rug plot) mucho mejor.

Para el ejemplo, se utiliza una base de datos creada por la Universidad de California, Irvine (UCI) que se utiliza para evaluar la eficiencia energética de edificios. Los investigadores crearon diferentes simulaciones de 12 tipos de edificios con variaciones en su superficie acristalada, distribución y orientación, entre otros factores, lo que resultó en 768 formas de edificios. La base de datos contiene 8 características y 2 respuestas de valor real, lo que significa que se pueden utilizar para predecir cómo funcionará un edificio en términos de calefacción y refrigeración. La base de datos es útil para investigadores y profesionales que quieren mejorar la eficiencia energética de los edificios y puede ser utilizada en una variedad de aplicaciones.

Son en total 1296 registros.

Lo usual es presentar estos estadísticos para varias categorías con el objeto de permitir una comparación.

33.1.1 Diagramas de densidad

Obsérvese que se añadió, pegado al eje x, el fleco de alfombra para mostrar el número y posición de los datos.

Se trata, según parece, de datos bimodales.

Recuérdese que estas visualizaciones se construyen a partir de un kernel. Son válidas cuando hay gran cantidad de datos y éstos son numéricos continuos. De otro modo son engañosos:

Obsérvese la poca cantidad de datos. Se trata más bien de datos discretos. Éstos se representan, como ya se indicó, mediante líneas.

33.1.2 Diagramas de caja y bigotes

Ambas están sesgadas hacia la derecha. La mediana de calefacción es menor que la de refrigeración. No se denota la bimodalidad.

Cuando son demasiados datos se puede representar sólo una muestra de ellos en forma de puntos. Otra alternativa son los diagrama de caja y bigotes en forma de violin (violin plots).

33.1.3 Histogramas

Aquí si se denota la bimodalidad.