Capítulo 5 Objetivos

Hay diversidad de objetivos. Se identifican tres objetivos usuales: tendencias, datos anómalos y estructuras de particular interés.

Las tendencias pueden ser crecimiento, decrecimiento, estabilidad, picos estacionales, y en general patrones asociados al fenómeno que se está estudiando.

El término anglosajón para datos anómalos es outlier. En español se define anomalía como “Desviación o discrepancia de una regla o de un uso”. En inglés lo definen como “something that is unusual enough to be noticeable or seem strange”. Según Aggarwal (Aggarwal 2017) un outlier es un punto que difiere significativamente de los demás puntos o que difiere del mecanismo generador de los datos.

Podría hablarse de muchos tipos de anomalías dentro de un conjunto de datos: Datos faltantes donde no se esperan, valores no probables (¿error de digitación?), datos poco usuales, no respuesta voluntaria en ciertos atributos o un formato incorrecto. Algunos definen los datos anómalos como datos muy grandes o muy pequeños comparados con el grueso del conjunto de datos. Esos últimos es mejor denominarlos valores extremos. Pueden ser anómalos o no serlos.

La manera más general es entenderlos como datos que difieren del mecanismo generador de los datos, distinguiendo éstas del ruido aleatorio, que también puede generar algunos valores atípicos. La separación entre ruido aleatorio y dato anómalo no es siempre clara. Al hablar de ruido aleatorio, se está haciendo clara referencia al mecanismo generador de los datos.

Finalmente, las estructuras de particular interés o features en inglés, dependen de la tarea que se quiera acometer.

Referencias bibliográficas

Aggarwal, Charu C. 2017. Outlier Analysis. Springer.