K-Medias

Ejemplo básico del algoritmo de agrupación K-Medias sin refinar

Alexander Vega Jiménez

Distribuye tus datos haciendo click en el área de abajo, idealmente formando grupos, y añade tantas semillas como grupos quieras detectar.

K-medias o K-Means es un algoritmo de agrupamiento (clustering), que entra en la categoría de aprendizaje no supervisado. Nos permite agrupar datos en distintos grupos o clases, cuando no sabemos exactamente qué valores de determinadas características hacen que un dato perteneza a una clase.

El principal requisito y limitación de este método es que debemos conocer el número de clases/grupos que se debe formar (K grupos, de ahí la K). Determinar el número de grupos es otro problema que se resuelve de forma diferente (algunas variantes como G-Medias, análisis iterativo de la variabilidad, ...).

Problemas de fiabilidad de K-Medias

Pese a lo contrario que puede creerse, K-Medias fallará más a medida que los grupos están más separados entre sí, es decir, entre más fáciles son de diferenciar para un humano, más difícil es para K-Medias. En estos casos puede identificar un grupo como 2 grupos o diferenciar dos grupos muy separados como uno solo, quedando centroides aislados sin datos. Se debe a que los centroides tienen convergencia local en lugar de global.

Tener un conocimiento previo del conjunto de datos, aunque sea en forma, ayuda drásticamente a conseguir un ajuste fino. Cuando se dispone de ello, K-medias resulta ser un algoritmo muy sencillo de implementar y con un rendimiento más que aceptable para solucionar distintos problemas de reconocimiento.

Por ello, el análisis estadístico previo del conjunto de datos para decidir cómo distribuir las semillas inicialmente, junto a procedimientos iterativos que repitan los cálculos, son factores decisivos en la calidad de la implementación de este algoritmo.

Para un mejor análisis de los inconvenientes y posibles mejoras, aconsejo echar un ojo a esta publicación de Pasi Fränti y Sami Sieranoja, de la Universidad de Finlandia Oriental.