Clustering

Clustering

Clustering es el proceso de «descubrir» cómo se agrupan los datos. «Descubrir» entre comillas, sí, porque tales agrupamientos (o clusters) no son una propiedad intrínseca de los datos, sino más bien una construcción que hacemos en función de los objetivos con que analizamos los datos.

Base esencial para la optimización, respuesta y proyección. Martialred, Astibuag
En el campo de Machine Learning (o aprendizaje maquinal) es frecuente la necesidad de descubrir patrones en los datos. Dependiendo del contexto, suele ocurrir que los elementos de nuestro conjunto de datos pueden agruparse naturalmente en función de ciertas características.
Este tipo de análisis, en que no conocemos de antemano las características de los grupos en que clasificaremos los datos, constituye un ejemplo de aprendizaje no-supervisado (unsupervised learning).

Ejemplos de funcionalidad del Clustering
Pensemos en la última vez que fuimos al supermercado. Inevitablemente los tomates están cerca de la lechuga y el aceite de girasol junto al aceite de oliva, y aunque nunca nos hayamos preguntado por qué, es claro que esto es deliberado.
Nunca hemos visto los tomates entre la harina y la sal, y ni hablar de los tomates desperdigados de a uno en las góndolas del local. Los tomates están todos juntos, y al lado de los tomates están las otras verduras y frutas, formando un cluster que facilita al cliente encontrar lo que busca.
El orden pensado y estudiado de frutas y verduras en el mercado facilita y estimula la tarea del consumidor. Ivo
Por supuesto, hay otros contextos (más arraigados al Machine Learning) en los que el clustering es utilizado, como por ejemplo en los sistemas de recomendación. Si a partir de un algoritmo de clustering, Spotify se da cuenta de que la mayoría de la gente que escucha Led Zeppelin escucha también Def Leppard y visceversa, y si nosotros escuchamos Led Zeppelin también, el sistema nos recomendará Def Leppard, dado que Led Zeppelin y Def Leppard están en el mismo Cluster.

Algoritmos: K Medias, y Clustering Jerárquico
Entendiendo las bases del Clustering, resta ver cómo se puede llevar a cabo. Para ello existen varios algoritmos, cuya elección depende del contexto. Es decir, de los datos y de lo que busquemos extraer de ellos. Existen varios algoritmos de Clustering, con variantes cada uno, pero en lo subsiguiente detallaremos dos de los más comúnmente utilizados para ilustrar de qué estamos hablando realmente.
K Medias y Clustering Jerárquico.

Fuente: https://significado.com/clustering/