Acabamos de publicar una nueva release de MeaningCloud con algunas novedades que van a cambiar tu manera de hacer analítica de texto. Como complemento a las técnicas analíticas más habituales -que extraen información o clasifican un texto en función de diccionarios y categorías predefinidos- incorporamos técnicas de aprendizaje no supervisado que permiten explorar una serie de documentos para descubrir y extraer de ellos insights (temas, relaciones) no previstos.
En esta nueva release de MeaningCloud publicamos una API de Clustering de Texto que permite descubrir la estructura implícita y los temas significativos que emergen de los contenidos de tus documentos, conversaciones sociales, etc. Esta API toma un conjunto de textos y los distribuye en grupos (clusters) en función de la similitud entre los contenidos de cada documento. El objetivo es que los documentos de un cluster sean muy parecidos entre sí y muy diferentes a los otros clusters.
El clustering es una tecnología utilizada tradicionalmente en el análisis de datos estructurados. Lo que tiene de particular nuestra API es que sus pipelines están optimizados para analizar texto no estructurado.
En concreto:
- Utiliza tecnología de lematización para tener en cuenta todas las variantes morfológicas de un término (ej.: alto/alta/altos/altas)
- Permite definir las “palabras de parada” que por su escasa relevancia semántica no se desea que sean considerados en el análisis
- Agrupa los documentos aplicando no una similitud puramente textual, sino en función de su relación con los temas presentes en la colección
- Asigna a cada cluster un nombre o título semánticamente representativo de sus contenidos.
La API de Clustering de Texto complementa las facilidades de las de Extracción de Topics y Clasificación de Texto (que utilizan diccionarios y taxonomías predefinidas), proporcionando una analítica más flexible y dinámica y permitiéndote descubrir temas significativos y relaciones insospechadas entre documentos.
¿Dónde puedes aplicar el clustering de texto? Los escenarios son innumerables, especialmente en aquellas aplicaciones donde se trata de detectar relaciones entre varios textos, de distribuirlos dinámicamente en agrupaciones naturales o de descubrir los temas más relevantes que emergen de sus contenidos y expresarlos en sus propios términos. En particular, en el importante campo del análisis de la Voz del Cliente o la gestión de la Experiencia del Cliente, el clustering se aplica allí donde se requiere descubrir la “nueva voz” de esos clientes.
Como siempre tienes más información en el área de documentación de la API y la posibilidad de probarla exhaustivamente sin necesidad de programar usando su Consola de Pruebas.
Pero estas no son las únicas novedades de la nueva release de MeaningCloud. Aquí tenéis otras:
- Modelo estándar de clasificación IAB. Hemos aumentado nuestra batería de modelos predefinidos para la API de Clasificación de Texto. Además de IPTC, EuroVoc o Business Reputation ahora contamos con la taxonomía estándar de IAB para la clasificación de contenidos orientada a la publicidad. Usando este modelo podemos identificar si un cierto sitio o página (o incluso un anuncio) trata sobre Negocios, Salud, Tecnología, etc. y así lograr un mejor targeting de la publicidad y una mayor protección de marca.
- Tratamiento de URL y HTML. Hemos mejorado notablemente la manera en que nuestros motores procesan URL y código HTML, para hacerlos más robustos frente a fuentes mal formadas y para optimizar el tratamiento de elementos externos tales como scripts y hojas de estilo.
Además, hemos aprovechado para introducir mejoras de rendimiento y ampliar nuestros recursos lingüísticos, unos cambios que afectarán positivamente a varias de las APIs existentes. Puedes encontrar los detalles en el registro de cambios de cada una.
¡Esperamos que estas mejoras os sean muy útiles!