El contenido no estructurado está creciendo. Conviértelo en insights actuables

El contenido no estructurado en forma de texto en formato libre, imágenes, audio y vídeo (y no los datos estructurados) es la materia prima “natural” de las comunicaciones entre personas. Está comúnmente aceptado que el 80% de la información relevante para las empresas se origina en forma no estructurada, principalmente texto, y que ese contenido no estructurado crece a una velocidad mucho mayor que los datos estructurados.


En particular, a pesar de su inmenso potencial como fuente de insights valiosos, el texto libre es raramente analizado y escasamente usado en la toma de decisiones debido a que la lectura y extracción manual de insights es en el mejor de los casos tediosa y cara y, en el peor, imposible de realizar debido a los altos volúmenes. Para superar este reto, las tecnologías de analítica de texto procesan y analizan automáticamente contenidos textuales y proporcionan insights valiosos, transformando estos datos “en crudo” en información estructurada y manejable.

¿En qué consiste la Analítica de texto?

La analítica de texto, un concepto aproximadamente equivalente a la minería de texto, se refiere al proceso de extraer automáticamente información de alto valor del texto. Esta extracción suele involucrar un proceso de estructuración del texto de entrada, el descubrimiento de patrones en el texto estructurado y finalmente la evaluación e interpretación de los resultados. Para ello se utilizan técnicas de aprendizaje automático, estadística, lingüística computacional, minería de datos o recuperación de la información, lo que confiere a la minería de texto un marcado carácter multidisciplinar.

Estas tecnologías y procesos descubren y presentan conocimiento –hechos, opiniones, relaciones– que de otro modo permanecerían ocultos en forma textual, inaccesibles al procesamiento automático. Para conseguirlo, las herramientas de analítica de texto utilizan internamente recursos lingüísticos que modelan el lenguaje a analizar: gramáticas, ontologías, taxonomías.

¿Por qué la analítica de texto es más importante que nunca?

Importance of Text Analytics

La necesidad de extraer información del contenido no estructurado siempre ha estado presente. Pero especialmente en los últimos años la explosión del contenido generado por usuarios en medios sociales (redes, foros, comunidades) ha multiplicado esa necesidad. En Internet se generan comentarios, posts y revisiones de productos que tienen un valor incalculable para "tomarle el pulso" a un mercado… o a la sociedad en general. Y esto ha hecho de estos medios el driver más potente para la adopción de las tecnologías analíticas. Todo ello sin olvidar los contenidos internos propios de las organizaciones y el registro de sus interacciones multicanal con el exterior vía email, chat, etc. cada vez más abundantes y valiosos.

Asimismo, la disponibilidad en el mercado de una oferta de tecnologías y productos fiables, fáciles de usar e integrar y asequibles (muchos de ellos bajo un modelo SaaS) han contribuido a su adopción por parte de organizaciones de todo tipo.

¿Dónde se puede aplicar?

La analítica de texto aporta valor en multitud de contextos y casi cada día se descubren nuevas áreas de aplicación. Estas son algunas de las más habituales:

  • Organizaciones de todo tipo necesitan entender a los agentes externos con los que se relacionan. En empresas comerciales esto toma la forma de Voz del Cliente / gestión de la Experiencia del Cliente: el proceso automático masivo de la información no estructurada contenida en encuestas, interacciones en el “contact center” y comentarios sociales permite obtener una visión de 360º de esos clientes. En el caso de las AA. PP. (ayuntamientos, gobiernos) y otras organizaciones políticas este escenario toma la forma de Voz del Ciudadano o del Votante.
  • Un área de aplicación que tiene cierto solapamiento con las anteriores es la monitorización y análisis de medios, especialmente de los nuevos medios sociales pero también de los medios tradicionales, para analizar la información generada tanto por los (potenciales) clientes como por informadores, analistas e influenciadores.
  • Adicionalmente, cuando en lugar de la comunidad externa analizamos la comunidad interna a la organización, estamos típicamente ante las aplicaciones de Voz del Empleado orientadas a la Gestión del Talento
  • En investigación científica se aplica para hacer minería sobre grandes volúmenes de artículos y otros documentos a la búsqueda de relaciones y para facilitar la recuperación de información.
  • Medios de comunicación y editoriales lo utilizan para explotar su archivo, producir contenidos de mayor calidad más rápidamente, involucrar a la audiencia mediante contenidos personalizados y monetizar su producción mediante publicidad enfocada y nuevos modelos de negocio.
  • En el ámbito de la justicia y la prevención y lucha contra el delito, en aplicaciones de eDiscovery y Compliance se utiliza para procesar automáticamente documentos y comunicaciones para descubrir indicios de comportamientos potencialmente delictivos, p. ej., uso de información privilegiada, fraude.
  • Organizaciones en los sectores de salud, judicial, etc. lo aplican para la codificación automática y el análisis de expedientes, a efectos de una mejor categorización, asignación y explotación.

Tareas típicas de la analítica de texto

Los procesos de minería de texto se suelen construir como combinación de una serie de tareas, entre las que se encuentran las siguientes:

  • El etiquetado gramatical (en inglés, part-of-speech o PoS tagging) consiste en identificar la estructura de un texto y en asignar a cada una de las palabras que lo componen su categoría gramatical, en función del contexto en que aparecen.
  • El clustering o agrupamiento permite descubrir los temas relevantes y las relaciones dentro de una colección de documentos, agrupando estos en un conjunto de agrupaciones de documentos similares, internamente homogéneas pero diferentes entre ellas. Es especialmente útil en aplicaciones exploratorias, en las que se trata de descubrir temas no predefinidos y similitudes o duplicidades entre documentos.
  • La clasificación o categorización consiste en asignar un texto a una o varias categorías de entre una taxonomía predefinida teniendo en cuenta el contenido global del texto. En general requiere que previamente se haya entrenado o configurado un modelo de clasificación específico de la taxonomía que se desea utilizar. La clasificación se usa para identificar el tema (o temas) sobre los que trata el texto en su conjunto.
  • La extracción de información consiste en identificar dentro del texto apariciones de entidades (nombres propios de personas, empresas, marcas, lugares), conceptos abstractos y otros elementos de información específicos: cantidades, relaciones, etc. Se utiliza para detectar menciones e identificar aquellos elementos que llevan el mayor peso informativo de un texto.
  • El análisis de sentimiento consiste en detectar la polaridad (positiva, negativa, neutra o ausencia de polaridad) que lleva un documento. Esta polaridad puede ser debida a una opinión subjetiva o a la expresión de un hecho objetivo de uno u otro signo. Además de la polaridad global a nivel de documentos es posible hacer un análisis más granular e identificar la polaridad asociada a diferentes aspectos o atributos que se mencionan en un mismo documento.

En MeaningCloud proporcionamos APIs para realizar todas estas tareas.

¿De qué depende la calidad de la analítica de texto?

Como muchas aplicaciones de la Inteligencia Artificial, la minería de texto no es perfecta en el sentido de que no proporciona resultados correctos en el 100% de los casos. De hecho, ni siquiera la “inteligencia humana” es perfecta a la hora de entender textos: en experimentos con analistas humanos y debido a la ambigüedad del lenguaje el porcentaje de acierto está en el 90-95%. La calidad de la analítica automática se mide esencialmente por parámetros de cobertura y precisión, que indican respectivamente la exhaustividad (todo lo que es relevante se identifica) y la corrección (todo lo que se identifica es relevante) de los resultados.

Cobertura y precisión son antagónicos en el sentido de que una tecnología que aumente la precisión lo va a hacer a coste de reducir la cobertura, y al contrario. Por ello, desarrollar una solución basada en analítica de textos implica conseguir un compromiso óptimo para el escenario de que se trate entre cobertura y precisión.

Quality of Text Analytics

La calidad de un sistema de analítica de texto depende de aspectos entre los que obviamente están las tecnologías y los algoritmos que emplea. Pero también hay un aspecto muy influyente que marca la idoneidad del resultado final de un proyecto de minería de texto: la adaptación de las herramientas al dominio del problema, lo que se consigue personalizando los recursos lingüísticos (diccionarios, modelos de clasificación, diccionarios de sentimiento) que utilizan.

Por ejemplo, si estamos analizando las opiniones de los usuarios sobre los hoteles de Londres debemos incluir entre los recursos elementos como los nombres de esos hoteles, los atributos típicos que definen la calidad de un hotel (habitaciones, servicios, comida…), la polaridad asociada al hecho de que una habitación sea grande o pequeña, modelos para clasificar temáticamente estas conversaciones… La personalización de los recursos para el dominio específico permite alcanzar un compromiso óptimo entre cobertura y precisión. MeaningCloud posee unas potentes funciones de personalización de recursos que permiten adaptar fácilmente su funcionalidad a cada dominio.

Ventajas de automatizar la analítica de texto

A veces el proceso manual es una alternativa viable para hacer minería de textos. Sin embargo, cuando los requisitos de volumen, velocidad o variabilidad aumentan el procesamiento automático es imprescindible, ya que aporta beneficios incuestionables:

  • Volumen, escalabilidad. El procesamiento manual no escala adecuadamente cuando aumenta el volumen de textos a analizar: sus costes unitarios aumentan con dicho volumen. Esto es algo inadmisible en un mundo donde la cantidad de contenido no estructurado aumenta a velocidades exponenciales. Por el contrario, las herramientas automáticas pueden proporcionar volúmenes prácticamente ilimitados con unos costes cada vez más acotados.
  • Homogeneidad, estandarización. Los anotadores humanos también están sujetos a errores debido a la ambigüedad del lenguaje; además, estos errores y los criterios que aplican dependen de la persona (e incluso de la situación de una persona dada en cada momento) produciendo unas inconsistencias difíciles de contrarrestar. Por el contrario, aunque la exactitud de la analítica automática pueda ser inicialmente menor su sesgo es homogéneo y por tanto más fácil de contrarrestar. Además, una herramienta automática siempre aplica unos criterios y procedimientos constantes, proporcionando unos resultados más homogéneos.
  • Disponibilidad. Las herramientas automáticas están siempre disponibles, con lo que se evita depender de la presencia de personas concretas en momentos específicos.
  • Baja latencia. Los procedimientos automáticos pueden responder en cuestión de milisegundos (incluso para altos volúmenes) lo que habilita la toma de decisiones y la actuación en tiempo casi real.
  • Calidad. Con una adecuada adaptación al contexto de aplicación las herramientas automáticas pueden alcanzar parámetros de precisión y cobertura comparables a los del procesamiento humano.

¿Cuál es la relación entre analítica de texto y computación cognitiva?

La computación cognitiva hace computable una nueva clase de problemas. Aborda situaciones complejas que se caracterizan por la ambigüedad y la incertidumbre; en otras palabras, maneja problemas de tipo humano. La computación cognitiva combina algoritmos de inteligencia artificial y de aprendizaje automático en un enfoque que intenta reproducir el comportamiento del cerebro humano. Una de las promesas de la computación cognitiva es proporcionar una nueva experiencia de usuario que utilice la comunicación en lenguaje natural. Asimismo, sus capacidades de aprendizaje son muy interesantes y prometen grandes beneficios.

La computación cognitiva extiende la analítica a nuevos tipos de datos, usando nuevas tecnologías. Entre esos tipos de datos están el contenido multimedia y no estructurado; entre esas nuevas tecnologías, el procesamiento del lenguaje y el aprendizaje automático. Estas tecnologías permiten que en lugar de programarlos, a los sistemas cognitivos se les enseñe mediante ejemplos.

La analítica de texto es un subconjunto y componente principal de la nueva computación cognitiva, que amplía el alcance de la analítica a campos que previamente eran inalcanzables usando técnicas más clásicas como la inteligencia de negocio o la estadística.

¿Qué características debería poseer una buena solución de analítica de texto?

Los analistas expertos en este sector coinciden en resaltar una serie de características que contribuyen al valor y la idoneidad de una herramienta de minería de texto:

  • Completa: debe poseer una amplia gama de funciones para implementar tareas de analítica de texto.
  • Integrable: debe ser fácil de integrar en los sistemas, aplicaciones y procesos actuales de los usuarios – esto se traduce en interfaces abiertas y en un repertorio de SDKs y plug-ins compatibles con diversos lenguajes y sistemas.
  • Personalizable: debe facilitar su adaptación al dominio de la aplicación, para optimizar la exactitud del análisis.
  • Bajos riesgos y costes: debe incorporar tecnologías probadas y fiables, no debe requerir realizar grandes inversiones ni compromisos, debe ser asequible.

En conjunto, estos atributos redundan en un time-to-benefit corto: permiten a los usuarios obtener rápidamente los beneficios que estas tecnologías prometen, sin tener que dedicar valiosos recursos y tiempo a su desarrollo interno.