Respondiendo a bulos sobre medicamentos mediante Text Analytics

El pasado fin de semana estuvimos divirtiéndonos en el IV Hackathon de Salud con nuestros amigos del Grupo HULAT de la Universidad Carlos III de Madrid y del equipo que Text Mining for Life Sciences del Barcelona Supercomputer Center. En concreto tomábamos parte del reto de Sandoz #medicamentossinbulos, aplicando tecnología de text analytics al proceso de identificación y respuesta a bulos sobre medicamentos.

Un ejemplo de un caso de bulo puede ser este:

Ejemplo de bulo

Podemos distinguir distintos tipos de bulos:

Describir una falsedad como si fuese una verdad, como en el ejemplo de arriba
Afirmaciones no probadas científicamente
Indicaciones o efectos adversos no relacionados con el fármaco en cuestión

La propuesta de valor que definimos durante el hackathon es:

Propuesta de Valor

El principal objetivo de nuestra solución es proporcionar información veraz, rápidamente, para reaccionar a un posible bulo. Esto incluye procesar fuentes externas de confianza, como la web de la Agencia Española del Medicamento o del Ministerio de Salud, entre otros, para, de forma inmediata, localizar datos fiables sobre un fármaco o una enfermedad.

Un caso de uso de este sistema se centra en profesionales de la salud: supongamos un paciente que está preguntando a su médico sobre una noticia que ha leído alertando contra el uso de una medicación que el paciente está consumiendo. Si en ese momento el profesional sanitario dispone de información sólida sobre esa noticia, puede responder al paciente referenciando a esas fuentes externas. Por ejemplo, el médico podría decir ‘la Agencia Española del Medicamento no ha publicado ninguna alerta sobre ese medicamento’ .

Durante el hackathon, preparamos una demostración en la que un bot, @trolabot, identificaba posibles bulos en una conversación de Telegram y proporcionaba a los interlocutores enlaces a contenidos veraces que permitían refutar el posible bulo.

Una herramienta de este estilo es también de utilidad para profesionales de la comunicación en el mundo de la salud, tanto influencers como agencias de comunicación.

El primer paso para identificar estos bulos pasa por saber que se menciona un medicamento a través de técnicas de reconocimiento de entidades. Esta tarea no es sencilla dada la dificultad para escribir esos nombres, como es el caso de la fenilpropanolamina. En general, el lenguaje de salud es muy particular, más complejo que el lenguaje común. Basta leer un informe de una consulta médica para darse cuenta. Por ello, para hacer un tratamiento automático de ese lenguaje es necesario contar con herramientas de text analytics capaces de adaptarse a ese lenguaje, incluyendo recursos léxicos y semánticos específicos del dominio, como pueden ser SNOMED, CIE (ICD en sus siglas en inglés), MedDRA, entre muchos otros. Como no podía ser de otra forma, estos recursos han sido preparados por profesionales de la medicina.

Una vez que sabemos que un post, una noticia o un mensaje de whatsapp hablan sobre un fármaco, es necesario determinar si se trata de un bulo. Para ello podemos explotar el tipo de lenguaje que se suele emplear en estos mensajes, donde aparecen palabras o expresiones casi específicas como ‘sanación’o frases como ‘XXX previene enfermedades como YYY’, donde XXX sería el nombre de un fármaco e YYY el nombre de cualquier enfermedad grave para la que no hay cura o para la que el fármaco no está indicado. Hay que tener en cuenta que existen fuentes de información fiable que permiten saber para qué enfermedades y síntomas está indicado un fármaco y para cuáles no. En definitiva, estamos ante un problema de clasificación de textos para el que se puede construir un modelo de clasificación específico. Dado que no se dispone de ejemplos de bulos suficientes como para entrenar un modelo basado en machine learning el punto de partida sería un modelo basado en reglas, extraídas por lingüistas a partir de los casos de bulos conocidos. Con el tiempo, los bulos recogidos pueden alimentar una colección que pueda emplearse para entrenar un nuevo modelo.

En nuestra propuesta para el reto #medicamentossinbulos tiene como núcleo las tecnologías de text analytics descritas y se distinguen dos fases:

Fase de entrenamiento/diseño del modelo de clasificación de bulos

Esta es la fase de entrenamiento en la que se combina el proceso de reconocimiento de entidades con el de clasificación. En nuestro caso, como decíamos, no hay datos suficientes sobre bulos en medicamentos como para entrenar un modelo basado en machine learning así que se han desarrollado reglas similares a la que se muestra a continuación.

Ejemplo de regla de identificación de bulos ” ‘fármaco’ produce ‘síntoma/enfermedad”

Fase de predicción del sistema de identificación de bulos

En la fase 2 se aplican en tiempo real los modelos entrenados anteriormente sobre contenidos que pueden provenir de un sistema de monitorización de medios sociales como Twitter, blogs especializados, etc.

Aunque el premio del reto fue para otra gran idea relativa a la identificación segura de lotes de medicamentos retirados, pasamos un buen rato compartiendo experiencias y aprendiendo con los participantes y mentores del hackathon. ¡Veremos qué pasa el año que viene!

Leave a Reply Cancel reply