Los documentos del dominio de la salud muestran un vocabulario y una estructura lingüística específicos. Si echamos un vistazo a las historias clínicas electrónicas (HCE), también denominadas historias clínicas informatizadas (HCI), vemos que también aparececen datos no estructurados (es decir, texto libre). Este texto libre contiene nombres extraños de medicamentos y enfermedades que son incluso difíciles de leer. Por todas estas razones, las técnicas de analítica de texto deben adaptarse al dominio de la salud. Hemos reunido una serie de recursos en una demo que muestra cómo MeaningCloud puede etiquetar nombres de medicamentos, síntomas, enfermedades, procedimientos, etc.
Accede a la demo gratuita: https://www.meaningcloud.com/health-demo
La demo también muestra cómo hemos vinculado estas menciones a las fuentes de información externa.
Con esta demo se pueden etiquetar textos tanto en español como inglés. Sin embargo, la versión completa permite el etiquetado en español, inglés, francés, italiano, portugués y catalán.
Efectos adversos a medicamentos
Es bien sabido que las reacciones adversas a medicamentos (RAM) son un asunto de salud prominente, siendo la cuarta causa de fallecimiento en pacientes hospitalizados [1]. Así, el campo de la farmacovigilancia ha recibido mucha atención debido al creciente impacto de los eventos de seguridad de los medicamentos [2], así como a sus altos costes asociados [3]. Esta demo detecta y etiqueta Efectos Adversos.
¿Cómo funciona?
MeaningCloud utiliza varias API semánticas en modo SaaS (Software como Servicio) para extraer elementos con significado (temas, hechos, opiniones, relaciones, etc.) de todo tipo de contenido multimedia no estructurado.
1. Parseado morfosintáctico
La analítica de texto se lleva a cabo mediante la API de Lematización, Análisis Morfológico y Sintáctico de MeaningCloud, que sigue un enfoque basado en diccionarios para el análisis morfosintáctico.
Este paso es de gran importancia para el proceso de desambiguación que viene después, debido a la gran ambigüedad que existe en los textos médicos.
Esta tecnología está actualmente disponible en español, inglés, francés, italiano, portugués y catalán.
2. Analizador de Topics
Se han creado varios diccionarios relacionados con la salud para extraer las entidades (medicamentos, enfermedades, RAM y otros) e integrarlas en la API de Extracción de Topics de MeaningCloud.
La API está actualmente disponible en español, inglés, francés, italiano, portugués y catalán.
3. Filtro de Eventos Médicos
Filtra todas las entidades anotadas por el Analizador de Topics que no pertenecen al dominio médico. Solo se mantienen en el sistema los nombres de medicamentos, efectos y enfermedades.
4. Desambiguación
Conjunto de reglas que utiliza características lingüísticas como la información morfosintáctica proporcionada por el analizador. Junto con la concurrencia de información sobre medicamentos y enfermedades permite filtrar los términos que no es probable que sean menciones de eventos médicos.
Recursos: Medicamentos, Enfermedades y Efectos
Existen varios recursos semánticos integrados en el sistema, cada uno de ellos destinado a detectar un tipo diferente de entidad o relación como se explica a continuación.
MedDRA
MedDRA es el diccionario de clasificación de reacciones adversas aprobado por la Conferencia Internacional sobre Armonización de Requisitos Técnicos para el Registro de Productos Farmacéuticos para Uso Humano (ICH, por sus siglas en inglés), y por lo tanto es un recurso muy fiable.
MedDRA está disponible en diez idiomas y se compone de una jerarquía de cinco niveles que va de lo más general a lo más específico. Los dos niveles más bajos de MedDRA PT (Preferred Terms, términos preferidos) y LLT (Lowest Level Terms, términos de nivel más bajo) han sido extraídos para implementar el diccionario adrsMedDRA para la detección de RAM. Cada LLT es un concepto médico único que puede indicar un síntoma, signo, diagnóstico de enfermedad, indicación terapéutica, investigación, procedimiento médico o quirúrgico, o una característica del historial médico, social o familiar.
Por último, la información obtenida de este recurso es: 13.245 efectos adversos PT y 35.259 efectos adversos LLT.
UMLS-SNOMED CT
UMLS (Unified Medical Language System), desarrollado por la Biblioteca Nacional de Medicina (NLM, por sus siglas en inglés), es una lista exhaustiva de términos médicos centrados principalmente en el desarrollo de sistemas informáticos adecuados para la comprensión del vocabulario específico que se utiliza normalmente en la biomedicina y en la literatura médica. Uno de los recursos integrados en UMLS es SNOMED CT, un glosario accesible en español, que consiste en conceptos, descripciones y relaciones para representar la información y el conocimiento clínico. El UMLS está estructurado en varias categorías semánticas (sustancias, organismos, actividad médica, etc.). Se han elegido tres de estas categorías («Enfermedades o síndromes», «Disfunción mental o conductual» y «Proceso neoplásico») para crear el diccionario de enfermedades y síntomas.
Algunos de los términos extraídos son PT y otros sinónimos. Los PT se han establecido como expresiones canónicas en el diccionario, y sus sinónimos se han considerado alias.
Un campo de información adicional en las entradas es el UMLS CUI (Concept Unique Identifier), un código que relaciona un término médico específico con un conjunto de recursos incluidos en UMLS. De hecho, algunos términos se incluyen tanto en el diccionario de enfermedades como en el de efectos adversos.
La información obtenida de la base de datos UMLS es de 42.548 enfermedades principales y 23.677 sinónimos de enfermedades .
CIMA
CIMA es un recurso proporcionado y mantenido por la Agencia Española de Medicamentos y Productos Sanitarios (AEMPS). Es una aplicación que incluye todos los medicamentos autorizados en España. Contiene la siguiente información sobre cada uno de ellos: nombre, sustancia activa, nombre del titular de la autorización de comercialización, código nacional, hoja de datos, prospecto, fecha de autorización, código ATC (Anatomical, Therapeutic Chemical classification system) y otros. La hoja de datos del medicamento incluye la descripción del fármaco, indicaciones, dosis, precauciones y contraindicaciones, reacciones adversas, información farmacéutica y propiedades. El prospecto es el documento que se encuentra dentro de la caja del medicamento para informar al paciente de los detalles de la hoja de datos.
De los expedientes del CIMA se han obtenido 16.418 fármacos, 2.228 sustancias activas y 3.659 medicamentos de marca. Además, 4.817 términos relacionados con fármacos se han recopilado de Vademecum (guía de productos farmacéuticos que incluye más de 18.200 medicamentos) y de MedlinePlus, la página web multilingüe de los Institutos Nacionales de la Salud de los Estados Unidos (NIH, por sus siglas inglesas) dedicada al paciente. Estos términos componen el DrugsGaz.
SISTEMA ATC
Con el fin de descubrir las relaciones entre las marcas y las sustancias activas, utilizamos el sistema ATC, un conjunto de códigos alfanuméricos elaborados por la OMS que clasifica los medicamentos y otros productos médicos en 5 niveles (véase la figura 3). El nivel 1 representa la parte del cuerpo donde actúa el fármaco; el nivel 2 representa el grupo terapéutico; el nivel 3 se refiere al grupo farmacológico del fármaco; el nivel 4 es el grupo químico; y el nivel 5 se refiere al grupo de sustancias activas. Por lo tanto, el sistema ATC es la clave para descubrir las relaciones entre los medicamentos y los nombres de marca. Wikipedia tiene un artículo completo y bien estructurado que trata de los códigos ATC en español y se ha rastreado para obtener todos los códigos ATC existentes (4.361 en total).
Gracias a la información sobre los medicamentos que proporciona el ATC (características terapéuticas y químicas), el sistema puede relacionar los fármacos y es capaz de categorizarlos por sustancia activa, grupo químico o grupo farmacológico. Esto es posible debido a la jerarquía de clasificación. Los códigos ATC se dividen en cinco niveles. Por ejemplo, el código ATC M01AE01 se divide en: Grupo anatómico principal (M), grupo terapéutico principal (01), subgrupo terapéutico / farmacológico (A), subgrupo químico / terapéutico / farmacológico (E) y sustancia química (01).
La Clasificación Internacional de Enfermedades (CIE)
La Clasificación Internacional de Enfermedades (CIE, ICD por sus siglas inglesas) es la <<herramienta de diagnóstico estándar internacional para epidemiología, gestión de la salud y propósitos clínicos>>. Su nombre oficial completo es Clasificación Internacional y Estadística de Enfermedades y Problemas Relacionados con la Salud.
La CIE es mantenida por la Organización Mundial de la Salud (OMS), la autoridad que dirige y coordina la actividad sanitaria dentro del sistema de las Naciones Unidas. La CIE está diseñada como un sistema de clasificación médica que proporciona un sistema de códigos de diagnóstico para clasificar las enfermedades, incluyendo clasificaciones detalladas de una amplia variedad de signos, síntomas, hallazgos anormales, quejas, circunstancias sociales y causas externas de lesión o enfermedad. Este sistema está diseñado para asignar las condiciones de salud a las categorías genéricas correspondientes junto con variaciones específicas, asignándoles un código designado, de hasta seis caracteres. De esta manera, las categorías principales pueden incluir un conjunto de enfermedades similares.
MeaningCloud muestra los códigos correspondientes al sistema de clasificación CIE-10 (ICD-10 en inglés). Incluye más de 155.000 códigos diferentes y permite realizar un seguimiento de muchos nuevos diagnósticos y procedimientos; una expansión significativa con respecto a los 17.000 códigos que estaban disponibles en la CIE-9.
Para ver la demo gratuita: https://www.meaningcloud.com/health-demo
[1] Wester K, Jönsson AK, Spigset O, Druid H, Staffan H. Incidence of fatal adverse drug reactions: a population based study. Brit J Clin Pharmaco. 2008;65(4):573–579. doi: 10.1111/j.1365-2125.2007.03064.x. [PMC free article] [PubMed] [Cross Ref]
[2] Bond CA, Raehl CL. Adverse drug reactions in United States hospitals. Pharmacotherapy. 2006;26(5):601–608. doi: 10.1592/phco.26.5.601. [PubMed] [Cross Ref]
[3] van Der Hooft CS, Sturkenboom MCJM, van Grootheest K, Kingma HJ, Stricker BHCh. Adverse drug reaction-related hospitalisations. Drug Saf. 2006;29(2):161–168. doi: 10.2165/00002018-200629020-00006. [PubMed] [Cross Ref]