Desde que surgieron los primeros documentos en formato digital, la clasificación automática de textos adquirió mucha relevancia para muchos investigadores. Se trata de asignar automáticamente documentos a categorís predefinas. En la actualidad, se está utilizando en muchas aplicaciones tales como clasificación de páginas web, filtrado de spam, etc. Sin embargo, creemos que no ha sido aplicado en otros proyectos para el diagnóstico médico a partir de la información en texto plano que se puede extraer de las publicaciones médicas y de los historiales de pacientes.
Cada año, miles de documentos se publican en las bases de datos "National Library of Medicine" y "National Institutes of Health". La mayoría se clasifican manualmente asignando a cada documento una o varias categorías de un vocabulario preestablecido conocido como MeSH (Medical Subject Headings). Durante las últimas décadas, se han dirigido muchos esfuerzos en automatizar este proceso mediante técnicas de "machine learning". El árbol MeSH es una estructura jerárquica de términos médicos que se usan para definir los temas principales de los que trata un artículo o publicación. Nosotros nos centramos en la parte de las enfermedades, pues establece más de 4.000 enfermedades, y ofrece la posibilidad de buscar documentos relacionados con cada una de ellas. De esta forma, proponemos utilizar un algoritmo de clasificación, extraer documentos de la base de datos MEDLINE y utilizar los historiales médicos de los pacientes para obtener una lista de enfermedades ordenada que pueda establecer posibles diagnósticos.
No utilizamos decisiones binarias a partir de métodos de clasificación binarios porque se podrían descartar algunas opciones válidas del MeSH, que probablemente deberían ser tenidas en cuenta. Hemos elegido algoritmos de ranking de categorías para obtener una lista ordenada de todos los posibles diagnósticos de tal forma que sea el usuario el que finalmente decida qué diagnóstico se ajusta mejor al historial médico del paciente.
Hemos extraído los datos para el aprendizaje de la base de datos PubMed seleccionando los documentos que tratan sobre enfermedades escritos en inglés, con resumen y relacionados con humanos. Los documentos se obtuvieron utilizando el query diseases category[MAJR], donde [MAJR] significa MeSH Major Topic. De esta forma obtenemos documentos cuyo tema principal son enfermedades. El query nos proporcionó 2.747.066 documentos que descargamos enviándolos a un fichero en formato MEDLINE. Procesamos dicho fichero para obtener los títulos y resúmenes con sus correspondientes relaciones en el árbol MeSH. Esto nos condujo a 4.155 clases, cada una con al menos un documento para el aprendizaje. Hemos seleccionado sólo los documentos más importantes, que se encuentran dentro del tipo case reports, un subconjunto de 483.726 documentos que contienen información detallada sobre casos individuales de enfermedades específicas.
Para seleccionar un algoritmo de clasificación adecuado, hemos buscado el que mejor se ajusta de entre varias décadas de investigación científica y publicaciones sobre clasificación de textos y
Pretendemos proporcionar una nueva aplicación para los algoritmos de clasificación para obtener diagnósticos médicos a partir de historiales clínicos. Aunque la salida del proceso de clasificación no debería ser tomada directamente como un diagnóstico médico sin una revisión previa, pensamos que la precisión obtenida sí podría ser suficiente para que un experto pueda tenerla en cuenta. Puede ayudar para corroborar o sugerir un término MESH entre los proporcionados automáticamente.
Debemos clarificar encarecidamente que los resultados que proporcionamos NUNCA deben ser tomados como un sustituto del consejo de un profesional en medicina.