Lidiando en el procesamiento del lenguaje natural en Informática en salud

Se conoce como Procesamiento de Lenguaje Natural (NLP por sus siglas en inglés) al campo de estudio interdisciplinario entre la inteligencia artificial, las ciencias computacionales y la lingüística cuyo objetivo es lograr que las computadoras realicen tareas de utilidad que involucren el lenguaje humano. Dichas tareas pueden ser enfocadas a permitir la comunicación humano-máquina, mejorar la comunicación humano-humano o simplemente para realizar procesos de reconocimiento de habla o texto.


No basta conocer los términos para poder entender algo, y para poder tomar acciones y armar procesos hace falta entender. Hay una frase de Matt Groening que gráfica bien lo que acabo de decir:
"Sé todas esas palabras, pero esa frase no tiene sentido para mí".
Es decir que no basta machear las palabras contra términos conocidos, sino que que esto debe tener un sentido.

La búsqueda de texto completo es una batalla entre la precisión (devolver la menor cantidad de documentos irrelevantes como sea posible) y la recuperación (devolver) la mayor cantidad posible de documentos relevantes. Aunque coincidir solo las palabras exactas que el usuario ha consultado serían precisas, no es suficiente. Nos perderíamos muchos documentos que el usuario consideraría relevantes. En su lugar, necesitamos expandir la red más amplia, para buscar también palabras que no sean exactamente iguales a las originales pero que estén relacionadas.

La principal característica del lenguaje natural que hace difícil la automatización de su procesamiento es la ambigüedad, algo con lo que el cerebro humano generalmente logra acostumbrarse a lidiar. Al interpretar una sentencia el ser humano evoca toda una serie de experiencias personales y contextuales que la impregnan de significado, lo cual resulta muy complejo de modelar programáticamente.

¿No esperaría que la búsqueda de "zorro marrón rápido" coincida con un documento que contenga "zorros marrón rápidos", "Johnny Walker" para que coincida con "Johnnie Walker" o "Arnolt Schwarzenneger" para que coincida con "Arnold Schwarzenegger"?

Si existen documentos que contienen exactamente lo que el usuario ha consultado, esos documentos deberían aparecer en la parte superior del conjunto de resultados, pero las coincidencias más débiles pueden incluirse más abajo en la lista. Si ningún documento coincide exactamente, al menos podemos mostrar las posibles coincidencias del usuario; ¡Incluso pueden ser lo que el usuario pretendía originalmente!



Referencias
https://www.elastic.co/guide/en/elasticsearch/guide/current/languages.html
https://medium.com/soldai/procesamiento-de-lenguaje-natural-5315cf212d0f

Comentarios

Entradas más populares de este blog

¿Qué es la Norma GAMP 5 y para que sirve?

ESCANEO DEL CODIGO PDF417 DEL DNI (Documento Nacional de Identidad digital)

¿Que tipos de Mensajes de HL7 hay?