Reconocimiento de Voz






Por:
Melissa Llabrés Grau
CMO – Visual Medica





Reconocimiento de Voz


Un poco de historia.

“Del Microcasette al reconocimiento de voz”

El método para realizar reportes médicos ha evolucionado considerablemente en los últimos 50 años, desde que la empresa Philips lanzó al mercado el microcassette a fines de los años ’60.

Cuando se comenzó a popularizar la posibilidad de grabar los informes en lugar de dictarlos directamente a una secretaria, esto llevo a que el ámbito de la salud comenzara a utilizar la grabación de audio para realizar los informes.

Este cambio independizaba al profesional de la salud de los horarios y/o disponibilidad de una secretaria. 

La grabación en cassettes aumento la productividad de los médicos en la realización de los informes.



Aun así, este sistema contaba con una gran desventaja, los informes grabados debían ser luego revisados por el médico y ser tipeados nuevamente por completo.

La incorporación de las computadoras mejoró este proceso pero aún continúa un circuito en el que el médico dicta, luego ese reporte es transcripto por otra persona, impreso y devuelto para su corrección. 

Estos procesos son lentos y generan gastos de tiempo, material y recursos innecesarios.

Ya que el proceso puede repetirse varias veces para un mismo reporte.





Pero todos éstos últimos adelantos (Procesadores de texto, Audio Digital) no habían logrado optimizar el proceso del reporte, ya que seguía involucrando dos actores y un proceso de relectura y corrección.

Es por esto que la llegada del Reconocimiento de voz a la medicina revoluciona los procesos. Ya que es la primera herramienta en los últimos 50 años que cambia el proceso establecido, dejando al medico como único actor en el proceso del informe.

¿Qué es el reconocimiento de voz?

Hablando con mi equipo

El reconocimiento de voz es la capacidad de una máquina de reconocer un patrón de sonido como una orden o comando.
Este tipo de comunicación con diferentes equipos es la que se está imponiendo sobre otras formas de interacción más tradicionales, sobre todo los botones.

Ya es posible hablar a los dispositivos móviles.
Los automóviles nuevos incorporan sistemas de comandos por voz, para evitar que el conductor despegue las manos del volante para encender la radio o calcular una ruta con el GPS, las smart TV y otras electrodomésticos también son capaces de recibir mensajes hablados.





Lo que diferencia al dictado del simple reconocimiento es la capacidad de reconocer todas las palabras en lugar reconocer algunos comandos.

Los sistemas que controlan equipos, solo conocen algunos (ya sean pocos o muchísimos) comandos y reaccionan frente a estos. Mientras que un sistema de reconocimiento de voz para la transcripción del dictado, debe reconocer por completo lo que se está diciendo y ser capaz de transcribirlo sin errores gramaticales.


¿Cómo funciona el reconocimiento de voz?

El reconocimiento de voz: capa a capa

Los sistemas de reconocimiento de voz están formados por varias capas. 

Capa acústica

Biometría de la voz

En esta capa el sistema determina la calidad del sonido, para esto el sistema debe diferenciar la voz del ruido.

El ruido es una perturbación o una señal anómala que se produce en un sistema de telecomunicación, que perjudica la transmisión y que impide que la información llegue con claridad.
Una vez separado el ruido de la voz, el sistema puede categorizar la voz según sus diferentes características únicas de tono, timbre, cantidad e intensidad.



Tono: Es la altura musical de la voz. Según el tono, las voces humanas se clasifican en agudas o graves.
Timbre: Es el matiz personal de la voz. Es un fenómeno complejo y está determinado por el tono fundamental y los armónicos o tonos secundarios. 
Cantidad: Es la duración del sonido. Según la cantidad, los sonidos pueden ser largos o breves. La cantidad suele depender, en general, de las características de cada idioma, de los hábitos lingüísticos de las regiones o países, de la psicología del habitante, etc.
Intensidad: Es la mayor o menor fuerza con que se produce la voz. Hay voces fuertes y voces débiles.

Lo que comúnmente llamamos acento es conjunto de los anteriores elementos, cuya combinación especial en cada idioma, en cada región y en cada individuo, da a una determinada forma de hablar su característica distintiva.




Modelo lingüístico

El modelo lingüístico está relacionado con el idioma. Sin embargo los software para reconocimiento de voz en los casos de dictado no sólo deben reconocer el idioma sino que deben reconocer los distintos acentos con que se habla e incluso entender las formas de expresarse, que pueden ser diferentes en cada hablante (Modelo semántico).




Modelo semántico

El modelo semántico es el que se aplica para reconocer el modo de hablar de cada persona, cómo se construyen las frases y cómo éstas construcción varia, dependiendo de la región, la cultura y la forma personal del hablante, este modelo funciona a partir de un motor estadístico, que toma la frase una vez transcripta a texto y evalúa la frecuencia con la que aparecen determinadas construcciones.
La precisión de un software dependerá de la cantidad de información que contiene y su capacidad de compararla y evaluar la frecuencia de aparición de cada construcción semántica.


Ingeniería del Reconocimiento de voz

La matemática detrás del reconocimiento

Para poder articular lo mencionado se utilizan los modelos ocultos de Markov, que es un modelo estadístico utilizado para reconocer patrones, que presupone que el sistema a modelar (en este caso la voz) es un es un fenómeno aleatorio dependiente del tiempo para el cual se cumple una propiedad específica: “carece de memoria", lo que significa que la el valor futuro de una variable aleatoria depende de su valor presente, pero no de la historia de dicha variable. 
El modelo determina los parámetros desconocidos (u ocultos) de una cadena a partir de los parámetros observables. 





Comentarios

Entradas más populares de este blog

ESCANEO DEL CODIGO PDF417 DEL DNI (Documento Nacional de Identidad digital)

¿Que tipos de Mensajes de HL7 hay?

Apex SQL una herramienta free útil para interpretar mejor el código SQL