• Header1
  • Header2

Funcionamiento básico de un reconocedor de voz

La base del reconocimiento de la voz es un algoritmo que recorre un árbol de probabilidades llamado modelo oculto de Markov analizando la unidad más pequeña del idioma que se llama el fonema.

Los fonemas son los sonidos de un idioma, el alfabeto sonoro que lo compone. En Español existen 24 mientras que el inglés tiene 40.

Asr

El segundo elemento importante de un reconocedor de voz es la base de datos del idioma que lo constituye (Speech Database). Esa base de datos se puede construir grabando previamente a muchos locutores de un idioma o al usuario mismo del reconocedor de voz.

En el primer caso (speaker independent) se graba un muestreo lo más amplio posible de frases de locutores de un idioma. Lo realizan lingüistas que viajan en un territorio grabando a la personas. Un mayor muestreo garantiza mayor calidad del reconocedor. En el segundo caso se 'entrena' previamente el reconocedor con la voz del interlocutor para que funcione solo con ese usuario.

Por último se construye la gramática de lo que vamos a reconocer. Es la expresión escrita de todas las posibles respuestas que se pueda obtener de una pregunta. Por ejemplo, la gramática a la pregunta sobre los departamentos de una empresa contiene expresiones gramaticales como 'quiero hablar con contabilidad'. Una variante es el denominado 'Reconocimiento en lenguaje natural', es decir la posibilidad de reconocer cualquier frase sin a priori conocer lo que puede decir una persona.

Ámbitos de aplicación del reconocedor de voz

Un reconocedor de voz se puede utilizar en los siguientes ámbitos:

Call-Center

Se utiliza para las llamadas entrantes de un call center ofreciendo al cliente una serie de opciones a elegir. Se desvía a continuación la llamada al punto de su interés. El reconocedor de voz es útil para las funciones rutinarias del servicio como por ejemplo el saldo de una cuenta si se trata de un servicio bancario. Las llamadas complejas y especializadas siempre se atenderán por personas.

Dictado en medicina

Los profesionales de la medicina utilizan ya reconocedores de voz (que entrenan previamente con su voz) para resumir el diagnostico de sus consultas. Se ahorra tiempo en redacción de los informes y el medico revisa simplemente en la pantalla el texto que acaba de dictar por un micro.

Audio mining

Se pueden reconocer canciones y melodías a través de una aplicación móvil. El usuario alimenta la aplicación con la canción cuyo titulo quiere conocer. Otro ámbito de aplicación es el control automático de derechos de autor en los canales de radio. Evita la escucha humana pasiva con un reconocimiento automático de las canciones.

Robótica

Se pueden dar ordenes de voz a máquinas para liberar las manos en la manipulación industrial. Un ejemplo es la gestión de pedidos en un almacén.

Juegos

El reconocimiento de voz permite desarrollar interfaces vocales para vide-juegos o mascotas artificiales por ejemplo.