Las computadoras están muy cerca de entender lo que estás diciendo, así como otro humano podría hacerlo, incluso si todavía no saben de qué estás hablando..

"El reconocimiento de voz está muy cerca de alcanzar la paridad con los humanos en los próximos tres años", dijo Xuedong Huang, científico jefe de habla de Microsoft, a techradar pro.

"Si podemos lograr este objetivo, será un hito importante para la civilización. El lenguaje es solo algo que los humanos entendemos y dominamos. En el momento en que una computadora puede transcribir su conversación por teléfono casi con tanta precisión como los humanos es un hito importante para la IA". Y para la conversación típica por teléfono, él cree que llegaremos allí en tres años, al menos en términos de reconocer lo que se dice..

"La transcripción es diferente de la comprensión; la comprensión es una historia diferente", advierte. "Para entender el mensaje, la sutileza de lo que se dice, es un largo camino por recorrer. Para entender la intención y el significado, todavía tenemos un largo camino por recorrer".

Xuedong Huang muestra algunos de los diseños detrás del kit de herramientas de aprendizaje profundo de código abierto de Microsoft

Progreso constante

Ha estado trabajando en el reconocimiento de voz durante más de 30 años, y todos los años, dice, ha visto mejoras constantes. El punto de referencia que los investigadores utilizan para medir la precisión es hacer una transcripción de dos personas que hablan por teléfono y, cada año, ve cómo la tasa de error desciende un 20% respecto al año anterior..

Gracias al aprendizaje profundo, los mejores sistemas, como Cortana, ahora están cometiendo solo el doble de errores que los humanos. "El error de transcripción es de alrededor del 8% ahora; eso es aproximadamente el doble que el error humano, que es de alrededor del 4%. Si podemos mantener una reducción del 25% cada año, bueno, háganse las cuentas. Espero que el último 4% sea No es demasiado difícil, y en los próximos tres años podemos lograrlo ".

Los avances recientes en el reconocimiento de voz se han reducido a una técnica de aprendizaje automático relativamente nueva, el aprendizaje profundo..

"El aprendizaje automático en general es importante, pero el aprendizaje profundo ha sido fundamental para estas mejoras", explica Huang. Ahora Microsoft está haciendo el Kit de herramientas de red computacional (CNTK) que usa para construir sistemas como el reconocimiento de voz de Cortana, gratis, como código abierto en GitHub..

"Creemos que el trabajo que estamos haciendo internamente puede beneficiar a toda la comunidad. Si tiene mejores herramientas y mejores recetas, se prepararán mejores platos. Creemos que las herramientas que compartimos pueden acelerar el progreso de la inteligencia artificial".

CNTK ha estado disponible previamente para investigadores académicos, para proyectos no comerciales a través del sitio Codeplex; ahora cualquiera puede usarlo para construir sistemas comerciales. "Lo hicimos de manera tranquila, para obtener retroalimentación", dice. "Ahora estamos tratando de ampliar la audiencia. Este es uno de nuestros secretos mejor guardados. Estamos avanzando y haciéndolo más abierto".