Los investigadores de inteligencia artificial están avanzando hacia sus objetivos de entrenamiento de sistemas de inteligencia artificial para comprender el habla solo a partir de la entrada de audio, al igual que los humanos.

En este momento, la mayoría de la IA solo puede reconocer el habla traduciéndolo primero en texto. Se ha avanzado mucho en términos de reducir las tasas de error de palabra y aumentar el número de idiomas compatibles.

Sin embargo, hacer que AI entienda el habla a través de la entrada de audio solo es un gran salto desde esta etapa, por lo que los investigadores del Laboratorio de Inteligencia Artificial y Computación del MIT han dado un paso hacia ella al mapear el habla en imágenes en lugar de texto.

Te escucho

No parece mucho en la superficie, pero la frase "una imagen vale más que mil palabras" aclara el impacto que podría tener..

En la conferencia sobre Sistemas de procesamiento de información neural, los investigadores demostraron su método en una presentación basada en un artículo que escribieron..

La idea detrás de su investigación es que si se pueden agrupar varias palabras en una sola imagen relacionada, debería ser posible para la IA hacer una “probable” Traducción sin la necesidad de una formación rigurosa..

Para crear un conjunto de datos de entrenamiento para los sistemas de inteligencia artificial, los investigadores utilizaron el conjunto de datos de Places205 que tiene más de 2.5 millones de imágenes divididas en 205 sujetos diferentes. Los investigadores pagaron a grupos de personas para que describieran lo que vieron en cuatro imágenes al azar, desde el conjunto de datos hasta las grabaciones de audio. Han logrado recolectar más de 120,000 títulos de 1,163 individuos.

Luego, la IA ha sido entrenada para vincular las palabras en cada título con las imágenes relevantes, anotando la similitud de cada emparejamiento para seleccionar la traducción más precisa. Si un título es relevante para la imagen, debe tener una puntuación alta, si no, debe tener una puntuación baja.

En las pruebas, la red recibió grabaciones de audio que describían una imagen guardada en su base de datos y se le pidió que seleccionara las diez imágenes que mejor se ajustaban a la leyenda de audio. Desafortunadamente, de las diez imágenes seleccionadas, la correcta solo estaría allí el 31% del tiempo.

Este es un puntaje decepcionante para los investigadores, ya que es una forma bastante básica de entrenar a AI para que reconozca palabras sin ningún tipo de texto o datos de idioma para ayudar a su comprensión..

Sin embargo, se cree que con la mejora, este medio de capacitación podría ayudar al software de reconocimiento de voz a adaptarse más rápidamente a diferentes idiomas y proporcionar un nuevo medio para enseñarlo a traducir. Podemos ver cómo funciona el reconocimiento de imágenes con el aprendizaje de nuevos idiomas en el cerebro humano, con un software de aprendizaje de idiomas como el que ofrece Rosetta Stone.

Co-autor del artículo que detalla la investigación, Jim Glass, dijo “El objetivo de este trabajo es intentar que la máquina aprenda el lenguaje más como lo hacen los humanos..”

Lograr este tipo de aprendizaje no supervisado podría hacer que la capacitación en IA sea mucho más económica y rentable, así como más útil para la sociedad en general. Claramente, sin embargo, muchos más avances tienen que suceder antes de que sea posible.

  • Apple va a comenzar a publicar su investigación de inteligencia artificial para mejorar Siri.