La tecnología de reconocimiento de voz está desempeñando un papel cada vez más importante en nuestras vidas, ya sea que le pidamos a nuestro Amazon Echo que reproduzca nuestra lista de reproducción favorita de Spotify o que obtenga un resumen de las noticias del Asistente de Google integrado en nuestros teléfonos inteligentes..

Aunque la tecnología de reconocimiento de voz ha existido de alguna forma desde la década de 1950, solo en los últimos años ha encontrado una aplicación práctica en forma de asistentes de voz integrados en teléfonos inteligentes, altavoces y más..

La última ola de innovación en reconocimiento de voz se ha producido gracias a los avances en la inteligencia artificial de los últimos años, con gigantes tecnológicos como Google, Amazon y Apple promocionando su uso de redes neuronales en el desarrollo de sus asistentes de voz..

Aprendizaje automático

Lo que distingue a los asistentes de voz como Amazon Alexa, Siri de Apple y Google Assistant, aparte de las primeras iteraciones de la tecnología de reconocimiento de voz, es el hecho de que están aprendiendo constantemente, recogiendo sus patrones de habla, vocabulario y sintaxis con cada interacción..

La mayoría de los asistentes de voz en estos días también tienen reconocimiento de voz, lo que les permite distinguir entre diferentes usuarios, y con el poder de estas grandes empresas de tecnología y motores de búsqueda detrás de ellos, los asistentes de voz están mejorando todo el tiempo..

Sin embargo, aunque la tecnología ha mejorado de manera irrefutable desde que se abrió camino en los dispositivos de los consumidores, las limitaciones de la inteligencia artificial y el aprendizaje automático han hecho que los asistentes de voz sean relativamente toscos en cuanto a los sonidos que pueden interpretar y responder..

Suena plausible

Esto podría deberse en parte al énfasis del reconocimiento de voz sobre el reconocimiento de sonido; después de todo, una gran cantidad de la información sonora que nuestros cerebros toman diariamente proviene de sonidos no verbales, como el sonido de bocinas de un auto o un perro que ladra..

Aunque se cree que el origen del lenguaje es anterior a los humanos modernos, potencialmente incluso se remonta a Homo Ergaster (Hace 1.5-1.9 millones de años), nuestros antepasados ​​pudieron identificar y procesar el sonido mucho antes..

Si bien la comunicación verbal desempeña un papel importante en nuestra comprensión racional del mundo que nos rodea, es un sonido no verbal que a menudo genera una respuesta emocional, evolutiva, arraigada: sabemos con muy poco contexto que un animal gruñendo nos advierte que retrocedamos mientras lloramos. bebe necesita atencion Una fuerte explosión nos hace sentir asustados, y nos estremecemos, levantando nuestras manos para proteger nuestras cabezas.

No solo eso, sino que el sonido no verbal juega un papel muy importante en la forma en que nos comunicamos entre nosotros; por ejemplo, en respuesta al bebé que llora, un padre puede hacer un ruido de arrullo, tal como podríamos gritarle a un animal gruñendo para tratar de ahuyentarlo.

Entonces, si el sonido no verbal es tan importante para nuestra comprensión del mundo y la forma en que nos comunicamos, ¿por qué los asistentes activados por voz están tan preocupados por el lenguaje??

La misión de Audio Analytic

Una empresa británica cree que ha llegado el momento de que nuestros dispositivos conectados aprendan sobre el arte de escuchar el sonido puro. Audio Analytic es una empresa de reconocimiento de sonido con sede en Cambridge que se dedica a mejorar la tecnología inteligente en el hogar..

Dirigida por el CEO y fundador, el Dr. Chris Mitchell, la investigación de Audio Analytic sobre el reconocimiento de sonido y la inteligencia artificial (AI) significa que los asistentes de voz como Amazon Alexa pronto podrán recibir una importante capa adicional de información auditiva: contexto.

Después de completar un doctorado, centrándose en enseñar a las computadoras cómo reconocer los géneros musicales, Mitchell se dio cuenta de que no había ninguna empresa que trabajara principalmente en el reconocimiento de sonidos. Así que comenzó con una lista de todos los sonidos que podía pensar y sus características y con eso, configuró Audio Analytic..

Aunque Audio Analytic nació en el campo de la seguridad corporativa, Mitchell nos dijo que “La empresa encontró un mercado en el espacio electrónico del consumidor.” a medida que los dispositivos conectados se volvieron más comunes en el hogar promedio.

Con tantos micrófonos conectados entrando a nuestros hogares a través de altavoces inteligentes como Amazon Echo, Google Home y Apple HomePod, un “mundo de posibilidades” de repente se abrió a la empresa, con un enfoque particular en la seguridad del hogar inteligente.

¿Cómo hace que mi hogar sea más seguro??

Entonces, ¿cómo puede la tecnología de reconocimiento de sonido mejorar los dispositivos de seguridad inteligentes? Bueno, un ejemplo es si un ladrón intenta irrumpir en tu casa, rompiendo una ventana en el proceso. Si su altavoz inteligente tiene la capacidad de interpretar el sonido e identificar correctamente la amplificación, la longitud de onda y la frecuencia sónica de la rotura de vidrios, puede enviarle una notificación, así como enviar una señal a otros dispositivos conectados en el hogar..

Esto funciona particularmente bien cuando tiene dispositivos de seguridad inteligentes como el Hive Hub 360, que tiene incorporada la tecnología de reconocimiento de sonido de Audio Analytic. Esto significa que puede reconocer sonidos tan variados como su perro ladrando al sonido de las ventanas que se rompen, y como resultado , puede activar otros dispositivos Hive..

Por lo tanto, si se rompe una ventana en su hogar, puede configurar automáticamente sus Hive Lights para que enciendan y asusten a un posible intruso. Lo realmente inteligente de esta tecnología es que no le notifica sobre todos los sonidos de su hogar, solo los que considera importantes, gracias a la selección de diferentes sonidos o "ideófonos" en bibliotecas sónicas de Audio Analytic..

  • Las mejores cerraduras inteligentes: asegure su hogar con una cerradura inteligente moderna

¿Qué pasa con los asistentes de IA??

Aparte de la seguridad en el hogar, el otro resultado de la mejora en la tecnología de reconocimiento de sonido es más inteligente, más asistentes de voz empáticos, como explica Mitchell: “Si pudiera darle a un asistente de voz un sentido de conciencia, bienestar y todas las otras cosas que sé que provienen del sonido, entonces se pueden ampliar sus personalidades, así como su capacidad de respuesta y su utilidad..”

Piensa en el bebé que llora e imagina que tienes la biblioteca sónica de Audio Analytic incorporada en el punto de eco de Amazon en la habitación de tu hijo. Son las 1 am y estás metido en la cama cuando recibes una notificación en tu teléfono inteligente que te dice que Echo Dot ha detectado el llanto de un bebé..

Alexa luego enciende las luces en tu pasillo para que puedas encontrar tu camino en la oscuridad, mientras que el Echo Dot toca música relajante en la habitación del bebé. Tal vez Alexa incluso le habla al bebé, asegurándole que está en camino, o tal vez le lea un cuento antes de acostarse, calmando a su hijo hasta que llegue allí y le haga volver a dormir..

Ya sea que encuentre esto dulce o distópico al extremo, depende en gran medida de sus sentimientos hacia la tecnología de inteligencia artificial, pero claramente el reconocimiento de sonido tiene el potencial de hacer que los asistentes de voz como Alexa comprendan más, sean más humanos e infinitamente más inteligentes..

Mirando hacia el futuro

Puede tomar la analogía del niño que llora aún más cuando considera la conexión entre diferentes sonidos. Aunque el enfoque de Audio Analytic hasta ahora ha estado en el sonido individual, Mitchell cree que el futuro de la compañía radica en la identificación y contextualización de múltiples sonidos juntos..

“Imagina que el bebé está llorando, y ella ha estado tosiendo mucho y estornudando mucho ... de repente empiezas a crear una imagen mucho más rica ... así que, las combinaciones de todos estos efectos de sonido y el contexto [que] pintan podrían permitirle algo realmente útil caracteristicas,” él dice.

Si un asistente de voz puede identificar los sonidos del llanto, la tos y el estornudo, no es un gran salto sugerir que algún día podría vincular esos sonidos y deducir una posible causa; en este caso, el asistente de voz puede suponer el bebé no se siente bien con un resfriado y puede sugerir remedios, indicar el número del médico o pedirle un medicamento para la tos.

Este tipo de pensamiento racional es algo natural para los seres humanos, pero aún es una época temprana para entidades artificialmente inteligentes; sin embargo, proporcione a los asistentes de IA las herramientas adecuadas (es decir, bibliotecas sónicas expansivas), y no hay ninguna razón por la que esto no pueda ser una posibilidad en el futuro.

El problema de la IA.

Por supuesto, la idea de que un asistente de voz realice diagnósticos activará las alarmas para muchas personas; después de todo, la inteligencia artificial no se compara con el cerebro humano en términos de razonamiento e inteligencia emocional..

La inteligencia artificial no puede competir con millones de años de evolución y condicionamiento social, y el sesgo implícito en el nivel de datos y modelos algorítmicos significa que los asistentes de voz recogen prejuicios raciales, de género e ideológicos, lo que nos dificulta la confianza. completamente.

Sin embargo, los asistentes de voz impulsados ​​por el aprendizaje automático están mejorando cada día, y es posible que no pase mucho tiempo antes de que veamos a Alexa un poco más humana, especialmente si sus algoritmos están mejor capacitados para interpretar datos sónicos y lingüísticos..

Y si eso significa que no hay más tropezar con juguetes en la oscuridad, entonces cuéntenos en.

  • Los mejores altavoces inteligentes 2018: ¿cuál debería comprar??