Cómo HomePod usa el aprendizaje automático para aumentar la precisión de Siri de campo lejano

En una nueva publicación publicada el lunes a través de su blog Machine Learning Journal, Apple detalla cómo HomePod, su altavoz inteligente inalámbrico, utiliza el aprendizaje automático para aumentar la precisión de campo lejano, lo que ayuda a Siri a ignorar o suprimir los sonidos de fondo para comprender mejor su voz. solicitudes en entornos ruidosos.

Del artículo:

El entorno de audio típico para HomePod tiene muchos desafíos: eco, reverberación y ruido. A diferencia de Siri en iPhone, que opera cerca de la boca del usuario, Siri en HomePod debe funcionar bien en un entorno de campo lejano. Los usuarios quieren invocar a Siri desde muchos lugares, como el sofá o la cocina, sin importar dónde se sienta HomePod.

Un sistema en línea completo, que aborda todos los problemas ambientales que puede experimentar HomePod, requiere una estrecha integración de varias tecnologías de procesamiento de señales multicanal. En consecuencia, los equipos de Ingeniería de Software de Audio y Siri Speech crearon un sistema que integra tanto modelos de aprendizaje profundo supervisados ​​como algoritmos de aprendizaje en línea sin supervisión y que aprovecha múltiples señales de micrófono.

El sistema selecciona el flujo de audio óptimo para el reconocedor de voz utilizando el conocimiento de arriba a abajo de los detectores de frases de activación 'Hey Siri'.

El resto del artículo analiza el uso de las diversas técnicas de aprendizaje automático para el procesamiento de señales en línea, así como los desafíos que Apple enfrentó y sus soluciones para lograr la robustez ambiental y algorítmica al tiempo que garantiza la eficiencia energética..

Para resumir, Siri en HomePod implementa el algoritmo de cancelación de eco multicanal (MCEC) que utiliza un conjunto de filtros adaptativos lineales para modelar las múltiples rutas acústicas entre los altavoces y los micrófonos para cancelar el acoplamiento acústico.

Debido a la proximidad de los altavoces a los micrófonos en HomePod, la señal de reproducción puede ser significativamente más alta que el comando de voz de un usuario en las posiciones del micrófono, especialmente cuando el usuario se aleja del dispositivo. De hecho, las señales de eco pueden ser 30-40 dB más altas que las señales de voz de campo lejano, lo que hace que la frase de activación sea indetectable en los micrófonos durante la reproducción de música a todo volumen.

TLDR: MCEC por sí solo no puede eliminar la señal de reproducción completamente de su comando de voz.


Comando Siri grabado en presencia de música de reproducción alta: señal de micrófono (arriba), salida de MCEC (medio) y señal mejorada por la supresión de eco basada en máscara de Apple (abajo)

Para eliminar el contenido de reproducción restante después del MCEC, HomePod utiliza un enfoque de supresor de eco residual (RES) con un poco de ayuda del modelo de aprendizaje automático bien entrenado de Apple. Para una detección exitosa de la frase activadora, el RES hace cosas como mitigar el eco lineal residual, especialmente en presencia de cambios de doble conversación y eco..

Asegúrese de leer la publicación completa y desplácese hacia abajo hasta la Sección 7, donde tiene imágenes de múltiples formas de onda coloridas junto con enlaces debajo de ellas que le permiten escuchar por sí mismo cuánto de la solicitud de un usuario se suprime al reproducir música a un volumen alto y señal de reproducción generada por los tweeters y woofer de HomePod.

Tidbit: el procesamiento de señal multicanal de Apple se ejecuta en un núcleo del silicio A8 de doble núcleo a 1,4 GHz y consume hasta el 15 por ciento del rendimiento de un solo núcleo del chip.

HomePod utiliza el aprendizaje automático para muchas cosas, no solo Siri.

Los algoritmos de recomendación de contenido que se ejecutan en el dispositivo se benefician del aprendizaje automático, al igual que las técnicas de optimización de sonido y procesamiento de audio digital de HomePod.