Apple publicó el miércoles tres nuevos artículos que detallan las técnicas de aprendizaje profundo utilizadas para la creación de las nuevas voces sintéticas de Siri. Los informes también cubren otros temas de aprendizaje automático que compartirá más adelante esta semana en la conferencia Interspeech 2017 en Estocolmo, Suecia..
Los siguientes artículos nuevos del equipo Siri ya están disponibles:
- Deep Learning for Siri's Voice detalla cómo se utilizan las redes de densidad de mezcla profunda en el dispositivo para la síntesis de selección de unidades híbridas
- Normalización de texto inverso: abordada desde una perspectiva de etiquetado
- Mejora de los modelos acústicos de la red neuronal: aprovechando el ancho de banda cruzado y la inicialización multilingüe, si sabes a lo que me refiero
Si tiene problemas para comprender los tecnicismos o incluso para comprender la naturaleza altamente técnica del lenguaje utilizado en los últimos escritos, no está solo.
No tengo ningún problema en profundizar en la compleja documentación de Apple para desarrolladores y otra documentación especializada, pero me siento francamente estúpido solo leyendo esos explicadores detallados.
Entre otras mejoras, iOS 11 ofrece más inteligencia y una nueva voz para Siri.
El asistente personal de Apple ya no usa frases y palabras grabadas por actores de voz para construir oraciones y sus respuestas. En cambio, Siri en iOS 11 (y otras plataformas) adopta voces masculinas y femeninas creadas mediante programación. Esa es una técnica de síntesis de voz mucho más difícil, pero permite algunas posibilidades creativas realmente geniales.
Por ejemplo, las nuevas voces de Siri aprovechan el aprendizaje automático en el dispositivo y la inteligencia artificial para ajustar la entonación, el tono, el énfasis y el tempo mientras hablan, en tiempo real, teniendo en cuenta el contexto de la conversación. El artículo de Apple titulado "Aprendizaje profundo para la voz de Siri" detalla las diversas técnicas de aprendizaje profundo detrás de las mejoras de voz Siri de iOS 11.
De acuerdo con el párrafo inicial:
Siri es un asistente personal que se comunica mediante síntesis de voz. Comenzando en iOS 10 y continuando con nuevas características en iOS 11, basamos las voces de Siri en el aprendizaje profundo. Las voces resultantes son más naturales, más suaves y permiten que la personalidad de Siri brille.
Los nuevos informes se publicaron en el blog oficial Apple Machine Learning Journal, establecido hace unas semanas para cubrir los esfuerzos de la compañía en el campo del aprendizaje automático, la inteligencia artificial y la investigación relacionada..
Apple siguió adelante con el blog luego de las críticas de que no podía contratar a las mentes más brillantes en inteligencia artificial y aprendizaje automático porque no les permitía publicar sus trabajos..
La publicación inaugural, titulada "Mejorando el realismo de las imágenes sintéticas", se publicó en julio. El artículo detallado describe un nuevo método para mejorar el realismo de las imágenes sintéticas de un simulador utilizando datos reales sin etiquetar mientras se preserva la información de la anotación..