Se imagina dibujar un retrato, tan solo escuchar la voz, y sin tener referencia visual previa, al parecer es posible gracias a la Inteligencia Artificial.
La tecnología Speech2Face desarrolladas por ingenieros estadounidenses del MIT, es capaz de reconstruir una imagen facial usando una grabación de audio.
La innovación puede realizar debido a una red neuronal profunda impulsada por Inteligencia Artificial; y que es alimentada por millones de videos naturales de personas que hablan desde Internet.
Para ello, fue necesario entrenar al modelo Speech2Face ayudándolo a aprender correlaciones audiovisuales, es decir voz-cara.
“Nuestro modelo está diseñado para revelar correlaciones estadísticas que existen entre los rasgos faciales y las voces de los hablantes en los datos de entrenamiento. Los datos de entrenamiento que utilizamos son una colección de videos educativos de YouTube, y no representan por igual a toda la población mundial. Por lo tanto, el modelo, como es el caso con cualquier modelo de aprendizaje automático, se ve afectado por esta distribución desigual de datos”, dijeron los investigadores.
Speech2Face puede producir imágenes que capturan varios atributos físicos de los hablantes, como la edad, el género y el origen étnico.
A su vez, los investigadores del MIT no tuvieron que monitorear Speech2Face durante el entrenamiento, ya que se completó de manera auto supervisada utilizando la co-ocurrencia natural de caras y habla en videos sin la necesidad de modelar atributos explícitamente.
Todas las reconstrucciones se obtuvieron directamente del audio para revelar las correlaciones entre rostros y voces. Lo que permitió a los ingenieros del MIT evaluar y cuantificar numéricamente cómo las reconstrucciones de Speech2Face a partir de audio se asemejan a las imágenes de la cara real de las personas.
Una vez más, los resultados de la IA fueron sorprendentemente cercanos a las caras reales en un gran porcentaje de casos. Aunque en otros casos, no fue tan exitoso, sobre todo cuando se trataba de rangos vocales más altos.
MIT’s AI-Powered Speech2Face Technology Can Use Your Voice to Predict What You Look Like – TechEBlog https://t.co/Z34mtpToIB
— CurrentTime News (@CurrenttimeN) April 6, 2022