Por cierto. Este ejemplo de generación de audio hay que ponerlo en duda hasta tener más detalles, porque el prompt es "play the sound" y eso podría ser que la IA pudiera buscar de un listado de audios el que responda a esa petición. No sería generación sino retrieval multimodal.
Audio Generation vs Multimodal Retrieval: Critical Analysis
By
–
