En nombroses ocasions ens pregunten com produïm la música amb IA. No tenim secrets misteriosos. Ara os expliquem algunes proves que realitzem, amb que i com.
Aquests dies estem duent a terme proves amb YuE, un innovador model dissenyat per a la generació completa de cançons a partir de lletres proporcionades. Aquest model, desenvolupat pel projecte Multimodal Art Projection, destaca per la seva capacitat per transformar lletres en composicions musicals completes, oferint una eina poderosa per a la creació artística assistida per intel·ligència artificial.
YuE és un model fonamental de generació musical que permet la creació de cançons senceres a partir de lletres. Aquesta capacitat obre noves possibilitats en la producció musical, permetent als creadors explorar noves formes d’expressió i col·laboració amb la tecnologia.
El model YuE destaca per la seva capacitat multimodal, que combina la comprensió de textos i la generació de música. Està dissenyat per transformar lletres proporcionades en cançons completes, incloent-hi melodia, harmonia i estructura. Amb una durada de tres minuts per cançó, YuE permet experimentar amb una àmplia varietat d’estils musicals. Aquesta flexibilitat es basa en la seva formació amb grans bases de dades musicals que inclouen diversos gèneres i formats, assegurant resultats adaptats i coherents amb les lletres introduïdes.
El model utilitza arquitectura avançada basada en xarxes neuronals transformers per analitzar les lletres i generar patrons melòdics i harmònics que s’ajustin a l’emoció i significat del text. Gràcies al seu enfocament en la generació seqüencial, YuE aconsegueix una cohesió global en les seves composicions, simulant processos creatius humans.
Per executar YuE de manera eficient, el model requereix una GPU amb almenys 16 GB de memòria dedicada per gestionar les operacions intensives de processament i generació musical. A més, es recomana utilitzar un sistema amb almenys 32 GB de RAM i una CPU d’alt rendiment per assegurar una execució fluida. Per estalviar memòria de la GPU, cal FlashAttention 2 . Sense F2, les seqüències de gran longitud provocaran errors de manca de memòria (OOM), especialment a GPU amb memòria limitada.
El programari està desenvolupat per a ser compatible amb Python, el que facilita la seva integració en entorns de treball existents per a investigadors i creadors musicals. Es recomana Python >=3.8. YuE requereix una quantitat important de memòria de GPU per generar seqüències llargues. A continuació, es mostren les configuracions recomanades:
Per a GPU amb 24 GB de memòria o menys : executeu fins a 2 sessions simultàniament per evitar errors de manca de memòria (OOM). Per generar cançons completes (moltes sessions, p. ex., 4 o més): utilitzeu GPU amb almenys 80 GB de memòria . Això es pot aconseguir combinant diverses GPU i habilitant el paral·lelisme tensorial.
Per personalitzar la quantitat de sessions, la interfície us permet especificar la quantitat de sessions desitjada. Per defecte, el model executa 2 sessions per a un ús òptim de la memòria.
YuE es posiciona com una eina potent per a creadors, investigadors i professionals interessats a explorar el potencial de la intel·ligència artificial aplicada a la música. A Ràdio Verdú, estem explorant les capacitats de YuE per entendre com aquesta tecnologia pot integrar-se en els nostres processos creatius i de producció. Les nostres proves se centren en avaluar la qualitat de les cançons generades, la coherència entre les lletres i la música, i el potencial d’aquesta eina per a projectes futurs.
Aquestes proves formen part del nostre compromís continuat amb la innovació i l’exploració de noves tecnologies que puguin enriquir la nostra oferta de continguts i aportar noves experiències als nostres oients. Estem explorant les possibilitats que YuE ofereix i esperem compartir els resultats d’aquestes proves en un futur proper.
Un tast