Meta rilascia strumenti audio AI open source, AudioCraft

Benj Edwards - 2 agosto 2023 20:56 UTC

Mercoledì, Meta ha annunciato l'open source di AudioCraft, una suite di strumenti di intelligenza artificiale generativa per creare musica e audio da istruzioni di testo. Con gli strumenti, i creatori di contenuti possono inserire semplici descrizioni di testo per generare paesaggi audio complessi, comporre melodie o persino simulare intere orchestre virtuali.

AudioCraft è costituito da tre componenti principali: AudioGen, uno strumento per generare vari effetti audio e paesaggi sonori; MusicGen, che può creare composizioni musicali e melodie dalle descrizioni; ed EnCodec, un codec di compressione audio basato su rete neurale.

In particolare, Meta afferma che EnCodec, di cui abbiamo parlato per la prima volta a novembre, è stato recentemente migliorato e consente "una generazione di musica di qualità superiore con meno artefatti". Inoltre, AudioGen può creare effetti sonori audio come l'abbaiare di un cane, il suono del clacson di un'auto o i passi su un pavimento di legno. E MusicGen può creare da zero canzoni di vari generi, basandosi su descrizioni come "Traccia pop dance con melodie accattivanti, percussioni tropicali e ritmi allegri, perfetti per la spiaggia".

Meta ha fornito diversi campioni audio sul suo sito Web per la valutazione. I risultati sembrano in linea con le loro etichette all'avanguardia, ma probabilmente non sono di qualità abbastanza elevata da sostituire gli effetti audio o la musica commerciali prodotti professionalmente.

Meta osserva che mentre i modelli di intelligenza artificiale generativa incentrati su testo e immagini fisse hanno ricevuto molta attenzione (e sono relativamente facili da sperimentare online per le persone), lo sviluppo di strumenti audio generativi è rimasto indietro. "C'è del lavoro là fuori, ma è molto complicato e non molto aperto, quindi le persone non sono in grado di giocarci facilmente", scrivono. Ma sperano che il rilascio di AudioCraft sotto la licenza MIT contribuirà alla comunità più ampia fornendo strumenti accessibili per la sperimentazione audio e musicale.

"I modelli sono disponibili per scopi di ricerca e per approfondire la comprensione della tecnologia da parte delle persone. Siamo entusiasti di fornire a ricercatori e professionisti l'accesso in modo che possano addestrare i propri modelli con i propri set di dati per la prima volta e contribuire a far avanzare lo stato dell'arte ", ha detto Meta.

Meta non è la prima azienda a sperimentare generatori audio e musicali basati sull'intelligenza artificiale. Tra alcuni dei tentativi recenti più importanti, OpenAI ha debuttato con il suo Jukebox nel 2020, Google ha debuttato con MusicLM a gennaio e lo scorso dicembre un team di ricerca indipendente ha creato una piattaforma di generazione di testo in musica chiamata Riffusion utilizzando una base di diffusione stabile.

Nessuno di questi progetti audio generativi ha attirato tanta attenzione quanto i modelli di sintesi delle immagini, ma ciò non significa che il processo di sviluppo non sia meno complicato, come nota Meta sul suo sito web:

La generazione di audio ad alta fedeltà di qualsiasi tipo richiede la modellazione di segnali e modelli complessi su scale variabili. La musica è probabilmente il tipo di audio più difficile da generare perché è composta da modelli locali e ad ampio raggio, da una suite di note a una struttura musicale globale con più strumenti. La generazione di musica coerente con l’intelligenza artificiale è stata spesso affrontata attraverso l’uso di rappresentazioni simboliche come MIDI o rulli di pianoforte. Tuttavia, questi approcci non riescono a cogliere appieno le sfumature espressive e gli elementi stilistici presenti nella musica. I progressi più recenti sfruttano l’apprendimento della rappresentazione audio autocontrollato e una serie di modelli gerarchici o a cascata per generare musica, inserendo l’audio grezzo in un sistema complesso per catturare strutture a lungo raggio nel segnale generando al contempo audio di qualità. Ma sapevamo che si poteva fare di più in questo campo.

In mezzo alle polemiche sul materiale di formazione non divulgato e potenzialmente non etico utilizzato per creare modelli di sintesi di immagini come Stable Diffusion, DALL-E e Midjourney, è degno di nota che Meta affermi che MusicGen è stato addestrato su "20.000 ore di musica di proprietà di Meta o concessa in licenza specificatamente per questo scopo." In apparenza, ciò sembra un passo in una direzione più etica che potrebbe piacere ad alcuni critici dell’intelligenza artificiale generativa.

Notizia

Meta rilascia strumenti audio AI open source, AudioCraft