Platão Inteligência de Dados.
Pesquisa Vertical e AI.

Stability AI lança Stable Audio 2 - o gerador de música consegue superar o 'alucinante' Suno 3? – Descriptografar

Data:

Stability AI, um desenvolvedor líder de inteligência artificial comprometido com o espírito de código aberto, lançou Stable Audio 2 esta semana, um novo gerador de áudio e música. É o primeiro grande lançamento desde o lançamento do Stable Audio em setembro, com uma série de melhorias que aumentam a competição entre ferramentas de empresas como Suno, Google e Meta.

“O Stable Audio 2.0 permite faixas completas de alta qualidade com estrutura musical coerente de até três minutos de duração em estéreo de 44.1 kHz a partir de um único prompt de linguagem natural”, Stability AI Declarado.

O anúncio ocorre em meio a um momento difícil para a Estabilidade, que havia supostamente esgotou suas reservas de caixa antes que o CEO Emad Mostaque renunciasse há duas semanas.

Mesmo assim, a empresa continua avançando no espaço de IA de código aberto. Além do Stable Audio, a empresa lançou um novo LLM de codificação chamado Stable Code Instruct 3B em 25 de março e lançou um gerador avançado de texto para vídeo de código aberto chamado Difusão de vídeo estável ano passado.

Stability AI também está pronto para lançar seu gerador de imagem mais avançado, Difusão estável 3, ainda este ano.

Entre os adeptos do código aberto, a Stability AI desempenha um papel de liderança ao lado de nomes notáveis ​​como Mistral e Nous. Outras grandes empresas de tecnologia também estão explorando o espaço do código aberto, com a Meta e a Microsoft compartilhando contribuições importantes.

Áudio de estabilidade interna

Em sua essência, Stable Audio 2 aproveita a tecnologia de transformador de difusão (DiT), seguindo a mesma abordagem do próximo gerador de imagem Stable Diffusion 3 da Stability AI, representando uma mudança em relação à tecnologia U-Net adotada anteriormente.

DiT e U-Net são arquiteturas comuns usadas em aprendizado de máquina, mas DiT foi projetado para refinar gradualmente o ruído aleatório em dados estruturados, tornando-o particularmente eficaz no tratamento de longas sequências de dados. A U-Net, por outro lado, concentra-se na precisão para gerações curtas, mas é menos capaz de lidar com sequências mais longas e complexas.

Entre as principais atualizações do Stable Audio 2 está a geração de áudio para áudio, um novo recurso que permite aos usuários transformar amostras de som que carregam – semelhante ao img2img do Stable Diffusion para modificação de imagem.

“Os usuários agora podem fazer upload de amostras de áudio e, por meio de instruções de linguagem natural, transformar essas amostras em uma ampla variedade de sons”, explica o anúncio. “Esta atualização também expande a geração de efeitos sonoros e a transferência de estilo, proporcionando aos artistas e músicos mais flexibilidade, controle e um processo criativo elevado.”

Em outras palavras, Stable Audio 2 não começa a refinar um ruído aleatório, em vez disso modela o arquivo de áudio inicial para que corresponda ao prompt do usuário. O resultado é uma geração que segue o prompt, mas soa semelhante ao áudio de referência.

A empresa apregoa o fato de que o Stable Audio 2 foi treinado exclusivamente em um conjunto de dados licenciado do ÁudioSparx Biblioteca de música. Isto garante que todos os artistas tenham a opção de optar por não participar do treinamento do modelo Stable Audio, honrando seus direitos e garantindo uma compensação justa.

Descifrar testei o modelo e os resultados mostraram melhorias significativas em comparação com Stable Audio 1.0. As faixas musicais geradas eram mais coerentes e as gerações eram mais longas – duas vezes mais longas que o limite de 90 segundos da versão um.

O estilo de prompt do Stable Audio 2 se assemelha ao do Stable Diffusion 1.5, concentrando-se fortemente em tags ou palavras-chave. As instruções em linguagem natural não produzem bons resultados.

O modelo parece mais adequado para inspiração ou música de fundo, em vez de substituir músicos devidamente treinados por músicas marcantes. Em muitos casos, gerações sofreram de múltiplas alucinações e sons discordantes que divergiam do prompt. Ainda assim, muitas vezes gerava bons riffs que poderiam ser usados ​​mais tarde.

Áudio estável 2 versus Suno 3

Por mais impressionante que seja o Stable Audio 2 – especialmente em comparação com seu antecessor – seus recursos diminuem rapidamente quando comparados aos sons e músicas gerados pelo Suno 3, uma atualização do gerador de áudio líder lançado há apenas um mês. Muitos entusiastas de IA dizem que Suno 3 é o melhor modelo no espaço musical de IA, com Kevin Hutson da Futurepedia descrevendo-o como “surpreendente”E MatVidPro dizendo que é um“trocador de jogos. "

Embora o que torna uma faixa de música agradável - ou mesmo simplesmente boa - seja relativo, Decrypt tentou uma comparação lado a lado de Stable Audio 2 e Suno 3 usando os mesmos prompts. É uma abordagem imperfeita, dadas as diferenças em seus estilos de prompt ideais – o Stable Audio prefere palavras-chave e o Suno 3 espera uma linguagem natural.

Decidimos usar a abordagem Stability AI, mesmo que isso pudesse prejudicar Suno. Felizmente, o Suno 3 foi capaz de compreender efetivamente nossas instruções, fornecendo uma maneira razoável de comparar seus resultados.

Ainda assim, o estilo de solicitação de áudio estável não é amigável para iniciantes – usar apenas palavras-chave e tags pode limitar a criatividade e a complexidade da saída. Uma solicitação normal do Suno, por exemplo, poderia ser: “Uma música pop rock sobre Descifrar, um site de mídia que cobre o espaço de IA.” Um prompt típico de Áudio Estável seria algo como “Formato: Banda | Instrumentos: bateria, guitarra elétrica, baixo, teclados, | Gênero: Rock | Subgênero: Heavy Metal.”

De cara, o Suno 3 tem uma grande vantagem sobre a concorrência: além de aceitar prompts em linguagem natural, pode se integrar a um modelo de linguagem grande (LLM) para gerar letras.

Em termos de qualidade do áudio gerado, Stable Audio 2 fica aquém do Suno 3. Embora Stability AI tenha dito que sua ferramenta pode gerar música coerente com até três minutos de duração, as faixas tendem a ser mais simples, sem criatividade e complexidade estrutural. do áudio gerado pelo Suno 3. As gerações do Suno 3 normalmente incluem uma estrutura musical adequada com riffs, refrões, pontes e variações naturais, fazendo com que a saída pareça mais uma música completa do que uma faixa instrumental de fundo.

Além disso, as transições entre riffs nas gerações musicais do Stable Audio são muitas vezes abruptas. Isso contrasta fortemente com o Suno 3, que geralmente faz transições suaves entre as diferentes partes da música, criando uma experiência auditiva mais agradável.

Outra diferença notável entre os dois modelos é a velocidade de geração de áudio. Suno 3 gera áudio muito mais rápido do que Stable Audio 2. Embora isso possa ser um problema de servidor, ainda é um fator importante a ser considerado, especialmente para usuários que precisam gerar áudio de forma rápida e eficiente.

Mas há uma coisa que o Stable Audio 2 faz que o Suno 3 não pode fazer: gerações de áudio para áudio.

Com Stable Audio 2, você poderia assobiar a melodia de uma música, por exemplo, e Stable Audio daria vida às suas ideias. Este é um nível de controle que os usuários do Suno ainda não possuem. Embora não seja um obstáculo para nós, isso definitivamente pode ser importante para muitos.

Tanto o Stable Audio quanto o Suno são poderosos e vale a pena tentar, especialmente se você tem um bug na criação de música, mas não tem habilidades musicais. Mas o Stable Audio pode precisar avançar para sua terceira versão para ficar perto da mesma geração do Suno.

Editado por Ryan Ozawa.

Fique por dentro das notícias sobre criptomoedas, receba atualizações diárias em sua caixa de entrada.

local_img

Inteligência mais recente

local_img

Fale Conosco

Olá! Como posso ajudá-lo?