Suno ma problem? Darmowe narzędzia AI do generowania muzyki otrzymały potężne aktualizacje

sluchawki muzyka

W jednym tygodniu na rynek trafiły dwa nowe modele AI do generowania muzyki. Jeden z nich to dzieło założonej przez Polaków firmy ElevenLabs. 


  • ElevenLabs wypuściło model Music v2, który potrafi zmieniać gatunek w środku utworu, budować piosenkę sekcja po sekcji i ponownie generować pojedyncze fragmenty bez modyfikowania reszty piosenki.
  • Propozycja od Stability AI to Stable Audio 3.0 – rodzina czterech modeli open-source, generująca utwory o długości do 6 minut i 20 sekund.

ElevenLabs i Stability AI wypuszczają konkurentów Suno

Pierwsza premiera to Music v2 – drugi muzyczny model ElevenLabs, który obiecuje spójność generowanych utworów. Według firmy pojedyncza piosenka może przechodzić przez różne gatunki – od opery, przez rap do heavy metalu bez rozpadania się całej kompozycji.

Najbardziej praktyczną nowością jest tutaj tzw. inpainting pozwalający na zaznaczenie fragmentu utworu i ponowne jego wygenerowanie, przy czym reszta zostaje nietknięta.

To bardzo przydatne w przypadku gdy chcemy powycinać z utworu dziwne halucynacje modelu czy fragmenty, które po prostu nie przypadły nam do gustu.

W ich miejsce V2 wygeneruje nowe fragmenty, które wpasują się w całość piosenki.

 

ElevenLabs pozwala nam także budować utwory sekcja po sekcji – od intro, przez zwrotkę, aż po bridge i refren – przy czym model zachowuje ciągłość, zamiast traktować każdy fragment jak osobną generację.

Druga premiera dotyczy rodziny Stable Audio 3.0 od Stability AI, która dostarcza cztery modele:

  • Small SFX – generujący efekty dźwiękowe.
  • Small – generuje pełne utwory.
  • Medium – generuje utwory do 6 minut i 20 sekund.
  • Large – najmocniejszy model, dostępny wyłącznie przez API.

Wszysttkie modele poza Large mają otwarte wagi udostępnione na platformie Hugging Face.

Przy tym wersje Small mają po 459 mln parametrów (nie wymagają karty graficznej), model Medium ma ich 1,4 mld, a największy model Large to już 2,7 mld parametrów.

Co ważne – modele obsługują dostrajanie metodą LoRA, która pozwala użytkownikowi trenować AI na własnych utworach. 

ElevenLabs Music v2 i Stable Audio 3.0 próbują uszczknąć kawałek rynku, który aktualnie kontroluje Suno, ale robią to różnymi sposobami.

Ten pierwszy model celuje w jakość i oddanie twórcy kontroli nad utworami, drugi – oddaje wagi społeczności i czeka, aż deweloperzy stworzą wokół nich własne aplikacje.

W tym wszystkim najważniejsze jest jednak brzmienie, więc czy któraś z tych pozycji jest w stanie być realnym zagrożeniem dla Suno?

Aktualnie wygląda na to, że niekoniecznie.

Próbki Stable Audio 3.0 nie pokazują nam niczego, czego Suno nie potrafiłoby wygenerować, jednak modele wciąż są dostępne za darmo, co jest ich ogromną zaletą.

W przypadku ElevenLabs, które jest opcją płatną, wygląda to nieco inaczej. Utwory generowane z tych samych promptów w Suno i Music v2 w tym drugim przypadku mają niższej jakości, sztuczne wokale, w najgorszych przypadkach brzmiąc jak flagowy AI Slop – co pokazały testy na kanale MattVidPro.


Śledź CrypS. w Google News. Czytaj najważniejsze wiadomości bezpośrednio w Google! Obserwuj ->

Zajrzyj na nasz telegram i dołącz do Crypto. Society. Dołącz ->