Stability AI، یک توسعهدهنده پیشرو هوش مصنوعی متعهد به اخلاق منبع باز، Stable Audio 2 را این هفته منتشر کرد، یک تولیدکننده صوتی و موسیقی جدید. این اولین نسخه مهم از زمان عرضه Stable Audio در ماه سپتامبر است، با تعدادی پیشرفت که رقابت را در میان ابزارهای شرکت هایی مانند Suno، Google و Meta افزایش می دهد.
Stable Audio 2.0 آهنگهای با کیفیت بالا و کامل را با ساختار موسیقی منسجم تا سه دقیقه با فرکانس استریو 44.1 کیلوهرتز از طریق یک دستور زبان طبیعی فعال میکند. اظهار شده.
این اعلامیه در بحبوحه زمان دشواری برای ثبات منتشر شد گزارش شده است که ذخایر نقدی خود را تخلیه کرده است قبل از اینکه دو هفته پیش عماد مستقع مدیرعامل این شرکت استعفا داد.
با این وجود، این شرکت به پیشروی در فضای AI منبع باز ادامه می دهد. علاوه بر Stable Audio، این شرکت یک LLM کدنویسی جدید به نام Stable Code Instruct 3B را در 25 مارس راه اندازی کرد و یک ژنراتور متن-به-ویدئوی متن باز پیشرفته به نام انتشار ویدئوی پایدار سال گذشته است.
هوش مصنوعی پایداری همچنین قرار است پیشرفته ترین مولد تصویر خود را منتشر کند. انتشار پایدار 3بعداً امسال
در میان طرفداران منبع باز، هوش مصنوعی پایداری در کنار نام های برجسته ای مانند Mistral و Nous نقش اصلی را ایفا می کند. با این حال، سایر شرکتهای بزرگ فناوری نیز در حال کاوش در فضای منبع باز هستند، اما متا و مایکروسافت سهم مهمی دارند.
معرفی Stable Audio 2.0 – یک مدل جدید که قادر به تولید آهنگهای با کیفیت بالا و کامل با ساختار موسیقی منسجم تا سه دقیقه در استریو 44.1 کیلوهرتز از یک پیام واحد است.
مدل را کاوش کنید و شروع به ایجاد رایگان در: https://t.co/E9ZIGagmPf
خواندن … pic.twitter.com/rFGb0KpdeX
- هوش مصنوعی پایداری (@StabilityAI) آوریل 3، 2024
صدای پایداری داخلی
Stable Audio 2 در هسته خود از فناوری ترانسفورماتور انتشار (DiT) استفاده می کند، که همان رویکردی را دنبال می کند که مولد تصویر آینده Stable Diffusion 3 Stability AI، نشان دهنده تغییری از فناوری U-Net قبلاً پذیرفته شده آن است.
DiT و U-Net هر دو معماریهای رایجی هستند که در یادگیری ماشینی استفاده میشوند، اما DiT به گونهای طراحی شده است که نویز تصادفی را به صورت تدریجی در دادههای ساختیافته اصلاح کند، و به ویژه در مدیریت توالی دادههای طولانی موثر است. در مقابل، U-Net بر روی دقت برای نسلهای کوتاه تمرکز میکند، اما توانایی کمتری در مدیریت توالیهای طولانیتر و پیچیدهتر دارد.
یکی از ارتقاهای اصلی در Stable Audio 2، تولید صدا به صدا است، ویژگی جدیدی که کاربران را قادر میسازد تا نمونههای صوتی را که آپلود میکنند تغییر دهند - شبیه img2img Stable Diffusion برای اصلاح تصویر.
در این اطلاعیه توضیح داده شده است: «کاربران اکنون میتوانند نمونههای صوتی را آپلود کنند و از طریق درخواستهای زبان طبیعی، این نمونهها را به طیف وسیعی از صداها تبدیل کنند. این بهروزرسانی همچنین تولید جلوههای صوتی و انتقال سبک را گسترش میدهد و به هنرمندان و نوازندگان انعطافپذیری، کنترل و فرآیند خلاقیت بالاتری ارائه میدهد.»
به عبارت دیگر، Stable Audio 2 شروع به اصلاح یک نویز تصادفی نمی کند، در عوض فایل صوتی اولیه را برای مطابقت با درخواست کاربر مدل سازی می کند. نتیجه نسلی است که از دستور پیروی می کند اما صدایی شبیه به صدای مرجع دارد.
این شرکت ادعا می کند که Stable Audio 2 به طور انحصاری بر روی مجموعه داده های مجوزدار آموزش داده شده است AudioSparx کتابخانه موسیقی این تضمین میکند که به همه هنرمندان این امکان داده شده است که از آموزش مدل صوتی پایدار، احترام به حقوق خود و تضمین غرامت عادلانه انصراف دهند.
رمزگشایی کنید مدل را آزمایش کرد و نتایج بهبودهای قابل توجهی را در مقایسه با Stable Audio 1.0 نشان داد. آهنگهای موسیقی تولید شده منسجمتر بودند، و نسلها طولانیتر بودند - دو برابر محدودیت 90 ثانیهای نسخه یک.
سبک درخواست Stable Audio 2 شبیه Stable Diffusion 1.5 است که به شدت بر روی برچسب ها یا کلمات کلیدی تمرکز می کند. درخواستهای زبان طبیعی نتایج خوبی به همراه ندارد.
به نظر می رسد این مدل برای الهام گرفتن یا موسیقی پس زمینه به جای جایگزینی نوازندگان آموزش دیده مناسب برای آهنگ های خیمه شب بازی مناسب است. در بسیاری از موارد، نسلها از توهمهای متعدد و صداهای ناسازگاری رنج میبردند که از خواستهها فاصله میگرفت. با این حال، اغلب ریفهای خوبی تولید میکرد که بعداً میتوان از آنها استفاده کرد.
صدای پایدار 2 در مقابل سونو 3
همانقدر که Stable Audio 2 قابل توجه است – به ویژه در مقایسه با نسخه قبلی خود – قابلیت های آن در مقایسه با صداها و آهنگ های تولید شده توسط Suno 3، به روز رسانی برای تولید کننده صوتی پیشرو که تنها یک ماه پیش منتشر شد، به سرعت از بین می رود. بسیاری از علاقه مندان به هوش مصنوعی می گویند که Suno 3 بهترین مدل در فضای موسیقی هوش مصنوعی است و کوین هاتسون از Futurepedia آن را چنین توصیف می کند:ذهنیو MatVidPro گفت که این یکتعویض بازی"
در حالی که چیزی که یک آهنگ موسیقی دلپذیر و یا حتی به سادگی خوب می کند نسبی است، Decrypt سعی کرد با استفاده از همان دستورات، Stable Audio 2 و Suno 3 را با هم مقایسه کند. این یک رویکرد ناقص است، با توجه به تفاوتهایی که در سبکهای پیشنهادی بهینه آنها وجود دارد - Stable Audio کلمات کلیدی را ترجیح میدهد و Suno 3 انتظار زبان طبیعی را دارد.
ما تصمیم گرفتیم از رویکرد هوش مصنوعی پایداری استفاده کنیم، حتی اگر این روش ممکن است به ضرر Suno باشد. خوشبختانه، Suno 3 توانست به طور موثر دستورالعمل های ما را درک کند و روشی معقول برای مقایسه خروجی آنها ارائه دهد.
با این حال، سبک اعلان صوتی پایدار برای مبتدیان دوستانه نیست - فقط استفاده از کلمات کلیدی و برچسبها میتواند خلاقیت و پیچیدگی خروجی را محدود کند. برای مثال، یک پیام معمولی Suno میتواند این باشد: «یک آهنگ پاپ راک در مورد رمزگشایی کنیدیک سایت رسانه ای که فضای هوش مصنوعی را پوشش می دهد. یک اعلان صدای پایدار معمولی چیزی شبیه به "Format: Band | سازها: درام، گیتار الکتریک، باس، کیبورد،| ژانر: راک | ژانر فرعی: هوی متال.
در خارج از دروازه، Suno 3 یک مزیت بزرگ نسبت به رقبا دارد: علاوه بر پذیرش درخواستهای زبان طبیعی، میتواند با یک مدل بزرگ زبان (LLM) برای تولید اشعار ادغام شود.
از نظر کیفیت صدای تولید شده، Stable Audio 2 در مقابل Suno 3 قرار دارد. در حالی که هوش مصنوعی Stability گفته است که ابزار آن می تواند موسیقی منسجمی را تا سه دقیقه تولید کند، آهنگ ها ساده تر هستند و خلاقیت و پیچیدگی ساختاری ندارند. از صدای تولید شده توسط Suno 3. نسلهای Suno 3 معمولاً شامل ساختار آهنگ مناسب با ریفهای طبیعی، گروههای کر، بریجها و تغییرات میشوند که باعث میشود خروجی بیشتر شبیه یک آهنگ کامل باشد تا یک آهنگ ساز پسزمینه.
علاوه بر این، انتقال بین ریفها در نسلهای موسیقی Stable Audio اغلب ناگهانی است. این در تضاد کامل با Suno 3 است که به طور کلی به آرامی بین بخشهای مختلف آهنگ جابهجا میشود و تجربه شنیداری لذتبخشتری را ایجاد میکند.
یکی دیگر از تفاوت های قابل توجه بین این دو مدل سرعت تولید صدا است. Suno 3 بسیار سریعتر از Stable Audio 2 صدا تولید میکند. در حالی که این میتواند یک مشکل سرور باشد، هنوز هم یک عامل مهم است که باید در نظر گرفته شود، به خصوص برای کاربرانی که نیاز به تولید سریع و کارآمد صدا دارند.
اما یک کار است که Stable Audio 2 انجام می دهد و Suno 3 نمی تواند انجام دهد: نسل های صوتی به صدا.
برای مثال، با Stable Audio 2، میتوانید ملودی یک آهنگ را سوت بزنید، و Stable Audio کمی به ایدههای شما جان میبخشد. این سطحی از کنترل است که کاربران سونو هنوز از آن برخوردار نیستند. در حالی که برای ما یک معامله شکن نیست، این قطعا می تواند برای بسیاری مهم باشد.
هر دو صدای پایدار و سونو قدرتمند هستند و ارزش امتحان کردن را دارند، به خصوص اگر مشکلی در ساخت موسیقی دارید اما مهارت های موسیقی ندارید. اما Stable Audio ممکن است نیاز به پیشرفت به نسخه سوم خود داشته باشد تا در فاصله قابل توجهی از همان نسل از Suno قرار گیرد.
ویرایش شده توسط رایان اوزاوا.
از اخبار ارزهای دیجیتال مطلع باشید، بهروزرسانیهای روزانه را در صندوق ورودی خود دریافت کنید.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://decrypt.co/224729/stability-ai-launches-stable-audio-2-0-how-does-it-stack-up-against-the-mindblowing-suno-v3