هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

هوش مصنوعی پایداری صدای پایدار 2 را راه‌اندازی می‌کند — آیا موزیک مولد می‌تواند «Mindblowing» Suno 3 را شکست دهد؟ - رمزگشایی

تاریخ:

Stability AI، یک توسعه‌دهنده پیشرو هوش مصنوعی متعهد به اخلاق منبع باز، Stable Audio 2 را این هفته منتشر کرد، یک تولیدکننده صوتی و موسیقی جدید. این اولین نسخه مهم از زمان عرضه Stable Audio در ماه سپتامبر است، با تعدادی پیشرفت که رقابت را در میان ابزارهای شرکت هایی مانند Suno، Google و Meta افزایش می دهد.

Stable Audio 2.0 آهنگ‌های با کیفیت بالا و کامل را با ساختار موسیقی منسجم تا سه دقیقه با فرکانس استریو 44.1 کیلوهرتز از طریق یک دستور زبان طبیعی فعال می‌کند. اظهار شده.

این اعلامیه در بحبوحه زمان دشواری برای ثبات منتشر شد گزارش شده است که ذخایر نقدی خود را تخلیه کرده است قبل از اینکه دو هفته پیش عماد مستقع مدیرعامل این شرکت استعفا داد.

با این وجود، این شرکت به پیشروی در فضای AI منبع باز ادامه می دهد. علاوه بر Stable Audio، این شرکت یک LLM کدنویسی جدید به نام Stable Code Instruct 3B را در 25 مارس راه اندازی کرد و یک ژنراتور متن-به-ویدئوی متن باز پیشرفته به نام انتشار ویدئوی پایدار سال گذشته است.

هوش مصنوعی پایداری همچنین قرار است پیشرفته ترین مولد تصویر خود را منتشر کند. انتشار پایدار 3بعداً امسال

در میان طرفداران منبع باز، هوش مصنوعی پایداری در کنار نام های برجسته ای مانند Mistral و Nous نقش اصلی را ایفا می کند. با این حال، سایر شرکت‌های بزرگ فناوری نیز در حال کاوش در فضای منبع باز هستند، اما متا و مایکروسافت سهم مهمی دارند.

صدای پایداری داخلی

Stable Audio 2 در هسته خود از فناوری ترانسفورماتور انتشار (DiT) استفاده می کند، که همان رویکردی را دنبال می کند که مولد تصویر آینده Stable Diffusion 3 Stability AI، نشان دهنده تغییری از فناوری U-Net قبلاً پذیرفته شده آن است.

DiT و U-Net هر دو معماری‌های رایجی هستند که در یادگیری ماشینی استفاده می‌شوند، اما DiT به گونه‌ای طراحی شده است که نویز تصادفی را به صورت تدریجی در داده‌های ساخت‌یافته اصلاح کند، و به ویژه در مدیریت توالی داده‌های طولانی موثر است. در مقابل، U-Net بر روی دقت برای نسل‌های کوتاه تمرکز می‌کند، اما توانایی کمتری در مدیریت توالی‌های طولانی‌تر و پیچیده‌تر دارد.

یکی از ارتقاهای اصلی در Stable Audio 2، تولید صدا به صدا است، ویژگی جدیدی که کاربران را قادر می‌سازد تا نمونه‌های صوتی را که آپلود می‌کنند تغییر دهند - شبیه img2img Stable Diffusion برای اصلاح تصویر.

در این اطلاعیه توضیح داده شده است: «کاربران اکنون می‌توانند نمونه‌های صوتی را آپلود کنند و از طریق درخواست‌های زبان طبیعی، این نمونه‌ها را به طیف وسیعی از صداها تبدیل کنند. این به‌روزرسانی همچنین تولید جلوه‌های صوتی و انتقال سبک را گسترش می‌دهد و به هنرمندان و نوازندگان انعطاف‌پذیری، کنترل و فرآیند خلاقیت بالاتری ارائه می‌دهد.»

به عبارت دیگر، Stable Audio 2 شروع به اصلاح یک نویز تصادفی نمی کند، در عوض فایل صوتی اولیه را برای مطابقت با درخواست کاربر مدل سازی می کند. نتیجه نسلی است که از دستور پیروی می کند اما صدایی شبیه به صدای مرجع دارد.

این شرکت ادعا می کند که Stable Audio 2 به طور انحصاری بر روی مجموعه داده های مجوزدار آموزش داده شده است AudioSparx کتابخانه موسیقی این تضمین می‌کند که به همه هنرمندان این امکان داده شده است که از آموزش مدل صوتی پایدار، احترام به حقوق خود و تضمین غرامت عادلانه انصراف دهند.

رمزگشایی کنید مدل را آزمایش کرد و نتایج بهبودهای قابل توجهی را در مقایسه با Stable Audio 1.0 نشان داد. آهنگ‌های موسیقی تولید شده منسجم‌تر بودند، و نسل‌ها طولانی‌تر بودند - دو برابر محدودیت 90 ثانیه‌ای نسخه یک.

سبک درخواست Stable Audio 2 شبیه Stable Diffusion 1.5 است که به شدت بر روی برچسب ها یا کلمات کلیدی تمرکز می کند. درخواست‌های زبان طبیعی نتایج خوبی به همراه ندارد.

به نظر می رسد این مدل برای الهام گرفتن یا موسیقی پس زمینه به جای جایگزینی نوازندگان آموزش دیده مناسب برای آهنگ های خیمه شب بازی مناسب است. در بسیاری از موارد، نسل‌ها از توهم‌های متعدد و صداهای ناسازگاری رنج می‌بردند که از خواسته‌ها فاصله می‌گرفت. با این حال، اغلب ریف‌های خوبی تولید می‌کرد که بعداً می‌توان از آنها استفاده کرد.

صدای پایدار 2 در مقابل سونو 3

همانقدر که Stable Audio 2 قابل توجه است – به ویژه در مقایسه با نسخه قبلی خود – قابلیت های آن در مقایسه با صداها و آهنگ های تولید شده توسط Suno 3، به روز رسانی برای تولید کننده صوتی پیشرو که تنها یک ماه پیش منتشر شد، به سرعت از بین می رود. بسیاری از علاقه مندان به هوش مصنوعی می گویند که Suno 3 بهترین مدل در فضای موسیقی هوش مصنوعی است و کوین هاتسون از Futurepedia آن را چنین توصیف می کند:ذهنیو MatVidPro گفت که این یکتعویض بازی"

در حالی که چیزی که یک آهنگ موسیقی دلپذیر و یا حتی به سادگی خوب می کند نسبی است، Decrypt سعی کرد با استفاده از همان دستورات، Stable Audio 2 و Suno 3 را با هم مقایسه کند. این یک رویکرد ناقص است، با توجه به تفاوت‌هایی که در سبک‌های پیشنهادی بهینه آنها وجود دارد - Stable Audio کلمات کلیدی را ترجیح می‌دهد و Suno 3 انتظار زبان طبیعی را دارد.

ما تصمیم گرفتیم از رویکرد هوش مصنوعی پایداری استفاده کنیم، حتی اگر این روش ممکن است به ضرر Suno باشد. خوشبختانه، Suno 3 توانست به طور موثر دستورالعمل های ما را درک کند و روشی معقول برای مقایسه خروجی آنها ارائه دهد.

با این حال، سبک اعلان صوتی پایدار برای مبتدیان دوستانه نیست - فقط استفاده از کلمات کلیدی و برچسب‌ها می‌تواند خلاقیت و پیچیدگی خروجی را محدود کند. برای مثال، یک پیام معمولی Suno می‌تواند این باشد: «یک آهنگ پاپ راک در مورد رمزگشایی کنیدیک سایت رسانه ای که فضای هوش مصنوعی را پوشش می دهد. یک اعلان صدای پایدار معمولی چیزی شبیه به "Format: Band | سازها: درام، گیتار الکتریک، باس، کیبورد،| ژانر: راک | ژانر فرعی: هوی متال.

در خارج از دروازه، Suno 3 یک مزیت بزرگ نسبت به رقبا دارد: علاوه بر پذیرش درخواست‌های زبان طبیعی، می‌تواند با یک مدل بزرگ زبان (LLM) برای تولید اشعار ادغام شود.

از نظر کیفیت صدای تولید شده، Stable Audio 2 در مقابل Suno 3 قرار دارد. در حالی که هوش مصنوعی Stability گفته است که ابزار آن می تواند موسیقی منسجمی را تا سه دقیقه تولید کند، آهنگ ها ساده تر هستند و خلاقیت و پیچیدگی ساختاری ندارند. از صدای تولید شده توسط Suno 3. نسل‌های Suno 3 معمولاً شامل ساختار آهنگ مناسب با ریف‌های طبیعی، گروه‌های کر، بریج‌ها و تغییرات می‌شوند که باعث می‌شود خروجی بیشتر شبیه یک آهنگ کامل باشد تا یک آهنگ ساز پس‌زمینه.

علاوه بر این، انتقال بین ریف‌ها در نسل‌های موسیقی Stable Audio اغلب ناگهانی است. این در تضاد کامل با Suno 3 است که به طور کلی به آرامی بین بخش‌های مختلف آهنگ جابه‌جا می‌شود و تجربه شنیداری لذت‌بخش‌تری را ایجاد می‌کند.

یکی دیگر از تفاوت های قابل توجه بین این دو مدل سرعت تولید صدا است. Suno 3 بسیار سریع‌تر از Stable Audio 2 صدا تولید می‌کند. در حالی که این می‌تواند یک مشکل سرور باشد، هنوز هم یک عامل مهم است که باید در نظر گرفته شود، به خصوص برای کاربرانی که نیاز به تولید سریع و کارآمد صدا دارند.

اما یک کار است که Stable Audio 2 انجام می دهد و Suno 3 نمی تواند انجام دهد: نسل های صوتی به صدا.

برای مثال، با Stable Audio 2، می‌توانید ملودی یک آهنگ را سوت بزنید، و Stable Audio کمی به ایده‌های شما جان می‌بخشد. این سطحی از کنترل است که کاربران سونو هنوز از آن برخوردار نیستند. در حالی که برای ما یک معامله شکن نیست، این قطعا می تواند برای بسیاری مهم باشد.

هر دو صدای پایدار و سونو قدرتمند هستند و ارزش امتحان کردن را دارند، به خصوص اگر مشکلی در ساخت موسیقی دارید اما مهارت های موسیقی ندارید. اما Stable Audio ممکن است نیاز به پیشرفت به نسخه سوم خود داشته باشد تا در فاصله قابل توجهی از همان نسل از Suno قرار گیرد.

ویرایش شده توسط رایان اوزاوا.

از اخبار ارزهای دیجیتال مطلع باشید، به‌روزرسانی‌های روزانه را در صندوق ورودی خود دریافت کنید.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟