رابط های عصبی جدا شده با استفاده از گرادیان های مصنوعی

این نمودار کاربرد یک RNN آموزش دیده در مورد پیش‌بینی کاراکتر بعدی در Penn Treebank را نشان می‌دهد، یک مشکل مدل‌سازی زبان. در محور y بیت در هر کاراکتر (BPC) داده می شود، جایی که کوچکتر بهتر است. محور x تعداد کاراکترهایی است که مدل با پیشرفت آموزش مشاهده می کند. خطوط آبی، قرمز و خاکستری نقطه‌دار RNN‌هایی هستند که با BPTT کوتاه آموزش داده می‌شوند، برای 8 مرحله، 20 مرحله و 40 مرحله باز می‌شوند - هر چه تعداد مراحل RNN قبل از انتشار پس‌پشت در طول زمان باز شود، مدل بهتر است، اما کندتر تمرین می کند هنگامی که DNI روی RNN 8 مرحله‌ای (خط آبی یکدست) استفاده می‌شود، RNN می‌تواند وابستگی طولانی‌مدت مدل 40 مرحله‌ای را ثبت کند، اما دو برابر سریع‌تر آموزش داده می‌شود (هم از نظر داده و هم از نظر زمان ساعت دیواری در یک دستگاه رومیزی معمولی با یک GPU واحد).

برای تکرار، افزودن مدل‌های گرادیان مصنوعی به ما این امکان را می‌دهد که به‌روزرسانی‌ها را بین دو بخش از شبکه جدا کنیم. DNI همچنین می تواند بر روی مدل های سلسله مراتبی RNN اعمال شود - سیستمی متشکل از دو (یا چند) RNN که در مقیاس های زمانی مختلف اجرا می شوند. همانطور که در نشان می دهیم مقاله، DNI سرعت آموزش این مدل ها را با فعال کردن نرخ به روز رسانی ماژول های سطح بالاتر به طور قابل توجهی بهبود می بخشد.

امیدواریم از توضیحات این پست و نگاهی کوتاه به برخی از آزمایشاتی که در آن گزارش می کنیم مقاله بدیهی است که امکان ایجاد رابط های عصبی جدا شده وجود دارد. این کار با ایجاد یک مدل گرادیان مصنوعی انجام می شود که اطلاعات محلی را دریافت می کند و پیش بینی می کند که گرادیان خطا چقدر خواهد بود. در سطح بالا، این را می توان به عنوان یک در نظر گرفت پروتکل ارتباطی بین دو ماژول. یک ماژول پیامی (فعال سازی های فعلی) می فرستد، دیگری پیام را دریافت می کند و با استفاده از a ارزیابی می کند مدل سودمندی (مدل شیب مصنوعی). مدل ابزار به گیرنده اجازه می دهد ارائه بازخورد فوری (شیب مصنوعی) به فرستنده، به جای اینکه منتظر ارزیابی سودمندی واقعی پیام (از طریق انتشار پس‌انداز) باشید. این چارچوب را می توان از نقطه نظر منتقد خطا نیز در نظر گرفت [وربوس] و از نظر طعم شبیه به استفاده از منتقد در یادگیری تقویتی است [باکستر].

این رابط های عصبی جدا شده اجازه می دهد آموزش توزیع شده شبکه ها، وابستگی زمانی آموخته شده با RNN ها را افزایش می دهدو افزایش سرعت سیستم های RNN سلسله مراتبی. ما هیجان‌زده هستیم که آینده DNI را بررسی کنیم، زیرا فکر می‌کنیم این یک مبنای مهم برای باز کردن معماری‌های مدل ماژولار، جداشده و ناهمزمان بیشتر خواهد بود. در نهایت، جزئیات، ترفندها و آزمایش های کامل بیشتری وجود دارد که می توانید در مقاله بیابید اینجا کلیک نمایید.

منبع: https://deepmind.com/blog/article/decoupled-neural-networks-using-synthetic-gradients

هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

رابط های عصبی جدا شده با استفاده از گرادیان های مصنوعی

سرمایه گذار جوان قیمت اولیه 500 تا 20,000 دلار را در کمتر از یک هفته با رقیب نوظهور Shiba Inu (SHIB) افزایش می دهد - CryptoInfoNet

CoinGecko گزارش می دهد که وام های NFT در سه ماهه اول از 2.1 میلیارد دلار فراتر رفته و به بالاترین سطح سه ماهه رسیده است - CryptoInfoNet

جدیدترین اطلاعات

5 آلت کوین که باید در ماه مه مراقب آنها باشید

XRP، Ether، Cardano، SOL، Shiba Inu برای فعال کردن انفجارهای جدید قیمت به عنوان معیارهای کلیدی نشان می دهد که زمستان Crypto به پایان رسیده است

Meow Scientist (MEOWSC) به افزایش 6,500 درصدی، به دنبال به چالش کشیدن Shiba Inu و Dogecoin است.

آزمایشگاه های Velocity با استفاده از شبکه Ramp یک فیات را به Crypto Onramp معرفی کردند

Stripe به بازرگانان امکان می‌دهد پرداخت‌های USDC را در اتریوم، سولانا و Polygon بپذیرند.

BlockDAG از Dogecoin، SHIB، Bonk و دیگران با 21 میلیون دلار مایل استون پیشی گرفت.

چت با ما

هوش داده افلاطونجستجوی عمودی و هوش مصنوعی

رابط های عصبی جدا شده با استفاده از گرادیان های مصنوعی

جدیدترین اطلاعات

چت با ما

هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی