این نمودار کاربرد یک RNN آموزش دیده در مورد پیشبینی کاراکتر بعدی در Penn Treebank را نشان میدهد، یک مشکل مدلسازی زبان. در محور y بیت در هر کاراکتر (BPC) داده می شود، جایی که کوچکتر بهتر است. محور x تعداد کاراکترهایی است که مدل با پیشرفت آموزش مشاهده می کند. خطوط آبی، قرمز و خاکستری نقطهدار RNNهایی هستند که با BPTT کوتاه آموزش داده میشوند، برای 8 مرحله، 20 مرحله و 40 مرحله باز میشوند - هر چه تعداد مراحل RNN قبل از انتشار پسپشت در طول زمان باز شود، مدل بهتر است، اما کندتر تمرین می کند هنگامی که DNI روی RNN 8 مرحلهای (خط آبی یکدست) استفاده میشود، RNN میتواند وابستگی طولانیمدت مدل 40 مرحلهای را ثبت کند، اما دو برابر سریعتر آموزش داده میشود (هم از نظر داده و هم از نظر زمان ساعت دیواری در یک دستگاه رومیزی معمولی با یک GPU واحد).
برای تکرار، افزودن مدلهای گرادیان مصنوعی به ما این امکان را میدهد که بهروزرسانیها را بین دو بخش از شبکه جدا کنیم. DNI همچنین می تواند بر روی مدل های سلسله مراتبی RNN اعمال شود - سیستمی متشکل از دو (یا چند) RNN که در مقیاس های زمانی مختلف اجرا می شوند. همانطور که در نشان می دهیم مقاله، DNI سرعت آموزش این مدل ها را با فعال کردن نرخ به روز رسانی ماژول های سطح بالاتر به طور قابل توجهی بهبود می بخشد.
امیدواریم از توضیحات این پست و نگاهی کوتاه به برخی از آزمایشاتی که در آن گزارش می کنیم مقاله بدیهی است که امکان ایجاد رابط های عصبی جدا شده وجود دارد. این کار با ایجاد یک مدل گرادیان مصنوعی انجام می شود که اطلاعات محلی را دریافت می کند و پیش بینی می کند که گرادیان خطا چقدر خواهد بود. در سطح بالا، این را می توان به عنوان یک در نظر گرفت پروتکل ارتباطی بین دو ماژول. یک ماژول پیامی (فعال سازی های فعلی) می فرستد، دیگری پیام را دریافت می کند و با استفاده از a ارزیابی می کند مدل سودمندی (مدل شیب مصنوعی). مدل ابزار به گیرنده اجازه می دهد ارائه بازخورد فوری (شیب مصنوعی) به فرستنده، به جای اینکه منتظر ارزیابی سودمندی واقعی پیام (از طریق انتشار پسانداز) باشید. این چارچوب را می توان از نقطه نظر منتقد خطا نیز در نظر گرفت [وربوس] و از نظر طعم شبیه به استفاده از منتقد در یادگیری تقویتی است [باکستر].
این رابط های عصبی جدا شده اجازه می دهد آموزش توزیع شده شبکه ها، وابستگی زمانی آموخته شده با RNN ها را افزایش می دهدو افزایش سرعت سیستم های RNN سلسله مراتبی. ما هیجانزده هستیم که آینده DNI را بررسی کنیم، زیرا فکر میکنیم این یک مبنای مهم برای باز کردن معماریهای مدل ماژولار، جداشده و ناهمزمان بیشتر خواهد بود. در نهایت، جزئیات، ترفندها و آزمایش های کامل بیشتری وجود دارد که می توانید در مقاله بیابید اینجا کلیک نمایید.
منبع: https://deepmind.com/blog/article/decoupled-neural-networks-using-synthetic-gradients