هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

رابط های عصبی جدا شده با استفاده از گرادیان های مصنوعی

تاریخ:

این نمودار کاربرد یک RNN آموزش دیده در مورد پیش‌بینی کاراکتر بعدی در Penn Treebank را نشان می‌دهد، یک مشکل مدل‌سازی زبان. در محور y بیت در هر کاراکتر (BPC) داده می شود، جایی که کوچکتر بهتر است. محور x تعداد کاراکترهایی است که مدل با پیشرفت آموزش مشاهده می کند. خطوط آبی، قرمز و خاکستری نقطه‌دار RNN‌هایی هستند که با BPTT کوتاه آموزش داده می‌شوند، برای 8 مرحله، 20 مرحله و 40 مرحله باز می‌شوند - هر چه تعداد مراحل RNN قبل از انتشار پس‌پشت در طول زمان باز شود، مدل بهتر است، اما کندتر تمرین می کند هنگامی که DNI روی RNN 8 مرحله‌ای (خط آبی یکدست) استفاده می‌شود، RNN می‌تواند وابستگی طولانی‌مدت مدل 40 مرحله‌ای را ثبت کند، اما دو برابر سریع‌تر آموزش داده می‌شود (هم از نظر داده و هم از نظر زمان ساعت دیواری در یک دستگاه رومیزی معمولی با یک GPU واحد).

برای تکرار، افزودن مدل‌های گرادیان مصنوعی به ما این امکان را می‌دهد که به‌روزرسانی‌ها را بین دو بخش از شبکه جدا کنیم. DNI همچنین می تواند بر روی مدل های سلسله مراتبی RNN اعمال شود - سیستمی متشکل از دو (یا چند) RNN که در مقیاس های زمانی مختلف اجرا می شوند. همانطور که در نشان می دهیم مقاله، DNI سرعت آموزش این مدل ها را با فعال کردن نرخ به روز رسانی ماژول های سطح بالاتر به طور قابل توجهی بهبود می بخشد.

امیدواریم از توضیحات این پست و نگاهی کوتاه به برخی از آزمایشاتی که در آن گزارش می کنیم مقاله بدیهی است که امکان ایجاد رابط های عصبی جدا شده وجود دارد. این کار با ایجاد یک مدل گرادیان مصنوعی انجام می شود که اطلاعات محلی را دریافت می کند و پیش بینی می کند که گرادیان خطا چقدر خواهد بود. در سطح بالا، این را می توان به عنوان یک در نظر گرفت پروتکل ارتباطی بین دو ماژول. یک ماژول پیامی (فعال سازی های فعلی) می فرستد، دیگری پیام را دریافت می کند و با استفاده از a ارزیابی می کند مدل سودمندی (مدل شیب مصنوعی). مدل ابزار به گیرنده اجازه می دهد ارائه بازخورد فوری (شیب مصنوعی) به فرستنده، به جای اینکه منتظر ارزیابی سودمندی واقعی پیام (از طریق انتشار پس‌انداز) باشید. این چارچوب را می توان از نقطه نظر منتقد خطا نیز در نظر گرفت [وربوس] و از نظر طعم شبیه به استفاده از منتقد در یادگیری تقویتی است [باکستر].

این رابط های عصبی جدا شده اجازه می دهد آموزش توزیع شده شبکه ها، وابستگی زمانی آموخته شده با RNN ها را افزایش می دهدو افزایش سرعت سیستم های RNN سلسله مراتبی. ما هیجان‌زده هستیم که آینده DNI را بررسی کنیم، زیرا فکر می‌کنیم این یک مبنای مهم برای باز کردن معماری‌های مدل ماژولار، جداشده و ناهمزمان بیشتر خواهد بود. در نهایت، جزئیات، ترفندها و آزمایش های کامل بیشتری وجود دارد که می توانید در مقاله بیابید اینجا کلیک نمایید.

منبع: https://deepmind.com/blog/article/decoupled-neural-networks-using-synthetic-gradients

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟