هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

ماشین‌ها چگونه داده‌ها را «گروک» می‌کنند؟ | مجله کوانتا

تاریخ:

معرفی

شبکه های عصبی مصنوعی با وجود تمام درخشش خود، مانند همیشه غیرقابل کاوش هستند. با بزرگتر شدن این شبکه ها، توانایی های آنها منفجر می شود، اما رمزگشایی از عملکرد درونی آنها همیشه تقریبا غیرممکن بوده است. محققان دائماً به دنبال هر بینشی که می توانند در مورد این مدل ها بیابند، هستند.

چند سال پیش یک مورد جدید کشف کردند.

در ژانویه 2022، محققان در OpenAI، شرکت سازنده ChatGPT، گزارش زمانی که این سیستم‌ها به‌طور تصادفی به داده‌ها برای مدت طولانی‌تر از حد معمول اجازه داده‌اند، راه‌های منحصربه‌فردی را برای حل مشکلات ایجاد کردند. به طور معمول، زمانی که مهندسان مدل‌های یادگیری ماشین را از شبکه‌های عصبی – متشکل از واحدهای محاسباتی به نام نورون‌های مصنوعی – می‌سازند، تمایل دارند آموزش را در نقطه‌ای مشخص متوقف کنند که به آن رژیم اضافه برازش می‌گویند. این زمانی است که شبکه اساساً شروع به به خاطر سپردن داده های آموزشی خود می کند و اغلب به اطلاعات جدید و دیده نشده تعمیم نمی یابد. اما هنگامی که تیم OpenAI به طور تصادفی یک شبکه کوچک را فراتر از این نقطه آموزش داد، به نظر می رسید که درک درستی از مشکل را ایجاد کرده است که فراتر از صرفاً به خاطر سپردن است - می تواند به طور ناگهانی داده های آزمایشی را به دست آورد.

محققان نام این پدیده را «گروکینگ» گذاشتند، اصطلاحی که توسط نویسنده داستان های علمی-تخیلی رابرت ای. هاینلین به معنای درک چیزی «بقدری کامل که ناظر بخشی از فرآیند مشاهده می شود» ابداع شد. شبکه عصبی بیش از حد آموزش دیده، طراحی شده برای انجام برخی عملیات ریاضی، ساختار کلی اعداد را آموخته و نتیجه را درونی کرده است. غمگین شده بود و راه حل شده بود.

گفت: «این [بسیار هیجان‌انگیز و قابل تأمل بود». میخائیل بلکین از دانشگاه کالیفرنیا، سن دیگو، که ویژگی های نظری و تجربی شبکه های عصبی را مطالعه می کند. "این کار باعث پیگیری بسیاری شد."

در واقع، دیگران نتایج را تکرار کرده و حتی آنها را مهندسی معکوس کرده اند. جدیدترین مقالات نه تنها آنچه را که این شبکه‌های عصبی هنگام رشد انجام می‌دهند، روشن می‌کنند، بلکه عدسی جدیدی برای بررسی درونی آنها ارائه می‌دهند. گفت: "تنظیم grokking مانند یک ارگانیسم مدل خوب برای درک بسیاری از جنبه های مختلف یادگیری عمیق است." اریک میچاد از موسسه فناوری ماساچوست.

نگاه کردن به درون این ارگانیسم در مواقعی کاملاً آشکار است. گفت: "نه تنها می توانید ساختار زیبا پیدا کنید، بلکه این ساختار زیبا برای درک آنچه در داخل می گذرد مهم است." نیل ناندا، اکنون در Google DeepMind در لندن.

فراتر از حد

اساساً، کار یک مدل یادگیری ماشینی ساده به نظر می رسد: تبدیل یک ورودی داده شده به یک خروجی دلخواه. این وظیفه الگوریتم یادگیری است که به دنبال بهترین تابع ممکن باشد که بتواند این کار را انجام دهد. هر مدل معینی فقط می‌تواند به مجموعه محدودی از توابع دسترسی داشته باشد، و این مجموعه اغلب توسط تعداد پارامترهای مدل تعیین می‌شود، که در مورد شبکه‌های عصبی تقریباً معادل تعداد اتصالات بین نورون‌های مصنوعی است.

معرفی

همانطور که یک شبکه آموزش می بیند، تمایل به یادگیری توابع پیچیده تری دارد و اختلاف بین خروجی مورد انتظار و خروجی واقعی شروع به کاهش داده های آموزشی می کند. حتی بهتر از آن، این اختلاف، که به عنوان ضرر شناخته می‌شود، برای داده‌های آزمایشی نیز شروع به کاهش می‌کند، که داده‌های جدیدی هستند که در آموزش استفاده نمی‌شوند. اما در برخی مواقع، مدل شروع به بیش از حد برازش می‌کند، و در حالی که از دست دادن داده‌های آموزشی همچنان کاهش می‌یابد، تلفات داده‌های تست شروع به افزایش می‌کند. بنابراین، معمولاً در آن زمان است که محققان آموزش شبکه را متوقف می کنند.

زمانی که تیم OpenAI شروع به کاوش در مورد اینکه چگونه یک شبکه عصبی می تواند ریاضی انجام دهد، این حکمت غالب بود. آنها از یک کوچک استفاده می کردند ترانسفورماتور - یک معماری شبکه که اخیراً مدل‌های زبان بزرگ را متحول کرده است - برای انجام انواع مختلف محاسبات مدولار، که در آن شما با مجموعه‌ای از اعداد محدود کار می‌کنید که بر روی خودشان حلقه می‌زنند. به عنوان مثال، ماژول 12 را می توان بر روی صفحه ساعت انجام داد: 11 + 2 = 1. تیم نمونه های شبکه را از جمع دو عدد نشان داد. a و b، برای تولید خروجی، c, در مدول 97 (معادل صفحه ساعت با 97 عدد). آنها سپس ترانسفورماتور را بر روی ترکیبات نامرئی آزمایش کردند a و b تا ببینیم آیا می تواند به درستی پیش بینی کند c.

همانطور که انتظار می رفت، زمانی که شبکه وارد رژیم اضافه برازش شد، تلفات در داده های آموزشی به صفر نزدیک شد (شروع به حفظ آنچه دیده بود) و تلفات در داده های تست شروع به بالا رفتن کرد. تعمیم دهنده نبود آلته آ پاور، رهبر تیم، گفت: «و بعد یک روز، ما خوش شانس بودیم. صحبت در سپتامبر 2022 در کنفرانسی در سانفرانسیسکو و از شانس، منظورم فراموشکار است.

یکی از اعضای تیم که در حال تمرین شبکه بود به تعطیلات رفت و فراموش کرد که تمرین را متوقف کند. همانطور که این نسخه از شبکه به آموزش ادامه می داد، ناگهان بر روی داده های دیده نشده دقیق شد. آزمایش خودکار این دقت غیرمنتظره را برای بقیه اعضای تیم آشکار کرد و آنها به زودی متوجه شدند که شبکه راه‌های هوشمندانه‌ای برای مرتب کردن اعداد پیدا کرده است. a و b. در داخل، شبکه اعداد را در فضایی با ابعاد بالا نشان می‌دهد، اما زمانی که محققان این اعداد را به فضای دوبعدی نشان دادند و آنها را نقشه‌برداری کردند، اعداد یک دایره را تشکیل دادند.

این شگفت انگیز بود. این تیم هرگز به مدل نگفتند که در حال انجام ریاضیات مدول 97 است، یا حتی معنای مدول چیست - آنها فقط نمونه هایی از محاسبات را به آن نشان دادند. به نظر می رسید این مدل به راه حلی عمیق تر و تحلیلی برخورد کرده است - معادله ای که به همه ترکیبات تعمیم می یابد. a و b، حتی فراتر از داده های آموزشی. شبکه بسیار زیاد شده بود و دقت داده های آزمایشی به 100% رسید. پاور به مخاطبانش گفت: «این عجیب است.

تیم نتایج را با استفاده از وظایف مختلف و شبکه های مختلف تأیید کرد. کشف ماندگار شد.

از ساعت و پیتزا

اما معادله ای که شبکه پیدا کرده بود چه بود؟ مقاله OpenAI چیزی نگفت، اما نتیجه توجه ناندا را به خود جلب کرد. ناندا که کارش بر مهندسی معکوس یک آموزش دیده متمرکز است، گفت: «یکی از رمز و رازهای اصلی و چیزهای آزاردهنده در مورد شبکه های عصبی این است که آنها در کاری که انجام می دهند بسیار خوب هستند، اما به طور پیش فرض، ما هیچ ایده ای از نحوه کار آنها نداریم. شبکه تا بفهمد چه الگوریتم هایی را یاد گرفته است.

ناندا مجذوب کشف OpenAI شد و تصمیم گرفت یک شبکه عصبی را که غرق شده بود جدا کند. او حتی یک نسخه ساده‌تر از شبکه عصبی OpenAI را طراحی کرد تا بتواند پارامترهای مدل را هنگام یادگیری محاسبات مدولار از نزدیک بررسی کند. او همین رفتار را دید: تطبیق بیش از حد که جای خود را به تعمیم داد و بهبود ناگهانی در دقت تست. شبکه او نیز اعداد را به صورت دایره ای مرتب می کرد. کمی تلاش لازم بود، اما ناندا در نهایت دلیل آن را فهمید.

شبکه در حالی که اعداد روی یک دایره را نشان می‌داد، مانند یک کودک مهدکودکی که ساعت را تماشا می‌کند، به سادگی اعداد را نمی‌شمرد: بلکه دستکاری‌های ریاضی پیچیده‌ای را انجام می‌داد. با مطالعه مقادیر پارامترهای شبکه، ناندا و همکارانش فاش کردند که اعداد ساعت را با انجام "تبدیل فوریه گسسته" بر روی آنها اضافه می کند - تبدیل اعداد با استفاده از توابع مثلثاتی مانند سینوس و کسینوس و سپس دستکاری این مقادیر با استفاده از هویت های مثلثاتی برای رسیدن به جواب. حداقل، این کاری بود که شبکه خاص او انجام می داد.

وقتی یک تیم در MIT به دنبال در کار ناندا، آنها نشان دادند که شبکه های عصبی گروکینگ همیشه این الگوریتم «ساعت» را کشف نمی کنند. گاهی اوقات، شبکه ها به جای آن چیزی را پیدا می کنند که محققین آن را الگوریتم «پیتزا» می نامند. این رویکرد یک پیتزا را تصور می کند که به برش ها تقسیم شده و به ترتیب شماره گذاری شده است. برای جمع کردن دو عدد، فلش هایی را از مرکز پیتزا به اعداد مورد نظر بکشید، سپس خطی را که زاویه تشکیل شده توسط دو فلش اول را به دو نیم می کند، محاسبه کنید. این خط از وسط چند تکه پیتزا می گذرد: تعداد برش حاصل جمع دو عدد است. همچنین می توان این عملیات را بر حسب دستکاری های مثلثاتی و جبری سینوس ها و کسینوس ها نوشت. a و b، و از نظر تئوری دقیقاً به اندازه رویکرد ساعت هستند.

معرفی

گفت: هر دو الگوریتم ساعت و پیتزا این نمایش دایره ای را دارند زیمینگ لیو، یکی از اعضای تیم MIT. اما... نحوه استفاده از این سینوس ها و کسینوس ها متفاوت است. به همین دلیل است که ما آنها را الگوریتم های مختلف می نامیم.»

و این هنوز همه چیز نبود. پس از آموزش شبکه‌های متعدد برای انجام ریاضیات مدولو، لیو و همکارانش دریافتند که حدود 40 درصد از الگوریتم‌های کشف‌شده توسط این شبکه‌ها انواع الگوریتم‌های پیتزا یا ساعت هستند. این تیم قادر به رمزگشایی از آنچه که شبکه‌ها در بقیه زمان‌ها انجام می‌دهند، نبوده است. لیو گفت: برای الگوریتم‌های پیتزا و ساعت، «این اتفاق می‌افتد که چیزی را پیدا می‌کند که ما انسان‌ها می‌توانیم آن را تفسیر کنیم».

و هر چه الگوریتمی که یک شبکه در هنگام بروز مشکل یاد می‌گیرد، در تعمیم از آنچه محققان گمان می‌کردند، قدرتمندتر است. وقتی یک تیم در دانشگاه مریلند تغذیه یک شبکه عصبی ساده داده‌های آموزشی با خطاهای تصادفی، شبکه در ابتدا مطابق انتظار رفتار کرد: داده‌های آموزشی، خطاها و همه موارد را بیش از حد برازش می‌دهد و در داده‌های تست خراب عملکرد ضعیفی دارد. با این حال، هنگامی که شبکه شروع به پاسخگویی صحیح به سوالات آزمون کرد، می‌توانست حتی برای ورودی‌های اشتباه، پاسخ‌های صحیح را تولید کند، پاسخ‌های نادرست حفظ شده را فراموش کرده و حتی به داده‌های آموزشی خود تعمیم دهد. گفت: «وظیفه غم انگیز در واقع در برابر این نوع فسادها بسیار قوی است دارشیل دوشی، یکی از نویسندگان مقاله

نبرد برای کنترل

در نتیجه، محققان اکنون شروع به درک فرآیندی کرده‌اند که منجر به جمع‌آوری داده‌های یک شبکه می‌شود. ناندا ناگهانی ظاهری گروکینگ را نتیجه یک انتقال تدریجی درونی از حفظ به تعمیم می داند که از دو الگوریتم مختلف در داخل شبکه عصبی استفاده می کند. او گفت که وقتی شبکه شروع به یادگیری می کند، ابتدا الگوریتم ساده تری را برای به خاطر سپردن کشف می کند. با این حال، حتی اگر الگوریتم ساده تر است، به منابع قابل توجهی نیاز دارد، زیرا شبکه باید هر نمونه از داده های آموزشی را به خاطر بسپارد. اما حتی زمانی که در حال حفظ کردن است، بخش‌هایی از شبکه عصبی شروع به تشکیل مدارهایی می‌کنند که راه‌حل کلی را پیاده‌سازی می‌کنند. این دو الگوریتم برای منابع در طول آموزش با هم رقابت می کنند، اما تعمیم در نهایت اگر شبکه با یک عنصر اضافی به نام منظم سازی آموزش داده شود، برنده می شود.

لیو گفت: «قاعده‌سازی به آرامی راه‌حل را به سمت راه‌حل تعمیم سوق می‌دهد. این فرآیندی است که ظرفیت عملکردی مدل را کاهش می دهد - پیچیدگی عملکردی که مدل می تواند یاد بگیرد. همانطور که منظم سازی پیچیدگی مدل را کاهش می دهد، الگوریتم تعمیم، که پیچیدگی کمتری دارد، در نهایت پیروز می شود. ناندا گفت: «تعمیم برای همان [سطح] عملکرد ساده تر است. در نهایت، شبکه عصبی الگوریتم حفظ را کنار می گذارد.

بنابراین، در حالی که به نظر می رسد توانایی تعمیم تاخیری به طور ناگهانی ظاهر می شود، در داخل پارامترهای شبکه به طور پیوسته در حال یادگیری الگوریتم تعمیم هستند. تنها زمانی که شبکه هم الگوریتم تعمیم‌دهنده را یاد گرفته باشد و هم الگوریتم به خاطر سپردن را به طور کامل حذف کرده باشد، شما دچار گروکینگ می‌شوید. ناندا گفت: "ممکن است چیزهایی که ناگهانی به نظر می رسند در زیر سطح به تدریج تدریجی شوند" - مسئله ای که در سایر تحقیقات یادگیری ماشین.

علیرغم این پیشرفت ها، مهم است که به یاد داشته باشید که تحقیقات grokking هنوز در مراحل ابتدایی خود است. تاکنون، محققان تنها شبکه‌های بسیار کوچک را مورد مطالعه قرار داده‌اند و مشخص نیست که آیا این یافته‌ها در شبکه‌های بزرگتر و قوی‌تر قابل استفاده است یا خیر. بلکین همچنین هشدار می دهد که محاسبات مدولار در مقایسه با تمام کارهای مختلف که توسط شبکه های عصبی امروزی انجام می شود، "یک قطره در اقیانوس" است. مهندسی معکوس راه حل یک شبکه عصبی برای چنین ریاضیاتی ممکن است برای درک اصول کلی که این شبکه ها را به سمت تعمیم سوق می دهد کافی نباشد. بلکین گفت: "مطالعه درختان عالی است." اما ما همچنین باید جنگل را مطالعه کنیم.

با این وجود، توانایی همتا در داخل این شبکه ها و درک تحلیلی آنها پیامدهای بسیار زیادی دارد. برای بسیاری از ما، تبدیل فوریه و دو نیم‌شدن قوس‌های دایره‌ها، روشی بسیار عجیب برای جمع‌آوری مدول است – نورون‌های انسانی اینطور فکر نمی‌کنند. ناندا گفت: "اما اگر شما از جبر خطی ساخته شده اید، در واقع انجام آن به این شکل منطقی است."

او گفت: «این مغزهای عجیب و غریب [مصنوعی] متفاوت از مغز ما کار می کنند. «[آنها] قوانین و ساختار خود را دارند. ما باید یاد بگیریم که چگونه یک شبکه عصبی فکر می کند فکر کنیم.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟