معرفی
شبکه های عصبی مصنوعی با وجود تمام درخشش خود، مانند همیشه غیرقابل کاوش هستند. با بزرگتر شدن این شبکه ها، توانایی های آنها منفجر می شود، اما رمزگشایی از عملکرد درونی آنها همیشه تقریبا غیرممکن بوده است. محققان دائماً به دنبال هر بینشی که می توانند در مورد این مدل ها بیابند، هستند.
چند سال پیش یک مورد جدید کشف کردند.
در ژانویه 2022، محققان در OpenAI، شرکت سازنده ChatGPT، گزارش زمانی که این سیستمها بهطور تصادفی به دادهها برای مدت طولانیتر از حد معمول اجازه دادهاند، راههای منحصربهفردی را برای حل مشکلات ایجاد کردند. به طور معمول، زمانی که مهندسان مدلهای یادگیری ماشین را از شبکههای عصبی – متشکل از واحدهای محاسباتی به نام نورونهای مصنوعی – میسازند، تمایل دارند آموزش را در نقطهای مشخص متوقف کنند که به آن رژیم اضافه برازش میگویند. این زمانی است که شبکه اساساً شروع به به خاطر سپردن داده های آموزشی خود می کند و اغلب به اطلاعات جدید و دیده نشده تعمیم نمی یابد. اما هنگامی که تیم OpenAI به طور تصادفی یک شبکه کوچک را فراتر از این نقطه آموزش داد، به نظر می رسید که درک درستی از مشکل را ایجاد کرده است که فراتر از صرفاً به خاطر سپردن است - می تواند به طور ناگهانی داده های آزمایشی را به دست آورد.
محققان نام این پدیده را «گروکینگ» گذاشتند، اصطلاحی که توسط نویسنده داستان های علمی-تخیلی رابرت ای. هاینلین به معنای درک چیزی «بقدری کامل که ناظر بخشی از فرآیند مشاهده می شود» ابداع شد. شبکه عصبی بیش از حد آموزش دیده، طراحی شده برای انجام برخی عملیات ریاضی، ساختار کلی اعداد را آموخته و نتیجه را درونی کرده است. غمگین شده بود و راه حل شده بود.
گفت: «این [بسیار هیجانانگیز و قابل تأمل بود». میخائیل بلکین از دانشگاه کالیفرنیا، سن دیگو، که ویژگی های نظری و تجربی شبکه های عصبی را مطالعه می کند. "این کار باعث پیگیری بسیاری شد."
در واقع، دیگران نتایج را تکرار کرده و حتی آنها را مهندسی معکوس کرده اند. جدیدترین مقالات نه تنها آنچه را که این شبکههای عصبی هنگام رشد انجام میدهند، روشن میکنند، بلکه عدسی جدیدی برای بررسی درونی آنها ارائه میدهند. گفت: "تنظیم grokking مانند یک ارگانیسم مدل خوب برای درک بسیاری از جنبه های مختلف یادگیری عمیق است." اریک میچاد از موسسه فناوری ماساچوست.
نگاه کردن به درون این ارگانیسم در مواقعی کاملاً آشکار است. گفت: "نه تنها می توانید ساختار زیبا پیدا کنید، بلکه این ساختار زیبا برای درک آنچه در داخل می گذرد مهم است." نیل ناندا، اکنون در Google DeepMind در لندن.
فراتر از حد
اساساً، کار یک مدل یادگیری ماشینی ساده به نظر می رسد: تبدیل یک ورودی داده شده به یک خروجی دلخواه. این وظیفه الگوریتم یادگیری است که به دنبال بهترین تابع ممکن باشد که بتواند این کار را انجام دهد. هر مدل معینی فقط میتواند به مجموعه محدودی از توابع دسترسی داشته باشد، و این مجموعه اغلب توسط تعداد پارامترهای مدل تعیین میشود، که در مورد شبکههای عصبی تقریباً معادل تعداد اتصالات بین نورونهای مصنوعی است.
معرفی
همانطور که یک شبکه آموزش می بیند، تمایل به یادگیری توابع پیچیده تری دارد و اختلاف بین خروجی مورد انتظار و خروجی واقعی شروع به کاهش داده های آموزشی می کند. حتی بهتر از آن، این اختلاف، که به عنوان ضرر شناخته میشود، برای دادههای آزمایشی نیز شروع به کاهش میکند، که دادههای جدیدی هستند که در آموزش استفاده نمیشوند. اما در برخی مواقع، مدل شروع به بیش از حد برازش میکند، و در حالی که از دست دادن دادههای آموزشی همچنان کاهش مییابد، تلفات دادههای تست شروع به افزایش میکند. بنابراین، معمولاً در آن زمان است که محققان آموزش شبکه را متوقف می کنند.
زمانی که تیم OpenAI شروع به کاوش در مورد اینکه چگونه یک شبکه عصبی می تواند ریاضی انجام دهد، این حکمت غالب بود. آنها از یک کوچک استفاده می کردند ترانسفورماتور - یک معماری شبکه که اخیراً مدلهای زبان بزرگ را متحول کرده است - برای انجام انواع مختلف محاسبات مدولار، که در آن شما با مجموعهای از اعداد محدود کار میکنید که بر روی خودشان حلقه میزنند. به عنوان مثال، ماژول 12 را می توان بر روی صفحه ساعت انجام داد: 11 + 2 = 1. تیم نمونه های شبکه را از جمع دو عدد نشان داد. a و b، برای تولید خروجی، c, در مدول 97 (معادل صفحه ساعت با 97 عدد). آنها سپس ترانسفورماتور را بر روی ترکیبات نامرئی آزمایش کردند a و b تا ببینیم آیا می تواند به درستی پیش بینی کند c.
همانطور که انتظار می رفت، زمانی که شبکه وارد رژیم اضافه برازش شد، تلفات در داده های آموزشی به صفر نزدیک شد (شروع به حفظ آنچه دیده بود) و تلفات در داده های تست شروع به بالا رفتن کرد. تعمیم دهنده نبود آلته آ پاور، رهبر تیم، گفت: «و بعد یک روز، ما خوش شانس بودیم. صحبت در سپتامبر 2022 در کنفرانسی در سانفرانسیسکو و از شانس، منظورم فراموشکار است.
یکی از اعضای تیم که در حال تمرین شبکه بود به تعطیلات رفت و فراموش کرد که تمرین را متوقف کند. همانطور که این نسخه از شبکه به آموزش ادامه می داد، ناگهان بر روی داده های دیده نشده دقیق شد. آزمایش خودکار این دقت غیرمنتظره را برای بقیه اعضای تیم آشکار کرد و آنها به زودی متوجه شدند که شبکه راههای هوشمندانهای برای مرتب کردن اعداد پیدا کرده است. a و b. در داخل، شبکه اعداد را در فضایی با ابعاد بالا نشان میدهد، اما زمانی که محققان این اعداد را به فضای دوبعدی نشان دادند و آنها را نقشهبرداری کردند، اعداد یک دایره را تشکیل دادند.
این شگفت انگیز بود. این تیم هرگز به مدل نگفتند که در حال انجام ریاضیات مدول 97 است، یا حتی معنای مدول چیست - آنها فقط نمونه هایی از محاسبات را به آن نشان دادند. به نظر می رسید این مدل به راه حلی عمیق تر و تحلیلی برخورد کرده است - معادله ای که به همه ترکیبات تعمیم می یابد. a و b، حتی فراتر از داده های آموزشی. شبکه بسیار زیاد شده بود و دقت داده های آزمایشی به 100% رسید. پاور به مخاطبانش گفت: «این عجیب است.
تیم نتایج را با استفاده از وظایف مختلف و شبکه های مختلف تأیید کرد. کشف ماندگار شد.
از ساعت و پیتزا
اما معادله ای که شبکه پیدا کرده بود چه بود؟ مقاله OpenAI چیزی نگفت، اما نتیجه توجه ناندا را به خود جلب کرد. ناندا که کارش بر مهندسی معکوس یک آموزش دیده متمرکز است، گفت: «یکی از رمز و رازهای اصلی و چیزهای آزاردهنده در مورد شبکه های عصبی این است که آنها در کاری که انجام می دهند بسیار خوب هستند، اما به طور پیش فرض، ما هیچ ایده ای از نحوه کار آنها نداریم. شبکه تا بفهمد چه الگوریتم هایی را یاد گرفته است.
ناندا مجذوب کشف OpenAI شد و تصمیم گرفت یک شبکه عصبی را که غرق شده بود جدا کند. او حتی یک نسخه سادهتر از شبکه عصبی OpenAI را طراحی کرد تا بتواند پارامترهای مدل را هنگام یادگیری محاسبات مدولار از نزدیک بررسی کند. او همین رفتار را دید: تطبیق بیش از حد که جای خود را به تعمیم داد و بهبود ناگهانی در دقت تست. شبکه او نیز اعداد را به صورت دایره ای مرتب می کرد. کمی تلاش لازم بود، اما ناندا در نهایت دلیل آن را فهمید.
شبکه در حالی که اعداد روی یک دایره را نشان میداد، مانند یک کودک مهدکودکی که ساعت را تماشا میکند، به سادگی اعداد را نمیشمرد: بلکه دستکاریهای ریاضی پیچیدهای را انجام میداد. با مطالعه مقادیر پارامترهای شبکه، ناندا و همکارانش فاش کردند که اعداد ساعت را با انجام "تبدیل فوریه گسسته" بر روی آنها اضافه می کند - تبدیل اعداد با استفاده از توابع مثلثاتی مانند سینوس و کسینوس و سپس دستکاری این مقادیر با استفاده از هویت های مثلثاتی برای رسیدن به جواب. حداقل، این کاری بود که شبکه خاص او انجام می داد.
وقتی یک تیم در MIT به دنبال در کار ناندا، آنها نشان دادند که شبکه های عصبی گروکینگ همیشه این الگوریتم «ساعت» را کشف نمی کنند. گاهی اوقات، شبکه ها به جای آن چیزی را پیدا می کنند که محققین آن را الگوریتم «پیتزا» می نامند. این رویکرد یک پیتزا را تصور می کند که به برش ها تقسیم شده و به ترتیب شماره گذاری شده است. برای جمع کردن دو عدد، فلش هایی را از مرکز پیتزا به اعداد مورد نظر بکشید، سپس خطی را که زاویه تشکیل شده توسط دو فلش اول را به دو نیم می کند، محاسبه کنید. این خط از وسط چند تکه پیتزا می گذرد: تعداد برش حاصل جمع دو عدد است. همچنین می توان این عملیات را بر حسب دستکاری های مثلثاتی و جبری سینوس ها و کسینوس ها نوشت. a و b، و از نظر تئوری دقیقاً به اندازه رویکرد ساعت هستند.
معرفی
گفت: هر دو الگوریتم ساعت و پیتزا این نمایش دایره ای را دارند زیمینگ لیو، یکی از اعضای تیم MIT. اما... نحوه استفاده از این سینوس ها و کسینوس ها متفاوت است. به همین دلیل است که ما آنها را الگوریتم های مختلف می نامیم.»
و این هنوز همه چیز نبود. پس از آموزش شبکههای متعدد برای انجام ریاضیات مدولو، لیو و همکارانش دریافتند که حدود 40 درصد از الگوریتمهای کشفشده توسط این شبکهها انواع الگوریتمهای پیتزا یا ساعت هستند. این تیم قادر به رمزگشایی از آنچه که شبکهها در بقیه زمانها انجام میدهند، نبوده است. لیو گفت: برای الگوریتمهای پیتزا و ساعت، «این اتفاق میافتد که چیزی را پیدا میکند که ما انسانها میتوانیم آن را تفسیر کنیم».
و هر چه الگوریتمی که یک شبکه در هنگام بروز مشکل یاد میگیرد، در تعمیم از آنچه محققان گمان میکردند، قدرتمندتر است. وقتی یک تیم در دانشگاه مریلند تغذیه یک شبکه عصبی ساده دادههای آموزشی با خطاهای تصادفی، شبکه در ابتدا مطابق انتظار رفتار کرد: دادههای آموزشی، خطاها و همه موارد را بیش از حد برازش میدهد و در دادههای تست خراب عملکرد ضعیفی دارد. با این حال، هنگامی که شبکه شروع به پاسخگویی صحیح به سوالات آزمون کرد، میتوانست حتی برای ورودیهای اشتباه، پاسخهای صحیح را تولید کند، پاسخهای نادرست حفظ شده را فراموش کرده و حتی به دادههای آموزشی خود تعمیم دهد. گفت: «وظیفه غم انگیز در واقع در برابر این نوع فسادها بسیار قوی است دارشیل دوشی، یکی از نویسندگان مقاله
نبرد برای کنترل
در نتیجه، محققان اکنون شروع به درک فرآیندی کردهاند که منجر به جمعآوری دادههای یک شبکه میشود. ناندا ناگهانی ظاهری گروکینگ را نتیجه یک انتقال تدریجی درونی از حفظ به تعمیم می داند که از دو الگوریتم مختلف در داخل شبکه عصبی استفاده می کند. او گفت که وقتی شبکه شروع به یادگیری می کند، ابتدا الگوریتم ساده تری را برای به خاطر سپردن کشف می کند. با این حال، حتی اگر الگوریتم ساده تر است، به منابع قابل توجهی نیاز دارد، زیرا شبکه باید هر نمونه از داده های آموزشی را به خاطر بسپارد. اما حتی زمانی که در حال حفظ کردن است، بخشهایی از شبکه عصبی شروع به تشکیل مدارهایی میکنند که راهحل کلی را پیادهسازی میکنند. این دو الگوریتم برای منابع در طول آموزش با هم رقابت می کنند، اما تعمیم در نهایت اگر شبکه با یک عنصر اضافی به نام منظم سازی آموزش داده شود، برنده می شود.
لیو گفت: «قاعدهسازی به آرامی راهحل را به سمت راهحل تعمیم سوق میدهد. این فرآیندی است که ظرفیت عملکردی مدل را کاهش می دهد - پیچیدگی عملکردی که مدل می تواند یاد بگیرد. همانطور که منظم سازی پیچیدگی مدل را کاهش می دهد، الگوریتم تعمیم، که پیچیدگی کمتری دارد، در نهایت پیروز می شود. ناندا گفت: «تعمیم برای همان [سطح] عملکرد ساده تر است. در نهایت، شبکه عصبی الگوریتم حفظ را کنار می گذارد.
بنابراین، در حالی که به نظر می رسد توانایی تعمیم تاخیری به طور ناگهانی ظاهر می شود، در داخل پارامترهای شبکه به طور پیوسته در حال یادگیری الگوریتم تعمیم هستند. تنها زمانی که شبکه هم الگوریتم تعمیمدهنده را یاد گرفته باشد و هم الگوریتم به خاطر سپردن را به طور کامل حذف کرده باشد، شما دچار گروکینگ میشوید. ناندا گفت: "ممکن است چیزهایی که ناگهانی به نظر می رسند در زیر سطح به تدریج تدریجی شوند" - مسئله ای که در سایر تحقیقات یادگیری ماشین.
علیرغم این پیشرفت ها، مهم است که به یاد داشته باشید که تحقیقات grokking هنوز در مراحل ابتدایی خود است. تاکنون، محققان تنها شبکههای بسیار کوچک را مورد مطالعه قرار دادهاند و مشخص نیست که آیا این یافتهها در شبکههای بزرگتر و قویتر قابل استفاده است یا خیر. بلکین همچنین هشدار می دهد که محاسبات مدولار در مقایسه با تمام کارهای مختلف که توسط شبکه های عصبی امروزی انجام می شود، "یک قطره در اقیانوس" است. مهندسی معکوس راه حل یک شبکه عصبی برای چنین ریاضیاتی ممکن است برای درک اصول کلی که این شبکه ها را به سمت تعمیم سوق می دهد کافی نباشد. بلکین گفت: "مطالعه درختان عالی است." اما ما همچنین باید جنگل را مطالعه کنیم.
با این وجود، توانایی همتا در داخل این شبکه ها و درک تحلیلی آنها پیامدهای بسیار زیادی دارد. برای بسیاری از ما، تبدیل فوریه و دو نیمشدن قوسهای دایرهها، روشی بسیار عجیب برای جمعآوری مدول است – نورونهای انسانی اینطور فکر نمیکنند. ناندا گفت: "اما اگر شما از جبر خطی ساخته شده اید، در واقع انجام آن به این شکل منطقی است."
او گفت: «این مغزهای عجیب و غریب [مصنوعی] متفاوت از مغز ما کار می کنند. «[آنها] قوانین و ساختار خود را دارند. ما باید یاد بگیریم که چگونه یک شبکه عصبی فکر می کند فکر کنیم.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://www.quantamagazine.org/how-do-machines-grok-data-20240412/