هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

چگونه استدلال زنجیره‌ای فکری به محاسبه شبکه‌های عصبی کمک می‌کند | مجله کوانتا

تاریخ:

معرفی

احتمالاً معلم کلاس شما نحوه جمع کردن اعداد 20 رقمی را به شما نشان نداده است. اما اگر می دانید چگونه اعداد کوچکتر را اضافه کنید، تنها چیزی که نیاز دارید کاغذ و مداد و کمی صبر است. با همان جاها شروع کنید و قدم به قدم به سمت چپ کار کنید، و به زودی به راحتی کوینتیلیون ها را روی هم انباشته خواهید کرد.

مشکلاتی از این دست برای انسان ها آسان است، اما به شرطی که به روش درست به آنها برخورد کنیم. گفت: "چگونه ما انسان ها این مشکلات را حل می کنیم این نیست که به آن خیره شویم و سپس پاسخ را یادداشت کنیم." اران مالاک، محقق یادگیری ماشین در دانشگاه هاروارد. ما در واقع مراحل را طی می کنیم.

این بینش محققانی را برانگیخته است که مدل‌های زبان بزرگی را که ربات‌های چت مانند ChatGPT را تقویت می‌کنند، مطالعه کنند. در حالی که این سیستم‌ها ممکن است سؤالاتی شامل چند مرحله حسابی داشته باشند، آنها اغلب مسائلی را که شامل چندین مرحله است، مانند محاسبه مجموع دو عدد بزرگ، حل می‌کنند. اما در سال 2022، تیمی از محققان گوگل نشان داد درخواست از مدل‌های زبان برای ایجاد راه‌حل‌های گام به گام، مدل‌ها را قادر می‌سازد تا مسائلی را که قبلاً دور از دسترس به نظر می‌رسیدند، حل کنند. تکنیک آنها که تحریک زنجیره‌ای از فکر نامیده می‌شود، به‌زودی فراگیر شد، حتی زمانی که محققان تلاش می‌کردند بفهمند چه چیزی باعث کارکرد آن می‌شود.

اکنون، چندین تیم با استفاده از تکنیک‌هایی از شاخه مخفیانه علم کامپیوتر نظری به نام نظریه پیچیدگی محاسباتی، قدرت استدلال زنجیره‌ای از فکر را کشف کرده‌اند. این آخرین فصل از یک خط تحقیقاتی است که از نظریه پیچیدگی برای مطالعه قابلیت‌ها و محدودیت‌های درونی مدل‌های زبانی استفاده می‌کند. این تلاش‌ها مشخص می‌کنند که کجا باید انتظار شکست مدل‌ها را داشته باشیم، و ممکن است به رویکردهای جدیدی برای ساختن آنها اشاره کنند.

گفت: "آنها مقداری از جادو را حذف می کنند." دیمیتری پاپایلیوپولوس، محقق یادگیری ماشین در دانشگاه ویسکانسین، مدیسون. "این چیز خوبی است."

ترانسفورماتورهای آموزشی

مدل های زبان بزرگ حول ساختارهای ریاضی به نام شبکه های عصبی مصنوعی ساخته می شوند. بسیاری از «نورون‌ها» درون این شبکه‌ها، عملیات ریاضی ساده‌ای را بر روی رشته‌های طولانی اعدادی انجام می‌دهند که هر کلمه‌ای را که از شبکه عبور می‌کند به کلمه‌ای دیگر تبدیل می‌کند. جزئیات این کیمیاگری ریاضی به مجموعه دیگری از اعداد به نام پارامترهای شبکه بستگی دارد که قدرت اتصالات بین نورون ها را کمیت می کند.

برای آموزش یک مدل زبان برای تولید خروجی‌های منسجم، محققان معمولاً با یک شبکه عصبی شروع می‌کنند که پارامترهای آن همگی دارای مقادیر تصادفی هستند و سپس مجموعه‌ای از داده‌ها را از سراسر اینترنت به آن تغذیه می‌کنند. هر بار که مدل بلوک جدیدی از متن را می بیند، سعی می کند هر کلمه را به نوبه خود پیش بینی کند: کلمه دوم را بر اساس اولی، سومی را بر اساس دو مورد اول و غیره حدس می زند. هر پیش‌بینی را با متن واقعی مقایسه می‌کند، سپس پارامترهای آن را تغییر می‌دهد تا تفاوت را کاهش دهد. هر ترفند فقط کمی پیش‌بینی‌های مدل را تغییر می‌دهد، اما به نوعی اثر جمعی آن‌ها یک مدل را قادر می‌سازد تا به ورودی‌هایی که هرگز ندیده است، پاسخ منسجمی بدهد.

محققان به مدت 20 سال است که شبکه های عصبی را برای پردازش زبان آموزش می دهند. اما کار واقعاً در سال 2017 آغاز شد، زمانی که محققان در گوگل یک نوع جدید شبکه ترانسفورماتور نامیده می شود.

گفت: "این هفت سال پیش پیشنهاد شد که به نظر می رسد ماقبل تاریخ است." پابلو بارسلو، محقق یادگیری ماشین در دانشگاه پاپی کاتولیک شیلی.

چیزی که ترانسفورماتورها را بسیار متحول کرده است این است که بزرگ کردن آنها آسان است - برای افزایش تعداد پارامترها و مقدار داده های آموزشی - بدون اینکه آموزش بسیار گران شود. قبل از ترانسفورماتورها، شبکه های عصبی حداکثر چند صد میلیون پارامتر داشتند. امروزه بزرگترین مدل های مبتنی بر ترانسفورماتور بیش از یک تریلیون دارند. بسیاری از بهبود عملکرد مدل زبان در پنج سال گذشته صرفاً به دلیل افزایش مقیاس است.

ترانسفورماتورها این کار را با استفاده از ساختارهای ریاضی خاصی به نام سرهای توجه امکان پذیر کردند که به آنها نوعی دید چشم پرنده از متنی که می خوانند می دهد. هنگامی که یک ترانسفورماتور یک بلوک جدید از متن را می خواند، سرهای توجه آن به سرعت کل چیز را اسکن می کنند و ارتباطات مرتبط بین کلمات را شناسایی می کنند - شاید با توجه به اینکه کلمات چهارم و هشتم احتمالاً برای پیش بینی کلمه 10 مفید هستند. سپس سرهای توجه کلمات را به شبکه عظیمی از نورون‌ها به نام شبکه پیش‌خور منتقل می‌کنند، که اعداد سنگین مورد نیاز برای ایجاد پیش‌بینی‌هایی را انجام می‌دهد که به یادگیری کمک می‌کند.

ترانسفورماتورهای واقعی دارای چندین لایه از سرهای توجه هستند که توسط شبکه های پیشخور از هم جدا شده اند و فقط پیش بینی ها را بعد از آخرین لایه منتشر می کنند. اما در هر لایه، سرهای توجه از قبل مرتبط‌ترین زمینه را برای هر کلمه شناسایی کرده‌اند، بنابراین مرحله پیش‌خورد فشرده محاسباتی می‌تواند به طور همزمان برای هر کلمه در متن اتفاق بیفتد. این امر روند آموزش را تسریع می‌کند و آموزش ترانسفورماتورها را بر روی مجموعه‌های بزرگی از داده‌ها ممکن می‌سازد. مهمتر از آن، این امکان را به محققان می دهد تا بار محاسباتی عظیم آموزش یک شبکه عصبی عظیم را در بسیاری از پردازنده هایی که پشت سر هم کار می کنند، پخش کنند.

برای به دست آوردن حداکثر استفاده از مجموعه داده های عظیم، "شما باید مدل ها را واقعا بزرگ کنید." دیوید چیانگ، محقق یادگیری ماشین در دانشگاه نوتردام. "آموزش آنها عملی نخواهد بود مگر اینکه موازی شود."

با این حال، ساختار موازی که آموزش ترانسفورماتورها را بسیار آسان می کند، پس از آموزش کمکی نمی کند - در آن مرحله، نیازی به پیش بینی کلماتی که از قبل وجود دارند وجود ندارد. در طول عملیات معمولی، ترانسفورماتورها هر بار یک کلمه را خروجی می‌دهند، و هر خروجی را قبل از تولید کلمه بعدی به ورودی بازمی‌گردانند، اما همچنان با معماری بهینه‌سازی شده برای پردازش موازی گیر می‌کنند.

همانطور که مدل‌های مبتنی بر ترانسفورماتور رشد می‌کردند و کارهای خاص همچنان آنها را با مشکل مواجه می‌کرد، برخی از محققان شروع به تعجب کردند که آیا فشار به سمت مدل‌های موازی‌پذیر بیشتر هزینه داشته است. آیا راهی برای درک تئوری رفتار ترانسفورماتورها وجود داشت؟

پیچیدگی ترانسفورماتورها

مطالعات نظری شبکه‌های عصبی با مشکلات زیادی مواجه است، به‌ویژه زمانی که سعی می‌کنند آموزش را در نظر بگیرند. شبکه های عصبی از رویه ای شناخته شده برای تغییر پارامترهای خود در هر مرحله از فرآیند آموزش استفاده می کنند. اما درک اینکه چرا این روش ساده بر روی یک مجموعه خوب از پارامترها همگرا می شود، می تواند دشوار باشد.

برخی از محققان به جای در نظر گرفتن آنچه در طول آموزش اتفاق می‌افتد، قابلیت‌های ذاتی ترانسفورماتورها را با تصور اینکه امکان تنظیم پارامترهای آن‌ها با هر مقدار دلخواه وجود دارد، مطالعه می‌کنند. این به منزله تلقی ترانسفورماتور به عنوان نوع خاصی از کامپیوتر قابل برنامه ریزی است.

"شما یک دستگاه محاسباتی دارید، و می خواهید بدانید، "خب، چه کاری می تواند انجام دهد؟ چیانگ گفت چه نوع توابعی را می تواند محاسبه کند؟

اینها سوالات اصلی در مطالعه رسمی محاسبات هستند. قدمت این رشته به سال 1936 برمی گردد، زمانی که آلن تورینگ برای اولین بار تصور کرد که یک دستگاه خیالیکه اکنون ماشین تورینگ نامیده می شود، که می تواند هر محاسباتی را با خواندن و نوشتن نمادها بر روی یک نوار بی نهایت انجام دهد. نظریه پردازان پیچیدگی محاسباتی بعداً با اثبات این که مسائل محاسباتی به طور طبیعی در موارد مختلفی قرار می گیرند، کار تورینگ را به کار گرفتند. کلاس های پیچیدگی توسط منابع مورد نیاز برای حل آنها تعریف شده است.

در سال 2019، بارسلو و دو محقق دیگر ثابت که یک نسخه ایده آل از یک ترانسفورماتور با تعدادی پارامتر ثابت می تواند به اندازه یک ماشین تورینگ قدرتمند باشد. اگر یک ترانسفورماتور را طوری تنظیم کنید که بارها و بارها خروجی خود را به عنوان ورودی بازگرداند و پارامترها را روی مقادیر مناسب برای مشکل خاصی که می‌خواهید حل کنید تنظیم کنید، در نهایت پاسخ صحیح را نشان می‌دهد.

این نتیجه یک نقطه شروع بود، اما بر برخی فرضیات غیر واقعی تکیه داشت که احتمالاً قدرت ترانسفورماتورها را بیش از حد برآورد می کرد. در سال‌های پس از آن، محققان برای توسعه چارچوب‌های نظری واقعی‌تر کار کرده‌اند.

یکی از این تلاش ها در سال 2021 آغاز شد، زمانی که ویلیام مریلاو که اکنون دانشجوی کارشناسی ارشد در دانشگاه نیویورک است، یک بورسیه دو ساله را در موسسه هوش مصنوعی آلن در سیاتل ترک کرد. زمانی که در آنجا بود، او انواع دیگر شبکه های عصبی را با استفاده از تکنیک هایی که برای معماری موازی ترانسفورماتورها مناسب نبود، تجزیه و تحلیل کرد. مدت کوتاهی قبل از ترک، او با پژوهشگر موسسه آلن برای هوش مصنوعی گفتگو کرد آشیش صبهاروال، که قبل از شروع به تحقیق در زمینه هوش مصنوعی، نظریه پیچیدگی را مطالعه کرده بود. آنها شروع به شک کردند که نظریه پیچیدگی ممکن است به آنها در درک محدودیت های ترانسفورماتور کمک کند.

به نظر می رسید که یک مدل ساده است. باید محدودیت هایی وجود داشته باشد که می توان آنها را برطرف کرد.

این جفت ترانسفورماتورها را با استفاده از شاخه ای از نظریه پیچیدگی محاسباتی به نام پیچیدگی مدار، که اغلب برای مطالعه محاسبات موازی استفاده می شود، تجزیه و تحلیل کردند. اخیرا اعمال شده است به نسخه های ساده ترانسفورماتور. در سال بعد، آنها چندین فرضیه غیرواقعی را در کارهای قبلی اصلاح کردند. برای مطالعه این که چگونه ساختار موازی ترانسفورماتورها ممکن است توانایی های آنها را محدود کند، این جفت موردی را در نظر گرفت که در آن ترانسفورماتورها خروجی خود را به ورودی خود باز نمی خورند - در عوض، اولین خروجی آنها باید پاسخ نهایی باشد. آنها ثابت که ترانسفورماتورها در این چارچوب نظری نمی توانند هیچ مشکل محاسباتی خارج از یک کلاس پیچیدگی خاص را حل کنند. و بسیاری از مسائل ریاضی، از جمله مسائل نسبتا ساده مانند حل معادلات خطی، تصور می شود که خارج از این کلاس قرار دارند.

اساساً، آن‌ها نشان دادند که موازی‌سازی واقعاً هزینه‌ای دارد - حداقل زمانی که ترانسفورماتورها مجبور بودند فوراً یک پاسخ را بیرون بیاورند. مریل گفت: «ترانسفورماتورها کاملاً ضعیف هستند اگر روشی که شما از آنها استفاده می‌کنید به این صورت است که شما یک ورودی ارائه می‌دهید و فقط منتظر پاسخ فوری هستید.

آزمایش های فکری

نتایج مریل و سابهاروال یک سوال طبیعی را ایجاد کرد - وقتی ترانسفورماتورها اجازه بازیافت خروجی خود را داشته باشند چقدر قدرتمندتر می شوند؟ بارسلو و همکارانش این مورد را در تحلیل سال 2019 خود از ترانسفورماتورهای ایده آل مورد مطالعه قرار داده بودند، اما با فرضیات واقع بینانه تر، این سوال باز باقی ماند. و در سال‌های میانی، محققان انگیزه‌های زنجیره‌ای فکری را کشف کرده بودند که به این سوال ارتباط تازه‌ای داده بود.

مریل و سابهاروال می‌دانستند که رویکرد صرفاً ریاضی آن‌ها نمی‌تواند تمام جنبه‌های استدلال زنجیره‌ای فکری را در مدل‌های زبان واقعی، جایی که عبارت‌ها در اعلان می‌خوانند، دربرگیرد. می تواند بسیار مهم باشد. اما مهم نیست که یک اعلان چگونه بیان می شود، تا زمانی که یک مدل زبانی راه حل های گام به گام را خروجی کند، مدل در اصل می تواند از نتایج مراحل میانی در عبورهای بعدی از ترانسفورماتور دوباره استفاده کند. این می تواند راهی برای فرار از محدودیت های محاسبات موازی فراهم کند.

در همین حال، تیمی از دانشگاه پکن در مسیرهای مشابهی فکر می کردند و نتایج اولیه آنها مثبت بود. در مقاله ای در ماه مه 2023، آنها برخی از مسائل ریاضی را شناسایی کردند که برای ترانسفورماتورهای معمولی در چارچوب مریل و سابهاروال غیرممکن است. نشان داد که مراحل میانی ترانسفورماتورها را قادر می سازد تا این مشکلات را حل کنند.

در ماه اکتبر، مریل و سابهاروال کار قبلی خود را با یک مطالعه نظری دقیق قدرت محاسباتی زنجیره فکر آنها تعیین کردند که چگونه این توان محاسباتی اضافی به تعداد مراحل میانی که یک ترانسفورماتور مجاز به استفاده از آن قبل از دریافت پاسخ نهایی است بستگی دارد. به طور کلی، محققان انتظار دارند تعداد مناسب گام های میانی برای حل هر مشکلی به اندازه ورودی مسئله بستگی داشته باشد. به عنوان مثال، ساده ترین استراتژی برای جمع دو عدد 20 رقمی به دو برابر تعداد مراحل جمع میانی نسبت به روش مشابه برای جمع دو عدد 10 رقمی نیاز دارد.

مثال‌هایی مانند این نشان می‌دهد که ترانسفورماتورها با استفاده از چند مرحله میانی سود زیادی نخواهند داشت. در واقع، مریل و سابهاروال ثابت کردند که زنجیره فکر زمانی واقعاً شروع به کمک می‌کند که تعداد گام‌های میانی متناسب با اندازه ورودی افزایش یابد، و بسیاری از مشکلات مستلزم افزایش تعداد پله‌های میانی هستند.

دقیق بودن نتیجه پژوهشگران را تحت تأثیر قرار داد. گفت: «آنها واقعاً این را ثابت کردند دانیل هسو، محقق یادگیری ماشین در دانشگاه کلمبیا.

کار اخیر مریل و سابهاروال نشان می‌دهد که زنجیره فکر نوشدارویی نیست – در اصل، می‌تواند به ترانسفورماتورها در حل مشکلات سخت‌تر کمک کند، اما فقط به قیمت تلاش محاسباتی زیاد.

مریل گفت: «ما به راه‌های مختلف برای دور زدن محدودیت‌های ترانسفورماتور با یک قدم علاقه‌مندیم. "زنجیره فکری یک راه است، اما این مقاله نشان می دهد که ممکن است اقتصادی ترین راه نباشد."

بازگشت به واقعیت

با این حال، محققان هشدار می دهند که این نوع تحلیل نظری فقط می تواند چیزهای زیادی را در مورد مدل های زبان واقعی نشان دهد. نتایج مثبت - شواهدی مبنی بر اینکه ترانسفورماتورها اصولاً می توانند مشکلات خاصی را حل کنند - به این معنی نیست که یک مدل زبان واقعاً آن راه حل ها را در طول آموزش یاد می گیرد.

و حتی نتایجی که به محدودیت‌های ترانسفورماتورها می‌پردازند با اخطارهایی همراه هستند: آنها نشان می‌دهند که هیچ ترانسفورماتور نمی‌تواند مشکلات خاصی را در همه موارد به طور کامل حل کند. البته، این یک نوار بسیار بالا است. هسو گفت: «ممکن است موارد خاصی از این مشکل وجود داشته باشد که بتواند به خوبی از پس آن برآید.

علیرغم این اخطارها، کار جدید الگویی برای تجزیه و تحلیل انواع مختلف معماری شبکه های عصبی ارائه می دهد که ممکن است در نهایت جایگزین ترانسفورماتورها شوند. اگر تحلیل تئوری پیچیدگی نشان دهد که انواع خاصی از شبکه‌ها قدرتمندتر از سایرین هستند، شواهدی بر این خواهد بود که آن شبکه‌ها ممکن است در دنیای واقعی نیز بهتر عمل کنند.

چیانگ همچنین تاکید کرد که تحقیقات در مورد محدودیت‌های ترانسفورماتورها بسیار ارزشمندتر است زیرا مدل‌های زبان به طور فزاینده‌ای در طیف گسترده‌ای از کاربردهای دنیای واقعی مورد استفاده قرار می‌گیرند و به راحتی می‌توان توانایی‌های آن‌ها را بیش از حد برآورد کرد.

چیانگ گفت: «در واقع چیزهای زیادی وجود دارد که آنها آنقدر خوب انجام نمی‌دهند، و ما باید خیلی خیلی از محدودیت‌ها آگاه باشیم. "به همین دلیل این نوع کار واقعا مهم است."

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟