معرفی
احتمالاً معلم کلاس شما نحوه جمع کردن اعداد 20 رقمی را به شما نشان نداده است. اما اگر می دانید چگونه اعداد کوچکتر را اضافه کنید، تنها چیزی که نیاز دارید کاغذ و مداد و کمی صبر است. با همان جاها شروع کنید و قدم به قدم به سمت چپ کار کنید، و به زودی به راحتی کوینتیلیون ها را روی هم انباشته خواهید کرد.
مشکلاتی از این دست برای انسان ها آسان است، اما به شرطی که به روش درست به آنها برخورد کنیم. گفت: "چگونه ما انسان ها این مشکلات را حل می کنیم این نیست که به آن خیره شویم و سپس پاسخ را یادداشت کنیم." اران مالاک، محقق یادگیری ماشین در دانشگاه هاروارد. ما در واقع مراحل را طی می کنیم.
این بینش محققانی را برانگیخته است که مدلهای زبان بزرگی را که رباتهای چت مانند ChatGPT را تقویت میکنند، مطالعه کنند. در حالی که این سیستمها ممکن است سؤالاتی شامل چند مرحله حسابی داشته باشند، آنها اغلب مسائلی را که شامل چندین مرحله است، مانند محاسبه مجموع دو عدد بزرگ، حل میکنند. اما در سال 2022، تیمی از محققان گوگل نشان داد درخواست از مدلهای زبان برای ایجاد راهحلهای گام به گام، مدلها را قادر میسازد تا مسائلی را که قبلاً دور از دسترس به نظر میرسیدند، حل کنند. تکنیک آنها که تحریک زنجیرهای از فکر نامیده میشود، بهزودی فراگیر شد، حتی زمانی که محققان تلاش میکردند بفهمند چه چیزی باعث کارکرد آن میشود.
اکنون، چندین تیم با استفاده از تکنیکهایی از شاخه مخفیانه علم کامپیوتر نظری به نام نظریه پیچیدگی محاسباتی، قدرت استدلال زنجیرهای از فکر را کشف کردهاند. این آخرین فصل از یک خط تحقیقاتی است که از نظریه پیچیدگی برای مطالعه قابلیتها و محدودیتهای درونی مدلهای زبانی استفاده میکند. این تلاشها مشخص میکنند که کجا باید انتظار شکست مدلها را داشته باشیم، و ممکن است به رویکردهای جدیدی برای ساختن آنها اشاره کنند.
گفت: "آنها مقداری از جادو را حذف می کنند." دیمیتری پاپایلیوپولوس، محقق یادگیری ماشین در دانشگاه ویسکانسین، مدیسون. "این چیز خوبی است."
ترانسفورماتورهای آموزشی
مدل های زبان بزرگ حول ساختارهای ریاضی به نام شبکه های عصبی مصنوعی ساخته می شوند. بسیاری از «نورونها» درون این شبکهها، عملیات ریاضی سادهای را بر روی رشتههای طولانی اعدادی انجام میدهند که هر کلمهای را که از شبکه عبور میکند به کلمهای دیگر تبدیل میکند. جزئیات این کیمیاگری ریاضی به مجموعه دیگری از اعداد به نام پارامترهای شبکه بستگی دارد که قدرت اتصالات بین نورون ها را کمیت می کند.
برای آموزش یک مدل زبان برای تولید خروجیهای منسجم، محققان معمولاً با یک شبکه عصبی شروع میکنند که پارامترهای آن همگی دارای مقادیر تصادفی هستند و سپس مجموعهای از دادهها را از سراسر اینترنت به آن تغذیه میکنند. هر بار که مدل بلوک جدیدی از متن را می بیند، سعی می کند هر کلمه را به نوبه خود پیش بینی کند: کلمه دوم را بر اساس اولی، سومی را بر اساس دو مورد اول و غیره حدس می زند. هر پیشبینی را با متن واقعی مقایسه میکند، سپس پارامترهای آن را تغییر میدهد تا تفاوت را کاهش دهد. هر ترفند فقط کمی پیشبینیهای مدل را تغییر میدهد، اما به نوعی اثر جمعی آنها یک مدل را قادر میسازد تا به ورودیهایی که هرگز ندیده است، پاسخ منسجمی بدهد.
محققان به مدت 20 سال است که شبکه های عصبی را برای پردازش زبان آموزش می دهند. اما کار واقعاً در سال 2017 آغاز شد، زمانی که محققان در گوگل یک نوع جدید شبکه ترانسفورماتور نامیده می شود.
گفت: "این هفت سال پیش پیشنهاد شد که به نظر می رسد ماقبل تاریخ است." پابلو بارسلو، محقق یادگیری ماشین در دانشگاه پاپی کاتولیک شیلی.
چیزی که ترانسفورماتورها را بسیار متحول کرده است این است که بزرگ کردن آنها آسان است - برای افزایش تعداد پارامترها و مقدار داده های آموزشی - بدون اینکه آموزش بسیار گران شود. قبل از ترانسفورماتورها، شبکه های عصبی حداکثر چند صد میلیون پارامتر داشتند. امروزه بزرگترین مدل های مبتنی بر ترانسفورماتور بیش از یک تریلیون دارند. بسیاری از بهبود عملکرد مدل زبان در پنج سال گذشته صرفاً به دلیل افزایش مقیاس است.
ترانسفورماتورها این کار را با استفاده از ساختارهای ریاضی خاصی به نام سرهای توجه امکان پذیر کردند که به آنها نوعی دید چشم پرنده از متنی که می خوانند می دهد. هنگامی که یک ترانسفورماتور یک بلوک جدید از متن را می خواند، سرهای توجه آن به سرعت کل چیز را اسکن می کنند و ارتباطات مرتبط بین کلمات را شناسایی می کنند - شاید با توجه به اینکه کلمات چهارم و هشتم احتمالاً برای پیش بینی کلمه 10 مفید هستند. سپس سرهای توجه کلمات را به شبکه عظیمی از نورونها به نام شبکه پیشخور منتقل میکنند، که اعداد سنگین مورد نیاز برای ایجاد پیشبینیهایی را انجام میدهد که به یادگیری کمک میکند.
ترانسفورماتورهای واقعی دارای چندین لایه از سرهای توجه هستند که توسط شبکه های پیشخور از هم جدا شده اند و فقط پیش بینی ها را بعد از آخرین لایه منتشر می کنند. اما در هر لایه، سرهای توجه از قبل مرتبطترین زمینه را برای هر کلمه شناسایی کردهاند، بنابراین مرحله پیشخورد فشرده محاسباتی میتواند به طور همزمان برای هر کلمه در متن اتفاق بیفتد. این امر روند آموزش را تسریع میکند و آموزش ترانسفورماتورها را بر روی مجموعههای بزرگی از دادهها ممکن میسازد. مهمتر از آن، این امکان را به محققان می دهد تا بار محاسباتی عظیم آموزش یک شبکه عصبی عظیم را در بسیاری از پردازنده هایی که پشت سر هم کار می کنند، پخش کنند.
برای به دست آوردن حداکثر استفاده از مجموعه داده های عظیم، "شما باید مدل ها را واقعا بزرگ کنید." دیوید چیانگ، محقق یادگیری ماشین در دانشگاه نوتردام. "آموزش آنها عملی نخواهد بود مگر اینکه موازی شود."
با این حال، ساختار موازی که آموزش ترانسفورماتورها را بسیار آسان می کند، پس از آموزش کمکی نمی کند - در آن مرحله، نیازی به پیش بینی کلماتی که از قبل وجود دارند وجود ندارد. در طول عملیات معمولی، ترانسفورماتورها هر بار یک کلمه را خروجی میدهند، و هر خروجی را قبل از تولید کلمه بعدی به ورودی بازمیگردانند، اما همچنان با معماری بهینهسازی شده برای پردازش موازی گیر میکنند.
همانطور که مدلهای مبتنی بر ترانسفورماتور رشد میکردند و کارهای خاص همچنان آنها را با مشکل مواجه میکرد، برخی از محققان شروع به تعجب کردند که آیا فشار به سمت مدلهای موازیپذیر بیشتر هزینه داشته است. آیا راهی برای درک تئوری رفتار ترانسفورماتورها وجود داشت؟
پیچیدگی ترانسفورماتورها
مطالعات نظری شبکههای عصبی با مشکلات زیادی مواجه است، بهویژه زمانی که سعی میکنند آموزش را در نظر بگیرند. شبکه های عصبی از رویه ای شناخته شده برای تغییر پارامترهای خود در هر مرحله از فرآیند آموزش استفاده می کنند. اما درک اینکه چرا این روش ساده بر روی یک مجموعه خوب از پارامترها همگرا می شود، می تواند دشوار باشد.
برخی از محققان به جای در نظر گرفتن آنچه در طول آموزش اتفاق میافتد، قابلیتهای ذاتی ترانسفورماتورها را با تصور اینکه امکان تنظیم پارامترهای آنها با هر مقدار دلخواه وجود دارد، مطالعه میکنند. این به منزله تلقی ترانسفورماتور به عنوان نوع خاصی از کامپیوتر قابل برنامه ریزی است.
"شما یک دستگاه محاسباتی دارید، و می خواهید بدانید، "خب، چه کاری می تواند انجام دهد؟ چیانگ گفت چه نوع توابعی را می تواند محاسبه کند؟
اینها سوالات اصلی در مطالعه رسمی محاسبات هستند. قدمت این رشته به سال 1936 برمی گردد، زمانی که آلن تورینگ برای اولین بار تصور کرد که یک دستگاه خیالیکه اکنون ماشین تورینگ نامیده می شود، که می تواند هر محاسباتی را با خواندن و نوشتن نمادها بر روی یک نوار بی نهایت انجام دهد. نظریه پردازان پیچیدگی محاسباتی بعداً با اثبات این که مسائل محاسباتی به طور طبیعی در موارد مختلفی قرار می گیرند، کار تورینگ را به کار گرفتند. کلاس های پیچیدگی توسط منابع مورد نیاز برای حل آنها تعریف شده است.
در سال 2019، بارسلو و دو محقق دیگر ثابت که یک نسخه ایده آل از یک ترانسفورماتور با تعدادی پارامتر ثابت می تواند به اندازه یک ماشین تورینگ قدرتمند باشد. اگر یک ترانسفورماتور را طوری تنظیم کنید که بارها و بارها خروجی خود را به عنوان ورودی بازگرداند و پارامترها را روی مقادیر مناسب برای مشکل خاصی که میخواهید حل کنید تنظیم کنید، در نهایت پاسخ صحیح را نشان میدهد.
این نتیجه یک نقطه شروع بود، اما بر برخی فرضیات غیر واقعی تکیه داشت که احتمالاً قدرت ترانسفورماتورها را بیش از حد برآورد می کرد. در سالهای پس از آن، محققان برای توسعه چارچوبهای نظری واقعیتر کار کردهاند.
یکی از این تلاش ها در سال 2021 آغاز شد، زمانی که ویلیام مریلاو که اکنون دانشجوی کارشناسی ارشد در دانشگاه نیویورک است، یک بورسیه دو ساله را در موسسه هوش مصنوعی آلن در سیاتل ترک کرد. زمانی که در آنجا بود، او انواع دیگر شبکه های عصبی را با استفاده از تکنیک هایی که برای معماری موازی ترانسفورماتورها مناسب نبود، تجزیه و تحلیل کرد. مدت کوتاهی قبل از ترک، او با پژوهشگر موسسه آلن برای هوش مصنوعی گفتگو کرد آشیش صبهاروال، که قبل از شروع به تحقیق در زمینه هوش مصنوعی، نظریه پیچیدگی را مطالعه کرده بود. آنها شروع به شک کردند که نظریه پیچیدگی ممکن است به آنها در درک محدودیت های ترانسفورماتور کمک کند.
به نظر می رسید که یک مدل ساده است. باید محدودیت هایی وجود داشته باشد که می توان آنها را برطرف کرد.
این جفت ترانسفورماتورها را با استفاده از شاخه ای از نظریه پیچیدگی محاسباتی به نام پیچیدگی مدار، که اغلب برای مطالعه محاسبات موازی استفاده می شود، تجزیه و تحلیل کردند. اخیرا اعمال شده است به نسخه های ساده ترانسفورماتور. در سال بعد، آنها چندین فرضیه غیرواقعی را در کارهای قبلی اصلاح کردند. برای مطالعه این که چگونه ساختار موازی ترانسفورماتورها ممکن است توانایی های آنها را محدود کند، این جفت موردی را در نظر گرفت که در آن ترانسفورماتورها خروجی خود را به ورودی خود باز نمی خورند - در عوض، اولین خروجی آنها باید پاسخ نهایی باشد. آنها ثابت که ترانسفورماتورها در این چارچوب نظری نمی توانند هیچ مشکل محاسباتی خارج از یک کلاس پیچیدگی خاص را حل کنند. و بسیاری از مسائل ریاضی، از جمله مسائل نسبتا ساده مانند حل معادلات خطی، تصور می شود که خارج از این کلاس قرار دارند.
اساساً، آنها نشان دادند که موازیسازی واقعاً هزینهای دارد - حداقل زمانی که ترانسفورماتورها مجبور بودند فوراً یک پاسخ را بیرون بیاورند. مریل گفت: «ترانسفورماتورها کاملاً ضعیف هستند اگر روشی که شما از آنها استفاده میکنید به این صورت است که شما یک ورودی ارائه میدهید و فقط منتظر پاسخ فوری هستید.
آزمایش های فکری
نتایج مریل و سابهاروال یک سوال طبیعی را ایجاد کرد - وقتی ترانسفورماتورها اجازه بازیافت خروجی خود را داشته باشند چقدر قدرتمندتر می شوند؟ بارسلو و همکارانش این مورد را در تحلیل سال 2019 خود از ترانسفورماتورهای ایده آل مورد مطالعه قرار داده بودند، اما با فرضیات واقع بینانه تر، این سوال باز باقی ماند. و در سالهای میانی، محققان انگیزههای زنجیرهای فکری را کشف کرده بودند که به این سوال ارتباط تازهای داده بود.
مریل و سابهاروال میدانستند که رویکرد صرفاً ریاضی آنها نمیتواند تمام جنبههای استدلال زنجیرهای فکری را در مدلهای زبان واقعی، جایی که عبارتها در اعلان میخوانند، دربرگیرد. می تواند بسیار مهم باشد. اما مهم نیست که یک اعلان چگونه بیان می شود، تا زمانی که یک مدل زبانی راه حل های گام به گام را خروجی کند، مدل در اصل می تواند از نتایج مراحل میانی در عبورهای بعدی از ترانسفورماتور دوباره استفاده کند. این می تواند راهی برای فرار از محدودیت های محاسبات موازی فراهم کند.
در همین حال، تیمی از دانشگاه پکن در مسیرهای مشابهی فکر می کردند و نتایج اولیه آنها مثبت بود. در مقاله ای در ماه مه 2023، آنها برخی از مسائل ریاضی را شناسایی کردند که برای ترانسفورماتورهای معمولی در چارچوب مریل و سابهاروال غیرممکن است. نشان داد که مراحل میانی ترانسفورماتورها را قادر می سازد تا این مشکلات را حل کنند.
در ماه اکتبر، مریل و سابهاروال کار قبلی خود را با یک مطالعه نظری دقیق قدرت محاسباتی زنجیره فکر آنها تعیین کردند که چگونه این توان محاسباتی اضافی به تعداد مراحل میانی که یک ترانسفورماتور مجاز به استفاده از آن قبل از دریافت پاسخ نهایی است بستگی دارد. به طور کلی، محققان انتظار دارند تعداد مناسب گام های میانی برای حل هر مشکلی به اندازه ورودی مسئله بستگی داشته باشد. به عنوان مثال، ساده ترین استراتژی برای جمع دو عدد 20 رقمی به دو برابر تعداد مراحل جمع میانی نسبت به روش مشابه برای جمع دو عدد 10 رقمی نیاز دارد.
مثالهایی مانند این نشان میدهد که ترانسفورماتورها با استفاده از چند مرحله میانی سود زیادی نخواهند داشت. در واقع، مریل و سابهاروال ثابت کردند که زنجیره فکر زمانی واقعاً شروع به کمک میکند که تعداد گامهای میانی متناسب با اندازه ورودی افزایش یابد، و بسیاری از مشکلات مستلزم افزایش تعداد پلههای میانی هستند.
دقیق بودن نتیجه پژوهشگران را تحت تأثیر قرار داد. گفت: «آنها واقعاً این را ثابت کردند دانیل هسو، محقق یادگیری ماشین در دانشگاه کلمبیا.
کار اخیر مریل و سابهاروال نشان میدهد که زنجیره فکر نوشدارویی نیست – در اصل، میتواند به ترانسفورماتورها در حل مشکلات سختتر کمک کند، اما فقط به قیمت تلاش محاسباتی زیاد.
مریل گفت: «ما به راههای مختلف برای دور زدن محدودیتهای ترانسفورماتور با یک قدم علاقهمندیم. "زنجیره فکری یک راه است، اما این مقاله نشان می دهد که ممکن است اقتصادی ترین راه نباشد."
بازگشت به واقعیت
با این حال، محققان هشدار می دهند که این نوع تحلیل نظری فقط می تواند چیزهای زیادی را در مورد مدل های زبان واقعی نشان دهد. نتایج مثبت - شواهدی مبنی بر اینکه ترانسفورماتورها اصولاً می توانند مشکلات خاصی را حل کنند - به این معنی نیست که یک مدل زبان واقعاً آن راه حل ها را در طول آموزش یاد می گیرد.
و حتی نتایجی که به محدودیتهای ترانسفورماتورها میپردازند با اخطارهایی همراه هستند: آنها نشان میدهند که هیچ ترانسفورماتور نمیتواند مشکلات خاصی را در همه موارد به طور کامل حل کند. البته، این یک نوار بسیار بالا است. هسو گفت: «ممکن است موارد خاصی از این مشکل وجود داشته باشد که بتواند به خوبی از پس آن برآید.
علیرغم این اخطارها، کار جدید الگویی برای تجزیه و تحلیل انواع مختلف معماری شبکه های عصبی ارائه می دهد که ممکن است در نهایت جایگزین ترانسفورماتورها شوند. اگر تحلیل تئوری پیچیدگی نشان دهد که انواع خاصی از شبکهها قدرتمندتر از سایرین هستند، شواهدی بر این خواهد بود که آن شبکهها ممکن است در دنیای واقعی نیز بهتر عمل کنند.
چیانگ همچنین تاکید کرد که تحقیقات در مورد محدودیتهای ترانسفورماتورها بسیار ارزشمندتر است زیرا مدلهای زبان به طور فزایندهای در طیف گستردهای از کاربردهای دنیای واقعی مورد استفاده قرار میگیرند و به راحتی میتوان تواناییهای آنها را بیش از حد برآورد کرد.
چیانگ گفت: «در واقع چیزهای زیادی وجود دارد که آنها آنقدر خوب انجام نمیدهند، و ما باید خیلی خیلی از محدودیتها آگاه باشیم. "به همین دلیل این نوع کار واقعا مهم است."
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://www.quantamagazine.org/how-chain-of-thought-reasoning-helps-neural-networks-compute-20240321/