معرفی
تیمی از دانشمندان کامپیوتر یک زیرک تر و انعطاف پذیرتر مدل یادگیری ماشین ترفند: باید به طور دوره ای آنچه را که می داند فراموش کند. و در حالی که این رویکرد جدید جایگزین مدلهای عظیمی نمیشود که بزرگترین اپلیکیشنها را در خود جای دادهاند، اما میتواند اطلاعات بیشتری را در مورد نحوه درک این برنامهها از زبان نشان دهد.
تحقیقات جدید نشان دهنده "پیشرفت قابل توجهی در این زمینه" است جیا کوونمهندس هوش مصنوعی در موسسه علوم پایه در کره جنوبی.
موتورهای زبان هوش مصنوعی که امروزه مورد استفاده قرار میگیرند، عمدتاً توسط شبکه های عصبی مصنوعی. هر «نورون» در شبکه یک تابع ریاضی است که سیگنالهایی را از نورونهای دیگر دریافت میکند، محاسباتی را انجام میدهد و سیگنالها را از طریق لایههای متعدد نورون ارسال میکند. در ابتدا جریان اطلاعات کم و بیش تصادفی است، اما از طریق آموزش، جریان اطلاعات بین نورون ها بهبود می یابد، زیرا شبکه با داده های آموزشی سازگار می شود. اگر یک محقق هوش مصنوعی بخواهد یک مدل دوزبانه ایجاد کند، برای مثال، مدل را با انبوهی از متن از هر دو زبان آموزش میدهد، که اتصالات بین نورونها را به گونهای تنظیم میکند که متن را در یک زبان با معادل آن مرتبط کند. کلمات در دیگری
اما این فرآیند آموزشی، قدرت محاسباتی زیادی را می طلبد. اگر مدل خیلی خوب کار نکند، یا اگر نیازهای کاربر بعداً تغییر کند، تطبیق آن دشوار است. گفت: «مثلاً مدلی دارید که 100 زبان دارد، اما تصور کنید که یک زبان که میخواهید پوشش داده نمیشود.» میکل آرتتسه، یکی از نویسندگان تحقیق جدید و بنیانگذار استارت آپ هوش مصنوعی Reka. شما می توانید از ابتدا از ابتدا شروع کنید، اما ایده آل نیست.
Artetxe و همکارانش سعی کرده اند این محدودیت ها را دور بزنند. چند سال پیش، Artetxe و دیگران یک شبکه عصبی را به یک زبان آموزش دادند، سپس آنچه را که در مورد اجزای سازنده کلمات می دانست، به نام نشانه ها پاک کردند. اینها در اولین لایه شبکه عصبی به نام لایه تعبیه شده ذخیره می شوند. همه لایه های دیگر مدل را به حال خود رها کردند. پس از پاک کردن توکنهای زبان اول، مدل را روی زبان دوم آموزش دادند که لایهی تعبیهشده را با نشانههای جدیدی از آن زبان پر کرد.
حتی اگر مدل حاوی اطلاعات نامتناسب بود، بازآموزی کارآمد بود: مدل میتوانست زبان جدید را یاد بگیرد و پردازش کند. محققان حدس زدند که در حالی که لایه جاسازی اطلاعات خاص کلمات مورد استفاده در زبان را ذخیره می کند، سطوح عمیق تر شبکه اطلاعات انتزاعی تری در مورد مفاهیم پشت زبان های انسانی ذخیره می کند که سپس به مدل کمک می کند زبان دوم را یاد بگیرد.
"ما در یک دنیا زندگی می کنیم. ما چیزهای یکسانی را با کلمات متفاوت در زبانهای مختلف مفهومسازی میکنیم یی هونگ چن، نویسنده اصلی مقاله اخیر. «به همین دلیل است که شما همین استدلال سطح بالا را در مدل دارید. سیب چیزی شیرین و آبدار است، به جای یک کلمه.»
معرفی
در حالی که این رویکرد فراموشی روشی مؤثر برای افزودن یک زبان جدید به مدلی بود که قبلاً آموزش دیده بود، بازآموزی همچنان سخت بود - به دادههای زبانی و قدرت پردازش زیادی نیاز داشت. چن یک تغییر پیشنهاد داد: به جای آموزش، پاک کردن لایه جاسازی و سپس آموزش مجدد، آنها باید به طور دوره ای لایه جاسازی را در دور اولیه تمرین بازنشانی کنند. Artetxe گفت: "با انجام این کار، کل مدل به تنظیم مجدد عادت می کند." «این بدان معناست که وقتی میخواهید مدل را به زبان دیگری گسترش دهید، آسانتر است، زیرا این همان کاری است که شما انجام میدادید.»
محققان یک مدل زبان رایج به نام استفاده کردند روبرتا، آن را با استفاده از تکنیک فراموشی دوره ای خود آموزش دادند و آن را با عملکرد همان مدل در زمانی که با رویکرد استاندارد و بدون فراموشی آموزش می دیدند مقایسه کردند. مدل فراموشی کمی بدتر از مدل معمولی عمل کرد و امتیاز 85.1 را در مقایسه با 86.1 در یک معیار معمول از دقت زبان دریافت کرد. سپس آنها مدلها را در زبانهای دیگر، با استفاده از مجموعه دادههای بسیار کوچکتر از 5 میلیون توکن، به جای 70 میلیاردی که در اولین آموزش استفاده کردند، دوباره آموزش دادند. دقت مدل استاندارد به طور متوسط به 53.3 کاهش یافت، اما مدل فراموشی تنها به 62.7 کاهش یافت.
اگر تیم محدودیتهای محاسباتی را در طول آموزش مجدد اعمال میکرد، مدل فراموشی نیز بسیار بهتر عمل میکرد. هنگامی که محققان طول تمرین را از 125,000 قدم به تنها 5,000 کاهش دادند، دقت مدل فراموشی به طور متوسط به 57.8 کاهش یافت، در حالی که مدل استاندارد به 37.2 کاهش یافت که بهتر از حدس های تصادفی نیست.
معرفی
تیم به این نتیجه رسید که فراموشی دوره ای به نظر می رسد که این مدل را در یادگیری زبان به طور کلی بهتر می کند. گفت: «از آنجایی که [آنها] در طول آموزش فراموش می کنند و دوباره یاد می گیرند، آموزش چیزهای جدید به شبکه بعداً آسان تر می شود. اوگنی نیکیشینمحققی در میلا، یک مرکز تحقیقاتی یادگیری عمیق در کبک. این نشان میدهد که وقتی مدلهای زبانی یک زبان را میفهمند، این کار را در سطحی عمیقتر از معانی تک تک کلمات انجام میدهند.
این رویکرد شبیه به نحوه عملکرد مغز ما است. «حافظه انسان به طور کلی در ذخیره دقیق مقادیر زیادی از اطلاعات دقیق چندان خوب نیست. درعوض، انسانها تمایل دارند اصل تجربیات ما را به خاطر بسپارند، انتزاعی و برونیابی میکنند.» بنجامین لوی، یک عصب شناس در دانشگاه سانفرانسیسکو. فعالسازی هوش مصنوعی با فرآیندهای انسانیتر، مانند فراموشی تطبیقی، یکی از راههای رسیدن به عملکرد انعطافپذیرتر است.»
علاوه بر آنچه ممکن است در مورد نحوه کارکرد درک بگوید، Artetxe امیدوار است که مدلهای زبان فراموشی انعطافپذیرتر نیز بتواند به ارائه آخرین پیشرفتهای هوش مصنوعی به زبانهای بیشتری کمک کند. اگرچه مدلهای هوش مصنوعی در کار با اسپانیایی و انگلیسی، دو زبان با مواد آموزشی فراوان، خوب هستند، اما این مدلها با باسک مادری او، زبان محلی خاص شمال شرقی اسپانیا، چندان خوب نیستند. او گفت: "بیشتر مدل های شرکت های بزرگ فناوری این کار را به خوبی انجام نمی دهند." "تطبیق مدل های موجود با باسک راهی است."
چن همچنین مشتاق دنیایی است که در آن گل های هوش مصنوعی بیشتری شکوفا شوند. من به موقعیتی فکر می کنم که در آن جهان به یک مدل زبان بزرگ نیاز ندارد. ما خیلی زیاد داریم.» او گفت. اگر کارخانهای وجود دارد که مدلهای زبانی تولید میکند، به این نوع فناوری نیاز دارید. این یک مدل پایه دارد که می تواند به سرعت با دامنه های جدید سازگار شود.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://www.quantamagazine.org/how-selective-forgetting-can-help-ai-learn-better-20240228/