هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

متا نسل سوم مدل زبان بزرگ لاما را معرفی کرد

تاریخ:

متا جدیدترین مدل زبان بزرگ خود (LLM) - به نام Llama 3 - را معرفی کرده است و ادعا می کند که مدل های بسیار بزرگتری مانند گوگل، میسترال و آنتروپیک را به چالش می کشد.

در طولانی نازل شد خبر در روز پنجشنبه، Llama 3 در نسخه های مختلف از هشت میلیارد تا بیش از 400 میلیارد پارامتر در دسترس است. برای مرجع، OpenAI و بزرگترین مدل های گوگل نزدیک به دو تریلیون پارامتر هستند.

در حال حاضر، ما فقط به نسخه های متنی هشت میلیارد و 3 میلیارد پارامتری Llama 70 دسترسی داریم. متا هنوز بزرگ‌ترین و پیچیده‌ترین مدل‌های خود را آموزش نداده است، اما اشاره می‌کند که آنها چند زبانه و چندوجهی خواهند بود – به این معنی که از چندین مدل کوچک‌تر بهینه‌شده برای دامنه جمع‌آوری شده‌اند.

حتی با وجود تنها 70 میلیارد پارامتر، متا ادعا می کند که Llama 3 بیش از آن است که بتواند با مدل های بسیار بزرگتر یکپارچه شود.

متا ادعا می کند که Llama3-8B و 70B می توانند از مدل های بسیار بزرگتر از جمله Gemini Pro و Antrhopic's Claude 3 بهتر عمل کنند.

متا ادعا می کند که Llama3-8B و 70B می توانند از مدل های بسیار بزرگتر از جمله Gemini Pro و Antrhopic's Claude 3 بهتر عمل کنند - برای بزرگنمایی کلیک کنید.

داده های بهتر، مدل بهتر

یکی از بزرگترین دستاوردها، به گفته متا، استفاده از توکنایزر با واژگان 128,000 توکن است. در زمینه LLM ها، نشانه ها می توانند چند کاراکتر، کلمه کامل یا حتی عبارت باشند. هوش مصنوعی ورودی انسان را به نشانه‌ها تجزیه می‌کند، سپس از واژگان نشانه‌های خود برای تولید خروجی استفاده می‌کند.

متا توضیح داد که توکنایزر آن به رمزگذاری زبان به طور موثرتر کمک می کند و عملکرد را به میزان قابل توجهی افزایش می دهد. دستاوردهای اضافی با استفاده از مجموعه داده های با کیفیت بالاتر و مراحل تنظیم دقیق اضافی پس از آموزش برای بهبود عملکرد و دقت کلی مدل به دست آمد.

به طور خاص، متا فاش کرد که Llama 3 بر روی بیش از 15 تریلیون توکن جمع آوری شده از منابع عمومی از قبل آموزش دیده بود.

مجموعه داده آموزشی Llama 3 بیش از هفت برابر بزرگتر است و حاوی چهار برابر کد بیشتر از Llama 2 است که راه اندازی فقط نه ماه پیش اما، همانطور که گفته می شود، "زباله در، زباله بیرون" - بنابراین متا ادعا می کند که مجموعه ای از خطوط لوله فیلتر کننده داده را توسعه داده است تا اطمینان حاصل شود که Llama 3 در کمترین میزان ممکن اطلاعات بد آموزش داده شده است.

این کنترل‌های کیفی شامل فیلترهای اکتشافی و NSFW و همچنین حذف داده‌ها و طبقه‌بندی‌کننده‌های متنی بود که برای پیش‌بینی کیفیت اطلاعات قبل از آموزش استفاده می‌شد. متا حتی از مدل قدیمی Llama 2 خود - که به گفته خودش "به طرز شگفت انگیزی در شناسایی داده های با کیفیت بالا خوب است" - برای کمک به جدا کردن گندم از کاه استفاده کرد.

پنج درصد از داده های آموزشی از بیش از 30 زبان تهیه شده است، که متا پیش بینی کرد که در آینده به ارائه قابلیت های چندزبانه قابل توجهی به مدل کمک خواهد کرد. در حال حاضر، شبکه اجتماعی ™️ می‌گوید که کاربران نباید انتظار همان درجه عملکرد را در زبان‌هایی غیر از انگلیسی داشته باشند.

آموزش مدل‌های کوچک روی چنین مجموعه داده‌های بزرگی عموماً اتلاف زمان محاسباتی و حتی برای تولید بازدهی کاهش‌یافته در دقت در نظر گرفته می‌شود. ترکیب ایده آل داده های آموزشی برای محاسبه منابع به عنوان "چینچیلا بهینه” [PDF] مقدار. به گفته متا، برای مدل هشت میلیارد پارامتری مانند Llama3-8B، این حدود 200 میلیارد توکن است.

با این حال، در آزمایش، متا دریافت که عملکرد Llama 3 حتی زمانی که بر روی مجموعه داده‌های بزرگ‌تر آموزش داده می‌شود، همچنان بهبود می‌یابد. بیز نوشت: «هر دو مدل پارامتر هشت میلیاردی و 70 میلیاردی ما پس از آموزش آن ها بر روی 15 تریلیون توکن، به طور خطی بهبود یافتند.

به نظر می رسد نتیجه یک مدل نسبتا فشرده است که قادر به تولید نتایج قابل مقایسه با مدل های بسیار بزرگتر است. معاوضه در محاسبات احتمالاً ارزشمند تلقی می‌شد، زیرا مدل‌های کوچک‌تر عموماً آسان‌تر استنباط می‌شوند و بنابراین استفاده از آن در مقیاس آسان‌تر است.

با دقت 8 بیت، یک مدل هشت میلیارد پارامتر فقط به 8 گیگابایت حافظه نیاز دارد. کاهش به دقت 4 بیتی - یا با استفاده از سخت افزاری که از آن پشتیبانی می کند یا استفاده از کوانتیزه سازی برای فشرده سازی مدل - نیاز به حافظه را حدوداً به نصف کاهش می دهد.

متا این مدل را بر روی یک جفت خوشه محاسباتی که هر کدام شامل 24,000 پردازنده گرافیکی Nvidia بود آموزش داد. همانطور که ممکن است تصور کنید، آموزش در چنین خوشه بزرگی، اگرچه سریعتر است، اما برخی از چالش ها را نیز به همراه دارد - احتمال شکست چیزی در میانه یک دوره آموزشی افزایش می یابد.

برای کاهش این موضوع، متا توضیح داد که یک پشته آموزشی ایجاد کرده است که تشخیص، مدیریت و نگهداری خطا را خودکار می کند. Hyperscaler همچنین سیستم‌های نظارت بر خرابی و ذخیره‌سازی را اضافه کرده است تا در صورت قطع شدن دوره آموزشی، سربار ایست بازرسی و برگشت را کاهش دهد. و پس از تکمیل، متا مدل ها را تحت یک سری مراحل تست و تنظیم دقیق پس از آموزش قرار داد.

در کنار Llama3-8B و 70B، متا همچنین ابزارهای اعتماد و ایمنی جدید و به روز شده ای از جمله Llama Guard 2 و Cybersec Eval 2 را برای کمک به کاربران در محافظت از مدل در برابر سوء استفاده و/یا حملات تزریق فوری به کار برد. Code Shield افزودنی دیگری است که نرده‌های محافظی را برای کمک به فیلتر کردن کدهای ناامن تولید شده توسط Llama 3 ارائه می‌کند.

همانطور که قبلاً گزارش دادیم، تولید کد به کمک LLM به موارد جالبی منجر شده است بردارهای حمله که متا به دنبال اجتناب از آن است.

دسترسی

در طی چند ماه آینده، متا قصد دارد مدل‌های دیگری را عرضه کند - از جمله یک پارامتر بیش از 400 میلیارد و پشتیبانی از قابلیت‌های اضافی، زبان‌ها و پنجره‌های زمینه بزرگ‌تر. دومی به کاربران این امکان را می دهد که سؤالات بزرگتر و پیچیده تر بپرسند - مانند خلاصه کردن یک بلوک بزرگ از متن.

Llama3-8B و 70B در حال حاضر برای دانلود از Meta's در دسترس هستند سایت اینترنتی. خدمات وب آمازون، Microsoft Azure، Google Cloud، Hugging Face و دیگران نیز قصد دارند این مدل را برای استقرار در پلتفرم های خود ارائه دهند.

اگر می خواهید Llama3 را روی دستگاه خود آزمایش کنید، می توانید راهنمای ما را در مورد اجرای LLM های محلی بررسی کنید اینجا کلیک نمایید. هنگامی که آن را نصب کردید، می توانید آن را با اجرای:

olama اجرا llama3

از آن لذت ببرید و به ما بگویید که چگونه گذشت. ®

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟