هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

بهینه سازی قیمت-عملکرد استنتاج LLM در پردازنده های گرافیکی NVIDIA با استفاده از ادغام Amazon SageMaker با NVIDIA NIM Microservices | خدمات وب آمازون

تاریخ:

NVIDIA نیم microservices اکنون با آمازون SageMaker، به شما امکان می دهد مدل های زبان بزرگ (LLM) پیشرو در صنعت را استقرار دهید و عملکرد و هزینه مدل را بهینه کنید. شما می توانید به جای چند روز با استفاده از فناوری هایی مانند LLM های پیشرفته را در عرض چند دقیقه مستقر کنید NVIDIA TensorRT, NVIDIA TensorRT-LLMو سرور استنتاج تریتون NVIDIA در نمونه‌های شتاب‌دهنده NVIDIA که توسط SageMaker میزبانی می‌شوند.

NIM، بخشی از NVIDIA AI Enterprise پلت فرم نرم افزار ذکر شده در بازار AWS، مجموعه ای از ریزسرویس های استنتاج است که قدرت پیشرفته ترین LLM ها را به برنامه های شما می آورد، پردازش زبان طبیعی (NLP) و قابلیت های درک را ارائه می کند، خواه در حال توسعه ربات های گفتگو، خلاصه کردن اسناد، یا اجرای سایر NLP- برنامه های کاربردی قدرتمند می توانید از کانتینرهای از پیش ساخته شده NVIDIA برای میزبانی از LLM های محبوب استفاده کنید که برای GPU های خاص NVIDIA برای استقرار سریع بهینه شده اند یا از ابزارهای NIM برای ایجاد کانتینرهای خود استفاده کنید.

در این پست، ما یک معرفی سطح بالا برای NIM ارائه می دهیم و نشان می دهیم که چگونه می توانید از آن با SageMaker استفاده کنید.

مقدمه ای بر NVIDIA NIM

NIM موتورهای بهینه سازی شده و از پیش تولید شده را برای انواع مدل های محبوب برای استنتاج فراهم می کند. این میکروسرویس‌ها از انواع LLM‌ها مانند Llama 2 (7B، 13B و 70B)، Mistral-7B-Instruct، Mixtral-8x7B، NVIDIA Nemotron-3 22B Persona و Code Llama 70B خارج از جعبه با استفاده از پیش‌فرض پشتیبانی می‌کنند. موتورهای NVIDIA TensorRT ساخته شده برای GPUهای خاص NVIDIA برای حداکثر کارایی و استفاده. این مدل‌ها با فراپارامترهای بهینه برای عملکرد میزبانی مدل برای استقرار برنامه‌ها به آسانی تنظیم شده‌اند.

اگر مدل شما در مجموعه مدل‌های انتخاب‌شده NVIDIA نیست، NIM ابزارهای ضروری مانند Model Repo Generator را ارائه می‌دهد که ایجاد یک موتور با شتاب TensorRT-LLM و یک فهرست مدل با فرمت NIM را از طریق یک فایل ساده YAML تسهیل می‌کند. علاوه بر این، یک جامعه یکپارچه از vLLM از مدل‌های پیشرفته و ویژگی‌های در حال ظهور پشتیبانی می‌کند که ممکن است به‌طور یکپارچه در پشته بهینه‌سازی شده TensorRT-LLM ادغام نشده باشند.

علاوه بر ایجاد LLM های بهینه برای استنتاج، NIM فناوری های میزبانی پیشرفته مانند تکنیک های زمان بندی بهینه شده مانند دسته بندی در پرواز را ارائه می دهد که می تواند فرآیند تولید متن کلی برای یک LLM را به چندین تکرار در مدل تجزیه کند. با دسته‌بندی در پرواز، به جای اینکه منتظر بمانید تا کل دسته قبل از رفتن به مجموعه بعدی درخواست‌ها به پایان برسد، زمان اجرا NIM بلافاصله دنباله‌های تمام شده را از دسته خارج می‌کند. سپس زمان اجرا شروع به اجرای درخواست‌های جدید می‌کند در حالی که درخواست‌های دیگر هنوز در حال اجرا هستند و بهترین استفاده را از نمونه‌های محاسباتی و پردازنده‌های گرافیکی شما می‌کنند.

استقرار NIM در SageMaker

NIM با SageMaker ادغام می شود و به شما این امکان را می دهد که LLM های خود را با عملکرد و بهینه سازی هزینه میزبانی کنید و در عین حال از قابلیت های SageMaker بهره مند شوید. وقتی از NIM در SageMaker استفاده می‌کنید، می‌توانید از قابلیت‌هایی مانند کاهش تعداد نمونه‌ها برای میزبانی مدل، اجرای پیاده‌سازی‌های آبی/سبز، و ارزیابی بارهای کاری با استفاده از آزمایش سایه استفاده کنید - همه با بهترین قابلیت مشاهده و نظارت در کلاس CloudWatch آمازون.

نتیجه

استفاده از NIM برای استقرار LLM های بهینه شده می تواند یک گزینه عالی برای عملکرد و هزینه باشد. همچنین به استقرار LLM ها بدون دردسر کمک می کند. در آینده، NIM همچنین به روش‌های سفارشی‌سازی تنظیم دقیق پارامترها (PEFT) مانند LoRA و P-tuning اجازه می‌دهد. NIM همچنین قصد دارد با پشتیبانی از Triton Inference Server، TensorRT-LLM و backends vLLM از LLM پشتیبانی کند.

ما شما را تشویق می‌کنیم که درباره میکروسرویس‌های NVIDIA و نحوه استقرار LLM‌های خود با استفاده از SageMaker اطلاعات بیشتری کسب کنید و مزایایی را که برای شما در دسترس است امتحان کنید. NIM به عنوان یک پیشنهاد پولی به عنوان بخشی از اشتراک نرم افزار NVIDIA AI Enterprise در دسترس است موجود در AWS Marketplace.

در آینده نزدیک، راهنمای عمیق NIM را در SageMaker ارسال خواهیم کرد.


درباره نویسندگان

جیمز پارک یک معمار راه حل در خدمات وب آمازون است. او با Amazon.com برای طراحی، ساخت و استقرار راه حل های فناوری در AWS کار می کند و علاقه خاصی به هوش مصنوعی و یادگیری ماشین دارد. در اوقات فراغت او از جستجوی فرهنگ های جدید، تجربیات جدید و به روز ماندن با آخرین روندهای فناوری لذت می برد. می توانید او را در اینجا پیدا کنید. لینک.

ساوراب تریکاند مدیر محصول ارشد Amazon SageMaker Inference است. او مشتاق کار با مشتریان است و هدفش دموکراتیک کردن یادگیری ماشین است. او روی چالش‌های اصلی مربوط به استقرار برنامه‌های پیچیده ML، مدل‌های ML چند مستاجر، بهینه‌سازی هزینه‌ها و در دسترس‌تر کردن استقرار مدل‌های یادگیری عمیق تمرکز می‌کند. Saurabh در اوقات فراغت خود از پیاده روی، یادگیری در مورد فن آوری های نوآورانه، دنبال کردن TechCrunch و گذراندن وقت با خانواده خود لذت می برد.

چینگ لان مهندس توسعه نرم افزار در AWS است. او روی چندین محصول چالش برانگیز در آمازون کار کرده است، از جمله راه حل های استنتاج ML با کارایی بالا و سیستم ثبت گزارش با کارایی بالا. تیم Qing با موفقیت اولین مدل میلیارد پارامتر را در تبلیغات آمازون با تاخیر بسیار کم مورد نیاز راه اندازی کرد. Qing دانش عمیقی در مورد بهینه سازی زیرساخت و شتاب یادگیری عمیق دارد.

نیکیل کولکارنی یک توسعه‌دهنده نرم‌افزار با یادگیری ماشینی AWS است که بر روی کارآمدتر کردن بارهای کاری یادگیری ماشین در فضای ابری تمرکز دارد و یکی از سازنده‌های AWS Deep Learning Containers برای آموزش و استنتاج است. او مشتاق سیستم های یادگیری عمیق توزیع شده است. در خارج از محل کار، او از خواندن کتاب، بازی با گیتار و درست کردن پیتزا لذت می برد.

هاریش توممالاچرلا مهندس نرم افزار با تیم عملکرد یادگیری عمیق در SageMaker است. او بر روی مهندسی عملکرد برای ارائه مدل های زبان بزرگ به طور موثر در SageMaker کار می کند. در اوقات فراغت از دویدن، دوچرخه سواری و کوهنوردی با اسکی لذت می برد.

الیوت تریانا ایزازا مدیر روابط توسعه‌دهنده در NVIDIA است که به MLOps، DevOps، دانشمندان و کارشناسان فنی AWS آمازون برای تسلط بر پشته محاسباتی NVIDIA برای تسریع و بهینه‌سازی مدل‌های Generative AI Foundation که شامل پردازش داده، آموزش GPU، استنتاج مدل و استقرار تولید در GPU AWS در استانستان می‌شود، قدرت می‌دهد. . علاوه بر این، الیوت یک دوچرخه سوار کوهستانی، اسکی باز، تنیس و پوکر پرشور است.

جیاهونگ لیو یک معمار راه حل در تیم ارائه دهنده خدمات ابری در NVIDIA است. او به مشتریان در اتخاذ راه‌حل‌های یادگیری ماشین و هوش مصنوعی کمک می‌کند که از محاسبات تسریع‌شده NVIDIA برای رسیدگی به چالش‌های آموزشی و استنتاج آنها استفاده می‌کند. او در اوقات فراغت خود از اوریگامی، پروژه های DIY و بازی بسکتبال لذت می برد.

کشیتیز گوپتا یک معمار راه حل در NVIDIA است. او از آموزش دادن به مشتریان ابری درباره فناوری‌های هوش مصنوعی GPU که NVIDIA ارائه می‌کند و کمک به آنها در تسریع یادگیری ماشینی و برنامه‌های یادگیری عمیق لذت می‌برد. خارج از محل کار، او از دویدن، پیاده روی و تماشای حیات وحش لذت می برد.

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟