NVIDIA نیم microservices اکنون با آمازون SageMaker، به شما امکان می دهد مدل های زبان بزرگ (LLM) پیشرو در صنعت را استقرار دهید و عملکرد و هزینه مدل را بهینه کنید. شما می توانید به جای چند روز با استفاده از فناوری هایی مانند LLM های پیشرفته را در عرض چند دقیقه مستقر کنید NVIDIA TensorRT, NVIDIA TensorRT-LLMو سرور استنتاج تریتون NVIDIA در نمونههای شتابدهنده NVIDIA که توسط SageMaker میزبانی میشوند.
NIM، بخشی از NVIDIA AI Enterprise پلت فرم نرم افزار ذکر شده در بازار AWS، مجموعه ای از ریزسرویس های استنتاج است که قدرت پیشرفته ترین LLM ها را به برنامه های شما می آورد، پردازش زبان طبیعی (NLP) و قابلیت های درک را ارائه می کند، خواه در حال توسعه ربات های گفتگو، خلاصه کردن اسناد، یا اجرای سایر NLP- برنامه های کاربردی قدرتمند می توانید از کانتینرهای از پیش ساخته شده NVIDIA برای میزبانی از LLM های محبوب استفاده کنید که برای GPU های خاص NVIDIA برای استقرار سریع بهینه شده اند یا از ابزارهای NIM برای ایجاد کانتینرهای خود استفاده کنید.
در این پست، ما یک معرفی سطح بالا برای NIM ارائه می دهیم و نشان می دهیم که چگونه می توانید از آن با SageMaker استفاده کنید.
مقدمه ای بر NVIDIA NIM
NIM موتورهای بهینه سازی شده و از پیش تولید شده را برای انواع مدل های محبوب برای استنتاج فراهم می کند. این میکروسرویسها از انواع LLMها مانند Llama 2 (7B، 13B و 70B)، Mistral-7B-Instruct، Mixtral-8x7B، NVIDIA Nemotron-3 22B Persona و Code Llama 70B خارج از جعبه با استفاده از پیشفرض پشتیبانی میکنند. موتورهای NVIDIA TensorRT ساخته شده برای GPUهای خاص NVIDIA برای حداکثر کارایی و استفاده. این مدلها با فراپارامترهای بهینه برای عملکرد میزبانی مدل برای استقرار برنامهها به آسانی تنظیم شدهاند.
اگر مدل شما در مجموعه مدلهای انتخابشده NVIDIA نیست، NIM ابزارهای ضروری مانند Model Repo Generator را ارائه میدهد که ایجاد یک موتور با شتاب TensorRT-LLM و یک فهرست مدل با فرمت NIM را از طریق یک فایل ساده YAML تسهیل میکند. علاوه بر این، یک جامعه یکپارچه از vLLM از مدلهای پیشرفته و ویژگیهای در حال ظهور پشتیبانی میکند که ممکن است بهطور یکپارچه در پشته بهینهسازی شده TensorRT-LLM ادغام نشده باشند.
علاوه بر ایجاد LLM های بهینه برای استنتاج، NIM فناوری های میزبانی پیشرفته مانند تکنیک های زمان بندی بهینه شده مانند دسته بندی در پرواز را ارائه می دهد که می تواند فرآیند تولید متن کلی برای یک LLM را به چندین تکرار در مدل تجزیه کند. با دستهبندی در پرواز، به جای اینکه منتظر بمانید تا کل دسته قبل از رفتن به مجموعه بعدی درخواستها به پایان برسد، زمان اجرا NIM بلافاصله دنبالههای تمام شده را از دسته خارج میکند. سپس زمان اجرا شروع به اجرای درخواستهای جدید میکند در حالی که درخواستهای دیگر هنوز در حال اجرا هستند و بهترین استفاده را از نمونههای محاسباتی و پردازندههای گرافیکی شما میکنند.
استقرار NIM در SageMaker
NIM با SageMaker ادغام می شود و به شما این امکان را می دهد که LLM های خود را با عملکرد و بهینه سازی هزینه میزبانی کنید و در عین حال از قابلیت های SageMaker بهره مند شوید. وقتی از NIM در SageMaker استفاده میکنید، میتوانید از قابلیتهایی مانند کاهش تعداد نمونهها برای میزبانی مدل، اجرای پیادهسازیهای آبی/سبز، و ارزیابی بارهای کاری با استفاده از آزمایش سایه استفاده کنید - همه با بهترین قابلیت مشاهده و نظارت در کلاس CloudWatch آمازون.
نتیجه
استفاده از NIM برای استقرار LLM های بهینه شده می تواند یک گزینه عالی برای عملکرد و هزینه باشد. همچنین به استقرار LLM ها بدون دردسر کمک می کند. در آینده، NIM همچنین به روشهای سفارشیسازی تنظیم دقیق پارامترها (PEFT) مانند LoRA و P-tuning اجازه میدهد. NIM همچنین قصد دارد با پشتیبانی از Triton Inference Server، TensorRT-LLM و backends vLLM از LLM پشتیبانی کند.
ما شما را تشویق میکنیم که درباره میکروسرویسهای NVIDIA و نحوه استقرار LLMهای خود با استفاده از SageMaker اطلاعات بیشتری کسب کنید و مزایایی را که برای شما در دسترس است امتحان کنید. NIM به عنوان یک پیشنهاد پولی به عنوان بخشی از اشتراک نرم افزار NVIDIA AI Enterprise در دسترس است موجود در AWS Marketplace.
در آینده نزدیک، راهنمای عمیق NIM را در SageMaker ارسال خواهیم کرد.
درباره نویسندگان
جیمز پارک یک معمار راه حل در خدمات وب آمازون است. او با Amazon.com برای طراحی، ساخت و استقرار راه حل های فناوری در AWS کار می کند و علاقه خاصی به هوش مصنوعی و یادگیری ماشین دارد. در اوقات فراغت او از جستجوی فرهنگ های جدید، تجربیات جدید و به روز ماندن با آخرین روندهای فناوری لذت می برد. می توانید او را در اینجا پیدا کنید. لینک.
ساوراب تریکاند مدیر محصول ارشد Amazon SageMaker Inference است. او مشتاق کار با مشتریان است و هدفش دموکراتیک کردن یادگیری ماشین است. او روی چالشهای اصلی مربوط به استقرار برنامههای پیچیده ML، مدلهای ML چند مستاجر، بهینهسازی هزینهها و در دسترستر کردن استقرار مدلهای یادگیری عمیق تمرکز میکند. Saurabh در اوقات فراغت خود از پیاده روی، یادگیری در مورد فن آوری های نوآورانه، دنبال کردن TechCrunch و گذراندن وقت با خانواده خود لذت می برد.
چینگ لان مهندس توسعه نرم افزار در AWS است. او روی چندین محصول چالش برانگیز در آمازون کار کرده است، از جمله راه حل های استنتاج ML با کارایی بالا و سیستم ثبت گزارش با کارایی بالا. تیم Qing با موفقیت اولین مدل میلیارد پارامتر را در تبلیغات آمازون با تاخیر بسیار کم مورد نیاز راه اندازی کرد. Qing دانش عمیقی در مورد بهینه سازی زیرساخت و شتاب یادگیری عمیق دارد.
نیکیل کولکارنی یک توسعهدهنده نرمافزار با یادگیری ماشینی AWS است که بر روی کارآمدتر کردن بارهای کاری یادگیری ماشین در فضای ابری تمرکز دارد و یکی از سازندههای AWS Deep Learning Containers برای آموزش و استنتاج است. او مشتاق سیستم های یادگیری عمیق توزیع شده است. در خارج از محل کار، او از خواندن کتاب، بازی با گیتار و درست کردن پیتزا لذت می برد.
هاریش توممالاچرلا مهندس نرم افزار با تیم عملکرد یادگیری عمیق در SageMaker است. او بر روی مهندسی عملکرد برای ارائه مدل های زبان بزرگ به طور موثر در SageMaker کار می کند. در اوقات فراغت از دویدن، دوچرخه سواری و کوهنوردی با اسکی لذت می برد.
الیوت تریانا ایزازا مدیر روابط توسعهدهنده در NVIDIA است که به MLOps، DevOps، دانشمندان و کارشناسان فنی AWS آمازون برای تسلط بر پشته محاسباتی NVIDIA برای تسریع و بهینهسازی مدلهای Generative AI Foundation که شامل پردازش داده، آموزش GPU، استنتاج مدل و استقرار تولید در GPU AWS در استانستان میشود، قدرت میدهد. . علاوه بر این، الیوت یک دوچرخه سوار کوهستانی، اسکی باز، تنیس و پوکر پرشور است.
جیاهونگ لیو یک معمار راه حل در تیم ارائه دهنده خدمات ابری در NVIDIA است. او به مشتریان در اتخاذ راهحلهای یادگیری ماشین و هوش مصنوعی کمک میکند که از محاسبات تسریعشده NVIDIA برای رسیدگی به چالشهای آموزشی و استنتاج آنها استفاده میکند. او در اوقات فراغت خود از اوریگامی، پروژه های DIY و بازی بسکتبال لذت می برد.
کشیتیز گوپتا یک معمار راه حل در NVIDIA است. او از آموزش دادن به مشتریان ابری درباره فناوریهای هوش مصنوعی GPU که NVIDIA ارائه میکند و کمک به آنها در تسریع یادگیری ماشینی و برنامههای یادگیری عمیق لذت میبرد. خارج از محل کار، او از دویدن، پیاده روی و تماشای حیات وحش لذت می برد.
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/