Az LLM következtetések ár-teljesítményének optimalizálása NVIDIA GPU-kon az Amazon SageMaker integrációval az NVIDIA NIM mikroszolgáltatásokkal | Amazon Web Services

NVIDIA Neki m icroservices most integrálja Amazon SageMaker, amely lehetővé teszi az iparágvezető nagy nyelvi modellek (LLM) telepítését, valamint a modell teljesítményének és költségének optimalizálását. A legmodernebb LLM-eket napok helyett percek alatt telepítheti olyan technológiák használatával, mint pl NVIDIA TensorRT, NVIDIA TensorRT-LLMés NVIDIA Triton következtetés szerver a SageMaker által üzemeltetett NVIDIA gyorsított példányokon.

NIM, része a NVIDIA AI Enterprise szoftverplatformon szerepel AWS piactér, olyan következtetési mikroszolgáltatások készlete, amelyek a legkorszerűbb LLM-ek erejét hozzák az alkalmazásaihoz, természetes nyelvi feldolgozási (NLP) és megértési képességeket biztosítva, akár chatbotokat fejleszt, dokumentumokat összegez, akár más NLP-t implementál. meghajtású alkalmazások. Használhat előre beépített NVIDIA-tárolókat olyan népszerű LLM-ek tárolására, amelyek adott NVIDIA GPU-kra vannak optimalizálva a gyors üzembe helyezés érdekében, vagy használhat NIM-eszközöket saját tárolók létrehozásához.

Ebben a bejegyzésben magas szintű bevezetést nyújtunk a NIM-hez, és bemutatjuk, hogyan használhatod a SageMakerrel.

Az NVIDIA NIM bemutatása

A NIM optimalizált és előre generált motorokat kínál számos népszerű modellhez a következtetések levonására. Ezek a mikroszolgáltatások számos LLM-et támogatnak, például a Llama 2-t (7B, 13B és 70B), a Mistral-7B-Instructot, a Mixtral-8x7B-t, az NVIDIA Nemotron-3 22B Personát és a Code Llama 70B-t. speciális NVIDIA GPU-khoz épített NVIDIA TensorRT motorok a maximális teljesítmény és kihasználtság érdekében. Ezek a modellek az optimális hiperparaméterekkel vannak összeállítva a modell-hoszting teljesítményhez, és az alkalmazások egyszerű telepítéséhez.

Ha az Ön modellje nem szerepel az NVIDIA válogatott modelljei között, a NIM olyan alapvető segédprogramokat kínál, mint a Model Repo Generator, amely megkönnyíti a TensorRT-LLM-gyorsítású motor és a NIM-formátumú modellkönyvtár létrehozását egy egyszerű YAML-fájlon keresztül. Ezenkívül a vLLM integrált közösségi háttere támogatja az élvonalbeli modelleket és a feltörekvő funkciókat, amelyek esetleg nem integrálódtak zökkenőmentesen a TensorRT-LLM által optimalizált verembe.

A következtetések levonására szolgáló optimalizált LLM-ek létrehozása mellett a NIM fejlett hosting technológiákat is kínál, például optimalizált ütemezési technikákat, például repülés közbeni kötegelést, amelyek az LLM általános szöveggenerálási folyamatát több iterációra bonthatják a modellen. A repülés közbeni kötegelésnél ahelyett, hogy megvárná a teljes köteg befejezését, mielőtt továbblépne a következő kérésekre, a NIM futási környezet azonnal kiüríti a kész sorozatokat a kötegből. A futási környezet ezután új kéréseket kezd futtatni, miközben a többi kérés még folyamatban van, így a legjobban kihasználva a számítási példányokat és a GPU-kat.

A NIM telepítése a SageMakeren

A NIM integrálódik a SageMakerrel, lehetővé téve az LLM-ek üzemeltetését teljesítmény- és költségoptimalizálással, miközben kihasználja a SageMaker képességeit. Amikor a NIM-et SageMakeren használja, olyan lehetőségeket használhat, mint például a példányok számának skálázása a modell tárolására, kék/zöld telepítések végrehajtása és a munkaterhelések árnyéktesztekkel történő kiértékelése – mindezt a kategóriájában a legjobb megfigyelhetőség és felügyelet mellett. amazonfelhőóra.

Következtetés

A NIM használata az optimalizált LLM-ek telepítésére kiváló választás lehet mind a teljesítmény, mind a költség szempontjából. Ezenkívül megkönnyíti az LLM-ek telepítését. A jövőben a NIM lehetővé teszi a Parameter-Efficient Fine-Tuning (PEFT) testreszabási módszereket is, mint például a LoRA és a P-tuning. A NIM a Triton Inference Server, a TensorRT-LLM és a vLLM háttérrendszerek támogatásával LLM támogatást is tervez.

Javasoljuk, hogy tudjon meg többet az NVIDIA mikroszolgáltatásokról és arról, hogyan telepítheti LLM-jeit a SageMaker segítségével, és próbálja ki az Ön számára elérhető előnyöket. A NIM fizetős ajánlatként érhető el az NVIDIA AI Enterprise szoftver-előfizetés részeként elérhető az AWS Marketplace-en.

A közeljövőben egy részletes útmutatót fogunk közzétenni a NIM-hez a SageMakeren.

A szerzőkről

James Parker az Amazon Web Services megoldástervezője. Együttműködik az Amazon.com-tal az AWS technológiai megoldások tervezésében, kiépítésében és üzembe helyezésében, és különösen érdeklődik az AI és a gépi tanulás iránt. Szabadidejében szívesen keres új kultúrákat, új tapasztalatokat, és naprakész marad a legújabb technológiai trendekkel. LinkedIn.

Saurabh Trikande az Amazon SageMaker Inference vezető termékmenedzsere. Szenvedélyesen dolgozik az ügyfelekkel, és a gépi tanulás demokratizálásának célja motiválja. A komplex ML-alkalmazások telepítésével, a több bérlős ML-modellekkel, a költségoptimalizálással és a mély tanulási modellek bevezetésének elérhetőbbé tételével kapcsolatos alapvető kihívásokra összpontosít. Szabadidejében Saurabh szeret túrázni, innovatív technológiákat tanulni, követi a TechCrunch-ot, és a családjával tölt időt.

Qing Lan az AWS szoftverfejlesztő mérnöke. Számos kihívást jelentő terméken dolgozott az Amazonban, beleértve a nagy teljesítményű ML következtetési megoldásokat és a nagy teljesítményű naplózási rendszert. Qing csapata sikeresen elindította az Amazon Advertising első milliárdos paraméterű modelljét, nagyon alacsony késleltetéssel. Qing mélyreható ismeretekkel rendelkezik az infrastruktúra optimalizálásával és a Deep Learning gyorsításával kapcsolatban.

Nikhil Kulkarni az AWS Machine Learning szoftverfejlesztője, aki arra összpontosít, hogy a gépi tanulási munkaterheléseket hatékonyabbá tegye a felhőben, és társalkotója az AWS Deep Learning Containers képzési és következtetési célú tárolóinak. Szenvedélye az elosztott Deep Learning Systems. A munkán kívül szívesen olvas könyveket, gitároz és pizzát készít.

Harish Tummalacherla szoftvermérnök a SageMaker Deep Learning Performance csapatával. Teljesítménytervezésen dolgozik a nagy nyelvi modellek hatékony kiszolgálása érdekében a SageMakeren. Szabadidejében szeret futni, kerékpározni és síalpinászni.

Eliuth Triana Isaza az NVIDIA fejlesztői kapcsolatok menedzsere, aki felhatalmazza az Amazon AI MLOps-okat, DevOps-okat, tudósokat és AWS műszaki szakértőket, hogy elsajátítsák az NVIDIA számítástechnikai veremét a Generative AI Foundation modellek felgyorsítása és optimalizálása érdekében, az adatok kezelésétől, a GPU-oktatástól, a modellkövetkeztetéstől és az AWS GPU-példányok éles üzembe helyezésétől. . Emellett Eliuth szenvedélyes hegyikerékpáros, síelő, teniszező és pókerjátékos.

Jiahong Liu az NVIDIA Cloud Service Provider csapatának megoldástervezője. Segíti az ügyfeleket a gépi tanulási és mesterséges intelligencia-megoldások elfogadásában, amelyek az NVIDIA gyorsított számítástechnikáját használják ki a képzési és következtetési kihívások megoldására. Szabadidejében szereti az origamit, a barkácsprojekteket és a kosárlabdát.

Kshitiz Gupta az NVIDIA megoldástervezője. Szívesen oktatja felhőügyfeleit az NVIDIA által kínált GPU AI-technológiákról, és segít nekik gépi tanulási és mély tanulási alkalmazásaik felgyorsításában. Munkán kívül szeret futni, túrázni és vadvilágot nézni.

SEO által támogatott tartalom és PR terjesztés. Erősödjön még ma.
PlatoData.Network Vertical Generative Ai. Erősítse meg magát. Hozzáférés itt.
PlatoAiStream. Web3 Intelligence. Felerősített tudás. Hozzáférés itt.
PlatoESG. Carbon, CleanTech, Energia, Környezet, Nap, Hulladékgazdálkodás. Hozzáférés itt.
PlatoHealth. Biotechnológiai és klinikai vizsgálatok intelligencia. Hozzáférés itt.
Forrás: https://aws.amazon.com/blogs/machine-learning/optimize-price-performance-of-llm-inference-on-nvidia-gpus-using-the-amazon-sagemaker-integration-with-nvidia-nim-microservices/

Platón adatintelligencia.
Vertical Search & Ai.

Az LLM következtetések ár-teljesítményének optimalizálása NVIDIA GPU-kon az Amazon SageMaker és az NVIDIA NIM Microservices integráció segítségével | Amazon webszolgáltatások

Az NVIDIA NIM bemutatása

A NIM telepítése a SageMakeren

Következtetés

A szerzőkről

Az IonQ újabb negyedéves bevételugrást könyvelhet el, és a foglalási bizonytalanság enyhül – Inside Quantum Technology

A 2025-ös NFL Draft Prospect figyelőlista: Belső támadósorosok

Legújabb intelligencia

Hamis webáruházak hatalmas hálózata csal 850,000 XNUMX-et, és egyre növekszik

A McLaren lett a Red Bull első igazi versenye?

A Cavaliers elvesztette az 1. meccset Bostonban

A Bridged Ether több mint 20 millió dollárja visszatér a ZKasino Wallethez

Beágyazott pénzügyek: Paradigmaváltás a pénzügyi szolgáltatásokban – a FinTech felemelkedése

IQT Vancouver/Pacific Rim frissítés: A Quantum Algorithms Institute CTO Shohini Ghose egy 2024-es hangszóró – Inside Quantum Technology

Beszélj velünk

Platón adatintelligencia.Vertical Search & Ai.

Az LLM következtetések ár-teljesítményének optimalizálása NVIDIA GPU-kon az Amazon SageMaker és az NVIDIA NIM Microservices integráció segítségével | Amazon webszolgáltatások

Az NVIDIA NIM bemutatása

A NIM telepítése a SageMakeren

Következtetés

A szerzőkről

Legújabb intelligencia

Beszélj velünk

Platón adatintelligencia.
Vertical Search & Ai.