Platón adatintelligencia.
Vertical Search & Ai.

Az LLM következtetések ár-teljesítményének optimalizálása NVIDIA GPU-kon az Amazon SageMaker és az NVIDIA NIM Microservices integráció segítségével | Amazon webszolgáltatások

Találka:

NVIDIA Neki microservices most integrálja Amazon SageMaker, amely lehetővé teszi az iparágvezető nagy nyelvi modellek (LLM) telepítését, valamint a modell teljesítményének és költségének optimalizálását. A legmodernebb LLM-eket napok helyett percek alatt telepítheti olyan technológiák használatával, mint pl NVIDIA TensorRT, NVIDIA TensorRT-LLMés NVIDIA Triton következtetés szerver a SageMaker által üzemeltetett NVIDIA gyorsított példányokon.

NIM, része a NVIDIA AI Enterprise szoftverplatformon szerepel AWS piactér, olyan következtetési mikroszolgáltatások készlete, amelyek a legkorszerűbb LLM-ek erejét hozzák az alkalmazásaihoz, természetes nyelvi feldolgozási (NLP) és megértési képességeket biztosítva, akár chatbotokat fejleszt, dokumentumokat összegez, akár más NLP-t implementál. meghajtású alkalmazások. Használhat előre beépített NVIDIA-tárolókat olyan népszerű LLM-ek tárolására, amelyek adott NVIDIA GPU-kra vannak optimalizálva a gyors üzembe helyezés érdekében, vagy használhat NIM-eszközöket saját tárolók létrehozásához.

Ebben a bejegyzésben magas szintű bevezetést nyújtunk a NIM-hez, és bemutatjuk, hogyan használhatod a SageMakerrel.

Az NVIDIA NIM bemutatása

A NIM optimalizált és előre generált motorokat kínál számos népszerű modellhez a következtetések levonására. Ezek a mikroszolgáltatások számos LLM-et támogatnak, például a Llama 2-t (7B, 13B és 70B), a Mistral-7B-Instructot, a Mixtral-8x7B-t, az NVIDIA Nemotron-3 22B Personát és a Code Llama 70B-t. speciális NVIDIA GPU-khoz épített NVIDIA TensorRT motorok a maximális teljesítmény és kihasználtság érdekében. Ezek a modellek az optimális hiperparaméterekkel vannak összeállítva a modell-hoszting teljesítményhez, és az alkalmazások egyszerű telepítéséhez.

Ha az Ön modellje nem szerepel az NVIDIA válogatott modelljei között, a NIM olyan alapvető segédprogramokat kínál, mint a Model Repo Generator, amely megkönnyíti a TensorRT-LLM-gyorsítású motor és a NIM-formátumú modellkönyvtár létrehozását egy egyszerű YAML-fájlon keresztül. Ezenkívül a vLLM integrált közösségi háttere támogatja az élvonalbeli modelleket és a feltörekvő funkciókat, amelyek esetleg nem integrálódtak zökkenőmentesen a TensorRT-LLM által optimalizált verembe.

A következtetések levonására szolgáló optimalizált LLM-ek létrehozása mellett a NIM fejlett hosting technológiákat is kínál, például optimalizált ütemezési technikákat, például repülés közbeni kötegelést, amelyek az LLM általános szöveggenerálási folyamatát több iterációra bonthatják a modellen. A repülés közbeni kötegelésnél ahelyett, hogy megvárná a teljes köteg befejezését, mielőtt továbblépne a következő kérésekre, a NIM futási környezet azonnal kiüríti a kész sorozatokat a kötegből. A futási környezet ezután új kéréseket kezd futtatni, miközben a többi kérés még folyamatban van, így a legjobban kihasználva a számítási példányokat és a GPU-kat.

A NIM telepítése a SageMakeren

A NIM integrálódik a SageMakerrel, lehetővé téve az LLM-ek üzemeltetését teljesítmény- és költségoptimalizálással, miközben kihasználja a SageMaker képességeit. Amikor a NIM-et SageMakeren használja, olyan lehetőségeket használhat, mint például a példányok számának skálázása a modell tárolására, kék/zöld telepítések végrehajtása és a munkaterhelések árnyéktesztekkel történő kiértékelése – mindezt a kategóriájában a legjobb megfigyelhetőség és felügyelet mellett. amazonfelhőóra.

Következtetés

A NIM használata az optimalizált LLM-ek telepítésére kiváló választás lehet mind a teljesítmény, mind a költség szempontjából. Ezenkívül megkönnyíti az LLM-ek telepítését. A jövőben a NIM lehetővé teszi a Parameter-Efficient Fine-Tuning (PEFT) testreszabási módszereket is, mint például a LoRA és a P-tuning. A NIM a Triton Inference Server, a TensorRT-LLM és a vLLM háttérrendszerek támogatásával LLM támogatást is tervez.

Javasoljuk, hogy tudjon meg többet az NVIDIA mikroszolgáltatásokról és arról, hogyan telepítheti LLM-jeit a SageMaker segítségével, és próbálja ki az Ön számára elérhető előnyöket. A NIM fizetős ajánlatként érhető el az NVIDIA AI Enterprise szoftver-előfizetés részeként elérhető az AWS Marketplace-en.

A közeljövőben egy részletes útmutatót fogunk közzétenni a NIM-hez a SageMakeren.


A szerzőkről

James Parker az Amazon Web Services megoldástervezője. Együttműködik az Amazon.com-tal az AWS technológiai megoldások tervezésében, kiépítésében és üzembe helyezésében, és különösen érdeklődik az AI és a gépi tanulás iránt. Szabadidejében szívesen keres új kultúrákat, új tapasztalatokat, és naprakész marad a legújabb technológiai trendekkel. LinkedIn.

Saurabh Trikande az Amazon SageMaker Inference vezető termékmenedzsere. Szenvedélyesen dolgozik az ügyfelekkel, és a gépi tanulás demokratizálásának célja motiválja. A komplex ML-alkalmazások telepítésével, a több bérlős ML-modellekkel, a költségoptimalizálással és a mély tanulási modellek bevezetésének elérhetőbbé tételével kapcsolatos alapvető kihívásokra összpontosít. Szabadidejében Saurabh szeret túrázni, innovatív technológiákat tanulni, követi a TechCrunch-ot, és a családjával tölt időt.

Qing Lan az AWS szoftverfejlesztő mérnöke. Számos kihívást jelentő terméken dolgozott az Amazonban, beleértve a nagy teljesítményű ML következtetési megoldásokat és a nagy teljesítményű naplózási rendszert. Qing csapata sikeresen elindította az Amazon Advertising első milliárdos paraméterű modelljét, nagyon alacsony késleltetéssel. Qing mélyreható ismeretekkel rendelkezik az infrastruktúra optimalizálásával és a Deep Learning gyorsításával kapcsolatban.

Nikhil Kulkarni az AWS Machine Learning szoftverfejlesztője, aki arra összpontosít, hogy a gépi tanulási munkaterheléseket hatékonyabbá tegye a felhőben, és társalkotója az AWS Deep Learning Containers képzési és következtetési célú tárolóinak. Szenvedélye az elosztott Deep Learning Systems. A munkán kívül szívesen olvas könyveket, gitároz és pizzát készít.

Harish Tummalacherla szoftvermérnök a SageMaker Deep Learning Performance csapatával. Teljesítménytervezésen dolgozik a nagy nyelvi modellek hatékony kiszolgálása érdekében a SageMakeren. Szabadidejében szeret futni, kerékpározni és síalpinászni.

Eliuth Triana Isaza az NVIDIA fejlesztői kapcsolatok menedzsere, aki felhatalmazza az Amazon AI MLOps-okat, DevOps-okat, tudósokat és AWS műszaki szakértőket, hogy elsajátítsák az NVIDIA számítástechnikai veremét a Generative AI Foundation modellek felgyorsítása és optimalizálása érdekében, az adatok kezelésétől, a GPU-oktatástól, a modellkövetkeztetéstől és az AWS GPU-példányok éles üzembe helyezésétől. . Emellett Eliuth szenvedélyes hegyikerékpáros, síelő, teniszező és pókerjátékos.

Jiahong Liu az NVIDIA Cloud Service Provider csapatának megoldástervezője. Segíti az ügyfeleket a gépi tanulási és mesterséges intelligencia-megoldások elfogadásában, amelyek az NVIDIA gyorsított számítástechnikáját használják ki a képzési és következtetési kihívások megoldására. Szabadidejében szereti az origamit, a barkácsprojekteket és a kosárlabdát.

Kshitiz Gupta az NVIDIA megoldástervezője. Szívesen oktatja felhőügyfeleit az NVIDIA által kínált GPU AI-technológiákról, és segít nekik gépi tanulási és mély tanulási alkalmazásaik felgyorsításában. Munkán kívül szeret futni, túrázni és vadvilágot nézni.

spot_img

Legújabb intelligencia

spot_img

Beszélj velünk

Szia! Miben segíthetek?