مصاحبه کنفرانس فناوری GPU انویدیا هفته گذشته به پایان رسید و در مورد تراشههای بلکول این شرکت و شگفتیهای هوش مصنوعی با تمام سختافزارهای GPU گرانقیمتی که حاکی از آن است، صحبت کرد.
چنان سر و صدایی در اطراف این شرکت ایجاد میشود که قیمت سهام آن با بالاترین رکورد در حال معاشقه است، بر اساس این تصور که بسیاری از تلاشهای خلاقانه را میتوان سریعتر انجام داد، اگر با اتوماسیون فعالشده توسط مدلهای یادگیری ماشینی بهتر نباشد.
که هنوز در بازار در حال آزمایش است.
جورج سانتایانا یک بار نوشت: "کسانی که نمی توانند گذشته را به خاطر بیاورند محکوم به تکرار آن هستند." این عبارتی است که اغلب تکرار می شود. با این حال یادآوری چیزهای گذشته واقعاً مدل های هوش مصنوعی را متمایز نکرده است. آنها می توانند گذشته را به یاد بیاورند، اما هنوز هم محکوم به تکرار آن در صورت تقاضا هستند، گاهی اوقات به اشتباه.
با این حال، بسیاری از هوش مصنوعی قادر مطلق سوگند یاد می کنند، به ویژه آنهایی که سخت افزار هوش مصنوعی یا خدمات ابری را می فروشند. انویدیا، در میان دیگران، روی آن شرط بندی بزرگی کرده استاست. پس ثبت نام یک بازدید کوتاه از کنفرانس GPU انجام داد تا ببیند این همه هیاهو در مورد چیست. مطمئناً در مورد میلههای لیمویی که روز پنجشنبه در سالن نمایشگاه سرو میشد، نبود، که بسیاری از آنها عرضه اولیه عمومی خود را ناتمام در سطلهای طبقه نمایشگاه به پایان رساندند.
گفتگوی بسیار جذاب تر بود ثبت نام با Kari Briski، معاون مدیریت محصول برای کیت های توسعه نرم افزار AI و HPC در انویدیا انجام شد. او مدیریت محصولات نرمافزاری را برای مدلهای بنیادی، کتابخانهها، SDKها و در حال حاضر میکروسرویسهایی که با آموزش و استنتاج سروکار دارند، مانند مدلهای جدید اعلامشده، مدیریت میکند. نیم میکروسرویس ها و بهتر استقرار یابد نمو چارچوب استقرار
ثبت نام: شرکتها چگونه میخواهند از این میکروسرویسها - در فضای ابری، در محل استفاده کنند؟
بریسکی: در واقع زیبایی دلیل ساختن NIMها به همین دلیل است. گفتن "NIM ها" به نوعی خنده دار است. اما ما این سفر را خیلی وقت پیش شروع کردیم. از زمانی که من شروع به کار کردم، ما در استنتاج کار میکردیم – فکر میکنم وقتی سال 1.0 را شروع کردم، TensorRT 2016 بود.
در طول سالها، پشته استنتاج خود را افزایش دادهایم، در مورد هر نوع بار کاری مختلف، از بینایی رایانه و سیستمهای توصیهگر عمیق و گفتار، تشخیص خودکار گفتار و ترکیب گفتار و اکنون مدلهای زبان بزرگ، بیشتر یاد میگیریم. این یک پشته واقعاً متمرکز بر توسعهدهندگان بوده است. و اکنون که شرکتها OpenAI و ChatGPT را دیدهاند، نیاز به اجرای این مدلهای زبان بزرگ را در کنار دادههای سازمانی یا در برنامههای سازمانی خود درک میکنند.
متوسط ارائه دهندگان خدمات ابری، برای خدمات مدیریت شده خود، صدها مهندس داشته اند که بر روی تکنیک های استنتاج و بهینه سازی کار می کنند. شرکت ها نمی توانند این کار را انجام دهند. آنها باید فوراً زمان به ارزش را دریافت کنند. به همین دلیل است که همه چیزهایی را که در طول سالها آموختهایم با TensorRT، مدلهای زبان بزرگ، سرور استنتاج تریتون، API استاندارد و بررسیهای سلامت جمعبندی کردیم. [ایده این است که بتوانیم] همه اینها را کپسوله کنیم تا بتوانید در کمتر از پنج دقیقه از صفر به یک نقطه پایانی مدل زبانی بزرگ برسید.
[با توجه به مرکز داده on-prem در مقابل ابر]، بسیاری از مشتریان ما ابر ترکیبی هستند. آنها محاسبات را ترجیح داده اند. بنابراین به جای ارسال داده ها به یک سرویس مدیریت شده، می توانند میکروسرویس را نزدیک به داده های خود اجرا کنند و می توانند آن را در هر کجا که بخواهند اجرا کنند.
ثبت نام: پشته نرم افزاری انویدیا برای هوش مصنوعی از نظر زبان های برنامه نویسی چگونه است؟ آیا هنوز تا حد زیادی CUDA، Python، C و C++ است؟ آیا به دنبال سرعت و کارایی بیشتر در جای دیگری هستید؟
بریسکی: ما همیشه در حال کاوش در هر جایی هستیم که توسعه دهندگان از آن استفاده می کنند. این همیشه کلید ما بوده است. بنابراین از زمانی که در انویدیا شروع به کار کردم، روی کتابخانههای ریاضی پرسرعت کار کردهام. ابتدا باید در CUDA برنامه ریزی می کردید تا موازی سازی را بدست آورید. و سپس ما C API داشتیم. و ما یک API پایتون داشتیم. بنابراین در مورد این است که پلتفرم را به هر کجا که توسعه دهندگان هستند ببریم. در حال حاضر، توسعهدهندگان فقط میخواهند به یک نقطه پایانی واقعاً ساده API، مانند دستور curl یا دستور پایتون یا چیزی مشابه، ضربه بزنند. بنابراین باید بسیار ساده باشد، زیرا این جایی است که امروز با توسعه دهندگان ملاقات می کنیم.
ثبت نام: بدیهی است که CUDA نقش بزرگی در موثر کردن محاسبات GPU ایفا می کند. انویدیا برای پیشرفت CUDA چه می کند؟
بریسکی: CUDA پایه و اساس همه پردازنده های گرافیکی ما است. این یک GPU با CUDA فعال و قابل برنامه ریزی با CUDA است. چند سال پیش، ما آن را CUDA-X نامیدیم، زیرا شما این زبانهای مخصوص دامنه را داشتید. بنابراین اگر یک [برنامه] تصویربرداری پزشکی دارید، دارید cuCIM. اگر تشخیص خودکار گفتار دارید، یک رمزگشای جستجوی پرتو شتاب CUDA در انتهای آن دارید. و بنابراین، همه این موارد خاص برای هر نوع بار کاری متفاوت وجود دارد که توسط CUDA تسریع شده است. ما همه این کتابخانههای تخصصی را در طول سالها ایجاد کردهایم cuDF و cuML، و cu-this-and-t. همه این کتابخانههای CUDA پایه و اساس چیزی هستند که در طول سالها ساختهایم و اکنون به نوعی در بالای آن میسازیم.
ثبت نام: Nvidia چگونه به ملاحظات هزینه از نظر نحوه طراحی نرم افزار و سخت افزار خود نگاه می کند؟ با چیزی مانند Nvidia AI Enterprise، هر سال 4,500 دلار برای هر GPU است که قابل توجه است.
بریسکی: اول، برای شرکت های کوچکتر، ما همیشه آن را داریم آغاز به کار برنامه ما همیشه با مشتریان کار می کنیم - یک آزمایش 90 روزه رایگان، آیا واقعا برای شما ارزشمند است؟ آیا واقعا ارزشش را دارد؟ سپس، برای کاهش هزینه های شما هنگام خرید آن، ما همیشه نرم افزار خود را بهینه می کنیم. بنابراین اگر سالیانه 4,500 دلار به ازای هر GPU در هر مجوز میخرید، و با A100 کار میکنید، و فردا با H100 کار میکنید، همان قیمت است – هزینه شما [نسبت به توان عملیاتی شما] کاهش یافته است. بنابراین ما همیشه آن بهینهسازیها و کل هزینه مالکیت و عملکرد را در نرمافزار برمیگردانیم.
وقتی به آموزش و استنتاج فکر می کنیم، آموزش کمی بیشتر طول می کشد، اما ما این پیکربندی کننده های خودکار را داریم تا بتوانیم بگوییم: «چقدر داده دارید؟ چقدر محاسبات نیاز دارید؟ چقدر میخواهید طول بکشد؟» بنابراین میتوانید ردپای محاسباتی کوچکتری داشته باشید، اما ممکن است آموزش مدلتان بیشتر طول بکشد... آیا دوست دارید آن را در یک هفته آموزش دهید؟ یا دوست دارید آن را در یک روز آموزش دهید؟ و بنابراین می توانید این مبادلات را انجام دهید.
ثبت نام: از نظر مشکلات فعلی، آیا چیز خاصی وجود دارد که بخواهید حل کنید یا چالش فنی وجود دارد که بخواهید بر آن غلبه کنید؟
بریسکی: در حال حاضر، رویداد محور است RAG ها [که راهی برای تقویت مدلهای هوش مصنوعی با دادههای واکشی شده از یک منبع خارجی است]. بسیاری از شرکت ها فقط به درخواست کلاسیک برای ایجاد پاسخ فکر می کنند. اما در واقع، کاری که ما میخواهیم انجام دهیم این است که همه این سیستمهای مولد تقویتشده بازیابی را با هم [زنجیرهای] کنیم. زیرا اگر در مورد خود و کاری که ممکن است بخواهید انجام دهید فکر می کنید: "اوه، من باید بروم با تیم پایگاه داده صحبت کنم. و آن تیم پایگاه داده باید با تیم Tableau صحبت کند. آنها باید برای من یک داشبورد بسازند، و همه این چیزها باید قبل از اینکه بتوانید عملاً کار را کامل کنید، اتفاق بیفتد. و بنابراین این یک نوع RAG مبتنی بر رویداد است. نمیتوانم بگویم RAGها با RAGها صحبت میکنند، اما اساساً این است - عواملی که میروند و کارهای زیادی انجام میدهند و برمیگردند. و ما در آستانه آن هستیم. بنابراین فکر میکنم این چیزی است که من واقعاً از دیدن آن در سال 2024 هیجانزده هستم.
ثبت نام: آیا انویدیا از هوش مصنوعی خود استفاده می کند؟ آیا هوش مصنوعی را در داخل مفید دانسته اید؟
بریسکی: در واقع، ما رفتیم و سال گذشته، از آنجایی که سال 2023 سال اکتشاف بود، 150 تیم در انویدیا وجود داشت که من پیدا کردم - ممکن بود تعداد بیشتری نیز وجود داشته باشد - و ما سعی می کردیم بگوییم از ابزارهای ما چگونه استفاده می کنید، چه نوع از موارد استفاده و ما شروع کردیم به ترکیب همه آموخته ها، به نوعی از شکوفایی هزار گل، و به نوعی همه آموخته های آنها را در بهترین شیوه ها در یک مخزن ترکیب کردیم. این در واقع همان چیزی است که ما به عنوان چیزی که به آن می گوییم منتشر کردیم نمونه های هوش مصنوعی مولد در GitHub، زیرا ما فقط میخواستیم بهترین روشها را در یک مکان داشته باشیم.
این کاری است که ما از نظر ساختاری انجام دادیم. اما به عنوان یک مثال صریح، فکر می کنم ما این مقاله واقعا عالی را به نام نوشتیم ChipNeMo، و در واقع همه چیز در مورد تیم طراحی EDA، VLSI ما است، و اینکه چگونه آنها مدل پایه را انتخاب کردند و آن را بر اساس داده های اختصاصی ما آموزش دادند. ما زبان های برنامه نویسی خودمان را برای VLSI داریم. بنابراین آنها نسخههای کمکی [مدلهای تولید کد منبع باز] را کدگذاری میکردند تا بتوانند زبان اختصاصی ما را تولید کنند و به بهرهوری مهندسین جدیدی که دقیقاً کد نوشتن تراشه طراحی VLSI ما را نمیدانند، کمک کنند.
و این برای هر مشتری طنین انداز شده است. بنابراین اگر با SAP صحبت می کنید، آنها ABAP (برنامه نویسی برنامه کاربردی تجاری پیشرفته) دارند که مانند یک SQL اختصاصی برای پایگاه داده آنها است. و من با سه مشتری دیگر صحبت کردم که زبانهای اختصاصی متفاوتی داشتند - حتی SQL نیز صدها گویش دارد. بنابراین توانایی تولید کد یک مورد استفاده نیست که بلافاصله توسط RAG قابل حل باشد. بله، RAG به بازیابی اسناد و برخی قطعات کد کمک می کند، اما مگر اینکه برای تولید نشانه ها در آن زبان آموزش دیده باشد، نمی تواند فقط کد بسازد.
ثبت نام: وقتی به مدلهای زبان بزرگ و نحوه زنجیر شدن آنها با برنامهها نگاه میکنید، آیا به تأخیر احتمالی و نحوه برخورد با آن فکر میکنید؟ آیا مواقعی وجود دارد که صرفاً کدگذاری یک درخت تصمیم منطقی تر به نظر می رسد؟
بریسکی: حق با شماست، وقتی سوال خاصی میپرسید یا درخواست میکنید، ممکن است حتی برای یک سوال، پنج یا هفت مدل از قبل شروع شده باشد تا بتوانید بازنویسی سریع و حفاظها و رتریور و رتبهبندی مجدد دریافت کنید. و سپس ژنراتور به همین دلیل است که NIM بسیار مهم است، زیرا ما برای تأخیر بهینه سازی کرده ایم.
همچنین به همین دلیل است که ما نسخههای مختلفی از مدلهای پایه را ارائه میدهیم زیرا ممکن است یک SLM داشته باشید، یک مدل زبان کوچک که برای مجموعهای از وظایف بهتر است، و سپس مدل بزرگتر را برای دقت بیشتر در پایان میخواهید. اما پس از آن زنجیر کردن همه اینها برای جا دادن در پنجره تأخیر شما مشکلی است که ما در طول سالها برای بسیاری از خدمات فوق مقیاس یا مدیریت شده حل کرده ایم. آنها این پنجرههای تأخیر را دارند و بسیاری از مواقع وقتی سؤالی میپرسید یا جستجو میکنید، در واقع چندین بار خاموش میشوند و سؤال را بررسی میکنند. بنابراین آنها شرایط مسابقه زیادی دارند که "پنجره تاخیر من برای هر بخش کوچکی از پاسخ کل چیست؟" بنابراین بله، ما همیشه به آن نگاه می کنیم.
به نظر شما در مورد کدگذاری سخت، من همین امروز با یک مشتری در مورد آن صحبت کردم. ما بسیار فراتر از هاردکد هستیم ... می توانید از یک مدیر گفتگو استفاده کنید و اگر-پس-دیگر را داشته باشید. [اما] مدیریت هزاران قانون واقعاً غیرممکن است. و به همین دلیل است که ما چیزهایی مانند نردههای محافظ را دوست داریم، زیرا نردههای محافظ نوعی جایگزینی برای یک مدیر گفتگوی کلاسیک هستند. به جای اینکه بگویید: «در مورد بیسبال صحبت نکن، در مورد سافت بال صحبت نکن، در مورد فوتبال صحبت نکن» و آنها را فهرست کنید، فقط می توانید بگویید: «در مورد ورزش صحبت نکنید». و سپس LLM می داند که ورزش چیست. صرفه جویی در زمان، و توانایی مدیریت آن کد بعداً، بسیار بهتر است. ®
- محتوای مبتنی بر SEO و توزیع روابط عمومی. امروز تقویت شوید.
- PlatoData.Network Vertical Generative Ai. به خودت قدرت بده دسترسی به اینجا.
- PlatoAiStream. هوش وب 3 دانش تقویت شده دسترسی به اینجا.
- PlatoESG. کربن ، CleanTech، انرژی، محیط، خورشیدی، مدیریت پسماند دسترسی به اینجا.
- PlatoHealth. هوش بیوتکنولوژی و آزمایشات بالینی. دسترسی به اینجا.
- منبع: https://go.theregister.com/feed/www.theregister.com/2024/03/26/nvdiai_kari_briski_interview/