هوش داده افلاطون
جستجوی عمودی و هوش مصنوعی

مصاحبه با نرم افزار Nvidia Exec Kari Briski

تاریخ:

مصاحبه کنفرانس فناوری GPU انویدیا هفته گذشته به پایان رسید و در مورد تراشه‌های بلک‌ول این شرکت و شگفتی‌های هوش مصنوعی با تمام سخت‌افزارهای GPU گران‌قیمتی که حاکی از آن است، صحبت کرد.

چنان سر و صدایی در اطراف این شرکت ایجاد می‌شود که قیمت سهام آن با بالاترین رکورد در حال معاشقه است، بر اساس این تصور که بسیاری از تلاش‌های خلاقانه را می‌توان سریع‌تر انجام داد، اگر با اتوماسیون فعال‌شده توسط مدل‌های یادگیری ماشینی بهتر نباشد.

که هنوز در بازار در حال آزمایش است.

جورج سانتایانا یک بار نوشت: "کسانی که نمی توانند گذشته را به خاطر بیاورند محکوم به تکرار آن هستند." این عبارتی است که اغلب تکرار می شود. با این حال یادآوری چیزهای گذشته واقعاً مدل های هوش مصنوعی را متمایز نکرده است. آنها می توانند گذشته را به یاد بیاورند، اما هنوز هم محکوم به تکرار آن در صورت تقاضا هستند، گاهی اوقات به اشتباه.

با این حال، بسیاری از هوش مصنوعی قادر مطلق سوگند یاد می کنند، به ویژه آنهایی که سخت افزار هوش مصنوعی یا خدمات ابری را می فروشند. انویدیا، در میان دیگران، روی آن شرط بندی بزرگی کرده استاست. پس ثبت نام یک بازدید کوتاه از کنفرانس GPU انجام داد تا ببیند این همه هیاهو در مورد چیست. مطمئناً در مورد میله‌های لیمویی که روز پنجشنبه در سالن نمایشگاه سرو می‌شد، نبود، که بسیاری از آنها عرضه اولیه عمومی خود را ناتمام در سطل‌های طبقه نمایشگاه به پایان رساندند.

گفتگوی بسیار جذاب تر بود ثبت نام با Kari Briski، معاون مدیریت محصول برای کیت های توسعه نرم افزار AI و HPC در انویدیا انجام شد. او مدیریت محصولات نرم‌افزاری را برای مدل‌های بنیادی، کتابخانه‌ها، SDK‌ها و در حال حاضر میکروسرویس‌هایی که با آموزش و استنتاج سروکار دارند، مانند مدل‌های جدید اعلام‌شده، مدیریت می‌کند. نیم میکروسرویس ها و بهتر استقرار یابد نمو چارچوب استقرار

ثبت نام: شرکت‌ها چگونه می‌خواهند از این میکروسرویس‌ها - در فضای ابری، در محل استفاده کنند؟

بریسکی: در واقع زیبایی دلیل ساختن NIMها به همین دلیل است. گفتن "NIM ها" به نوعی خنده دار است. اما ما این سفر را خیلی وقت پیش شروع کردیم. از زمانی که من شروع به کار کردم، ما در استنتاج کار می‌کردیم – فکر می‌کنم وقتی سال 1.0 را شروع کردم، TensorRT 2016 بود.

در طول سال‌ها، پشته استنتاج خود را افزایش داده‌ایم، در مورد هر نوع بار کاری مختلف، از بینایی رایانه و سیستم‌های توصیه‌گر عمیق و گفتار، تشخیص خودکار گفتار و ترکیب گفتار و اکنون مدل‌های زبان بزرگ، بیشتر یاد می‌گیریم. این یک پشته واقعاً متمرکز بر توسعه‌دهندگان بوده است. و اکنون که شرکت‌ها OpenAI و ChatGPT را دیده‌اند، نیاز به اجرای این مدل‌های زبان بزرگ را در کنار داده‌های سازمانی یا در برنامه‌های سازمانی خود درک می‌کنند.

متوسط ​​ارائه دهندگان خدمات ابری، برای خدمات مدیریت شده خود، صدها مهندس داشته اند که بر روی تکنیک های استنتاج و بهینه سازی کار می کنند. شرکت ها نمی توانند این کار را انجام دهند. آنها باید فوراً زمان به ارزش را دریافت کنند. به همین دلیل است که همه چیزهایی را که در طول سال‌ها آموخته‌ایم با TensorRT، مدل‌های زبان بزرگ، سرور استنتاج تریتون، API استاندارد و بررسی‌های سلامت جمع‌بندی کردیم. [ایده این است که بتوانیم] همه اینها را کپسوله کنیم تا بتوانید در کمتر از پنج دقیقه از صفر به یک نقطه پایانی مدل زبانی بزرگ برسید.

[با توجه به مرکز داده on-prem در مقابل ابر]، بسیاری از مشتریان ما ابر ترکیبی هستند. آنها محاسبات را ترجیح داده اند. بنابراین به جای ارسال داده ها به یک سرویس مدیریت شده، می توانند میکروسرویس را نزدیک به داده های خود اجرا کنند و می توانند آن را در هر کجا که بخواهند اجرا کنند.

ثبت نام: پشته نرم افزاری انویدیا برای هوش مصنوعی از نظر زبان های برنامه نویسی چگونه است؟ آیا هنوز تا حد زیادی CUDA، Python، C و C++ است؟ آیا به دنبال سرعت و کارایی بیشتر در جای دیگری هستید؟

بریسکی: ما همیشه در حال کاوش در هر جایی هستیم که توسعه دهندگان از آن استفاده می کنند. این همیشه کلید ما بوده است. بنابراین از زمانی که در انویدیا شروع به کار کردم، روی کتابخانه‌های ریاضی پرسرعت کار کرده‌ام. ابتدا باید در CUDA برنامه ریزی می کردید تا موازی سازی را بدست آورید. و سپس ما C API داشتیم. و ما یک API پایتون داشتیم. بنابراین در مورد این است که پلتفرم را به هر کجا که توسعه دهندگان هستند ببریم. در حال حاضر، توسعه‌دهندگان فقط می‌خواهند به یک نقطه پایانی واقعاً ساده API، مانند دستور curl یا دستور پایتون یا چیزی مشابه، ضربه بزنند. بنابراین باید بسیار ساده باشد، زیرا این جایی است که امروز با توسعه دهندگان ملاقات می کنیم.

ثبت نام: بدیهی است که CUDA نقش بزرگی در موثر کردن محاسبات GPU ایفا می کند. انویدیا برای پیشرفت CUDA چه می کند؟

بریسکی: CUDA پایه و اساس همه پردازنده های گرافیکی ما است. این یک GPU با CUDA فعال و قابل برنامه ریزی با CUDA است. چند سال پیش، ما آن را CUDA-X نامیدیم، زیرا شما این زبان‌های مخصوص دامنه را داشتید. بنابراین اگر یک [برنامه] تصویربرداری پزشکی دارید، دارید cuCIM. اگر تشخیص خودکار گفتار دارید، یک رمزگشای جستجوی پرتو شتاب CUDA در انتهای آن دارید. و بنابراین، همه این موارد خاص برای هر نوع بار کاری متفاوت وجود دارد که توسط CUDA تسریع شده است. ما همه این کتابخانه‌های تخصصی را در طول سال‌ها ایجاد کرده‌ایم cuDF و cuML، و cu-this-and-t. همه این کتابخانه‌های CUDA پایه و اساس چیزی هستند که در طول سال‌ها ساخته‌ایم و اکنون به نوعی در بالای آن می‌سازیم.

ثبت نام: Nvidia چگونه به ملاحظات هزینه از نظر نحوه طراحی نرم افزار و سخت افزار خود نگاه می کند؟ با چیزی مانند Nvidia AI Enterprise، هر سال 4,500 دلار برای هر GPU است که قابل توجه است.

بریسکی: اول، برای شرکت های کوچکتر، ما همیشه آن را داریم آغاز به کار برنامه ما همیشه با مشتریان کار می کنیم - یک آزمایش 90 روزه رایگان، آیا واقعا برای شما ارزشمند است؟ آیا واقعا ارزشش را دارد؟ سپس، برای کاهش هزینه های شما هنگام خرید آن، ما همیشه نرم افزار خود را بهینه می کنیم. بنابراین اگر سالیانه 4,500 دلار به ازای هر GPU در هر مجوز می‌خرید، و با A100 کار می‌کنید، و فردا با H100 کار می‌کنید، همان قیمت است – هزینه شما [نسبت به توان عملیاتی شما] کاهش یافته است. بنابراین ما همیشه آن بهینه‌سازی‌ها و کل هزینه مالکیت و عملکرد را در نرم‌افزار برمی‌گردانیم.

وقتی به آموزش و استنتاج فکر می کنیم، آموزش کمی بیشتر طول می کشد، اما ما این پیکربندی کننده های خودکار را داریم تا بتوانیم بگوییم: «چقدر داده دارید؟ چقدر محاسبات نیاز دارید؟ چقدر می‌خواهید طول بکشد؟» بنابراین می‌توانید ردپای محاسباتی کوچک‌تری داشته باشید، اما ممکن است آموزش مدلتان بیشتر طول بکشد... آیا دوست دارید آن را در یک هفته آموزش دهید؟ یا دوست دارید آن را در یک روز آموزش دهید؟ و بنابراین می توانید این مبادلات را انجام دهید.

ثبت نام: از نظر مشکلات فعلی، آیا چیز خاصی وجود دارد که بخواهید حل کنید یا چالش فنی وجود دارد که بخواهید بر آن غلبه کنید؟

بریسکی: در حال حاضر، رویداد محور است RAG ها [که راهی برای تقویت مدل‌های هوش مصنوعی با داده‌های واکشی شده از یک منبع خارجی است]. بسیاری از شرکت ها فقط به درخواست کلاسیک برای ایجاد پاسخ فکر می کنند. اما در واقع، کاری که ما می‌خواهیم انجام دهیم این است که همه این سیستم‌های مولد تقویت‌شده بازیابی را با هم [زنجیره‌ای] کنیم. زیرا اگر در مورد خود و کاری که ممکن است بخواهید انجام دهید فکر می کنید: "اوه، من باید بروم با تیم پایگاه داده صحبت کنم. و آن تیم پایگاه داده باید با تیم Tableau صحبت کند. آنها باید برای من یک داشبورد بسازند، و همه این چیزها باید قبل از اینکه بتوانید عملاً کار را کامل کنید، اتفاق بیفتد. و بنابراین این یک نوع RAG مبتنی بر رویداد است. نمی‌توانم بگویم RAG‌ها با RAG‌ها صحبت می‌کنند، اما اساساً این است - عواملی که می‌روند و کارهای زیادی انجام می‌دهند و برمی‌گردند. و ما در آستانه آن هستیم. بنابراین فکر می‌کنم این چیزی است که من واقعاً از دیدن آن در سال 2024 هیجان‌زده هستم.

ثبت نام: آیا انویدیا از هوش مصنوعی خود استفاده می کند؟ آیا هوش مصنوعی را در داخل مفید دانسته اید؟

بریسکی: در واقع، ما رفتیم و سال گذشته، از آنجایی که سال 2023 سال اکتشاف بود، 150 تیم در انویدیا وجود داشت که من پیدا کردم - ممکن بود تعداد بیشتری نیز وجود داشته باشد - و ما سعی می کردیم بگوییم از ابزارهای ما چگونه استفاده می کنید، چه نوع از موارد استفاده و ما شروع کردیم به ترکیب همه آموخته ها، به نوعی از شکوفایی هزار گل، و به نوعی همه آموخته های آنها را در بهترین شیوه ها در یک مخزن ترکیب کردیم. این در واقع همان چیزی است که ما به عنوان چیزی که به آن می گوییم منتشر کردیم نمونه های هوش مصنوعی مولد در GitHub، زیرا ما فقط می‌خواستیم بهترین روش‌ها را در یک مکان داشته باشیم.

این کاری است که ما از نظر ساختاری انجام دادیم. اما به عنوان یک مثال صریح، فکر می کنم ما این مقاله واقعا عالی را به نام نوشتیم ChipNeMo، و در واقع همه چیز در مورد تیم طراحی EDA، VLSI ما است، و اینکه چگونه آنها مدل پایه را انتخاب کردند و آن را بر اساس داده های اختصاصی ما آموزش دادند. ما زبان های برنامه نویسی خودمان را برای VLSI داریم. بنابراین آنها نسخه‌های کمکی [مدل‌های تولید کد منبع باز] را کدگذاری می‌کردند تا بتوانند زبان اختصاصی ما را تولید کنند و به بهره‌وری مهندسین جدیدی که دقیقاً کد نوشتن تراشه طراحی VLSI ما را نمی‌دانند، کمک کنند.

و این برای هر مشتری طنین انداز شده است. بنابراین اگر با SAP صحبت می کنید، آنها ABAP (برنامه نویسی برنامه کاربردی تجاری پیشرفته) دارند که مانند یک SQL اختصاصی برای پایگاه داده آنها است. و من با سه مشتری دیگر صحبت کردم که زبان‌های اختصاصی متفاوتی داشتند - حتی SQL نیز صدها گویش دارد. بنابراین توانایی تولید کد یک مورد استفاده نیست که بلافاصله توسط RAG قابل حل باشد. بله، RAG به بازیابی اسناد و برخی قطعات کد کمک می کند، اما مگر اینکه برای تولید نشانه ها در آن زبان آموزش دیده باشد، نمی تواند فقط کد بسازد.

ثبت نام: وقتی به مدل‌های زبان بزرگ و نحوه زنجیر شدن آن‌ها با برنامه‌ها نگاه می‌کنید، آیا به تأخیر احتمالی و نحوه برخورد با آن فکر می‌کنید؟ آیا مواقعی وجود دارد که صرفاً کدگذاری یک درخت تصمیم منطقی تر به نظر می رسد؟

بریسکی: حق با شماست، وقتی سوال خاصی می‌پرسید یا درخواست می‌کنید، ممکن است حتی برای یک سوال، پنج یا هفت مدل از قبل شروع شده باشد تا بتوانید بازنویسی سریع و حفاظ‌ها و رتریور و رتبه‌بندی مجدد دریافت کنید. و سپس ژنراتور به همین دلیل است که NIM بسیار مهم است، زیرا ما برای تأخیر بهینه سازی کرده ایم.

همچنین به همین دلیل است که ما نسخه‌های مختلفی از مدل‌های پایه را ارائه می‌دهیم زیرا ممکن است یک SLM داشته باشید، یک مدل زبان کوچک که برای مجموعه‌ای از وظایف بهتر است، و سپس مدل بزرگ‌تر را برای دقت بیشتر در پایان می‌خواهید. اما پس از آن زنجیر کردن همه اینها برای جا دادن در پنجره تأخیر شما مشکلی است که ما در طول سالها برای بسیاری از خدمات فوق مقیاس یا مدیریت شده حل کرده ایم. آنها این پنجره‌های تأخیر را دارند و بسیاری از مواقع وقتی سؤالی می‌پرسید یا جستجو می‌کنید، در واقع چندین بار خاموش می‌شوند و سؤال را بررسی می‌کنند. بنابراین آنها شرایط مسابقه زیادی دارند که "پنجره تاخیر من برای هر بخش کوچکی از پاسخ کل چیست؟" بنابراین بله، ما همیشه به آن نگاه می کنیم.

به نظر شما در مورد کدگذاری سخت، من همین امروز با یک مشتری در مورد آن صحبت کردم. ما بسیار فراتر از هاردکد هستیم ... می توانید از یک مدیر گفتگو استفاده کنید و اگر-پس-دیگر را داشته باشید. [اما] مدیریت هزاران قانون واقعاً غیرممکن است. و به همین دلیل است که ما چیزهایی مانند نرده‌های محافظ را دوست داریم، زیرا نرده‌های محافظ نوعی جایگزینی برای یک مدیر گفتگوی کلاسیک هستند. به جای اینکه بگویید: «در مورد بیسبال صحبت نکن، در مورد سافت بال صحبت نکن، در مورد فوتبال صحبت نکن» و آنها را فهرست کنید، فقط می توانید بگویید: «در مورد ورزش صحبت نکنید». و سپس LLM می داند که ورزش چیست. صرفه جویی در زمان، و توانایی مدیریت آن کد بعداً، بسیار بهتر است. ®

نقطه_img

جدیدترین اطلاعات

نقطه_img

چت با ما

سلام! چگونه می توانم به شما کمک کنم؟