เพลโต ดาต้า อินเทลลิเจนซ์
ค้นหาแนวตั้ง & Ai

AI cloud startup TensorWave เดิมพันว่า AMD สามารถเอาชนะ Nvidia ได้

วันที่:

ผู้ให้บริการระบบคลาวด์ผู้เชี่ยวชาญที่มีทักษะในการใช้งาน GPU ที่ร้อนและกินไฟและโครงสร้างพื้นฐาน AI อื่นๆ กำลังเกิดขึ้น และในขณะที่ผู้เล่นบางส่วนเช่น CoreWeave, Lambda หรือ Voltage Park — ได้สร้างคลัสเตอร์ของตนโดยใช้ Nvidia GPU นับหมื่นตัว แต่คนอื่นๆ ก็หันมาใช้ เอเอ็มดีแทน

ตัวอย่างหลังคือสตาร์ทอัพ Bit Barn TensorWave ซึ่งเมื่อต้นเดือนที่ผ่านมาเริ่มติดตั้งระบบที่ขับเคลื่อนโดย Instinct MI300X ของ AMD ซึ่งมีแผนจะเช่าชิปในราคาเศษเสี้ยวของต้นทุนที่เรียกเก็บในการเข้าถึงตัวเร่งความเร็วของ Nvidia

Jeff Tatarchuk ผู้ร่วมก่อตั้ง TensorWave เชื่อว่าตัวเร่งความเร็วล่าสุดของ AMD มีคุณสมบัติที่ดีมากมาย สำหรับผู้เริ่มต้นคุณสามารถซื้อได้จริง TensorWave ได้รับการจัดสรรชิ้นส่วนจำนวนมากอย่างปลอดภัย

ภายในสิ้นปี 2024 TensorWave ตั้งเป้าที่จะติดตั้งเครื่องเร่งความเร็ว MI20,000X จำนวน 300 เครื่องในโรงงานสองแห่ง และวางแผนที่จะนำระบบระบายความร้อนด้วยของเหลวเพิ่มเติมทางออนไลน์ในปีหน้า

ซิลิคอน AI ล่าสุดของ AMD นั้นเร็วกว่า H100 ที่เป็นเจ้าข้าวเจ้าของของ Nvidia เช่นกัน “ถ้าดูจากสเป็คดิบแล้ว MI300x ก็เหนือกว่า H100” Tatarchuk กล่าว

MI300X เปิดตัวที่งาน Advancing AI ของ AMD เมื่อเดือนธันวาคม โดยถือเป็นตัวเร่งที่ทันสมัยที่สุดของบริษัทออกแบบชิปจนถึงปัจจุบัน ที่ ชิป 750W ใช้การผสมผสานบรรจุภัณฑ์ขั้นสูงเพื่อต่อชิปเล็ต 12 ชิ้นเข้าด้วยกัน — 20 ชิ้นหากคุณนับโมดูล HBM3 — ให้เป็น GPU ตัวเดียวที่อ้างว่าเร็วกว่า H32 ของ Nvidia ถึง 100 เปอร์เซ็นต์

นอกเหนือจากประสิทธิภาพจุดลอยตัวที่สูงขึ้นแล้ว ชิปยังมีหน่วยความจำ HBM192 ขนาด 3GB ที่ใหญ่กว่าซึ่งสามารถส่งแบนด์วิธได้ 5.3TB/s เทียบกับ 80GB และ 3.35TB/s ที่อ้างสิทธิ์โดย H100

ดังที่เราได้เห็นจาก H200 ของ Nvidia ซึ่งเป็นเวอร์ชันของ H100 ที่ได้รับการปรับปรุงโดยการรวม HBM3e ไว้ด้วย แบนด์วิดท์หน่วยความจำคือ ผู้สนับสนุนหลัก ประสิทธิภาพของ AI โดยเฉพาะอย่างยิ่งในการอนุมานโมเดลภาษาขนาดใหญ่

เช่นเดียวกับการออกแบบ HGX ของ Nvidia และ OAM ของ Intel การกำหนดค่ามาตรฐานของ GPU ล่าสุดของ AMD ต้องใช้ตัวเร่งความเร็วแปดตัวต่อโหนด

นั่นคือการกำหนดค่าที่ทีมงาน TensorWave กำลังยุ่งอยู่กับการดึงและวางซ้อน

“ตอนนี้เรามีหลายร้อยคนเข้ามา และอีกหลายพันคนเข้ามาในเดือนต่อๆ ไป” ทาทาร์ชุกกล่าว

กำลังดึงพวกเขาขึ้นมา

ในรูป โพสต์ ทางโซเชียลมีเดีย ทีมงาน TensorWave ได้แสดงสิ่งที่ดูเหมือนจะเป็น 8U Supermicro AS-8125GS-TNMR2 สามตัว ระบบ ลุกขึ้น สิ่งนี้ทำให้เราเกิดคำถามขึ้นมาว่าชั้นวางของ TensorWave มีกำลังไฟหรือจำกัดความร้อน ไม่ใช่เรื่องแปลกที่ระบบเหล่านี้จะดึงพลังงานเกิน 10kW เมื่อโหลดเต็มที่

ปรากฎว่าบุคลากรที่ TensorWave ยังติดตั้งเครื่องจักรไม่เสร็จ และบริษัทกำลังกำหนดเป้าหมายโหนดสี่โหนดที่มีความจุรวมประมาณ 40kW ต่อแร็ค ระบบเหล่านี้จะถูกระบายความร้อนโดยใช้ตัวแลกเปลี่ยนความร้อนที่ประตูด้านหลัง (RDHx) อย่างที่เราเคย กล่าวถึง ในอดีตเป็นหม้อน้ำขนาดแร็คเพื่อให้น้ำเย็นไหลผ่าน เมื่ออากาศร้อนออกจากเซิร์ฟเวอร์ทั่วไป ลมร้อนจะผ่านหม้อน้ำซึ่งจะทำให้เย็นลงจนถึงระดับที่ยอมรับได้

เทคโนโลยีระบายความร้อนนี้ได้กลายเป็นสินค้ายอดนิยมในหมู่ผู้ให้บริการศูนย์ข้อมูลที่ต้องการสนับสนุนคลัสเตอร์ GPU ที่หนาแน่นขึ้น และนำไปสู่ความท้าทายด้านซัพพลายเชนบางอย่าง Piotr Tomasik COO ของ TensorWave กล่าว

“มีปัญหาด้านความจุมากมาย แม้แต่ในอุปกรณ์เสริมรอบๆ ศูนย์ข้อมูลในขณะนี้” เขากล่าว โดยเฉพาะอย่างยิ่งการอ้างอิงถึง RDHx ว่าเป็นปัญหา “จนถึงตอนนี้เราประสบความสำเร็จแล้ว และเรามีความเชื่อมั่นอย่างมากต่อความสามารถในการปรับใช้สิ่งเหล่านี้”

อย่างไรก็ตาม ในระยะยาว TensorWave มีจุดมุ่งหมายในการระบายความร้อนโดยตรงไปยังชิป ซึ่งอาจเป็นเรื่องยากที่จะปรับใช้ในศูนย์ข้อมูลที่ไม่ได้ออกแบบมาเพื่อรองรับ GPU Tomasik กล่าว “เรารู้สึกตื่นเต้นที่จะปรับใช้การระบายความร้อนของชิปโดยตรงในช่วงครึ่งหลังของปี เราคิดว่ามันจะดีขึ้นและง่ายขึ้นมากเมื่อมีความหนาแน่น”

ความวิตกกังวลด้านประสิทธิภาพ

ความท้าทายอีกประการหนึ่งคือความมั่นใจในประสิทธิภาพของ AMD ตามข้อมูลของ Tatarchuk แม้ว่า AMD จะมีความกระตือรือร้นอย่างมากในการนำเสนอทางเลือกอื่นให้กับ Nvidia แต่ลูกค้าก็ไม่มั่นใจว่าพวกเขาจะเพลิดเพลินกับประสิทธิภาพแบบเดียวกัน “ยังมีอีกหลายอย่างที่ 'เราไม่แน่ใจ 100 เปอร์เซ็นต์ว่ามันจะยอดเยี่ยมเท่ากับสิ่งที่เราคุ้นเคยบน Nvidia ในปัจจุบันหรือไม่' เขากล่าว

เพื่อประโยชน์ในการทำให้ระบบทำงานได้เร็วที่สุดเท่าที่จะเป็นไปได้ TensorWave จะเปิดตัวโหนด MI300X โดยใช้ RDMA ผ่าน Converged Ethernet (RoCE) ระบบ Bare Metal เหล่านี้จะพร้อมใช้งานตามระยะเวลาเช่าคงที่ ในราคาเพียง $1/ชม./GPU

ไต่ขึ้น

เมื่อเวลาผ่านไป ชุดดังกล่าวมีเป้าหมายที่จะแนะนำเลเยอร์การประสานที่เหมือนคลาวด์มากขึ้นสำหรับการจัดสรรทรัพยากร การใช้เทคโนโลยี FabreX ที่ใช้ PCIe 5.0 ของ GigaIO เพื่อรวม GPU สูงสุด 5,750 ตัวในโดเมนเดียวพร้อมหน่วยความจำแบนด์วิธสูงมากกว่าเพตะไบต์ก็อยู่ในวาระการประชุมเช่นกัน

สิ่งที่เรียกว่า TensorNODE เหล่านี้มีพื้นฐานมาจากสถาปัตยกรรม SuperNODE ของ GigaIO แสดงให้เห็น เมื่อปีที่แล้วซึ่งใช้อุปกรณ์สวิตช์ PCIe คู่หนึ่งเพื่อเชื่อมต่อ GPU AMD MI32 มากถึง 210 ตัวเข้าด้วยกัน ตามทฤษฎีแล้ว สิ่งนี้ควรอนุญาตให้โหนดส่วนหัวของ CPU เดียวสามารถจัดการกับตัวเร่งความเร็วแปดตัวที่มักพบในโหนด GPU ในปัจจุบันได้มากกว่า

วิธีการนี้แตกต่างจากการออกแบบที่ต้องการของ Nvidia ซึ่งใช้ NVLink เพื่อรวม superchips หลายตัวเข้าด้วยกันเป็น GPU ขนาดใหญ่ตัวเดียว ในขณะที่ NVLink สามารถเติมเงินได้เร็วกว่ามากด้วยแบนด์วิธ 1.8TB/s การทำซ้ำล่าสุด เมื่อเทียบกับเพียง 128GB/s บน PCIe 5.0 รองรับการกำหนดค่าสูงสุด 576 GPU เท่านั้น

TensorWave จะให้ทุนสนับสนุนการสร้างโรงนาบิตโดยใช้ GPU เป็นหลักประกันในการชำระหนี้ก้อนใหญ่ ซึ่งเป็นแนวทางที่ผู้ให้บริการศูนย์ข้อมูลรายอื่นใช้ เมื่อสัปดาห์ที่แล้วแลมบ์ดา เปิดเผย บริษัทต้องการเงินกู้จำนวน 500 ล้านดอลลาร์เพื่อสนับสนุนการติดตั้งเครื่องเร่งความเร็วที่เร็วที่สุดของ Nvidia จำนวนหลายหมื่นเครื่อง

ในขณะเดียวกัน CoreWeave ซึ่งเป็นหนึ่งในผู้ให้บริการ GPU ให้เช่ารายใหญ่ที่สุดก็สามารถทำเช่นนั้นได้ ปลอดภัย เงินกู้จำนวนมหาศาลมูลค่า 2.3 พันล้านดอลลาร์เพื่อขยายพื้นที่ศูนย์ข้อมูล

“คุณควรคาดหวังว่าเราจะมีการประกาศแบบเดียวกันที่นี่ในปลายปีนี้” โทมาซิกกล่าว

จุด_img

ข่าวกรองล่าสุด

จุด_img

แชทกับเรา

สวัสดี! ฉันจะช่วยคุณได้อย่างไร?