Platão Inteligência de Dados.
Pesquisa Vertical e AI.

LANL potencializa Venado super da Nvidia com GH200

Data:

O Laboratório Nacional de Los Alamos (LANL) ligou seu supercomputador Venado – uma máquina capaz de trazer dez exaFLOPS de desempenho para suportar cargas de trabalho de IA para o Departamento de Energia.

Anunciado na conferência de computação de alto desempenho do ISC em 2022, Venado é entre os primeiros supercomputadores a serem construídos usando a arquitetura Superchip da Nvidia. Mas antes que você fique muito entusiasmado com o desempenho reivindicado, lembre-se de que a métrica exaFLOP se aplica apenas a cargas de trabalho de IA.

Tão poderoso quanto Veado é, a Nvidia não destronou o exaFLOP 1.1 da AMD Sistema de fronteira – na verdade, não chega nem perto. O desempenho de ponto flutuante tem sido a referência para supercomputadores, conforme visto nos últimos 30 anos de execução do Top500 High Performance Linpack (HPL). Mas, com o surgimento de sistemas adaptados para precisões e cargas de trabalho de IA mais baixas, o significado da métrica tornou-se um tanto confuso.

Em vez do desempenho de precisão dupla listado na classificação Top500, a classificação máxima de desempenho de ponto flutuante de muitos sistemas projetados para executar cargas de trabalho de IA geralmente é dada com metade (FP16) – ou até um quarto (FP8) – de precisão.

Venado foi avaliado usando FP8.

Esse elevado número de dez exaFLOP foi, portanto, alcançado quando executado em condições que trocam precisão por maior rendimento e menor largura de banda de memória. Isso é perfeito para executar grandes modelos de linguagem (LLMs) e outras tarefas de aprendizado de máquina, mas talvez não seja a melhor opção se você estiver tentando simular a criticidade de um ogiva de plutônio.

Embora Venado não se compare ao Frontier nas cargas de trabalho do FP64, ele não é desleixado. Graças à presença das GPUs H100 da Nvidia que fornecem a maior parte da potência do sistema, a máquina deve ser capaz de produzir cerca de 171 petaFLOPs de desempenho de precisão dupla de pico – o suficiente para superar por pouco o sistema classificado em 10º lugar no ranking Top500 de novembro. Embora observemos que o desempenho real no HPL é geralmente um pouco menor.

“Com sua capacidade de incorporar abordagens de inteligência artificial, estamos ansiosos para ver como o sistema Venado em Los Alamos pode fornecer resultados novos e significativos para áreas de interesse”, escreveu David Turk, vice-secretário do Departamento de Energia, em um comunicado. afirmação.

Até agora, o LANL diz que o sistema, que foi entregue no mês passado, já se mostrou promissor na execução de simulações de ciência de materiais e astrofísica. Isso demonstra que a máquina fará sua parte nas simulações de HPC e lidará com cargas de trabalho de IA de menor precisão.

Instalado no Nicholas C Metropolis Center for Modeling and Simulation da LANL, Venado é um sistema relativamente compacto construído em colaboração com Nvidia e HPE Cray, usando a plataforma EX deste último e interconexões Slingshot 11.

O sistema totalmente refrigerado a líquido compreende 3480 Superchips Nvidia – incluindo 2,560 módulos de CPU GH200 e 920 Grace-Grace.

Como nós discutido no passado, o GH200 era essencialmente um sistema em módulo voltado para cargas de trabalho de HPC e IA. Ele possui uma CPU Grace de 72 núcleos baseada nos núcleos Neoverse V2 de última geração da Nvidia, 480 GB de memória LPDDR5x e GPUs H96 de 144 ou 100 GB conectadas entre si por uma interconexão NVLink-C900C de 2 GB/s.

Os Superchips Grace CPU da Nvidia trocam a GPU por uma segunda CPU Grace, para um total de 144 núcleos conectados pela mesma interconexão NVLink-C2C. Esses núcleos são alimentados por até 960 GB de memória LPDDR5x capaz de fornecer mais de 1 TB/s de largura de banda.

De acordo com a LANL, esses Grace CPU Superchips devem aumentar o desempenho para uma ampla gama de aplicações HPC, especialmente aquelas que não são otimizadas ou adequadas para aceleradores de GPU.

Embora você possa pensar que um sistema baseado em Arm pode significar que os especialistas em HPC precisam se requalificar rapidamente - como nosso site irmão A próxima plataforma anteriormente discutido – a comunidade de supercomputação já trabalha com sistemas Arm há algum tempo, desde as plataformas ThunderX da Cavium e A64FX da Fujitsu.

Venado nem será o maior sistema Grace-Hopper que veremos este ano. O Isambard-AI do Governo do Reino Unido será alimentado por 5448 Nvidia GH200s. Enquanto isso, a partição GPU do Sistema Júpiter da EuroHPC irá pacote perto de 24,000 Superchips Grace-Hopper. ®

local_img

Inteligência mais recente

local_img

Fale Conosco

Olá! Como posso ajudá-lo?