Vídeo: Conheça os Supercomputadores do Mundo! (Novembro 2024)
Olhando para a conferência de supercomputação ISC 17 desta semana, parece que o mundo da supercomputação sofrerá grandes atualizações nos próximos dois anos, mas a atualização para a lista Top 500 dos dois supercomputadores mais rápidos do mundo, semestralmente, não foi muito diferente a versão anterior.
Os computadores mais rápidos do mundo continuam sendo as duas grandes máquinas chinesas que estão no topo da lista há alguns anos: computador Sunway TaihuLight do Centro Nacional de Supercomputação da China em Wuxi, com desempenho sustentado do Linpack de mais de 93 petaflops (93 mil trilhões de pontos flutuantes) operações por segundo); e o computador Tianhe-2, do Centro Nacional de Supercomputadores da China, em Guangzhou, com desempenho sustentado de mais de 33, 8 petaflops. Estas continuam sendo as máquinas mais rápidas por uma margem enorme.
O novo número três é o sistema Piz Daint do Swiss National Supercomputing Center, um sistema Cray que usa Intel
Isso reduz o principal sistema dos EUA - o sistema Titan no Laboratório Nacional de Oak Ridge - para o quarto lugar, tornando a primeira vez em vinte anos que não há um sistema dos EUA entre os três primeiros. O restante da lista permanece inalterado, com os EUA ainda respondendo por cinco dos dez primeiros no total e o Japão por dois.
Mesmo que a lista de computadores mais rápidos não tenha mudado muito, há grandes mudanças em outros lugares. Na lista Green 500 dos sistemas mais eficientes em termos de energia, nove dos dez principais foram alterados. No topo está o sistema Tsubame 3.0, um sistema HPE ICE XA modificado no Instituto de Tecnologia de Tóquio baseado em um núcleo Xeon E5-2680v4 14, interconexão Omni-Path e Tesla P100 da Nvidia, que permite 14, 1 gigaflops por watt. Este é um grande salto em relação ao DGX Saturn V da Nvidia, baseado na plataforma DGX-1 da empresa e nos chips P100, que era o número um na lista de novembro, mas o número dez desta vez, a 9, 5 gigaflops / Watt. O P100 está em nove dos dez principais sistemas Green500.
Quebrar 10 gigaflops / watt é importante, porque significa que um sistema hipotético de exaflop construído usando a tecnologia atual consumiria menos de 100 megawatts (MW). Isso ainda é demais - a meta é de 20 a 30 MW para um sistema exaflop, que os pesquisadores esperam ver nos próximos cinco anos, mais ou menos - mas é um grande avanço.
Assim como a lista das 500 principais, houve apenas pequenas alterações em listas semelhantes com diferentes benchmarks, como o benchmark High Performance Conjugate Gradients (HPCG), em que as máquinas tendem a ver apenas 1 a 10% de seu desempenho teórico máximo e onde os principais sistema - nesse caso, a máquina Riken K - ainda fornece menos de 1 petaflop. Os sistemas TaihuLight e Piz Daint subiram nessa lista. Quando os pesquisadores falam sobre uma máquina exaflop, eles tendem a se referir ao benchmark Linpack, mas o HPCG pode ser mais realista em termos de desempenho no mundo real.
O surgimento da computação da GPU como acelerador - quase sempre usando processadores da Nvidia GPU como o P100 - foi a mudança mais visível nessas listas nos últimos anos, seguida pela introdução do próprio acelerador da Intel, o Xeon Phi de vários núcleos (incluindo a versão mais recente do Knights Landing). A lista das 500 melhores atuais inclui 91 sistemas que usam aceleradores ou coprocessadores, incluindo 74 com GPUs Nvidia e 17 com Xeon Phi (com outros três usando ambos); um com uma GPU AMD Radeon como acelerador e dois que usam um processador de vários núcleos da PEZY Computing, um fornecedor japonês. Agora, 13 sistemas adicionais usam o Xeon Phi (Knights Landing) como a principal unidade de processamento.
Mas muitas das maiores mudanças nos supercomputadores ainda estão no horizonte, quando começamos a ver sistemas maiores projetados com esses conceitos em mente. Um exemplo é o novo MareNostrum 4 no Barcelona Supercomputing Center, que entrou na lista das 500 melhores no número 13. Como instalado até agora, este é um sistema Lenovo baseado na próxima versão Skylake-SP do Xeon (oficialmente o Xeon Platinum 8160 24 processador -core). O interessante aqui são os três novos clusters de "tecnologia emergente" planejados para os próximos dois anos, incluindo um cluster com processadores IBM Power 9 e GPUs Nvidia, projetados para ter uma capacidade de processamento de pico superior a 1, 5 Petaflops; um segundo baseado na versão de Knights Hill de Xeon Phi; e um terceiro baseado nos processadores ARMv8 de 64 bits projetados pela Fujitsu.
Esses conceitos estão sendo usados em vários outros grandes projetos de supercomputação, notadamente vários patrocinados pelo Departamento de Energia dos EUA como parte de sua colaboração CORAL nos laboratórios nacionais de Oak Ridge, Argonne e Lawrence Livermore. O primeiro deve ser a Summit, em Oak Ridge, que usará os processadores IBM Power 9 e as GPUs Nvidia Volta, e deve entregar de 150 a 300 petaflops de pico; seguido por Sierra em Lawrence Livermore, previsto para entregar mais de 100 petaflops de pico.
Deveríamos então ver o supercomputador Aurora no Laboratório Nacional de Argonne, baseado na versão de Xeon Phi de Knights Hill e construída por Cray, que deve entregar 180 petaflops de pico. Os sistemas CORAL devem estar funcionando
Enquanto isso, os grupos chinês e japonês também planejaram atualizações, principalmente usando arquiteturas exclusivas. Deve ser interessante assistir.
Uma mudança ainda maior parece estar um pouco mais distante: a mudança para o aprendizado de máquina, geralmente em unidades de processamento massivamente paralelas dentro do próprio processador. Embora o número do Linpack se refira ao desempenho de 64 bits ou de precisão dupla, existem classes de aplicativos - incluindo muitos aplicativos baseados em redes neurais profundas - que funcionam melhor com cálculos de precisão única ou até meia precisão. Novos processadores estão tirando proveito disso, como o recente anúncio Volta V100 da Nvidia e a próxima versão do Xeon Phi da Knights Mill. Na feira, a Intel disse que a versão, que deve estar em produção no quarto trimestre, terá novos conjuntos de instruções para "computação de baixa precisão" chamados Quad Fused Multiply Add (QFMA) e Quad Virtual Neural Network Instruction (QVNNI).
Suponho que esses conceitos também possam ser aplicados a outras arquiteturas, como TPUs do Google ou FPGAs da Intel e chips Nervana.
Mesmo se não estamos vendo grandes mudanças este ano, no próximo ano devemos esperar ver mais. O conceito de uma máquina exascale (1000 teraflops) ainda está à vista, embora provavelmente envolva uma série de alterações ainda maiores.