Lar Visão de futuro Supercomputação 15: mudanças maiores no horizonte

Supercomputação 15: mudanças maiores no horizonte

2024

Vídeo: Qual é a Distância da Linha do Horizonte? | Matemática Rio (Novembro 2024)

Ao examinar os anúncios e os procedimentos da conferência Supercomputing 15 (SC15) do mês passado em Austin, parece que, embora a computação de alto desempenho possa ser um pouco lenta, é um mercado preparado para grandes mudanças no ano para venha.

Se você olhar para os líderes na lista das 500 melhores, a lista semestral dos computadores mais rápidos do mundo, o líder pela sexta vez consecutiva é o Tianhe-2, um supercomputador construído pela Universidade Nacional de Tecnologia de Defesa da China. De acordo com a lista das 500 melhores, esta máquina oferece 33, 86 petaflop / s (quadrilhões de cálculos por segundo) de desempenho sustentado no benchmark Linpack e 54, 9 petaflop / s de desempenho teórico máximo. Isso é baseado nos processadores Intel Xeon e Xeon Phi.

O segundo lugar continua a ser o Titan, um sistema Cray XK7 baseado nas CPUs AMD Opteron e GPUs Nvidia K20x instaladas no Laboratório Nacional Oak Ridge do DOE, com 17, 59 petaflop / s de desempenho sustentado no benchmark Linpack.

Duas novas máquinas chegaram ao top 10. O computador Trinity no Laboratório Nacional Lawrence Livermore (LLNL) é o sexto com 8, 1 petaflop / s, enquanto o sistema Hazel-Hen no Höchstleistungsrechenzentrum Stuttgart (HLRS), da Alemanha, ficou em oitavo lugar com 5, 6 petaflop / s. Ambos são máquinas Cray XC, baseadas nos processadores Intel Xeon com interconexão Aries.

Alterações maiores ocorrem mais abaixo na lista, particularmente com um grande aumento no número de sistemas chineses, que cresceu para 109, em comparação com apenas 37 na lista anterior. Em parte, isso parece ser de mais sistemas chineses executando os benchmarks e enviando resultados para a lista. Como resultado, o número de sistemas nos EUA caiu de 231 para 200, que é o número mais baixo desde que a lista foi iniciada em 1993; e o número de sistemas europeus caiu de 141 para 108.

Uma grande tendência é um aumento no número de sistemas que usam aceleradores ou coprocessadores, que subiram para 104 sistemas na lista atual, ante 90 em julho. A maioria desses sistemas usa GPUs Nvidia Tesla, seguidas pelos coprocessadores Xeon Phi da Intel, e alguns usam uma combinação. A Nvidia apontou que estava em 70 desses sistemas, incluindo 23 dos 24 novos sistemas da lista.

Na feira, a Nvidia destacou o crescimento de aceleradores e, principalmente, o número de aplicativos que estão agora disponíveis otimizados para a arquitetura CUDA da empresa. A empresa diz que 90% dos 10 principais aplicativos de computação de alto desempenho e 70% dos 50 principais estão agora acelerados. Um uso intrigante é para sistemas que executam simulações meteorológicas, um aplicativo importante para computação de alto desempenho, pois as previsões meteorológicas são produzidas por todos os tipos de governos. Cray já havia apontado o uso de tais aceleradores no Escritório de Meteorologia da Suíça (MeteoSwiss) e falou sobre como ele trabalha com pesquisadores da Suíça na reescrita de muitas de suas aplicações. A Nvidia agora está apontando para o uso de aceleradores pela Administração Nacional Oceânica e Atmosférica (NOAA) em algumas previsões meteorológicas.

Entre outras aplicações, a Cray divulgou aplicações de petróleo e gás, como o uso da geofísica 3D para simular um reservatório, além de serviços financeiros, como avaliação de riscos. Tais aplicativos raramente compõem os sistemas mais rápidos do mundo, mas são uma indicação de que a computação de alto desempenho está assumindo um papel mais amplo em mais aplicativos corporativos. Cray falou sobre uma progressão constante na execução de modelos maiores e mais detalhados em todas as disciplinas científicas e de engenharia, além de combinar cargas de trabalho tradicionais com análises.

Também estava interessado em um anúncio da Linux Foundation de um novo esforço chamado OpenHPC, projetado para criar padrões mais abertos no mundo da HPC. É uma ideia interessante, e que parece ter muitos dos grandes jogadores assinando.

Existem vários novos sistemas em andamento. A IBM está construindo uma nova máquina chamada Summit nos Laboratórios Nacionais de Oak Ridge (ORNL) e outra chamada Sierra no Laboratório Nacional Lawrence Livermore (LLNL), ambos baseados em CPUs de arquitetura IBM Power, GPUs Nvidia Tesla e interconexões Mellanox. A Summit deve entregar de 150 a 300 petaflop / s de pico e a Sierra mais de 100 petaflop / s.

Além disso, a Intel e a Cray estão construindo uma nova máquina chamada Aurora, baseada nos próximos processadores Intel Xeon Phi da Knights Hill para o Argonne Leadership Computing Facility (parte do Argonne National Labs), que visa 150 petaflops em 2018. Todos esses fazem parte de um programa do Departamento de Energia conhecido como Laboratórios Nacionais de Oak Ridge, Argonne e Lawrence Livermore (CORAL), que visa acelerar o desenvolvimento da computação de alto desempenho e, especificamente, o projeto FastForward 2.

Ainda assim, ainda temos um longo caminho a percorrer em direção à "computação em escala exascada".

Enquanto isso, havia vários anúncios de processador que poderiam ser um bom presságio para o futuro. A Nvidia, em particular, incentivou o uso de supercomputadores para aplicativos da Web em superescala, particularmente aprendizado de máquina. A empresa anunciou alguns produtos de ponta: a placa Tesla M40 com 3072 núcleos CUDA, que, segundo ela, era capaz de executar até 7 teraflop / s de precisão única, voltada principalmente para o treinamento de "aprendizado profundo", e a M4, uma placa de menor potência com 1024 núcleos e 2, 2 teraflop / s de precisão única, que podem ser usados para inferência de aprendizado profundo, além de coisas como processamento de imagem e vídeo. Além disso, a empresa anunciou um novo "conjunto de hiperescala" com aplicativos direcionados aos maiores sites de computação. Ambos os novos produtos de hardware são baseados na tecnologia de processo de 28nm e na arquitetura Maxwell da empresa.

A empresa anunciou duas arquiteturas subseqüentes, conhecidas como Pascal, com vencimento no próximo ano, e Volta, que a seguirá. A Intel se concentrou em como o HPC afeta a ciência, e fiquei intrigado com a descrição de como ele usa seu próprio supercomputador - atualmente classificado como 99 na lista das 500 melhores - para ajudar a projetar seus próprios processadores. Em particular, a empresa disse que usa um milhão de horas de CPU apenas para projetar as máscaras fotográficas para os processadores da próxima geração.

Grande parte da atividade da Intel foi focada em Knights Landing, a próxima versão do chip Xeon Phi, que pode ser usado como acelerador, mas também inicializado; e seu tecido Omni-Path. Embora a Intel diga agora que a disponibilidade geral será no primeiro semestre de 2016, alguns clientes têm acesso antecipado ao Knights Landing. Atualmente, Cray está testando um grande sistema Knights Landing em preparação para a entrega de um novo supercomputador chamado Cori para o Centro Nacional de Computação Científica de Pesquisa Energética (NERSC), e para o Laboratório Nacional de Los Alamos e Laboratórios Nacionais de Sandia, no próximo ano. A Bull, uma unidade da Atos, integradora de sistemas francesa, também recebeu versões iniciais do Knights Landing para se preparar para o sistema Tera 1000 que está construindo para a Comissão Francesa de Energias Alternativas e Energia Atômica. O Centro de Computação de Liderança de Argonne está trabalhando em um sistema chamado Theta, com entrega prevista para o próximo ano, e a Sandia National Laboratories está trabalhando com a Penguin Computing para atualizar vários sistemas que usam gerações anteriores de co-processadores Xeon Phi.

A Intel disse anteriormente que haverá três versões diferentes do Knights Landing: um processador host de linha de base (capaz de se auto-inicializar), um processador host com uma malha Omni-Path integrada e uma placa aceleradora PCIe. O chip em si será composto por 36 blocos, cada um com dois núcleos de CPU (um total de 72 núcleos), quatro unidades de processamento de vetores (dois por núcleo), 1 MB de cache L2 compartilhado e um agente de cache para manter a coerência; e a Intel disse que deve fornecer cerca de três vezes o desempenho escalar do CPU Knights Corner, com 3 teraflop / s de precisão dupla e 6 teraflop / s de precisão única de pico. Ele também usa um novo sistema de memória chamado MCDRAM, memória na embalagem com mais de 3x a largura de banda disponível em comparação com a saída para DDR4, que parece ser uma variante da arquitetura Hybrid Memory Cube que Intel e Micron falaram sobre isso. No show, Cray tinha um sistema de protótipo com um Knights Landing inicializável, e vários outros fornecedores estavam mostrando sistemas projetados para o Knights Landing. Esta versão do Xeon Phi está programada para ser seguida por uma versão chamada Knights Hill, que será construída no próximo processo de 10 nm.

Além disso, a Fujitsu falou um pouco mais sobre seu projeto Flagship 2020, baseado em um novo chip conhecido como FX100 com 32 núcleos. Espera-se que quadruplique aproximadamente o desempenho de ponto flutuante sobre o FX10 atual e, como Knights Landing, o FX100 da Fujitsu também usará uma versão da arquitetura Hybrid Memory Cube. Além disso, a NEC possui um projeto com o codinome Aurora (não relacionado ao projeto CORAL), com base no acompanhamento do chip SX-ACE, mas com maior largura de banda de memória. Isso está previsto para 2017.