Lar Visão de futuro Oracle, nvidia e braço se destacam em hot chips

Oracle, nvidia e braço se destacam em hot chips

2024

Vídeo: A Fireside Chat with Arm CEO, Simon Segars and NVIDIA CEO, Jensen Huang (Novembro 2024)

Embora grande parte da empolgação dos chips na semana passada tenha sido causada pelo anúncio da Intel Broadwell, vários outros chips foram discutidos em detalhes na conferência anual Hot Chips, que costuma se concentrar principalmente em chips projetados para servidores e data centers.

O show é conhecido por chips de última geração, com Intel, Oracle e IBM discutindo suas últimas entradas, mas apenas o Sparc M7 da Oracle era realmente novo. Em vez disso, grande parte do programa acabou se concentrando em produtos baseados em ARM, incluindo os primeiros detalhes da próxima versão "Denver" de 64 bits da Nvidia de seu processador Tegra K1

Oracle, Intel e IBM apontam alto com chips de servidor

Dos chips de última geração, as notícias mais impressionantes vieram da Oracle, que discutiu a próxima geração de seu processador SPARC, conhecido como M7. Este chip terá 32 núcleos S4 SPARC (cada um com até oito threads dinâmicos), 64 MB de cache L3, oito controladores de memória DDR4 (até 2 TB por processador e 160 GBps de largura de banda de memória com DDR4-2133) e oito aceleradores de análise de dados conectados através de uma rede no chip.

O chip está organizado em oito clusters com quatro núcleos, cada um com cache L2 compartilhado e um cache L3 particionado de 8 MB com mais de 192 GBps de largura de banda entre um cluster principal e seu cache L3 local. Em comparação com o M6 (um chip de 28nm com 12 núcleos SPARC S3 de 3, 6 GHz), o M7 oferece desempenho 3-3, 5 vezes melhor em largura de banda de memória, throughput inteiro, sistemas OLTP, Java, ERP e throughput de ponto flutuante. Stephen Phillips, diretor sênior de arquitetura SPARC da Oracle, disse que o objetivo era um aumento no desempenho das funções de etapa, em vez de ganhos incrementais.

O M7 pode ser dimensionado para 8 soquetes sem cola (até 256 núcleos, 2.000 threads e 16 TB de memória) e com um comutador ASIC para gerenciar o tráfego entre eles em uma configuração SMP, até 32 processadores, para que você possa acabar com um sistema com 1.024 núcleos, 8.192 threads e até 64 TB de memória. Bastante impressionante. A Oracle disse que oferece desempenho 3 a 3, 5 vezes melhor em uma variedade de testes, em comparação com o SPARC M6 do ano passado. A empresa disse que isso será otimizado para a própria pilha de software da Oracle, fabricada em um processo de 20 nm e disponível em sistemas no próximo ano.

A IBM também deu mais detalhes sobre sua linha Power8, anunciada no show do ano passado. Essa versão do chip possuía 12 núcleos, cada um com até oito threads com 512 KB de cache SRAM Nível 2 por núcleo (6 MB total de L2) e 96 MB de DRAM incorporada compartilhada como cache de Nível 3. Este enorme chip, que mede 650 milímetros quadrados com 4, 2 bilhões de transistores, é fabricado no processo SOI de 22nm da IBM e começou a ser enviado em junho, segundo a IBM.

Há alguns meses, a IBM anunciou uma versão com seis núcleos que mede 362 mm ². A palestra deste ano foi sobre como a IBM pode combinar duas das versões de seis núcleos em um único pacote com 48 faixas do PCIe Gen 3. A IBM disse que uma versão de dois soquetes com um total de 24 núcleos e 192 threads superará o desempenho de dois processadores Servidor Xeon Ivy Bridge com 24 núcleos (com 48 threads). A IBM vende Power principalmente em mercados de alto desempenho e especializados, para que a maioria das pessoas não compare os dois, mas é interessante. Em um esforço para tornar a arquitetura Power mais mainstream, a IBM anunciou no ano passado o Open Power Consortium e, neste ano, a empresa afirmou ter uma pilha completa de software de código aberto para a plataforma. Mas até agora, ninguém além da IBM anunciou um servidor baseado na plataforma.

A Intel falou sobre "Ivytown", a versão para servidor do Ivy Bridge, que inclui as versões do Xeon E5 introduzidas há um ano e o Xeon E7 lançado em fevereiro. A palestra deste ano focou em como a Intel agora possui basicamente uma arquitetura que pode cobrir ambos os mercados, com chips que permitem até 15 núcleos, dois controladores de memória DDR3, três links QPI e 40 pistas PCI Gen 3, dispostas em um piso modular plano que pode ser transformado em três matrizes diferentes, cada uma projetada para soquetes diferentes, com um total de mais de 75 variantes. Isso pode ser usado em servidores de dois, quatro e oito soquetes sem interconexões especiais.

Esses chips, é claro, compõem a maior parte das compras de servidores atualmente, já que a Intel é responsável pela grande maioria das unidades de servidor. Mas muitas das informações foram abordadas anteriormente no ISSCC, e espera-se que a Intel introduza a próxima versão da família E5 (E5-1600v3 e E5-2600 v3) muito em breve, com base em uma versão atualizada usando uma variante do Arquitetura Haswell chamada Haswell-EP. (Na semana passada, a Dell anunciou novas estações de trabalho com base nesses novos chips.)

A Intel também discutiu seu Atom C2000, conhecido como Avoton, que entrou em produção no final de 2013. Este chip e os chips Ivy Bridge e Haswell são todos baseados no processo de 22 nm da Intel.

Nvidia, AMD e Micro-Alvo Aplicado em Novos Mercados para ARM

A maior surpresa do show foi provavelmente o foco na tecnologia baseada em ARM, incluindo palestras dos palestrantes da ARM e o detalhamento da Nvidia de sua próxima versão "Denver" de seu processador Tegra K1.

Em uma palestra, o CTO da ARM, Mike Muller, discutiu as restrições de energia em tudo, desde sensores a servidores, e se concentrou em como a ARM estava tentando se expandir na empresa. Muller também adotou o conceito de usar chips de sensores ARM para a Internet das Coisas, um tópico que também ecoou em uma palestra de Rob Chandhok, da Qualcomm. Mas nenhuma empresa anunciou novos núcleos ou processadores.

Em vez disso, as grandes novidades nessa frente vieram da Nvidia, que deu muito mais detalhes da nova versão do seu processador K1. Quando o projeto de Denver da empresa foi anunciado pela primeira vez, parecia que esse chip seria voltado para o mercado de computação de alto desempenho, mas agora a empresa parece ter se concentrado mais em coisas como tablets e mercado automotivo. O Tegra K1 virá em duas versões. O primeiro, anunciado no início deste ano e agora disponível no tablet Shield da empresa, possui quatro núcleos ARM Cortex-A15 de 32 bits e um "núcleo complementar" de baixo consumo de energia na configuração 4 + 1 que a Nvidia vem desenvolvendo. sua linha Tegra por vários anos.

A versão de Denver é bem diferente, com dois novos núcleos proprietários de 64 bits projetados pela Nvidia, e a empresa está realmente divulgando os ganhos de desempenho que obtém. O núcleo é superescalar de sete vias (o que significa que ele pode executar até sete micro-operações simultaneamente) e possui um cache de instruções L1 de quatro vias de 128 KB e um cache de dados L1 de quatro vias de 64 KB. O chip combina dois desses núcleos, juntamente com um cache de 2 MB de nível 2 que atende a ambos os núcleos, como os 192 "núcleos CUDA" (núcleos gráficos) que ele compartilha com o K1 de 32 bits. Como tal, representa uma grande partida da arquitetura 4 + 1.

Uma grande mudança inclui o que a Nvidia chama de "otimização dinâmica de código", projetada para pegar código ARM usado com frequência e convertê-lo em microcódigo especialmente otimizado para o processador. Isso é armazenado em 128 MB de memória cache (esculpida na memória principal do sistema tradicional). O objetivo é fornecer o desempenho de uma execução fora de ordem sem exigir tanto poder quanto essa técnica normalmente usa. O conceito não é novo - a Transmeta tentou isso anos atrás com seu chip Crusoe - mas a Nvidia diz que isso agora funciona notavelmente melhor.

A Nvidia mostrou vários benchmarks, nos quais afirmou que o novo chip pode atingir um desempenho significativamente maior do que os CPUs móveis de quatro ou oito núcleos existentes - citando especificamente o Snapdragon 800 (MSM8974) da Qualcomm, o Apple A7 (às vezes chamado de Cyclone) usado no iPhone 5s - e até alguns processadores de PC convencionais. A Nvidia disse que superou o desempenho do processador Atom (Bay Trail) e era semelhante ao processador Celeron (Haswell) de núcleo duplo de 1, 4 GHz da Intel. Obviamente, tenho a tendência de levar os números de desempenho do fornecedor com um pouco de sal: não apenas os fornecedores escolhem os benchmarks, como também não está claro se estamos falando das mesmas velocidades de relógio ou da mesma potência.

Enquanto isso, em chips voltados mais para servidores, a AMD falou mais sobre o Opteron A1100, conhecido como "Seattle", com a empresa dizendo que atualmente está amostrando e deve estar disponível em servidores no final deste ano. Este chip possui oito núcleos de CPU Cortex A57 de 64 bits; 4 MB de cache L2 e 8 MB de cache L3; dois canais de memória para até 128 GB de memória DDR3 ou DDR4 com correção de erros; muitas E / S integradas (8 pistas, cada uma das portas PCIe Gen3 e 6Gbps SATA e duas portas Ethernet de 10Gbps); um "processador de controle de sistema" do Cortex A5 para inicialização segura; e um acelerador para acelerar a criptografia e descriptografia. É fabricado no processo de 28nm da GlobalFoundries. A AMD ainda não forneceu detalhes sobre a frequência, potência ou desempenho do chip, mas mostrou um diagrama básico do chip. (acima)

A Applied Micro há muito afirma ter o primeiro chip para servidor ARM no mercado, com seu X-Gene 1 (conhecido como Storm) contendo 8 núcleos ARMv8 proprietários de 2, 4 GHz, quatro controladores de memória DDR3, PCIe Gen3 e SATA de 6 Gbps e Ethernet de 10 Gbps. Atualmente, ele está em produção no processo de 40 nm da TSMC, afirma a empresa.

Na Hot Chips, a Applied Micro lançou seu design X-Gene 2 (Shadowcat), que estará disponível com oito ou 16 núcleos "aprimorados", rodando a velocidades de 2, 4 a 2, 8 GHz, e adiciona um host RoCE (RDMA sobre Ethernet convergida) Adaptador de canal como uma interconexão projetada para permitir conexões de baixa latência entre clusters de microsservidores. Ele foi projetado para ser usado em clusters, com um único rack de servidor suportando até 6.480 threads e 50 TB de memória, todos compartilhando um único pool de armazenamento. A empresa diz que o X-Gene 2 oferecerá um desempenho inteiro cerca de 60% melhor, o dobro do desempenho no Memcache e um serviço Apache Web cerca de 25% melhor. É fabricado em um processo de 28nm e atualmente está amostrando.

A Applied Micro diz que o X-Gene 2 preenche uma lacuna entre os microsservidores concorrentes (Cavium ThunderX, Intel Atom C2000 "Avoton" e AMD Opteron A1100 "Seattle") e os servidores Xeon em tamanho real. Ele deu alguns detalhes sobre a próxima geração, o X-Gene 3 (Skylark), que deve começar a ser amostrado no próximo ano. Este chip terá 16 núcleos ARMv8 rodando em até 3 GHz e será fabricado com a tecnologia FinFet de 16nm.