Vídeo: Overview of AI Notebooks on Google Cloud (Novembro 2024)
Nas últimas semanas, houve várias introduções importantes de novas plataformas de computação projetadas especificamente para trabalhar em redes neurais profundas para aprendizado de máquina, incluindo as novas "TPUs na nuvem" do Google e o novo design Volta da Nvidia.
Para mim, essa é a tendência mais interessante na arquitetura de computadores - ainda mais que a AMD e agora a Intel introduzindo CPUs de 16 e 18 núcleos. É claro que existem outras abordagens alternativas, mas a Nvidia e o Google merecem muita atenção por suas abordagens únicas.
No Google I / O, eu vi apresentar um "TPU em nuvem" (para a Unidade de Processamento de Tensor, indicando que ele é otimizado para a estrutura de aprendizado de máquina do Google, TensorFlow). A TPU da geração anterior, introduzida na feira do ano passado, é um ASIC projetado principalmente para inferir - executando operações de aprendizado de máquina -, mas a nova versão foi projetada para inferir e treinar esses algoritmos.
Em um artigo recente, o Google deu mais detalhes sobre o TPU original, que descreveu como contendo uma matriz de unidades de acumulação múltipla 256 por 256 (MAC) (65.536 no total), com um desempenho máximo de 92 teraops (trilhões de operações por segundo). Ele recebe as instruções de uma CPU host através do barramento PCIe Gen 3. O Google disse que este era um dado de 28nm que era menos da metade do tamanho de um processador Intel Haswell Xeon de 22nm, e que superava esse processador e o processador K80 de 28nm da Nvidia.
A nova versão, apelidada de TPU 2.0 ou TPU em nuvem, (vista acima), na verdade contém quatro processadores na placa, e o Google disse que cada placa é capaz de atingir 180 teraflops (180 trilhões de operações de ponto flutuante por segundo). Tão importante quanto isso, as placas são projetadas para trabalharem juntas, usando uma rede personalizada de alta velocidade, para que funcionem como uma única supercomputação de aprendizado de máquina que o Google chama de "pod de TPU".
Esse pod de TPU contém 64 TPUs de segunda geração e fornece até 11, 5 petaflops para acelerar o treinamento de um único modelo grande de aprendizado de máquina. Na conferência, Fei Fei Li, que chefia a pesquisa de IA do Google, disse que, embora um dos modelos de aprendizado em larga escala da empresa leve um dia inteiro para treinar em 32 das melhores GPUs disponíveis no mercado, agora ele pode ser treinado para o mesma precisão em uma tarde usando um oitavo de um pod de TPU. Isso é um grande salto.
Entenda que esses não são sistemas pequenos - um Pod parece ter o tamanho de quatro racks de computação normais.
E cada um dos processadores individuais parece ter dissipadores de calor muito grandes, o que significa que as placas não podem ser empilhadas com muita força. O Google ainda não forneceu muitos detalhes sobre o que mudou nesta versão dos processadores ou na interconexão, mas é provável que isso também se baseie em MACs de 8 bits.
Na semana anterior, a Nvidia introduziu sua mais recente entrada nesta categoria, um chip massivo conhecido como Telsa V100 Volta, que descreveu como o primeiro CPU com essa nova arquitetura Volta, projetada para GPUs de última geração.
A Nvidia disse que o novo chip é capaz de 120 teraflops TensorFlow (ou 15 TFLOPS de 32 bits ou 7, 5 de 64 bits). Isso usa uma nova arquitetura que inclui 80 Streaming Multiprocessors (SMs), cada um dos quais inclui oito novos "Núcleos de Tensores". e é uma matriz 4x4x4 capaz de executar 64 operações FMA (Fused Multiply-Add) por relógio. A Nvidia disse que oferecerá o chip em suas estações de trabalho DGX-1V com 8 placas V100 no terceiro trimestre, seguindo o DGX-1 anterior da empresa, que usava a arquitetura P100 anterior.
A empresa disse que essa caixa de US $ 149.000 deve oferecer 960 teraflops de desempenho de treinamento, usando 3200 watts. Mais tarde, o primeiro disse, enviaria uma estação DGX pessoal com quatro V100s e, no quarto trimestre, afirmou que os grandes fornecedores de servidores enviarão servidores V100.
Este chip é o primeiro anunciado a usar o processador de 12nm da TSMC e será um chip enorme com 21, 1 bilhões de transistores em uma matriz de 815 milímetros quadrados. A Nvidia citou a Microsoft e a Amazon como os primeiros clientes do chip.
Observe que existem grandes diferenças entre essas abordagens. As TPUs do Google são realmente chips personalizados, projetados para aplicativos TensorFlow, enquanto o Nvidia V100 é um chip um pouco mais geral, capaz de diferentes tipos de matemática para outros aplicativos.
Enquanto isso, os outros grandes fornecedores de nuvem estão procurando alternativas, com a Microsoft usando GPUs para treinamento e FPGAs (field-programmable gate arrays) para inferir e oferecendo ambos aos clientes. Agora, o Amazon Web Services disponibiliza instâncias de GPU e FPGA para os desenvolvedores. E a Intel tem promovido FPGAs e uma série de outras técnicas. Enquanto isso, várias novas empresas estão trabalhando em abordagens alternativas.
De certa forma, essa é a mudança mais drástica que já vimos nos processadores de estação de trabalho e servidor em anos, pelo menos desde que os desenvolvedores começaram a usar a "computação GPU" há vários anos. Será fascinante ver como isso se desenvolve.