Lar Visão de futuro Hot chips: o aprendizado de máquina assume o centro do palco

Hot chips: o aprendizado de máquina assume o centro do palco

2024

Vídeo: Machine Learning With A $10 AI Processor | Sipeed M1n AI Development Kit (Novembro 2024)

O tópico mais quente da computação atualmente é o aprendizado de máquina e certamente visível no lado do hardware. Nas últimas semanas, ouvimos muito sobre novos chips projetados para aprendizado profundo, desde o Tesla P100 da Nvidia e o Drive PX 2 até as unidades de processamento de tensores do Google e o Xeon Phi da Intel. Portanto, não é surpreendente que, na conferência Hot Chips, na semana passada, recebemos notícias de várias empresas diferentes, com abordagens muito diferentes para o design, adaptado ao aprendizado de máquina e ao processamento da visão.

Talvez a maior novidade tenha sido a divulgação pela Nvidia de mais detalhes sobre seu chip Parker, usado em seu módulo Drive PX 2 para carros autônomos e voltado para o aprendizado profundo de máquinas autônomas. Este chip usa dois núcleos de CPU Denver personalizados compatíveis com ARM, quatro núcleos ARM Cortex-A57 e 256 do que a Nvidia chama de núcleos Pascal CUDA (gráficos).

A Nvidia disse que este foi seu primeiro chip projetado e classificado para uso automotivo, com recursos especiais de resiliência, e aumentou sua velocidade e memória mais rápidas, observando que o núcleo de Denver fornece uma melhoria significativa no desempenho por watt. Entre os novos recursos, está a virtualização assistida por hardware, com até 8 VMS para permitir a integração dos recursos do carro tradicionalmente feitos em computadores separados. No geral, a empresa disse que o modelo Drive PX 2 pode ter dois desses chips da Parker e duas GPUs discretas, com um desempenho total de 8 teraflops (precisão dupla) ou 24 operações de aprendizado profundo (8 bits ou meia precisão). A empresa incluiu referências comparando-a favoravelmente com o processamento móvel atual usando o SpecInt_2000, uma referência relativamente antiga. Mas o desempenho parece impressionante, e a Volvo disse recentemente que o usará para testar veículos autônomos a partir do próximo ano.

Claro, existem muitas outras abordagens.

A startup chinesa DeePhi discutiu uma plataforma baseada em FPGA para redes neurais, com duas arquiteturas diferentes, dependendo do tipo de rede envolvida. O Aristóteles foi projetado para redes neurais convolucionais relativamente pequenas e baseado no Xilinx Zynq 7000, enquanto o Descartes foi projetado para redes neurais recorrentes maiores usando memória de curto prazo (RNN-LSTM), baseada no Kintex Ultrascale FPGA. DeePhi afirma que seu compilador e sua arquitetura reduzem o tempo de desenvolvimento em comparação com a maioria dos usos de FPGAs e também que o uso de um FPGA pode oferecer um desempenho melhor do que as soluções Tegra K1 e K40 da Nvidia.

Outra abordagem é usar um processador de sinal digital ou DSP, que normalmente executa uma função específica ou um pequeno conjunto de funções muito rapidamente, usando muito pouca energia. Frequentemente, estes são incorporados a outros chips mais complexos para acelerar certas funções, como o processamento da visão. Várias empresas, incluindo Movidius, CEVA e Cadence estavam compartilhando suas soluções na Hot Chips.

A Movidius estava mostrando sua solução baseada em DSP, conhecida como unidade de processamento de visão Myriad 2, e a exibiu no drone DJI Phantom 4. Também mostrou como a Myriad 2 supera as GPUs e a rede neural profunda do GoogLeNet usada no concurso ImageNet de 2014.

A CEVA estava promovendo seu DSVA de visão CEVA-XM4, ajustado especificamente para o processamento visual e voltado para o mercado automotivo, junto com a plataforma CEVA Deep Neural Network 2, que, segundo ela, poderia levar qualquer coisa escrita para as estruturas Caffe ou TensorFlow e otimizá-la para rodar no seu DSP. O novo processador deve estar em SoCs no próximo ano.

Enquanto isso, a Cadence, que faz a família de processadores de visão Tensilica (que pode ser incorporada a outros produtos), discutiu sua versão mais recente, o Vision P6, que adicionou novos recursos como suporte a ponto flutuante de vetor e outros recursos para redes neurais convolucionais. Os primeiros produtos devem sair em breve.

A Microsoft falou sobre os detalhes do hardware de seu fone de ouvido HoloLens, dizendo que usava um processador Intel Atom Cherry Trail de 14nm executando o Windows 10 e um hub sensor personalizado da Unidade de processamento holográfico (HPU 1.0), fabricado pela TSMC em um processo de 28nm. Isso inclui 24 núcleos Tensilica DSP.

Fui particularmente atraído por um dos slides da Cadence que mostrava as diferenças na taxa de transferência e na eficiência de GPUs, FPGAs e diferentes tipos de DSPs em termos de operações de adição múltipla, um dos principais componentes das redes neurais. Embora obviamente auto-serviço (como todas as apresentações de fornecedores), ele apontou como as diferentes técnicas variam em termos de velocidade e eficiência (desempenho por watt), sem mencionar o custo e a facilidade de programação. Existem muitas soluções para diferentes abordagens aqui, e será interessante ver como isso se desenrola nos próximos anos.