Lar Visão de futuro As unidades de processamento tensorial do Google alteram as regras do aprendizado de máquina

As unidades de processamento tensorial do Google alteram as regras do aprendizado de máquina

2024

Vídeo: Resultado da Quina - Concurso nº 5157 - 27/12/2019 (Novembro 2024)

Um dos anúncios mais interessantes - e inesperados - que o Google fez na sua conferência de desenvolvedores de E / S na semana passada foi que ele projetou e implementou seus próprios chips para aprendizado de máquina. Durante sua palestra, o CEO do Google, Sundar Pichai, apresentou o que ele chamou de Unidades de Processamento de Tensores (TPUs), dizendo que a empresa as usava em suas máquinas AlphaGo, que derrotaram o campeão do Go, Lee Sedol.

"As TPUs têm um desempenho por ordem de magnitude mais alto por watt do que FPGAs e GPUs comerciais", disse Pichai. Embora ele não tenha dado muitos detalhes, o ilustre engenheiro de hardware do Google Norm Jouppi explicou em um post de blog que uma TPU é um ASIC personalizado (circuito integrado específico de aplicativo). Em outras palavras, é um chip projetado especificamente para executar o aprendizado de máquina e especialmente adaptado para o TensorFlow, a estrutura de aprendizado de máquina do Google.

Imagem

No post, Jouppi disse que é "mais tolerante" com precisão computacional reduzida, o que significa que requer menos transistores por operação. Isso permite que o Google obtenha mais operações por segundo, permitindo que os usuários obtenham resultados mais rapidamente. Ele disse que uma placa com uma TPU se encaixa em um slot de unidade de disco rígido em seus racks de data center e mostrou uma imagem de racks de servidor cheios de TPUs, que, segundo ele, foram usadas nas máquinas AlphaGo da empresa.

Além disso, Jouppi disse que as TPUs já estão trabalhando em vários aplicativos no Google, incluindo o RankBrain, usado para melhorar a relevância dos resultados de pesquisa, e o Street View, para melhorar a precisão e a qualidade dos mapas e navegação.

Em uma entrevista coletiva, o vice-presidente de infraestrutura técnica do Google, Urs Hölzle, confirmou que o TPU é executado usando matemática de número inteiro de 8 bits, em vez da matemática de ponto flutuante de maior precisão para a qual as CPUs e GPUs mais modernas são projetadas. A maioria dos algoritmos de aprendizado de máquina pode se dar bem com dados de baixa resolução, o que significa que o chip pode lidar com mais operações em uma determinada área e lidar com modelos mais complexos com eficiência. Esta não é uma idéia nova: o módulo Nvidia Drive PX 2, anunciado no início deste ano na CES, é capaz de 8 teraflops com precisão de ponto flutuante de 32 bits, mas atinge 24 "teraops" de aprendizado profundo (o termo da empresa para 8 número inteiro de bits).

Embora Hölzle tenha se recusado a especificar detalhes, os relatórios dizem que ele confirmou que o Google está usando hoje TPUs e GPUs. Ele disse que isso continuará por algum tempo, mas sugeriu que o Google veja as GPUs como muito gerais, preferindo um chip mais otimizado para aprendizado de máquina. Ele disse que a empresa lançaria um artigo descrevendo os benefícios do chip posteriormente, mas deixou claro que eles são projetados apenas para uso interno, e não para venda a outras empresas. Outra aplicação que ele descreveu estava usando os chips para lidar com parte da computação por trás do mecanismo de reconhecimento de voz usado no telefone Android.

A escolha de usar um ASIC é uma aposta interessante do Google. Os maiores avanços no aprendizado de máquina nos últimos anos - a tecnologia por trás do grande impulso para redes neurais profundas - foram a adoção de GPUs, em particular a linha Nvidia Tesla, para treinar esses modelos. Mais recentemente, a Intel comprou a Altera, fabricante líder de FPGAs (matrizes de portas programáveis em campo), que estão em algum lugar no meio; eles não são tão genéricos quanto as GPUs ou são projetados especificamente para o TensorFlow como o chip do Google, mas podem ser programados para executar uma variedade de tarefas. A Microsoft vem experimentando FPGAs da Altera para aprendizado profundo. A IBM está desenvolvendo seu chip TrueNorth Neurosynaptic projetado especificamente para redes neurais, que recentemente começou a ser usado em uma variedade de aplicações. A Cadence (Tensilica), Freescale e Synopsys estão pressionando seus DSPs (processadores de sinal digital) para executar esses modelos; Mobileye e NXP anunciaram recentemente chips projetados especificamente para ADAS e carros autônomos; e várias empresas menores, incluindo Movidius e Nervana, anunciaram planos para chips projetados especificamente para IA.

É muito cedo para saber qual abordagem será melhor a longo prazo, mas ter algumas opções muito diferentes significa que provavelmente assistiremos a uma competição interessante nos próximos anos.