Lar Visão de futuro Por que o aprendizado de máquina é o futuro

Por que o aprendizado de máquina é o futuro

2024

Índice:

Competição Machine Learning

Vídeo: Dá pra PREVER O DÓLAR com Aprendizado de Máquina? | Programando em 10 minutos #2 (Novembro 2024)

Na conferência de supercomputação SC16 deste mês, duas tendências se destacaram. A primeira é a aparição do mais recente Xeon Phi da Intel (Knights Landing) e do mais recente Tesla da Nvidia (o P100 baseado em Pascal) na lista do Top500 dos computadores mais rápidos do mundo; ambos os sistemas chegaram ao top 20. O segundo é uma grande ênfase em como os fabricantes de chips e sistemas estão pegando os conceitos dos modernos sistemas de aprendizado de máquina e aplicando-os aos supercomputadores.

Na revisão atual da lista Top500, que é atualizada duas vezes por ano, o topo do gráfico ainda está firmemente nas mãos do computador Sunway TaihuLight do Centro Nacional de Supercomputação da China em Wuxi, e o computador Tianhe-2 do Super Computador Nacional da China Em Guangzhou, como acontece desde a feira ISC16 de junho. Nenhum outro computador tem desempenho total próximo, com os sistemas de terceiro e quarto rank - ainda o supercomputador Titan em Oak Ridge e o sistema Sequoia em Lawrence Livermore - ambos com cerca da metade do desempenho do Tianhe-2.

O primeiro deles é baseado em um processador chinês exclusivo, o SW26010 de 1, 45 GHz, que usa um núcleo RISC de 64 bits. Isso tem 10.649.600 núcleos incomparáveis, oferecendo 125, 4 petaflops de pico de rendimento teórico e 93 petaflops de desempenho máximo medido no benchmark Linpack, usando 15, 4 Megawatts de potência. Deve-se notar que, embora esta máquina encabeça os gráficos no desempenho do Linpack por uma margem enorme, ela não se sai tão bem em outros testes. Existem outros benchmarks, como o benchmark High Performance Conjugate Gradients (HPCG), em que as máquinas tendem a ver apenas 1 a 10% de seu desempenho máximo teórico e onde o sistema principal - nesse caso, a máquina Riken K - ainda oferece menos de 1 petaflop.

Mas os testes do Linpack são o padrão para falar sobre computação de alto desempenho (HPC) e o que é usado para criar a lista do Top500. Usando os testes Linpack, a máquina nº 2, Tianhe-2, ficou em primeiro lugar nas paradas nos últimos anos e usa o Xeon E5 e os aceleradores Xeon Phi (Knights Corner) mais antigos. Isso oferece 54, 9 petaflops com desempenho teórico máximo e benchmarks em 33, 8 petaflops no Linpack. Muitos observadores acreditam que a proibição de exportar as versões mais recentes do Xeon Phi (Knights Landing) levou os chineses a criar seu próprio processador de supercomputador.

O Knights Landing, formalmente Xeon Phi 7250, desempenhou um grande papel nos novos sistemas da lista, começando com o supercomputador Cori no Laboratório Nacional Lawrence Berkeley entrando em quinto lugar, com um desempenho máximo de 27, 8 petaflops e um desempenho medido de 14 petaflops. Este é um sistema Cray XC40, usando a interconexão de Áries. Observe que o Knights Landing pode atuar como um processador principal, com 68 núcleos por processador fornecendo 3 teraflops de pico. (A Intel lista outra versão do chip com 72 núcleos a 3, 46 teraflops de desempenho teórico de dupla precisão máxima em sua lista de preços, mas nenhuma das máquinas da lista usa essa versão, talvez porque seja mais cara e consome mais energia.)

O Xeon Phis anterior só podia funcionar como acelerador em sistemas controlados pelos processadores Xeon tradicionais. Em sexto lugar, estava o sistema Oakforest-PACS do Joint Center for Advanced High Performance Computer do Japão, com 24, 9 petaflops de pico. Isso é construído pela Fujitsu, usando a Knights Landing e a interconexão Omni-Path da Intel. O Knights Landing também é usado no sistema nº 12 (o computador Marconi no CINECA da Itália, construído pela Lenovo e usando o Omni-Path) e no sistema nº 33 (o cânfora 2 na Universidade de Kyoto do Japão, construído por Cray e usando o Áries interligar).

A Nvidia também estava bem representada na nova lista. O sistema nº 8, Piz Daint, no Swiss National Supercomputing Center, foi atualizado para um Cray XC50 com Xeons e Nvidia Tesla P100, e agora oferece pouco menos de 16 petaflops de desempenho teórico máximo e 9, 8 petaflops de desempenho Linpack - um grande atualização dos 7, 8 petaflops com desempenho máximo e 6, 3 petaflops com desempenho Linpack em sua iteração anterior, com base no Cray XC30 com aceleradores Nvidia K20x.

O outro sistema baseado em P100 da lista era o DGX Saturn V da própria Nvidia, baseado nos sistemas DGX-1 da empresa e em uma interconexão Infiniband, que chegava ao 28º lugar na lista. Observe que a Nvidia agora está vendendo os processadores e o dispositivo DGX-1, que inclui software e oito Tesla P100s. O sistema DGX Saturn V, que a Nvidia usa para pesquisa interna de IA, atinge quase 4, 9 petaflops de pico e 3, 3 petaflops Linpack. Mas o que a Nvidia aponta é que ela usa apenas 350 quilowatts de energia, tornando-a muito mais eficiente em termos energéticos. Como resultado, este sistema está no topo da lista Green500 dos sistemas com maior eficiência energética. A Nvidia ressalta que isso é consideravelmente menos energia que o sistema Camphor 2 baseado em Xeon Phi, que tem desempenho semelhante (quase 5, 5 petaflops peak e 3, 1 Linpack petaflops).

É uma comparação interessante, com a Nvidia divulgando melhor eficiência energética em GPUs e a Intel divulgando um modelo de programação mais familiar. Tenho certeza de que veremos mais concorrência nos próximos anos, pois as diferentes arquiteturas competem para ver qual delas será a primeira a alcançar a "computação em escala exótica" ou se a abordagem doméstica chinesa chegará lá. Atualmente, o Projeto de Computação Exascale do Departamento de Energia dos EUA espera que as primeiras máquinas exascale sejam instaladas em 2022 e entrem em operação no ano seguinte.

Acho interessante notar que, apesar da ênfase em aceleradores de muitos núcleos, como as soluções Nvidia Tesla e Intel Xeon Phi, apenas 96 sistemas usam esses aceleradores (incluindo aqueles que usam o Xeon Phi sozinho); em oposição a 104 sistemas há um ano. A Intel continua sendo a maior fornecedora de chips, com 462 dos 500 principais sistemas, seguida pelos processadores IBM Power em 22. A Hewlett-Packard Enterprise criou 140 sistemas (incluindo os da Silicon Graphics, adquirida pela HPE), que a Lenovo construiu. 92 e Cray 56.

Competição Machine Learning

Houve vários anúncios durante ou ao redor do programa, a maioria deles lidando com alguma forma de inteligência artificial ou aprendizado de máquina. A Nvidia anunciou uma parceria com a IBM em um novo kit de ferramentas de software de aprendizado profundo chamado IBM PowerAI que executa servidores IBM Power usando a interconexão NVLink da Nvidia.

A AMD, que foi uma reflexão tardia nos ambientes de HPC e de aprendizado de máquina, está trabalhando para mudar isso. Nesta área, a empresa focou em suas próprias GPUs Radeon, empurrou suas GPUs de servidor FirePro S9300 x2 e anunciou uma parceria com o Google Cloud Platform para permitir que ele fosse usado na nuvem. Mas a AMD não investiu tanto em software para programação de GPUs, como enfatizou o OpenCL em vez da abordagem mais proprietária da Nvidia. Na feira, a AMD lançou uma nova versão de sua Radeon Open Compute Platform (ROCm) e divulgou planos para oferecer suporte a suas GPUs em cenários de computação heterogêneos com várias CPUs, incluindo as futuras CPUs "Zen" x86, arquiteturas ARM a partir do ThunderX da Cavium e CPUs IBM Power 8.

Na feira, a Intel falou sobre uma nova versão do atual chip Xeon E5v4 (Broadwell) ajustado para cargas de trabalho de ponto flutuante e como a próxima versão baseada na plataforma Skylake será lançada no próximo ano. Mas em um evento posterior naquela semana, a Intel fez uma série de anúncios projetados para posicionar seus chips no espaço de inteligência artificial ou aprendizado de máquina. (Aqui está a opinião da ExtremeTech.) Muito disso tem implicações para a computação de alto desempenho, mas é principalmente separado. Para começar, além dos processadores Xeon padrão, a empresa também está promovendo FPGAs para realizar grande parte das inferências em redes neurais. Essa é uma grande razão pela qual a empresa comprou recentemente a Altera, e esses FPGAs agora são usados por empresas como a Microsoft.

Mas o foco na IA na semana passada lidou com alguns chips mais novos. Primeiro, existe o Xeon Phi, onde a Intel indicou que a versão atual do Knights Landing será complementada no próximo ano com uma nova versão chamada Knights Mill, voltada para o mercado de "aprendizado profundo". Anunciada na IDF, esta é outra versão de 14 nm, mas com suporte para cálculos de meia precisão, que são freqüentemente usados no treinamento de redes neurais. De fato, uma das grandes vantagens dos atuais chips da Nvidia no aprendizado profundo é o suporte a cálculos de meia precisão e operações inteiras de 8 bits, que a Nvidia costuma chamar de "tera-ops" do aprendizado profundo. A Intel afirmou que a Knights Mill oferecerá até quatro vezes o desempenho da Knights Landing para aprendizado profundo. (Este chip ainda deve ser seguido posteriormente por uma versão de 10 nm chamada Knights Hill, provavelmente destinada mais ao mercado tradicional de computação de alto desempenho.)

O mais interessante para o próximo ano é um design da Nervana, que a Intel adquiriu recentemente, que utiliza uma variedade de clusters de processamento projetados para executar operações matemáticas simples, conectadas à memória de alta largura de banda (HBM). O primeiro desta família será o Lake Crest, que foi projetado antes da Intel comprar a empresa e fabricada em um processo TSMC de 28nm. Lançada em versões de teste no primeiro semestre do próximo ano, a Intel diz que oferecerá mais desempenho bruto de computação que uma GPU. Isso acabará sendo seguido pelo Knights Crest, que de alguma forma implementa a tecnologia de Nervana ao lado de Xeon, com detalhes ainda não anunciados.

"Esperamos que as tecnologias da Nervana produzam um aumento de 100 vezes no desempenho nos próximos três anos para treinar redes neurais complexas, permitindo que os cientistas de dados resolvam seus maiores desafios de IA mais rapidamente", escreveu o CEO da Intel, Brian Krzanich.

A Intel também anunciou recentemente planos para adquirir o Movidius, que torna os chips baseados em DSP particularmente adequados para inferir a visão por computador - novamente, tomar decisões com base em modelos previamente treinados.

É uma história complicada e em evolução - certamente não tão direta quanto a pressão da Nvidia por suas GPUs em todos os lugares. Mas o que fica claro é a rapidez com que o aprendizado de máquina está decolando e as diversas maneiras pelas quais as empresas planejam resolver o problema, desde GPUs como as da Nvidia e AMD até muitos processadores x86 principais, como Xeon Phi, e FPGAs., a produtos especializados para treinamento, como Nervana e TrueNorth, da IBM, a mecanismos de inferência personalizados do tipo DSP, como as unidades de processamento de tensores do Google. Será muito interessante ver se o mercado tem espaço para todas essas abordagens.