Lar Visão de futuro Cúpula de computação aberta mostra tremendas inovações de hardware

Cúpula de computação aberta mostra tremendas inovações de hardware

2024

Vídeo: What's inside a Facebook Datacenter Open Compute Rack? (Novembro 2024)

Talvez a tendência mais interessante no hardware de computadores atualmente seja o Open Compute Project, e os esforços que está sendo feito para mudar padrões comuns e eficientes para equipamentos de data center, em vez do hardware e software proprietário que temos hoje. Quando ouvimos pela primeira vez sobre o Open Compute, parecia uma boa maneira para as empresas da Web de grande escala projetarem servidores mais eficientes em termos de energia e mais fáceis de manter. Mas, desde então, o Open Compute cresceu para abranger muitas outras formas de hardware - do armazenamento à rede - e está se tornando aplicável à computação corporativa, não apenas às empresas de software em nuvem.

Tudo isso ficou evidente na Open Compute Project Summit da semana passada, onde várias empresas introduziram um novo hardware projetado para trabalhar com o hardware e as especificações do Open Compute, desde servidores a redes.

"Em 2011, plantamos algumas sementes", disse Frank Frankovsky, do Facebook, que preside a Fundação OCP, ao abrir a cúpula. "O que aconteceria se aplicássemos os princípios de código aberto ao espaço de hardware? O trabalho que estamos fazendo juntos está transformando fundamentalmente o setor".

Novos chips e especificações de envio de servidores baseados em ARM

Algumas coisas anunciadas durante a semana se destacaram. A grande maioria dos servidores, no mundo real e no Open Compute Project, é baseada nos processadores Xeon da Intel e na arquitetura x86. Embora seja improvável que isso mude tão cedo, concorrentes como ARM e AMD tinham algumas alternativas interessantes.

A AMD anunciou seu primeiro CPU de servidor de 64 bits baseado em ARM, o Opteron A1100 Series de 28nm (codinome Seattle), que Andrew Feldman, gerente geral e vice-presidente corporativo, disse que fará amostragem para os clientes "dentro de semanas", embora seja espera-se que não esteja amplamente disponível até o final do ano. O A1100 inclui processadores ARM Cortex-A57 de 4 ou 8 núcleos, até 4 MB de cache L2 compartilhado e 8 MB de cache L3 compartilhado, canais de memória DDR3 ou DDR4 duplos com ECC, ARM TrustZone para segurança e coprocessadores para criptografia e dados compressão.

Feldman falou sobre um kit de desenvolvimento da série A com o processador A1100 e disse que a empresa estava trabalhando em estreita colaboração com o Linaro Enterprise Group e fornecedores de software para desenvolver um sistema operacional Linux compatível baseado no Fedora da Red Hat, pilha LAMP otimizada, suporte a Java e outros. software, incluindo aplicativos, hipervisores, compiladores e simuladores. Feldman sustentou um pequeno design de microsservidor, usando o AMD Opteron A-Series e a especificação de slot comum do Open Compute Project para placas-mãe conhecidas como "Group Hug", e anunciou que a empresa estava contribuindo com o projeto para que as empresas de hardware pudessem comece a criar servidores com base nele.

Embora Feldman tenha dito que a AMD está comprometida com o x86 e o ARM, ele sugeriu fortemente que o futuro do data center estava apontando para servidores baseados em ARM. "Na história dos computadores, CPUs menores, de menor custo e maior volume sempre venceram", disse Feldman. "Não há exceção para isso." Ele observou que no ano passado foram enviados 8 bilhões de CPUs ARM, em comparação com 13 milhões de CPUs para servidores x86. (Isso parece uma comparação tola, pois inclui CPUs ARM usadas em todos os tipos de aplicativos que não são de datacenter, mas exclui x86s usados em qualquer coisa, menos em servidores.) Feldman previu que, em 2019, a ARM comandará um quarto do mercado de servidores e personalizado. Os SoCs ARM serão a norma para grandes centros de dados, enquanto CPUs x86 menores e mais eficientes dominarão o mercado de servidores x86.

Também no lado do chip, a Applied Micro disse que seu X-Gene 2 fará uma amostragem nesta primavera com o que a empresa diz ser a primeira implementação do ARMv8 projetada para servidores. Feldman também disse que isso será seguido no próximo ano por um X-Gene 3 com 16 ou mais núcleos ARM fabricados em um processador FinFET.

Uma preocupação que algumas pessoas tiveram sobre os servidores baseados em ARM é a fragmentação. Para combater isso, Ian Drew, vice-presidente executivo de desenvolvimento de negócios e diretor de marketing da ARM, anunciou uma nova arquitetura de sistema de base de servidor. A idéia é ter uma especificação básica de hardware para desenvolvedores de SO e firmware e uma única imagem de SO para todos os servidores baseados em ARMv8-A. "É uma especificação de hardware que foi escrita por pessoal de hardware e software juntos", disse Drew. Ele observou que essa não é uma padronização em que todos serão monolíticos, mas são projetados para que a diferenciação aconteça na camada certa no momento certo.

Drew disse que a ARM quer garantir que todos estejam a bordo, para que esteja disponível publicamente no site da ARM. Possui suporte dos OEMs e vários parceiros de semicondutores, incluindo AMD, Applied Micro, Broadcom e Cavium.

Microsoft ingressa no OCP

A Microsoft disse que estava ingressando no OCP e contribuindo com um conjunto completo de especificações para os servidores que equipam o Office 365, Windows Azure e Bing. O vice-presidente corporativo Bill Laing disse que a empresa quer impulsionar a inovação em data centers em nuvem. Esse design inicial é muito diferente do rack padrão de 21 polegadas, originalmente contribuído pelo Facebook, que definiu muitos servidores Open Compute até o momento. Em vez disso, é um chassi de 12U que se encaixa em um rack padrão com blade de computação, blade de armazenamento, backplane compartilhado, energia e refrigeração compartilhadas e um nó de gerenciamento.

Laing disse que esses projetos podem ser pré-montados e ter uma integração mínima no local, pois as bandejas completas podem ser removidas e substituídas. Em comparação com um servidor corporativo tradicional, ele disse que esse design oferece economia de até 40%, até 15% em ganhos de eficiência de energia e uma melhoria de 50% nos tempos de implantação e serviço. A idéia é permitir que os clientes obtenham esses mesmos benefícios e "avancem a computação em nuvem, assim como transformamos a computação em data center corporativo".

A Microsoft opera mais de 200 serviços de nuvem em todo o mundo, atendendo a mais de 1 bilhão de clientes e mais de 20 milhões de empresas em mais de 90 mercados e atualmente implementa mais de 1 milhão de servidores em seus data centers, disse Laing.

Computação aberta adiciona rede

Um novo projeto é o networking, lançado oficialmente em maio passado. "É meio estranho que o código aberto tenha tido um impacto incrivelmente positivo em software e servidores, data centers e armazenamento, e temos essas ilhas de tecnologia de código aberto criadas com amor, mas o que conecta essas ilhas ainda é uma caixa preta proprietária". Disse Frankovsky. "Decidimos abrir essa caixa preta e oferecer aos clientes flexibilidade e escolha em sua rede e transparência. As mesmas coisas que atraem as pessoas para o software de código aberto é o que está nos atraindo para o hardware de código aberto. É essa curiosidade natural humana sobre como esse trabalho e como ele funcionaria de maneira diferente se eu o desmontasse e o recompusesse da maneira que eu quero?

Em alguns meses, ele disse, o OCP recebeu contribuições da Broadcom, Intel, Mellanox, Big Switch e Cumulus Networks.

Enquanto várias empresas conversaram sobre switches não proprietários de topo de rack, fiquei intrigado ao ver a Dell anunciar um acordo com a Cumulus Networks sob o qual a empresa de hardware revenderia o software de rede baseado em Linux da Cumulus sobre uma rede compatível com OCP hardware.

Outras novidades interessantes de hardware na feira incluíram o anúncio da Seagate de que está contribuindo com sua plataforma de armazenamento Kinetic para o OCP, que permite que os aplicativos se conectem ao armazenamento diretamente pela Ethernet, em vez de passar pelos servidores de armazenamento tradicionais.

Otimização de infraestrutura de pilha completa do Facebook

Dado seu papel fundamental no lançamento do Open Compute, não surpreende que o Facebook seja um dos líderes na adoção da maioria das tecnologias. Jay Parikh, vice-presidente de infraestrutura do Facebook, fez uma apresentação sobre "por que tudo o que o Facebook está fazendo com infraestrutura realmente importa". No começo, a equipe de infraestrutura do Facebook se concentrava em manter as coisas funcionando, disse Parikh. Mas, à medida que crescia, a equipe rapidamente alcançou os limites de hardware e software. Eles tiveram algumas "falhas espetaculares", disse ele, mas no processo aprenderam uma coisa básica: em escala, todos os seus problemas são ampliados.

Ao longo do caminho, eles criaram um novo design de servidor que era mais econômico e eficiente em termos de energia e facilitou o gerenciamento e o reparo de servidores. Hoje, o Facebook possui um data center personalizado com racks personalizados, servidores de computação e armazenamento e rede.

"Com o tempo, fomos forçados a assumir o controle de cada parte da pilha porque tivemos que acompanhar o crescimento", disse Parikh. Ele falou sobre o conceito de "otimização da infraestrutura de pilha completa", incluindo software, rede, servidores e armazenamento. Agora a empresa usa apenas hardware Open Compute Project. "Na verdade, estamos economizando uma tonelada de dinheiro", disse ele. Nos últimos três anos, a otimização de pilha cheia economizou mais de US $ 1, 2 bilhão no Facebook.

Parikh então atualizou o armazenamento a frio do Facebook. Ele disse que a primeira instalação de armazenamento a frio da empresa, com capacidade de 30 petabytes, entrou em operação e uma segunda estará disponível em breve, elevando a capacidade total de armazenamento para "mais de 100 petabytes" nos próximos meses. Cada instalação foi projetada para armazenar no máximo três exabytes, para que haja muito espaço para crescimento.

Pela primeira vez, Parikh mostrou um protótipo do servidor de armazenamento do Facebook usando discos Blu-ray (uma ideia sobre a qual a empresa falou na cúpula do ano passado). O servidor do gabinete possui 10.000 discos Blu-ray para um total de 1 petabyte de armazenamento, e o Facebook planeja aumentar a densidade para 5 petabytes por rack. Comparados ao atual sistema de armazenamento a frio baseado em disco rígido, os servidores Blu-ray poderiam reduzir pela metade os custos e reduzir o uso de energia em 80%, disse Parikh. O Facebook planeja testar um sistema de produção ainda este ano e usaria os servidores Blu-ray para armazenamento a frio de fotos e vídeos de usuários raramente acessados.

Computação aberta e empresas menores

Uma das coisas que mais me intrigou na cúpula foi a indicação de que não foram apenas as empresas em escala de nuvem como Facebook, Rackspace e Microsoft que adotaram o conceito. Em vez disso, Frankovsky apontou que grandes clientes corporativos, como Bloomberg, Fidelity e Goldman Sachs, estavam no processo de implantação do Open Compute.

É interessante que agora existem mais maneiras de usar componentes de rack padrão de 19 polegadas com um contêiner de Rack Aberto de 21 polegadas e vice-versa. Por exemplo, Frankovsky apontou que a Fidelity veio com um rack de ponte aberta para um rack EIA padrão em um rack aberto. A Hyve Solutions pegou algumas placas de sistema Open Compute e as reembalou em bandejas padrão de 19 polegadas e contribuiu com o design de volta à fundação.

Em um painel de discussão, Marc Andreessen, co-fundador e sócio geral da Andreessen Horowitz, e Andy Bechtolsheim, fundador, diretor de desenvolvimento e presidente da Arista Networks, conversaram sobre como a tendência para data centers mais baratos está mudando os negócios.

Andreessen disse que agora existe uma oportunidade radical de combinar software e hardware de código aberto em alto volume para reduzir significativamente o custo dos sistemas e fornecer serviços baseados em nuvem em áreas como assistência médica e educação. Novas empresas podem rodar quase inteiramente na nuvem; portanto, US $ 500.000 agora compram uma startup dois anos de pista para lançar um produto. Embora o Facebook (Andreessen esteja no conselho) agora tenha um grande orçamento de capital, disse ele, se existisse em 1999, seria necessário um orçamento de capital 50 a 100 vezes maior do que é agora, talvez gastando US $ 100 bilhões por ano em capital equipamento, o que é impossível. O desenvolvimento de hardware de menor custo e maior volume é o que torna possíveis serviços como o Facebook ou o Google. Se você projetar mais dez anos, ele disse, os serviços que serão possíveis serão surpreendentes.

"Todo o crescimento está na nuvem", disse Bechtolsheim, com os gastos tradicionais de TI em níveis baixos ou em declínio. A Arista Networks está desenvolvendo equipamentos de rede que atendem à necessidade desses data centers em escala de nuvem. Ele disse que faz muito sentido padronizar o hardware de rede. Até o projeto Open Compute, segundo Bechtolsheim, o setor nunca teve um fórum para inovação aberta e colaborativa de hardware. Agora, embora ainda existam algumas empresas fabricando seus próprios chips, ele acredita que esse é um modelo legado. O problema das redes é que você precisa de uma pilha de software que realmente funcione. O hardware é fácil, o software é difícil, ele disse, e é por isso que a Arista tem uma equipe de software muito maior.

Bechtolsheim disse que a chegada de computação de 64 bits e SoCs de ARM com frequências mais altas (pelo menos 2 GHz) é o que tornará o ARM viável no data center. É provável que aconteça quando fizer sentido, disse ele. Ele também disse que "em defesa da Intel", ele fez um trabalho notável ao alavancar sua tecnologia de processo para fornecer processadores de corte mais econômicos e com menor consumo de energia. A Intel é um concorrente formidável aqui e você precisa de competições para manter a inovação, disse ele. Na atual taxa de progresso, o data center que custa US $ 1 bilhão hoje custará apenas US $ 10.000 em uma década. Isso permitirá a próxima geração de aplicativos.

Para ajudar a tornar os produtos Open Compute mais amplamente aceitos, Frankovsky anunciou um tipo diferente de licenciamento de tecnologia que é mais parecido com a GPL, para que quaisquer trabalhos derivados sejam devolvidos à fundação, bem como a certificação de hardware Open Compute usando novos laboratórios em Taiwan e na China. Universidade do Texas em San Antonio.