Índice:
Vídeo: O que é BANCO DE DADOS e porque INTERESSA APRENDER isso? (Novembro 2024)
Dados e inteligência de negócios (BI) são dois lados da mesma moeda. Os avanços no armazenamento, processamento e análise democratizaram os dados até o ponto em que você não precisa ser um profissional de banco de dados ou cientista de dados para trabalhar com conjuntos de dados massivos e obter informações. Ainda existe uma curva de aprendizado, mas as ferramentas de BI e de visualização de dados de autoatendimento estão redefinindo a maneira como as empresas aproveitam todos os dados que coletam em análises acionáveis. No entanto, existe uma diferença entre uma empresa de BI ou de banco de dados que comercializa análises avançadas e um banco de dados de inteligência artificial (AI) desenvolvido especificamente para o treinamento de machine learning (ML) e modelos de aprendizado profundo.
Os algoritmos de ML estão sendo incorporados na estrutura de grande parte dos softwares atuais. As experiências do consumidor estão se fundindo com a IA por meio de assistentes virtuais e, no software de negócios, existem exemplos como o Salesforce Einstein que atuam como uma camada inteligente sob todo o portfólio de gerenciamento de relacionamento com clientes (CRM) da empresa. Gigantes da tecnologia, incluindo Google e Microsoft, estão impulsionando ainda mais o nosso futuro inteligente, não apenas com pesquisas, mas reescrevendo como a tecnologia deles funciona desde o início com a IA.
Um dos desafios da máquina de treinamento e dos modelos de aprendizado profundo é o grande volume de dados e o poder de processamento necessários para treinar uma rede neural, por exemplo, no reconhecimento complexo de padrões em campos como classificação de imagem ou processamento de linguagem natural (PNL). Portanto, os bancos de dados de IA estão começando a aparecer no mercado como uma maneira de otimizar o processo de aprendizado e treinamento de IA para empresas. Conversamos com o provedor de banco de dados relacional acelerado por GPU Kinetica, que construiu seu próprio banco de dados de IA, e com Pam Baker, especialista em BI e banco de dados da PCMag, para desmistificar o que é um banco de dados de IA e como ele funciona em comparação com os bancos de dados tradicionais. Mais importante, pedimos a ajuda deles para entender o hype e o discurso de marketing para determinar se essa tecnologia emergente tem ou não valor real para os negócios.
O que são bancos de dados de IA?
A natureza em rápida mudança do espaço da IA pode dificultar o estabelecimento de terminologia. Você costuma ouvir termos como ML, aprendizado profundo e IA usados de forma intercambiável quando, de fato, ainda são técnicas em desenvolvimento sob o guarda-chuva maior da IA. Como tal, Baker disse que existem duas definições muito diferentes do que um banco de dados de IA depende de quem você fala: uma prática e a outra mais intransigente.
"Há um tipo de consenso no setor de que um banco de dados de IA seria totalmente compatível com consultas de linguagem natural. A interface do usuário seria tal que você não precisaria confiar nos termos de pesquisa e frases-chave para encontrar o informações necessárias, permitindo que o usuário convoque conjuntos de dados com a PNL ", disse Baker. "Você poderia argumentar muito limitadamente que o IBM Watson pode fazer consultas de linguagem natural ao sistema, mas você já deve estar conectado aos dados e escolher os dados por conta própria. Portanto, neste momento, essa definição é um exagero".
A definição mais prática, e o assunto desse explicador, está basicamente usando um banco de dados criado especificamente para acelerar o treinamento do modelo de ML. Várias empresas de tecnologia já estão desenvolvendo chips de IA dedicados para aliviar a carga pesada de processamento em novos produtos de hardware, à medida que os fornecedores lançam mais recursos baseados em IA que requerem energia computacional significativa. No lado dos dados, o uso de um banco de dados de IA pode ajudá-lo a organizar melhor os desafios de volume, velocidade e governança e gerenciamento de dados complexos associados ao treinamento de modelos de ML e deep learning para economizar tempo e otimizar recursos.
Crédito da imagem: Todd Jaquith no Futurism.com. Clique para expandir o infográfico completo
"No momento, existem muitos esforços para acelerar o treinamento de ML através de várias táticas diferentes", explicou Baker. "Uma é separar a infraestrutura dos pesquisadores de IA que fazem a codificação, para que as funções automatizadas manejem a infraestrutura e treinem o modelo de ML. Portanto, em vez de gastar algo como três meses, você pode esperar 30 dias ou 30 minutos."
O Kinetica divide essa ideia em uma plataforma de banco de dados integrada otimizada para modelagem de ML e deep learning. O banco de dados de IA combina armazenamento de dados, análises avançadas e visualizações em um banco de dados na memória. Mate Radalj, vice-presidente e principal engenheiro de software do Advanced Technology Group da Kinetica, explicou que um banco de dados de IA deve ser capaz de ingerir, explorar, analisar e visualizar simultaneamente dados complexos e em movimento rápido em milissegundos. O objetivo é reduzir custos, gerar novas receitas e integrar modelos de ML para que as empresas possam tomar decisões mais eficientes e orientadas por dados.
"Um banco de dados de IA é um subconjunto de um banco de dados geral", disse Radalj. "No momento, os bancos de dados de IA são muito populares. Mas muitas soluções usam componentes distribuídos. Spark, MapReduce e HDFS estão sempre girando para frente e para trás, em vez de na memória. Eles não têm a confluência de fatores como nosso banco de dados, que foi construído a partir do zero com CPUs e GPUs firmemente integradas em uma única plataforma.O benefício de alto nível para nós é o provisionamento mais rápido e uma menor pegada de hardware do treinamento baseado em modelos, com uma rápida recuperação e análises integradas à mesma plataforma."
Como um banco de dados de IA funciona
Existem vários exemplos de bancos de dados de IA na prática. O Microsoft Batch AI oferece infraestrutura baseada em nuvem para o treinamento de modelos de aprendizado profundo e ML em execução nas GPUs do Microsoft Azure. A empresa também possui seu produto Azure Data Lake para facilitar o processamento e a análise de dados por empresas e cientistas de dados em uma arquitetura distribuída.
Outro exemplo é a abordagem AutoML do Google, que fundamentalmente está reprojetando a maneira como os modelos de ML são treinados. O Google AutoML automatiza o design do modelo de ML para gerar novas arquiteturas de rede neural com base em conjuntos de dados específicos e, em seguida, testar e iterar milhares de vezes para codificar sistemas melhores. De fato, a IA do Google agora pode criar modelos melhores que os pesquisadores humanos.
"Veja o Google AutoML: ML escrevendo código ML para que você nem precise de pessoas", disse Baker. "Isso dá uma idéia da diferença extrema que existe no que os fornecedores estão fazendo. Alguns estão tentando passar análises avançadas como ML - e não é. E outros estão fazendo ML em um nível tão avançado que está além do que a maioria as empresas podem compreender no momento ".
Depois, há Kinetica. A startup com sede em San Francisco, que levantou US $ 63 milhões em financiamento de capital de risco (VC), fornece um banco de dados SQL de alto desempenho otimizado para rápida ingestão e análise de dados. Kinetica é o que Radalj descreveu como um banco de dados distribuído em massa e processamento paralelo (MPP) e plataforma de computação na qual cada nó apresenta dados co-localizados na memória, CPU e GPU.
O que diferencia um banco de dados de IA de um banco de dados tradicional, explicou Radalj, se resume a três elementos principais:
- Ingestão acelerada de dados,
- Co-localidade dos dados na memória (processamento paralelo nos nós do banco de dados) e
- Uma plataforma comum para cientistas de dados, engenheiros de software e administradores de banco de dados para iterar e testar modelos mais rapidamente e aplicar resultados diretamente à análise.
Para todos os especialistas em treinamento que não são de banco de dados e de modelos de IA que leem isso, Radalj detalhou cada um desses três elementos principais e explicou como o banco de dados de IA se vincula ao valor tangível dos negócios. A disponibilidade e a ingestão de dados são essenciais, disse ele, porque a capacidade de processar dados de streaming em tempo real permite que as empresas tomem medidas rápidas com base em informações baseadas em IA.
"Temos um cliente de varejo que deseja acompanhar as taxas de venda por loja, a cada cinco minutos", disse Radalj. "Queríamos usar a IA para prever, com base nas últimas horas de dados históricos, se eles deveriam reabastecer o inventário e otimizar esse processo. Mas, para fazer esse reabastecimento acionado por máquina, é necessário o suporte de 600 a 1200 consultas por segundo. Nós é um banco de dados SQL e um banco de dados de IA, para que possamos ingerir dados nessa taxa. O cumprimento dessa missão comercial resultou em um aplicativo que gerou mais ROI."
Baker concordou que o ML requer uma grande quantidade de dados, portanto, ingeri-lo rapidamente seria muito importante para um banco de dados de IA. O segundo fator, o conceito de "co-localidade de dados na memória", requer um pouco mais de explicação. Um banco de dados na memória armazena dados na memória principal e não no armazenamento em disco separado. Isso é feito para processar consultas mais rapidamente, principalmente em bancos de dados de análise e BI. Por co-localidade, Radalj explicou que o Kinetica não separa nós de computação da CPU e GPU versus nós de armazenamento.
Como resultado, o banco de dados de IA oferece suporte ao processamento paralelo - que imita a capacidade do cérebro humano de processar vários estímulos - enquanto também permanece distribuído em uma infraestrutura de banco de dados escalável. Isso evita a maior pegada de hardware, resultante do que Radalj chamou de "envio de dados" ou a necessidade de enviar e receber dados entre os diferentes componentes do banco de dados.
"Algumas soluções usam um orquestrador como o IBM Symphony para agendar o trabalho em vários componentes, enquanto o Kinetica enfatiza o envio de funções contra recursos co-localizados, com otimização avançada para minimizar o envio de dados", disse Radalj. "Essa co-localidade se presta a desempenho e taxa de transferência superiores, especialmente para consultas pesadas altamente simultâneas em grandes conjuntos de dados".
Em termos de hardware de banco de dados, a Kinetica é uma parceria com a Nvidia, que tem uma linha crescente de GPUs de IA e está explorando oportunidades com a Intel. Radalj também disse que a empresa está de olho no hardware de IA emergente e na infraestrutura baseada em nuvem, como as Tensor Processing Units (TPUs) do Google.
Finalmente, há a ideia de um processo de treinamento de modelo unificado. Um banco de dados de IA é eficaz apenas se esses benefícios de uma ingestão e processamento mais rápidos atenderem a objetivos maiores e orientados aos negócios para o ML da empresa e os esforços de aprendizado profundo. Radalj refere-se ao banco de dados de IA do Kinetica como uma "plataforma de pipeline de modelos" que executa a hospedagem de modelos orientada por ciência de dados.
Tudo isso se presta a testes e iterações mais rápidos para desenvolver modelos de ML mais precisos. Sobre esse ponto, Baker disse que colaborar de maneira unificada pode ajudar todos os engenheiros e pesquisadores que trabalham para treinar um modelo de ML ou Deep Learning iterar mais rapidamente, combinando o que funciona, em vez de reinventar continuamente todas as etapas do processo de treinamento. Radalj disse que o objetivo é criar um fluxo de trabalho no qual a ingestão, transmissão e consulta em lote mais rápidas gerem resultados de modelo que podem ser aplicados imediatamente ao BI.
"Cientistas de dados, engenheiros de software e administradores de bancos de dados têm uma plataforma única onde o trabalho pode ser delineado de maneira limpa na própria ciência de dados, na criação de programas de software e nos modelos e consultas de dados SQL", disse Radalj. "As pessoas trabalham de maneira mais limpa nesses vários domínios quando é uma plataforma comum. O objetivo mais frequente da execução de ML e aprendizado profundo é que você deseja usar os resultados disso - os coeficientes e variáveis - em conjunto com o analytics e use a saída para coisas como pontuação ou prever algo útil ".
Hype ou realidade?
O valor final de um banco de dados de IA, pelo menos da maneira que o Kinetica o define, é otimizar os recursos de computação e banco de dados. Isso, por sua vez, permite criar melhores modelos de ML e deep learning, treiná-los de maneira mais rápida e eficiente e manter uma linha direta de como essa IA será aplicada aos seus negócios.
Radalj deu o exemplo de uma empresa de gerenciamento de frotas ou caminhões. Nesse caso, um banco de dados de IA pode processar fluxos maciços de informações em tempo real a partir de uma frota de veículos. Em seguida, modelando esses dados geoespaciais e combinando-os com análises, o banco de dados poderia redirecionar dinamicamente caminhões e otimizar rotas.
"É mais fácil provisionar, prototipar e testar rapidamente. A palavra 'modelagem' é lançada na IA, mas trata-se de percorrer diferentes abordagens - quanto mais dados, melhor - executá-las várias vezes, testando, comparando e apresentando os melhores modelos ", disse Radalj. "As redes neurais ganharam vida porque há mais dados do que nunca. E estamos aprendendo a poder calcular através deles".
Por fim, o banco de dados co-localizado e a plataforma de pipeline de modelos da Kinetica são apenas uma abordagem em um espaço que pode significar muitas coisas diferentes, dependendo de quem você perguntar. Baker disse que o desafio para o comprador em um mercado que ainda está evoluindo e experimental é descobrir exatamente o que um fornecedor de banco de dados de IA está lançando.
"Como conceito de negócios, aprendizado profundo, ML, e tudo isso é um conceito sólido. O que estamos elaborando são questões de tecnologia que podem ser solucionadas, mesmo que ainda não as tenhamos resolvido", disse Baker. "Isso não quer dizer que este é um espaço maduro, porque definitivamente não é. Eu diria 'cuidado com o comprador', porque algo que o ML pode ou não ser. Pode ser apenas uma análise avançada da variedade de jardins".
Quanto a saber se os bancos de dados de IA são exageros no momento ou se representam uma tendência importante para onde os negócios estão indo, Baker disse que é um pouco dos dois. Ela disse que o Big Data, como termo de marketing, está fora de moda agora. Baker disse que agora existe alguma confusão de mercado entre análises avançadas baseadas em dados e verdadeiros algoritmos de ML e deep learning. Independentemente disso, esteja você falando de um banco de dados para modelagem de ML ou de IAs autoconscientes sonhadas pela cultura pop, tudo começa e termina com dados.
"Os dados serão usados nos negócios até o tempo acabar; é tão central para fazer negócios", disse Baker. "Quando você está falando em termos de ficção científica, a IA é uma inteligência auto-realizada. É quando você começa a falar sobre singularidades e robôs dominando o mundo. Se isso acontece ou não, eu não sei. Vou embora isso para Stephen Hawking ".