Lar O negócio Lagos de dados, explicados

Lagos de dados, explicados

Vídeo: What is a Data Lake? (Novembro 2024)

Vídeo: What is a Data Lake? (Novembro 2024)
Anonim

A revolução do Big Data redefiniu a maneira como as empresas funcionam; os dados sustentam tudo. Não apenas as ferramentas de código aberto, como Apache Hadoop e Spark, tornaram vastas quantidades de dados mais fáceis de coletar, processar e armazenar em tempo real, mas as ferramentas de business intelligence (BI) e de visualização de dados começaram a nos ajudar a raspar a superfície da análise. e transformar esses dados para informar as principais decisões de negócios.

Embora, apesar do quanto a tecnologia de Big Data e BI tenha evoluído, ainda estamos lidando com volumes tão grandes de dados constantemente compostos que encontrar os pontos certos para analisar ainda parece mergulhar em agulhas em um palheiro interminável. A solução? Redesenhe o palheiro.

Digite data lakes, um novo tipo de arquitetura corporativa baseada em nuvem que estrutura dados de uma maneira mais escalável que facilita a experimentação; torna-o mais aberto à exploração e manipulação do que bloqueado em esquemas e silos rígidos. Nasry Angel, pesquisadora de arquitetura corporativa da Forrester Research, explicou por que as empresas estão adotando arquiteturas de data lake.

"Parece clichê, mas quando você pensa em um ambiente de dados moderno e eficaz, é muito mais experimental", disse Angel. "Você precisa aprender rápido e falhar rapidamente. No passado, o gerenciamento de dados, especialmente em um armazém, tratava-se de qualidade, até o ponto decimal; garantir que tudo fosse completamente preciso e verdadeiro. Isso é chamado de perseguir um único verdade e, em seguida, gere um relatório perfeito em pixels e exploda-o para 5.000 usuários.

"Hoje em dia, é um processo mais científico. Você entra com uma hipótese sobre os dados que deseja testar e deseja poder brincar com eles, misturar e combinar, para experimentar coisas diferentes antes de produzir algo."

O que há em um Data Lake?

Um data lake é um repositório de armazenamento. Porém, diferentemente de um data warehouse ou "data mart", Angel explicou que os lagos de dados são distribuídos por vários nós, e não no ambiente fixo e estruturado de um data warehouse que depende de esquemas (veja infográfico abaixo).

"Um data lake permite aplicar um esquema quando você grava os dados versus um data warehouse que exige que você faça um esquema na leitura. Portanto, essencialmente, um data warehouse exige que você modele os dados antes de entender seu contexto, o que não realmente não faz sentido ", disse Angel.

Fonte: JustOne Database, Inc. (Clique no gráfico acima para ver em tela cheia.)

"Normalmente, em um armazém, você tem profissionais de TI que apresentam os melhores modelos de dados e não são os usuários finais dos dados. Você pode ver rapidamente como isso prejudica a produtividade e o valor comercial", acrescentou.. "Em última análise, você e os usuários corporativos precisam ser os que tomam decisões sobre a estrutura dos dados e, em um data lake, você pode primeiro explorar e descobrir o que existe e, em seguida, descobrir um esquema para melhor organizá-lo".

Os lagos de dados geralmente são criados no Hadoop, e as distribuições corporativas do Hadoop, como o Hortonworks e o MapR, oferecem arquiteturas de data lake. As empresas também podem criar lagos de dados usando nuvens de Infraestrutura como Serviço (IaaS), incluindo Amazon Web Services (AWS) e Microsoft Azure. O Elastic Compute Cloud (EC2) da Amazon oferece suporte a lagos de dados, enquanto a Microsoft possui uma plataforma dedicada do Azure Data Lake para armazenar e analisar dados em tempo real. Angel disse que os lagos de dados estão amadurecendo ao ponto do espaço de Big Data em que as empresas podem começar a investir neles com razoável confiança.

"Alguns anos atrás, o Hadoop estava com toda a raiva. Agora estamos chegando a um ponto em que o Hadoop é comoditizado", disse Angel. "A questão não é se o Hadoop, mas quando e o que você fará com ele. Que tipos de aplicativos você criará no Hadoop depois de colocar os dados em um local comum como um data lake? Neste ponto, trata-se de usar os dados para desenvolver aplicativos para atender às suas necessidades comerciais específicas ".

Construindo no topo de um reservatório de dados

A parte mais interessante sobre o Big Data é toda a possibilidade que ele abre. Depois de configurar um data lake para jogar e experimentar diferentes combinações de dados e resultados de negócios, você pode começar a colocar em camadas técnicas de análise inovadoras.

Os algoritmos de aprendizado de máquina (ML) já estão se tornando parte da estrutura da infraestrutura de nuvem, e os pesquisadores estão aprimorando continuamente técnicas de aprendizado profundo e redes neurais para treinar máquinas e sistemas de dados para reconhecer padrões complexos. A análise preditiva está sendo incorporada em mais e mais ferramentas de dados e plataformas corporativas, usadas para tudo, desde pontuação preditiva e segmentação automatizada para gerenciamento de relacionamento com clientes (CRM) até identificação de tendências do mercado financeiro e captura preventiva de falhas mecânicas em máquinas.

Tudo isso acontece em qualquer armazenamento de dados que sua empresa esteja alimentando e dimensionando de acordo com suas necessidades. Angel falou sobre alguns dos casos de uso do mundo real nos quais ele viu lagos de dados mudarem o funcionamento das organizações.

"Eu estava trabalhando com uma editora que possui um portfólio de revistas diferentes - elas têm uma publicação para advogados, outra para contadores, outra para consultores etc. - e cada publicação tinha seu próprio data warehouse. Efetivamente, cada publicação tinha seu próprio silo ", explicou Angel.

"Então, extraímos todos os dados de um armazém e os colocamos em um data lake, e o data lake permitiu que eles vissem os silos. Eles foram capazes de explorar os dados e fazer a descoberta de dados, e perceberam que em todas essas publicações diferentes, os clientes de todas as revistas estavam interessados ​​em segurança cibernética. Os leitores de segurança cibernética eram fortes em todos esses diferentes papéis. Então, o que eles fizeram? Eles fizeram da cibersegurança o tema de sua conferência anual ".

Outro exemplo mencionado por Angel é o comércio eletrônico. Outro cliente, um varejista de arte on-line, despejava uma tonelada de informações em um data lake e as usava não apenas como repositório, mas como uma espécie de tela para reunir idéias de negócios. O varejista trouxe dados da transação (pedidos, faturas, pagamentos etc.), dados do fluxo de cliques (sucessão de cliques e páginas de cada visitante do site) e dados do armazém de dados do varejista no lago e os utilizaram em conjunto para combater o carrinho de compras abandono e conversões.

"Você quer construir em cima de um lago de dados e usá-lo para formular insights de negócios complexos", disse Angel. "O varejista de arte conseguiu analisar os dados do fluxo de cliques de um cliente e combinar cliques com perfis de clientes, depois usar dados transacionais para ver o que o cliente comprou no passado e usar essas informações para executar campanhas de email muito específicas. Portanto, se um cliente abandonasse no carrinho, o varejista poderia acompanhar duas horas depois e dizer: 'Vimos que você estava conferindo este Picasso; eis o link, se você quiser vê-lo novamente.'"

Os lagos de dados são universalmente aplicáveis ​​a todos os tipos de casos de uso de negócios. Mas, para um diretor técnico (CTO) ou diretor de segurança da informação (CISO) que está pensando em migrar para a arquitetura, Angel enfatizou que os data warehouses ainda não estão obsoletos, de maneira alguma. Para a maioria das organizações empresariais, esteja você usando um provedor de nuvem ou uma distribuição personalizada do Hadoop, as empresas ainda precisam de ambos.

Os lagos de dados fornecem acesso a insights incomparáveis, removendo os limites dos dados em conformidade com um esquema específico e com um custo total de propriedade muito menor, devido ao uso de armazenamento em nuvem flexível e barato, como a AWS, para aumentar e diminuir o tamanho - enquanto apenas pagando pelo poder de processamento que você realmente usa. A execução de um data warehouse é mais cara e, consequentemente, torna os profissionais de TI mais seletivos sobre quais dados entram e saem. Mas para os dados mais críticos de uma empresa, isso não é uma coisa ruim.

"O data warehouse tem vantagens em termos de segurança e é uma ferramenta muito fácil de controlar a governança de dados", disse Angel. "Então, você ainda deseja manter suas informações mais sensíveis no armazém, o material de missão crítica. Mas, quando se trata de novas oportunidades de negócios e descoberta de informações ocultas, você quer aproveitar um lago de dados".

Lagos de dados, explicados