Lar O negócio Noções básicas de big data: como criar um plano de governança de dados

Noções básicas de big data: como criar um plano de governança de dados

Vídeo: Ciência de dados: como é criar o primeiro projeto de Data Science - TecMundo (Novembro 2024)

Vídeo: Ciência de dados: como é criar o primeiro projeto de Data Science - TecMundo (Novembro 2024)
Anonim

Escrevemos muito sobre o papel dos dados nas empresas modernas. Desde startups e pequenas e médias empresas (SMBs) até grandes empresas, insights e análises de dados estão mais acessíveis para empresas de todos os tamanhos do que nunca. Isso se deve, em parte, ao aumento das ferramentas de business intelligence (BI) de autoatendimento e de visualização de dados.

Porém, antes que você possa empregar ferramentas de BI ou executar análises preditivas em um conjunto de dados, há vários fatores a serem esquecidos. Começa com a simples compreensão do que é Big Data, o que não é (dica: não é uma bola de cristal) e como gerenciar o armazenamento, organização, permissões e segurança de dados na arquitetura de dados da sua empresa. É aqui que entra a governança de dados. Os processos pelos quais você assegura a governança dentro de uma empresa diferem dependendo de com quem conversar. Mas, em sua essência, a governança de dados trata de confiança e responsabilidade, combinada com práticas recomendadas abrangentes de segurança de dados.

Conversei com a Hortonworks e a MapR, dois dos maiores fornecedores corporativos de Hadoop do mercado. Scott Gnau, diretor de tecnologia da Hortonworks e Jack Norris, vice-presidente sênior de dados e aplicativos da MapR, explicaram cada um o que significa governança de dados para suas organizações. Eles discutiram como enfrentar o complexo desafio de garantir a governança de dados nas arquiteturas complexas de dados e hierarquias organizacionais de uma grande empresa.

O que exatamente é Governança de dados e por que precisamos disso?

Governança significa garantir que os dados corporativos sejam autorizados, organizados e permitidos em um banco de dados com o menor número possível de erros, mantendo a privacidade e a segurança. Não é fácil encontrar um equilíbrio, principalmente quando a realidade de onde e como os dados são armazenados e processados ​​está constantemente em fluxo. Norris, da MapR, explicou por que as empresas precisam olhar para a governança de dados de um nível mais alto e se concentrar no maior pipeline de dados em jogo.

"Quando você começa a dimensionar a variedade e a velocidade do Big Data com o qual estamos lidando, você precisa ter controle de dados, mas esse contexto é mais amplo. Quais são os dados que você tem, quem tem acesso a eles e como você está? gerenciando a linhagem desses dados ao longo do tempo? " disse Norris. "Do ponto de vista da governança de dados, você pode ter diferentes estágios dos dados existentes em um sistema que podem ser capturados instantaneamente, para que você possa retornar a qualquer momento do pipeline. Trata-se de criar auditabilidade e controle de acesso na plataforma de dados para criar Certifique-se de que a descoberta e a análise de dados sejam transparentes, seja você um gerente de negócios que esteja analisando conjuntos de dados financeiros ou um cientista de dados que trabalha com dados brutos do upstream"

Fonte: Rimes. Clique na imagem para visualização completa.

O Gnau da Hortonworks entrou em um ponto semelhante. Esteja você lidando com um armazém de dados ou uma arquitetura de data lake, a governança de dados trata de equilibrar forças opostas. Trata-se de acesso irrestrito a dados para impulsionar a inovação e obter insights, além de permissões e privacidade granulares para proteger simultaneamente esses dados de ponta a ponta.

"Compare e contraste o velho mundo da governança tradicional no espaço de dados; foi um pouco mais fácil", disse Gnau. "Os dados costumavam ser bem definidos por função ou aplicativo. No novo mundo, você obtém mais valor quando os cientistas de dados têm acesso ao máximo de dados possível, e achar esse meio feliz é muito importante.

"Está impulsionando um novo paradigma na maneira como você precisa abordar a governança", acrescentou Gnau. "Neste novo mundo, considero tópicos de governança e segurança que precisam ser cobertos juntos. Muitas empresas ainda estão lutando para mudar isso para permitir que seus cientistas de dados sejam eficazes em encontrar esses novos casos de uso enquanto, ao mesmo tempo,, entendendo como lidar com segurança, privacidade, governança - tudo o que é importante do ponto de vista da linha de fundo e também do ponto de vista da reputação da empresa ".

Como um plano de governança de dados corporativos deve abranger e satisfazer todas essas forças opostas? Ao abordar cada requisito metodicamente, um passo de cada vez.

Como criar um plano de governança de dados

Hortonworks, MapR e Cloudera são os três maiores players independentes no espaço Hadoop. As empresas têm suas próprias esferas de influência quando se trata de governança de dados. O MapR divulgou vários documentos técnicos sobre o assunto e construiu a governança de dados em toda a sua Converged Data Platform, enquanto a Hortonworks possui sua própria solução de segurança e governança de dados e co-fundou a Data Governance Initiative (DGI) em 2015. Isso levou à abertura projeto Apache Atlas de origem que fornece uma estrutura de governança de dados aberta para o Hadoop.

Mas quando se trata de como cada fornecedor cria estratégias abrangentes de governança e segurança de dados, Gnau e Norris falaram de maneira semelhante. A seguir, são apresentadas as etapas combinadas que o Hortonworks e o MapR recomendam que as empresas tenham em mente ao criar um plano de controle de dados.

The Big One: acesso e autorização granulares de dados

Ambas as empresas concordam que você não pode ter uma governança de dados eficaz sem controles granulares. O MapR realiza isso principalmente através das Expressões de Controle de Acesso (ACEs). Como Norris explicou, as ACEs usam o agrupamento e a lógica booleana para controlar o acesso e a autorização flexíveis de dados, com permissões baseadas em funções e configurações de visibilidade.

Ele disse para pensar nisso como um modelo do Gartner. No eixo Y, na extremidade inferior, há governança estrita e baixa agilidade, e no eixo X, na extremidade superior, há maior agilidade e menos governança.

"No nível baixo, você protege os dados confidenciais ofuscando-os. No topo, você tem contratos confidenciais para cientistas de dados e analistas de BI", disse Norris. "Costumamos fazer isso com recursos de mascaramento e visões diferentes, onde você bloqueia os dados brutos na parte inferior o máximo possível e gradualmente fornece mais acesso até que, na extremidade superior, você esteja dando aos administradores uma visibilidade mais ampla. Mas como você fornece acesso às pessoas certas?

"Se você olhar para uma lista de controle de acesso hoje, dirá algo como 'todo mundo em engenharia pode acessar isso'", acrescentou Norris. "Mas se você deseja que alguns diretores selecionados de um projeto na área de TI tenham acesso ou todos, exceto uma pessoa, é necessário criar um grupo especial. É uma maneira excessivamente complicada e complicada de analisar o acesso".

É aí que concede direitos de acesso a diferentes níveis e grupos, de acordo com Norris. "Combinamos ACEs com as várias maneiras pelas quais você pode acessar dados - por meio de arquivos, tabelas, fluxos etc. - e implementamos visualizações sem cópias separadas dos dados. Portanto, fornecemos visualizações nos mesmos dados brutos e nas visualizações pode ter diferentes níveis de acesso. Isso oferece uma segurança mais integrada e mais direta ".

O Hortonworks lida com acesso granular de maneira semelhante. Ao integrar o Apache Atlas para governança e o Apache Ranger, Gnau disse que a empresa lida com a autorização em nível empresarial através de um único painel de vidro. A chave, disse ele, é a capacidade de conceder contextualmente o acesso ao banco de dados e a tags específicas de metadados usando políticas baseadas em tags.

"Quando alguém está no banco de dados, trata-se de guiá-lo através dos dados aos quais eles devem ter acesso relevante", disse Gnau. "As políticas de segurança da Ranger no nível de objeto, de baixa granularidade e em todos os lugares podem lidar com isso. Vincular essa segurança à governança é onde as coisas ficam realmente interessantes.

"Para expandir em grandes organizações, você precisa integrar essas funções à governança e à marcação de metadados", acrescentou Gnau. "Se eu estiver entrando em Cingapura, talvez haja regras diferentes baseadas nas leis de privacidade locais ou na estratégia corporativa. Depois que uma empresa define, define e entende essas regras de uma perspectiva holística de cima para baixo, você pode separar o acesso com base em conjuntos de regras específicos ao executar tudo dentro da plataforma principal ".

Fonte: IBM Big Data & Analytics Hub. Clique na imagem para visualização completa.

2. Segurança de perímetro, proteção de dados e autenticação integrada

A governança não acontece sem a segurança do endpoint. Gnau disse que é importante criar um bom perímetro e firewall em torno dos dados que se integram aos sistemas e padrões de autenticação existentes. Norris concordou que, quando se trata de autenticação, é importante que as empresas sincronizem com sistemas testados e testados.

"Na autenticação, trata-se de como você se integra aos serviços de diretório LDAP, Active Directory e de terceiros", disse Norris. "Também apoiamos o nome de usuário e as senhas do Kerberos. O importante não é criar toda uma infraestrutura separada, mas é como você se integra à estrutura existente e utiliza sistemas como o Kerberos".

3. Criptografia e tokenização de dados

A próxima etapa após proteger seu perímetro e autenticar todo o acesso granular aos dados que você está concedendo: verifique se os arquivos e as informações de identificação pessoal (PII) estão criptografadas e tokenizadas de ponta a ponta por meio do seu pipeline de dados. Gnau discutiu como o Hortonworks protege os dados de PII.

"Depois de ultrapassar o perímetro e ter acesso ao sistema, é possível proteger os dados de PII é extremamente importante", disse Gnau. "Você precisa criptografar e tokenizar esses dados para que, independentemente de quem tenha acesso, eles possam executar as análises de que precisam sem expor nenhum desses dados de PII ao longo da linha".

Quanto à maneira como você acessa com segurança os dados criptografados em movimento e em repouso, o Norris do MapR explicou que é importante ter em mente casos de uso, como backup e recuperação de desastre (DR). Ele discutiu um conceito dos volumes lógicos do MapR, que podem aplicar políticas de governança a um crescente cluster de arquivos e diretórios.

"No nível mais baixo, o MapR arquitetou a replicação da WAN para DR, e instantâneos consistentes com o tempo em todos os dados que podem ser configurados em diferentes frequências por diretório ou volume", disse Norris. "É mais amplo do que apenas governança de dados. Você pode ter um cluster físico com diretórios e, em seguida, o conceito de volume lógico é uma unidade de gerenciamento realmente interessante e uma maneira de agrupar coisas enquanto controla a proteção e a frequência dos dados. É outra seta nos dados do administrador de TI aljava de governança ".

4. Auditoria e análise constantes

Olhando para o quadro mais amplo de governança, tanto o Hortonworks quanto o MapR disseram que a estratégia não funciona sem auditoria. Esse nível de vsibilidade e responsabilidade em todas as etapas do processo é o que permite à TI realmente "governar" os dados, em vez de simplesmente definir políticas e controles de acesso e esperar o melhor. É também como as empresas podem manter suas estratégias atualizadas em um ambiente em que a maneira como vemos os dados e as tecnologias que usamos para gerenciar e analisar estão mudando todos os dias.

"A parte final de uma estratégia moderna de governança é o registro e o rastreamento", disse Gnau. "Estamos na infância do Big Data e da IoT, e é fundamental poder rastrear o acesso e reconhecer padrões nos dados para que, conforme a estratégia precise ser atualizada, estamos à frente da curva".

Norris disse que a auditoria e a análise podem ser tão simples quanto rastrear arquivos JSON (JavaScript Object Notation). Nem todos os dados valerão a pena rastrear e analisar, mas sua empresa nunca saberá quais - até você identificar um insight que muda o jogo ou ocorrer uma crise e precisar executar uma trilha de auditoria.

"Todo arquivo de log JSON é aberto para análise e temos o Apache Drill para consultar arquivos JSON com os esquemas, portanto, não é uma etapa manual de TI configurar a análise de metadados", disse Norris. "Quando você inclui todos os eventos de acesso a dados e todas as ações administrativas, há uma grande variedade de análises possíveis".

5. Uma arquitetura de dados unificada

Por fim, o oficial de tecnologia ou administrador de TI que supervisiona uma estratégia de governança de dados corporativos deve pensar nas especificidades de acesso granular, autenticação, segurança, criptografia e auditoria. Mas o oficial de tecnologia ou o administrador de TI não deve parar por aí; em vez disso, essa pessoa também deve pensar em como cada um desses componentes alimenta sua arquitetura de dados maior. Ele também deve pensar em como essa infraestrutura precisa ser escalável e segura - desde a coleta e o armazenamento de dados até o BI, análises e serviços de terceiros. Gnau disse que a governança de dados tem tanto a ver com repensar a estratégia e a execução quanto com a própria tecnologia.

" Vai além de um único painel de vidro ou de uma coleção de regras de segurança", disse Gnau. "É uma arquitetura única em que você cria essas funções e elas são sincronizadas em toda a plataforma e em todas as ferramentas que você traz para ela. A beleza da infraestrutura governada com segurança é a agilidade com a qual novos métodos são criados. Em cada nível da plataforma, ou mesmo em Em um ambiente de nuvem híbrida, você tem um único ponto de referência para entender como implementou suas regras. Todos os dados passam por essa camada de segurança e governança."

Noções básicas de big data: como criar um plano de governança de dados