Lar Recursos Esses advogados querem garantir que nossos dados não desapareçam

Esses advogados querem garantir que nossos dados não desapareçam

2024

Índice:

Olhando para as bibliotecas
Parcerias Público-Privadas
Dados Antigos e o Novo
Recursos:

Vídeo: Lei Geral de Proteção de Dados: Aspectos técnicos e jurídicos de sua implementação. (Novembro 2024)

No final de maio deste ano, exatamente cinco meses após a inauguração do 45º Presidente dos Estados Unidos, um grupo de pessoas preocupadas com a posição do novo governo em relação à ciência e às mudanças climáticas marcou seu próprio aniversário especial.

Não muito longe do campus da Universidade do Norte do Texas, nas planícies ao norte de Dallas, várias dúzias de pessoas se encontraram no Data Rescue Denton para identificar e baixar cópias de conjuntos de dados ambientais e ambientais federais. Essas reuniões no estilo hackathon receberam muita atenção nos dias imediatamente anteriores à inauguração; Denton foi o 50º evento desde janeiro.

Organizando inicialmente a preocupação de que o novo governo pudesse apagar ou obscurecer o clima e outros dados ambientais, os piores temores dos socorristas pareciam estar se realizando quando uma das primeiras ações da Casa Branca de Trump foi excluir páginas de mudanças climáticas de seu site. Então, o Departamento de Agricultura dos EUA, depois de remover os relatórios de inspeção do bem-estar animal de seu site, respondeu a uma solicitação da Lei de Liberdade de Informação da National Geographic com 1.771 páginas de material inteiramente redigido.

Qualquer pessoa pode acessar os mais de 153.000 conjuntos de dados federais através do portal de dados abertos do governo central em data.gov. Mas isso é apenas uma fração dos dados que existem na nebulosa da burocracia do governo, não importa a fração ainda menor que está em um servidor.

"Em torno de 20% das informações do governo são acessíveis pela Web", disse Jim Jacobs, bibliotecário da informação do governo federal da Biblioteca da Universidade de Stanford. "Essa é uma quantidade bastante grande de coisas que não estão disponíveis. Embora as agências tenham seus próprios wikis e sistemas de gerenciamento de conteúdo, a única vez que você descobre algumas delas é se alguém a usa."

Certamente, uma grande quantidade de informações foi realmente capturada e agora reside em servidores não-governamentais. Entre eventos e projetos do Data Refuge, como o rastreamento de final de mandato de 2016, mais de 200 TB de sites e dados governamentais foram arquivados. Mas os organizadores de resgate começaram a perceber que esforços fragmentados para fazer cópias completas de terabytes de dados científicos de agências governamentais não podiam realisticamente ser sustentados a longo prazo - seria como resgatar o Titanic com um dedal.

Portanto, embora o Data Rescue Denton tenha acabado sendo um dos eventos finais organizados desse tipo, o esforço coletivo estimulou uma comunidade mais ampla a trabalhar em conjunto para tornar mais dados do governo detectáveis, compreensíveis e utilizáveis, escreveu Jacobs em um post no blog.

Olhando para as bibliotecas

Na Universidade da Pensilvânia, Bethany Wiggin é diretora do Programa Penn em Humanidades Ambientais, onde ela tem sido central no movimento Data Refuge, o criador dos eventos do Data Rescue. O foco agora mudou, disse ela, para alavancar estruturas nacionais para esforços de longo prazo, em vez de episódios periódicos baseados no local.

"Percebemos as habilidades que estavam surgindo em vários lugares, realizando eventos de dados de resgate, algo que poderia ser escalado", disse Wiggin, particularmente entre as bibliotecas de pesquisa. "Mas todos esses esforços estavam acontecendo antes do lançamento. O poder do Data Refuge foi engrossar essas conexões; catalisar projetos de longa data e de movimento lento; e mostrar como eles são importantes".

Ultimamente, Wiggin tem ajudado a liderar a Libraries + Network, uma parceria emergente de bibliotecas de pesquisa, organizações de bibliotecas e grupos de dados abertos catalisados para expandir o papel tradicional das bibliotecas na preservação do acesso à informação. Os participantes incluem a biblioteca de pesquisa da Stanford University, a California Digital Library e a Mozilla Foundation, com contribuições e colaboração de entidades tão abrangentes quanto os Arquivos Nacionais e os diretores de dados de várias agências federais.

Um projeto, por exemplo, é o LOCKSS ("muitas cópias mantêm as coisas em segurança") que Jacobs coordena há vários anos. É baseado no mesmo princípio de uma rede de bibliotecas de 200 anos conhecida como Programa Federal de Biblioteca Depositária; essas bibliotecas são repositórios oficiais de publicações do Gabinete de Impressão do Governo dos EUA (GPO).

O LOCKSS, por outro lado, é uma versão digital privada desse sistema, que até agora consiste em 36 bibliotecas que coletam publicações do GPO com sua cooperação. É um modelo de como as informações digitais podem ser protegidas contra exclusão ou adulteração por ter ampla dispersão física.

"Você não pode garantir a preservação a menos que tenha controle sobre o conteúdo", afirmou Jacobs. "Parte do que tornou as bibliotecas depositárias importantes e úteis nos últimos 200 anos foi que ninguém no governo poderia editar um documento sem ir a 1.500 bibliotecas e dizer 'Sim, mude esta página aqui'".

O software LOCKSS usa verificações de caches de conteúdo no nível de bits e o compara com o conteúdo de outras bibliotecas, o que Jacobs disse que ajuda a garantir a preservação a longo prazo através do reparo de arquivos degradados.

John Chodacki, outro colaborador da Libraries + Network, é diretor de curadoria da California Digital Library, uma instalação virtual de informações que atende a todos os 10 campi do sistema da Universidade da Califórnia. Trabalhando com o desenvolvedor do Code for Science and Society, Max Ogden, e Philip Ashlock, arquiteto-chefe do data.gov, Chodacki diz que seu foco está no uso do data.gov como uma via de mão dupla.

Eles primeiro demonstraram que o resgate de dados em si poderia ser muito mais eficiente, recolhendo uma cópia do data.gov e colocando-o em um site externo, o datamirror.org, com scripts de monitoramento que verificam se há atualizações. Em seguida, Chodacki e colaboradores também começaram a verificar se conjuntos de dados e metadados contribuídos para o espelho poderiam alimentar os fluxos de trabalho data.gov existentes das agências através de páginas stub no espelho.

De acordo com a ordem executiva de Obama de 2013 que exigia a publicação de dados legíveis por máquina no data.gov, as agências ainda seriam responsáveis pela geração dos registros listados nesse portal; A idéia de Chodacki e Ogden é que conjuntos de dados sugeridos por crowdsourcing simplesmente ajudam a espalhar a carga de trabalho.

"Não precisamos replicar todo o ecossistema", disse Chodacki. "O governo federal e essas agências lidam com dados há muito mais tempo do que se fala em big data, de uma maneira muito mais robusta do que qualquer outra pessoa".

Parcerias Público-Privadas

A questão do custo é óbvia quando se trata de como as agências são capazes de identificar quais conjuntos de dados são mais valiosos para o público, publicando links para seus metadados ou conjuntos de dados reais através do portal do governo. Um relatório do Escritório de Orçamento do Congresso (CBO) para o projeto de Lei de Dados do Governo OPEN atualmente no Senado - que codificaria a ordem executiva de Obama em lei - estima que sua implementação completa custaria US $ 2 milhões entre 2018 e 2021.

Em termos monetários do governo, isso representa essencialmente nenhum aumento real nos gastos, concluiu a CBO.

A eficiência, no entanto, é uma questão diferente, que Ed Kearns, da Administração Nacional Oceânica e Atmosférica, está experimentando junto com parceiros privados, como Amazon Web Services e Google. Kearns, diretor de dados da NOAA, disse que aumentar a disponibilidade pública e o uso dos dados da NOAA é um dos principais objetivos do Projeto Big Data.

As empresas identificam quais conjuntos de dados desejam e o NOAA os repassa sem nenhum custo adicional ao público. Tudo o que a NOAA tem está em cima da mesa, disse Kearns, mas o objetivo da parceria de cinco anos não é disponibilizar todos os dados da NOAA na nuvem - apenas pedaços estratégicos.

A hospedagem de tais conjuntos de dados nos serviços em nuvem de empresas privadas oferece várias vantagens ao acesso ao FTP no estilo dos anos 80, que ainda é padrão para a transferência de grandes conjuntos de dados de agências federais. Para começar, os conjuntos de dados da NOAA tendem a ser vastos - a agência monitora os oceanos da Terra, a atmosfera, o sol e o clima espacial - e às vezes requerem semanas ou meses para entrega pública.

Um exemplo é o arquivo de radar Doppler NEXRAD Nível II de alta resolução da agência. De acordo com um estudo publicado em maio pela American Meteorological Society, a transferência de todo o arquivo NEXRAD de 270 terabytes para um único cliente em outubro de 2015 levaria 540 dias a um custo de US $ 203.310. Uma cópia completa do arquivo nunca estava disponível para análise externa antes que a NOAA trabalhasse com a Amazon e o Google para colocar uma na nuvem.

O experimento também teve alguns resultados iniciais interessantes com o aumento do uso. As páginas da Web da previsão e previsão do tempo da NOAA já recebem alguns dos níveis mais altos de tráfego entre sites do governo, mas depois que o Google integrou recentemente um conjunto de dados climáticos e climáticos, com tamanho aproximado de um show, ao banco de dados do BigQuery, a empresa relatou fornecer 1, 2 petabytes desse conjunto de dados de 1º de janeiro a 30 de abril - muito mais do que jamais havia sido acessado em um período semelhante pelos servidores NOAA.

"O Google conseguiu abri-lo para um público totalmente novo", disse Kearns.

Não é apenas chuva e temperaturas sazonais. Os conjuntos de dados agora disponíveis pelos parceiros de Big Data incluem informações sobre pesca, clima marinho e um catálogo hospedado pela IBM que lista os conjuntos de dados atuais, de previsão, históricos e geoespaciais dos centros NOAA. Conjuntos de dados futuros podem até incluir informações sobre ecossistemas e genômica pesqueira.

Mas, por design, a parceria permite que os colaboradores escolham o que mais desejam, o que acarreta o risco de que conjuntos de dados obscuros, mas potencialmente de alto valor, não verão muita luz do dia. Kearns diz que é muito cedo para dizer o que pode ser identificado como valioso.

"A escala e o alcance do que podemos fazer com esses dados são surpreendentes para nós", acrescentou. "Não podemos imaginar todos os usos possíveis."

Em uma escala menor, a cidade da Filadélfia também trabalhou com uma entidade privada para publicar conjuntos de dados que o público disse que considerariam mais úteis. Embora o tamanho de uma cidade ofereça mais capacidade operacional diária do que uma entidade federal, o modelo de Philly representa uma abordagem para a estratégia de liberações de conjuntos de dados ainda não publicados.

A Azavea, uma empresa de software baseada em Philly, especializada em visualização de dados, colaborou com o chefe de informações da cidade, Tim Wisniewski, para desenvolver uma lista de conjuntos de dados não publicados que organizações sem fins lucrativos da cidade possam ter interesse em usar. Wisniewski e Azavea usaram o catálogo de metadados on-line da cidade e informações dos departamentos da cidade para desenvolver a lista. A Azavea e outros parceiros compraram a lista para organizações sem fins lucrativos da Filadélfia e lançaram o OpenDataVote, um concurso para o público votar nos projetos apresentados por essas organizações sem fins lucrativos sobre como eles usariam seus conjuntos de dados preferidos.

Um vencedor recente foi uma proposta apresentada pela MicroSociety, uma organização sem fins lucrativos, para usar dados da cidade sobre doadores para o Distrito Escolar da Filadélfia para medir o impacto de programas sem fins lucrativos nas escolas.

"Podemos dizer que esta organização sem fins lucrativos da cidade está interessada em um conjunto de dados específico, porque eles podem fazer algo com ela e que muitas pessoas votaram para apoiá-los", disse Wisniewski. "Permite-nos ir aos departamentos com um caso de uso sólido em mãos, em vez de dizer, ei, liberar esses dados apenas porque".

Dados Antigos e o Novo

Mas o que acontece mesmo quando há bastante acesso aos dados já disponíveis, quando novas políticas e diretrizes de financiamento significam que os dados em si simplesmente não estão mais sendo gerados? Essa é uma preocupação real, disse Ann Dunkin, que atuou como diretora de informações da Agência de Proteção Ambiental do presidente Obama e agora dirige a TI no condado de Santa Clara, na Califórnia.

"As pessoas estão preocupadas com os dados antigos, mas o que mais me preocupa é que novos dados não estão sendo disponibilizados na mesma proporção de antes, ou nem são gerados", disse Dunkin.

Em uma análise do orçamento federal proposto para 2018 pela revista Science, muitas agências governamentais obteriam reduções significativas em seus orçamentos de pesquisa se o orçamento fosse aprovado conforme proposto. Um corte de aproximadamente 22% nos Institutos Nacionais de Saúde reduziria pagamentos a universidades de pesquisa; a solicitação de orçamento da NASA eliminaria iniciativas para monitorar as emissões de gases de efeito estufa e outros programas de ciências da terra. Os programas climáticos da NOAA também podem ser fechados com níveis semelhantes de cortes.

Durante seu mandato, a EPA vinha trabalhando para transformar sua coleta de dados em uma ferramenta para qualquer um usar para entender a saúde de seus arredores e como reagir a eles. Dia ruim no ar? Não vá lá fora. Fluir pelo caminho poluído? Mantenha as crianças afastadas.

"Minha expectativa é que isso retroceda", acrescentou Dunkin. "Eu posso estar errado, mas se você está dizendo que não vamos disponibilizar dados, a conclusão lógica é que conjuntos de dados que poderiam ajudar os membros do público também não estarão disponíveis ou não serão gerados em primeiro lugar".

Wiggin, da Data Refuge, está trabalhando em um projeto de narração de histórias relacionado a esse problema que ela espera catalisar mais pessoas a exigirem liberações contínuas de dados e criar uma onda de apoio aos programas de coleta de dados existentes em todo o governo federal. As narrativas de "Três histórias em nossa cidade" retratam o impacto oculto dos dados federais em lugares inesperados, começando primeiro na Filadélfia e depois em outros lugares do país.

"Uma parte crucial do movimento Data Refuge, à medida que avançamos para a próxima fase, está ajudando as pessoas a entender o quão amplamente utilizados são os dados produzidos pelo governo federal em suas vidas", disse Wiggin. "Quer você chame de clima, saúde ou segurança pública, ainda são dados federais. Estão nas comunidades, na prefeitura, nos esforços de policiamento, nas forças armadas. Precisamos continuar lembrando o quão importante esses dados são".

Recursos:

Gateway de conjunto de dados ambientais da EPA: o portal de metadados da Agência de Proteção Ambiental.
Open Data @ DOE: O portal de dados abertos do Departamento de Energia.
Portal de Dados do Serviço de Pesquisa Econômica do USDA
Recursos de Big Data da NOAA: Links para as páginas da plataforma dos parceiros de Big Data que hospedam dados gerados pela NOAA.
Universidade do Norte do Texas: Cemitério virtual: um arquivo de sites do governo extintos, desatualizados ou fechados.
Página do Projeto de Arquivamento da Iniciativa de Dados e Governança Ambientais: Ferramentas, códigos e aplicativos relacionados à descoberta e arquivamento de dados governamentais.
Máquina de recuperação de arquivos da Internet
Internet Archive: Como salvar páginas no Wayback Machine: Seis maneiras de nomear páginas para arquivamento.
Biblioteca Digital da Califórnia: Arquivo da Web de final de período: Uma coleção de sites do governo dos EUA salvos dos rastreamentos de final de período, de 2008 até o presente.
FreeGovInfo.info: Conteúdo abrangente, com informações sobre portais de dados nos níveis estadual e federal, e arquivos de notícias sobre questões de dados abertos.
Climate Mirror: Uma coleção de conjuntos de dados climáticos reunidos por voluntários.

Esta história apareceu pela primeira vez na PC Magazine Digital Edition. Inscreva-se hoje para mais histórias originais, notícias, resenhas e como fazer isso!