Privacidade e Políticas Públicas

A rede de sensores é o computador (ou por que você precisa superar a ideia de privacidade)

01/03/2016

Por Brett Stalbaum e Cicero Inacio da Silva | #Boletim13

Pois, como é bem sabido, uma teoria conhecida e clássica da promessa não pode levar em conta uma promessa mal-intencionada, prejudicial ou maligna. Uma promessa pertence à ordem de bênção. Só posso prometer o “bem”. Eu não posso prometer a um outro que eu vou matá-lo, roubá-lo, mentir ou amaldiçoá-lo. Isso seria uma ameaça e não uma promessa. Alguém pode ameaçar o outro com uma promessa? (Jacques Derrida, Avances, 1995)

image

Imagem do projeto “Earth Computing”. Um cluster de 10 computadores Raspberry Pi’s a energia solar conectados à rede através de um módulo adaptador SainSmart SIM900 GSM/GPRS para Raspberry Pi e Arduino.

Três observações para começar: a primeira é que, entre os artigos de Gordon Kelly, autor que contribui frequentemente para a Revista Forbes.com, o texto publicado em 09 de fevereiro de 2016 traz as seguintes histórias: a primeira é “Windows 10 envolvido em escândalo de espionagem, Microsoft sem palavras”, sobre o Windows 10 ter enviado quantidades substanciais de dados, alguns não criptografados, para a Microsoft e outros servidores (e outros agentes). A segunda notícia é “Facebook é motivo de graves problemas nos sistemas Android e iPhone”, no qual discute os usos intensivos de recursos (CPU, memória, bateria), recursos estes que o aplicativo do Facebook exige de forma intensa. A segunda observação é que ambos os autores deste artigo são pesquisadores, com fortes ligações culturais com o campo da arte tecnológica, sendo um deles um brasileiro gaúcho e o outro um redneck americano; duas culturas do novo mundo com fortes traços em comum. O terceiro ponto é simplesmente que os dois autores deste artigo tem desenvolvido um projeto, chamado “Earth Computing“, que por sua vez tenta desmontar a lógica da nuvem e que é algo que tem a ver com a nossa construção de sistemas de computação distribuída, mas que não participa da mesma lógica dos sistemas computacionais hoje comercializados, as chamadas “clouds”. Bem, por onde começar?

Banco de dados e a computação deixando seu lugar (ou os datacenters abertos)

Os modelos de banco de dados e as técnicas computacionais são sempre um bom lugar para começar a falar de datacenters. A história rígida dos modelos de banco de dados tem sido sempre estruturada de maneira hierárquica (assim como o seu sistema de arquivos) para sua posterior distribuição na rede (hipertextos) e em bases relacionais (hipertextos com tabelas e álgebra relacional), avançando para vários tipos de bancos de dados, tais como NoSQL (ou “Orientados a Objetos”, ou “Objeto-relacionais”), que são projetados para escalar (escalonar) o processamento por meio de muitos processadores e dissipadores de dados. O processamento não mudou muito, nós basicamente ainda utilizamos as máquinas de Von Neuman. Mas para permitir que a Lei de Moore continue a sua impressionante série de vitórias – que sabemos que acabará porque há limites quânticos à forma como está distribuído o espaço, aliado ao rápido crescimento dos dados discretos – temos visto a multiplicação do número de processadores dedicados às tarefas individuais. Nos computadores de uso doméstico, essa ampliação e inserção de múltiplos núcleos em um único processador (chip) significou o crescimento do número de CPUs com vários cores, o que permitiu ganhos de rendimento e processamento de informação únicos. Com a possibilidade de calcular dezenas de milhares de processos (não atípicos) de maneira clusterizada, por meio de técnicas computacionais desenvolvidas especialmente para processar grandes problemas individuais, muitas vezes envolvendo grandes conjuntos de dados que crescem em ritmo ainda mais rápido do que a Lei de Moore, entendemos que o que vemos hoje em relação ao crescimento dos processadores mais parece como aquele sujeito que “coloca o dedo no furo da barragem” para segurar um mar de informações em rápido crescimento, que hoje é ampliada exponencialmente pela coleta e sistematização de dados. Há um risco iminente e rapidamente crescente de os dados sobrecarregarem a capacidade tecnológica dos processadores computacionais contemporâneos, correndo o risco de, em alguns, casos, esses computadores sequer terem capacidade para começar a processá-los. Não haverá, em breve, um número de CPUs suficientes (ou dedos nos furos da barragens) que poderão restringir a força da maré de dados.

E de onde surgiu essa maré toda de dados? Das simulações e das redes de sensores. O problema foi de fato inventado em lugares como a UNIFESP e a UCSD, sob a forma do que hoje se denomina coleta de dados científicos. Entre os primeiros agressores estão a astrofísica e a meteorologia, pois utilizam tanto as simulações complexas que produzem grandes conjuntos de dados, com o aumento da capacidade preditiva, quanto o cruzamento dos dados obtidos em diferentes medições, exigindo mais e mais memória e recursos de processamento. Outros campos, tais como a astronomia, a biologia, as ciências da saúde, a oceanografia, que ampliam diariamente a utilização das redes de sensores, tem também insuflado até o limite o uso do processamento computacional disponível. A astronomia, por exemplo, entope nossos repositórios de dados usando telescópios computadorizados conectados em redes de alta velocidade, enquanto a biologia se ocupa com as sequências de genomas, distribuídos entre uns e zeros, e enquanto oceanógrafos distribuem boias recheadas com sensores e computadores com capacidade de gravação, armazenamento e transmissão de dados. Os dados que são realmente a “voz da natureza” – e por consequência a sua agência – vêm sendo amplificados ao longo de gerações de investigação científica. O chamado “big data” tem uma história que é pouco contada, mas que corre em paralelo, numa constante que exige o aumentos da capacidade de processamento e a diminuição do preço dos sensores (conversores analógicos-digitais), computação e processamento (CPUs) e armazenamento (discos, fitas, etc.).

Toda essa ampliação massiva de dados levou a medidas desesperadas e impressionantes no campo da computação. O campo da supercomputação opera hoje baseado em vários tipos de paralelismos: fine grained, coarse grained e embarrassing. Estes conceitos, apesar de parecerem um pouco bizarros em suas conceituações, não são tão difíceis de especificar: um problema embaraçosamente paralelo (embarrassing) é aquele em que se pode processar um subconjunto de dados de um problema em diferentes CPUs, exigindo menos memória e utilizando pesados métodos algorítmicos recombinatórios. As CPUs que trabalham com problemas embaraçosamente paralelos não precisam compartilhar resultados entre si para completar seus cálculos, ou seja, o conceito de “embaraçoso” aqui significa fácil, referindo-se especificamente aos problemas executados sobre os dados que são mais facilmente paralelizados nas CPUs. Já os conceitos de “Grão fino” (Fine grain) e “Grão grosso” (Coarse grain) são termos muito relativos. Em problemas paralelos de grão fino, cada uma das CPUs são altamente dependentes dos cálculos que ocorrem potencialmente em muitas outras CPUs e usualmente temos um gasto significativo de tempo à espera de resultados que dependem das outras CPUs, de modo a frequentemente dependerem dos dados processados nas outras CPUs para continuar até o final o processo requisitado. O processamento “grosso” significa simplesmente que menos tempo é desperdiçado na coordenação dos resultados entre as CPUs, sendo essa mensuração temporal sempre relativa, pois depende do algoritmo que está sendo resolvido em dado momento e que é apenas parcialmente ou relativamente menos dependente de coordenação entre CPUs. O ponto importante aqui é que existem alguns problemas que são mais passíveis de processamento paralelo do que outros, ou em outras palavras, algumas perguntas que os algoritmos podem responder por meio da análise de dados de grande escala respondem melhor do que outros. A lei de Moore continua sua escalada sem fim em relação a alguns tipos de perguntas sobre a escalabilidade dos dados, mas relativamente é quase completamente inútil quando comparada com outros processos paralelos.

Nesse sentido, fica mais fácil perceber, depois dessa explicação das propriedades formais sobre as máquinas que operam com estados discretos, que as técnicas atuais que estão sendo utilizadas para resolver problemas computacionais possuem determinadas consequências objetivas que afetam toda e qualquer análise sobre o conceito de privacidade. Quebrar uma chave criptográfica pública/privada – o sistema de proteção mais conhecido e utilizado em relação a privacidade dos dados – envolve normalmente a fatoração de grandes números e a busca pelo resultado de muitos cálculos não-lineares (o resultado de uma fatoração pode ser obtido rapidamente ou levar muito tempo), antes de passar para os próximos cálculos envolvendo mais cálculos de fatores, nos leva a concluir que, por exemplo, no caso de problemas computacionais do tipo “grão muito fino”, a computação paralela não é particularmente adequada para a questão da privacidade. Mas os problemas que envolvem, por exemplo, a soma maciça de dados (a contagem de elementos), podem ser considerados problemas do tipo “embaraçosamente” paralelizados. Em certo sentido, esse tipo de processamento é baseado simplesmente na somatória dos números que podem ser trivialmente distribuídos em diversas CPUs, contudo, há um aspecto sutil e fundamental nesses processos, que implicam diretamente na questão da privacidade dos dados.

MPI e Hadoop em direção a localidade dos dados

Conforme descrito inicialmente, ao coletar grandes quantidades de dados, o Facebook e a Microsoft não estão apenas criando uma enorme banco de dados por meio do armazenamento das informações. Essas empresas estão fundamentalmente cruzando e relacionando essas informações para extrair estruturas significativas do conhecimento a partir desses bancos de dados, tudo isso para ensinar a seus próprios clusters computacionais a melhor maneira de desempenhar as suas tarefas em relação a um outro algoritmo importante, mas usualmente falho, chamado “usuário”.

De qualquer forma, a análise de bancos de dados pode ser considerada como uma forma de literatura, quase como um direito humano em relação à coleta de dados. É preciso cada vez mais produzir e executar algoritmos analíticos sobre os dados. As crianças precisam urgentemente aprender supercomputação ao serem alfabetizadas. Temos que ensinar nas escolas como construir e programar clusters e redes de sensores, ou simplesmente ficaremos de fora da “leitura” do mundo computacional paralelizado contemporâneo. O computador pessoal desapareceu e o cluster computacional pessoal é o novo computador. A nuvem não está onde você mantém suas fotos, que também podem ficar no seu próprio computador. Para fazer parte desta brincadeira, você tem que estar no jogo certo. O seu laptop e, especialmente, o seu tablet e celulares já são os clientes dos cluster computacionais. A nuvem é uma versão contemporânea do cartão-postal. Os defensores da privacidade irão perder essa corrida pela mesma razão que a indústria fonográfica e os estúdios de Hollywood também perderam…será um boom e, depois de recobrada a consciência, verão a realidade que os cerca…simples assim.

Talvez inspirado pela citação de Derrida, agora você pode entender melhor que na verdade você nunca teve privacidade. A única diferença agora é que os seus dados são distribuídos globalmente em vez de armazenados localmente. A “privacidade”, sonho prometido por todos os seus serviços que rodam em nuvens computacionais, é apenas uma promessa de alguém querendo o seu “bem”. Ironicamente, é a localização de onde os seus dados estão fisicamente que será algo que atrairá cada vez mais um processo de catalização acerca da privacidade e aumentará ainda mais a distribuição global dos mesmos: como um atrator virtuoso que gira em uma espiral ascendente ou um atrator sombrio que aprisionará nossas almas, isso vai depender da perspectiva com a qual você quer entender o que se passa em relação aos clusters computacionais e a privacidade. Os presentes autores aceitam ambas as perspectivas com cautela crítica, porque acreditam que pensar a privacidade a partir desses modelos pode ser algo coevolucionário, transevolucionário ou talvez algo até mesmo “literário”. Mas a única certeza que os autores tem hoje é: a partir de agora, a rede de sensores é o computador.


Brett Stalbaum é coordenador do curso Interdisciplinar em Computação e Artes (ICAM) na Universidade da Califórnia, San Diego (UCSD) e coordenador do Walkingtools Lab.


Cicero Inacio da Silva é professor da Universidade Federal de São Paulo (UNIFESP) e co-coordenador do Walkingtools Lab na Universidade da Califórnia, San Diego (UCSD).

Tags: , , , , , , , , ,