Privacidad y Políticas Públicas
La red de sensores es la computadora (o por qué debes superar la idea de privacidad)
01/03/2016
Por Brett Stalbaum y Cicero Inacio da Silva | #Boletín13
Como se sabe, una teoría conocida y clásica de la promesa no puede considerar una promesa malintencionada, perjudicial o maligna. Una promesa pertenece al género de las bendiciones. Solo puedo prometer el «bien». No puedo prometerle a otro que voy a matarlo, robarle, mentirle o maldecirlo. Eso sería una amenaza, no una promesa. ¿Alguien puede amenazar a otro con una promesa? (Jacques Derrida, Avances, 1995)

Imagen del proyecto «Earth Computing». Un clúster de 10 computadoras Raspberry Pi que funcionan mediante energía solar conectadas a la red a través de un módulo adaptador SainsSmart SIM900 GSM/GPRS para Raspberry Pi y Arduino.
Tres observaciones para comenzar. La primera es que, entre los artículos de Gordon Kelly, autor que contribuye frecuentemente con la Revista Forbes.com, el texto publicado el 9 de febrero de 2016 incluye la siguiente historia: «Windows 10 involucrado en escándalo de espionaje, Microsoft sin palabras», que informa que Windows 10 envió cantidades sustanciales de datos, algunos no cifrados, a Microsoft y otros servidores (y otros agentes). La segunda noticia es «Facebook es motivo de grandes problemas en los sistemas Android y iPhone», en la cual se discute el uso intensivo de recursos (CPU, memoria, batería) que consume Facebook de manera continua. La segunda observación es que ambos autores de este artículo son investigadores, con fuertes vínculos culturales con el campo del arte tecnológico. Uno de ellos es brasileño, de Rio Grande do Sul, y el otro un redneck estadounidense, dos culturas del nuevo mundo con fuertes rasgos comunes. La tercera observación es que, simplemente, los dos autores de este artículo desarrollaron un proyecto llamado «Earth Computing» que trata de desmontar la lógica de la nube y que es algo que tiene que ver con nuestra construcción de sistemas de computación distribuida, pero que no participa de la misma lógica que los sistemas de computación que hoy se comercializan con el nombre de «cloud». Bien, ¿por dónde comenzar?
Los bancos de datos y la computación dejan su lugar (o los datacenters abiertos)
Los modelos de banco de datos y las técnicas de computación siempre son un buen lugar para empezar a hablar de los datacenters. La historia rígida de los modelos de bancos de datos ha sido siempre estructurada de manera jerárquica (así como su sistema de archivos) para su posterior distribución en la red (hipertextos) y en bases relacionales (hipertextos con tablas y álgebra racional), avanzando por varios tipos de bancos de datos, como NoSQL (o «Orientados a Objetos» u «Objeto-relacionales»), que son proyectados para escalar (escalonar) el procesamiento por medio de muchos procesadores y disipadores de datos. El procesamiento no cambió mucho: básicamente, continuamos utilizando las máquinas de von Neuman. Pero para permitir que la Ley de Moore continúe su impresionante serie de victorias –que sabemos que acabará porque hay límites cuánticos a la forma como se distribuye el espacio, a lo que se suma el rápido crecimiento de los datos discretos– hemos visto la multiplicación del número de procesadores dedicados a tareas individuales. En las computadoras de uso doméstico, esa ampliación e inserción de múltiples núcleos en un único procesador (chip) significó el crecimiento del número de CPU con varios núcleos, lo que permitió mejoras únicas de rendimiento y procesamiento de información. Con la posibilidad de calcular decenas de miles de procesos (no atípicos) de manera clusterizada, por medio de técnicas de computación desarrolladas especialmente para procesar grandes problemas individuales, muchas veces involucrando grandes conjuntos de datos que crecen a ritmo aún más rápido que la Ley de Moore, entendemos que lo que vemos hoy con relación al crecimiento de los procesadores parece una persona que «tapa con el dedo un agujero de una represa» para evitar que salga un mar de información en rápido crecimiento, que hoy se amplía exponencialmente mediante la recolección y sistematización de datos. Existe un riesgo inminente y rápidamente creciente de que los datos sobrecarguen la capacidad tecnológica de los procesadores computacionales contemporáneos, corriendo el riesgo de que, en algunos casos, esas computadoras ni siquiera tengan la capacidad de comenzar a procesarlos. Dentro de poco no habrá un número de CPU suficiente (o dedos en los agujeros de represas) capaces de restringir la fuerza de la marea de datos.
¿Y de dónde surgió esa marea total de datos? De las simulaciones y de las redes de sensores. El problema fue, de hecho, inventado en lugares como la UNIFESP y la UCSD, bajo la forma de lo que hoy se denomina recolección de datos científicos. Entre los primeros agresores están la astrofísica y la meteorología, ya que utilizan tanto simulaciones complejas, que producen grandes conjuntos de datos, con el aumento de la capacidad predictiva, como el cruce de los datos obtenidos en diferentes mediciones, que exigen más y más memoria y recursos de procesamiento. Otros campos, como la astronomía, la biología, las ciencias de la salud y la oceanografía, que amplían diariamente la utilización de las redes de sensores, también insuflaron hasta el límite el uso del procesamiento computacional disponible. La astronomía, por ejemplo, llena nuestros repositorios de datos usando telescopios computarizados conectados a redes de alta velocidad, mientras la biología se ocupa de las secuencias de los genomas, distribuidos entre unos y ceros, mientras los oceanógrafos distribuyen boyas con sensores y computadores capaces de grabar, almacenar y transmitir datos. Los datos, que son realmente «la voz de la naturaleza», y consecuentemente su agencia, vienen amplificándose a lo largo de generaciones de investigación científica. El fenómeno denominado «big data» tiene una historia poco contada, pero que transcurre en paralelo, en una constante que exige el aumento de la capacidad de procesamiento y la disminución del precio de los sensores (conversores analógico-digitales), computación y procesamiento (CPU) y almacenamiento (discos, cintas, etc.).
Toda esa ampliación masiva de datos condujo a medidas desesperadas e impresionantes en el campo de la computación. El campo de la supercomputación opera hoy a partir de varios tipos de paralelismo: fine grained, coarse grained y embarrassing. Estos conceptos, a pesar de que parecen un poco extraños, no son tan difíciles de especificar: un problema embarazosamente paralelo (embarrasing) es aquél en el cual se puede procesar un subconjunto de datos de un problema en diferentes CPU, lo que exige menos memoria y utiliza pesados métodos algorítmicos recombinatorios. Las CPU que trabajan con problemas embarazosamente paralelos no necesitan compartir resultados entre sí para completar sus cálculos, o sea, el concepto de «embarazoso» aquí significa fácil, ya que se refiere específicamente a los problemas que se ejecutan sobre los datos que son paralelizados con más facilidad en las CPU. Por su parte, los conceptos de «grano fino» (Fine grain) y «grano grueso» (Coarse grain) son términos muy relativos. En problemas paralelos de grano fino, cada una de las CPU es altamente dependiente de los cálculos que se realizan potencialmente en muchas otras CPU y habitualmente tenemos un gasto significativo de tiempo a la espera de resultados que dependen de las otras CPU, de modo que frecuentemente dependen de los datos procesados en las otras CPU para continuar hasta el final del proceso solicitado. El procesamiento «grueso» significa simplemente que se desperdicia menos tiempo en la coordinación de los resultados entre las CPU, considerando que esa medición temporal siempre es relativa, ya que depende del algoritmo que se está resolviendo en un momento dato y que es solo parcial o relativamente menos dependiente de la coordinación entre CPU. El punto importante aquí es que existen algunos problemas que son más pasibles de procesamiento paralelo que otros o, en otras palabras, algunas preguntas que los algoritmos pueden responder por medio del análisis de datos a gran escala responden mejor que otros. La Ley de Moore continua su escalada sin fin con relación a algunos tipos de pregunta sobre la escalabilidad de los datos, pero de forma relativa es casi completamente inútil cuando se la compara con otros procesos paralelos.
En ese sentido, es más fácil observar, después de esa explicación de las propiedades formales sobre las máquinas que operan con estados discretos, que las técnicas actuales que se están utilizando para resolver problemas computacionales tienen determinadas consecuencias objetivas que afectan cualquier análisis sobre el concepto de privacidad. Violar una clave criptográfica pública/privada –el sistema de protección más conocido y utilizado con respecto a la privacidad de los datos– involucra normalmente la factorización de grandes números y la búsqueda por el resultado de muchos cálculos no lineales (el resultado de una factorización puede obtenerse rápidamente o demandar mucho tiempo), antes de pasar a los próximos cálculos que implican más cálculos de factores, lo que nos lleva a concluir que, por ejemplo, en el caso de los problemas computacionales de «grano muy fino», la computación paralela no es particularmente adecuada para la cuestión de la privacidad. Pero los problemas que involucran, por ejemplo, la suma masiva de datos (el conteo de elementos), pueden considerarse problemas de tipo «embarazosamente» paralelizados. En cierto sentido, ese tipo de procesamiento se basa simplemente en la sumatoria de los números que se pueden distribuir trivialmente en diversas CPU. Sin embargo, hay un aspecto sutil y fundamental en esos procesos que tienen implicaciones directas en la cuestión de la privacidad de los datos.
MPI y Hadoop en dirección a la localidad de los datos
Como se describió inicialmente, al recopilar grandes cantidades de datos, Facebook y Microsoft no están simplemente creando un enorme banco de datos por medio del almacenamiento de información. Esas empresas están fundamentalmente cruzando y relacionando esa información para extraer estructuras significativas del conocimiento a partir de esos bancos de datos, todo eso para enseñar a sus propios clústeres computacionales la mejor manera de desempeñar sus tareas con relación a otro algoritmo importante, pero habitualmente fallado, llamado «usuario».
De cualquier manera, el análisis de bancos de datos puede considerarse como una forma de literatura, casi como un derecho humano con relación a la recolección de datos. Cada vez más, es necesario producir y ejecutar algoritmos analíticos sobre los datos. Los niños tienen que aprender urgentemente supercomputación cuando se los alfabetiza. Tenemos que enseñar en las escuelas cómo construir y programar clústeres y redes de sensores o simplemente nos quedaremos afuera de la «lectura» del mundo computacional paralelizado contemporáneo. La computadora personal desapareció y el clúster computacional personal es la nueva computadora. La nube no está donde mantienes tus fotos, que también pueden estar en tu propia computadora. Para formar parte de este juego, tienes que estar en el juego correcto. Tu notebook y, especialmente, tu tablet y tus celulares ya son los clientes de los clústeres computacionales. La nube es una versión contemporánea de la tarjeta postal. Los defensores de la privacidad perderán esa carrera por los mismos motivos que la industria discográfica y los estudios de Hollywood también perdieron… será un boom y, después de recobrada la consciencia, verán la realidad que los rodea… así de simple.
Tal vez inspirado por la cita de Derrida, ahora puedas entender que, en realidad, nunca tuviste privacidad. La única diferencia ahora es que tus datos se distribuyen globalmente, en vez de almacenarse localmente. La «privacidad», un sueño prometido por todos tus servicios que funcionan en nubes computacionales, es apenas una promesa de alguien que quiere tu «bien». Irónicamente, es el lugar donde tus datos están físicamente lo que atraerá cada vez más un proceso de catalización acerca de la privacidad y aumentará todavía más su distribución global: como un centro de atracción virtuoso que gira en un espiral ascendente o un centro de atracción sombrío que aprisionará nuestras almas, eso dependerá de la perspectiva con la cual entiendas lo que pasa con relación a los clústeres computacionales y la privacidad. Los autores de este artículo aceptan ambas perspectivas con cautela crítica, porque creen que pensar en la privacidad a partir de esos modelos puede ser algo coevolucionario, transevolucionario o, tal vez, algo hasta incluso «literario». Pero la única certeza que los autores tienen hoy es que, a partir de ahora, la red de sensores es la computadora.
Brett Stalbaum es coordinador del curso Interdisciplinario en Computación y Artes (ICAM) en la Universidad de California, San Diego (UCSD) y coordinador del Walkingtools Lab.
Cicero Inacio da Silva es profesor de la Universidad Federal de San Paulo (UNIFESP) y cocoordinador del Walkingtools Lab en la Universidad de California, San Diego (UCSD).
Tags: big data, Boletín13, Brett Stalbaum, Cicero Inacio da Silva, datacenters, earth computing, privacidad, smart cities, smart city