Big Data, ‘big’ preocupación

Por Luis Mesa, Data Engineer en OpenSistemas

 

Es por todos conocida la controversia que genera este concepto en términos de hype.

Hoy no vengo a hablar de lo maravilloso que puede ser montar un datalake para analizar los datos atmosféricos de tu entorno y cómo anticiparte a la amenazante llegada de la mosca blanca para que no te eche a perder tu cultivo hidropónico. Ni de por qué puede quedar genial en tu currículum, aunque no tengas ni idea de nada realmente. Hoy vengo a hablar de la parte menos golosa del big data: potenciales problemas, riesgos y retos a futuro (al menos desde mi punto de vista).

 

Datos, sucios datos

No es una novedad lo que voy a decir, pero unos datos lamentables conducen a unos resultados lamentables, y no me refiero sólo a información no estructurada o mal estructurada. El exceso de información, la información superflua o ruido de cualquier tipo en el conjunto de entrada, da lugar a una mala explotación del dato.

Por ejemplo, imaginemos que es día de elecciones: queremos realizar análisis del sentimiento en tiempo real siguiendo las opiniones de los usuarios en una o varias redes sociales. ¿Somos capaces de detectar y filtrar las cuentas falsas para que no afecten a nuestras conclusiones? ¿En tiempo real? Quizás sea un poco complicado aún, aunque confío en que no estemos realmente tan lejos.1

Otro ejemplo: la información mal etiquetada. Esto aplica no sólo a jugar con datos masivos, sino que me lo digan a mí, que hace un par de semanas acabé buscando un cajero en un domicilio particular. Es sólo que, cuando se trata de datos, tras todas las transformaciones realizadas en las diversas fases e iteraciones por las que pasan los mismos, se pueden producir unos resultados realmente grotescos.2

 

Muchos, muchos datos

Puede que los particulares noten o no un aumento de precio en sus dispositivos por la constante subida del precio de la memoria debido a la demanda incesante de la misma, en smartphones sobre todo. Sin embargo, el coste por almacenamiento no es algo que debiera preocupar a las grandes empresas.3

Lo que sí podría resultar preocupante es la capacidad de computación de la infraestructura o servicios que procesan y aprovisionan dichos datos. No hay duda alguna sobre que el volumen de datos que vamos a continuar generando no va a parar de crecer. Y lo hará de forma exponencial, sobre todo si consideramos el aumento del número de dispositivos móviles, dispositivos IoT, cualquier otro ‘cacharro’ conectado a Internet y la burbuja del postureo. Me refiero a esa necesidad constante de enviar mensajes, subir selfiesstories y demás en las que todos participamos en mayor o menor medida.4

Ello implica el aumento de la complejidad de la gestión de los centros de datos, así como de su consumo eléctrico, de refrigeración, y de los metros cuadrados de espacio físico para alojarlo. Y todo esto sólo mirando a la parte física. Si valorásemos la infraestructura lógica, tendríamos que tener cuenta el coste operacional de la misma, la capacidad de elasticidad y flexibilidad del entorno, el rendimiento en picos de cargas de trabajo, la gestión de entorno, y el despliegue, entre otras cosas.

 

Mis datos, privacidad y derechos sobre propiedad intelectual

Parte de la información disponible contiene datos de carácter personal. En los últimos años, grandes cantidades de datos confidenciales han sido robados de páginas y portales web, tanto de empresas privadas como de empresas públicas, e incluso gobiernos. Es una información que por sí sola puede no tener mucha utilidad, pero en malas manos puede establecer patrones de comportamiento, consumo, etc., por edad, sexo o género, estableciendo así, potencialmente, ciertas políticas discriminatorias en según qué servicios.5

En muchos casos (quiero pensar que en la mayoría) la información es anónima, lo cual no quita que no se puedan sacar conclusiones de dichos datos. Y si no, que se lo digan a los de FitBit y al Departamento de Defensa de los Estados Unidos.6

 

 

Conclusiones

El futuro es muy prometedor y es emocionante poder ver desde cerca cómo la ingeniería del software está cambiando una vez más el mundo tal y como lo conocemos, pero hay que ser cauto.

En definitiva, y es una opinión, para evitar problemas de tamaño big, trataría de seguir estas tres pequeñas directrices:

– Mimar los datos de entrada, tratar de que sean limpios y lo más asépticos y neutrales posibles

– Poner especial foco en la seguridad en toda la cadena de procesamiento y custodia de mis datos para evitar problemas legales y de privacidad.

– En la medida de lo posible, apostar por el uso de soluciones en la nube como Google Cloud PlatformAmazon Web ServicesMicrosoft Azure, que nos liberan prácticamente de las preocupaciones de la infraestructura y su capacidad de escalado a precios muy competitivos, especialmente si tienes una pequeña empresa y no puedes permitirte tener tu propio CPD. En Open Sistemas tenemos experiencia como partnersde todos ellos, ¡no dudes en preguntarnos!

 

Por último, quisiera recomendar un artículo que escribieron esta semana unos compañeros de BBVA y que se publicó en Expansión, que viene muy al cuento del tema de la privacidad y uso de los datos: Sobre el uso responsable de datos y algoritmos.

 

 

1 Artículo en Xataka: Así funcionan las redes de cuentas falsas y bots rusos en las redes sociales

2 Paper de la Universidad de Washington: Google’s Cloud Vision API Is Not Robust To Noise

3 Artículo en ADSL Zone: El precio de las memorias para RAM y SSD cae tanto que asusta a los inversores

Artículo en el blog de Seagate: Enormous Growth in Data is Coming — How to Prepare for It, and Prosper From It

5 Lista de robos masivos de datos en Wikipedia

6 Artículo en El País: El GPS de una ‘app’ para hacer ejercicio revela la ubicación de bases secretas del Ejército estadounidense