Etiqueta : big-data

Google Next 17: Novedades en Machine Learning y Data Analytics

post image

Por Leticia Tierra
Marketing Manager de OpenSistemas

El pasado 10 de marzo, nuestro CDO JuanTomas estuvo en San Francisco en Google Next. Google Next es el evento que anualmente organiza Google para sus influencers y “Google Developer Expert”.

 

Google Next 17

Google Next 17

A lo largo de la jornada se sucedieron más de 100 anuncios y nosotros queremos poner el acento en los más importantes desde la perspectiva de los datos, el aprendizaje automático y la inteligencia artificial.

Es de obligado cumplimiento citar en primer lugar la adquisición de Kaggle. Kaggle es la comunidad más grande de científicos de datos que existe a día de hoy; más de 800k personas lo utilizan para estar al día de lo último en lo que machine learning se refiere, para analizar datasets públicos y construir modelos de aprendizaje automático.

En palabras de Fei-Fei Li, Chief Scientist en Google Cloud AI and Machine Learning, el objetivo de Google con esta adquisición es preservar la comunidad y democratizarla, haciendo que más sencilla sea incursión en el mundo del aprendizaje automático.

Anuncios relativos al aprendizaje automático

Además, Google ha decidido liberar Cloud Machine Learning Engine (GA) , el motor Cloud ML para organizaciones que quieren entrenar y desplegar sus propios modelos en producción en la nube.

Llama la atención el lanzamiento en beta privada de Cloud Video Intelligence, un api que permite a los desarrolladores buscar y descubrir el contenido de vídeo, proporcionando información dentro del vídeo sobre entidades y acciones.

Cloud Vision API también ha anunciado nuevas capacidades para empresas y partners. La API es capaz de reconocer millones de entidades y ofrece capacidades mejoradas de OCR para escanear documentos pesados ( contratos, documentos científicos…).

Google Cloud anuncia también novedades en Cloud Jobs, la herramienta para la búsqueda de empleo que cuenta con nuevas funcionalidades como Commute Search, que busca trabajos incluyendo los criterios de tiempo de desplazamiento y las preferencias del modo de transporte.

También han anunciado un concurso para startups dedicadas al ML y que están buscando capital riesgo..

Novedades en el campo de Data Analytics.

Como no podía ser de otra manera la mayoría de sus novedades en este apartado van orientadas a alimentar el ecosistema del marketing y la publicidad digital.

Novedades también en BigQuery, de momento en beta privada, permite que los expertos en marketing puedan importar datos de Google Adwords, DoubleClick Campaign Manager, DoubleClick para editores y contenido de YouTube .

Además, incorpora Cloud Dataprep, un servicio de gestión de datos que hace más rápìdo y fácil para los usuarios de BigQuery explorar los datos sin necesidad de tener que recurrir a un ingeniero.

Además Google libera nuevos conjuntos de datos listos para usar con BigQuery:  datos del mercado financiero de Xignite, valoraciones inmobiliarias residenciales (históricas y proyectadas) de HouseCanary, predicciones de cuando una casa saldrá a la venta de Remine, datos meteorológicos históricos de AccuWeather y archivos de noticias de Dow Jones, listos para satisfacer necesidades comerciales o para trastear.

Ya más cercanos a los ingenieros y al desarrollo encontramos novedades para Python, que cuenta ya con su SDK para Cloud Dataflow y la monitorización de stackdriver para CloudDataflow en beta.

En este interés de tender puentes entre los científicos de datos y los ingenieros del software, Google lanza Datalab, herramienta interactiva de flujo de trabajo de ciencias de datos que facilita la realización de modelos iterativos y análisis de datos en un entorno Jupyter utilizando comandos estándar de SQL, Python y shell.

Y como no podía ser de otra forma, Cloud Dataproc se actualiza, poniendo en marcha un nuevo soporte para reiniciar trabajos fallidos y crear clusters de un solo nodo para el desarrollo de sandbox ligeros.

Esperamos que estos anuncios os emocionen tanto como a nosotros. Te dejamos la lista completa aquí y no dejes de preguntarnos cualquier duda que te surja.

El año que viene volveremos a ir a San Francisco a disfrutar de tres días con los mejores expertos en Cloud y ML del mundo. Mientras tanto, síguenos la pista en @OpenSistemas.

CasperJS, la aspiradora de datos que usamos en Electiona

post image

Por Nacho Escudero
Cloud Architect de OpenSistemas

Durante nuestro día a día nos encontraremos muchas veces webs con contenido importante, datos muy interesantes, que se actualizan con frecuencia y cuyos datos necesitamos para nuestro proyecto. Pero al ir a usar algún servicio que proporcione dicha web para acceder a los datos o descargarlos, nos daremos cuenta de que no existe ningún tipo de servicio de fácil acceso a la información o simplemente el servicio de publicación tiene un coste o complejidad que nos impide usarlo.

Si estás en esa necesidad: los datos son muy importantes para el proyecto y no puedo acceder a ellos de ninguna otra manera salvo “a mano” debes plantearte hacer uso de CasperJS.

CasperJS es un lenguaje de scripting basado en Javascript. Aporta un nivel de abstracción sobre PhantomJs. Por lo tanto, es un lenguaje usado para navegar por la web sin un entorno visual, realizar revisiones de aplicaciones online, monitorizar, capturar pantallas o automatizar acciones en cualquier página.

Ésta última característica es la que más nos interesa, ya que queremos extraer información. Mediante selectores CSS3 o XPath navegaremos hasta el contenido que nos interesa, podremos acceder a la información que contienen los elementos seleccionados y realizar acciones sobre ellos.

Las acciones más interesantes suelen ser: hacer click en un botón o enlace, rellenar formularios o revisar valores de tablas. La toma de decisiones en función de los resultados, el manejo de errores, los eventos, son otras de sus características.

La instalación es muy sencilla: si tienes npm instalado en tu sistema, mediante los siguientes comandos:

npm -g install phantomjs
npm -g install casperjs

Ya tendrías tu entorno preparado para trabajar.

Aquí se puede ver cómo usarlo para guardar en un array y mostrar todos los enlaces de una búsqueda:

var casper = require('casper').create();
var links;
function getLinks() {
// Rastreo de links
    var links = document.querySelectorAll('ul.navigation li a');
    return Array.prototype.map.call(links, function (e) {
        return e.getAttribute('href')
    });
}
// Abre casperjs 
casper.start('http://casperjs.org/');
casper.then(function () {
    links = this.evaluate(getLinks);
});
casper.run(function () {
    for(var i in links) {
        console.log(links[i]);
    }
    casper.done();
});

El resultado sería:

$ casperjs query-casperjs.js
http://docs.casperjs.org/en/latest/quickstart.html
http://docs.casperjs.org/en/latest/
https://github.com/casperjs/casperjs
https://groups.google.com/forum/#!forum/casperjs

En OpenSistemas se lleva usando CasperJS desde hace unos años. Nuestro producto Electiona hace uso de él para extraer los datos de escrutinio e histórico en las administraciones que no tienen un sistema de envío de información mediante otros servicios o protocolos. Mediante clave de acceso, se accede a la web de la administración durante la noche electoral y se descargan los ficheros desde enlaces cuando se publican. Todo ello de manera automatizada y parametrizable.

Tendencias 2017 en el mundo de los datos

post image

Por Juantomás García
Data Scientist de OpenSistemas

Empezamos el año 2017 y es una buena costumbre inaugurarlo haciendo algunas previsiones de que cuáles creemos que van a ser las tendencias en el mundo de los datos.

Se va a consolidar el uso deep learning.

Los avances en deep learning durante el año 2016 han sido espectaculares y esto se va a traducir en un mayor número de proyectos y la popularización de esta tecnologías entre los profesionales de sector.

Frameworks como TensorFlow[1] y Theanos[2] se han consolidado y cada vez hay más documentación, proyectos y casos de uso avanzados. Proyectos como Keras[3], un framework que simplifica y unifica el uso de ambos, son una prueba de como se está suavizando la curva de aprendizaje y haciendo más accesible el desarrollo de proyectos basados en deep learning.

Muchos de los avances, dicho sea de paso, espectaculares, del 2016 van a generar nuevos proyectos e ideas durante el 2017.

Vamos a necesitar más profesionales y multidisciplinares.

La demanda de profesionales va a seguir en aumento y cada vez los perfiles que son necesarios necesitan tener más conocimientos de otras áreas. Ya no vale el científico puro de datos que no sabe programar o no entiende como son las arquitecturas de datos.

La migración progresiva hacia el cloud.

Si en otros ámbitos de IT está clara la migración de servicios hacia el cloud, en el mundo de los datos tiene todo el sentido y es imparable. Los recursos deben estar dedicados a la explotación de la información y no al mantenimiento de arquitecturas cada vez más complejas. Al menos para un porcentaje muy alto de las operaciones. Siempre quedará una pequeña cuota de proyectos que no puedan ser migrados, ni explotados en el cloud por razones de confidencialidad de los datos, privacidad, etc. El reto será como compaginar y hacer funcionar lo mejor de ambos mundos.

Más acceso y más fácil a los datos y su manipulación.

Durante el 2017 se van a desarrollar más herramientas que van a simplificar el acceso, transformación y análisis de los datos. Estas herramientas van a posibilitar que mucha más personas sean capaces de acceder a la información.

Herramientas como los notebooks (jupyter, zeppelin, etc) están revolucionando en modo de plantear los proyectos, compartir información y extraer el máximo rendimiento de los recursos hardware.

2017, un buen año para ser ingeniero

post image

Por Teodoro López
Talent Acquisition Manager de OpenSistemas

Todo apunta a que este año se mantendrá la tendencia de mejora del mercado laboral. Además, las ingenierías siguen liderando la lista de empleos más demandados. De hecho desde la Unión Europea se prevéela creación de hasta 900.000 nuevos puestos de trabajo tecnológico.

Entre los requisitos y características comunes que van a definir estos nuevos empleos se encuentran unos que ya son clásicos como el dominio de varios idiomas, la capacidad de trabajo en equipo, la proactividad, la polivalencia o la adaptación al cambio. En definitiva, actitudes que se han de emplear en el día a día de cada vez más puestos de trabajo. Sin embargo, lo más importante es que se trate de personas con talento, excelentes en su trabajo y con un perfil polivalente que resulte estratégico en los ámbitos de negocio de las empresas de forma que puedan aportar “un extra” a los servicios y productos de estas y que los hagan sobresalir sobre la competencia.

Ante esta situación nos hacemos eco del análisis, que podéis ver a continuación, realizado por la consultora de selección Spring Professional que ha desarrollado el estudio “Los+buscados” sobre los perfiles más demandados y los mejor cotizados en España para este 2017 en diversas ingenierías.

Los más buscados

  • Ingeniero de redes
  • Desarrollador de software NET
  • ‘National KAM’ Gran Consumo
  • ‘E-Commerce manager’
  • Area ‘manager luxury’
  • Ingeniero técnico comercial
  • Coordinador de tráfico
  • ‘Business & Planning Analyst’
  • ‘Talent manager’
  • ‘TAX manager’
  • Ginecólogo especialista en reproducción asistida
  • Técnico de aseguramiento de la calidad

Los más cotizados

  • Ingeniero de seguridad IT
  • Consultor SAP
  • ‘KAM Data Center’
  • Director de márketing
  • Director de expansión internacional
  • Responsable de producción
  • ‘Key account manager’
  • Director financiero y de consolidación
  • Director de recursos humanos
  • ‘Compliance officer’
  • ‘Medical manager’
  • ‘Market access’


ETL con IBM DataStage

Por Miguel Barrio
Developer de OpenSistemas

En el mundo del “Big Data” existen multitud de tecnologías para tratar grandes volúmenes de información, entre ellas se encuentran las denominadas ETL: Extract-Transform-Load, cuyo propósito principal es extraer datos de los entornos operacionales para manipularlos convenientemente y cargarlos en entornos analíticos o datawarehouse. Una de las herramientas comerciales más representativas, y la que finalmente ha resultado ganadora para su implantación en la AEAT, es IBM DataStage, parte de la “suite” InfoSphere Information Server. (más…)