Deduplicación de datos, ¿ahorro o gasto?

Por Juan Manuel Conde
Developer OpenSistemas

La deduplicación permite reducir el tamaño de los datos almacenados mediante la eliminación de patrones redundantes. Pero no siempre es fácil usar de forma efectiva esta tecnología, de modo que la inversión se convierta en un ahorro y no en un gasto.

Hay que tener en cuenta varios factores que influyen en el ratio de deduplicación que se puede llegar a obtener:

– Dato a almacenar (si almacenamos datos comprimidos como .jpeg o datos cifrados tendremos un ratio muy malo).

– Tecnología de deduplicación (a nivel de fichero, bloque o byte. A mayor granularidad, mejores ratios, pero con mayor coste de proceso y E/S).

– Tiempo de retención del dato (cuantas más copias y más tiempo se mantengan estas copias, mejor ratio se alcanzará).

Muchas marcas comerciales ofrecen ratios de ahorro que llegan hasta los 25:1 y 30:1, pero los ratios más habituales que se logran alcanzar suelen variar entre 3:1 y 12:1. Dichos ratios ya suponen un ahorro interesante, pero hay otro punto importante a tener en cuenta que puede situar la balanza en el lado del coste o del ahorro.

El precio del disco de los sistemas de deduplicación comerciales suele estar incrementado entre un x2 y un x3 respecto al precio de mercado. Con lo que los posibles beneficios obtenidos por el ahorro de espacio mediante la deduplicación se ven neutralizados por el incremento del precio del disco.

Este inconveniente puede solventarse utilizando soluciones de deduplicación open source y comprando cabinas de disco que no formen parte de appliances.