Cómo funciona la gestión del almacenamiento de un centro de proceso de datos

por Juan Manuel Conde

Software engineer at Open Sistemas

El sistema está basado en una red de almacenamiento SAN a la que se encuentran conectados todos los dispositivos: servidores, cabinas de discos y robots de cintas mediante tarjetas y cables de fibra óptica.

El núcleo principal de la red de almacenamiento es el armario director, formado por tarjetas que no son más que switches de fibra concentrados con cientos de puertos, cada uno a los que se conectan todos los dispositivos de la red.
Desde el armario director se configuran las zonas (qué cabina de discos queremos que vea cada servidor) y se monitoriza el estado de la red de almacenamiento, pudiendo ver de forma centralizada el estado de todos los puertos de fibra de los switches y servidores, porcentaje de uso de las conexiones, estado del hardware, etc.

La gestión de las cabinas de discos no se encuentra centralizada debido a la gran cantidad de tecnologías y marcas existentes, por lo que para asignar discos es necesario acceder directamente a la cabina que provisionará el disco y crearlo, utilizando la interfaz de administración que proporciona el fabricante, el más común es un interfaz web (java o flash).

Una vez creada la zona en el director entre un servidor y una cabina de discos y creado el disco del tamaño necesario en la cabina, solo faltaría asignar el disco al servidor que lo va a utilizar para poder empezar a usarlo .

Ante un fallo hardware en una cabina de discos, el sistema llama a través de una línea telefónica al fabricante para que un técnico se conecte en remoto o se desplace al centro, en caso de que sea necesaria la sustitución de alguna pieza. Todos los elementos están cubiertos de fallos hardware y software por un mantenimiento contratado con cada fabricante.

En la mayoría de los incidentes es necesario sacar un conjunto de logs (el support log) y enviarlos al fabricante para que analicen el problema y puedan ofrecer la solución adecuada.

El fallo más habitual es cuando se rompe un disco y hay que reemplazarlo, pero no son raros los fallos de fuentes de alimentación, cables de fibra, switches de red, controladoras de las cabinas de discos y consolas de gestión.

Diariamente se realizan backups que se guardan en los robots de cintas en base a unas políticas de retención de datos y cada semana se sacan estadísticas de ocupación y utilización de los discos y cintas que son analizadas para la previsión del crecimiento y compra de ampliaciones futuras.