Archivo en la nube: Ventajas, retos y mejores prácticas

por | 15/7/2024

Un archivo -alojado en la nube o en otro lugar- es algo parecido a una copia de seguridad. Sin embargo, a diferencia de una copia de seguridad, un archivo es para datos que se almacenan a largo plazo y a los que se accede con poca frecuencia.

Pero, ¿qué es exactamente un archivo en la nube, en qué se diferencia de los métodos tradicionales para archivar datos, y ¿cuáles son algunas de las mejores prácticas de archivado en la nube que debe seguir? Tenemos las respuestas para usted. Vamos a por ello.

Índice de contenidos

Ingesta de macrodatos para archivo en nube

Ingesta de cantidades masivas de datos en múltiples soluciones de archivo en la nube como Amazon S3 Glacier desde una ubicación centralizada.

¿Por qué archivar soportes u otros datos?

Las empresas de vídeo y postproducción suelen utilizar el archivado de datos para liberar espacio de almacenamiento y asegurarse de que siguen teniendo acceso a los archivos en caso de que los necesiten (durante una auditoría de la información, o si un cliente pide material de hace tres años, o recuperación en caso de catástrofe, por ejemplo).

El almacenamiento de archivos también se conoce como almacenamiento de datos en frío. Para los editores de vídeo y otros profesionales de la postproducción, mantener los datos en el almacenamiento en frío ayuda a liberar espacio en el almacenamiento "en caliente", más rápido y con mayor capacidad de respuesta, como por ejemplo Matrices RAID o almacenamiento en red (NAS).

Los archivos suelen tener normas estrictas sobre quién puede almacenar y acceder a los datos por motivos de seguridad y porque la salida del almacenamiento en frío es cara y lleva mucho tiempo.

¿Qué es un archivo en nube?

Un archivo en la nube es exactamente lo que parece: un archivo alojado en la nube, normalmente a través de una nube pública de almacenamiento como servicio, como el almacenamiento de objetos Amazon S3 o Google Cloud Storage. El archivado en la nube se ha popularizado desde que las empresas descubrieron que podían utilizarla para:

  • Almacene los datos archivados de forma más rentable (y con mucho menos mantenimiento y preocupaciones que manteniendo los datos archivados internamente) a cualquier escala; cualquier solución de archivado suele ofrecer una escala prácticamente ilimitada y almacenamiento de datos en frío por sólo unos céntimos por GB.
  • Evitar gastos de capital masivos mediante la compra y actualización de costosos equipos in situ (y gastos operativos de mantenimiento, actualización y parcheado de dichos equipos).

Antes de la nube, la mayoría de los medios de comunicación utilizaban Cinta lineal abierta (LTO), un tipo de cinta magnética, para almacenar datos archivados.

Archivo en la nube frente a copia de seguridad en la nube

Un archivo y copia de seguridad en la nube pueden sonar igual, pero no lo son:

  • Una copia de seguridad tiene datos frescos copiados a intervalos regulares, se mantiene relativamente accesible en caso de que sea necesario recuperarlos y a menudo implica cambios en los datos a medida que los datos de producción evolucionan en tiempo real. Suele conservarse in situ (si se mantiene en almacenamiento físico) o en un lugar de fácil acceso. almacenamiento en la nubey no se conserva indefinidamente.
  • Un archivo traslada los datos fuera de sus instalaciones una vez y los mantiene en un lugar seguro indefinidamente. Los datos no se modifican ni aumentan. Sacar los datos de los archivos suele llevar mucho tiempo.

Archivo en la nube frente a archivo en cinta

La cinta LTO se ha utilizado durante años y es la opción tradicional de cualquier archivero de soportes. Los archivos de cintas LTO suelen almacenar datos en cintas magnéticas guardadas en cartuchos, que luego se almacenan en un lugar seguro (normalmente fuera de las instalaciones).

  • Las bibliotecas de cintas suelen utilizar robots para almacenar y recuperar los cartuchos, que pueden llegar a ser miles.
  • Debido a la naturaleza limitada de la cinta, las bibliotecas de cintas siguen ampliándose a medida que se añaden más datos (aunque cabe destacar que la cinta LTO-7 puede contener hasta 6 TB de datos).
  • Las bibliotecas de cintas suelen organizarse mediante sistemas de archivos como el Linear Tape File System (LTFS).

La cinta LTO se utiliza a menudo para archivar porque las cintas son duraderas, tienen una larga vida útil (hasta 30 años) y son más baratas que mantener los datos archivados en discos. El inconveniente de las bibliotecas de cintas es que éstas requieren condiciones de almacenamiento de una temperatura constante de alrededor de 70 grados F con un 40 por ciento de humedad relativa.

Imagen de marcador de posición

FUENTE: TechTarget

Debido a la lentitud de salida asociada a algunos tipos de almacenamiento en frío en la nube, puede ser incluso más rápido sacar los datos de una biblioteca de cintas que del almacenamiento en la nube.

Sin embargo, la cinta LTO ha caído en desgracia en comparación con las opciones de archivado en la nube, que suelen ser más baratas y ofrecen mayor seguridad, funcionalidad de búsqueda, redundancia, tiempo de actividad y comodidad.

Centralice la ingesta de datos con MASV

MASV actúa como un único punto de entrada a cualquier destino de almacenamiento conectado, desde el más caliente al más frío, on-prem o en la nube.

Retos en torno al archivado en nube (y cómo resolverlos)

La implantación y gestión de un archivo en la nube no está exenta de dificultades, aunque algunas de ellas suelen deberse a la falta de experiencia interna en la nube, lo que a su vez puede dar lugar a errores de configuración.

Y los errores de configuración pueden dar lugar a un aumento de los costes, una disminución del rendimiento y una falta de confianza en torno a la eficiencia de la ingesta de contenidos en un archivo de datos en la nube.

¿Cómo se producen los errores de configuración en la nube?

Una de las principales ventajas del almacenamiento en la nube en general es su capacidad prácticamente ilimitada, pero el precio de la escala ilimitada es que es muy fácil dispararse en el pie. Teniendo esto en cuenta, la implementación correcta de un archivo en la nube requiere mucha planificación y estrategia.

Por desgracia, muchas empresas se saltan la fase de planificación y se lanzan de lleno.

"Las emisoras que se inician en la nube suelen experimentar y probar cosas por sí mismas al principio, pero normalmente se queman por el coste tras dejar una instancia EC2 encendida durante el fin de semana, por ejemplo", explica Nick Soper, director de productos en la nube de la consultora de medios Tyrell, en una entrevista a MASV.

Después de todo, es fácil dejarse llevar por una falsa sensación de seguridad por las brillantes consolas de gestión desplegadas por un servicio de archivado en la nube (nuestro consejo: No utilices la consola, salvo en circunstancias limitadas. Pero hablaremos de ello más adelante).

Imagen de marcador de posición

FUENTE: Amazon

Reto 1: Coste de almacenamiento

Algunas configuraciones erróneas de la nube, como dejar un bucket de almacenamiento de objetos de Amazon S3 accesible al público (lo que se conoce como "cubo agujereado"), puede conllevar importantes riesgos de ciberseguridad y violación de datos.

Pero otras configuraciones erróneas pueden dar lugar a flujos de trabajo ineficaces, costes crecientes y la idea equivocada de que el archivo en la nube es más caro.

Un solo error de configuración puede provocar picos masivos en los costes de la nube, por ejemplo, al no bloquear los flujos de trabajo de almacenamiento de archivos a un cubo o ruta específicos, y permitir a los usuarios empresariales introducir datos actuales en un archivo en la nube..

El almacenamiento en frío en la nube suele ser más barato que las opciones de almacenamiento en caliente. Pero guardar los datos actuales en almacenamiento de archivo puede conllevar unos gastos de salida muy elevados si (¿cuándo?) necesitas acceder a esos datos.

Para Amazon S3, por ejemplo, eso supone grandes diferencias de coste en función de la clase de almacenamiento:

Tipo de almacenamiento Coste de almacenamiento (por GB)
Norma S3 $0.021-$0.023
S3 Estándar Acceso poco frecuente $0.0125
Recuperación instantánea de S3 Glacier $0.004
S3 Glacier Recuperación flexible $0.0036
Archivo S3 Glacier Deep $0.00099

Como se muestra más arriba, los costes de almacenamiento por GB disminuyen a medida que se accede a opciones de almacenamiento cada vez más frías.

¡Estupendo! Eso significa que deberías almacenar todos nuestros datos en frío, ¿verdad?

Incorrecto: el coste de la salida y recuperación de datos aumenta con el almacenamiento en frío:

Tipo de almacenamiento Solicitudes de recuperación de datos (por cada 1.000 solicitudes) Recuperación de datos (por GB)
Norma S3 N/A N/A
S3 Estándar Acceso poco frecuente N/A $0.01
Recuperación instantánea de S3 Glacier N/A $0.03
S3 Glacier Recuperación flexible $0.05-$10 $0.01-$0.03
Archivo S3 Glacier Deep $0.025-$0.10 $0.0025-$0.02

La lección: No configures mal tu almacenamiento en la nube para que los usuarios ingieran datos actuales en tu archivo en la nube, o datos fríos en almacenamiento caliente (que también puede salir caro)..

De hecho, la ingesta de datos de archivo en el almacenamiento en caliente también puede resultar cara (aunque los proveedores como Amazon suelen cobrar por horas, por lo que siempre que se detecte a tiempo y se traslade al archivo de datos, los costes de almacenamiento no deberían dispararse demasiado).

También hay que tener en cuenta los costes ocultos del almacenamiento tradicional de archivos: Albergar las cintas, clasificarlas y gestionar los costes de un espacio físico también pueden sumar.

Reto 2: Rendimiento

Las configuraciones erróneas también pueden conducir a una visión distorsionada de la utilidad de la nube en torno al rendimiento, especialmente -de forma similar a nuestro ejemplo de costes anterior- si los usuarios guardan los datos actuales en el almacenamiento en frío y necesitan volver a sacarlos.

Cuando se solicitan datos de un almacén frigorífico, puede llevar un tiempo empezar a trabajar: Primero hay que esperar a que se procese la solicitud de recuperación de datos, lo que suele llevar horas.

A continuación, el archivo tiene que recuperar los datos, lo que literalmente puede llevar días.

Al igual que ocurre con los costes, el plazo de entrega de los recuperación de datos del almacenamiento en frío depende en gran medida del nivel de almacenamiento en frío:

Tipo de almacenamiento Tiempo de recuperación de datos
Norma S3 Milisegundos
Recuperación instantánea de S3 Glacier Milisegundos
S3 Glacier Recuperación flexible 1-5 minutos (expedited), 3-5 horas (batch), 5-12 horas (bulk)
Archivo S3 Glacier Deep 12-48 horas

Aunque los proveedores de la nube como Amazon pueden ser extremadamente indulgentes cuando cometes un error, digamos que no quieres tener datos empresariales cruciales que necesitas ahora mismo atrapados en Glacier Deep Archive.

El tiempo aceptable para la recuperación de datos depende del tipo de datos y de su caso de uso. En algunos casos, lo mejor son opciones de recuperación flexibles.

Reto 3: La consola/portal de gestión

Vamos a decir esto ahora mismo: Si utiliza una consola o portal de gestión como AWS Management Console, Azure Portal o Google Cloud Console para gestionar sus servicios en la nube, probablemente lo esté haciendo mal..

Las consolas de gestión de cualquier gran proveedor de nube pública suelen tener buen aspecto y están diseñadas para que un nuevo usuario se aclimate fácilmente: En muchos casos, basta con marcar algunas casillas para configurar el sistema.

  • El problema es que marcar esas casillas es muy fácil, y marcar la equivocada puede tener efectos negativos en cascada que quizá no sean evidentes al principio, pero que pueden crear una enorme cantidad de problemas con el paso del tiempo.
  • Muchas consolas pueden ser confusas y tener reglas incoherentes entre módulos, lo que hace casi imposible comprender del todo el efecto que un determinado cambio tendrá en el resto del sistema.
  • También es muy difícil para tus colaboradores, en caso de una mala configuración, ver lo que se ha hecho.

Por estas razones recomendamos no utilizar las consolas de gestión de los proveedores de nubes públicas para desplegar en producción. Las consolas pueden ser un buen punto de partida, y pueden ser útiles, pero no te preparan para el éxito a largo plazo.

Es mucho menos peligroso y más eficaz desplegar utilizando la infraestructura como código (IaC) o mediante una herramienta de línea de comandos. Este enfoque tiene varias ventajas:

  • Hay un proceso de revisióndonde cualquier cambio que quieras hacer es visible para otros miembros del equipo. Puedes imponer reglas de revisión que hagan imposible desplegar un cambio sin que otra persona lo revise primero.
  • También puedes establecer normas en torno al rendimiento y la seguridad, como no permitir que un bucket de S3 se establezca como público. Herramientas de análisis automatizadas que permiten establecer reglas, como no permitir que un bucket de S3 se configure como público.

Utilizar IaC o la línea de comandos para configurar y gestionar su arquitectura de nube puede requerir mucha configuración, tiempo y gastos. Pero la ventaja es que acabas ahorrando mucho en costes, vulnerabilidades y daños por errores innecesarios.

Implantación y gestión de un archivo en la nube: Mejores prácticas

Hay dos cosas principales que debes tener en cuenta a la hora de implantar un archivo en la nube:

  • Asegúrese de configurar sus rutas de ingesta de almacenamiento para que las personas o aplicaciones adecuadas tengan acceso al almacenamiento adecuado.
  • Asegúrese de clasificar correctamente sus datos para que cualquier dato que se ingiera vaya automáticamente al cubo de almacenamiento adecuado.

Aquí tienes otros consejos para configurar tu archivo en la nube:

  1. Aplazar al almacenamiento en caliente: Como regla general, considera almacenar todos los datos primero en almacenamiento en caliente.
  2. Automatizar el paso de datos al almacenamiento en frío: Establece un sistema automatizado que, una vez transcurrido un periodo de tiempo determinado, vuelva a clasificar los datos y los traslade al almacenamiento en frío (puedes adquirir una solución llave en mano o crear tus propias normas al respecto). Este proceso por sí solo hace que sea mucho más difícil cometer un error costoso. Puedes utilizar una herramienta de carga de datos/transferencia de archivos que se integre con el almacenamiento en la nube y, a continuación, configurar tus reglas en torno al archivado dentro de la plataforma de almacenamiento en la nube (es decir, archivar los datos no accedidos después de X días).
  3. Utilice la consola sólo para PoC: Utilice la consola de gestión para pruebas de concepto sólo en una cuenta de caja de arena (con mucho cuidado, asegúrese de controlar sus costes en esa cuenta). Una vez finalizada la PoC, despliegue en producción utilizando IaC o la línea de comandos. Si utiliza la consola web en producción y comete un error, tendrá que recordar todo lo que ha pulsado para poder reproducir el problema. Las herramientas de línea de comandos evitan el escenario anterior porque si introduce los comandos incorrectos, el trabajo simplemente no funcionará.
  4. Sea tacaño con los accesos privilegiados: Los administradores de TI sólo deben dar acceso privilegiado al almacenamiento a los usuarios o funciones empresariales que necesiten guardar datos para archivarlos.

Ingesta de datos en el archivo en nube sin esfuerzo con MASV

Configurar y gestionar un archivo en la nube junto con el resto de su almacenamiento en la nube puede suponer mucho trabajo y requiere una gran inversión de tiempo inicial.

Pero todo ese tiempo y esfuerzo merece la pena, porque significa que ha pensado sistemáticamente su proceso de archivo de datos, lo que a su vez significa menos errores de configuración y costosos errores.

Por otro lado, la gestión de varios destinos de almacenamiento y accesos compartidos -desde el almacenamiento en caliente hasta el archivo- puede convertirse rápidamente en una pesadilla administrativa para los equipos de TI, que deben gestionar varias plataformas de almacenamiento y los permisos de los usuarios, todo ello sin dejar de ocuparse de la seguridad del sistema. Pero Ingesta centralizada de MASV puede ayudar a simplificar el proceso de ingesta de datos en todo su almacenamiento en la nube al tiempo que mejora la seguridad.

La ingesta centralizada es un centro para conectar, gestionar y automatizar la ingesta de datos en el almacenamiento sin tener que gestionar varios usuarios y permisos en la plataforma de almacenamiento. Los administradores de TI pueden conectar fácilmente el almacenamiento compartido -como un archivo en la nube- a través de la interfaz del navegador de MASV y, a continuación, configurar fácilmente el acceso de ingesta dentro de una puerta de enlace centralizada, segura y automatizada a todo su almacenamiento en la nube: MASV. A continuación, los equipos de proyecto pueden utilizar MASV para automatizar los soportes en el almacenamiento compartido utilizando un Portal de carga fácil de usarmejorando la productividad y simplificando la administración.

Regístrate en MASV gratis hoy mismo.

Automatice su flujo de trabajo de almacenamiento de copias de seguridad y archivos

MASV se integra con decenas de plataformas en la nube y permite automatizar el almacenamiento de soportes de gran tamaño.