Cómo llevar datos a Amazon S3, y de S3 a Glacier

Las organizaciones que procesan grandes cantidades de datos y archivos de gran tamaño, y que también utilizan el almacenamiento de Amazon S3, necesitan una forma sencilla de llevar los datos a S3, y luego de S3 a Glacier para archivar datos y otros fines de almacenamiento en frío.

Pero es más fácil decirlo que hacerlo, especialmente para los equipos informáticos que gestionan varios destinos de almacenamiento, permisos y otras configuraciones para cientos de usuarios potenciales.:

Los equipos informáticos deben configurar manualmente el acceso al almacenamiento de acceso infrecuente (AI) para cada usuario, lo que aumenta las posibilidades de que se produzcan errores de configuración, accesos no autorizados o que los datos "calientes" se coloquen en almacenamiento frío.
Cargar contenido de forma nativa en AWS S3 y S3 Glacier implica lidiar con estrictas limitaciones de tamaño de archivo y procesos de carga técnicamente complicados, como la carga multiparte a través de la interfaz de línea de comandos (CLI) de AWS.
Subir contenido de forma nativa a S3 y Glacier suele ser un proceso manual que lleva mucho tiempo.

Todo lo anterior puede conducir a un estado de gestión y administración infernal para los equipos de TI. Dicho esto, aquí tienes un breve tutorial sobre la carga de datos de S3 a Glacier mediante la consola de administración de AWS y la CLI, junto con el porqué MASV es una mejor opción para subir datos a cualquier versión de S3.

Índice de contenidos

¿Qué es Amazon S3?
¿Qué es Amazon S3 Glacier?
Cómo migrar datos a S3 y de S3 a Glacier
- Consola de gestión
- Interfaz de línea de comandos
Gestión de S3 Glacier: Consejos y buenas prácticas
MASV: La manera fácil de subir archivos masivos a S3 Glacier

Ingesta Rápida de Archivos Grandes en el Almacenamiento en Frío en la Nube

MASV se integra con múltiples plataformas de almacenamiento en frío en la nube y puede automatizar los flujos de trabajo de almacenamiento.

Pruébalo gratis

¿Qué es Amazon S3?

Amazon Servicio de Almacenamiento Simple (S3) es un servicio de almacenamiento de objetos con una potente escalabilidad, seguridad, disponibilidad de datos y rendimiento. Dado que el almacenamiento de objetos está diseñado para albergar datos no estructurados, el almacenamiento de Amazon S3 es popular entre las empresas de M&E que trabajan con toneladas de imágenes y vídeos.

💡 MASV integraciones sin código con varios de los principales proveedores de la nube, incluido S3, permiten la ingesta de contenidos manos libres en el almacenamiento en la nube y automatizaciones de transferencia y almacenamiento de archivos.

Clases de almacenamiento S3

Sin embargo, S3 no es un monolito: contiene varias clases de almacenamiento adaptadas a diferentes casos de uso y requisitos de almacenamiento de datos. Estas clases de almacenamiento incluyen:

Norma S3
S3 Tiering Inteligente
S3 Express Una Zona
Norma S3-IA
S3 Una Zona-IA
Recuperación instantánea de S3 Glacier
S3 Glacier Recuperación flexible
Archivo S3 Glacier Deep
Puestos avanzados S3

Cada clase de almacenamiento S3 tiene diferentes costes y rendimiento de almacenamiento y salida de datos, con opciones de almacenamiento de acceso infrecuente (IA) y en frío (Glacier) que presentan un almacenamiento más barato pero una salida de datos más cara (y de menor rendimiento). Algunas opciones de almacenamiento Glacier tardan varias horas o incluso días en recuperar los datos.

Para un análisis de varias clases de almacenamiento en S3, su coste, rendimiento e idoneidad para varios casos de uso -específicamente en torno a las clases de almacenamiento en S3 Glacier- consulta nuestro post sobre crear y gestionar un archivo en la nube.

Archivo en la nube: Ventajas, retos y mejores prácticas

¿Cuáles son algunas de las mejores prácticas de archivo en la nube que debes seguir? Nosotros te ayudamos.

¿Qué es Amazon S3 Glacier?

Amazon S3 Glacier es un tipo de almacenamiento S3-específicamente, almacenamiento en frío utilizado para datos a los que se accede con menos frecuencia, como por ejemplo archivo de datos en la nube.

Amazon Glacier y otras opciones de almacenamiento en frío, como Línea fría de Google o Azure Blob Storage Nivel fríoofrecen varias ventajas cuando se almacenan datos de acceso poco frecuente (AI), como:

Libera espacio en tu almacenamiento primario (caliente) eliminando los datos inactivos.
Costes de almacenamiento menos elevados que el almacenamiento de datos en caliente (de acceso frecuente).
Ofrece una alternativa de menor coste a los archivos físicos, al tiempo que permite a las empresas conservar

Pero aunque el almacenamiento en frío tiene muchas ventajas, también es importante que recuerdes vigilar de cerca quién de tu equipo tiene acceso a AWS Glacier.

Esto se debe a que, aunque Glacier ofrece costes de almacenamiento más baratos que otros tipos de almacenamiento, como se ha mencionado, puede ser mucho más caro sacar datos del almacenamiento en frío (y lleva más tiempo que recuperar datos del almacenamiento en caliente).

Cómo migrar datos a S3 y de S3 a Glacier

En primer lugar: Siempre recomendamos utilizar la CLI o la infraestructura como código (IaC) para configurar y administrar tu almacenamiento de Amazon, porque permite un mayor control y una mejor supervisión de los errores de configuración potencialmente devastadores. Es fácil, cuando se utiliza la Consola de Administración, crear una serie de problemas en cascada a través de uno o dos clics mal realizados.

Pero también reconocemos que los usuarios no técnicos y más noveles pueden preferir la consola de administración de AWS.

Así que, aquí tienes cómo migrar tus datos de S3 a Glaciar utilizando la Consola de Administración.

Consola de gestión

Parte 1: Configurar un Cubo S3

Crea una cuenta de AWS e inicia sesión en la consola de administración.
Utilizando la barra de búsqueda, busca S3. Selecciona S3 de los resultados.
En el menú de la izquierda, selecciona Cubos. Nombra tu nuevo Cubo (lo llamaremos "Archivo MASV") y selecciona la región que prefieras. Asegúrate de que la opción por defecto Bloquear el acceso público está seleccionado.
Activa versionado de cubos y (opcional) añade tags para controlar los costes de almacenamiento u otros criterios.
Activa la encriptación en reposo.
En Configuración avanzada, considera la posibilidad de activar Bloqueo de objetos S3 (opcional) para asegurarte de que no se borran datos importantes (si estás creando el cubo con fines de archivo, por ejemplo).
1. Una vez creado el cubo y si has activado el Bloqueo de Objetos, selecciona detalles del cubo, que abre el cubo Propiedades .
2. Selecciona Editar en la sección Bloqueo de Objetos de la pestaña Propiedades. Esto te permite seleccionar valores por defecto para los datos cargados en el cubo (por ejemplo, conservar los datos durante X número de años).

Parte 2: Sube a S3 y selecciona tu clase de almacenamiento

Selecciona tu cubo en la consola S3. Desde ahí, pulsa el botón Objetos y selecciona Subir.

💡 Puedes subir un único objeto de hasta 160GB a S3 utilizando la consola. Para subir un archivo de más de 160GB tendrás que utilizar la CLI de AWS, el SDK de AWS o la API REST de Amazon S3. O puedes utilizar MASV para subir archivos de hasta 5 TB a S3.

2. Elige el Añadir archivos y navega hasta los archivos que quieras subir. El archivo aparecerá en la ventana Archivos y carpetas sección de S3.

3. Debajo del cubo Propiedades puedes seleccionar la clase de almacenamiento S3 (como Glacier Deep Archive o Glacier Instant Retrieval) a la que quieres subir tu bucket.

Nota: Algunas clases de almacenamiento tienen duraciones mínimas para los datos cargados; por ejemplo, Glacier Deep Archive factura durante 180 días aunque el archivo se elimine al cabo de pocos días.

4. A continuación verás un banner de estado de subida de archivos. Una vez completada la subida, verás un resumen de la subida.

¡Enhorabuena! Has subido con éxito un archivo de tu ordenador a S3, y de S3 a Glacier, utilizando la consola de administración de AWS.

Interfaz de línea de comandos (CLI)

Ahora vamos a intentar configurar el mismo proceso utilizando la CLI de AWS. En este ejemplo, crearemos un bucket llamado masv-archivo utilizando el comando Herramienta de línea de comandos de AWS.

Este cubo seguirá algunas de las mejores prácticas de seguridad: Acceso público bloqueado, versionado activado, encriptación en reposo activada, bloqueo de objetos activado. Para hacer un seguimiento de este archivo para la gestión y facturación del proyecto, añadiremos una etiqueta, proyecto-x. A continuación, subiremos un archivo pequeño y otro grande desde el almacenamiento local a S3 Glacier.

Aunque la CLI de AWS es más flexible que la consola de administración, ya que admite cargas superiores a 160 GB, tiene un límite PUT de 5 GB para un solo objeto, lo que obliga a realizar cargas multiparte.

Antes de empezar, asegúrate de que tus credenciales y tu región ya están configurado para la CLI de AWS. En este ejemplo utilizaremos el perfil masv.

Vamos a crear y configurar el cubo. Sólo tienes que hacerlo una vez.

1. Crea el cubo:

$ aws s3api create-bucket --bucket masv-archive
    --bucket masv-archivo
    --region $(aws configure get region --profile masv)
    --object-lock-enabled-for-bucket (bloqueo de objetos habilitado para contenedor)
    --perfil masv

Salida:

{
    "Ubicación": "/masv-archivo"
}

2. Bloquear el acceso público:

$ aws s3api put-public-access-block \
    --bucket masv-archive \
    -configuración del bloque de acceso público 
BlockPublicAcls=true,IgnorePublicAcls=true,BlockPublicPolicy=true,RestrictPublicBuckets=true \

    --perfil masv

3. Activa el versionado:

$ aws s3api put-bucket-versioning
    --bucket masv-archive
    --versioning-configuration Estado=Habilitado
    --profile masv

4. Activa la encriptación del servidor:

$ aws s3api put-bucket-encryption \
    --bucket masv-archive \
    --server-side-encryption-configuration '{
        "Reglas": [{
            "ApplyServerSideEncryptionByDefault": {
                "AlgoritmoSSE": "AES256"
            }
        }]
    }' \
    --profile masv

5. Añade una etiqueta llamada "proyecto-x":

$ aws s3api put-bucket-tagging \
    --bucket masv-archivo \
    --tagging 'TagSet=[{Key=proyecto-x,Value=true}]' \
    --perfil masv

Ahora el cubo está listo para almacenar nuestros archivos. Los subiremos desde el almacenamiento local a nuestro cubo con la clase de almacenamiento Glacier.

Subir archivos pequeños, de menos de 5 GB, es muy sencillo. Sólo se necesita un comando. Por ejemplo, si tu archivo local se llama mi-archivo-pequeño.mp4entonces introducirías esto

$ aws s3api put-object \
    --cubo masv-archivo
    --key mi-pequeño-archivo.mp4
    --body mi-pequeño-archivo.mp4
    --clase de almacenamiento GLACIER
    --perfil masv

Salida:

{
    "ETag": "\"e5x2a5mbpdl4e2d4c3549862b2a5f2b\"",
    "ServerSideEncryption": "AES256",
    "VersionId": "eixDahmmp.lreyCa8cKkkHoV80r17S8k"
}

Subidas multiparte mediante CLI

Subir archivos de más de 5 GB utilizando la CLI requiere varios pasos, porque no admite subir archivos de más de 5 GB directamente.

En lugar de eso, tienes que dividirlo en partes en tu ordenador local y subir cada parte individualmente. AWS llama a esto carga multiparte.
En este ejemplo, lo haremos sencillo con un archivo de 10 GB que sólo necesita dividirse en dos partes.

1. Obtén un ID de subida. Necesitamos este ID de subida para cada pieza que subamos en pasos posteriores.

$ uploadId=$(aws s3api create-multipart-upload \
    --bucket masv-archive
    --key mi-archivo-grande.mp4
    --storage-class GLACIER
    --query UploadId
    --output text
    --perfil masv)

2. Sube la primera parte de 5 GB del archivo.

$ head --bytes 1073741824 mi-archivo-grande.mp4 > mi-archivo-grande.mp4.part1
$ aws s3api subir-parte \
    --bucket masv-archive \
    --key mi-archivo-grande.mp4
    --part-number 1
    --body mi-archivo-grande.mp4.part1
    --id-carga "$uploadId" --archivo masv
    --perfil masv

Necesitamos recordar el valor ETag en la salida:

{
    "Encriptación del lado del servidor": "AES256",
    "ETag": "\"e5x5adm2pflee9ed4c3549862b2a5f2b\""
}

3. Sube la última parte del archivo.

$ tail --bytes 1073741825 mi-archivo-grande.mp4 > mi-archivo-grande.mp4.part2
$ aws s3api subir-parte \
    --bucket masv-archive \
    --key mi-archivo-grande.mp4
    --part-number 2
    --body mi-archivo-grande.mp4.part2
    --id-carga-id "$uploadId" \
    --perfil masv

4. Finaliza la carga multiparte y limpia.

$ aws s3api complete-multipart-upload \
    --bucket mi-archivo
    --key mi-archivo-grande.mp4 \
    -id-carga-id $upload_id \
    --multipart-upload '{"Parts":[{"ETag":"e5x5adm2pflee9ed4c3549862b2a5f2b","Part
Number":1}, {"ETag":"5e5xda2mfpel9ede4c534986ba225b2f","PartNumber":2} ]}' \
    --perfil masv
$ rm mi-archivo-grande.mp4.part1 mi-archivo-grande.mp4.part2

En este punto, el archivo se almacena de forma segura en S3 Glacier.

Como puedes adivinar, este ejemplo de subida multiparte no es la forma más sencilla de transferir archivos grandes a S3. Tampoco es la forma más rápida, ni siquiera para archivos pequeños.

Para mejorar el rendimiento, puedes ajustar el tamaño de cada pieza y subir varias piezas a la vez, pero eso está fuera del alcance de este ejemplo.

Sin embargo, la subida multiparte tiene otras ventajas, como una recuperación más rápida de los errores y la reanudación de las subidas pausadas o interrumpidas.

Gestión de S3 Glacier: Consejos y buenas prácticas

Ya tienes tus archivos subidos a S3 Glacier. Estupendo. ¿Y ahora qué?

En MASV tenemos mucha experiencia en la gestión de diversas instancias de S3 y otras instancias en la nube. Aquí tienes algunos de nuestros mejores consejos para gestionar S3 Glacier en particular:

Utilizando una herramienta de carga de archivos de terceros con integraciones S3 sin código, como por ejemplo Portales MASV, puede ayudar a simplificar y acelerar el proceso de subida a S3, al tiempo que permite a los usuarios subir hasta 5 TB por archivo a la vez.
Como ya hemos dicho, aunque en el ejemplo anterior se utiliza la Consola de Administración, si tienes los conocimientos técnicos necesarios te recomendamos que administres toda la infraestructura de AWS a través de la CLI de AWS o con IaC.
- Puedes subir archivos más grandes utilizando estos métodos.
- Recomendamos ir un poco más allá y configurar tu consola de administración de AWS como sólo lectura. Esto garantiza que un solo empleado no pueda realizar cambios potencialmente catastróficos sin la aprobación de otros miembros del equipo.
- Puedes redactar políticas de "rotura de cristales" para uso de la consola durante emergencias.

Lo ideal sería que participara un equipo de tres personas al instalar y configurar S3 Glacier, o al menos dos personas como mínimo (una sola persona probablemente sería un cuello de botella).
- Los equipos que trabajan en la configuración de los cubos de la nube deben poder verificar el trabajo de los demás.
- El equipo puede encargarse de la configuración y la gestión, además de garantizar el cumplimiento y realizar la clasificación de los datos para asegurarse de que se archivan los datos correctos.
- El trabajo del equipo consistirá en proteger la seguridad, la integridad de los datos y los costes.
Implementa un proceso regimentado que implique a varias partes interesadas diferentes al realizar cualquier cambio en tus buckets de AWS.
- Esto ayuda a evitar la desviación de la configuración, que es más fácil de hacer cuando se utiliza la Consola de Administración porque puedes cambiar algo con un solo clic (lo que podría provocar problemas más adelante).
- Desde el punto de vista del cumplimiento, cualquier cambio en la infraestructura debe pasar por un proceso de gestión de cambios que requiere segundas aprobaciones.
Implementa un proceso regimentado para la ingesta de datos, y sólo permite a los usuarios autorizados el acceso a cubos de almacenamiento específicos (no des a los usuarios empresariales cotidianos acceso al almacenamiento en frío, por ejemplo, ya que podrían ingerir datos calientes, lo que provocaría una salida de datos innecesariamente costosa y lenta).

MASV: La manera fácil de subir archivos masivos a S3 Glacier

Debido a que flujos de trabajo de postproducción requieren que los datos se guarden en varias ubicaciones (como el almacenamiento en dispositivos locales para la edición de vídeo y la nube para la copia de seguridad y el archivo), la configuración de S3 Glacier (y la carga desde S3 a Glacier) suele formar parte de un proceso más amplio de configuración del flujo de trabajo de ingesta de contenidos que implica tanto al personal de TI como al de operaciones.

Pero la instalación, configuración y gestión de S3 Glacier dentro de un flujo de trabajo más amplio requiere personal capaz de crear y mantener una infraestructura en la nube al tiempo que gestiona múltiples destinos de almacenamiento y usuarios con reglas y permisos diversos. Esto puede dar lugar a errores de configuración potencialmente devastadores.
El personal también debe ser capaz de cablear los flujos de trabajo para que los datos sean accesibles a las personas de la organización con acceso privilegiado.
Incluso después de hacer todo eso, las subidas nativas a S3 y S3 Glacier tienen limitaciones de tamaño de archivo relativamente estrictas, pueden ser lentas y a menudo requieren conocimientos técnicos, lo que puede hacer que las subidas lleven mucho tiempo innecesariamente.

Los desarrolladores pueden sortear estas limitaciones dedicando meses a crear su propio cargador para S3-o pueden utilizar MASV Ingesta centralizada como punto central y seguro de ingesta de datos a la nube y al almacenamiento en red in situ, y ahorra a los equipos horas de tiempo de configuración e instalación.

Los equipos pueden utilizar MASV para facilitar las subidas de los interesados a varios destinos a la vez, incluida una serie de Clases de Almacenamiento de S3, sin tener que conceder a los interesados acceso privilegiado. Cuando estableces una Clase de Almacenamiento para una integración MASV, eliminas el error del usuario y reduces el riesgo de sobrecostes de almacenamiento.

Regístrate en MASV y obtén datos gratis cada mes para flexibilizar tus flujos de trabajo de almacenamiento.

Envía vídeos grandes sin miedo

Regístrese en MASV y empiece a enviar y recibir archivos de gran tamaño de forma rápida y segura.