Une archive - hébergée dans le nuage ou ailleurs - est un peu comme une sauvegarde de stockage. Toutefois, à la différence d'une sauvegarde, une archive est destinée aux données stockées à long terme et auxquelles on accède rarement.
Mais qu'est-ce qu'une archive en nuage, en quoi est-elle différente des méthodes traditionnelles d'archivage des données, et en quoi est-elle différente des méthodes traditionnelles d'archivage des données ? quelles sont les meilleures pratiques en matière d'archivage dans le nuage que vous devriez suivre ? Nous avons les réponses pour vous. Allons-y.
Table des matières
Ingestion de Big Data pour l'archivage en nuage
Ingérer des quantités massives de données dans plusieurs solutions d'archivage en nuage comme Amazon S3 Glacier à partir d'un emplacement centralisé.
Pourquoi archiver des médias ou d'autres données ?
Les sociétés de vidéo et de post-production ont souvent recours à l'archivage des données pour libérer de l'espace de stockage et s'assurer qu'elles ont toujours accès aux fichiers en cas de besoin (lors d'un audit d'information, ou si un client demande des images datant de trois ans, ou encore en cas de reprise après sinistre, par exemple).
Le stockage d'archives est également connu sous le nom de stockage de données à froid. Pour les monteurs vidéo et autres professionnels de la postproduction, conserver des données dans un stockage à froid permet de libérer de l'espace dans un stockage "à chaud" plus rapide et plus réactif, tel que Matrices RAID ou stockage en réseau (NAS).
Les archives ont souvent des règles strictes concernant les personnes autorisées à stocker les données et à y accéder, pour des raisons de sécurité et parce que la sortie d'un entrepôt frigorifique est coûteuse et prend du temps.
Qu'est-ce qu'une archive en nuage ?
A archives en nuage est exactement ce que l'on croit : il s'agit d'une archive hébergée dans le nuage, généralement via un nuage public de stockage en tant que service, tel que le stockage d'objets Amazon S3 ou Google Cloud Storage. L'archivage dans le nuage est populaire depuis que les entreprises ont compris qu'elles pouvaient utiliser le nuage pour :
- Stocker les données archivées de manière plus rentable (et avec beaucoup moins de maintenance et de soucis que de conserver les données archivées en interne) à n'importe quelle échelle ; toute solution d'archivage offre généralement une échelle pratiquement illimitée et un stockage de données froides pour seulement quelques centimes par gigaoctet.
- Éviter les dépenses massives en capital (CapEx) liées à l'achat et à la mise à niveau d'équipements coûteux sur site (et OpEx pour la maintenance, la mise à jour et l'application de correctifs à ces équipements).
Avant l'informatique dématérialisée, la plupart des entreprises de médias utilisaient Ruban linéaire ouvert (LTO), un type de bande magnétique, pour stocker les données archivées.
Archivage dans le nuage ou sauvegarde dans le nuage
A l'archivage et la sauvegarde en nuage peuvent sembler identiques, mais ce n'est pas le cas :
- Une sauvegarde Les données fraîches y sont copiées à intervalles réguliers, restent relativement accessibles au cas où des données devraient être récupérées, et impliquent souvent des modifications des données au fur et à mesure que les données de production évoluent en temps réel. Il est généralement conservé sur site (s'il s'agit d'un stockage physique) ou dans un endroit facilement accessible. stockage en ligneet n'est pas conservé indéfiniment.
- Une archive déplace les données hors site une fois et les conserve en lieu sûr indéfiniment. Les données ne sont ni modifiées ni augmentées. L'extraction des données des archives est souvent un processus qui prend du temps.
Archivage dans le nuage contre archivage sur bande
La bande LTO est utilisée depuis des années et constitue la solution traditionnelle de tout archiviste de médias. Les archives sur bandes LTO contiennent généralement des données sur des bandes magnétiques conservées dans des cartouches, qui sont ensuite stockées dans un endroit sûr (généralement hors site).
- Les bibliothèques de bandes magnétiques utilisent souvent des robots pour stocker et récupérer les cartouches, qui peuvent se compter par milliers.
- En raison de la nature limitée des bandes, les bibliothèques de bandes ne cessent de s'étendre au fur et à mesure que des données sont ajoutées (il convient toutefois de noter que les bandes LTO-7 peuvent contenir jusqu'à 6 To de données).
- Les bibliothèques de bandes sont souvent organisées via des systèmes de fichiers tels que le Linear Tape File System (LTFS).
La bande LTO est souvent utilisée pour l'archivage car les bandes sont durables, ont une longue durée de conservation (jusqu'à 30 ans) et sont moins chères que la conservation des données archivées sur des disques. L'inconvénient des bibliothèques de bandes est qu'elles requièrent une alimentation spécifique. conditions de stockage d'une température constante d'environ 70 degrés F et d'une humidité relative de 40 %.
SOURCE : TechTarget
En raison de la lenteur de la sortie associée à certains types de stockage à froid dans le nuage, il peut même être plus rapide d'extraire des données d'une bibliothèque de bandes que d'un stockage dans le nuage.
Mais les bandes LTO sont généralement tombées en disgrâce par rapport aux options d'archivage dans le nuage, qui sont souvent moins chères et offrent une meilleure sécurité, une meilleure fonctionnalité de recherche, une meilleure redondance, un meilleur temps de fonctionnement et une plus grande commodité.
Centraliser l'ingestion des données avec MASV
MASV agit comme un point d'entrée unique vers toute destination de stockage connectée, de la plus chaude à la plus froide, sur site ou dans le nuage.
Défis liés à l'archivage en nuage (et comment les résoudre)
La mise en œuvre et la gestion d'une archive en nuage ne sont pas sans poser de problèmes, même si certains d'entre eux découlent souvent d'un manque d'expertise interne en matière de nuage, ce qui peut entraîner des erreurs de configuration.
Des configurations erronées peuvent alors entraîner des coûts plus élevés, des performances moindres et un manque de confiance quant à l'efficacité de l'ingestion de contenu dans une archive de données en nuage.
Comment se produisent les erreurs de configuration des nuages ?
L'un des principaux avantages du stockage en nuage en général est sa capacité pratiquement illimitée, mais le prix à payer est qu'il est très facile de se tirer une balle dans le pied. C'est pourquoi la mise en œuvre d'un système d'archivage en nuage nécessite une planification et une stratégie approfondies.
Malheureusement, de nombreuses entreprises sautent l'étape de la planification et se lancent dans l'aventure.
"Les radiodiffuseurs qui débutent dans l'informatique dématérialisée expérimentent souvent et tentent des choses par eux-mêmes au départ, mais ils se font généralement griller par les coûts après avoir laissé une instance EC2 allumée pendant le week-end, par exemple", a déclaré Nick Soper, responsable des produits d'informatique dématérialisée chez Tyrell, société de conseil en informatique dématérialisée pour les médias, dans une interview accordée à MASV.
Après tout, il est assez facile de se laisser bercer par un faux sentiment de sécurité en voyant les consoles de gestion brillantes déployées par un service d'archivage en nuage (notre conseil : N'utilisez pas la console, sauf dans des circonstances limitées. Mais nous y reviendrons plus tard).
SOURCE : Amazon
💡 Lire la suite : Meilleures pratiques pour sécuriser votre connexion de stockage
Défi 1 : Coût du stockage
Certaines mauvaises configurations du nuage, comme le fait de laisser un bac de stockage d'objets Amazon S3 accessible au public (connu sous le nom de "seau percé"), peut entraîner des risques importants en matière de cybersécurité et de violation des données.
Mais d'autres configurations erronées peuvent conduire à des flux de travail inefficaces, à une escalade des coûts et à l'idée fausse que l'archivage en nuage est plus coûteux.
Une seule erreur de configuration peut entraîner des hausses massives des coûts de l'informatique en nuage, par exemple, en ne verrouillant pas les flux de stockage d'archives à un bac ou à un chemin spécifique, et en permettant aux utilisateurs professionnels d'ingérer des données actuelles dans une archive en nuage..
Le stockage en nuage à froid est généralement moins cher que les options de stockage à chaud. Mais le fait de sauvegarder des données actuelles dans des archives peut entraîner des frais de sortie très élevés si (quand ?) vous avez besoin d'accéder à ces données.
Pour Amazon S3Par exemple, cela signifie des différences de coûts importantes en fonction de la classe de stockage :
Type de stockage | Coût du stockage (par Go) |
S3 Standard | $0.021-$0.023 |
S3 Standard Accès peu fréquent | $0.0125 |
S3 Glacier Instant Retrieval | $0.004 |
S3 Glacier Flexible Retrieval | $0.0036 |
S3 Glacier Deep Archive | $0.00099 |
Comme indiqué ci-dessus, les coûts de stockage par gigaoctet diminuent au fur et à mesure que l'on s'oriente vers des options de stockage de plus en plus froides.
C'est très bien ! Cela signifie que vous devriez stocker toutes nos données dans une chambre froide, n'est-ce pas ?
Faux - le coût de la sortie et de la récupération des données augmente lorsque le stockage est plus froid :
Type de stockage | Demandes d'extraction de données (pour 1 000 demandes) | Extractions de données (par Go) |
S3 Standard | N/A | N/A |
S3 Standard Accès peu fréquent | N/A | $0.01 |
S3 Glacier Instant Retrieval | N/A | $0.03 |
S3 Glacier Flexible Retrieval | $0.05-$10 | $0.01-$0.03 |
S3 Glacier Deep Archive | $0.025-$0.10 | $0.0025-$0.02 |
La leçon à en tirer : Ne configurez pas mal votre stockage en nuage de sorte que les utilisateurs ingèrent des données actuelles dans votre archive en nuage, ou des données froides dans un stockage chaud (ce qui peut également s'avérer coûteux)..
En effet, l'intégration des données d'archives dans le stockage à chaud peut également s'avérer coûteuse (bien que les fournisseurs tels qu'Amazon facturent généralement à l'heure, de sorte que tant que vous les détectez à temps et que vous les déplacez vers vos archives de données, les coûts de stockage ne devraient pas être trop élevés).
Il faut également tenir compte des coûts cachés du stockage traditionnel des archives : L'hébergement des bandes, leur classification et la gestion des coûts d'un espace physique peuvent également s'additionner.
💡 Lire la suite : Gérer le multi-cloud : Construire une stratégie multi-cloud réussie
Défi 2 : Performance
De mauvaises configurations peuvent également conduire à une vision déformée de l'utilité du nuage en termes de performances, en particulier - comme dans notre exemple de coût ci-dessus - si les utilisateurs sauvegardent des données courantes dans un stockage froid et doivent les récupérer.
Il faut parfois un certain temps avant que les choses ne commencent à bouger lorsqu'on demande des données à partir d'une chambre froide : Vous devez d'abord attendre que la demande de récupération des données soit traitée, ce qui prend généralement des heures.
Les archives doivent ensuite récupérer les données, ce qui peut littéralement prendre des jours.
Comme pour les coûts, le délai d'exécution de la récupération de données à partir d'une chambre froide dépend en grande partie du niveau d'entreposage frigorifique :
Type de stockage | Délai de récupération des données |
S3 Standard | Millisecondes |
S3 Glacier Instant Retrieval | Millisecondes |
S3 Glacier Flexible Retrieval | 1-5 minutes (accéléré), 3-5 heures (par lot), 5-12 heures (en vrac) |
S3 Glacier Deep Archive | 12-48 heures |
Même si les fournisseurs de services en nuage comme Amazon peuvent être extrêmement indulgents lorsque vous faites une erreur, disons que vous ne voulez pas que des données commerciales cruciales dont vous avez besoin en ce moment soient bloquées dans les archives profondes de Glacier.
💡 Le délai acceptable pour l'extraction des données dépend du type de données et de votre cas d'utilisation. Dans certains cas, des options de récupération flexibles peuvent s'avérer préférables.
Défi 3 : La console/portail de gestion
Nous allons le dire tout de suite : Si vous utilisez une console de gestion ou un portail tel que AWS Management Console, Azure Portal ou Google Cloud Console pour gérer vos services en nuage, vous vous y prenez probablement mal.
Les consoles de gestion de n'importe quel grand fournisseur de cloud public sont généralement belles et conçues pour qu'un nouvel utilisateur puisse s'y acclimater facilement : Dans la plupart des cas, il suffit de cocher quelques cases pour configurer le système.
- Le problème est qu'il est très facile de cocher ces cases - et cocher la mauvaise peut avoir des effets négatifs en cascade qui ne sont peut-être pas évidents au début, mais qui peuvent créer un nombre considérable de problèmes au fil du temps.
- De nombreuses consoles peuvent être déroutantes et avoir des règles incohérentes entre les modules, ce qui fait qu'il est pratiquement impossible de comprendre l'effet d'un certain changement sur le reste du système.
- Il est également très difficile pour vos collaborateurs, en cas de mauvaise configuration, de voir ce qui a été fait.
Pour ces raisons nous recommandons de ne pas utiliser les consoles de gestion des fournisseurs de clouds publics pour le déploiement en production. Les consoles peuvent être un bon point de départ et peuvent être utiles, mais elles ne vous préparent pas à la réussite à long terme.
Il est beaucoup moins dangereux et plus efficace de déployer en utilisant l'infrastructure en tant que code (IaC) ou en utilisant un outil de ligne de commande. Cette approche présente plusieurs avantages :
- Il existe une procédure d'examenLes membres de l'équipe ont la possibilité d'effectuer des modifications dans le cadre d'un système de gestion de projet, où toutes les modifications sont visibles par les autres membres de l'équipe. Vous pouvez appliquer des règles de révision qui rendent impossible le déploiement d'une modification sans que quelqu'un d'autre ne l'ait d'abord examinée.
- Vous pouvez également définir des règles autour de la performance et de la sécurité, comme par exemple ne pas autoriser un bucket S3 à être défini comme public. Outils d'analyse automatisés permettant de définir des règles - par exemple, interdiction de rendre public un godet S3.
L'utilisation de l'IaC ou de la ligne de commande pour mettre en place et gérer votre architecture en nuage peut nécessiter beaucoup de configuration, de temps et d'argent. Mais l'avantage est que vous finissez par économiser beaucoup d'argent, de vulnérabilités et de dommages dus à des erreurs inutiles.
Mise en œuvre et gestion d'une archive en nuage : Meilleures pratiques
Il y a deux choses principales à garder à l'esprit lors de la mise en œuvre d'un système d'archivage en nuage :
- Veillez à configurer vos voies d'accès au stockage de manière à ce que les bonnes personnes ou applications aient accès aux données de l stockage adéquat.
- Veillez à classer correctement vos données afin que toutes les données ingérées soient automatiquement placées dans le bon espace de stockage.
Voici d'autres conseils pour la mise en place de votre archive en nuage :
- Report sur le stockage à chaud: En règle générale, il convient d'envisager de stocker d'abord toutes les données dans un système de stockage à chaud.
- Automatiser le stockage des données en chambre froide: Mettez en place un système automatisé qui reclasse les données et les transfère dans une chambre froide après une période déterminée (vous pouvez acheter une solution clé en main ou élaborer vos propres règles à cet effet). Ce processus à lui seul rend les erreurs coûteuses beaucoup plus difficiles à commettre. Vous pouvez utiliser un outil de téléchargement de données/transfert de fichiers qui s'intègre au stockage en nuage, puis configurer vos règles d'archivage au sein de la plateforme de stockage en nuage (par exemple, archiver les données non traitées après X jours).
- Utiliser la console uniquement pour les PoC: Utilisez la console de gestion pour des preuves de concept uniquement dans un compte sandbox (très soigneusement - assurez-vous de surveiller vos coûts sur ce compte). Une fois le PoC finalisé, déployez-le en production en utilisant l'IaC ou la ligne de commande. Si vous utilisez la console web en production et que vous commettez une erreur, vous devrez vous souvenir de tout ce que vous avez cliqué afin de pouvoir reproduire le problème. Les outils de ligne de commande permettent d'éviter le scénario ci-dessus, car si vous entrez les mauvaises commandes, le travail ne fonctionnera tout simplement pas.
- Soyez avare d'accès privilégiés: Les administrateurs informatiques ne doivent accorder un accès privilégié au stockage qu'aux utilisateurs ou fonctions de l'entreprise qui ont besoin de sauvegarder des données pour les archiver.
MASV permet d'ingérer sans effort des données dans des archives en nuage
La mise en place et la gestion d'un système d'archivage en nuage avec vos autres systèmes de stockage en nuage peut représenter une charge de travail importante et nécessite un investissement en temps considérable au départ.
Mais tout ce temps et ces efforts en valent la peine, car cela signifie que vous avez systématiquement pensé votre processus d'archivage des données, ce qui, à son tour, signifie moins de configurations erronées et d'erreurs coûteuses.
D'autre part, la gestion de plusieurs destinations de stockage et de l'accès partagé - du stockage à chaud à l'archivage - peut rapidement devenir un cauchemar administratif pour les équipes informatiques qui doivent gérer plusieurs plates-formes de stockage et les autorisations des utilisateurs, tout en veillant à la sécurité du système. Mais MASV Centralized Ingest peut vous aider à simplifier le processus d'ingestion des données dans l'ensemble de votre stockage en nuage tout en améliorant la sécurité.
Centralized ingest is a hub to connect, manage, and automate data ingestion into storage without having to manage multiple users and permissions at the storage platform level.
IT admins can easily connect shared storage—like a cloud archive—through MASV‘s browser interface, then configure ingest access within a centralized, secure, and automated gateway to all your cloud storage (including infrequent access storage classes, like S3 Glacier). Project teams can then use MASV to automate media into shared storage using a Portail de téléchargement convivialLa mise en place d'un système de gestion de l'information permet d'améliorer la productivité et de simplifier l'administration.
S'inscrire à MASV gratuitement aujourd'hui.
Automatisez votre processus de sauvegarde et de stockage d'archives
MASV s'intègre à des dizaines de plateformes cloud et vous permet d'automatiser le stockage de supports volumineux.