Cloud-Archiv: Vorteile, Herausforderungen und Best Practices

von Jim Donnelly | 15.7.2024

Ein Archiv, das in der Cloud oder anderswo gehostet wird, ist mit einem Speicher-Backup vergleichbar. Anders als ein Backup ist ein Archiv jedoch für Daten gedacht, die langfristig gespeichert werden und auf die nur selten zugegriffen wird.

Aber was genau ist ein Cloud-Archiv, wie unterscheidet es sich von herkömmlichen Methoden zur Datenarchivierung und Welche Best Practices sollten Sie bei der Cloud-Archivierung beachten? Wir haben die Antworten für Sie. Los geht's.

Inhaltsübersicht

Warum Medien oder andere Daten archivieren?
Was ist ein Cloud-Archiv?
- Cloud-Archivierung vs. Cloud-Backup
- Cloud-Archiv vs. Bandarchiv
Herausforderungen von Cloud-Archiven (und wie sie zu lösen sind)
Implementierung und Verwaltung eines Cloud-Archivs
Mühelose Aufnahme von Daten in das Cloud-Archiv mit MASV

Big Data Ingest für Cloud Archive

Ingest großer Datenmengen in mehrere Cloud-Archivlösungen wie Amazon S3 Glacier von einem zentralen Standort aus.

Kostenlos anmelden

Warum Medien oder andere Daten archivieren?

Video- und Postproduktionsfirmen nutzen die Datenarchivierung häufig, um Speicherplatz freizugeben und sicherzustellen, dass sie im Bedarfsfall immer noch Zugriff auf die Dateien haben (z. B. bei einem Informationsaudit, wenn ein Kunde nach Filmmaterial von vor drei Jahren fragt, oder bei der Wiederherstellung nach einer Katastrophe).

Die Archivspeicherung wird auch als kalte Datenspeicherung bezeichnet. Für Video-Editoren und andere Post-Profis hilft die Aufbewahrung von Daten im kalten Speicher, Speicherplatz im schnelleren, reaktionsfähigeren "heißen" Speicher freizugeben, wie z. B. RAID-Arrays oder an das Netzwerk angeschlossener Speicher (NAS) Geräte.

In Archiven gelten oft strenge Regeln, wer Daten speichern und darauf zugreifen darf, da Sicherheitsbedenken bestehen und die Auslagerung von Daten aus Kühllagern teuer und zeitaufwändig ist.

Was ist ein Cloud-Archiv?

A Cloud-Archiv ist genau das, wonach es sich anhört - ein Archiv, das in der Cloud gehostet wird, in der Regel über eine Storage-as-a-Service Public Cloud wie Amazon S3 Object Storage oder Google Cloud Storage. Die Cloud-Archivierung ist beliebt, seit Unternehmen herausgefunden haben, dass sie die Cloud nutzen können:

Speichern Sie archivierte Daten kosteneffizienter (und mit weit weniger Wartungsaufwand als bei der internen Archivierung) in beliebigem Umfang; jede Archivierungslösung bietet in der Regel praktisch unbegrenzten Umfang und kalten Datenspeicher für nur wenige Cent pro GB.
Vermeiden Sie hohe Investitionsausgaben für den Kauf und die Aufrüstung teurer Vor-Ort-Ausrüstung (und Betriebskosten für die Wartung, Aktualisierung und das Patchen dieser Ausrüstung).

Vor der Cloud nutzten die meisten Medienhäuser Lineares Band-Öffnen (LTO), eine Art Magnetband, zur Speicherung archivierter Daten.

Cloud-Archivierung vs. Cloud-Backup

A Cloud-Archiv und Cloud-Backup mögen gleich klingen, sind es aber nicht:

Ein Backup werden in regelmäßigen Abständen neue Daten kopiert, sie sind relativ leicht zugänglich, falls Daten wiederhergestellt werden müssen, und sie beinhalten oft Änderungen der Daten, da sich die Produktionsdaten in Echtzeit weiterentwickeln. Sie wird normalerweise vor Ort aufbewahrt (wenn sie physisch gespeichert wird) oder in leicht zugänglichen Cloud-Speicherund wird nicht auf unbestimmte Zeit aufbewahrt.
Ein Archiv verschiebt Daten einmalig an einen anderen Ort und bewahrt sie auf unbestimmte Zeit an einem sicheren Ort auf. Die Daten werden nicht verändert oder ergänzt. Das Auslagern von Daten aus Archiven ist oft ein zeitaufwändiger Prozess.

Cloud-Archiv vs. Bandarchiv

LTO-Bänder werden seit Jahren verwendet und sind das traditionelle Mittel der Wahl für jeden Medienarchivar. LTO-Bandarchive enthalten in der Regel Daten auf Magnetbändern, die in Kassetten aufbewahrt werden, die dann an einem sicheren Ort (in der Regel außerhalb des Unternehmens) gelagert werden.

In Bandbibliotheken werden häufig Roboter eingesetzt, um die oft tausenden von Kassetten zu lagern und abzurufen.
Aufgrund der begrenzten Kapazität von Bändern werden die Bandbibliotheken ständig erweitert, wenn mehr Daten hinzugefügt werden (wobei zu erwähnen ist, dass LTO-7-Bänder bis zu 6 TB an Daten speichern können).
Bandbibliotheken sind häufig über Dateisysteme wie das Linear Tape File System (LTFS) organisiert.

LTO-Bänder werden häufig für die Archivierung verwendet, da sie haltbar sind, eine lange Lebensdauer haben (bis zu 30 Jahre) und billiger sind als die Aufbewahrung archivierter Daten auf Festplatten. Der Nachteil von Bandbibliotheken ist, dass Bänder spezielle Lagerungsbedingungen einer konstanten Temperatur von etwa 70 Grad F mit 40 Prozent relativer Luftfeuchtigkeit.

Platzhalterbild

QUELLE: TechTarget

Aufgrund des langsamen Ausstiegs, der mit einigen Cloud-Kaltspeichern verbunden ist, kann es sogar schneller sein, Daten aus einer Bandbibliothek zu holen als aus einem Cloud-Speicher.

Aber LTO-Bänder sind im Allgemeinen in Ungnade gefallen, wenn man sie mit Cloud-Archivierungsoptionen vergleicht, die oft preiswerter sind und bessere Sicherheit, Suchfunktionen, Redundanz, Betriebszeit und Komfort bieten.

Zentralisierung der Dateneingabe mit MASV

MASV fungiert als zentraler Einstiegspunkt zu jedem angeschlossenen Speicherziel, vom heißesten bis zum kältesten, On-Premise oder in der Cloud.

MASV kostenlos testen

Herausforderungen im Zusammenhang mit Cloud-Archiven (und wie sie zu lösen sind)

Die Implementierung und Verwaltung eines Cloud-Archivs ist nicht ganz unproblematisch - auch wenn einige dieser Herausforderungen oft auf mangelnde interne Cloud-Expertise zurückzuführen sind, was wiederum zu Fehlkonfigurationen führen kann.

Und Fehlkonfigurationen können dann zu höheren Kosten, geringerer Leistung und mangelndem Vertrauen in die Effizienz des Einbringens von Inhalten in ein Cloud-Datenarchiv führen.

Wie kommt es zu Fehlkonfigurationen in der Cloud?

Einer der Hauptvorteile der Cloud-Speicherung im Allgemeinen ist die praktisch unbegrenzte Skalierbarkeit der Kapazität - der Preis für die unbegrenzte Skalierbarkeit ist jedoch, dass man sich sehr leicht selbst ins Bein schießen kann. Aus diesem Grund erfordert die richtige Implementierung eines Cloud-Archivs viel Planung und Strategie.

Leider übergehen viele Unternehmen die Planungsphase und stürzen sich gleich in die Arbeit.

"(Rundfunkanstalten, die neu in die Cloud einsteigen) experimentieren anfangs oft und probieren Dinge selbst aus, aber sie werden in der Regel durch die Kosten verbrannt, wenn sie zum Beispiel eine EC2-Instanz über das Wochenende laufen lassen", sagte Nick Soper, Cloud-Produktmanager bei der Medien-Cloud-Beratung Tyrell, in einem Interview mit MASV.

Schließlich kann man sich leicht von den glänzenden Verwaltungskonsolen eines Cloud-Archivierungsdienstes in falscher Sicherheit wiegen lassen (unser Ratschlag: Benutzen Sie die Konsole nicht, außer unter bestimmten Umständen. Aber dazu später mehr).

Platzhalterbild

QUELLE: Amazon

💡 Lesen Sie mehr: Best Practices für die Sicherung Ihrer Speicherverbindung

Herausforderung 1: Speicherkosten

Einige Fehlkonfigurationen in der Cloud, wie z. B. die Tatsache, dass ein Amazon S3-Objektspeicher-Bucket für die Öffentlichkeit zugänglich ist (bekannt als "undichter Eimer"), kann zu großen Risiken für die Cybersicherheit und Datenschutzverletzungen führen.

Andere Fehlkonfigurationen können jedoch zu ineffizienten Arbeitsabläufen, ausufernden Kosten und dem Irrglauben führen, dass Cloud-Archive teurer sind.

Schon eine einzige Fehlkonfiguration kann die Cloud-Kosten massiv in die Höhe treiben - zum Beispiel, indem Archivierungsworkflows nicht an einen bestimmten Bucket oder Pfad gebunden sind und Geschäftsanwender aktuelle Daten in ein Cloud-Archiv einspeisen können.

Cold Cloud Storage ist im Allgemeinen billiger als Hot Storage-Optionen. Die Speicherung aktueller Daten in einem Archivspeicher kann jedoch zu sehr hohen Ausstiegsgebühren führen, wenn (wann?) Sie auf diese Daten zugreifen müssen.

Für Amazon S3Das bedeutet zum Beispiel große Kostenunterschiede je nach Speicherklasse:

Art der Lagerung	Speicherkosten (pro GB)
S3-Norm	$0.021-$0.023
S3 Standard Unregelmäßiger Zugriff	$0.0125
S3 Glacier Sofortabruf	$0.004
S3 Glacier Flexible Retrieval	$0.0036
S3 Gletschertiefes Archiv	$0.00099

Wie oben gezeigt, sinken die Speicherkosten pro GB, wenn man zu immer kälteren Speicheroptionen übergeht.

Großartig! Das bedeutet, dass Sie alle unsere Daten in einem kalten Speicher aufbewahren sollten, richtig?

Falsch - die Kosten für die Datenausgabe und -abfrage steigen mit kälterer Lagerung:

Art der Lagerung	Anfragen zum Datenabruf (pro 1.000 Anfragen)	Datenabrufe (pro GB)
S3-Norm	K.A.	K.A.
S3 Standard Unregelmäßiger Zugriff	K.A.	$0.01
S3 Glacier Sofortabruf	K.A.	$0.03
S3 Glacier Flexible Retrieval	$0.05-$10	$0.01-$0.03
S3 Gletschertiefes Archiv	$0.025-$0.10	$0.0025-$0.02

Die Lektion hier: Konfigurieren Sie Ihren Cloud-Speicher nicht falsch, so dass Benutzer aktuelle Daten in Ihr Cloud-Archiv oder kalte Daten in den heißen Speicher einspeisen (was ebenfalls teuer werden kann)..

Das Einspeisen von Archivdaten in Hot Storage kann in der Tat teuer werden (obwohl Anbieter wie Amazon in der Regel nur stundenweise abrechnen, so dass die Speicherkosten nicht allzu sehr in die Höhe schießen sollten, solange Sie die Daten frühzeitig erkennen und in Ihr Datenarchiv verschieben).

Auch die versteckten Kosten für die herkömmliche Archivierung müssen bedacht werden: Die Unterbringung der Bänder, ihre Klassifizierung und die Verwaltung der Kosten für den physischen Speicherplatz können sich ebenfalls summieren.

💡 Lesen Sie mehr: Multi-Cloud verwalten: Aufbau einer erfolgreichen Multi-Cloud-Strategie

Herausforderung 2: Leistung

Fehlkonfigurationen können auch zu einer verzerrten Sicht auf den Nutzen der Cloud in Bezug auf die Leistung führen, insbesondere - ähnlich wie in unserem Kostenbeispiel oben - wenn Benutzer aktuelle Daten in einem kalten Speicher speichern und sie wieder herausholen müssen.

Es kann eine Weile dauern, bis man mit der Abfrage von Daten aus dem Kältespeicher überhaupt anfangen kann: Sie müssen zunächst warten, bis die Datenabrufanfrage bearbeitet wurde, was in der Regel Stunden dauert.

Dann muss das Archiv die Daten abrufen, was buchstäblich Tage dauern kann.

Ähnlich wie bei den Kosten ist auch die Durchlaufzeit für Abruf von Daten aus dem Kältespeicher hängt weitgehend von der Höhe der Kühllagerung ab:

Art der Lagerung	Durchlaufzeit der Datenabfrage
S3-Norm	Millisekunden
S3 Glacier Sofortabruf	Millisekunden
S3 Glacier Flexible Retrieval	1-5 Minuten (Eilverfahren), 3-5 Stunden (Batch), 5-12 Stunden (Bulk)
S3 Gletschertiefes Archiv	12-48 Stunden

Auch wenn Cloud-Anbieter wie Amazon sehr nachsichtig sind, wenn Sie einen Fehler machen, wollen Sie doch nicht, dass wichtige Geschäftsdaten, die Sie gerade brauchen, im Glacier Deep Archive festsitzen.

Was eine akzeptable Durchlaufzeit für die Datenabfrage ist, hängt von der Art der Daten und dem Anwendungsfall ab. In manchen Fällen sind flexible Abrufoptionen am besten geeignet.

Herausforderung 3: Die Verwaltungskonsole/das Portal

Wir werden das jetzt einfach mal sagen: Wenn Sie eine Verwaltungskonsole oder ein Portal wie die AWS Management Console, das Azure Portal oder die Google Cloud Console zur Verwaltung Ihrer Cloud-Services verwenden, machen Sie es wahrscheinlich falsch.

Die Verwaltungskonsolen der großen Public-Cloud-Anbieter sehen in der Regel gut aus und sind so konzipiert, dass sich neue Benutzer leicht zurechtfinden: In vielen Fällen müssen Sie nur ein paar Kästchen ankreuzen und schon ist Ihr System konfiguriert.

Das Problem ist nur, dass es sehr einfach ist, diese Kästchen anzukreuzen - und wenn man das falsche ankreuzt, kann das kaskadenartige negative Auswirkungen haben, die anfangs vielleicht nicht offensichtlich sind, aber im Laufe der Zeit eine Menge Probleme verursachen können.
Viele Konsolen können verwirrend sein und haben inkonsistente Regeln zwischen den Modulen, was es nahezu unmöglich macht, die Auswirkungen einer bestimmten Änderung auf den Rest des Systems zu verstehen.
Außerdem ist es für Ihre Mitarbeiter sehr schwierig, im Falle einer Fehlkonfiguration zu sehen, was gemacht wurde.

Aus diesen Gründen Wir empfehlen, die Verwaltungskonsolen der öffentlichen Cloud-Anbieter nicht für die Bereitstellung in der Produktion zu verwenden.. Die Konsolen mögen ein guter Ausgangspunkt sein und können hilfreich sein, aber sie sind nicht geeignet, um langfristig erfolgreich zu sein.

Weitaus weniger gefährlich und effektiver ist die Bereitstellung über Infrastructure as Code (IaC) oder über ein Befehlszeilentool. Dieser Ansatz hat mehrere Vorteile:

Es gibt einen Überprüfungsprozessin dem jede Änderung, die Sie vornehmen möchten, für andere Teammitglieder sichtbar ist. Sie können Überprüfungsregeln durchsetzen, die es unmöglich machen, eine Änderung bereitzustellen, ohne dass jemand anderes sie vorher überprüft hat.
Sie können auch Regeln festlegen in Bezug auf Leistung und Sicherheit, z. B. dass ein S3-Bucket nicht als öffentlich festgelegt werden darf. Automatisierte Scan-Tools, mit denen Sie Regeln festlegen können - z. B. dass ein S3-Bucket nicht als öffentlich festgelegt werden darf.

Die Verwendung von IaC oder der Befehlszeile zur Einrichtung und Verwaltung Ihrer Cloud-Architektur kann eine Menge Konfiguration, Zeit und Kosten erfordern. Der Vorteil ist jedoch, dass Sie am Ende eine Menge an Kosten, Schwachstellen und Schäden durch unnötige Fehler sparen.

Implementierung und Verwaltung eines Cloud-Archivs: Bewährte Praktiken

Bei der Implementierung eines Cloud-Archivs müssen Sie vor allem zwei Dinge beachten:

Stellen Sie sicher, dass Sie Ihre Speicheringestpfade so konfigurieren, dass die richtigen Personen oder Anwendungen Zugriff auf die Daten haben. richtige Lagerung.
Stellen Sie sicher, dass Sie Ihre Daten richtig klassifizieren, damit alle aufgenommenen Daten automatisch im richtigen Speicherbereich abgelegt werden.

Im Folgenden finden Sie einige weitere Tipps für die Einrichtung Ihres Cloud-Archivs:

Zurückstellen in die Warmlagerung: In der Regel sollten Sie alle Daten zunächst in einem Hot Storage speichern.
Automatisierte Speicherung von Daten im kalten Speicher: Richten Sie ein automatisiertes System ein, das die Daten nach einer bestimmten Zeit neu klassifiziert und in den kalten Speicher verschiebt (Sie können eine schlüsselfertige Lösung kaufen oder Ihre eigenen Regeln dafür aufstellen). Allein dieser Prozess macht es viel schwieriger, einen teuren Fehler zu machen. Sie können ein Datenupload-/Dateitransfer-Tool verwenden, das sich in den Cloud-Speicher integrieren lässt, und dann Ihre Regeln für die Archivierung innerhalb der Cloud-Speicherplattform konfigurieren (z. B. Archivierung unzugänglicher Daten nach X Tagen).
Verwenden Sie die Konsole nur für PoCs: Verwenden Sie die Verwaltungskonsole für Proofs of Concept nur in einem Sandbox-Konto (achten Sie sehr sorgfältig darauf, dass Sie Ihre Kosten für dieses Konto überwachen). Sobald der PoC abgeschlossen ist, setzen Sie ihn mit IaC oder über die Befehlszeile in der Produktion ein. Wenn Sie die Webkonsole in der Produktion verwenden und einen Fehler machen, müssen Sie sich alles merken, was Sie angeklickt haben, damit Sie das Problem reproduzieren können. Befehlszeilentools verhindern das oben beschriebene Szenario, denn wenn Sie die falschen Befehle eingeben, funktioniert der Auftrag einfach nicht.
Seien Sie geizig mit privilegiertem Zugang: IT-Administratoren sollten nur Geschäftsanwendern oder Funktionen, die Daten zur Archivierung speichern müssen, privilegierten Speicherzugang gewähren.

Mühelose Aufnahme von Daten in das Cloud-Archiv mit MASV

Das Einrichten und Verwalten eines Cloud-Archivs zusammen mit Ihrem anderen Cloud-Speicher kann viel Arbeit bedeuten und erfordert einen hohen Zeitaufwand im Vorfeld.

Aber der Aufwand lohnt sich, denn er bedeutet, dass Sie Ihren Datenarchivierungsprozess systematisch durchdacht haben - und das wiederum bedeutet weniger Fehlkonfigurationen und kostspielige Fehler.

Andererseits kann die Verwaltung mehrerer Speicherziele und gemeinsamer Zugriffe - vom Hot Storage bis zum Archiv - schnell zu einem administrativen Albtraum für IT-Teams werden, die mehrere Speicherplattformen und Benutzerberechtigungen verwalten und gleichzeitig die Systemsicherheit gewährleisten müssen. Aber MASV Zentraler Ingest kann dazu beitragen, den Dateningest-Prozess für alle Ihre Cloud-Speicher zu vereinfachen und gleichzeitig die Sicherheit zu verbessern.

Automatisieren Sie Ihren Backup- und Archivierungs-Workflow

MASV lässt sich in Dutzende von Cloud-Plattformen integrieren und ermöglicht Ihnen die Automatisierung der Speicherung großer Medien.

MASV kostenlos testen