Mit Object Storage ins Zettabyte-Zeitalter
„Daten sind das Öl der Wissensgesellschaft“, diese Aussage ist häufig zu hören, von Wirtschaftsfachleuten, Unternehmern und Wissenschaftlern. Und sie haben Recht. Denn High-End-Technologien wie das Internet der Dinge (IoT, Internet of Things), Industrie 4.0 und selbstfahrende Autos sind ohne das Bearbeiten, Speichern und Übermitteln von Daten ebenso wenig denkbar wie triviale Vorgänge wie das Schreiben einer E-Mail oder der Einkauf bei einem Online-Versender.

Laut IDC steigt der weltweite Datenbestand bis zum Jahr 2020 auf 44 Zettabyte an. Das entspricht über 40 Milliarden Terabyte-Festplatten. Bild: IDC / EMC
Spagat zwischen Kosten, Performance und Datenflut
Diese Entwicklung setzt die IT-Abteilungen unter Druck. Denn die müssen einerseits dafür Sorge tragen, dass für die rapide wachsenden Datenmengen genügend Speicherkapazitäten vorhanden sind. Andererseits dürfen jedoch die Kosten nicht aus dem Ruder laufen, weil vorhandene Speichersysteme ausgebaut beziehungsweise neue angeschafft werden müssen. Doch häufig sind die Speichertechnologien, die in Unternehmensnetzen eingesetzt werden, nur bedingt für rapide zunehmende Datenmengen gerüstet. Das gilt insbesondere für Informationen, die in strukturierter Form oder als halb- und unstrukturierte Daten vorliegen: als Fotos, Tabellen, Videos, E-Mails, Word- und PDF-Dateien, Archivdaten et cetera.Der klassische Ansatz: Datei- und blockbasierte Speicherstrukturen
Derzeit dominieren bei Storage-Systemen zwei Ansätze: Dateibasierte (File) und blockorientierte Technologien. File-orientierte Verfahren kommen vorzugsweise bei Network-Attached-Storage-Systemen (NAS) zum Einsatz. Protokolle von CIFS (Common Internet File System), NFS (Network File System) und SMB (Server Message Block) legen Daten in einer hierarchischen Datei- und Verzeichnisstruktur auf einem Netzwerkspeicher ab. Nutzer können von unterschiedlichen Systemen aus auf diese Informationen zugreifen.
Laut dem Visual Networking Index (VNI) von Cisco steigt das Volumen des weltweiten IP-Traffics bis 2019 auf 168 Exabyte pro Monat. Bild: Cisco
Ein Nachteil von File-basierten Systemen: Wo auf einem physischen Datenträger, etwa den SSDs oder Festplatten eines NAS-Systems, die Daten lagern, wem sie „gehören“ und wer gerade auf sie zugreift, ist in Meta-Daten festgelegt. Je mehr Dateien vorhanden sind, desto komplexer wird das Verzeichnis dieser Meta-Daten und desto aufwändiger ist deren Verwaltung. Das schlägt sich negativ auf die Performance der Speichersysteme nieder. Hinzu kommt, dass sich NAS-Systeme nicht sonderlich gut skalieren lassen. Auch in diesem Fall erweist sich die hierarchische Dateistruktur mit einem begrenzten „Namensraum“ (Namespace) als Bremsklotz.Blockorientierte Techniken für iSCSI und SAN
Vor allem in Speichernetzen (Storage Area Networks, SANs) kommen blockorientierte Speicherverfahren zum Zuge. Ein Block ist ein Rohdatensegment fester Größe, das über Schnittstellen und Protokolle wie Fibre Channel (FC), iSCSI oder Fibre Channel over Ethernet (FCoE) angesprochen wird. Ein Datenblock verfügt über keine Meta-Daten. Als Kontrollinstanz dient vielmehr das Server-Betriebssystem. Es verfügt über die Informationen, auf welchen Storage-Ressourcen welche Datenblöcke abgelegt sind und wer Zugriff darauf hat. Aus Sicht eines Endsystems (Client) stellt sich Block-orientierter Speicher wie eine Festplatte dar. Allerdings können die Datenblöcke auf diverse Speichermedien verteilt werden. Zu den größten Vorteilen von Block-Storage zählt die hohe Performance, sprich geringe Verzögerungszeiten beim Datenzugriff. Der Grund ist, dass auf keine File-Systeme wie EXT3 Rücksicht genommen werden muss. Hinzu kommt die hohe Zuverlässigkeit von Block-Storage-Systemen.
Die drei Storage-Technologien im Überblick - Bild: Canonical
Zu den Nachteilen zählen die relativ hohen Kosten solcher Systeme und die eingeschränkte Skalierbarkeit. Daher werden Block-Storage-Komponenten meist in einem Rechenzentrum konzentriert. Große, räumlich verteilte Storage-Umgebungen, erhöhen die Komplexität und Managementkosten. Doch gerade solche Speicher-Strategien liegen derzeit im Trend. So „wandern“ Daten verstärkt in externe Rechenzentren, etwa Cloud-Datacenter. In einer Cloud lassen sich Daten auf einfache und kostengünstige Weise archivieren. Außerdem können Nutzer Daten und virtuelle Maschinen (Virtual Machines) in eine Cloud „replizieren“. Nach Ausfall von IT-Systemen im eigenen Rechenzentrum stehen diese Ressourcen dann schnell wieder zur Verfügung, Stichwort Disaster Recovery.Object Storage – der neue „Star“ am Storage-Himmel
Anders liegt der Fall bei einer relativ jungen Technik: Object Storage. Sie organisiert Daten in Objekten. Ein Objekt besteht aus drei Elementen:- Den eigentlichen Daten: Diese können in unterschiedlicher Form und Größe vorliegen, vom Word-Dokument über Fotos bis hin zu einem 1000 Seiten starken Handbuch für eine Werkzeugmaschine.
- Einem variablen Bestand an Meta-Daten, die der Nutzer definieren kann: Sie enthalten beispielsweise Informationen über die Art der Informationen, ihren Verwendungszweck, die Zugriffberechtigung, die Vertraulichkeitsstufe etc. Ein Vorteil ist, dass sich diese Meta-Daten nach Bedarf anpassen lassen. So kann der Nutzer ergänzende Informationen hinzufügen, etwa auf welchen Speichersystemen an welchen Standorten Objekte abgelegt werden sollen, etwa im Rechenzentrum eines Cloud-Service-Providers.
- Einer eindeutigen ID („Object Identifier“): Sie ermöglicht es, den Speicherort jedes Objekts zu ermitteln, auch dann, wenn Daten auf unterschiedlichen Storage-Systemen gespeichert werden.

Die Struktur eines Objekts: Es besteht aus den Nutzdaten sowie system- und nutzerbezogenen Meta-Informationen. Hinzu kommt eine eindeutige ID für jedes Objekt. Bild: HDS
Vorteile: Ausfallsicherheit und Skalierbarkeit
Zu den größten Vorteilen von Object Storage zählt die Skalierbarkeit. Die Speicherressourcen lassen sich nach Belieben um weitere „Storage-Knoten“ (Nodes) erweitern, ohne dass die Performance leidet. Hinzu kommt die hohe Fehlertoleranz, vor allem in Verbindung mit Object-Storage-Services aus der Cloud. Je nach Anforderung lässt sich ein Objekt parallel in drei, vier oder noch mehr Nodes ablegen. Diese können an unterschiedlichen Standorten platziert werden, etwa mehreren Rechenzentren eines Cloud-Service-Providers. Fallen Speicherknoten aus, sind die Informationen dennoch verfügbar. Eine weitere Sicherheitsmaßnahme ist das „Erasure Coding“. Die Technologie arbeitet ähnlich wie RAID und ermöglicht es, Daten anhand von Paritätsinformationen wiederherzustellen. Beide Techniken – das Speichern von Objekten auf mehreren Nodes und Erasure Encoding – ermöglichen es, wichtige Informationen gegen Verlust abzusichern. Das gilt vor allem dann, wenn neben dem unternehmenseigenen Datacenter ein externes Cloud-Rechenzentrum als Speicherort genutzt wird. Dann hat der Anwender die Gewähr, dass sich auch nach massiven IT-Problemen Datenbestände wiederherstellen lassen.
Tabelle: Techtarget