Objektspeicher als Antwort auf die Datenflut

Architekturschichten der Objektspeicher-Software

von - 28.04.2016
Die Objektspeicher-Software besteht aus lose gekoppelten Services und ist hardwareunabhängig:
  • Ein Präsentations-Layer verwaltet die Schnittstellen zu den Clients über HTTP-Protokolle via REST und meist zusätzlich über traditionelle Dateisystemprotokolle.
     
  • Ein Metadatenmanagement-Layer bestimmt, wo die Objekte gespeichert werden, wie sie auf Speicherknoten verteilt und wie sie geschützt werden.
     
  • Der Storage-Layer bildet die Schnittstelle zu den Knoten.
Redundanz und Hochverfügbarkeit sollen über die Verteilung desselben Objekts auf mehrere Knoten gewährleistet werden. Erzeugt ein Nutzer ein neues Objekt, so wird dies je nach Policy auf einen oder mehrere Knoten kopiert. Die Knoten können im selben Rechenzentrum sein oder in den meisten Implementierungen auch geografisch verteilt.
Paul Turner
Paul Turner
Chief Marketing Office bei Cloudian
www.cloudian.com
Foto: Cloudian
„Eine komplette Implementierung der Amazon-S3-Schnittstelle bringt große Vorteile, denn Anwender können damit nicht nur selbst entscheiden, welche Daten intern und welche extern gespeichert werden, sondern auch eine eigene Amazon-Cloud aufbauen.“
Um Probleme beim Handling des gleichzeitigen Zugriffs mehrerer Nutzer auf eine Datei zu umgehen, lassen sich Objekte nicht updaten, es werden vielmehr jeweils neue Versionen mit eigenen IDs erzeugt – ein Vorteil für verteilte Speicher und verteilten Zugriff.
Um die Verfügbarkeit und Integrität der Daten zu erhöhen, ersetzen die meisten Anbieter von Objektspeichern das traditionelle RAID-Verfahren durch eine Variante der sogenannten Erasure-Coding-Methode. Dabei werden die Daten in Fragmente aufgeteilt, mit redundanten Datenteilen erweitert und codiert und auf mehreren Knoten verteilt gespeichert. Für die Rekonstruktion beschädigter Dateien werden diese Informationen dann aus anderen Speicherorten wieder zusammengesetzt.
Evaluierung von Object Storage
Objektbasierte Speicherlösungen bringen unterschiedliche Fähigkeiten mit und sind nicht für alle Einsatzszenarien und Workloads gleich gut geeignet. Deshalb empfiehlt IDC Unter-nehmen, bei der Suche nach einer Lösung die folgenden Kriterien in die Evaluierung einzubeziehen:
  • Skalierbarkeit der Plattform: Die Skalierbarkeit ist nicht allein eine Sache der Hardware, sondern auch des Datendurchsatzes, der Dateigröße und der Dateimenge. Eine geeignete Lösung für eine bestimmte Umgebung sollte jede einzelne Dimension separat skalieren können.
     
  • Datenmanagement: Das Daten-Layout und seine Organisation kann Auswirkungen auf Performance, Effizienz und Verfügbarkeit haben. Unternehmen wollen meist auch die vorhandenen Daten nach Mustern durchsuchen können, etwa um neue Geschäftszenarien aufzubauen. Deshalb ist es von Bedeutung, dass die Objektspeicher-Lösung über fortschrittliche Methoden für Metadatenverwaltung und Indexing verfügt und in die Infrastruktur auch Analytics-Funktionen integriert sind.
     
  • Speichereffizienz: Je größer die Datensets und das Speichersystem sind, desto dringender ist der Bedarf für Datenmanagement und Datenreduzierung: Deduplizierung, Komprimierung, Thin Provisioning. Des Weiteren spielen Datenoptimierungstechniken wie automatisches Daten-Tiering eine Rolle. Eine geeignete Lösung sollte viele, wenn nicht alle dieser Fähigkeiten mitbringen und ohne lange Unterbrechungen neu kalibriert werden können.
     
  • Elastizität der Datenverfügbarkeit: Fähigkeiten wie Replizierung und Erasure Coding und die Granularität, mit der diese Funktionen angewendet werden, sollten in die Evaluierung miteinfließen. Es geht beispielsweise auch darum, ob Policies auf Konto-, Container- oder Objektebene eingesetzt werden können.
     
  • Workload-Nachbarschaft: Da die meisten Objektspeicherplattformen auf Knoten beruhen, bieten sie gute Möglichkeiten, benachbarte verteilte Workloads wie Hadoop Map/Reduce und Hypervisors mitlaufen zu lassen.
Auf diese Weise lässt sich Overhead und damit Zeit bei der Datenrekonstruktion sparen. Gerade bei großen Datenmengen oder bei fehlertoleranten Anwendungen hat sich diese Methode als sehr nützlich erwiesen.
Verwandte Themen