Jetzt ist Kubernetes auch auf Big Data eingestellt

von Online Redaktion - 13.04.2021

Foto: Maslakhatul Khasanah / shutterstock.com

Um Big-Data- und ML-Anwendungen zu betreiben, muss keine überdimensionierte Infrastruktur für Kubernetes-Cluster mehr geschaffen werden.

Dieser Beitrag wurde erstellt von Marc Kleff, Director Solutions Engineering bei NetApp.

Dem Zusammenspiel von Containern und Container-Orchestratoren wie Kubernetes gehört die Zukunft, da es prädestiniert für das Computing von Cloud-nativen Applikationen ist. Im Zuge dessen wird sich Kubernetes als die Cluster-Plattform weiter etablieren, die im Laufe der Zeit alle Workloads, moderne wie traditionelle, ausführt.

Heute befinden sich Unternehmen in unterschiedlichen Phasen, um mit Containern und Kubernetes ihre datengesteuerte Transformation voranzutreiben. Dabei müssen sie sich darauf einstellen, dass die meisten Kubernetes-Anwendungen eine grundlegend unterschiedliche Architektur aufweisen als die traditionellen IT-Anwendungen. So kann eine Kubernetes-Anwendung über einen oder mehrere Container verfügen, die über mehrere Knoten verteilt sind, die eine Reihe von Microservices mit ihren individuellen Datenspeichern implementieren. Die Verwaltung der Daten verlangt daher vom Anwender einiges, wenn dieser wie üblich Kubernetes-Cluster in mehreren Umgebungen betreibt.

Ineffiziente Spark-Jobs

Eine andere Herausforderung betrifft den Einsatzzweck. Kubernetes setzt sich immer weiter durch, um Cloud-native Anwendungen flexibel bereitzustellen. Daneben zeichnet sich zudem der Wunsch ab, dieses in ebenso hoher Geschwindigkeit für Big-Data-Anwendungen zu tun. Dazu bietet sich die Kombination aus Kubernetes und Apache Spark an.

Die schnelle Unified Analytics-Engine erleichtert Big Data und Machine Learning (ML) wesentlich. Allerdings erweist es sich als aufwendig, eine angemessene Cloud-Infrastruktur für Kubernetes bereitzustellen, in der Performance und Auslastung für die Big-Data-Analyse ausbalanciert sind.

Effiziente Container-Engine

Die Lösung liegt in einer serverlosen Container-Engine, die am besten Microsoft Azure Kubernetes Service (AKS), AWS ECS (Elastic Container Service) und EKS (Elastic Kubernetes Service) sowie Googles GKE (Google Kubernetes Engine) unterstützt. Sie automatisiert das Deployment einer Spark-Umgebung, die zugleich automatisch skaliert und so an den optimalen Betrieb von Big-Data-Applikationen angepasst wird.

Ausgestattet mit diesen Features gelingt es etwa Spot Wave von NetApp, das Spot Ocean unterstützt, ungenutzte Ressourcen in der Cloud und Kosten um bis zu 90 Prozent zu senken. Die kontinuierliche Größenanpassung der Spark-Konfiguration basiert auf der Analyse der tatsächlichen Spark-JobAnforderungen, die mit einer intelligenten Mischung aus Spot-, On-Demand- und reservierten Instanzen ausgeführt werden.

Konzentration auf die Daten

Das Zukunftsversprechen Kubernetes braucht die richtigen Werkzeuge, damit sich Unternehmen nicht unnötig mit Fragen der Infrastruktur beschäftigen müssen, wenn sie Big Data oder ML in einer Spark-Umgebung betreiben wollen. Diese Aufgabe kann eine serverlose Container-Engine übernehmen, die in der Lage ist, die potenziell richtige Infrastruktur zu spinnen und stetig an die jeweiligen Spark-Jobs anzupassen. Firmen sparen dadurch Zeit und Kosten.

Was jedoch genauso entscheidend ist: Die Unternehmen können sich auf ihre Daten konzentrieren – und auf das, was in diesen steckt. Dazu trägt auch bei, dass es mittlerweile Tool-Sets für die Datenverwaltung von Kubernetes-Clustern gibt. Mit ihnen lassen sich Applikationen schützen, wiederherstellen und verschieben, ohne dass man eine Software herunterladen, installieren, verwalten oder aktualisieren muss. Dadurch sinkt die Schwelle weiter, in Kubernetes
einzusteigen.

Jetzt ist Kubernetes auch auf Big Data eingestellt

Ineffiziente Spark-Jobs

Effiziente Container-Engine

Konzentration auf die Daten

Mehr zum Thema