Small Data

Big Data? Weniger ist oft mehr

von Konstantin Pfliegl - 07.07.2022

Foto: Shutterstock / Tetiana Yurchenko

Was bringen große Datenmengen, wenn man keine Erkenntnisse daraus ziehen kann? Und was ist, wenn man zu wenige Daten hat?

Jedes Unternehmen, das in einer sich wandelnden und beschleunigenden Wirtschaft dauerhaft Erfolg haben möchte, muss seine Daten auswerten und gewinnbringend einsetzen. Daher lautet auch das Credo inzwischen oft: datenbasierte Fakten statt Bauchgefühl.

Doch sind die Datenmengen, die zur Verfügung stehen, quasi Fluch und Segen zugleich: Einerseits sind die Daten bares Geld wert, andererseits stehen Unternehmen vor der Mammutaufgabe, sie für ihr Geschäft effizient einzusetzen – also mit möglichst minimalem Aufwand den größtmöglichen Mehrwert aus den Daten zu ziehen. Daneben gibt es auch Unternehmen, die unter dem gegensätzlichen Problem leiden: zu wenige Daten. Das betrifft häufig kleinere und mittelständische Firmen.

Klein statt groß

Abhilfe soll Small Data schaffen – also das Auswerten kleinerer Datenmengen. „Small Data ist grundsätzlich keine gut und einheitlich umrissene Kategorie im Bereich der Datenverarbeitung“, erklärt Mathias Golombek. „Small Data sind Daten, die von ihrem Umfang, ihrer Aufbereitung und ihrem Format her für das menschliche Verständnis geeignet sind, und aus denen entsprechende Entscheidungen mittels Data Science abgeleitet werden können, wie es im Big-Data-Bereich bereits weithin bekannt und akzeptiert ist“, so der Chief Technology Officer des Datenbankspezialisten Exasol.

Small Data sind Datenaufkommen, die häufig nur einige Hundert Datenreihen umfassen und sich aus wenigen Datenquellen zusammensetzen. „Üblicherweise handelt es sich um Flatfiles wie CSV oder Excel oder kleinere relationale Datenbanktabellen“, so Michael Deuchert, Team Lead Data Analytics bei der IT-Beratung it-novum.

Zwar benötigen etwa Methoden der Künstlichen Intelligenz meist große Mengen an Daten, aber es gibt auch spezialisierte KI-Ansätze, die mit deutlich weniger und kleineren Datensätzen zurechtkommen. Beispiele für solche Small-Data-Algorithmen sind laut Mathias Golombek Data Labeling, künstliche beziehungsweise synthetische Datengenerierung oder Bayes’sche Methoden.

Dass Big Data nicht für alle Anwendungsszenarien erforderlich ist, bestätigt Michael Feindt. Er ist Gründer und Chief Scientific Advisor bei Blue Yonder, einem Spezialisten für Supply-Chain-Management. „Menschliche Entscheidungen basieren in der Regel auf Small Data. Mit großen Datenmengen wäre der Mensch vollkommen überfordert.“ Zudem hänge die erforderliche Datenbasis immer von der Eindeutigkeit der Fragestellung ab. So reichten bei klaren Kausalzusammenhängen wenige Informationen aus, um sinnvolle Entscheidungen zu treffen.

Schlüssel zur Demokratisierung

Der aktuelle Small-Data-Trend macht deutlich, dass eine sinnvolle Nutzung von Daten und Technologien wie Künstlicher Intelligenz nicht nur im großen Stil stattfinden kann. Damit ist Small Data so etwas wie der Schlüssel für die Demokratisierung rund um Big Data und verschafft Unternehmen jeder Größe Zugriff auf diese Technologien.

Michael Deuchert
Team Lead Data Analytics bei it-novum

Foto: it-novum

„Als menschlicher Betrachter kann man bei Small Data die Datenmenge noch gut überblicken und einzelne Datensätze besser nachvollziehen, als dies bei mehreren Millionen Zeilen an Informationen der Fall wäre.“

Auch nach Ansicht von Max Hille, Head of Consulting beim Fullservice-Provider Cloudflight, trägt Small Data in hohem Maß zur Demokratisierung bei. Laut Hille manifestiert sich das beispielsweise beim Training einer komplexen KI-Anwendung. Wenn dies anhand sehr großer Datenmengen passiere, dann sei in den meisten Fällen die Erhebung und Aufbereitung der Daten aufwendig. Dies zeige sich sowohl in der benötigten Zeit – kontinuierliches Sammeln von Daten – als auch in manuellen Tätigkeiten – Annotieren von Daten, um sie für KI-Trainings zugänglich zu machen. „Beides kann zum Show-Stopper werden, wenn eine KI-Anwendung dadurch schlichtweg nicht mehr rentabel ist.“

Small Data ist somit insbesondere für kleinere Unternehmen relevant, die sehr gezielte Analysen auch mit übersichtlichen Datenmengen betreiben möchten. Solassen sich auch Technologien für automatische Analysen und sehr einfache Algorithmen nutzen.

Als menschlicher Betrachter könne man bei Small Data die Datenmenge noch gut überblicken, erklärt Michael Deuchert, und einzelne Datensätze besser nachvollziehen, als dies bei mehreren Millionen Zeilen an Informationen der Fall wäre. „Die geringere Datengröße kann die Trainingszyklen und damit die Entwicklungszeiten von Machine-Learning-Algorithmen verkürzen.“ Damit sei dafür auch kein Cluster an Rechnern mehr notwendig, weil ein einzelner Server oder Arbeitsrechner in den meisten Fällen ausreiche.

Seite

Big Data? Weniger ist oft mehr

Klein statt groß

Schlüssel zur Demokratisierung

Mehr zum Thema