SAS und Talend
SAS: Um Data Quality kümmern sich bei SAS die Produkte Data Management, Data Quality, Data Preparation und Data Quality Desktop. SAS Data Management setzt auf der Analytics-Lösung
SAS: Wenn SAS Data Management ein Datenproblem entdeckt, kann es automatisch zur Bereinigung in SAS Data Remediation überführt werden.
(Quelle: com! professional / Screenshot )
SAS Plattform auf. Dabei spielt es keine Rolle, ob die Informationen in traditionellen Systemen oder im Hadoop-Framework gespeichert sind - SAS Plattform unterstützt relationale Datenbanken, Data Lakes, Cloud-Angebote sowie On-Premise- und hybride Datenarchitekturen. SAS Data Management verschafft den Mitarbeitern Zugriff auf die Daten und erlaubt es ihnen, eigene Datenmanagement-Regeln zu erstellen.
Eine Schlüsselkomponente der SAS Plattform ist zudem das Tool SAS Data Quality. Es unterstützt auch neue Datenquellen wie Impala für Echtzeitabfragen und Amazon Redshift. Die Daten werden direkt dort optimiert, wo sie abgelegt sind.
SAS Data Preparation vereinfacht Datenzugriff und Datenintegration für Mitarbeiter ohne Programmierkenntnisse. Das Tool hat zudem die Aufgabe, die Datenqualität zu verbessern: Es soll Probleme identifizieren und direkt mittels vordefinierter Routinen beheben. Anwender können die Daten selbst über eine visuelle Bedienoberfläche aufbereiten. Die Daten lassen sich kategorisieren, standardisieren und zerlegen.
Eine Erweiterung der SAS Plattform ist SAS Viya. Sie enthält eine Reihe weiterer Datenprogramme und erlaubt eine Integration von Datenqualitätsfunktionen mit SAS-Analytik, Datenintegration, Datenaufbereitung und Data Governance.
Die Gartner-Analysten loben bei SAS die Investitionen in neue Techniken wie Echtzeit-Datentransformation großer Datenmengen, parallele In-Memory-Datenqualitätsprozesse in massiv parallelen Verarbeitungsumgebungen und automatisiertes Tagging von Dateninhalten. Auf der anderen Seite bemängeln sie die komplexen Preismodelle und eine begrenzte Vertragsflexibilität sowie die Gefahr eines Vendor-Lock-ins.
Talend: Talend hat zwei Data-Quality-Tools im Portfolio. Die kostenlose
Open-Source-Lösung
Talend: Die Data Quality Platform bietet Open-Source-basierte Profiling-Tools, die heterogene Datensätze laden, extrahieren und transformieren.
(Quelle: com! professional / Screenshot )
Talend Open Studio for Data Quality ist fürs Profiling und Bereinigen der Daten zuständig. Mitarbeiter können damit die Datenqualität auf Basis benutzerdefinierter Schwellenwerte evaluieren und feststellen, ob Standards eingehalten werden. Zudem können sie Daten selektiv weitergeben, ohne dass Unbefugte Zugang zu personenbezogenen Daten erhalten. Vertrauliche Daten werden durch Maskierung anonymisiert.
Die Data Management Platform verknüpft Datenquellen und hilft, Datensätze zu konsolidieren und zu validieren. Sie enthält grafische Werkzeuge und mehr als 900 Komponenten und Konnektoren zur nativen Verbindung von Datenbanken und cloudbasierten Anwendungen. Zudem bietet sie eingebettete Qualitätskontrollen und ein Regelmanagement.
Gartner lobt die Bedienfreundlichkeit der Talend-Tools in Einrichtung und Betrieb. Bemerkenswert an Talend sei zudem eine sehr aktive Open-Source-Anwendergemeinschaft, die einen umfangreichen, schnellen Produkt-Support biete.
Fazit & Ausblick
Die Datenanalyse verändert sich - und die Datenqualitätsstandards müssen sich anpassen. So nimmt etwa die staatliche Regulierung der Daten zu, Stichwort DSGVO. Data-Quality-Tools müssen in der Lage sein, solche Vorgaben umzusetzen.
Mit Natural Language Processing, maschinellem Lernen und KI wachsen zudem die Risiken einer schlechten Datenqualität. Viele Unternehmen sehen von der Einführung von KI-Techniken ab, weil sie sich der Aufgabe, die nötige Datenqualität zu erzielen, nicht gewachsen fühlen. Data-Quality-Tools werden sich daher weiter verbreiten. Umgekehrt tragen KI-Fortschritte dazu bei, die Datenqualität zu verbessern. KI automatisiert die Datenerfassung, erkennt Anomalien und beseitigt Dubletten. Dies erlaubt eine effizientere Verarbeitung großer Datenmengen.
Veränderungen zeichnen sich auch in der Unternehmensorganisation ab. So bringt die aufstrebende Disziplin DataOps DevOps-Teams mit Data-Science-Rollen zusammen - mit dem Ziel, auf Basis agiler Methoden Anwendungen und Prozesse für ein datenfokussiertes Unternehmen bereitzustellen.
Anbieter |
Produkt |
Schwerpunkt |
Eigenschaften |
Cloudingo |
Cloudingo |
Salesforce |
Deduplizierung, Verwaltung der Datenmigration, Erkennung von Fehlern und Inkonsistenzen |
Data Ladder |
DataMatch Enterprise |
Integration, Verknüpfung und Vorbereitung von Daten aus praktisch jeder Quelle |
Enthält mehr als 300.000 vorgefertigte Regeln; Vorlagen und Konnektoren für die wichtigsten Anwendungen |
IBM |
InfoSphere |
Big Data, Business Intelligence, Data Warehousing, Stammdatenverwaltung |
Kontinuierliche Datenbereinigung und Überwachung der Datenqualität; enthält mehr als 200 integrierte Datenqualitätsregeln |
Informatica |
Data Quality |
Unterstützt Microsoft Azure und AWS |
Datenstandardisierung, -validierung, -anreicherung, -deduplizierung und -konsolidierung |
Information Builders |
Omni-Gen |
Business Intelligence, Data Integration und Data Quality |
Regelerzeugung für Datenqualität; domainorientierte Algorithmen; browserbasierte Dashboards mit Indikatoren der Datenqualität |
OpenRefine |
OpenRefine |
Datenbereinigung und -transformation in andere Formate |
Open Source; einfache Erfassungs- und Bearbeitungsfunktionen; Anreicherung mit Webservices und externen Daten |
SAP |
Data Hub |
Enterprise Information Management |
Verfeinerung und Anreicherung von Daten; Verarbeitung von Daten an der Quelle; Ausführung auf Kubernetes |
SAS |
Data Management |
Datenintegration und -bereinigung für verschiedene Datenquellen |
Data Governance & Metadaten-Management; migriert oder synchronisiert Daten zwischen Datenbanken und Anwendungen |
Syncsort |
Trillium |
Datenqualitätsdienste für Microsoft Dynamics 365 |
Bewertet, verbessert und überwacht die Qualität der Daten; arbeitet mit den wichtigsten Architekturen wie Hadoop, Spark, SAP und MS Dynamics |
Talend |
Open Studio, Data Management Platform |
Datenintegrations- und Datenqualitätsplattform |
Open Source; profiliert, bereinigt und maskiert Daten in beliebigen Formaten und Größen; Vorlagen zur Unterstützung der Datenbereinigung |
Tibco |
Clarity |
Analyse und Bereinigung großer Datenmengen |
Daten profilieren, validieren, standardisieren, transformieren, deduplizieren, bereinigen und visualisieren |
Validity |
DemandTools |
Salesforce |
Massenmanipulationen mit mehreren Tabellen; standardisiert Salesforce-Daten |