In diesem Beitrag wird daher erläutert, welche Schritte Unternehmen auf dem Weg zu einem erfolgreichen Governed Data Management zurücklegen müssen.
Fünf Schritte zum erfolgreichen Governed Data Management
Governed Data Management umfasst insgesamt fünf Prozesse: Datenintegration, Katalogisierung, Stammdatenmanagement (MDM), Datenmonitoring und Governance. Diese Prozesse werden wie folgt auf das gesamte Spektrum multistrukturierter Daten angewendet, um Daten an Analyse- und Betriebsabläufe zu liefern, die eingebettete GenAI-Funktionen enthalten.
Daten-Integration
Datenteams entwerfen, erstellen und verwalten Pipelines, die Daten für alle Arten von Workflows aufnehmen und umwandeln. Data Engineers spielen in diesem Prozess eine Schlüsselrolle, indem sie drei kritische Phasen verwalten.
- Sie extrahieren, laden, filtern, verknüpfen und formatieren Tabellendatensätze, um BI- oder KI/ML-Projekte zu unterstützen.
- Sie arbeiten mit Data Scientists und ML-Ingenieuren zusammen, um Funktionen für das ML-Modelltraining und die Produktion vorzubereiten.
- Sie arbeiten mit NLP-Ingenieuren (Natural Language Processing), ML-Ingenieuren und Datenwissenschaftlern zusammen, um Text zu vektorisieren und in Vektordatenbanken zu laden, mit deren Hilfe Language Models (LM) trainiert und angefordert werden können
Katalogisierung
Data Stewards und Data Engineers zentralisieren Metadaten im Datenkatalog, um Analyseteams bei der Erkennung, Organisation und Kuratierung aller ihnen zur Verfügung stehenden Datenprodukte zu unterstützen. Diese Metadaten umfassen Abstammung, Datenqualitätsbewertungen und Nutzungsstatistiken für multistrukturierte Datenbestände. Dazu gehören Tabellen, Protokolle, Textdateien usw. Innovative Anbieter katalogisieren auch KI/ML-Modelle neben herkömmlichen Metadaten, um gemeinsame Projekte zu ermöglichen, die Business Intelligence und KI/ML umfassen. Die meisten Kataloge sind noch nicht mit Vektordatenbanken oder LMs integriert, aber dies ist ein zukünftiger Punkt im Hinblick auf Konvergenz, der noch realisiert werden muss.
Mastering
MDM-Manager, Datenverwalter und Dateningenieure „meistern“ Daten, um die Genauigkeit und Konsistenz von Tabellendatensätzen zu verbessern, die Geschäftseinheiten wie Produkte, Kunden und Partner beschreiben. Sie gleichen Daten systemübergreifend ab und führen sie zusammen, um Standardattribute und -begriffe zu erstellen, Duplikate zu eliminieren und Diskrepanzen zu beseitigen. Die daraus resultierenden „goldenen Datensätze“ dienen dann als einzige Quelle der Wahrheit für herkömmliche Datenbanken und ML-Feature-Stores oder unstrukturierten Text, wie Datensätze aus dem Kunden-Service.
Monitoring
Data Engineers und Data Stewards beobachten die Qualität strukturierter und halbstrukturierter Daten, indem sie beispielsweise Stichprobenwerte validieren oder Metadaten wie Werteverteilungen und Datenvolumen, Schemata und Abstammung überprüfen. Solche Maßnahmen helfen dabei, Probleme mit den strukturierten oder halbstrukturierten Daten zu erkennen und zu beheben, die in KI/ML-Projekte einfließen. Daten-, CloudOps- und ML-Ingenieure beobachten auch die Leistung von Daten-Pipelines und der sie unterstützenden Infrastruktur.
Governance
Data-Governance-Beauftragte und Data Stewards beaufsichtigen die Mitarbeiter, Prozesse und Technologien, die Daten verwalten. Sie erstellen und setzen Richtlinien, Standards und Regeln durch, die die Bereitstellung und Nutzung von Daten für alle Arten von Analyseprojekten steuern. Governance-Programme konzentrierten sich traditionell auf strukturierte und halbstrukturierte Daten für BI-Projekte und müssen nun auch auf unstrukturierte Daten ausgedehnt werden. Diese Kategorie umfasst datenschutzbezogene Funktionen wie rollenbasierte Zugriffskontrollen und Datenmaskierung, die zum Schutz personenbezogener Daten beitragen.
Metadaten richtig verarbeiten
Metadaten dienen jeweils als Bindeglied für alle vorgestellten Schritte. Sie beschreiben die Eigenschaften von Datensätzen, darunter Attribute, Namen, Speicherorte, Strukturen, Schemata, Eigentumsverhältnisse, Abstammung und Verwendung. Unternehmen verwenden Metadaten schon seit langem, um Tabellen und andere strukturierte Datensätze in Datenbanken oder Data Warehouses zu organisieren. Jetzt verwenden sie Metadaten auch, um unstrukturierte Objekte, wie Textdateien, zu organisieren, indem sie Etiketten hinzufügen, die wichtige Details wie Namen, Länge, Schlüsselbegriffe usw. beschreiben. Diese Metadaten helfen den LMs, das Gesuchte in den Vektordatenbanken zu finden und dann genauere und kontextuell relevante Ergebnisse zu liefern. Unternehmen nutzen auch große Mengen an Metadaten (manchmal im Petabyte-Bereich), um LMs zu trainieren und zu optimieren.
Governed Data Management legt den Grundstein für die erfolgreiche Planung und Durchführung von KI-Maßnahmen. Unternehmen sollten sich in diesem Zusammenhang sehr genau mit den einzelnen Phasen beschäftigen, um das notwendige Know-how im Vorfeld aufzubauen und auch in entsprechende Software-Lösungen zu investieren.
Informatica (NVSE: INFA), ein führendes Unternehmen im Bereich Enterprise Cloud Data Management, erweckt Daten und KI zum Leben, indem es Unternehmen die Möglichkeit gibt, die transformative Kraft ihrer wichtigsten Ressourcen zu nutzen. Wir haben mit der Informatica Data Management Cloud™ (IDMC) eine neue Kategorie der Software geschaffen. IDMC ist eine End-to-End-Datenmanagement-Plattform, betrieben von CLAIRE® KI, die Daten über beliebige Multi-Cloud- und Hybridsysteme hinweg vernetzt und verwaltet sowie Daten demokratisiert, um Geschäftsstrategien zu modernisieren und zu verbessern. Kunden in über 100 Ländern, darunter 85 der Fortune 100, vertrauen darauf, dass Informatica die datengetriebene digitale Transformation vorantreibt. Informatica. Where data and AI come to life.
Informatica GmbH
Ingersheimer Str. 10
70499 Stuttgart
Telefon: +49 (711) 139840
http://www.informatica.com/de
Programme Executive
E-Mail: svenja.fellechner@hotwireglobal.com