Die digitale Kommunikation und Verarbeitung ist in der heutigen Zeit nicht mehr wegzudenken. Dadurch nimmt die Informationsflut immer mehr zu. Daten haben branchenübergreifend unschätzbaren Wert, führen aber auch zu einer großen Herausforderung. Um große Datenmengen aus unterschiedlichen Quellen effizient auswerten zu können, werden entsprechende Technologien benötigt. in-factory ist seit Juli 2021 Platinum-Partner von Informatica, die zur Lösung dieses Problems den Enterprise Data Catalog (EDC) geschaffen haben.

in-factory ist Platinum-Partner von Informatica:

EDC ist ein Datenkatalog, der mithilfe künstlicher Intelligenz und maschinellem Lernen große Datenmengen aus einer Vielzahl von Quellen zusammenführen und katalogisieren kann. Die Suche und Analyse der Daten werden durch verschiedene Features, wie zum Beispiel der semantischen Suche und einem umfassenden Überblick über die Beziehungen zwischen einzelner Datensätze, stark vereinfacht.

Ein besonders praktisches Feature von EDC sind die sogenannten Data Domains. Hierbei handelt es sich um semantische Label, die EDC durch die Auswertung von Datenmustern und Metadaten, basierend auf der Semantik von Spaltendaten oder –namen, identifizieren kann. Data Similarity spielt dabei eine entscheidende Rolle, ist aber normalerweise ein zeitaufwendiger Prozess. EDC nutzt hier den Vorteil des maschinellen Lernens und kann so ähnliche Spalten clustern und solche mit hoher Übereinstimmung schnell und effektiv identifizieren. Zur einfacheren Auswertung lassen sich verwandte Data Domains in logische Gruppen (sogenannte Data Domain Groups) zusammenfassen.

Ein Beispiel aus der Praxis: Nach der Fusion zweier Unternehmen wurden alle Lieferantendaten mittels EDC in einer gemeinsamen Datenbank zusammengeführt. Damit relevante Informationen trotz der gestiegenen Datenmenge weiterhin schnell und effizient gefunden und analysiert werden können, sollen Data Domains eingesetzt werden. Zusätzlich soll für die vereinfachte Suche eine Zuteilung der Lieferanten in die Regionen Nordost und Mitte stattfinden.

Mithilfe von Similiarity Discovery fügt EDC automatisch passende Data Domains zu den Datenassets hinzu. Hierfür können individuelle Regeln, zum Beispiel zum Grad der Ähnlichkeit in %,  aufgestellt werden. Sollte EDC keinen passenden Vorschlag für eine Data Domain liefern, können u.a. über den Catalog Administrator* Data Domains manuell erstellt, bearbeitet und ggf. auch gelöscht werden. Im Beispiel wird die Data Domain wohnort_plz erstellt und den entsprechenden Assets zugeordnet. Nachdem die Data Domains zugewiesen wurden, können ebenfalls im Catalog Administrator passende Data Domain Groups erstellt (im Beispiel die Regionen Nordost und Mitte) und die entsprechenden Data Domains (im Beispiel wohnort_plz) zugewiesen werden.

Beispiel verschiedener Data Domains:

Beispiel einer Data Domain Group:

EDC wird in vielen Projekten bereits angewendet und ist immer stärker im Kommen. In unserer digitalen Welt bringen solche Anwendungen Unternehmen einen wertvollen Vorteil, indem sie beim Handling und bei der effizienten Auswertung der Datenflut unterstützen.


*Informatica Catalog Administrator ist ein Tool zum Überwachen und Verwalten von Ressourcen, Attributen und Connections.

Author: Roxana Trieb

ANY QUESTIONS? WE HAVE THE ANSWERS!

Write us. We are looking forward to your message!