COMBACK Metadaten Management

Modern Metadata Mining

Metadaten sind wichtiger denn je. Immer mehr Daten werden jeden Tag produziert und verarbeitet. Speziell die erweiterten Metadaten spielen eine entscheidende Rolle bei der Analyse großer Datenmengen. Sie erleichtern das Auffinden, Sortieren, Aggregieren und Analysieren von Dateien. Aber wie werden Metadaten gefunden und verwaltet?

Die Lösung

Metadata-Hub ist die Lösung! Es verfügt über einen intelligenten Filesystem-Crawler zum Extrahieren, Indizieren und Speichern von File Metadaten. Es wird als Containerinstanz auf Dateiservern ausgeführt, extrahiert kontinuierlich Metadaten aus Dateien, speichert sie indiziert in einer Datenbank und stellt die Daten zur Abfrage und Verarbeitung zur Verfügung.

Metadata-Hub hilft, den Inhalt unstrukturierter Daten zu finden und zu verstehen! Der Metadata-Hub unterstützt eine Vielzahl an Metadatenformate wie z.B. IPTC, ID3, XMP, EXIF, GPS, JFIF, GeoTIFF, ICC, IRB, FlashPix, AFCP, Lyrics3.

Der Crawler & Harvester greift von den Filesystemen via NFS oder SMB alle „embedded“ Metadaten ab und extrahiert Millionen von Tags in kürzester Zeit. Die Tags werden unmittelbar nach der Extraktion in einer skalierbaren Datenbank gespeichert.

Anschließend stehen die Metainformationen strukturiert und verwertbar z.B. für Queries zur Verfügung. Gefundene Files können über einen flexiblen Workflow auf verschiedene Weise zur Weiterverarbeitung bereitgestellt werden.

Der Metadata-Hub wird über eine browserbasierte und intuitive Weboberfläche gesteuert und ist einfach zu implementieren. Eine moderne GraphQL-basierte API, ein natives Python-SDK sowie ein umfangreiches Command Line Interface bieten die nahtlose Integration in Lösungen anderer Anbieter zur automatisierten Weiterverarbeitung.

Metadata Management ist der erste Schritt in Richtung KI – das gilt für Unternehmen, als auch für das Forschungsdatenmanagement. In Big-Data-Umgebungen spielt die Aggregation von Daten eine wichtige Rolle. Ohne Metadaten können Daten jedoch nicht effizient aggregiert und analysiert werden. Metadaten können Muster aufdecken, die bei normaler Datenerfassung oft schwer zu verstehen sind. Diese Muster sind der Treibstoff für künstliche Intelligenz. Eine gute KI benötigt qualifizierte Daten, die das Ergebnis eines guten Metadata Managements sind.

Highlights

Volle Kontrolle über webbasierte Benutzeroberfläche - Alles kann über die browserbasierte Webbenutzeroberfläche gesteuert werden. Der Metadata-Hub ist einfach bereitzustellen und zu verwenden.
Extraktion von Metadaten auf hoher Ebene - Metadata-Hub kann über 50.000 Metadaten-Tags in mehr als 320 verschiedenen Dateitypen verarbeiten. Neue Extraktoren sind in Arbeit.
API und CLI für die Automatisierung - Eine moderne GraphQL-basierte API ist eingebettet und verfügbar. Produkte von Drittanbietern können auch eine CLI verwenden, um die Datenverarbeitung zu automatisieren.