CertifiedData.io
Zertifizierung · Synthetische Daten

KI-Datenzertifizierung — Synthetische Daten kryptografisch nachweisen

Die kryptografische Zertifizierung synthetischer Daten schafft einen fälschungssicheren Nachweis ihrer Herkunft, Integrität und ihres Generierungsprozesses. CertifiedData agiert als Zertifizierungsstelle für KI-Datenartefakte und stellt Ed25519-Zertifikate aus, die von jeder interessierten Partei verifiziert werden können.

Warum synthetische Daten zertifizieren?

Synthetische Daten stehen vor einem Vertrauensparadoxon: Sie werden algorithmisch generiert und enthalten keine echten personenbezogenen Daten, aber ihr Nutzen hängt vom Vertrauen in den Generierungsprozess ab. Ohne Zertifizierung kann eine Organisation nicht nachweisen, dass ein als "synthetisch" bezeichneter Datensatz nicht einfach umbenannte Echtdaten sind oder dass der Generierungsprozess nicht kompromittiert wurde. Kryptografische Zertifizierung löst dieses Problem, indem der Datensatz unwiderlegbar mit seinem dokumentierten Erstellungsprozess verknüpft und durch eine digitale Signatur verifizierbar gemacht wird.

Wie die CertifiedData-Zertifizierung funktioniert

Die Zertifizierung erfolgt in drei Schritten. Erstens wird der synthetische Datensatz über den CTGAN-Algorithmus (Conditional Tabular GAN) oder einen gleichwertigen Algorithmus generiert. Zweitens wird ein SHA-256-Fingerabdruck der Datei berechnet — dieser Fingerabdruck ist die kryptografische Verbindung zwischen dem Zertifikat und dem physischen Datensatz. Drittens wird ein Zertifizierungsartefakt erstellt, das den Fingerabdruck, die Datensatz-Metadaten (Zeilen, Spalten, Algorithmus, Zeitstempel) und eine Ed25519-Signatur von CertifiedData enthält. Dieses Zertifikat wird im öffentlichen Register archiviert und bleibt über die öffentliche Verifizierungs-API dauerhaft abrufbar.

Zertifizierung und EU AI Act-Compliance

Der EU AI Act verlangt, dass Trainingsdaten von Hochrisiko-KI-Systemen gemäß definierten Datenverwaltungsverfahren dokumentiert werden (Artikel 10) und dass diese Dokumentation zehn Jahre lang aufbewahrt wird (Artikel 19). CertifiedData-Zertifikate sind eine direkte Antwort auf diese Pflichten: Sie dokumentieren die Datenherkunft, den Generierungsprozess, die Strukturmerkmale und die Integrität. Die öffentliche Transparenz der Zertifikate erfüllt zudem die Anforderungen des Artikels 13 zur Transparenz und Informationsbereitstellung für Nutzer von KI-Systemen.

Zertifizierung für Datenpipelines und Regulierungsbehörden

Für Datenpipelines integriert sich die CertifiedData-Zertifizierung in bestehende Workflows: Datensatz generieren, API-Aufruf zur Zertifizierung, Zertifikat mit eindeutiger ID erhalten. Für Compliance- und Governance-Teams bietet das öffentliche Register ein Rückverfolgbarkeits-Dashboard, das alle zertifizierten Datensätze der Organisation, ihre Metadaten und Verifizierungsstatus auflistet. Für externe Regulierungsbehörden und Prüfer ermöglicht die öffentliche Verifizierungs-API eine unabhängige Überprüfung ohne Zugang zu den internen Systemen der Organisation.