Nachverfolgung und Rückverfolgbarkeit von KI-Systemen und Artefakten
Die Rückverfolgbarkeit von KI-Systemen erfordert die Fähigkeit, die gesamte Entscheidungskette von den Trainingsdaten bis zu den operativen Entscheidungen zu rekonstruieren. CertifiedData schafft diese Kette durch kryptografische Zertifizierung jedes Datenartefakts und erstellt damit einen von allen Beteiligten verifizierbaren Abstammungsnachweis.
Was bedeutet Rückverfolgbarkeit bei KI-Artefakten?
Rückverfolgbarkeit bei KI-Artefakten bezeichnet die Fähigkeit, jede Entscheidung eines KI-Systems auf ihre Ursprungsdaten zurückzuführen — über alle Transformations-, Trainings- und Deployment-Schritte hinweg. Diese Rückverfolgbarkeit ist aus drei Gründen unverzichtbar: Verantwortlichkeit (wer ist für eine algorithmische Entscheidung verantwortlich?), Fehlerkorrektur (ein fehlerhaftes System auf die Ursache des Problems zurückführen) und Regulierungskonformität (den Behörden nachweisen, dass gesetzliche Anforderungen über den gesamten Lebenszyklus des Systems erfüllt wurden). Der EU AI Act schreibt diese Rückverfolgbarkeit für alle Hochrisiko-KI-Systeme vor.
Der kryptografische Abstammungsnachweis von CertifiedData
CertifiedData erstellt den kryptografischen Abstammungsnachweis eines Datenartefakts über mehrere Schritte: Generierung des synthetischen Datensatzes (mit Aufzeichnung des Algorithmus, der Parameter und des Zeitstempels), Zertifizierung des Artefakts (Erstellung eines signierten Zertifikats, das den Datensatz mit seinem Generierungsprozess verknüpft), Verwendung im Training (das Zertifikat des Datensatzes kann in der technischen Dokumentation des Modells referenziert werden) und Deployment (die Entscheidungen des Modells können über Zertifikats-IDs mit den Datenartefakten verknüpft werden). Diese Kette bildet den vollständigen Abstammungsnachweis eines EU AI Act-konformen KI-Systems.
Rückverfolgbarkeit synthetischer Daten und Datenschutz
Die Verwendung synthetischer Daten in KI-Pipelines bietet einen wesentlichen Vorteil für die Rückverfolgbarkeit: Die Abstammungskette kann dokumentiert und geteilt werden, ohne personenbezogene Daten offenzulegen. CertifiedData-Zertifikate enthalten ausschließlich strukturelle Metadaten (Anzahl der Zeilen und Spalten, Algorithmus, Fingerabdruck) und nicht den Inhalt der Daten. Diese Eigenschaft ermöglicht es, die Rückverfolgbarkeit öffentlich zu machen — über das Transparenzregister — und dabei DSGVO und anwendbare Datenschutzanforderungen vollständig einzuhalten.
Integration in KI-Governance-Frameworks
CertifiedData lässt sich in bestehende KI-Governance-Frameworks integrieren, indem es eine Zertifizierungsschicht für Artefakte bereitstellt, die MLOps-Tools (MLflow, DVC, Weights & Biases) ergänzt. Während diese Tools Experimente und Modellmetriken verfolgen, liefert CertifiedData die rechtlich belastbaren Zertifizierungsnachweise für Datenartefakte und erzeugt die für die Erfüllung regulatorischer Pflichten notwendigen kryptografischen Nachweise. Die API von CertifiedData ermöglicht die Integration der Zertifizierung in bestehende CI/CD-Pipelines, sodass Rückverfolgbarkeit automatisch und systematisch entsteht — und nicht als punktueller manueller Prozess.