• CWE-1039: Inadequate Detection or Handling of Adversarial Input Perturbations in Automated Recognition Mechanism

Das Produkt verwendet einen automatisierten Mechanismus, beispielsweise Machine Learning, um komplexe Dateneingaben (z.B. Bilder oder Audio) als ein bestimmtes Konzept oder eine Kategorie zu erkennen. Es detektiert oder handhabt jedoch nicht korrekt Eingaben, die so modifiziert oder konstruiert wurden, dass der Mechanismus ein anderes, fehlerhaftes Konzept detektiert.

CWE-1039: Inadequate Detection or Handling of Adversarial Input Perturbations in Automated Recognition Mechanism

CWE ID: 1039
Name: Inadequate Detection or Handling of Adversarial Input Perturbations in Automated Recognition Mechanism

Beschreibung

Das Produkt verwendet einen automatisierten Mechanismus, beispielsweise Machine Learning, um komplexe Dateneingaben (z.B. Bilder oder Audio) als ein bestimmtes Konzept oder eine Kategorie zu erkennen. Es detektiert oder handhabt jedoch nicht korrekt Eingaben, die so modifiziert oder konstruiert wurden, dass der Mechanismus ein anderes, fehlerhaftes Konzept detektiert.

Risikominderungsmaßnahmen

Maßnahme (Architecture and Design)

Effektivität: Unknown
Beschreibung: Algorithmische Modifikationen wie Model Pruning oder Kompression können diese Schwäche mindern. Model Pruning stellt sicher, dass nur die Gewichte verwendet werden, die für die Aufgabe am relevantesten sind, und hat eine Widerstandsfähigkeit gegenüber adversariell manipulierten Daten gezeigt.

Maßnahme (Architecture and Design)

Effektivität: Unknown
Beschreibung: Erwägen Sie die Implementierung von Adversarial Training, einer Methode, die adversarielle Beispiele in die Trainingsdaten integriert, um die Robustheit des Algorithmus zur Inference-Zeit zu fördern.

Maßnahme (Architecture and Design)

Effektivität: Unknown
Beschreibung: Erwägen Sie die Implementierung von Model Hardening, um die interne Struktur des Algorithmus zu stärken. Dies umfasst Techniken wie Regularization und Optimization, um Algorithmen weniger anfällig für kleinere Input-Perturbationen und/oder Änderungen zu machen.

Maßnahme (Implementation)

Effektivität: Unknown
Beschreibung: Erwägen Sie die Implementierung mehrerer Modelle oder die Nutzung von Model Ensembling Techniken, um die Robustheit gegenüber adversarial Input-Perturbationen und die Schwächen einzelner Modelle zu verbessern.

Maßnahme (Implementation)

Effektivität: Unknown
Beschreibung: Integrieren Sie Unsicherheitsabschätzungen in den Algorithmus, die eine menschliche Intervention oder eine sekundäre/Fallback-Software auslösen, sobald diese Schwellenwerte erreicht werden. Dies könnte der Fall sein, wenn Inferenzvorhersagen und Confidence Scores im Vergleich zur erwarteten Modellperformance ungewöhnlich hoch oder niedrig sind.

Maßnahme (Integration)

Effektivität: Unknown
Beschreibung: Reaktive Defenses wie Input Sanitization, Defensive Distillation und Input Transformations können alle vor der Übergabe der Eingabedaten an den Algorithmus für Inference implementiert werden.

Maßnahme (Integration)

Effektivität: Unknown
Beschreibung: Erwägen Sie, die Output Granularity der Inference/Prediction zu reduzieren, sodass Angreifer aufgrund von Leakage keine zusätzlichen Informationen erlangen und somit keine adversarially perturbed Data erstellen können.