Systemy sztucznej inteligencji uczą się, przewidują i podejmują decyzje na podstawie danych. Z tego powodu bezpieczeństwo danych wykorzystywanych na wszystkich etapach życia systemu AI – od planowania po monitorowanie – ma kluczowe znaczenie nie tylko dla jakości i wiarygodności modeli, ale także dla spełnienia wymagań regulacyjnych oraz budowania odpowiedzialnych strategii biznesowych.
W niniejszym wpisie przedstawiamy najważniejsze praktyki w zakresie zabezpieczania danych AI, opublikowane w maju 2025 roku przez międzynarodowe agencje ds. cyberbezpieczeństwa. Te zalecenia to nie tylko techniczne rekomendacje – to fundament zgodności (AI compliance) i zaufania w erze regulacji AI.
Dlaczego zabezpieczanie danych to filar AI compliance?
Bezpieczne dane to:
- Wiarygodne wyniki modeli – modele uczą się z danych. Jeśli dane są zmanipulowane, zduplikowane lub nieaktualne, decyzje systemu mogą być błędne, a nawet szkodliwe.
- Zgodność z przepisami – RODO, AI Act i standard ISO/IEC 42001 wymagają odpowiednich zabezpieczeń danych i odpowiedzialnego zarządzania ich cyklem życia.
- Ochrona przed atakami – brak kontroli nad źródłami danych może prowadzić do tzw. zatruwania danych (data poisoning), ataków typu adversarial oraz dryfu danych (data drift).
- Fundament etycznego rozwoju AI – bezpieczeństwo danych to wyraz szacunku dla praw człowieka i prywatności.
Najlepsze praktyki w zakresie zabezpieczania danych AI
1. Pozyskuj dane z wiarygodnych źródeł i śledź ich pochodzenie
Wdrażaj systemy śledzenia pochodzenia danych (data provenance). Każdy zbiór danych powinien być opatrzony podpisem cyfrowym i przechowywany w bazie typu „append-only”, aby możliwe było wykrycie każdej zmiany i jej autora. Pomaga to zidentyfikować źródła potencjalnych manipulacji.
2. Weryfikuj integralność danych
Używaj funkcji skrótu (np. SHA-256) i sum kontrolnych, aby wykrywać nieautoryzowane zmiany danych w trakcie przechowywania i przesyłania. Zapewnia to, że dane treningowe są niezmienione od momentu pozyskania.
3. Stosuj podpisy cyfrowe
Wszystkie dane wykorzystywane do trenowania, dostrajania i testowania modeli powinny być podpisywane przez osoby odpowiedzialne za ich modyfikację. Zastosuj standardy odpornych na kwantowe ataki podpisów (np. FIPS 204/205).
4. Buduj zaufaną infrastrukturę (Trusted Computing)
Twórz środowiska przetwarzania danych w architekturze Zero Trust. Wykorzystuj bezpieczne enklawy obliczeniowe, które izolują dane i uniemożliwiają ich nieautoryzowaną modyfikację w czasie działania systemu.
5. Klasyfikuj dane i kontroluj dostęp
Oceniaj wrażliwość danych i przypisuj im odpowiedni poziom ochrony. Dane powinny być zaszyfrowane (np. AES-256), dostępne wyłącznie dla uprawnionych osób i przechowywane zgodnie z poziomem ich klasyfikacji.
6. Stosuj szyfrowanie danych w spoczynku i transmisji
Szyfruj dane zarówno w czasie przesyłania (TLS 1.3 z AES-256), jak i podczas przechowywania (zgodnie z FIPS 140-3). Dane wrażliwe powinny być także szyfrowane w trakcie przetwarzania.
7. Wdrażaj techniki ochrony prywatności
Używaj technik takich jak:
- Maskowanie danych (np. danych osobowych),
- Anonimizacja i różnicowa prywatność,
- Federacyjne uczenie i secure multi-party computation.
Te metody pozwalają na wykorzystanie danych bez narażania prywatności osób, których dane dotyczą.
8. Bezpiecznie usuwaj dane
Dane, które nie są już potrzebne, powinny być usuwane metodami zalecanymi przez NIST (np. kryptograficzne kasowanie lub wielokrotne nadpisywanie). Zmniejsza to ryzyko wycieku danych historycznych.
9. Ocena ryzyka danych – cyklicznie
Regularnie przeprowadzaj analizy ryzyka w oparciu o ramy NIST AI RMF i ISO/IEC 42001. Zidentyfikuj nowe zagrożenia i zaktualizuj środki ochrony. AI compliance to proces ciągły, nie jednorazowa kontrola.
Trzy najpoważniejsze zagrożenia i sposoby ich minimalizacji
Zatrucie danych (Data Poisoning)
Manipulacja danymi treningowymi może prowadzić do błędnych decyzji systemu AI. Źródła:
- Web-scale datasets (np. LAION, Wikipedia),
- Zmiany treści na przejętych domenach,
- Niewłaściwie przefiltrowane dane crowdsourcowane.
Rekomendacje:
- Używaj podpisów cyfrowych i haszy,
- Weryfikuj integralność danych przy pobraniu,
- Żądaj certyfikacji dostawców danych i modeli.
Złośliwe modyfikacje i luki jakościowe
Adversarial examples, brak metadanych, błąd w opisie danych – wszystko to prowadzi do błędów w uczeniu i wnioskowaniu.
Rekomendacje:
- Stosuj detekcję anomalii w danych,
- Regularnie przeprowadzaj sanityzację danych,
- Waliduj i dokumentuj metadane.
Dryf danych (Data Drift)
Z czasem dane wejściowe różnią się od tych, na których model był trenowany. Skutkuje to spadkiem dokładności i wiarygodności.
Rekomendacje:
- Monitoruj dane wejściowe i wyjściowe modelu,
- Regularnie uaktualniaj dane treningowe,
- Wdrażaj procedury retreningu i wzbogacania danych.
Podsumowanie: Odpowiedzialność zaczyna się od danych
Bezpieczeństwo danych to nie tylko kwestia cyberbezpieczeństwa – to warunek wiarygodności systemów AI i dowód na spełnianie wymogów compliance. Każda organizacja wdrażająca lub rozwijająca AI powinna traktować zarządzanie bezpieczeństwem danych jako strategiczny priorytet. Bo tylko dane, którym można zaufać, tworzą systemy, którym można zaufać.