Systemy wysokiego ryzyka, które wykorzystują techniki obejmujące trenowanie modeli AI z wykorzystaniem danych (treningowych / walidacyjnych / testowych), powinny być trenowane tylko na takich danych, które spełniają określone w AI Act kryteria jakości.
Dane powinny podlegać dobrym praktykom zarządzania danymi. Należą do nich m.in.:
- odpowiednie decyzje projektowe,
- sposoby zbierania danych i ustalania ich pochodzenia,
- przygotowywanie danych – czyszczenie, komentowanie, etykietowanie, aktualizacja, wzbogacanie,
- badanie stronniczości i zapobieganie dyskryminacji,
- określenia istotnych luk lub braków w danych.
Jakość i reprezentatywność danych wg. AI Act
Zbiory danych powinny być adekwatne, wystarczająco reprezentatywne, w jak największym stopniu wolne od błędów i kompletne z punktu widzenia przeznaczenia.
Dane powinny się charakteryzować odpowiednimi właściwościami statystycznymi – np. w odniesieniu do osób lub grup osób, wobec których ma być stosowany system.
Zbiory danych powinny uwzględniać kontekst geograficzny, kulturowy, behawioralny i funkcjonalny w którym ma być wykorzystywany system.
W przypadkach rozwoju systemów AI wysokiego ryzyka niewykorzystujących technik obejmujących trenowanie modeli AI, kryteria jakości i dobre praktyki dot. data governance należy stosować tylko do zbiorów danych testowych.
Potrzebujesz wsparcia przy wdrożeniu AI Act w Twojej organizacji? Zapraszamy do kontaktu!
Aleksander Zieliński, radca prawny, manager: a.zielinski@dsk-kancelaria.pl