W dobie dynamicznego rozwoju nowych technologii coraz częściej dochodzi do przetwarzania danych osobowych, zarówno podczas tworzenia innowacyjnych rozwiązań, jak i w trakcie ich wykorzystywania. Odpowiednie zabezpieczenie danych osobowych przez przedsiębiorców nie tylko zapewnia zgodność z regulacjami, ale także buduje zaufanie klientów i partnerów biznesowych. Szczególnie ważna jest więc praktyczna znajomość środków technicznych i organizacyjnych zapewniających ochronę danych osobowych, takich jak anonimizacja i pseudonimizacja. 

Pseudonimizacja i anonimizacja są istotnymi narzędziami z punktu widzenia ochrony danych osobowych, co jest również widoczne w tematach związanych ze sztuczną inteligencją (AI).  17 grudnia 2024 r. Europejska Rada Ochrony Danych (EROD) wydała Opinię 28/2024 w spawie niektórych aspektów ochrony danych związanych z przetwarzaniem danych w kontekście modeli sztucznej inteligencji. Opinia skupia się na kilku zagadnieniach, a jednym z nich jest ,,anonimowość modeli AI” i w tej kwestii przygotowano listę elementów, które organy nadzoru powinny wziąć pod uwagę przy ocenie, czy model AI można uznać za anonimowy. Na liście znajdziemy m.in. kwestię przygotowywania danych osobowych na potrzeby fazy szkolenia modelu AI. Organ nadzoru powinien przede wszystkim zbadać, czy w ogóle rozważano wykorzystanie danych anonimowych / danych osobowych, które poddano pseudonimizacji, oraz, jeśli takie środki nie zostały zastosowane – dlaczego? 

Z tego względu, warto przypomnieć podstawowe kwestie dotyczące zarówno anonimizacji jak i pseudonimizacji – to nie tylko klucz do zgodności z regulacjami, ale także do minimalizacji ryzyka naruszenia praw osób, których dane są wykorzystywane, w tym w szczególności w kontekście tworzenia modeli AI. 

Anonimizacja danych

Anonimizacja danych oznacza takie ich przetworzenie, w wyniku którego nie jest możliwe zidentyfikowanie osoby, której te dane dotyczą. Takie dane przestają być danymi osobowymi, a zatem nie będzie ich obowiązywać RODO. 

Proces anonimizacji oraz sposób jego wdrożenia mają istotny wpływ na prawdopodobieństwo tak zwanego ,,ryzyka ponownej identyfikacji” konkretnej osoby. Przy ponownej identyfikacji chodzi tak naprawdę nie tylko możliwość odzyskania imienia czy nazwiska osoby, ale o każde potencjalne zidentyfikowanie takiej osoby przez przykładowo połączenie dostępnych informacji oraz wnioskowanie. W pełni skuteczna anonimizacja jest najbardziej pożądana z perspektywy ochrony danych osobowych, dlatego przy tym procesie należy skupić się przede wszystkim właśnie na minimalizacji ryzyka ponownej identyfikacji. 

Metody anonimizacji

Istnieją różne metody anonimizacji, jednak jedną z najbardziej popularnych jest randomizacja. Polega na zmianie danych na dane przypadkowe, które nie są w żaden sposób powiązane z danymi pierwotnymi. Przykładem randomizacji jest dodawanie zakłóceń, czyli cechy są modyfikowane w taki sposób, żeby były mniej dokładne. Równie często stosowaną metodą jest uogólnienie – polega z kolei na osłabieniu atrybutów osób, których dane dotyczą. Każda ze stosowanych metod wymaga zwrócenia uwagi na inne, szczegółowe kwestie. Przykładowo, przy uogólnieniu konieczne jest zastosowanie odpowiednich środków tak, żeby zapobiegać możliwości tworzenia jakichkolwiek powiązań między informacjami czy też wnioskowania. Jednak ostateczny wybór metody anonimizacji powinien być poprzedzony dokładną analizą tak, żeby mieć pewność, że stosowana metoda będzie odpowiednia i wystarczająca. 

Pseudonimizacja danych

Z kolei pseudonimizacja danych oznacza, że dane osobowe przetworzone są w taki sposób, żeby nie można ich było już przypisać do konkretnej osoby, której dane dotyczą, bez użycia dodatkowych informacji. Przy pseudnomizacji trzeba spełnić dodatkowy warunek – takie dodatkowe informacje muszą być przechowywane osobno i być objęte środkami technicznymi i organizacyjnymi, które uniemożliwiają ich przypisanie konkretnej osobie fizycznej. 

Metody pseudonimizacji

Dane zakodowane kluczem są klasycznym przykładem pseudonimizacji. Informacje dotyczą osób oznaczonych kodem, a klucz umożliwiający powiązanie kodu z określonymi danymi tych osób (takimi jak imię, data urodzenia, adres) jest przechowywany oddzielnie. Przykładem metody umożliwiającej pseudonimizację jest więc szyfrowanie, które jest formą kryptografii i polega na zastosowaniu specjalnego kodu. Pseudonimizajca nie jest zatem metodą anonimizacji – z pewnością jest to użyteczny środek bezpieczeństwa, ale nie można go utożsamiać z anonimizacją.  

Różnice między anonimizacją a pseudonimizacją

Anonimizacja nie jest więc tym samym co pseudonimizacja – anonimizacja jest procesem nieodwracalnym i po jej zastosowaniu nie możemy ponownie identyfikować osoby. Natomiast pseudonimizacja jest odwracalna i dlatego dane, które są w taki sposób zabezpieczone, w dalszym ciągu będą chronione zgodnie z wymogami RODO.

Niezwykle ważne jest zrozumienie różnic między anonimizacją a pseudonimizacją przez każdego, kto przetwarza dane osobowe – zwłaszcza, że każda sytuacja wymaga przeprowadzenia dokładnej i starannej analizy. Dzięki temu możliwe jest przyjęcie takiego rozwiązania, które będzie odpowiednie z punktu widzenia bezpieczeństwa danych osobowych i pozwoli na zapewnienie zgodności działań z przepisami. Świadome podejście do procesów anonimizacji i pseudonimizacji to także krok w stronę bezpieczeństwa danych osobowych i budowania zaufania w relacjach biznesowych.