Niemal 20 lat temu brytyjski matematyk Clive Humby powiedział, że dane to nowa ropa naftowa – mówiąc to miał na myśli, że dane, podobnie jak ropę, trzeba znaleźć, wydobyć, a następnie w odpowiedni sposób przetworzyć. Dziś internet to kopalnia różnych danych i informacji – mogą one być ogromnym źródłem wiedzy i nieocenionym wsparciem także dla przedsiębiorców. Można je wykorzystać do tworzenia raportów i analiz porównawczych, przykładowo do analizy opinii i komentarzy użytkowników na temat określonych produktów, czy też trendów specyficznych dla danej branży. Jednak dopiero pozyskanie wartościowych danych realnie pomaga w podejmowaniu świadomych decyzji biznesowych i może wpłynąć na pozycję rynkową firmy. Możliwość sprawnego odnalezienia, a następnie pozyskania takich danych, istotnych z punktu widzenia przedsiębiorcy i prowadzonego przez niego biznesu, zapewnia web scraping.

Czym jest web scraping i jak działa?

Web scraping to technika pozyskiwania określonych danych ze stron internetowych w celu ich dalszego przetworzenia w konkretny sposób. Pozwala na zapisanie uzyskanych danych w takiej formie, która umożliwia ich analizę i dalsze wykorzystanie. Do web scrapingu często wykorzystuje się specjalistyczne narzędzia i programy, które umożliwiają automatyczne i sprawne pobieranie informacji. Odpowiednie algorytmy, boty czy też różnego rodzaju skrypty pozwalają na efektywne zbieranie danych, które następnie mogą być szeroko wykorzystane.

Scraping a dane osobowe – gdzie zaczyna się problem?

Scraping danych jest coraz częściej wykorzystywany przez przedsiębiorców, a efekty korzystania z tego sposobu pozyskiwania danych dostrzegają na co dzień użytkownicy internetu. Przy coraz większej popularności scrapingu warto sobie zadać pytanie o prawne podstawy tego sposobu pozyskiwania danych – zwłaszcza, że scrapowane mogą być także dane osobowe. Powstają zatem wątpliwości co do legalności ich przetwarzania i zgodności z zasadami przewidzianymi w RODO.

Kiedy przetwarzanie danych osobowych jest zgodne z prawem?

Dane osobowe obejmują wszelkie informacje, które mogą prowadzić do identyfikacji osoby, czyli przykładowo imię, nazwisko, adres e-mail czy też numery telefonów, których wbrew pozorom mogą być bardzo łatwo dostępne w internecie. Przetwarzanie danych osobowych jest szeroko rozumiane i oznacza praktycznie jakiekolwiek operacje wykonywane na danych osobowych – w tym również pobieranie i zbieranie danych osobowych. Zatem już samo pobieranie danych osobowych i zapisywanie na urządzeniu w określonym formacie jest ich przetwarzaniem. Co więcej, przetwarzanie dotyczy czynności zarówno zautomatyzowanych jak i niezautomatyzowanych, zatem nie ma tutaj znaczenia czy scraping jest stosowany przy użyciu dedykowanych programów i rozwiązań technologicznych, czy też ręcznie.

Aby przetwarzanie danych osobowych było przeprowadzane zgodnie z prawem, konieczne jest wykazanie odpowiedniej podstawy. Taką podstawą prawną może być udzielona zgoda osób, których dane dotyczą, albo prawnie uzasadniony interes przedsiębiorcy. Wydaje się, że pozyskiwanie zgód będzie bardzo wymagającym i skomplikowanym do przeprowadzenia procesem przy scrapingu. Trzeba jednak pamiętać, że wybierając uzasadniony interes jako podstawę prawną przetwarzania danych, konieczne jest podjęcie dodatkowych czynności. Trzeba sprawdzić, czy w konkretnej sytuacji interes osoby, której dane są przetwarzane, nie jest ważniejszy niż uzasadniony interes przedsiębiorcy scrapujacego dane. Przeprowadzenie takiej analizy najczęściej dokonywane jest w formie tak zwanego testu równowagi, w którym bierze się pod uwagę również wpływ przetwarzania na osoby, których dane dotyczą (na przykład wszelkie dalsze konsekwencje i ewentualne zagrożenia wynikające z przetwarzania). W konsekwencji – uzasadniony interes prawny jako podstawa przetwarzania danych osobowych ma swoje granice.

Obowiązki informacyjne według RODO

Przeprowadzenie dodatkowej oceny skutków dla prywatności jest konieczne również w sytuacji przetwarzania m.in. danych wrażliwych. Taka analiza ma na celu określenie przede wszystkim potencjalnych zagrożeń dla osób, których dane są zbierane, oraz ocenę skutków ewentualnego naruszenia bezpieczeństwa (na przykład wycieku informacji). W praktyce oznacza to, że przed rozpoczęciem scrapingu określonych kategorii danych trzeba również dokładnie sprawdzić, jakie ryzyko niesie przetwarzanie danych, jakie mogą być konsekwencje dla osób, których dotyczą, oraz jakie środki ochronne należy wdrożyć, aby zapewnić zgodność z przepisami o ochronie danych osobowych.

Warto zwrócić uwagę, że wskazanie podstawy przetwarzania danych osobowych to tylko jeden z wielu obowiązków przewidzianych przez RODO. Konieczne jest również odpowiednie poinformowanie osoby, której dane dotyczą, o przetwarzaniu jej danych osobowych. Dlaczego ten obowiązek jest tak istotny? Ponieważ osoba, której dane dotyczą, może nie wiedzieć o tym, że przedsiębiorca scrapuje i przetwarza jej dane osobowe, a co za tym idzie – nie może skorzystać z uprawnień dotyczących kontroli przetwarzania danych, które jej przysługują. Dopiero wtedy, gdy taka osoba zostanie odpowiednio poinformowana o tym, że jej dane są przetwarzane, może domagać się przykładowo wglądu do danych, ich skorygowania czy też usunięcia.

Scraping w praktyce – wyzwania i ograniczenia

Jak zostało wskazane wyżej, scrapowanie takich danych, które zawierają dane osobowe, wiąże się z koniecznością wypełnienia określonych obowiązków przewidzianych w RODO. W zależności od konkretnej sytuacji, zapewnienie zgodności z RODO może być znacznie utrudnione – nie zmniejsza to jednak popularności scrapingu. Szczególnie często taki sposób pozyskiwania danych jest wykorzystywany w branży e-commerce, a przykładem jego wykorzystania są porównywarki cen noclegów czy produktów, które pozwalają użytkownikom na sprawne znalezienie najkorzystniejszych ofert. Jednak zastosowanie web scrapingu, z uwagi na liczne korzyści jakie ze sobą niesie, jest bardzo szerokie. Również sztuczna inteligencja może korzystać z danych w ten sposób pozyskanych do trenowania swoich modeli AI.

Trenowanie modeli AI a dane osobowe – gdzie leży granica?

W fazie szkolenia modeli AI szczególnie istotne jest wykorzystanie takiej bazy danych, która będzie wysokiej jakości i umożliwi efektywne trenowanie modeli AI. Problem pojawia się wtedy, gdy dane te zawierają dane osobowe. Konieczne jest w takiej sytuacji zadbanie o wykonanie odpowiednich obowiązków wynikających z RODO: wypełnienie obowiązku informacyjnego i ustalenie odpowiedniej podstawy przetwarzania danych osobowych to podstawowe czynności. Działanie sprzeczne z wymaganiami nakładanymi przez RODO niesie poważne ryzyko, które może prowadzić do naruszeń prywatności i poważnych konsekwencji dla firm rozwijających AI. Trzeba pamiętać o tym, że nawet jeśli model AI nie przechowuje danych w standardowej formie, to w niektórych przypadkach może je odtwarzać lub ujawniać na żądanie użytkowników (przykład: model AI został wytrenowany na prywatnych wiadomościach e-mail i istnieje ryzyko, że będzie generować fragmenty tych wiadomości, a w tym imiona, nazwiska czy adresy mailowe).

Jak ograniczyć ryzyko? – dobre praktyki w zakresie ochrony danych

Wykorzystanie zatem danych osobowych zebranych poprzez web scraping do uczenia i szkolenia modelu AI wymaga zwrócenia szczególnej uwagi na ochronę danych osobowych tak, aby działania były zgodne z regulacjami prawnymi i budowały zaufanie użytkowników. Dodatkowo, firmy pracujące nad trenowaniem modeli AI powinny wdrażać odpowiednie mechanizmy ochrony danych, które minimalizują ryzyko naruszeń i zapewniają odpowiedzialne wykorzystywanie pozyskanych informacji. Przykładowo, dzięki poprawnej anonimizacji danych osobowych, modele AI mogą korzystać z danych bez ryzyka ujawnienia prywatnych informacji. Równie ważna jest transparentność w procesie pozyskiwania danych osobowych, oraz przejrzysta komunikacja z użytkownikami – konieczne jest zapewnienie jasnych regulaminów i polityk prywatności, dzięki którym użytkownicy będą mogli zrozumieć jakie informacje i w jaki sposób są gromadzone oraz w jaki sposób mogą żadać ich usunięcia.

Innowacja vs. odpowiedzialność – czy da się to pogodzić?

Rozwój sztucznej inteligencji otwiera możliwości w zakresie tworzenia innowacyjnych rozwiązań, jednak dynamiczny postęp technologiczny musi iść w parze z odpowiedzialnym podejściem do ochrony danych osobowych. Web scraping, jako technika pozyskiwania informacji, może znacząco wspierać rozwój modeli AI, ale jednocześnie niesie ze sobą ryzyko naruszenia prywatności użytkowników. Jednym z głównych wyzwań jest znalezienie równowagi pomiędzy trenowaniem i udoskonalaniem modeli AI, a zapewnieniem legalności pozyskiwania danych – w szczególności ochrony danych osobowych. Firmy stosujące web scraping powinny dokładnie analizować zgodność swoich działań z przepisami prawnymi oraz wdrażać mechanizmy minimalizujące ryzyko naruszeń.

Artykuł pt. „Adriana Zalewska-Werra, Sandra Winiecka: Scraping danych osobowych i ich wykorzystanie w modelach AI” opublikowany został w dzienniku „Rzeczpospolita”.