You are on page 1of 5

Ekstremalne szyfrowanie

Sprytna forma kryptografii pozwala nam widzieć dane bez patrzenia na nie. Czy to może rozwiać
obawy o prywatność, które krępują duże zbiory danych? Edd Gent prowadzi dochodzenie

Jak każdy lekarz, Jacques Fellay chce zapewnić swoim pacjentom najlepszą możliwą opiekę. Ale jego
ulubionym instrumentem nie jest skalpel ani stetoskop, jest o wiele potężniejszy. W każdym z nas
ukryte są markery genetyczne, które mogą powiedzieć lekarzom takim jak Fellay, które osoby są
podatne na choroby, takie jak AIDS, zapalenie wątroby i inne. Jeśli nauczy się czytać te wskazówki,
Fellay otrzyma wcześniejsze ostrzeżenie, kto wymaga wczesnego leczenia.

To może uratować życie. Kłopot polega na tym, że ustalenie powiązań między markerami
genetycznymi a chorobami wymaga ogromnej ilości danych, więcej niż jakikolwiek szpital posiada
samodzielnie. Można by pomyśleć, że szpitale mogą gromadzić swoje informacje, ale to nie jest takie
proste. Dane genetyczne zawierają wszelkiego rodzaju wrażliwe informacje o ludziach, które mogą
prowadzić do zakłopotania, dyskryminacji lub gorzej. Tego rodzaju zmartwienia etyczne stanowią
poważną przeszkodę dla Fellaya, który pracuje w szpitalu uniwersyteckim w Lozannie w Szwajcarii.
„Mamy technologię, mamy pomysły”, mówi. „Ale zebranie wystarczająco dużego zestawu danych jest
najczęściej czynnikiem ograniczającym”.

Obawy Fellaya to mikrokosmos jednego z największych problemów technologicznych świata.


Niemożność bezpiecznego udostępniania danych utrudnia również postęp we wszystkich innych
sferach, od wykrywania przestępstw finansowych po reagowanie na katastrofy i skuteczne rządzenie
narodami. Teraz nowy rodzaj szyfrowania umożliwia wyciskanie soku z danych, tak aby nikt ich nie
widział. Może to pomóc w rozwiązaniu wielkiego problemu prywatności dużych zbiorów danych – a
pacjenci Fellaya mogą być jednymi z pierwszych, którzy odniosą korzyści.

Minęło ponad 15 lat, kiedy po raz pierwszy usłyszeliśmy, że „dane to nowy olej”, wyrażenie ukute
przez brytyjskiego matematyka i eksperta ds. marketingu Clive'a Humby'ego. Dziś jesteśmy
przyzwyczajeni do tego, że dane osobowe są cenne. Firmy takie jak Meta, która jest właścicielem
Facebooka, i Alphabet, właściciel Google, rozrosły się w wielomiliardowe kolosy, zbierając informacje
o nas i wykorzystując je do sprzedaży ukierunkowanych reklam.

Dane mogą być również dobre dla nas wszystkich. Praca Fellaya jest jednym z przykładów
wykorzystania danych medycznych, aby uczynić nas zdrowszymi. Ponadto Meta udostępnia
zanonimizowane dane użytkowników organizacjom pomocowym, aby pomóc w planowaniu reakcji
na powodzie i pożary w ramach projektu o nazwie Mapy katastrof. A w Stanach Zjednoczonych około
1400 uczelni analizuje dane naukowe, aby wykryć uczniów, którzy prawdopodobnie zrezygnują z
nauki, i zapewnić im dodatkowe wsparcie. To tylko kilka przykładów z wielu – dane to waluta, która
pomaga w poruszaniu się we współczesnym świecie.

Uzyskanie takich informacji często oznacza publikację lub udostępnianie danych. W ten sposób
więcej osób może na to spojrzeć i przeprowadzić analizy, potencjalnie wyciągając nieprzewidziane
wnioski. Ci, którzy zbierają dane, często nie mają umiejętności ani zaawansowanych narzędzi
sztucznej inteligencji, aby jak najlepiej je wykorzystać, więc opłaca się udostępniać je firmom lub
organizacjom, które to robią. Nawet jeśli nie odbywa się żadna zewnętrzna analiza, dane muszą
gdzieś być przechowywane, co często oznacza na serwerze pamięci masowej w chmurze, należącym
do firmy zewnętrznej.

Nie możesz bezmyślnie udostępniać surowych danych. Zwykle zawiera poufne dane osobowe, od
nazwisk i adresów po zapisy głosowania i informacje medyczne. Istnieje obowiązek zachowania
poufności tych informacji, nie tylko dlatego, że jest to słuszne, ale ze względu na rygorystyczne
przepisy dotyczące prywatności, takie jak Ogólne rozporządzenie o ochronie danych Unii Europejskiej
(RODO). Naruszenia mogą spowodować duże grzywny.

W ciągu ostatnich kilku dekad wymyśliliśmy sposoby na ochronę prywatności osób podczas
udostępniania danych. Według eksperta ds. prywatności Yves-Alexandre de Montjoye z Imperial
College London tradycyjne podejście polega na usunięciu informacji, które mogłyby kogoś
zidentyfikować lub uczynić te szczegóły mniej precyzyjnymi. Możesz na przykład zastąpić daty
urodzenia przedziałami wiekowymi. Ale to już nie wystarcza. „W latach 90. było OK, ale już tak
naprawdę nie działa” — mówi de Montjoye. Dostępna jest ogromna ilość informacji o ludziach w
Internecie, więc nawet pozornie nieistotne bryłki można powiązać z informacjami publicznymi w celu
identyfikacji osób.

Jednym ze znaczących przypadków ponownej identyfikacji od 2021 r. są pozornie zanonimizowane


dane sprzedawane brokerowi danych przez aplikację randkową Grindr, z której korzystają m.in. geje.
Uzyskał go serwis medialny o nazwie The Pillar i skorelował pingi lokalizacji konkretnego telefonu
komórkowego przedstawione w danych ze znanymi ruchami wysokiego rangą amerykańskiego
księdza, pokazując, że telefon regularnie pojawiał się w pobliżu jego domu i w miejscach wielu
spotkania, w których uczestniczył. Sugerowano, że ten ksiądz wykorzystał Grindr i wybuchł skandal,
ponieważ księża katoliccy muszą powstrzymywać się od związków seksualnych, a Kościół uważa
aktywność homoseksualną za grzech.

Niedawno pojawił się bardziej wyrafinowany sposób na zachowanie prywatności ludzi, zwany
prywatnością różnicową. W tym podejściu menedżer bazy danych nigdy nie udostępnia całości.
Zamiast tego pozwalają ludziom zadawać pytania dotyczące statystycznych właściwości danych – na
przykład „jaka część osób ma raka?” – i udzielaj odpowiedzi. Jednak jeśli zada się wystarczająco dużo
sprytnych pytań, może to nadal prowadzić do triangulacji prywatnych danych. Tak więc menedżer
bazy danych wykorzystuje również techniki statystyczne do wstrzykiwania błędów do odpowiedzi, na
przykład rejestrując niewłaściwy stan raka dla niektórych osób podczas sumowania sum. Zrobione
ostrożnie, nie wpływa to na wiarygodność statystyczną danych, ale znacznie utrudnia identyfikację
osób. US Census Bureau przyjęło tę metodę, gdy nadszedł czas, aby opublikować statystyki oparte na
spisie z 2020 roku.

Nie wierzyć nikomu

Jednak prywatność różnicowa ma swoje granice. Dostarcza tylko wzorców statystycznych i nie może
oznaczać konkretnych rekordów – na przykład w celu podkreślenia ryzyka choroby, jak chciałby to
zrobić Fellay. I choć pomysł jest „piękny”, mówi de Montjoye, ciężko jest go uruchomić w praktyce.

Istnieje jednak zupełnie inne i bardziej ekstremalne rozwiązanie, którego początki sięgają 40 lat
wstecz. Co by było, gdybyś mógł szyfrować i udostępniać dane w taki sposób, aby inni mogli je
analizować i wykonywać na nich obliczenia, ale nigdy ich nie zobaczyć? Przypominałoby to
umieszczenie drogocennego kamienia w schowku na rękawiczki, czyli w komorach laboratoriów
służących do obchodzenia się z niebezpiecznymi materiałami. Możesz zaprosić ludzi, aby włożyli ręce
w rękawiczki i objęli klejnotem. Ale nie mieliby swobodnego dostępu i nigdy nie mogliby niczego
ukraść.

Taka myśl przyszła do głowy Ronaldowi Rivestowi, Lenowi Adlemanowi i Michaelowi Dertouzosowi z
Massachusetts Institute of Technology w 1978 roku. Opracowali teoretyczny sposób na stworzenie
odpowiednika bezpiecznego schowka do ochrony danych. Opierał się na matematycznej idei zwanej
homomorfizmem, która odnosi się do zdolności mapowania danych z jednej formy do drugiej bez
zmiany ich podstawowej struktury. Wiele z tego zależy od używania algebry do przedstawiania tych
samych liczb na różne sposoby.

Wyobraź sobie, że chcesz udostępnić bazę danych firmie zajmującej się analizą sztucznej inteligencji,
ale zawiera ona prywatne informacje. Firma AI nie poda algorytmu, którego używa do analizy danych,
ponieważ jest on wrażliwy z handlowego punktu widzenia. Aby obejść ten problem, homomorficznie
szyfrujesz dane i wysyłasz je do firmy. Nie ma klucza do odszyfrowania danych. Ale firma może
przeanalizować dane i uzyskać wynik, który sam jest zaszyfrowany. Chociaż firma nie ma pojęcia, co
to znaczy, może to odesłać. Co najważniejsze, możesz teraz po prostu odszyfrować wynik i będzie to
miało sens.

„Obietnica jest ogromna”, mówi Tom Rondeau z amerykańskiej Agencji Zaawansowanych Projektów
Badawczych Obrony (DARPA), która jest jedną z wielu organizacji badających tę technologię. „Trudno
jest postawić na to, co możemy zrobić, jeśli mamy tego rodzaju technologię”.

W ciągu 30 lat od zaproponowania metody badacze opracowali homomorficzne schematy


szyfrowania, które umożliwiały im wykonywanie ograniczonego zestawu operacji, na przykład tylko
dodawania lub mnożenia. Jednak w pełni homomorficzne szyfrowanie, czyli FHE, które pozwoliłoby
uruchomić dowolny program na zaszyfrowanych danych, pozostało nieuchwytne. „FHE był w tamtych
czasach czymś, co uważaliśmy za świętego Graala” — mówi Marten van Dijk z CWI, krajowego
instytutu badawczego zajmującego się matematyką i informatyką w Holandii. „To było
niewyobrażalne”.

Jedno podejście do szyfrowania homomorficznego w tamtym czasie obejmowało ideę zwaną


kryptografią kratową. To szyfruje zwykłe liczby, mapując je na siatkę o znacznie większej liczbie
wymiarów niż standardowe dwa. Udało się – ale tylko do pewnego momentu. Każde obliczenie
kończyło się dodaniem losowości do danych. W rezultacie zrobienie czegoś więcej niż proste
obliczenia doprowadziło do tak dużego nagromadzenia losowości, że odpowiedź stała się nieczytelna.

W 2009 roku Craig Gentry, wówczas doktorant na Uniwersytecie Stanforda w Kalifornii, dokonał
przełomu. Jego genialnym rozwiązaniem było okresowe usuwanie tej przypadkowości poprzez
odszyfrowywanie danych pod wtórnym przykryciem szyfrowania. Jeśli brzmi to paradoksalnie,
wyobraź sobie ten schowek z klejnotem w środku. Plan Gentry'ego przypominał wkładanie jednego
schowka do drugiego, tak aby pierwszy można było otworzyć, będąc nadal zabezpieczonym warstwą
bezpieczeństwa. Po raz pierwszy dostarczyło to wykonalnego schematu FHE.

Wykonalne, ale wciąż powolne: obliczenia na danych zaszyfrowanych FHE mogą trwać miliony razy
dłużej niż te same na danych surowych. Gentry kontynuował pracę w IBM i przez następną dekadę
wraz z innymi pracował nad przyspieszeniem tego procesu poprzez poprawę podstawowej
matematyki. Ale ostatnio uwaga się zmieniła, mówi Michael Osborne z IBM Research w Zurychu w
Szwajcarii. Rośnie świadomość, że ogromne zwiększenie szybkości można osiągnąć poprzez
optymalizację sposobu stosowania kryptografii do określonych zastosowań. „Otrzymujemy
ulepszenia o rząd wielkości”, mówi Osborne.

IBM ma teraz zestaw narzędzi FHE, które mogą uruchamiać sztuczną inteligencję i inne analizy
zaszyfrowanych danych. Naukowcy wykazali, że potrafią wykrywać nieuczciwe transakcje w
zaszyfrowanych danych kart kredytowych za pomocą sztucznej sieci neuronowej, która może
przełamać 4000 rekordów na sekundę. Wykazali również, że mogą użyć tego samego rodzaju analizy
do przeszukania zaszyfrowanych skanów CT płuc ponad 1500 osób w celu wykrycia oznak zakażenia
Covid-19.

Trwają również prace nad realnymi projektami weryfikacyjnymi koncepcji z różnymi klientami. W
2020 roku IBM ujawnił wyniki pilotażowego badania przeprowadzonego z brazylijskim bankiem
Banco Bradesco. Obawy i przepisy dotyczące prywatności często uniemożliwiają bankom
udostępnianie poufnych danych wewnętrznie lub zewnętrznie. Jednak w badaniu IBM pokazał, że
może wykorzystać uczenie maszynowe do analizy zaszyfrowanych transakcji finansowych od klientów
banku, aby przewidzieć, czy są skłonni do zaciągnięcia pożyczki. System był w stanie wykonać
prognozy dla ponad 16 500 klientów w ciągu 10 sekund i działał tak samo dokładnie, jak ta sama
analiza wykonywana na niezaszyfrowanych danych.

Podejrzana działalność

Inne firmy również są zainteresowane tą ekstremalną formą szyfrowania. Informatyk Shafi


Goldwasser, współzałożyciel firmy zajmującej się technologią prywatności, start-up Duality, twierdzi,
że firma osiąga znacznie szybsze prędkości, pomagając klientom lepiej ustrukturyzować ich dane i
dostosować narzędzia do ich problemów. Technologia szyfrowania Duality została już zintegrowana z
systemami oprogramowania, których gigant technologiczny Oracle używa do wykrywania
przestępstw finansowych, gdzie pomaga bankom w udostępnianiu danych w celu wykrycia
podejrzanej aktywności.

Mimo to w przypadku większości zastosowań przetwarzanie FHE pozostaje co najmniej 100 000 razy
wolniejsze w porównaniu z danymi niezaszyfrowanymi, mówi Rondeau. Dlatego w 2020 roku DARPA
uruchomiła program o nazwie Ochrona danych w środowiskach wirtualnych, aby stworzyć
wyspecjalizowane chipy przeznaczone do obsługi FHE. Dane zaszyfrowane w sieci są znacznie większe
niż zwykłe chipy. Tak więc kilka zespołów badawczych zaangażowanych w projekt, w tym jeden
kierowany przez Duality, bada sposoby zmiany obwodów w celu wydajnego przetwarzania,
przechowywania i przenoszenia tego rodzaju danych. Celem jest analizowanie wszelkich danych
zaszyfrowanych FHE zaledwie 10 razy wolniej niż zwykle, mówi Rondeau, który zarządza programem.

Nawet gdyby był szybki jak błyskawica, FHE nie byłby bezbłędny. Van Dijk mówi, że nie działa dobrze
z niektórymi rodzajami programów, takimi jak te, które zawierają logikę rozgałęziania złożoną z
operacji „jeśli to, zrób to”. Tymczasem badacz bezpieczeństwa informacji Martin Albrecht z Royal
Holloway na Uniwersytecie Londyńskim wskazuje, że uzasadnienie dla FHE opiera się na potrzebie
udostępniania danych, aby można je było analizować. Jednak wiele rutynowych analiz danych nie jest
tak skomplikowanych – samodzielne wykonanie może być czasem prostsze niż opanowanie FHE.

Ze swojej strony de Montjoye jest zwolennikiem inżynierii prywatności: nie polega na jednej
technologii do ochrony danych ludzi, ale łączy kilka podejść w pakiecie obronnym. Uważa, że FHE jest
świetnym dodatkiem do tego zestawu narzędzi, ale nie jest samodzielnym zwycięzcą.

To jest właśnie podejście, które Fellay i jego koledzy podjęli, aby usprawnić udostępnianie danych
medycznych. Fellay pracował z informatykami ze Szwajcarskiego Federalnego Instytutu Technologii w
Lozannie, którzy stworzyli schemat łączący FHE z inną taktyką chroniącą prywatność, zwaną
bezpiecznymi obliczeniami wielostronnymi (SMC). Dzięki temu różne organizacje łączą fragmenty
swoich danych w taki sposób, że nie można pobrać żadnych prywatnych danych z żadnej organizacji.

W artykule opublikowanym w październiku 2021 r. zespół wykorzystał kombinację FHE i SMC, aby
bezpiecznie zebrać dane z wielu źródeł i wykorzystać je do przewidywania skuteczności leczenia raka
lub identyfikowania określonych wariacji w genomach ludzi, które przewidują postęp zakażenia HIV.
Próba była tak udana, że zespół wdrożył teraz technologię, która umożliwia pięciu szpitalom
uniwersyteckim w Szwajcarii udostępnianie danych pacjentów, zarówno na potrzeby badań
medycznych, jak i pomagania lekarzom w personalizacji leczenia. „Wdrażamy to w prawdziwym
życiu”, mówi Fellay, „umożliwiając udostępnianie danych szwajcarskich szpitali, aby odpowiedzieć na
każde pytanie badawcze, o ile dane istnieją”.

Jeśli dane są nową ropą, to wydaje się, że światowe pragnienie jej nie ustępuje. FHE może być
zbliżona do nowej technologii wydobywczej, która otworzy jedne z najcenniejszych, ale obecnie
niedostępnych złóż. Jego niska prędkość może być przeszkodą. Ale, jak mówi Goldwasser,
porównywanie technologii z całkowicie nieszyfrowanym przetwarzaniem nie ma sensu. „Jeśli
uważasz, że bezpieczeństwo nie jest plusem, ale jest koniecznością”, mówi, „to w pewnym sensie nie
ma kosztów ogólnych”.

You might also like