Professional Documents
Culture Documents
本期專題03 數位時代之數位隱私保護
本期專題03 數位時代之數位隱私保護
數位時代之數位隱私保護
李思壯 中央研究院資訊科技創新研究中心博士後研究員
黃彥男 中央研究院資訊科技創新研究中心主任 特聘研究員
摘要
隨著資料科學以及人工智慧技術的蓬勃發展,資料逐漸被視為重要的策略性資源,有「資料
是新的黃金」一說。而資料在取得後,也需要進一步之揀選精煉才能創造出價值,而此過程往往
涉及資料交換。異質性資料的串接能夠大幅提高資料的豐富性,資料收集者與更多資料分析者合
作,也有助於提昇資料的價值。
資料交換對個人隱私的保護帶來新的挑戰,資料處理者若自多個來源取得資料後進行比對串
連,將使得個人隱私資料洩漏的風險急遽升高,因此各國也試圖透過新法規的制定來解決此一問
題。歐盟的 GDPR 為隱私法規中最受矚目者,除了明定提供個人資料者的多項權利外,亦對資料
交換加上諸多限制,惟對去識別化資料網開一面,允許其可進行自由交換。本文將介紹近期相關
法規及技術之進展,希望使讀者能夠對隱私保護問題之法規及技術議題有初步之理解。
關鍵字:隱私保護、GDPR、差分隱私、K 匿名、隨機回應
壹、前言 資訊使用行為,不但自身獲得可觀的廣告收
益,許多研究者也透過 Facebook 所提供的
隨著資料科學以及人工智慧技術的蓬勃 資料接取介面進行各式各樣的社會科學研究。
發展,資料也被視為是珍貴的策略性資源, 如同開採金礦一般,在取得原始資料後,資
並常被拿來與金礦類比。Google 運用使用者 料仍須經過篩選整理,並以統計分析或其他
的瀏覽行為來推估使用者的偏好,創造了龐 研究方法進行精煉,方能從中創造出價值。
大的個人化廣告收益;Amazon 憑藉顧客過 過去網路新創事業往往以擴大用戶基礎、增
去的消費資訊,精準預估顧客未來的需求, 加客戶忠誠度為要務,願意在初期進行大規
使得推薦商品的被購率不斷推升;Facebook 模的投資並長期投入,只求用戶能夠突破臨
則透過確實掌握顧客的人際網絡以及日常的 界數量。而今日的新創事業在初期資源的投
入上更不手軟,因為除了追求更大的用戶數 別化技術並說明其適用情境,以供讀者理解
量之外,營運中所累積的用戶資料也日益珍 目前資料去識別化相關技術的發展現況及未
貴,而可被視為公司的資產。 來展望。
要充分發揮資料的價值,必須讓有能力 貳、重大隱私爭議事件實例
自資料中萃取價值的個人或團隊能夠順利取
用資料,再者必須讓各種不同來源的資料能 一、劍橋分析事件
夠進行彙整及交叉分析。以臺灣政府的資料
開放平臺為例,即由政府各部門提供即時或 劍橋分析公司在 2013 年於英國成立,
批次資料,以供外界取得並進行分析。一般 是 一 家 以 大 數 據 分 析 為 主 要 業 務 的 公 司。
企業或民間組織則多將資料視為組織資產, 一直以來,該公司宣稱擁有掌握投票人意向
但也時常面臨一些問題,例如內部缺乏資訊 的能力,且在數年間參與了澳洲、印度、肯
分析的能量,或是需要與其他資料來源進行 亞、馬爾他、墨西哥、英國以及美國等地區
整合,以進行有意義的分析。此時若資料不 多次選舉及公投的公關宣傳活動。2018 年 3
涉及個人資料,則僅需要資料交換之雙方同 月,有多家媒體開始報導關於劍橋分析公司
意,即可進行資料共享。例如廠房的生產監 可能透過不正當之方式,長時間獲取使用者
控資訊,組織的營運內控資訊等不涉及個人 Facebook 動態的議題。劍橋分析先以學術研
資料者,均屬此類。一旦資料涉及個人資料, 究的名義在 Facebook 平臺上開發了一個心
則會因法規的規範,而不能任意流通。臺灣 理測驗 APP,吸引使用者給予該 APP 取用使
的「 個 人 資 料 保 護 法 」 已 行 之 有 年, 歐 盟 用者本身及朋友網絡資訊的權限。劍橋分析
的一般資料保護規則 GDPR(General Data 根據 Facebook 所給予的權限開始大規模的
Protection Regulation)也已經實施,未來各 收集使用者及其朋友的日常動態資料,包括
項資料交換均必須遵循,不然不僅有違法之 他們的發言,以及對哪個類型的內容做出反
虞,違反的組織或個人也會面臨鉅額求償。 應。根據 Facebook 所提供的權限,即使使
用者沒有使用該 APP,也有可能因為其他朋
在資料被視為事業資產的今日,資料隱 友有使用其 APP,使其日常活動受到未經同
私權以及所有權的界定,必將成為討論焦點, 意的追蹤。劍橋分析會根據所收集到的資料
本文將先聚焦於資料隱私議題進行討論,首 進行策略擬定,透過各式各樣的手法影響選
先將介紹數個隱私洩露的著名個案,包括劍 舉,例如挑起爭議性話題,或是發起年輕人
橋分析醜聞,以及 Netflix 歷次資料科學預測 不投票運動以使特定的候選人獲益。劍橋分
競賽的隱私爭議,再就目前臺灣及歐盟資料 析影響大眾的方式則以投放臉書廣告為主,
保護法規與隱私保護相關之部分做初步介紹, 搭配其他媒體作為為輔。雖然實際安裝並使
並說明如何透過技術滿足當前的法規需求。 用 該 APP 的 使 用 者 僅 有 27 萬 人, 但 由 於
此外亦將介紹目前較為風行的一些資料去識 Facebook 也允許劍橋分析抓取參與者朋友的
肆、去識別化技術簡介 就可以利用這些資訊的交集,去比對出特定
病人的罹病與否。舉例而言,假設整個患病
目前常見的之去識別化技術可分為 K 匿 檢查資料表中只有一筆病患身高為 150cm、
名、差分隱私合成資料,以及隨機回應技術, 體重為 64kg 且性別為女性,而窺探隱私者又
分別適用於不同的應用情境。其中 K 匿名與 可以確知某位具有這些屬性的女性必定在其
各國法規的隱私定義最接近,目前也是我國 中的話,窺探者就可以透過比對這些資訊得
政府積極測試中的去識別化技術。差分隱私 知該名女性的罹病狀況。要避免這種比對的
則是最獲學術界認可的隱私保護定義,提供 情況發生,K 匿名機制會檢視各種欄位組合
可以數學證明驗證之隱私保護。隨機回應技 的獨特性,以確認一份資料受到此類攻擊的
術則適用於物聯網或是串流資料的傳輸,目 機會為何,其中的 K 即為在相同的欄位交集
前 Google 以及 Apple 都已經將隨機回應技 狀況下可以找到多少相同的資料。當 K 越大
術運用在已發行的軟體中。以下將就此幾項 時,窺探隱私者就越難進行準確的猜測。以
技術做簡要之說明。 上述的情況為例,如果同一份資料中有五筆
有相同的身高、體重、性別,那窺探者就比
一、K 匿名(K-anonymity) 較難確定其中哪一位是他想窺探的病患。
(二)Suppression 感欄位與非敏感欄位,然後針對敏感欄位進
行處理,此部份涉及人為的判斷,也是目前
將某些欄位加以遮蔽,過去文獻上均以
K 匿名應用上的難題之一。
填入「*」來處理之。使用這樣的處理方式基
本上已是完全放棄該欄位的資訊。
二、差分隱私合成資料
上述的兩種處理方式在概念上並不難理 (Differential Privacy
解,但實作上卻有其困難之處。當我們辨別 Synthetic Data)
出一些不符 K 匿名要求的資料時,可以有多
種方法進行 Generalization 及 Suppression, 過去往往認為,如果資料的擁有者不要
都可以使整個資料集符合 K 匿名的標準,但 釋出資料表,而僅僅釋出如平均值、總數等
哪一種能夠保留最佳的統計效果則難以確定。 統計值即可保護敏感資訊。但是事實上,僅
雖然在實施上仍有許多問題有待克服,但 K 僅釋出統計數值仍可能導致隱私洩露。
匿名的理論基礎較容易為社會大眾所了解,
以敏感醫療資訊為例,假設有一資料表
也經常被用來對一般人說明資料如何進行匿
內含個人基本資料如身分證字號、姓名、性
名化,可說是除了資料遮蔽外較容易對社會
別、生日以及患病資料如是否患有肺炎,而
大眾說明的去識別化方法。
此資料表被某資院妥善保管,並對外開放資
K 匿名目前在臺灣也是政府進行去識別 料庫查詢介面供研究者進行各項查詢。有外
化的候選技術之一。過去研究機構在需要使 部窺探者想窺探其中一名個人是否患病,透
用政府敏感資料時,可以向政府提出申請。 過管道打聽到該名個人在資料庫中的排序為
經政府機關同意,並簽署切結書後,研究者 50。此時窺探者可以透過資料庫查詢介面向
就可以在政府機關指定的處所進行資料的檢 資料庫查詢「在前 49 筆資料中有幾位得到肺
視與分析。提供資料的政府機關有時會先行 癌」以及「在前 50 筆資料中有幾位得到肺癌」
遮蔽身分證字號等敏感資料,但如同上一段 兩項資訊。如果兩項資訊的內容一致,則可
所述,如果資料中擁有相同屬性的資料太少, 確知排序為 50 的個人並未罹患肺炎,反之則
取用資料者仍有可能透過欄位連結比對的方 可確知排序為 50 的個人有罹患肺炎。
式來辨識出特定人。從 K 匿名相關研究我們
為 了 避 免 上 述 的 問 題 發 生, 差 分 隱 私
可知純粹的欄位遮蔽並不足以保護個人資料,
(Dwork 2006)所提出的解決方案,是在回
因此亟需一套有效可行的方式來解決此一問
覆統計數值時,加入經過計算後的雜訊,以
題。在目前政府仍在測試中或已經施行的去
使兩個統計查詢的結果有很高的機率會一致,
識別化方案中,許多均採行 K 匿名的方式進
以使窺探者無法使用交叉比對的方式取得真
行,或至少採用 K 匿名部分的精神。值得一
實資訊。舉例而言,上述兩個查詢如果資料
提的是,在進行 K 匿名處理時需要先區別敏
庫都回覆一個很相近的結果,這樣窺探者就 圖 1 左上角的表格為原始資料集。透過
無法確知第 50 名個人究竟有沒有罹患肺炎。 找出原始資料中各種(X,Y)組合的數量,我
當然,這也代表進行統計查詢時無法獲得精 們產出黃色的列聯表。請注意,如果 X 或 Y
確的數值,這也是保障隱私必須付出的代價。 有其他可能的數值,只是剛好在原始資料集
而差分隱私的研究也聚焦在如何加入雜訊可以 中未出現的話(如 X 其實是可以等於 3),
兼顧隱私保護,並盡可能維持統計的精確度。 那麼在黃色列聯表中的 X 軸也需要有 3 的這
個可能數值,並在列聯表的對應欄位上填上
以上所述為典型的差分隱私機制,係透 計數為 0。由於黃色列聯表中的每個格子都
過一個查詢介面查詢特定統計值的情況。但 是一個對原始資料表的次數查詢(Counting
在一般資料交換的流程中,若能交付整批資 Query),因此我們可以說黃色列聯表其實就
料,對負責分析的單位來說還是更具彈性。 是原始資料表的一種呈現形式。接著我們在
為了因應這種情境,學者所提出的解決方案 黃色列聯表的各種(X,Y)的次數查詢結果上
係以透過資料庫查詢介面進行一連串的查詢 依照差分隱私原則加入雜訊,使得列聯表內
後, 再 利 用 查 詢 結 果 重 新 建 構 資 料 表。 以 的次數發生改變後,再依據黃色列聯表的新
DPTable(Chen et al. 2015)為例,係以「次 次數產生一張新的合成資料表,就可以得到
數查詢」為主軸對資料庫進行重複的查詢後 一個以差分隱私為基礎所產生的合成資料表。
取得各種屬性組合在資料庫中出現的次數,
再利用這些次數資訊重構資料庫,其過程如 與 K 匿名機制相較,差分隱私機制的運
圖 1: 作相當不同。由於資料的產生是基於加入過
1 2
X
Y
2 2 0 1
3 0 1 0
4 0 1
圖 1 如何以一連串的查詢結果產出合成資料
資料來源:本研究整理
表 1 亂數回應機制如何推算統計數值
實際機率 回報機率
丟擲銅板為文字面,回報為有吸毒(p/2)
有吸毒習慣者 p
丟擲銅板為頭像面,回報為無吸毒(p/2)
丟擲銅板為文字面,回報為無吸毒(1-p/2)
無吸毒習慣者 (1-p)
丟擲銅板為頭像面,回報為無吸毒(1-p/2)
資料來源:本研究整理
三、亂數回應機制
雜訊的統計數值,即使資料表中產生與真實 亂 數 回 應 機 制 的 發 源, 可 以 追 溯 至
個人相似的資料,攻擊者也無法完全確定該 Warner 所 進 行 的 社 會 科 學 研 究(Warner
資料屬於個人。在學術上由於差分隱私具備 1965)。當時的研究者希望讓問卷填答者能
嚴謹的數學證明,因此也可以確實控制被猜 夠在保有隱私的情況下誠實地回答問卷,以
中的風險大小。但是與其他的隱私方法一樣, 確保統計結果的可信度,於是設計了亂數回
要增加隱私就必須犧牲統計準確度。如何在 應機制。以吸毒與否的問題為例,問卷發放
方法上改善以增進統計準確度,一直是相關 者要求問卷填答者先丟擲一枚硬幣,如果硬
研究的努力目標。 幣停留在頭像面,則無論如何都請受測者填
答沒有吸毒 ; 如果硬幣停留在文字面,則請受
上述差分隱私合成資料的另一個特性是, 測者據實以答。在這樣的設計下,研究者無
出現次數較少的數值,在統計精確度上會大 法確定個別的回答者究竟有無吸毒,但在整
幅下降,此部分的負面作用較難避免。資料 體統計時可以獲得精確的吸毒人口比例。推
中的極端值原本就較為突出,因此要對其進 算的方式可以舉例如表 1:
行保護時,要加入的雜訊也必須更大才能確
保隱私。在處理此部分問題時可以參酌 K 匿 從表 1 中我們可以推知,在調查完成後,
名之精神,將為數較少的極端值集結到同一 如果調查所獲得的有吸毒習慣者比例為 5%,
個區間,再以其平均值做為各項數值的代表 則可推知實際的有吸毒習慣者比例為 10%。
數值,即可有效降低須加入的雜訊量。經過 從以上的例子我們可以充分了解,亂數回應
極端值集結處理的資料表與未經過此處理的 的設計可以使得所有填答者對自己的答案具
資料表在統計上各有優點,可視實際需求的 備可否認性,從而讓使用者毫無顧慮可以提
情境選用之(Tai, Li and Huang 2017)。 供最真實的答案。以亂數回應來保障隱私有
以下的優點:
(一)回答者在回答前透過某種機率機制決 理,在原始資料中加入合乎差分隱私規範的
定是要據實以告,或是要依照機率的 雜訊後,送到遠端。由於加入的雜訊亂數符
規範回應一個事先約定好的答案。在 合一定的機率分配,因此遠端的伺服器在匯
具備可否認性的情況下回答者沒有說 聚大量的資料後,可以從中計算出真實的數
謊的動機,而可以獲得最正確的答案。 值分佈。與 K 匿名及差分隱私合成資料最大
的不同,是隨機回應機制可以對逐筆傳輸的
(二)無法確知單一回答者的答案是否為真, 資料加上隱私保護,而不須先待整個資料表
但在大量累積數據後則可以得知整體 收集完成後再進行運算。這樣的特性特別適
的正確比例為何。 用於物聯網的使用情境,無線傳輸的資訊即
使被攔截,單一一筆的資料也不會洩漏任何
(三)無需在資料收集完成後才加上隱私保
隱私資訊。除非攻擊者能夠大規模的收集到
護,而是在個人回答的當下就已經提
諸多物聯網設備長時間發送的結果,否則也
供隱私保護,避免了資料傳遞過程諸
無法推論出最終的統計數值。
多環節可能產生的隱私洩漏問題。
跟其他方法一樣,亂數回應方法有其使 伍、結論
用上的限制。目前亂數回應方法主要被運用
在數位時代,資料的價值不言可喻。資
在單一資料欄位的狀況,可在最後進行彙整
料科學與人工智慧技術的進展對產業競爭力
及分析時,提供計數、機率等簡易之統計項
至關重要,需要大量可供分析研究的資料促
目,而無法處理需要保留欄位數值相關性的
成之。臺灣缺乏如美國的巨型網路企業,與
情況。即便如此,亂數回應方法仍有許多適
中國相較也沒有其幾乎不設限的資料收集環
用的應用情境,例如網路瀏覽者的電腦環境
境,非透過跨組織之間的資料交換整合,難
回報、智慧電錶、水表等資訊之傳遞,均可
以取得發展大數據分析能力的入場券。去識
利用此一方法在不洩漏傳遞細節的情況下,
別化技術則是兼顧個人隱私保障以及數據分
獲得最後彙整的結果。
析產業發展的可能解方。建議未來政府部門
目前最廣為熟知且經學術界深入探討的 在持續微調各項個人資料保護之法規時,除
亂數回應機制為 Google 所開發的 RAPPOR 了廣納公民團體之意見外,也可參酌產業的
(Erlingsson et al. 2014),目前已被 Google 需求,並直接介接具去識別化技術研究經驗
與 Apple 運用在實際的產品中。在傳遞資料數 的學界及研究機構人員,使得隱私與技術發
值前,RAPPOR 機制會運用與擲銅板類似的原 展的需求能夠取得良好的平衡。
附註
註:擷 取 自 https://ws.ndc.gov.tw/Download.ashx?u=LzAwMS9hZG1pbmlzdHJhdG9yLzEwL3JlbGZpbGUvMC8xMTY5NC82N2Q4YmI1Y
S1kYzJlLTRhNzktYmFkYi1jMWQxNGRlZDc4YzEucGRm&n=5q2Q55ufR0RQUuiIh%2baIkeWci%2bWAi%2bS6uuizh%2baWmeS%2
fneitt%2bazleS5i%2bmHjem7nuavlOi8g%2bWIhuaekC5wZGY%3d&icon=..pdf
參考文獻
1. Chen, R., Xiao, Q., Zhang Y. and Xu J. 2015. Differentially Private High-Dimensional Data Publication via Sampling-Based
Inference. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015.
2. Dwork C. 2006. Differential Privacy. In: Bugliesi M., Preneel B., Sassone V., Wegener I. (eds) Automata, Languages and
Programming. International Colloquium on Automata, Languages, and Programming 2006. Lecture Notes in Computer Science, vol
4052.
3. Erlingsson, Ú., Pihur, V., Korolova, A. 2014. RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response. CCS’14.
4. Narayanan, A., Shmatikov, V. 2008. Robust De-anonymization of Large Sparse Datasets. Presenting at 2008 IEEE Symposium on
5. Samarati, P., Sweeney, L. 1998. Protecting privacy when disclosing information: k-anonymity and its enforcement through
generalization and suppression (PDF). Harvard Data Privacy Lab. Retrieved Sep 12th, 2017.
6. Sweeney, L. 2002. k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-
7. Warner, S. L. 1965. Randomized response: A survey technique for eliminating evasive answer bias. Journal of the American