You are on page 1of 10

季刊

數位時代之數位隱私保護

李思壯 中央研究院資訊科技創新研究中心博士後研究員
黃彥男 中央研究院資訊科技創新研究中心主任 特聘研究員

摘要

隨著資料科學以及人工智慧技術的蓬勃發展,資料逐漸被視為重要的策略性資源,有「資料
是新的黃金」一說。而資料在取得後,也需要進一步之揀選精煉才能創造出價值,而此過程往往
涉及資料交換。異質性資料的串接能夠大幅提高資料的豐富性,資料收集者與更多資料分析者合
作,也有助於提昇資料的價值。

資料交換對個人隱私的保護帶來新的挑戰,資料處理者若自多個來源取得資料後進行比對串
連,將使得個人隱私資料洩漏的風險急遽升高,因此各國也試圖透過新法規的制定來解決此一問
題。歐盟的 GDPR 為隱私法規中最受矚目者,除了明定提供個人資料者的多項權利外,亦對資料
交換加上諸多限制,惟對去識別化資料網開一面,允許其可進行自由交換。本文將介紹近期相關
法規及技術之進展,希望使讀者能夠對隱私保護問題之法規及技術議題有初步之理解。

關鍵字:隱私保護、GDPR、差分隱私、K 匿名、隨機回應

壹、前言 資訊使用行為,不但自身獲得可觀的廣告收
益,許多研究者也透過 Facebook 所提供的
隨著資料科學以及人工智慧技術的蓬勃 資料接取介面進行各式各樣的社會科學研究。
發展,資料也被視為是珍貴的策略性資源, 如同開採金礦一般,在取得原始資料後,資
並常被拿來與金礦類比。Google 運用使用者 料仍須經過篩選整理,並以統計分析或其他
的瀏覽行為來推估使用者的偏好,創造了龐 研究方法進行精煉,方能從中創造出價值。
大的個人化廣告收益;Amazon 憑藉顧客過 過去網路新創事業往往以擴大用戶基礎、增
去的消費資訊,精準預估顧客未來的需求, 加客戶忠誠度為要務,願意在初期進行大規
使得推薦商品的被購率不斷推升;Facebook 模的投資並長期投入,只求用戶能夠突破臨
則透過確實掌握顧客的人際網絡以及日常的 界數量。而今日的新創事業在初期資源的投

30 第七卷 第四期 108 年 12 月


本期專題

入上更不手軟,因為除了追求更大的用戶數 別化技術並說明其適用情境,以供讀者理解
量之外,營運中所累積的用戶資料也日益珍 目前資料去識別化相關技術的發展現況及未
貴,而可被視為公司的資產。 來展望。

要充分發揮資料的價值,必須讓有能力 貳、重大隱私爭議事件實例
自資料中萃取價值的個人或團隊能夠順利取
用資料,再者必須讓各種不同來源的資料能 一、劍橋分析事件
夠進行彙整及交叉分析。以臺灣政府的資料
開放平臺為例,即由政府各部門提供即時或 劍橋分析公司在 2013 年於英國成立,
批次資料,以供外界取得並進行分析。一般 是 一 家 以 大 數 據 分 析 為 主 要 業 務 的 公 司。
企業或民間組織則多將資料視為組織資產, 一直以來,該公司宣稱擁有掌握投票人意向
但也時常面臨一些問題,例如內部缺乏資訊 的能力,且在數年間參與了澳洲、印度、肯
分析的能量,或是需要與其他資料來源進行 亞、馬爾他、墨西哥、英國以及美國等地區
整合,以進行有意義的分析。此時若資料不 多次選舉及公投的公關宣傳活動。2018 年 3
涉及個人資料,則僅需要資料交換之雙方同 月,有多家媒體開始報導關於劍橋分析公司
意,即可進行資料共享。例如廠房的生產監 可能透過不正當之方式,長時間獲取使用者
控資訊,組織的營運內控資訊等不涉及個人 Facebook 動態的議題。劍橋分析先以學術研
資料者,均屬此類。一旦資料涉及個人資料, 究的名義在 Facebook 平臺上開發了一個心
則會因法規的規範,而不能任意流通。臺灣 理測驗 APP,吸引使用者給予該 APP 取用使
的「 個 人 資 料 保 護 法 」 已 行 之 有 年, 歐 盟 用者本身及朋友網絡資訊的權限。劍橋分析
的一般資料保護規則 GDPR(General Data 根據 Facebook 所給予的權限開始大規模的
Protection Regulation)也已經實施,未來各 收集使用者及其朋友的日常動態資料,包括
項資料交換均必須遵循,不然不僅有違法之 他們的發言,以及對哪個類型的內容做出反
虞,違反的組織或個人也會面臨鉅額求償。 應。根據 Facebook 所提供的權限,即使使
用者沒有使用該 APP,也有可能因為其他朋
在資料被視為事業資產的今日,資料隱 友有使用其 APP,使其日常活動受到未經同
私權以及所有權的界定,必將成為討論焦點, 意的追蹤。劍橋分析會根據所收集到的資料
本文將先聚焦於資料隱私議題進行討論,首 進行策略擬定,透過各式各樣的手法影響選
先將介紹數個隱私洩露的著名個案,包括劍 舉,例如挑起爭議性話題,或是發起年輕人
橋分析醜聞,以及 Netflix 歷次資料科學預測 不投票運動以使特定的候選人獲益。劍橋分
競賽的隱私爭議,再就目前臺灣及歐盟資料 析影響大眾的方式則以投放臉書廣告為主,
保護法規與隱私保護相關之部分做初步介紹, 搭配其他媒體作為為輔。雖然實際安裝並使
並說明如何透過技術滿足當前的法規需求。 用 該 APP 的 使 用 者 僅 有 27 萬 人, 但 由 於
此外亦將介紹目前較為風行的一些資料去識 Facebook 也允許劍橋分析抓取參與者朋友的

第七卷 第四期 108 年 12 月 31


季刊

資料,在數年中劍橋分析竟擷取了超過 8,700 就有機會獲獎。由於釋出的資料欄位有限,


萬名 Facebook 使用者的動態。在此事曝光 且使用者以及電影均僅提供編號,Netflix 原
後 Facebook 也開始逐步收緊 APP 開發者在 本認為此資料並不含有隱私資訊。但在德州
擷取使用者資料時之權限範圍,以增強對隱 大學研究生 Arvind Narayanan 及學者 Vitaly
私的保護。 Shmatiko 的研究中證明(Arvind Narayanan
and Vitaly Shmatiko 2008),即使在資料如
Facebook 開放相關資料給 APP 開發者 此有限的情況下,透過與其他線上電影社群
的原意,是要讓 APP 的開發者能夠運用使用 資料之評分資料進行比對,仍可透過比對評
者朋友的各項資訊進行演算整理後,提供計 分的紀錄在一定程度上辨識出用戶及其所觀
算結果給 APP 的使用者,可是卻被劍橋分析 看的影片為何。由於在電影社群中有的用戶
用於大規模的資料採集。Facebook 創辦人祖 會揭露自己的真實身份,這樣的辨識工作在
克伯也因此被要求至國會進行聽證與說明。 大量進行累積後,可以建立電影編號與實際
在 Facebook 資料政策收緊後,APP 開發者 代表的電影的對照表,使得特定人觀看特定
也無法再運用臉書中蘊含的社會網絡資料提 電影的情況被攤在陽光下。Netflix 在 2007-
供服務給使用者。如果 Facebook 未來希望 2009 進行了三次第一代競賽,但由於美國有
恢復此部分資料的提供,Facebook 可以考慮 規範錄影帶出租紀錄保密的相關法律,Netflix
採用以去識別化技術隱藏使用者好友之識別 也 遭 到 使 用 者 的 提 告, 並 以 和 解 收 場。 在
碼,並將其他資料以加入雜訊的方式加以提 2010 年 Netflix 試圖推出第二代的競賽活動,
供,如此一來相關應用程式仍可就去識別化 但同樣因為有無法解決的隱私疑慮,最後遭
後的資料進行概括的分析,而不至於洩漏個 到取消。
人資訊。
在 以 上 兩 個 案 例 中,Facebook 係 為 了
二、Netflix 提供 APP 開發者開發以社群關係為基礎的軟
體,而授與用戶取得使用者以及使用者朋友
Netflix 於 2007 年 發 起 一 項 名 為 Netflix
群動態的權限,Netflix 則是為了改善影片推
Prize 的資料科學競賽,並釋出大量的使用者
薦的演算法而釋出匿名化的資料,但兩者均
租片資訊供參賽者分析。競賽所提供的資料
未能有效地阻止隱私外洩的問題。由於相關
僅有四個欄位,分別是使用者編號、電影編
的案例層出不窮,各國對於網路使用者資料
號、使用者給予電影的評分、以及評分給予
隱私問題的關注與日俱增。以下將就相關法
的日期。參賽者的任務為利用 Netflix 所提供
規的現況以及歐盟 GDPR 的現況進行概略說
的資料,預測特定訂戶對某個影片的評分為
明,以探討資料去識別化技術對資料交換議
何。若其預測準確率能高於原本的準確率,
題的可能助益為何。

32 第七卷 第四期 108 年 12 月


本期專題

參、歐 盟 GDPR 及 我 國 個 人 資 持有個人資料者,必須善盡保管個人資


料的義務,且在使用資料時,不得超過使用
料保護法對個人資料使用
者同意的範圍,意即使用者可以不同意其將
之規範 資料委外分析,或在集團內各分公司流動。
另外 GDPR 以及我國個人資料保護法均有對
歐盟一般資料保護規則(General Data
資料的跨境移動進行規範,意即在同一個母
Protection Regulation,GDPR)已經在 2018
公司的分公司之間,即使經過使用者同意,
年 5 月 25 日開始施行。此規範的公布對網路
也不能任意將歐盟境內收集到的資料傳輸到
相關產業的影響甚鉅,因為其在第三條即開
歐盟境外。這樣的規範提供了對個人資料更
宗明義規範,境外資料管理者及處理者對於
佳的保障,但某個程度上也使得無力在內部
歐盟境內資料當事人基於提供商品、服務或
建制資料分析能量的組織,難以從資料中萃
對於資料當事人在歐盟境內之行為監控所為
取 出 價 值。 針 對 這 樣 的 問 題,GDPR 的 第
之資料處理活動者,均適用該法。未能確實
二十六條則明白定義,若能有效的針對資料
遵循法令者,最高罰則可達兩千萬歐元或年
進行去識別化,則去識別化的資料可以視同
度總營收之百分之四。此一規範使得幾乎所
非個人資料,則後續的資料開放、資料交換、
有的跨國企業均需要符合 GDPR 的規範。不
資料分析外包等作業可水到渠成。
論是在歐盟的 GDPR 或臺灣的個人料保護法,
都會對「個人資料」做出定義,如果資料內 GDPR 另規範有四項權利,包括較廣為
含這些資訊,在運用時就必須符合法條的要 人知的被遺忘權、資料可攜性、用戶更正資
求。GDPR 的第四條規範可直接或間接識別 料的權利、用戶拒絕個資被自動化決策的權
自然人之任何資訊,均屬於個人資料,包括 利,讓用戶希望移除資料時可以移除,希望
網路識別碼(如網路 ID)。此部分的規定與 轉移資料至其他平臺時可以順利轉移,而不
我國個人資料法雷同。由於間接與直接識別 希望使用人工智慧機制輔助決策(即被演算
均需要受到保護,過往僅針對可識別身份之 法分群分類)時得以拒絕。
單一欄位(例如身分證字號)以雜湊函數或
加密演算法進行加密的方式,就成為必要但 本文的探討焦點在於資料交換議題,因
不夠充分之保護了。簡而言之,具備間接或 此將聚焦於去識別化技術的討論。有效的去
直接識別效果的資料,不論就 GDPR 而言或 識別化技術可以保障用戶隱私,亦可以促進
我國個人資料保護法而言,均會被視為個人 資料的交換分享,以利從資料中創造更高的
資料。 價值。

第七卷 第四期 108 年 12 月 33


季刊

肆、去識別化技術簡介 就可以利用這些資訊的交集,去比對出特定
病人的罹病與否。舉例而言,假設整個患病
目前常見的之去識別化技術可分為 K 匿 檢查資料表中只有一筆病患身高為 150cm、
名、差分隱私合成資料,以及隨機回應技術, 體重為 64kg 且性別為女性,而窺探隱私者又
分別適用於不同的應用情境。其中 K 匿名與 可以確知某位具有這些屬性的女性必定在其
各國法規的隱私定義最接近,目前也是我國 中的話,窺探者就可以透過比對這些資訊得
政府積極測試中的去識別化技術。差分隱私 知該名女性的罹病狀況。要避免這種比對的
則是最獲學術界認可的隱私保護定義,提供 情況發生,K 匿名機制會檢視各種欄位組合
可以數學證明驗證之隱私保護。隨機回應技 的獨特性,以確認一份資料受到此類攻擊的
術則適用於物聯網或是串流資料的傳輸,目 機會為何,其中的 K 即為在相同的欄位交集
前 Google 以及 Apple 都已經將隨機回應技 狀況下可以找到多少相同的資料。當 K 越大
術運用在已發行的軟體中。以下將就此幾項 時,窺探隱私者就越難進行準確的猜測。以
技術做簡要之說明。 上述的情況為例,如果同一份資料中有五筆
有相同的身高、體重、性別,那窺探者就比
一、K 匿名(K-anonymity) 較難確定其中哪一位是他想窺探的病患。

K 匿名(Samarati and Sweeney 1998) K 匿名並不是沒有缺點,而後續研究也


一詞首見於 1998 年的研究,其研究動機源自 持續針對其缺失進行改善。例如,在前述的
於美國法律對投票人名單須公開的規定。窺 情境中,即使在 K 較大的情況下,如 果 這 五
探者可利用這份公開的名單中的資料欄位, 筆 資 料 的 患 病 情 況 一 致( 例 如 五 人 均 有
與其他已遮蔽識別欄位的資料表對照,就未 患 病 ) ,則即使有五名相同的人員,窺探者
遮蔽的欄位進行比對,進而推知已遮蔽識別 仍可確知該名女性已經罹病。如果發現敏感
欄位的資料究竟是指向哪一位真實的個人。 屬性交集資料數量有低於 K,或數量高於 K
後續該研究團隊也持續在此議題上進行發表 但 敏 感 欄 位 狀 態 均 一 致 時, 通 常 有 兩 種 處
(Sweeney 2002),而成為主要的去識別化 理 方 式, 一 種 稱 為 Generalization, 一 種
實作標準之一。K 匿名主要運用於表格型態 稱為 Suppression:
之資料,我們先以特定病症的罹病資訊為例,
若有一表格含有身高、體重、性別,以及特 (一)Generalization
定病症的罹病資訊,有意竊取敏感性罹病資 將某些欄位進行「概化」,例如將數字
訊者,可能因為其他原因而持有特定病人身 改成數字範圍,或是將類別型欄位以更上位
分證字號以及身高、體重、性別資訊。此時 的概念來涵蓋,例如將音樂家與畫家合併為
若罹病資訊的表格中也有這些欄位,窺探者 藝術家。

34 第七卷 第四期 108 年 12 月


本期專題

(二)Suppression 感欄位與非敏感欄位,然後針對敏感欄位進
行處理,此部份涉及人為的判斷,也是目前
將某些欄位加以遮蔽,過去文獻上均以
K 匿名應用上的難題之一。
填入「*」來處理之。使用這樣的處理方式基
本上已是完全放棄該欄位的資訊。
二、差分隱私合成資料
上述的兩種處理方式在概念上並不難理 (Differential Privacy
解,但實作上卻有其困難之處。當我們辨別 Synthetic Data)
出一些不符 K 匿名要求的資料時,可以有多
種方法進行 Generalization 及 Suppression, 過去往往認為,如果資料的擁有者不要
都可以使整個資料集符合 K 匿名的標準,但 釋出資料表,而僅僅釋出如平均值、總數等
哪一種能夠保留最佳的統計效果則難以確定。 統計值即可保護敏感資訊。但是事實上,僅
雖然在實施上仍有許多問題有待克服,但 K 僅釋出統計數值仍可能導致隱私洩露。
匿名的理論基礎較容易為社會大眾所了解,
以敏感醫療資訊為例,假設有一資料表
也經常被用來對一般人說明資料如何進行匿
內含個人基本資料如身分證字號、姓名、性
名化,可說是除了資料遮蔽外較容易對社會
別、生日以及患病資料如是否患有肺炎,而
大眾說明的去識別化方法。
此資料表被某資院妥善保管,並對外開放資
K 匿名目前在臺灣也是政府進行去識別 料庫查詢介面供研究者進行各項查詢。有外
化的候選技術之一。過去研究機構在需要使 部窺探者想窺探其中一名個人是否患病,透
用政府敏感資料時,可以向政府提出申請。 過管道打聽到該名個人在資料庫中的排序為
經政府機關同意,並簽署切結書後,研究者 50。此時窺探者可以透過資料庫查詢介面向
就可以在政府機關指定的處所進行資料的檢 資料庫查詢「在前 49 筆資料中有幾位得到肺
視與分析。提供資料的政府機關有時會先行 癌」以及「在前 50 筆資料中有幾位得到肺癌」
遮蔽身分證字號等敏感資料,但如同上一段 兩項資訊。如果兩項資訊的內容一致,則可
所述,如果資料中擁有相同屬性的資料太少, 確知排序為 50 的個人並未罹患肺炎,反之則
取用資料者仍有可能透過欄位連結比對的方 可確知排序為 50 的個人有罹患肺炎。
式來辨識出特定人。從 K 匿名相關研究我們
為 了 避 免 上 述 的 問 題 發 生, 差 分 隱 私
可知純粹的欄位遮蔽並不足以保護個人資料,
(Dwork 2006)所提出的解決方案,是在回
因此亟需一套有效可行的方式來解決此一問
覆統計數值時,加入經過計算後的雜訊,以
題。在目前政府仍在測試中或已經施行的去
使兩個統計查詢的結果有很高的機率會一致,
識別化方案中,許多均採行 K 匿名的方式進
以使窺探者無法使用交叉比對的方式取得真
行,或至少採用 K 匿名部分的精神。值得一
實資訊。舉例而言,上述兩個查詢如果資料
提的是,在進行 K 匿名處理時需要先區別敏

第七卷 第四期 108 年 12 月 35


季刊

庫都回覆一個很相近的結果,這樣窺探者就 圖 1 左上角的表格為原始資料集。透過
無法確知第 50 名個人究竟有沒有罹患肺炎。 找出原始資料中各種(X,Y)組合的數量,我
當然,這也代表進行統計查詢時無法獲得精 們產出黃色的列聯表。請注意,如果 X 或 Y
確的數值,這也是保障隱私必須付出的代價。 有其他可能的數值,只是剛好在原始資料集
而差分隱私的研究也聚焦在如何加入雜訊可以 中未出現的話(如 X 其實是可以等於 3),
兼顧隱私保護,並盡可能維持統計的精確度。 那麼在黃色列聯表中的 X 軸也需要有 3 的這
個可能數值,並在列聯表的對應欄位上填上
以上所述為典型的差分隱私機制,係透 計數為 0。由於黃色列聯表中的每個格子都
過一個查詢介面查詢特定統計值的情況。但 是一個對原始資料表的次數查詢(Counting
在一般資料交換的流程中,若能交付整批資 Query),因此我們可以說黃色列聯表其實就
料,對負責分析的單位來說還是更具彈性。 是原始資料表的一種呈現形式。接著我們在
為了因應這種情境,學者所提出的解決方案 黃色列聯表的各種(X,Y)的次數查詢結果上
係以透過資料庫查詢介面進行一連串的查詢 依照差分隱私原則加入雜訊,使得列聯表內
後, 再 利 用 查 詢 結 果 重 新 建 構 資 料 表。 以 的次數發生改變後,再依據黃色列聯表的新
DPTable(Chen et al. 2015)為例,係以「次 次數產生一張新的合成資料表,就可以得到
數查詢」為主軸對資料庫進行重複的查詢後 一個以差分隱私為基礎所產生的合成資料表。
取得各種屬性組合在資料庫中出現的次數,
再利用這些次數資訊重構資料庫,其過程如 與 K 匿名機制相較,差分隱私機制的運
圖 1: 作相當不同。由於資料的產生是基於加入過

1 2
X
Y
2 2 0 1
3 0 1 0
4 0 1

圖 1 如何以一連串的查詢結果產出合成資料
資料來源:本研究整理

36 第七卷 第四期 108 年 12 月


本期專題

表 1 亂數回應機制如何推算統計數值

實際機率 回報機率

丟擲銅板為文字面,回報為有吸毒(p/2)
有吸毒習慣者 p
丟擲銅板為頭像面,回報為無吸毒(p/2)

丟擲銅板為文字面,回報為無吸毒(1-p/2)
無吸毒習慣者 (1-p)
丟擲銅板為頭像面,回報為無吸毒(1-p/2)

資料來源:本研究整理

三、亂數回應機制

雜訊的統計數值,即使資料表中產生與真實 亂 數 回 應 機 制 的 發 源, 可 以 追 溯 至
個人相似的資料,攻擊者也無法完全確定該 Warner 所 進 行 的 社 會 科 學 研 究(Warner
資料屬於個人。在學術上由於差分隱私具備 1965)。當時的研究者希望讓問卷填答者能
嚴謹的數學證明,因此也可以確實控制被猜 夠在保有隱私的情況下誠實地回答問卷,以
中的風險大小。但是與其他的隱私方法一樣, 確保統計結果的可信度,於是設計了亂數回
要增加隱私就必須犧牲統計準確度。如何在 應機制。以吸毒與否的問題為例,問卷發放
方法上改善以增進統計準確度,一直是相關 者要求問卷填答者先丟擲一枚硬幣,如果硬
研究的努力目標。 幣停留在頭像面,則無論如何都請受測者填
答沒有吸毒 ; 如果硬幣停留在文字面,則請受
上述差分隱私合成資料的另一個特性是, 測者據實以答。在這樣的設計下,研究者無
出現次數較少的數值,在統計精確度上會大 法確定個別的回答者究竟有無吸毒,但在整
幅下降,此部分的負面作用較難避免。資料 體統計時可以獲得精確的吸毒人口比例。推
中的極端值原本就較為突出,因此要對其進 算的方式可以舉例如表 1:
行保護時,要加入的雜訊也必須更大才能確
保隱私。在處理此部分問題時可以參酌 K 匿 從表 1 中我們可以推知,在調查完成後,
名之精神,將為數較少的極端值集結到同一 如果調查所獲得的有吸毒習慣者比例為 5%,
個區間,再以其平均值做為各項數值的代表 則可推知實際的有吸毒習慣者比例為 10%。
數值,即可有效降低須加入的雜訊量。經過 從以上的例子我們可以充分了解,亂數回應
極端值集結處理的資料表與未經過此處理的 的設計可以使得所有填答者對自己的答案具
資料表在統計上各有優點,可視實際需求的 備可否認性,從而讓使用者毫無顧慮可以提
情境選用之(Tai, Li and Huang 2017)。 供最真實的答案。以亂數回應來保障隱私有
以下的優點:

第七卷 第四期 108 年 12 月 37


季刊

(一)回答者在回答前透過某種機率機制決 理,在原始資料中加入合乎差分隱私規範的
定是要據實以告,或是要依照機率的 雜訊後,送到遠端。由於加入的雜訊亂數符
規範回應一個事先約定好的答案。在 合一定的機率分配,因此遠端的伺服器在匯
具備可否認性的情況下回答者沒有說 聚大量的資料後,可以從中計算出真實的數
謊的動機,而可以獲得最正確的答案。 值分佈。與 K 匿名及差分隱私合成資料最大
的不同,是隨機回應機制可以對逐筆傳輸的
(二)無法確知單一回答者的答案是否為真, 資料加上隱私保護,而不須先待整個資料表
但在大量累積數據後則可以得知整體 收集完成後再進行運算。這樣的特性特別適
的正確比例為何。 用於物聯網的使用情境,無線傳輸的資訊即
使被攔截,單一一筆的資料也不會洩漏任何
(三)無需在資料收集完成後才加上隱私保
隱私資訊。除非攻擊者能夠大規模的收集到
護,而是在個人回答的當下就已經提
諸多物聯網設備長時間發送的結果,否則也
供隱私保護,避免了資料傳遞過程諸
無法推論出最終的統計數值。
多環節可能產生的隱私洩漏問題。

跟其他方法一樣,亂數回應方法有其使 伍、結論
用上的限制。目前亂數回應方法主要被運用
在數位時代,資料的價值不言可喻。資
在單一資料欄位的狀況,可在最後進行彙整
料科學與人工智慧技術的進展對產業競爭力
及分析時,提供計數、機率等簡易之統計項
至關重要,需要大量可供分析研究的資料促
目,而無法處理需要保留欄位數值相關性的
成之。臺灣缺乏如美國的巨型網路企業,與
情況。即便如此,亂數回應方法仍有許多適
中國相較也沒有其幾乎不設限的資料收集環
用的應用情境,例如網路瀏覽者的電腦環境
境,非透過跨組織之間的資料交換整合,難
回報、智慧電錶、水表等資訊之傳遞,均可
以取得發展大數據分析能力的入場券。去識
利用此一方法在不洩漏傳遞細節的情況下,
別化技術則是兼顧個人隱私保障以及數據分
獲得最後彙整的結果。
析產業發展的可能解方。建議未來政府部門
目前最廣為熟知且經學術界深入探討的 在持續微調各項個人資料保護之法規時,除
亂數回應機制為 Google 所開發的 RAPPOR 了廣納公民團體之意見外,也可參酌產業的
(Erlingsson et al. 2014),目前已被 Google 需求,並直接介接具去識別化技術研究經驗
與 Apple 運用在實際的產品中。在傳遞資料數 的學界及研究機構人員,使得隱私與技術發
值前,RAPPOR 機制會運用與擲銅板類似的原 展的需求能夠取得良好的平衡。

38 第七卷 第四期 108 年 12 月


本期專題

附註

註:擷 取 自 https://ws.ndc.gov.tw/Download.ashx?u=LzAwMS9hZG1pbmlzdHJhdG9yLzEwL3JlbGZpbGUvMC8xMTY5NC82N2Q4YmI1Y

S1kYzJlLTRhNzktYmFkYi1jMWQxNGRlZDc4YzEucGRm&n=5q2Q55ufR0RQUuiIh%2baIkeWci%2bWAi%2bS6uuizh%2baWmeS%2

fneitt%2bazleS5i%2bmHjem7nuavlOi8g%2bWIhuaekC5wZGY%3d&icon=..pdf

參考文獻

1.  Chen, R., Xiao, Q., Zhang Y. and Xu J. 2015. Differentially Private High-Dimensional Data Publication via Sampling-Based

Inference. Proceedings of the 21th ACM SIGKDD International Conference on Knowledge Discovery and Data Mining, 2015.

2.  Dwork C. 2006. Differential Privacy. In: Bugliesi M., Preneel B., Sassone V., Wegener I. (eds) Automata, Languages and

Programming. International Colloquium on Automata, Languages, and Programming 2006. Lecture Notes in Computer Science, vol

4052.

3.  Erlingsson, Ú., Pihur, V., Korolova, A. 2014. RAPPOR: Randomized Aggregatable Privacy-Preserving Ordinal Response. CCS’14.

4.  Narayanan, A., Shmatikov, V. 2008. Robust De-anonymization of Large Sparse Datasets. Presenting at 2008 IEEE Symposium on

Security and Privacy, Oakland.

5.  Samarati, P., Sweeney, L. 1998. Protecting privacy when disclosing information: k-anonymity and its enforcement through

generalization and suppression (PDF). Harvard Data Privacy Lab. Retrieved Sep 12th, 2017.

6.  Sweeney, L. 2002. k-anonymity: a model for protecting privacy. International Journal on Uncertainty, Fuzziness and Knowledge-

based Systems, 10, no.5: 557-570.

7.  Warner, S. L. 1965. Randomized response: A survey technique for eliminating evasive answer bias. Journal of the American

Statistical Association, 60 vol.309:63-69.

Public Governance Quarterly

第七卷 第四期 108 年 12 月 39

You might also like