* 본 내용은 김동한 소장 (☎ 02-769-9700, picollo@penta.co.kr) 에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP 의 공식적인 입장이 아님을 밝힙니다

주간기술동향 2017. 8. 16.
개인정보 비식별화 기술 동향 및 전망
김동한
(주)펜타시스템테크놀러지 고등기술연구소장
I . 서론
도래하는 4 차 산업혁명 시대는 사람과 사물이 유기적으로 결합하는 초연결(Hyper Connectivity)

사회가 될 것이며, 이런 초연결 사회의 필수조건은 데이터 공유이다. 데이터의 이동과 공유에
제약이 없으려면 안전함이 전제된 데이터 공유 확대를 위한 입법 개선이 필요한데, 이에 대해
세계 각국은 데이터 공유의 핵심 사항인 개인정보 보호 문제를 해소하기 위해 진중한 논의를
이어가고 있다. 이미 정의된 “개인 식별 가능성”을 가지는 정보를 개인정보로 개념정의하고, 이
를 법적으로 보호하는 전통적 개인정보 보호체계로는 최근 정보통신 기술 및 데이터 분석·활
용 기술의 급격한 발전으로 인한 변화의 요구에 대응하기 어려워 새로운 방법의 필요성이 제기
되고 있다([표 1] 참고). 이런 변화의 흐름은 페이스북(Facebook)이 2009 년 말 자사의 프라이버
시(Privacy) 정책을 “개인정보를 보호하는 방향”에서 “본인의 동의를 얻어 공개하는 방향”으로
선회하고, 2015 년 6 월 마윈 알리바바(Alibaba) 회장이 “IT(Information Technology) 시대는 가고

DT(Data Technology) 시대가 온다”고 하면서 데이터 확보 필요성과 데이터를 이용한 가치 창출
을 강조한 데에서도 읽을 수 있다[2]. 바야흐로 데이터 전성시대가 도래한 것이다. 데이터는 이
제 통제의 대상이 아니며 데이터가 인터넷에 연결되는 순간, 접근·기록·저장·분석되어 수
십억 개의 다른 데이터 조각들과 함께 비교된다. 이제 법으로는 더 이상 데이터 접근을 통제할
수 없는 상황이다. 최근 빅데이터(Big Data)를 활용한 정보분석이 활발하게 이루어지면서 개인
정보 보호와 자료의 효율적 활용이라는 개념이 충돌하며 개인정보 보호의 패러다임 자체의 변
화가 일어나고 있는 것이다.
본 고에서는 빅데이터 산업 활성화와 관련하여 논란의 중심에 있는 개인정보 비식별화(De-
identification)의 개념과 비식별화 기술들에는 어떤 것들이 있는지 살펴보고, 개인정보 비식별화
기술 현황, 관련 이슈 및 향후 전망에 대해 논의하고자 한다.
* 본 내용은 김동한 소장(☎ 02-769-9700, picollo@penta.co.kr)에게 문의하시기 바랍니다.

** 본 내용은 필자의 주관적인 의견이며 IITP 의 공식적인 입장이 아님을 밝힙니다.
14 www.iitp.kr
ICT 신기술
[표 1] 개인정보보호 패러다임의 변화
구분 프라이버시 개인정보자기결정권 신프라이버시
식별성 비전제 식별성 전제 식별성+비식별성
보호대상
(사생활 영역) (개인정보) (포괄성)
권리주장 소극적 적극적 소극적+적극적
개인정보(확정) 개념 기반 실질적 위험 기반
규제 및 집행 맥락적 형량
(해석적 형량 불가피) (Risk Management)
<자료> 심우민, 개인정보 비식별화 또는 익명화 쟁점, 오픈넷 포럼, 2016. 3.[1]
II . 개인정보 비식별화의 이해
그간 ICT 기술의 발전으로 수많은 기업과 공공기관들은 대량의 데이터를 축적하여 왔으며,
이러한 빅데이터는 최근 “21 세기의 원유”라고 불릴 정도로 경제적·사회적 가치를 인정받게
되었다. 빅데이터 중에서도 개인에 관한 일반적인 정보, 의료정보, 위치정보, 신용정보 등은 개
인정보로 통칭되며, 빅데이터의 수집·분석과 관련된 빅데이터 산업은 급속히 성장하고 있다.
기업이나 기관에서 관심을 가지고 분석·활용하고자 하는 빅데이터에는 통상 개인에 관한
정보를 담고 있는 경우가 많다. 따라서 빅데이터를 구성하는 개별 개인정보의 소유권자가 누구
인지, 개인정보의 유통으로 해당 정보 주체의 프라이버시가 침해되는지에 관한 논란이 발생하
게 되었고 빅데이터와 같은 정보를 활용하면서도 정보주체의 개인정보자기결정권과 같은 기본
권을 침해하지 않는 방법이 요구되게 되었다. 그렇다면 앞으로 개인정보 활용 관련 논의의 중
심에는 비식별화나 익명화(Anonymization)가 있을 수밖에 없다. 비식별화는 해당 정보만으로는
특정 개인을 식별할 수 없게 만드는 것을 의미한다. 만약 개인이 특정될 수 없다면 그러한 정
보의 유통이나 처리를 규제할 필요성은 현저히 적어지게 될 것이다. [표. 2]와 같이 빅데이터의
축적 및 활용으로 개인정보의 경제·사회적 가치가 새롭게 부각되면서 안전한 개인정보 보호
의 수단으로 비식별화가 주목 받고 있으며 이러한 데이터 활용과 프라이버시 보호가 첨예하게
대립하는 상황에서, 주요국은 데이터 비식별화 기술을 그 대안으로 고려하고 있다. 특히, 호주
개인정보 보호위원회(The Australian Privacy Commissioner)의 위원인 티모시 필그램(Timothy
Pilgrim)은 CeBIT 2016 에서 비식별화 기술을 로켓 사이언스(Rocket science)에 비유하며 개인정
보 활용과 보호의 균형적 조화를 해결할 문샷(Moonshot)이 될 수 있다고 언급하였다. 또한, 로
켓발사와 마찬가지로 비식별화 기술 역시 관련 전문가의 노력이 요구되며 오류로 인한 사고를
주의해야 함을 강조하였다[4].
정보통신기술진흥센터 15
주간기술동향 2017. 8. 16.
[표 2] 개인정보의 경제·사회적 가치 유형
가치 유형 주요 내용
- 재난재해, 실업과 식량 안보와 같은 국제적 위기에 대한 이해와 대응 촉진
국제 현안 해결
(구글 감기예측, UN Global Pulse 의 실업, 식량안전 분석 등)
- 모든 산업에서의 조직의 효율성 및 생산성 향상
- 미국, 개인 데이터 유통을 통해 매년 7,000 억 달러 또는 전체 지출의 30%의
효율성 향상 건강비용 절감
- 금융 서비스에서는 사기 예방을 통한 비용 절감과 온라인 거래와 지불을 촉진하
여 효율성을 상당히 향상
- 개인화된 맞춤형 상품 및 서비스 개발 촉진(도서추천 서비스, 운전 행태에 따른
예측 능력 향상 개인 맞춤형 보험 상품 개발, 개인 맞춤형 뉴스, 기사 서비스 등)
- 고객의 행태 분석을 통해 개연성 있는 사건에 대비
- 검색 엔진, 이메일, 뉴스 사이트와 소셜 네트워크 등과 같은 무료 서비스 이용
대중화된 정보접근 - 사실상 대부분의 표면상 무료 서비스는 자신과 자신의 행태에 관한 데이터 제공
을 통한 타깃 광고의 대가
- 소극적인 행위자에서 집단적인 소통방식으로 기업과 대화
개인의 권한 강화
- 자신과 믿음, 선호도 등에 관한 정보 공유를 통해 세상과 연결
<자료> 이현승, 송지환, “개인정보 비식별화 기술의 쟁점 연구,” SPRi, 2016. 8.
우리나라 개인정보 관련 법인 개인정보보호법에서는 개인정보를 “살아 있는 개인에 관한

1)
정보로서 성명, 주민등록번호 및 영상 등을 통해 개인을 알아볼 수 있는 정보”라고 정의하고
있으며, 개인정보 비식별화란 정보 집합(환자기록, 보험청구자료 등)에서 식별 정보를 제거함으
로써 개인정보를 특정한 인물과 연결할 수 없도록 하는 것을 말하며 종종 혼동하여 사용되는

익명처리, 가명처리(Pseudonymization) 보다 상위의 개념이다[11].
비식별화란, 본질적으로는 개인정보를 구성하는 세 가지 요인인 ① 특정 데이터가 한 개인
과 대응됨(Single out), ② 특정 데이터와 특정 개인이 연결됨(Llinkability), ③ 특정 데이터로부터
특정 개인을 추론할 수 있음(Inference) 중 일부 혹은 전부를 제거하는 과정이다. 세 가지 구성
요인을 모두 제거하는 것이 ‘익명화’이며, 개인과 대응하는 경우는 허용하되 연결과 추론을 제
거하는 경우 ‘가명화’가 된다. 익명화된 데이터는 “합리적 노력”으로는 재식별화가 불가능하다

는 점에서 개인정보에 해당하지 않지만, 재식별화가 가능한 가명화 데이터는 개인정보로서 보
호되어야 한다는 것이 일반적인 합의이다.
개인정보에 대해 비식별화 조치를 하고, 비식별화에 대한 적정성을 평가하여 비식별화된 정
보도 재식별화의 위험이 있으면 추가로 비식별화하여 어느 정도의 수준을 넘을 경우 이를 개인
정보가 아닌 정보로 보아야 한다. 이는 비식별화에 대한 적정성 평가라는 개념을 통해서 비식
1) 해당 정보 만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함한다
16 www.iitp.kr
ICT 신기술
<자료> NIA, 개인정보 비식별화에 대한 적정성 자율평가 안내서, 행정자치부, 2014.12[3]
[그림 1] 개인정보 비식별 및 재식별 개념
별화된 정보 중 익명화된 정보와 적정한 수준으로 비식별화 조치가 이루어진 정보가 개인정보
가 아닌 정보라고 판단하는 것이다. 그래서 “비식별화된 데이터는 비식별화 조치 이후에는 비

식별화된 상태로만 비즈니스에 활용이 되어야 한다”는 것이 원칙이다([그림 1] 참고).
III . 개인정보 비식별화 기술
개인정보의 재식별 발생 가능성을 줄이는 방법인 비식별화 기술은 크게 수집자료에 직접적

조치(변수 삭제, 범주화, 치환, 변형 등)를 하는 방법과 자료를 제공·이용하는 방식을 통제하는
방법 2 가지로 나눌 수 있다.
- 수집자료 직접적 조치 방법: 가장 일반적으로 사용하는 식별자(성명, 주민등록번호, 환자
번호, 주소, 연락처 등)를 삭제하는 방법, 식별자 대신 가상의 ID 를 부여하는 가명처리 방
법, 간접식별자(Indirect identifier)라고도 불리는 준식별자(Quasi-identifier)(연령, 성별, 직업,
조사일 등)를 처리하는 방법에는 일반화(Generalization), 감추기(Suppression), 잡음 추가
(Noise addition), 하부집단 샘플링(Sub-sampling) 등
- 자료를 제공 이용하는 방식을 통제하는 방법: 일반 분양 모형(the Release and forget model),
데이터 이용 합의서 모형(DUA(Data Use Agreement) model), 밀실 모형(the Enclave model) 등
한편, 비식별화 기술은 무작위화 방법과 일반화 방법으로 분류하기도 한다[11].
주간기술동향 2017. 8. 16.
- 무작위화 방법: 데이터의 신뢰성(진실성 또는 정확성, Veracity)을 임의로 낮춤으로써 특정
데이터와 개인 간 강한 연결성(Strong link)을 제거하는 방법으로, 잡음 추가 방법, 순열 방

법, 차등 정보보호 방법(Differential privacy), 대체(Substitution) 등의 방식이 있음
- 일반화 방법: 데이터 값을 보편적인 범위 또는 의미로 변경하여 특정 개인을 식별하지 못하
게 하는 방식으로 총계처리(Aggregation)와 k-익명성(k-anonymity) 방법, l-다양성(l-diversity),
t-근접성(t-closeness) 등의 방식이 있음
실제 데이터를 비식별화할 때에는 데이터의 특성, 알려진 혹은 앞으로 알려질 데이터 유무
등을 고려하여 무작위화 방법과 일반화 방법을 적절히 조합해서, 비식별화 이후에 재식별화가
어렵거나 불가능해야 한다.
[표 3] 비식별화 기술 분류
적용 데이터
기술 구분 세부 기술 구현 기술 예시 정보 활용성 유형
정형 비정형
이름을 홍길동, 임꺽정 등으로
휴리스틱 가명화 ETL 활용가치 없음 ◐ ●
대체
가명처리 Join 목적 외에
암호화(Encryption) 암호화 개인식별번호 및 ID ◎ ×
(Pseudonymization) 활용성 없음
외부 변수값으로 교환, 요양기
교환방법(외부 변수로 교환) ETL 활용가치 없음 ◐ ◐
관번호
총계처리(총합, 평균) ETL/Profiling 총합, 평균 등으로 대체 있음 ◐ ×
부분총계(그룹 내 총합, 평균) ETL/Profiling 그룹 내 종합, 평균 등 적용 있음 ◐ ×
총계처리
(Aggregation) 나이대, 소득 등(올림, 내림, 사
라운팅(Rounding) ETL 있음 ● ●
사오입)
재배열(개인간 갑 교환) ETL 개인간 나이, 소득 등 값을 교환 있음 ◐ ×
식별자 삭제(속성화) ETL 생년월일 yymmdd를 yy로 표시 있음 ◎ ●
식별자 부분 삭제(대표값 표시) ETL 상세주소를 대표지역으로.... 있음 ● ●
데이터 삭제
(Data Reduction) 레코드 삭제(이상치 제거) ETL/Profiling 이상치 값을 가진 레코드 삭제 활용가치 없음 ◐ ×
식별자뿐 아니라 속성자까지
식별요소 전부 삭제(Null 로 표시) ETL 활용가치 없음 ◐ ×
삭제
감추기(범주화) ETL/Profiling 평균 또는 범주값으로 변환 있음 ● ◐
데이터 범주화 랜덤 라운딩(그룹화) ETL 42, 45 세를 40 대로 변환 있음 ● ●
(Data 3300 백만원 3000 만~4000 만으
Suppression) 범위 방법(Range 설정) ETL 있음 ◎ ◎
로 변환
제어 라운딩(총합 유지) ETL 라운딩 적용 시 합계오류를 수정 잘 사용되지 않음 ◐ ×
임의 잡음 추가(덧셈, 곱셈 더하기 또는 곱하기로 임의 숫
ETL 없음 ◐ ◐
데이터 마스킹 변환) 자 변환
(Data Masking) 공백과 데체(공백 또는
ETL 공백 또는 대체문자로 바꿈 없음 ◐ ◎
대체문자)
<자료> 국무조정실 외 5 개 관계부처, 개인정보 비식별 조치 가이드라인, 국무조정실 외 5 개 관계부처, 2016. 6. 30, 재구성
18 www.iitp.kr
ICT 신기술
2016 년 7 월 시행된 ‘개인정보 비식별 조치 가이드라인’은 [표 3]과 같이 크게 5 가지 기술

구분(세부 기술 17 종)의 비식별화 기술 소개하였다.
비식별화된 개인정보는 상황에 따라 재식별 가능성이 존재하기 때문에 비식별화 기술에 대
한 개별화 가능성, 연결 가능성, 추론 가능성 등 3 가지 위험성을 다시 검토해야 한다. [표 4]는
각 익명화 기술의 개별화, 연결 가능성, 추론 가능성에 의한 재식별 가능성의 정도를 정리한 것
이다. 표와 같이 가명화의 경우는 세 가지 모두에 의해 재식별 가능성이 있고, 잡음 추가 방법
의 경우는 개별화에 의한 재식별 가능성이 존재한다. 가명화는 세 가지 요소 모두 재식별화의
가능성이 있으므로 익명화 처리로 볼 수 없고 다른 비식별화 기술과 함께 사용해야 한다.
[표 4] 비식별화 기술의 재식별 가능성

Is Singling out Is Linkability Is Inference
구분
still a risk? still a risk? still a risk?
가명화 Yes Yes Yes
임의 잡음 추가 Yes May not May not
대체 Yes Yes May not
총계 또는 k-익명성 No Yes Yes
L- 다양성 No Yes May not
차등 정보보호 방법 May not May not May not
해싱/토큰화 Yes Yes May not
<자료> ARTICLE 29 DATA PROTECTION WORKING PARTY, “Opinion 05/2014 on Anonymisation Techniques”, 2014. 4. 10.[13]
국내 개인정보 비식별화는 일반, 공공, 민간으로 구분되며 민간의 경우는 정보통신, 상거래,
금융·신용, 보건·의료의 4 부분으로 구분한다. 미국 등과는 달리 개인정보에 대한 식별 가능
한 요소를 정하여 불필요한 요소는 삭제하고 비식별화 검토사항은 전문가 검증도 거치도록 함
으로써 명확성을 높이고 있으며, 추후 주기적인 모니터링을 통한 재식별 가능성을 완화하는데
주안점을 두고 있다.
모든 데이터 비식별화 기술들에는 재식별 위험성이 존재한다는 것을 전제로 하고 있다. 특
히, [그림 2]와 같이 특정인과 정보 간 연결 가능성 등 비식별화 데이터 유형에 따라 프라이버
시 침해 위험성의 정도를 표현하는 개념을 제시하였다. 즉, 데이터가 특정인과 연결되었는지,
특정인과 연결될 잠재적 가능성이 있는지, 특정인은 아니지만 어느 정도의 사람들과 연결될 가
능성이 있는지 등에 따라 해당 정보가 식별되어 프라이버시를 침해할 위험성이 달라짐을 표현
하고 있다.
주간기술동향 2017. 8. 16.
<자료> S. Garfinkel, De-Identification of Personal Information, NISTR 8053, 2015. 10.[12]
[그림 2] 비식별화 데이터 유형에 따른 프라이버시 침해 위험성 정도
IV . 개인정보 비식별화 기술 현황 및 관련 이슈
1. 표준화 동향
개인정보 비식별화는 프라이버시 침해 우려가 있는 중요한 데이터 정보를 감추면서도 데

이터 기반의 다양한 혁신을 뒷받침할 수 있는 주요 해결책 중 하나로 관심을 모으고 있다. 국
제표준기구에서 개인정보 비식별화 표준 제정에 적극 나서는 것도 같은 맥락에서이다.
국제표준화기구인 정보보호기술 연구반(ISO/IEC JTC 1/sc27)에서는 2015 년 4 월부터 ISO/IEC

20889(Privacy enhancing data de-identification techniques)를 개발하고 있다[7]. 이 표준은 미국의
MS 에서 지대한 노력을 기울여 개발하고 있는 표준이기도 하다. 동 국제표준은 비식별 처리에
이용 가능한 기술을 전반적으로 제시하고 있으나, 비식별 처리 절차와 비식별 처리된 데이터에
대한 재식별 위험 관리 방법에 대한 내용은 포함하지 않고 있다. ISO/IEC 29100(Privacy framework)
에서 프라이버시를 강화하기 위한 방법으로 비식별 기술을 제시하고 있다.
ITU-T SG17 에서 진행중인 신규 표준 아이템(Framework of de-identification processing service
for telecommunication service providers: X.fdip)은 고객의 정보 데이터 정보보호와 클라우드 서비
스를 위한 전반적인 측면을 집중하고 있다. 이 표준 아이템은 빅데이터 교환 서비스를 위해 익
명과 비식별화에 국한하기보다는 전반적인 정보보호 측면을 취급하고 있으며, 빅데이터 교환
환경에서 비식별화를 요구하는 지침에 대한 표준을 개발하고 있다. 특히, 이 표준에서는 인공지
능 및 빅데이터 분석 과정에서 활용되는 데이터의 비식별화를 위한 기술적 가이드라인으로 정
20 www.iitp.kr
ICT 신기술
형 데이터의 비식별화 기술을 중점적으로 사용하며, 국내 연구진이 표준을 선도하고 있다[9].
2. 개인정보 비식별 조치 가이드라인 관련 이슈
가. 용어 관련 이슈
비식별화와 익명화의 개념 구분을 둘러싸고 개념을 명확히 구별할 수 있다는 입장에서는

① 비식별화라는 용어 사용이 현재 개인정보의 회색지대를 부정하는 개념으로 사용되고 있어
잘못된 개념이며, ② 미국의 몇몇 특정 법률에 국한되는 용어인 비식별화를 법제가 다른 우리
나라에서 사용하는 것은 부적절하고, ③ 가이드라인에 비식별화라는 용어를 이용하는 현황이

용어 사용을 통해 법령상의 정의를 수정하려 하는 것이어서 부당하다고 한다. 그러므로 비식별
화와 익명화가 혼용되어 쓰이고 있지만 정확히 말하면 양자는 다른 개념으로 구분하여 사용해
야 할 것이라고 주장하고 있다.
국내에서는 한동안 비식별화와 익명화를 명확하게 구별하지 않고 혼용하고 있는 것이 사실
이며, 최근 국내의 정부 자료에서는 주로 ‘비식별화’라는 용어로 사용되고 있다.
나. 기술적 이슈
비식별화와 관련하여 제기되고 있는 기술적 이슈로는 첫 번째, 프라이버시 모델인 k-익명성

모델은 다양한 데이터 유형에 적용하기 어렵고 산업군별로 데이터의 특성이나 형태에 따른 다
양한 요구를 만족하기 어렵다는 것이다.
두 번째, 변환된 비식별 데이터의 정확성과 안전성 측면에서의 평가인데, 현재 평가 기준으
로는 원본 데이터의 한 개인과 비식별 데이터의 한 개인이 1 대 1 로 대응되어 정확성은 좋지만
재식별 불가능성을 100% 보장할 수 없다는 것이다.
마지막으로 익명화 성능관점에서 살펴보면, k-익명성 문제는 크기가 매우 큰 N 개의 빅데이
터에서 데이터를 k 개로 분할(클러스터링, Clusterring)하는 최적화 문제로 볼 수 있는데 레코드
크기 N 이 가변적이고, 개인 식별 요소가 다차원인 빅데이터 환경에서 최적의 k-익명화 솔루션
을 찾는 문제는 풀기 쉽지 않은 연구대상이라는 주장이다. 이론적으로 k-익명성을 만드는 비식

별화 문제는 “NP-난해(Non-deterministic Polynomial-time Hard) 문제”로서 비식별화의 실현 자체
가 불가능하다는 것이다.
주간기술동향 2017. 8. 16.
다. 법 적용 관련 이슈
정부는 빅데이터 활성화를 위해 ‘개인정보 비식별화 조치 가이드라인’에서 비식별 조치 후

개인정보에 내용을 언급하고 타 개인정보관련법들과의 관련성 우선 순위를 언급하였지만, 기업
입장에서는 “여전히 불분명한 가이드라인이며 기업 책임만 커졌다”고 주장하면서 가이드라인
과 관련하여 개인정보 정의 모호성, 비식별 정보에 대한 보호조치, 처벌 문제 등을 지적하고 있
다. 특히, 개인정보 관련 법들에서 여전히 비식별 정보를 개인신용정보로 볼 지에 대해 명확하
게 정의하지 않고 있다는 점이 문제로 지적되고 있다. 정부가 내놓은 가이드라인은 “‘유권해석’
에 가까울 뿐 법적 근거는 되지 못한다”는 것이다.
또 다른 문제로는 ‘개인정보 비식별화 조치 가이드라인’이 유럽의 새로운 개인정보보호 표
준인 GDPR(General Data Protection Regulation) 요구사항과 충돌할 수 있다는 의견도 개진되었다.
EU 보안 전문가인 그린리프 교수는 “GDPR 에서는 빅데이터에 개인정보를 양보하지 않으며, 비
식별화를 했다고 무조건 데이터로 처리할 수 있는 것은 아니다”며 “유럽의 새로운 표준과 한국
의 가이드라인이 어느 정도 충돌할 수 있는데, 향후 어떻게 조치를 잘 할 수 있는지, 법적 보호
를 약화시킬 부분은 없는지 살펴봐야 한다”고 제언하고 있다[10].
V . 향후 전망
이처럼 중요한 “개인 식별 가능성”의 문제는 산업혁신과 개인정보보호의 균형을 위한 합리

적 기준을 마련하고 이를 뒷받침할 제도적 장치를 마련하는 과정에서 두 가지 쟁점에 직면하게
된다. 첫째, 기술발전에 따라 활용 가능한 데이터가 급증하는 것은 물론 데이터 분석 수준의 향
상으로 기존에는 식별 불가능했던 정보가 재식별될 여지가 커지면서 “식별 가능한 개인정보”의
경계가 불분명해지고 있다. 개인정보의 범위가 넓어지면서 비식별화해야 하는 데이터의 범위도
모호해지는 것이다. 둘째, 이런 상황에서는 정보주체의 개인정보자기결정권 보호를 위한 기존
“개인정보 활용 동의 방식”의 타당성도 흔들릴 수 있다. 비식별 개인정보라도 외부 데이터와의
조합을 통해 개인이 식별될 수 있는 만큼, 데이터의 수집·분석·결과 활용 시점에 따라 언제
어떠한 방식으로 정보가 결합하여 개인 식별이 가능할 지 알 수 없는 상태에서 모든 이용자들
의 사전 동의를 구하는 것 자체가 불가능하기 때문이다
빅데이터가 경제에 활력을 주고 새 일자리를 창출할 ‘21 세기의 원유’로 기대를 모으고 있지
22 www.iitp.kr
ICT 신기술
만 산업화까지 아직 갈 길이 멀다. 개인정보 유출 피해는 막으면서, 부가가치를 창출할 수준의

정보량을 담는 두 가지 과제를 넘어야 한다. 그러려면 개인정보의 이름표, 즉 개인 식별사항을
제거하는 비식별 조치가 핵심인 것은 분명해 보인다.
앞에서 제기된 여러 우려와 관련해서는 해외와는 차별화되는 국내의 데이터 환경을 고려하
는 것이 중요하다. 예컨대 주민등록번호와 국가건강보험으로 인해 핵심 개인정보들이 집중되어
있는 상황에서는 비식별 개인정보의 재식별화가 예상보다 쉽게 이루어질 수 있다는 점을 유념
할 필요가 있다.
개인정보 비식별화 기술이 완벽하지 않고 어떤 경우든 재식별화가 불가능하지 않은 상황에

서 최대한의 법제적 조치를 강구하기 위해서는 비식별화를 통해 복원 불가능한 개인정보의 기
준을 설정하는 것도 중요하다. 보호대상이 아닌 개인정보 유형을 설정한 일본의 ‘익명가공정보’
개념은 이를 위한 참고사례가 될 수 있다. 단, 익명가공정보 개념에 상응할만한 데이터 처리가
기존의 비식별화 조치만으로 충분히 이루어질 수 있을 것인가에 대해서는 전문적인 논의와 합의
가 필요할 것으로 보인다. 비식별화를 근거로 정보주체의 동의 없이 개인정보가 포함된 공개된
정보와 이용내역 정보를 처리 및 활용할 수 있도록 하는 방안에 대해 반론이 제기되는 상황을
고려할 때 이 같은 합의는 비식별화 법제화 과정에서 상당히 중요한 조건이 될 것으로 보인다.
실제로 비식별화기술과 관련하여 개인정보의 보호와 산업적 활용을 조화시키는 방안으로서,
① 개인정보의 정의에 관한 법개정을 적극 검토해야 하며, ② 여러 법·제도에 흩어져 있는 개

인정보 관련 규정을 모아 법체계를 단일화하고, ③ 비식별 정보의 유통에 대한 당국의 관리체
계가 필요하고, ④ 법체계 정비와 함께 개인정보보호위원회를 개인정보의 컨트롤타워로 강화할
필요가 있으며, ⑤ 다양한 비식별 기법 개발 및 도입이 필요할 것으로 전망된다.
[ 참고문헌 ]
[1] 심우민, “개인정보 비식별화 또는 익명화 쟁점”, 오픈넷 포럼, 2016. 3, p.17.
[2] 이투데이, 마윈 알리바바 회장 “세상은 DT 시대로 전환…‘빅데이터’가 지배할 것”, 2015. 6. 9.
[3] NIA, “개인정보 비식별화에 대한 적정성 자율평가 안내서”, 행정자치부, 2014. 12., p.14.
[4] 박재형, “빅데이터, 개방과 공유의 시대로”, 디지에코 보고서, 2016. 7. 26. p.2.
[5] 임형진, “빅데이터 환경에서의 개인정보 비식별 처리 방법 분석”, 전자금융과 금융보안 (제 8 호),
2017. 4.
[6] 고학수, 최경진, “개인정보 비식별화가 개인정보보호에 미치는 영향 연구”, 개인정보보호위원회,
2015. 12.
주간기술동향 2017. 8. 16.
[7] KISA, “개인정보 비식별화 관련 해외 현황 및 사례 심층보고서”, KISA Power Review, 2016. 5.,
p.3.
[8] 나재훈, 임형진, “ITU-T SG17 빅데이터 비식별화 표준화 동향”, TTA, ICT Standard Weekly(2017-
25 호), 2017. 6. 19.
[9] 박종열, “비식별화 기술 표준화”, TTA, ICT Standard Weekly(2017-26 호), 2017. 6. 25.
[10] 디지털데일리, “EU 보안 전문가 ‘한국의 개인정보 비식별화조치는 EU 규정과 충돌 가능’”, 2016.
7. 19.
[11] 이현승, 송지환, “개인정보 비식별화기술의 쟁점 연구”, SPRi, 2016. 8.
[12] S. Garfinkel, “De-Identification of Personal Information”, NISTR 8053, 2015. 10.
[13] ARTICLE 29 DATA PROTECTION WORKING PARTY, “Opinion 05/2014 on Anonymisation Techniques”,
2014. 4. 10.
24 www.iitp.kr

* 본 내용은 김동한 소장 (☎ 02-769-9700, picollo@penta.co.kr) 에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP 의 공식적인 입장이 아님을 밝힙니다

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

* 본 내용은 김동한 소장 (☎ 02-769-9700, picollo@penta.co.kr) 에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP 의 공식적인 입장이 아님을 밝힙니다

Uploaded by

Copyright:

Available Formats

주간기술동향 2017. 8. 16.

도래하는 4 차 산업혁명 시대는 사람과 사물이 유기적으로 결합하는 초연결(Hyper Connectivity)

선회하고, 2015 년 6 월 마윈 알리바바(Alibaba) 회장이 “IT(Information Technology) 시대는 가고

* 본 내용은 김동한 소장(☎ 02-769-9700, picollo@penta.co.kr)에게 문의하시기 바랍니다.

우리나라 개인정보 관련 법인 개인정보보호법에서는 개인정보를 “살아 있는 개인에 관한

로써 개인정보를 특정한 인물과 연결할 수 없도록 하는 것을 말하며 종종 혼동하여 사용되는

거하는 경우 ‘가명화’가 된다. 익명화된 데이터는 “합리적 노력”으로는 재식별화가 불가능하다

1) 해당 정보 만으로는 특정 개인을 알아볼 수 없더라도 다른 정보와 쉽게 결합하여 알아볼 수 있는 것을 포함한다

<자료> NIA, 개인정보 비식별화에 대한 적정성 자율평가 안내서, 행정자치부, 2014.12[3]

[그림 1] 개인정보 비식별 및 재식별 개념

가 아닌 정보라고 판단하는 것이다. 그래서 “비식별화된 데이터는 비식별화 조치 이후에는 비

III . 개인정보 비식별화 기술

개인정보의 재식별 발생 가능성을 줄이는 방법인 비식별화 기술은 크게 수집자료에 직접적

한편, 비식별화 기술은 무작위화 방법과 일반화 방법으로 분류하기도 한다[11].

- 무작위화 방법: 데이터의 신뢰성(진실성 또는 정확성, Veracity)을 임의로 낮춤으로써 특정

데이터와 개인 간 강한 연결성(Strong link)을 제거하는 방법으로, 잡음 추가 방법, 순열 방

실제 데이터를 비식별화할 때에는 데이터의 특성, 알려진 혹은 앞으로 알려질 데이터 유무

2016 년 7 월 시행된 ‘개인정보 비식별 조치 가이드라인’은 [표 3]과 같이 크게 5 가지 기술

가능성이 있으므로 익명화 처리로 볼 수 없고 다른 비식별화 기술과 함께 사용해야 한다.

[표 4] 비식별화 기술의 재식별 가능성

<자료> S. Garfinkel, De-Identification of Personal Information, NISTR 8053, 2015. 10.[12]

[그림 2] 비식별화 데이터 유형에 따른 프라이버시 침해 위험성 정도

개인정보 비식별화는 프라이버시 침해 우려가 있는 중요한 데이터 정보를 감추면서도 데

국제표준화기구인 정보보호기술 연구반(ISO/IEC JTC 1/sc27)에서는 2015 년 4 월부터 ISO/IEC

형 데이터의 비식별화 기술을 중점적으로 사용하며, 국내 연구진이 표준을 선도하고 있다[9].

2. 개인정보 비식별 조치 가이드라인 관련 이슈

비식별화와 익명화의 개념 구분을 둘러싸고 개념을 명확히 구별할 수 있다는 입장에서는

나라에서 사용하는 것은 부적절하고, ③ 가이드라인에 비식별화라는 용어를 이용하는 현황이

비식별화와 관련하여 제기되고 있는 기술적 이슈로는 첫 번째, 프라이버시 모델인 k-익명성

을 찾는 문제는 풀기 쉽지 않은 연구대상이라는 주장이다. 이론적으로 k-익명성을 만드는 비식

정부는 빅데이터 활성화를 위해 ‘개인정보 비식별화 조치 가이드라인’에서 비식별 조치 후

이처럼 중요한 “개인 식별 가능성”의 문제는 산업혁신과 개인정보보호의 균형을 위한 합리

만 산업화까지 아직 갈 길이 멀다. 개인정보 유출 피해는 막으면서, 부가가치를 창출할 수준의

개인정보 비식별화 기술이 완벽하지 않고 어떤 경우든 재식별화가 불가능하지 않은 상황에

① 개인정보의 정의에 관한 법개정을 적극 검토해야 하며, ② 여러 법·제도에 흩어져 있는 개

You might also like