Professional Documents
Culture Documents
* 본 내용은 김동한 소장 (☎ 02-769-9700, picollo@penta.co.kr) 에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP 의 공식적인 입장이 아님을 밝힙니다
* 본 내용은 김동한 소장 (☎ 02-769-9700, picollo@penta.co.kr) 에게 문의하시기 바랍니다. ** 본 내용은 필자의 주관적인 의견이며 IITP 의 공식적인 입장이 아님을 밝힙니다
개인정보 비식별화 기술 동향 및 전망
김동한
(주)펜타시스템테크놀러지 고등기술연구소장
I . 서론
정보 보호와 자료의 효율적 활용이라는 개념이 충돌하며 개인정보 보호의 패러다임 자체의 변
화가 일어나고 있는 것이다.
본 고에서는 빅데이터 산업 활성화와 관련하여 논란의 중심에 있는 개인정보 비식별화(De-
identification)의 개념과 비식별화 기술들에는 어떤 것들이 있는지 살펴보고, 개인정보 비식별화
기술 현황, 관련 이슈 및 향후 전망에 대해 논의하고자 한다.
[표 1] 개인정보보호 패러다임의 변화
구분 프라이버시 개인정보자기결정권 신프라이버시
식별성 비전제 식별성 전제 식별성+비식별성
보호대상
(사생활 영역) (개인정보) (포괄성)
권리주장 소극적 적극적 소극적+적극적
개인정보(확정) 개념 기반 실질적 위험 기반
규제 및 집행 맥락적 형량
(해석적 형량 불가피) (Risk Management)
<자료> 심우민, 개인정보 비식별화 또는 익명화 쟁점, 오픈넷 포럼, 2016. 3.[1]
II . 개인정보 비식별화의 이해
그간 ICT 기술의 발전으로 수많은 기업과 공공기관들은 대량의 데이터를 축적하여 왔으며,
이러한 빅데이터는 최근 “21 세기의 원유”라고 불릴 정도로 경제적·사회적 가치를 인정받게
되었다. 빅데이터 중에서도 개인에 관한 일반적인 정보, 의료정보, 위치정보, 신용정보 등은 개
인정보로 통칭되며, 빅데이터의 수집·분석과 관련된 빅데이터 산업은 급속히 성장하고 있다.
기업이나 기관에서 관심을 가지고 분석·활용하고자 하는 빅데이터에는 통상 개인에 관한
정보를 담고 있는 경우가 많다. 따라서 빅데이터를 구성하는 개별 개인정보의 소유권자가 누구
인지, 개인정보의 유통으로 해당 정보 주체의 프라이버시가 침해되는지에 관한 논란이 발생하
게 되었고 빅데이터와 같은 정보를 활용하면서도 정보주체의 개인정보자기결정권과 같은 기본
권을 침해하지 않는 방법이 요구되게 되었다. 그렇다면 앞으로 개인정보 활용 관련 논의의 중
심에는 비식별화나 익명화(Anonymization)가 있을 수밖에 없다. 비식별화는 해당 정보만으로는
특정 개인을 식별할 수 없게 만드는 것을 의미한다. 만약 개인이 특정될 수 없다면 그러한 정
보의 유통이나 처리를 규제할 필요성은 현저히 적어지게 될 것이다. [표. 2]와 같이 빅데이터의
축적 및 활용으로 개인정보의 경제·사회적 가치가 새롭게 부각되면서 안전한 개인정보 보호
의 수단으로 비식별화가 주목 받고 있으며 이러한 데이터 활용과 프라이버시 보호가 첨예하게
대립하는 상황에서, 주요국은 데이터 비식별화 기술을 그 대안으로 고려하고 있다. 특히, 호주
개인정보 보호위원회(The Australian Privacy Commissioner)의 위원인 티모시 필그램(Timothy
Pilgrim)은 CeBIT 2016 에서 비식별화 기술을 로켓 사이언스(Rocket science)에 비유하며 개인정
보 활용과 보호의 균형적 조화를 해결할 문샷(Moonshot)이 될 수 있다고 언급하였다. 또한, 로
켓발사와 마찬가지로 비식별화 기술 역시 관련 전문가의 노력이 요구되며 오류로 인한 사고를
주의해야 함을 강조하였다[4].
정보통신기술진흥센터 15
주간기술동향 2017. 8. 16.
[표 2] 개인정보의 경제·사회적 가치 유형
가치 유형 주요 내용
- 재난재해, 실업과 식량 안보와 같은 국제적 위기에 대한 이해와 대응 촉진
국제 현안 해결
(구글 감기예측, UN Global Pulse 의 실업, 식량안전 분석 등)
- 모든 산업에서의 조직의 효율성 및 생산성 향상
- 미국, 개인 데이터 유통을 통해 매년 7,000 억 달러 또는 전체 지출의 30%의
효율성 향상 건강비용 절감
- 금융 서비스에서는 사기 예방을 통한 비용 절감과 온라인 거래와 지불을 촉진하
여 효율성을 상당히 향상
- 개인화된 맞춤형 상품 및 서비스 개발 촉진(도서추천 서비스, 운전 행태에 따른
예측 능력 향상 개인 맞춤형 보험 상품 개발, 개인 맞춤형 뉴스, 기사 서비스 등)
- 고객의 행태 분석을 통해 개연성 있는 사건에 대비
- 검색 엔진, 이메일, 뉴스 사이트와 소셜 네트워크 등과 같은 무료 서비스 이용
대중화된 정보접근 - 사실상 대부분의 표면상 무료 서비스는 자신과 자신의 행태에 관한 데이터 제공
을 통한 타깃 광고의 대가
- 소극적인 행위자에서 집단적인 소통방식으로 기업과 대화
개인의 권한 강화
- 자신과 믿음, 선호도 등에 관한 정보 공유를 통해 세상과 연결
<자료> 이현승, 송지환, “개인정보 비식별화 기술의 쟁점 연구,” SPRi, 2016. 8.
16 www.iitp.kr
ICT 신기술
별화된 정보 중 익명화된 정보와 적정한 수준으로 비식별화 조치가 이루어진 정보가 개인정보
정보통신기술진흥센터 17
주간기술동향 2017. 8. 16.
등을 고려하여 무작위화 방법과 일반화 방법을 적절히 조합해서, 비식별화 이후에 재식별화가
어렵거나 불가능해야 한다.
[표 3] 비식별화 기술 분류
적용 데이터
기술 구분 세부 기술 구현 기술 예시 정보 활용성 유형
정형 비정형
이름을 홍길동, 임꺽정 등으로
휴리스틱 가명화 ETL 활용가치 없음 ◐ ●
대체
가명처리 Join 목적 외에
암호화(Encryption) 암호화 개인식별번호 및 ID ◎ ×
(Pseudonymization) 활용성 없음
외부 변수값으로 교환, 요양기
교환방법(외부 변수로 교환) ETL 활용가치 없음 ◐ ◐
관번호
총계처리(총합, 평균) ETL/Profiling 총합, 평균 등으로 대체 있음 ◐ ×
부분총계(그룹 내 총합, 평균) ETL/Profiling 그룹 내 종합, 평균 등 적용 있음 ◐ ×
총계처리
(Aggregation) 나이대, 소득 등(올림, 내림, 사
라운팅(Rounding) ETL 있음 ● ●
사오입)
재배열(개인간 갑 교환) ETL 개인간 나이, 소득 등 값을 교환 있음 ◐ ×
식별자 삭제(속성화) ETL 생년월일 yymmdd를 yy로 표시 있음 ◎ ●
식별자 부분 삭제(대표값 표시) ETL 상세주소를 대표지역으로.... 있음 ● ●
데이터 삭제
(Data Reduction) 레코드 삭제(이상치 제거) ETL/Profiling 이상치 값을 가진 레코드 삭제 활용가치 없음 ◐ ×
식별자뿐 아니라 속성자까지
식별요소 전부 삭제(Null 로 표시) ETL 활용가치 없음 ◐ ×
삭제
감추기(범주화) ETL/Profiling 평균 또는 범주값으로 변환 있음 ● ◐
데이터 범주화 랜덤 라운딩(그룹화) ETL 42, 45 세를 40 대로 변환 있음 ● ●
(Data 3300 백만원 3000 만~4000 만으
Suppression) 범위 방법(Range 설정) ETL 있음 ◎ ◎
로 변환
제어 라운딩(총합 유지) ETL 라운딩 적용 시 합계오류를 수정 잘 사용되지 않음 ◐ ×
임의 잡음 추가(덧셈, 곱셈 더하기 또는 곱하기로 임의 숫
ETL 없음 ◐ ◐
데이터 마스킹 변환) 자 변환
(Data Masking) 공백과 데체(공백 또는
ETL 공백 또는 대체문자로 바꿈 없음 ◐ ◎
대체문자)
<자료> 국무조정실 외 5 개 관계부처, 개인정보 비식별 조치 가이드라인, 국무조정실 외 5 개 관계부처, 2016. 6. 30, 재구성
18 www.iitp.kr
ICT 신기술
국내 개인정보 비식별화는 일반, 공공, 민간으로 구분되며 민간의 경우는 정보통신, 상거래,
금융·신용, 보건·의료의 4 부분으로 구분한다. 미국 등과는 달리 개인정보에 대한 식별 가능
한 요소를 정하여 불필요한 요소는 삭제하고 비식별화 검토사항은 전문가 검증도 거치도록 함
으로써 명확성을 높이고 있으며, 추후 주기적인 모니터링을 통한 재식별 가능성을 완화하는데
주안점을 두고 있다.
모든 데이터 비식별화 기술들에는 재식별 위험성이 존재한다는 것을 전제로 하고 있다. 특
히, [그림 2]와 같이 특정인과 정보 간 연결 가능성 등 비식별화 데이터 유형에 따라 프라이버
시 침해 위험성의 정도를 표현하는 개념을 제시하였다. 즉, 데이터가 특정인과 연결되었는지,
특정인과 연결될 잠재적 가능성이 있는지, 특정인은 아니지만 어느 정도의 사람들과 연결될 가
능성이 있는지 등에 따라 해당 정보가 식별되어 프라이버시를 침해할 위험성이 달라짐을 표현
하고 있다.
정보통신기술진흥센터 19
주간기술동향 2017. 8. 16.
IV . 개인정보 비식별화 기술 현황 및 관련 이슈
1. 표준화 동향
20 www.iitp.kr
ICT 신기술
가. 용어 관련 이슈
나. 기술적 이슈
정보통신기술진흥센터 21
주간기술동향 2017. 8. 16.
다. 법 적용 관련 이슈
V . 향후 전망
22 www.iitp.kr
ICT 신기술
[ 참고문헌 ]
[1] 심우민, “개인정보 비식별화 또는 익명화 쟁점”, 오픈넷 포럼, 2016. 3, p.17.
[2] 이투데이, 마윈 알리바바 회장 “세상은 DT 시대로 전환…‘빅데이터’가 지배할 것”, 2015. 6. 9.
[3] NIA, “개인정보 비식별화에 대한 적정성 자율평가 안내서”, 행정자치부, 2014. 12., p.14.
[4] 박재형, “빅데이터, 개방과 공유의 시대로”, 디지에코 보고서, 2016. 7. 26. p.2.
[5] 임형진, “빅데이터 환경에서의 개인정보 비식별 처리 방법 분석”, 전자금융과 금융보안 (제 8 호),
2017. 4.
[6] 고학수, 최경진, “개인정보 비식별화가 개인정보보호에 미치는 영향 연구”, 개인정보보호위원회,
2015. 12.
정보통신기술진흥센터 23
주간기술동향 2017. 8. 16.
[7] KISA, “개인정보 비식별화 관련 해외 현황 및 사례 심층보고서”, KISA Power Review, 2016. 5.,
p.3.
[8] 나재훈, 임형진, “ITU-T SG17 빅데이터 비식별화 표준화 동향”, TTA, ICT Standard Weekly(2017-
25 호), 2017. 6. 19.
[9] 박종열, “비식별화 기술 표준화”, TTA, ICT Standard Weekly(2017-26 호), 2017. 6. 25.
[10] 디지털데일리, “EU 보안 전문가 ‘한국의 개인정보 비식별화조치는 EU 규정과 충돌 가능’”, 2016.
7. 19.
[11] 이현승, 송지환, “개인정보 비식별화기술의 쟁점 연구”, SPRi, 2016. 8.
[12] S. Garfinkel, “De-Identification of Personal Information”, NISTR 8053, 2015. 10.
[13] ARTICLE 29 DATA PROTECTION WORKING PARTY, “Opinion 05/2014 on Anonymisation Techniques”,
2014. 4. 10.
24 www.iitp.kr