데이터레이크 기술동향과 도입원칙

주간기술동향 2018. 8. 29.
데이터 레이크 기술 동향과 도입 원칙
백 현
성균관대학교 기술경영 전문대학원
I. 서론
2013년 한 글로벌 IT 서비스 업체의 CEO는 데이터는 21세기의 천연자원이라고 언급하였는

데[1] 이는 조직 활동의 경쟁력 확보를 위한 데이터의 중요성을 단적으로 강조한 말이다. 이를
20세기 후반과 21세기 초반의 가장 영향력 있는 비즈니스 전략가인 마이클 포터(Michael
Eugene Porter) 교수의 3가지 경쟁우위 전략[2](원가 우위 전략, 차별화 전략, 집중화 전략)의
관점으로 해석하면, 현재의 시대는 데이터를 기반으로 조직의 차별화된 경쟁 우위를 창출할
수 있고 이렇게 창출한 경쟁 우위는 다양한 전략을 수행할 수 있게 함으로써 지속적으로 경쟁
력을 획득하고 유지할 수 있다. 뿐만 아니라 클레이튼 크리스텐슨(Clayton M. Christensen) 교수
의 파괴적 혁신[3] 아이디어의 관점으로도 해석이 가능한데, 어느 날 갑자기 등장한 파괴적
혁신으로 무장한 기업들은 우리에게 익숙한 시장의 주류를 형성하고 있는 기업들을 대상으로
데이터에 기반을 둔 새로운 서비스나 제품으로 산업의 지형을 바꾸는 시장 파괴적인 변화를
만들어내고 있다.
2017년부터 부쩍 많은 국내의 기업들과 조직들이 데이터의 중요성에 부응하는 기업의 데이터
전략과 현존하는 데이터 웨어하우스의 한계점을 극복하기 위한 대안으로 데이터 레이크의 도입을
적극 검토하거나 실제 구축을 시작하고 있다. 따라서 2010년 펜타호(Pentaho, 빅데이터 분석 툴
제작사로 2015년 Hitachi Data Systems에 인수)의 CTO인 제임스 딕슨(James Dixon)이 처음 데이터
레이크를 언급한 이후부터 지금까지 개념적으로는 어떤 변화가 있었는지 그리고 기술적으로는
어떻게 진화하였는지를 지금 시점에서 정리를 해보는 것이 의미가 있을 것이다.
2010년 당시 제임스 딕슨(James Dixon)은 본인의 블로그에 데이터 레이크를 다음과 같이
정의하였다[4]. “데이터를 물에 비유한다면, 우선 데이터 마트는 물병에 들어있는 물이라고
* 본 내용은 백현 저자(hyunb@hotmail.com)에게 문의하시기 바랍니다.

** 본 내용은 필자의 주관적인 의견이며 IITP의 공식적인 입장이 아님을 밝힙니다.
14 www.iitp.kr
ICT신기술
생각할 수 있다. 물병의 물은 필요에 따라 쉽게 소비할 수 있도록 정제되고 포장된 형태라고

볼 수 있다. 반면, 데이터 레이크는 물병에 담긴 생수 이전에 존재하는 호수로써 훨씬 자연의
상태이며 방대한 양의 물을 의미한다.”
이러한 제임스 딕슨의 데이터 레이크에 대한 정의는 지금까지도 유효하게 많이 인용되는
정의인데, 그는 한 가지 덧붙여서 데이터 레이크의 용도에 대해 다음과 같이 언급하였다[4].
“데이터 레이크의 콘텐츠는 다양한 원천 출처로부터 유입되며, 다양한 사용자들이 콘텐츠를
조사하거나, 깊이 연구하거나 또는 샘플을 가져다가 활용하는 등의 다방면의 목적으로 활용
되게 된다.” 즉, 데이터 레이크를 채우는 데이터들은 다양한 원천 출처들로부터 수집된 것이
며, 이 수집된 데이터들은 기업 내 다양한 사용자들에 의해서 실험되고 연구되거나 비즈니스
에 활용하기 위해서 가공되어 현재 기업에서 활용하는 데이터 마트처럼 작은 물병에 담겨서
각각의 목적에 맞게 활용되게 된다.
지금부터 초기 데이터 레이크에서 개념 대비 3가지 관점에서 데이터 레이크 동향이 어떻게
변화하였는지를 “II. 데이터 레이크 동향 변화”에서 설명하고, 데이터 레이크 프로젝트를 성공
적으로 수행하기 위해서 필요한 3가지 원칙을 “III. 성공적인 데이터 레이크 프로젝트를 위한
원칙”에서 소개한 후 맺음말로 마무리를 할 것이다.
II. 데이터 레이크 동향 변화
데이터 레이크에 관한 정의는 시간이 흐르면서 어느 정도 다음과 같은 문장으로 수렴되었

다. “데이터 레이크는 원천 형태의 데이터 저장소이며 조직 내 외부 수집 데이터의 단일 저장
소이다.” 또한, 위키피디아에서는 데이터 레이크를 활용하는 목적을 다음과 같이 “보고, 시각
화, 분석 그리고 기계학습(Reporting, Visualization, Analytics and Machine Learning) 등”이라고
표현하였다[5]. 하지만 이는 일반적인 활용 목적에 대한 언급일 뿐이고 데이터 레이크의 활용
은 조직에 따라 매우 상이할 수 있으며 데이터에서 발견한 숨은 가치의 활용처에 따라 큰
차이가 있을 수 있다. 실례로 구글을 검색해 보면 데이터 레이크의 주요 활용 목적에 기계학습
이 포함된 것도 그리 오래전 일이 아님을 알 수 있는데, 이는 호수라는 곳이 오랜 세월 동안
물이 모이고 저장되는 공간은 맞지만 호수에 저장된 물을 어떻게 가져다가 활용할지는 시간
이 흐름에 따라 기술이 발전하고 사용자의 요구가 변화하면서 지속적으로 진화한 것과 동일
한 원리이다.
정보통신기술진흥센터 15
주간기술동향 2018. 8. 29.
2010년 제임스 딕슨의 데이터 레이크에 관한 정의 이후부터 약 5년간 데이터 레이크를 구축

하기 위한 핵심 기술은 하둡이라는 공식이 암묵적으로 통용되어 왔다. 하지만 이는 현재 보유
하고 있는 데이터 웨어하우스의 확장성과 비용 효율성 사이의 한계를 대체하기 위한 성급한
연장선의 일환이었을 뿐이었으며, 다음과 같이 저장성과 활용성 관점의 두 가지 이유로 하둡
이 데이터 레이크의 구축을 대표하는 핵심 기술이 되기에는 부족했다.
첫 번째는 규모에 따라 다르겠지만 단일 하둡 클러스터에 데이터 레이크를 구축한다는 것
은 데이터 레이크의 피크 사용 시의 용량을 계산하고 이에 따른 하둡 클러스터의 CPU,
Memory, Storage 크기가 함께 증가해야 하는 비용을 고려한다면 데이터 웨어하우스와 마찬가
지의 제약에 도달하게 된다. 더구나 데이터 레이크 구축을 위해서 사일로 방식과 같이 다수의
서로 다른 하둡 클러스터를 구축해야 한다면, 우리가 생각하는 단일 저장소라는 데이터 레이
크의 정의를 만족시키기에도 한계가 있다. 두 번째는 하둡으로 구축된 데이터 레이크를 활용
하기 위한 하둡 전문 분석가가 조직에 많지 않기 때문에 다양한 활용에 제약이 따르기 때문이
다. 실례로 2016년 BARC(Business Application Research Center)는 “Hadoop and Data Lakes”라는
보고서에서, 기업이 하둡을 적용할 때 가장 큰 도전과제는 새로운 기술에 대한 약한 수용력이
라는 연구 결과를 발표한 것을 보면 알 수 있으며[6], 이러한 현상은 국내의 전문가 조직에서
도 마찬가지로 나타나고 있다.
이와 같이 데이터 레이크의 핵심 기술로 통용되었던 하둡이 차지하는 위치의 변화뿐만 아
니라 몇 가지 데이터 레이크 관련 동향의 변화를 정리하면 크게 세 가지로 분류가 가능한데,
첫째는 저장과 분석이 분리된 아키텍처, 둘째는 데이터 과학자를 위한 샌드박스의 제공, 셋째
<자료> Hadoop and Data Lakes, 2016 BARC
[그림 1] 조직이 하둡을 구축할 때의 도전 과제
16 www.iitp.kr
ICT신기술
는 현업 사용자를 위한 셀프 서비스 환경 구축이며, 지금부터 이 세 가지 동향의 변화를 하나

씩 확인해 본다.
1. 저장과 분석이 분리된 아키텍처
저장과 분석이 분리된 아키텍처는 데이터 레이크의 데이터를 저장하는 영역과 데이터를
분석하는 영역을 분리한 아키텍처로 2010년 데이터 레이크라는 정의가 처음 사용된 이후 가
장 크게 변화한 것이 바로 개념 및 기술 아키텍처 영역이다. 이 아키텍처는 최근 클라우드
기반의 오브젝트 스토리지를 활용할 때 주로 논의되는 데이터 레이크의 아키텍처로서 “데이
터 레이크는 원천 형태의 데이터 저장소이며 조직 내 외부 수집 데이터의 단일 저장소이다.”
라는 “원천 형태의 단일 저장소”의 정의에 가장 충실하도록 구현이 가능한 아키텍처이며, 최
신 데이터 레이크 아키텍처의 핵심이라고 할 수 있다.
시장조사기관인 가트너 역시 2016년에 “Best Practices for Designing Your Data Lake”라는
보고서에서 저장과 분석이 분리된 데이터 레이크 아키텍처를 설명하였다[7]. 이러한 아키텍처
의 핵심은, 데이터는 무한에 가까운 저장 전용 영역에 저장되고 R이나 Apache Spark 또는
기타 툴을 이용한 분석을 수행하는 시점에 각 분석 툴이 있는 곳으로 [그림 2 a]와 같이 데이터
를 이동한다는 점이 중요한 특징이다. 분석에 가장 적합한 가상 혹은 논리적인 데이터 분석
환경을 적시에 만들어서 저장 영역으로부터 데이터를 이동 후 분석이 끝나면 바로 삭제가
가능한 효율적인 시스템을 만들 수 있는 것이 저장과 분석이 분리된 아키텍처의 장점이다.
[a] 저장과 분석이 분리 [b] 저장과 분석이 통합
<자료> est Practices for Designing Your Data Lake, 2016.
[그림 2] 데이터 레이크 아키텍처
주간기술동향 2018. 8. 29.
이와 반대로 전통적인 데이터 웨어하우스나 하둡 기반의 분석 플랫폼은 저장과 분석이 [그

림 2 b]와 같이 동일한 곳에서 이루어지므로 데이터 저장 용량이 증가하거나, 분석 CPU가
증가할 때 다른 리소스도 함께 증가해야만 하며 최대 사용량을 감안해서 시스템의 용량을
사전에 준비해야 한다. 그러나 저장과 분석이 분리된 아키텍처는 저장 영역은 다양한 소스로
부터 데이터를 받아서 체계적이며 안정적으로 무한 저장하는 플랫폼에 집중되어 있고, 분석
영역은 다양한 분석 솔루션을 온 디멘드로 제공하는 플랫폼의 역할에 집중되어 있으므로 무
한하게 증가하는 데이터 레이크의 아키텍처로서 매우 적합하다고 할 수가 있다.
이렇게 저장과 분석이 분리된 아키텍처를 백분 활용할 수 있는 또 다른 아키텍처적인 개념
이 스키마 온 리드(Schema on Read)이다. 스키마 온 리드는 일반적인 데이터 웨어하우스처럼
데이터를 저장하는 시점에 데이터의 스키마를 정의하고 ETL(Extract Transformation and Load)
을 수행해서 저장하는 스키마 온 라이트와 반대되는 아키텍처로, 데이터를 원천 형태 그대로
빠르게 저장하고 스키마의 변경은 데이터를 분석하기 위해 읽어서 이동할 때 수행하는 아키
텍처이다. 즉, 데이터의 저장과 분석이 분리된 아키텍처는 무한 확장성과 비용 효율성 차원의
장점뿐만 아니라 데이터의 원천을 변형하지 않고 그대로 빠르게 저장하고 관리하는 데이터
레이크의 본연의 역할에 충실할 수 있는 아키텍처라고 할 수 있다.
2. 데이터 과학자를 위한 분석 샌드박스
빅데이터와 데이터 레이크의 개념이 확산되면서 중요성이 많이 강조된 역할 중에 하나가

데이터 과학자일 것이다. 데이터 과학자는 수학적인 방법과 프로세스, 알고리즘을 활용해서
데이터에서 지식과 인사이트를 추출하는 데이터 과학[8]의 역할을 수행하는데 데이터 웨어하
우스 중심의 분석 환경에서는 활성화되기가 어려웠던 역할이다. 왜냐하면 첫째는 기업의 데이
터 웨어하우스는 엄격한 정제를 거쳐서 저장하고 있는 데이터가 매우 한정적이고 부분적인
데다가 보유한 저장 공간이 한정적이어서 별도의 샌드박스를 만들어 데이터 과학의 업무를
수행하기가 적절하지 않은 경우가 많으며, 둘째는 보고서 생성이나 정형화된 분석 그리고
ETL 배치 등과 같이 예정된 업무를 위해 24시간이 스케줄링되어 있기 때문에 추가적인 데이터
과학의 업무를 할 수 있는 자원의 여지조차 없기 때문이다.
이러한 환경에서 데이터 과학자를 위한 분석 샌드박스는 데이터 레이크를 통해 얻을 수
있는 기능 중에서도 핵심 기능이라고 할 수 있다. 조직이 데이터 레이크를 구축해서 조직
내외에서 발생하는 대량의 데이터를 수집하는 이유는 바로 지금까지 수행하지 못했던 실험적
18 www.iitp.kr
ICT신기술
분석들을 자유롭게 할 수 있는 분석 샌드박스를 통해 인사이트를 수집하고, 이를 조직의 경쟁

우위를 확보하는데 활용해야만 경쟁에서 살아남을 수 있기 때문이다. 원래 샌드박스는 어린이
들이 다치지 않고 마음껏 놀 수 있도록 현실의 세계와는 격리된 모래로 이루어진 안전한 공간
을 제공해 주는 것을 말하는데 컴퓨터 산업에서도 유사한 의미로 외부로부터 들어온 프로그
램이 보호된 영역에서 동작하도록 해서 오동작 혹은 악성코드를 검증하고 막는 보안 개념으
로 활용되었다[9]. 그러나 이후에는 실험적 의미의 격리된 프로그램 테스트 공간 등과 같이
확장된 의미로 활용되고 있다. 지금 여기서 언급하는 분석 샌드박스도 연관된 의미로써 데이
터의 분석 과정에서 발생하는 다양한 형태의 데이터 가공이나 변형 등을 대비해서 격리된
데이터 분석 공간을 제공해 주는 것을 말하므로 데이터 과학자를 위한 분석 샌드박스의 제공
은 데이터 레이크 구축의 핵심이라고 말하는 것이 당연하다.
유명한 온라인 퍼블리싱 플랫폼 중 하나인 medium(www.medium.com)에 GE(General Electric)
의 CDO(Chief Data Officer)인 프래딥 메논(Pradeep Menon)이 2017년 기고한 “Demystifying Data
Lake Architecture”에는 데이터 과학자를 위한 분석 샌드박스의 제공이 데이터 레이크 프로젝
트에서 얼마나 중요한지를 잘 얘기해 주고 있다. 그는 기고문에서 “분석 샌드박스는 데이터
과학자들이 새로운 가설을 개발하고, 테스트하고, 메쉬업해서 새로운 활용 케이스(Use case)
를 만드는 곳이며, 이렇게 만들어진 활용 케이스를 빠른 프로토타입 구축을 통해서 가치를
검증하고 실제 실현 가능성을 검토하는 곳”[10]이라고 표현하였다([그림 3] 참조).
여기에서 더 한발 앞으로 나아가 데이터 레이크를 구축할 때 분석 샌드박스를 [그림 3]의
<자료> Demystifying Data Lake Architecture, 2017.
[그림 3] 데이터 레이크에서의 분석 샌드박스
주간기술동향 2018. 8. 29.
“필요에 의해 동적으로 생성 및 삭제”와 같이 데이터 과학자들이 각각 선호하고 분석하는

대상 데이터의 속성에 맞는 분석 엔진을 버전별로 간단한 클릭으로 생성하고 삭제할 수 있도
록 하고, 데이터 과학자들이 지정한 분석 대상 데이터를 원천 저장소로부터 자동으로 이동하
면서 반복적인 데이터의 기초 가공을 수행해서 분석 샌드박스에 저장해 줄 수 있도록 데이터
레이크 프로세스를 디자인한다면 데이터 과학자를 위한 최적의 분석 샌드박스 환경을 구축할
수 있을 것이다.
3. 현업 사용자를 위한 데이터 셀프 서비스
지금까지는 관심이 없던 시장이나 낮은 가격을 무기로 전통적인 시장을 민첩하게 침투해서

기득권이 있는 시장을 교란시키는 것을 클레이튼 크리스텐슨(Clayton M. Christensen) 교수는
파괴적 혁신이라고 하였다. 전통적인 조직이 최근에 많이 회자되고 있는 디지털 트랜스포메이
션(Digital Transformation)을 해야 하는 이유 중에 하나는 바로 이 파괴적 혁신을 무기로 하는
디지털 기술 중심의 민첩한 기업을 전통적인 기업이 빠르게 알아차리고 적절하게 대응하기
위한 체질 개선의 과정이라고 할 수 있다. 이러한 디지털 트랜스포메이션의 과정에서 가장
중요하게 인식되는 것 중 하나가 고객의 변화를 빠르게 인지할 수 있는 접점에서 의사 결정을
해야 하는 직원들이 얼마나 쉽고 빠르게 데이터에 접근해서 데이터에 기반을 둔 명확한 의사
결정을 내릴 수 있는가이다.
데이터 레이크가 갖추어야 할 중요한 요소 중 하나가 바로 앞서 말한 현업 사용자를 위한
데이터 셀프 서비스 환경을 제공할 수 있는가의 여부이다. TDWI Research의 필립 러썸(Philip
Russom)은 “최근 기업의 사용자(비즈니스 및 기술 분야 모두)는 데이터 레이크에 대한 셀프
서비스 접근(Self-Service Access)을 기대하며, 데이터 레이크의 구축에 셀프 서비스 접근이
빠져 있다면 실패한 프로젝트로 간주한다.”[11]라고 표현하였을 정도로 데이터 레이크 프로젝
트에서 현업사용자를 위한 셀프 서비스 환경을 구축하는 것은 필수적인 요소로 인식되고 있
다. 독일의 재보험 기업인 뮌헨 리(Munich Re)는 데이터 셀프 서비스를 적극적으로 도입하였
다. 뮌헨 리는 2017년 모든 직원이 데이터 레이크에 접근 가능하도록 함으로써 데이터에 기반
한 새로운 비즈니스 모델의 창출을 장려하였다. 뭔헨 리의 데이터 엔지니어링 책임자 안드레
아스 콜마이어(Andreas Kohlmaier)는 “비즈니스 판도가 지난 몇 년 동안 크게 변화했다. 이제
기업 내 일부 전문가가 지식을 독점하고 있지 않다. 데이터 소스에 대한 접근 권한을 가진
직원과 해당 데이터를 분석하고 처리하는 데 적합한 기술을 보유한 직원을 위한 정보가 늘어
20 www.iitp.kr
ICT신기술
나고 있다”라고 말했다[12].
셀프 서비스란, 데이터를 스스로 준비하고, 준비된 데이터를 스스로 탐색하며 원하는 결과
를 시각화하고 다른 사람들과 활용하는 것까지를 광의의 셀프 서비스라고 말한다. 이를 다시
말하면 데이터의 준비, 탐색, 시각화, 활용 모두를 사용자 스스로 직접 할 수 있어야 셀프
서비스라고 말할 수 있는 것이다. 결국 데이터 레이크를 구축하면서 가장 기본적으로 갖추어
야 할 현업 사용자를 위한 데이터 셀프 서비스는 첫째, 데이터를 자유자재로 시각화하고 인사
이트를 추출해 낼 수 있는 BI(Business Intelligence) 셀프 서비스, 둘째, 전사 데이터 레이크에
존재하는 전체 데이터를 쉽게 탐색하고 조회할 수 있는 데이터 탐색 셀프 서비스, 셋째, 탐색
한 데이터를 목적에 맞게 스스로 가공하고 정제할 수 있는 데이터 가공 셀프 서비스, 넷째,
통계분석 알고리즘, 머신러닝 알고리즘 등을 스스로 적용할 수 있는 AI 셀프 서비스 등과 같이
다양한 영역이 존재할 수 있다([그림 4] 참조). 그러나 이렇게 제공된 환경의 활용에 대해서
사용자들이 어려움을 느끼고 별도의 과다한 추가 노력이 투입되어야 한다고 생각한다면 사용
자들은 데이터를 이해하고 활용하는 기쁨이 중노동으로 느껴지게 되므로 활용도는 자연스럽
게 감소하게 될 것이다. 그러므로 쉽고 간단하며 필수적인 요소들부터 하나씩 단계적으로 구
현할 필요가 있다. 산업과 조직의 특성에 따라 다르겠지만 예를 들어서 어떤 데이터가 어디에
어떻게 존재하는지 쉽게 탐색할 수 있는 탐색 셀프 서비스, 데이터를 자유롭게 시각화할 수
있는 BI 셀프 서비스와 같은 것들이 필수적인 셀프 서비스가 될 수 있을 것이다.
그리고 IT나 기술에 익숙하지 않은 현업 사용자들을 감안한 앞선 뮌헨 리의 데이터 사냥꾼
이라는 역할이 있는데, 이는 직원이 좋은 아이디어를 갖고 있는 경우, 데이터 사냥꾼들이 가서
그 데이터를 찾아서 정제하고 가공해서 현업이 쉽고 활용할 수 있도록 도와주는 흥미로운
[그림 4] 데이터 레이크에서의 셀프 서비스
주간기술동향 2018. 8. 29.
방식을 도입한 좋은 사례이다. 또 한 가지 흥미로운 사례 중 하나는, 어느 한 미국 최대의

전자상거래 회사에서는 직원들이 데이터 레이크의 카탈로그를 통해서 필요한 데이터를 탐색
하고 원하는 데이터의 구독(Subscription)을 신청할 수 있으며, 이렇게 구독 신청된 데이터는
주기적으로 신청자가 사용할 수 있는 형태로 가공되어 배달된다고 하니 셀프 서비스의 개념
을 뛰어넘어 전 직원들이 최대한 데이터를 적극적으로 활용하도록 배려하는 좋은 예라고 생
각된다.
III. 성공적인 데이터 레이크 프로젝트를 위한 원칙
지금까지는 데이터 레이크가 처음 세상에 소개된 이후 최근까지 어떤 동향의 변화가 있었

는지 살펴보았다. 이 장에서는 데이터 레이크를 실제로 구축하기 위한 프로젝트를 수행할 때
참조하면 좋을 원칙들을 정리해 보았다. 데이터 레이크를 구축한 해외의 경험이나 솔루션 제
공사의 엔지니어들이 성공적인 데이터 레이크를 구축하기 위해 정리한 원칙이나 고려사항들
이 많이 있지만, 본 고에서는 피라미드 애널리틱스(Pyramid Analytics)의 CTO 애비 페레즈(Avi
Perez), GE의 CDO 프레딥 메논(Pradeep Menon), 뮌헨 리(Munich Re)의 데이터 엔지니어링 책임
자 안드레아스 콜마이어와 같은 경험 있는 전문가들의 의견을 바탕으로 다음과 같이 정리하
였다.
1. Think Big but Start Small
데이터 레이크는 조직의 방대하고 복잡한 현존하는 데이터를 아우르는 더 큰 개념의 데이터
허브이다. 그러므로 당연히 장기적으로는 현재 데이터가 발생하는 원천 시스템(Transactional
System)의 이후에 존재하는 모든 데이터와 관련한 시스템의 상위 집합이 되어야 하므로 처음
디자인 시에 고려해야 할 사항이 매우 많다. 특히, 현재 운영 중인 ODS(Operational Data Store),
DW(Data Warehouse) 등과 같은 기존 시스템과 데이터 레이크와의 R&R(Role & Responsibility),
향후 단계적 로드맵 등을 정확하게 정의하지 않으면 프로젝트 시작과 수행하는 내내 경영진
과 다양한 부서의 도전을 받게 될 것이다.
많은 전문가들이 데이터 레이크가 현존하는 DW를 대체하지는 않는다고 말하고 있다. DW와
데이터 레이크는 서로 보완적인 존재이다. 특히, 데이터 레이크는 장기적으로는 조직의 모든
데이터의 원천을 저장하는 단일 저장소로 확장될 것이며 DW는 지금과 같이 의사결정을 위해
22 www.iitp.kr
ICT신기술
데이터 레이크로부터 공급받은 정제된 데이터의 집합이 될 것이다.

하지만 처음부터 당장 사용하지도 않을 다양한 전사 데이터를 수집하는 것과 같은 커다란
프로젝트를 디자인하는 것은 지양해야 한다. 바로 수집해서 분석하면 기존에는 도출할 수 없
었던 작은 인사이트를 얻을 수 있는 가장 작은 단위의 의미 있는 프로그램(Most Viable Program:
MVP)을 Quick-Win 과제로 정의해서 먼저 수행함으로써 조직이 준비하고 체화하며 공감할 수
있는 과정이 필요하다.
2. 문제의 해결에 초점
Quick-Win 과제는 성과를 쉽게 확인 가능하도록 독립적이며 명확하고 간단할수록 좋다. 특

히, 현재의 사일로 구조의 데이터 시스템의 한계로 인해서 제공해 주지 못했던 현업에게 필요
한 인사이트가 있다면 가장 좋은 주제가 될 것이다. 이때 중요한 점은 현재의 문제점을 명확하
게 정의하고 이 문제점을 해결하기 위한 방법에 초점을 맞춰야 한다. 데이터 레이크 Quick-Win
프로젝트에서 중요한 것은 기술적 해결책을 찾는 것이 아니라 바로 문제의 해결책을 찾는
것이다.
3. 기술이 아닌 사용자 중심의 시스템
많은 전문가들이 강조하는 것 중 하나는, 복잡하고 어려운 시스템으로 인해 사용자들로부

터 외면 받는 것을 주의해야 한다는 점이다. 독일의 재보험 회사 뮌헨 리(Munich Re)는 모든
직원에게 데이터 레이크를 개방하는 것을 목표로 하고 있다. 당연히 시스템과 사용자 사이에
는 기술적인 갭이 있는데 이를 최소화하도록 설계하는 것이 제일 중요하고, 그 다음은 필요한
교육을 제공하는 것이다. 제공받는 다양한 데이터를 분석하고 이해하기 위해서는 다양한 데이
터 엔지니어링 교육과 데이터 사이언스 교육이 필요한데 적합한 프로그램을 제공해서 직원들
이 데이터에 한층 친숙해질 수 있는 계기를 제공해 준다면 데이터 레이크 프로젝트는 당연히
좋은 결과를 보여 줄 것이다. 끝으로 앞서 뮌헨 리(Munich Re)에서 언급한 것처럼 데이터 레이
크의 새로운 사용자층이 데이터를 탐색, 수집, 가공하고 분석하는 것을 지원하기 위해 만든
데이터 사냥꾼 팀(Data Hunting Unit)을 구성해서 사용자를 지원하는 것도 프로젝트의 성공을
위해서 중요한 역할을 할 수 있을 것이다.
주간기술동향 2018. 8. 29.
IV. 결론 및 시사점
지금 데이터 레이크는 비즈니스 분석부터 데이터 마이닝, 머신 러닝 등 모든 부분에 활용

가능한 정보의 단일 저장소로서, 지금까지의 데이터 사일로를 무너뜨릴 수 있는 대안으로
기대를 받고 있다. 이러한 데이터 레이크의 유행 현상은 과거 한때 모든 조직이 DW(Data
Warehouse)의 구축에 관심을 갖고 프로젝트를 수행했던 것처럼 지금 시대의 필수적인 ‘Must
Have’ 기술이 되었다고 생각한다. 이 기술은 잠깐의 트렌드가 아닌 조직의 향후 10년 이상을
위한 장기적인 핵심 기술로 자리잡게 될 것이므로 변화하는 주요 트렌드를 파악하고 성공적
인 구축을 위한 다양한 사례의 수집과 연구는 조직의 데이터 전략의 수립과 이행을 위해 좋은
결과를 가져다 줄 것으로 생각한다.
[ 참고문헌 ]
[1] Robert Lenzner, “IBM CEO Ginni Rometty Crowns Data As The Globe’s Next Natural
ResourceForbes,” Mar 7, 2013.
[2] 마이클 포터(Michael Eugene Porter), 한글판 “마이클 포터의 경쟁우위 - 탁월한 성과를 지속적
으로 창출하는 법”, 21세기북스, 2008, 영문판 “Competitive Advantage – Creating and sustaining
superior performance,” 1985.
[3] 클레이튼 크리스텐슨(Clayton M. Christensen), “Disruptive Technologies: Catching the Wave,”
Harvard Business Review, January-February 1995.
[4] 제임스 딕슨(James Dixon), James Dixon’s Blog, https://jamesdixon.wordpress.com/2010/10/14/,
2010.
[5] 위키피디아, Data Lake from Wikipedia, Data_lake, last edited on 16 July 2018.
[6] Timm Grosser, Jacqueline Bloemen, Melanie Mack & Jevgeni Vitsenko, BARC Research Study,
“Hadoop and Data Lakes - Use cases, Benefits and Limitations,” Graph “Challenges when
implementing Hadoop,” Nov. 2016, p.30.
[7] 닉 휴데커(Nick Heudecker), “Best Practices for Designing Your Data Lake,” Gartner, 2016.
[8] 위키피디아, Data Science from Wikipedia, Data_science, last edited on, 6 August 2018.
[9] 위키피디아, Sandbox from Wikipedia, Sandbox, last edited on, 29 July 2018,
[10] 프레딥 메논(Pradeep Menon), “Demystifying Data Lake Architecture,” medium.com of a medium
corporation, July 5 2017.
[11] 필립 러썸(Philip Russom), “The Data Lake Manifesto: 10 Best Practices,” twdi articles of
twdi.org, Oct. 2017, p.2.
[12] 안드레아스 퀼마이어(Andreas Kohlmaier), “모든 직원에게 데이터 레이크를 개방··· 독일 재
보험 기업의 도전,” CIO Korea magazine, April 2018.
24 www.iitp.kr

데이터레이크 기술동향과 도입원칙

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

데이터레이크 기술동향과 도입원칙

Uploaded by

Copyright:

Available Formats

주간기술동향 2018. 8. 29.

데이터 레이크 기술 동향과 도입 원칙

2013년 한 글로벌 IT 서비스 업체의 CEO는 데이터는 21세기의 천연자원이라고 언급하였는

* 본 내용은 백현 저자(hyunb@hotmail.com)에게 문의하시기 바랍니다.

생각할 수 있다. 물병의 물은 필요에 따라 쉽게 소비할 수 있도록 정제되고 포장된 형태라고

II. 데이터 레이크 동향 변화

데이터 레이크에 관한 정의는 시간이 흐르면서 어느 정도 다음과 같은 문장으로 수렴되었

2010년 제임스 딕슨의 데이터 레이크에 관한 정의 이후부터 약 5년간 데이터 레이크를 구축

<자료> Hadoop and Data Lakes, 2016 BARC

[그림 1] 조직이 하둡을 구축할 때의 도전 과제

는 현업 사용자를 위한 셀프 서비스 환경 구축이며, 지금부터 이 세 가지 동향의 변화를 하나

1. 저장과 분석이 분리된 아키텍처

[a] 저장과 분석이 분리 [b] 저장과 분석이 통합

<자료> est Practices for Designing Your Data Lake, 2016.

[그림 2] 데이터 레이크 아키텍처

이와 반대로 전통적인 데이터 웨어하우스나 하둡 기반의 분석 플랫폼은 저장과 분석이 [그

2. 데이터 과학자를 위한 분석 샌드박스

빅데이터와 데이터 레이크의 개념이 확산되면서 중요성이 많이 강조된 역할 중에 하나가

분석들을 자유롭게 할 수 있는 분석 샌드박스를 통해 인사이트를 수집하고, 이를 조직의 경쟁

<자료> Demystifying Data Lake Architecture, 2017.

[그림 3] 데이터 레이크에서의 분석 샌드박스

“필요에 의해 동적으로 생성 및 삭제”와 같이 데이터 과학자들이 각각 선호하고 분석하는

3. 현업 사용자를 위한 데이터 셀프 서비스

지금까지는 관심이 없던 시장이나 낮은 가격을 무기로 전통적인 시장을 민첩하게 침투해서

[그림 4] 데이터 레이크에서의 셀프 서비스

방식을 도입한 좋은 사례이다. 또 한 가지 흥미로운 사례 중 하나는, 어느 한 미국 최대의

III. 성공적인 데이터 레이크 프로젝트를 위한 원칙

지금까지는 데이터 레이크가 처음 세상에 소개된 이후 최근까지 어떤 동향의 변화가 있었

1. Think Big but Start Small

데이터 레이크로부터 공급받은 정제된 데이터의 집합이 될 것이다.

Quick-Win 과제는 성과를 쉽게 확인 가능하도록 독립적이며 명확하고 간단할수록 좋다. 특

3. 기술이 아닌 사용자 중심의 시스템

많은 전문가들이 강조하는 것 중 하나는, 복잡하고 어려운 시스템으로 인해 사용자들로부

지금 데이터 레이크는 비즈니스 분석부터 데이터 마이닝, 머신 러닝 등 모든 부분에 활용

You might also like