Professional Documents
Culture Documents
백 현
성균관대학교 기술경영 전문대학원
I. 서론
14 www.iitp.kr
ICT신기술
정보통신기술진흥센터 15
주간기술동향 2018. 8. 29.
16 www.iitp.kr
ICT신기술
저장과 분석이 분리된 아키텍처는 데이터 레이크의 데이터를 저장하는 영역과 데이터를
분석하는 영역을 분리한 아키텍처로 2010년 데이터 레이크라는 정의가 처음 사용된 이후 가
장 크게 변화한 것이 바로 개념 및 기술 아키텍처 영역이다. 이 아키텍처는 최근 클라우드
기반의 오브젝트 스토리지를 활용할 때 주로 논의되는 데이터 레이크의 아키텍처로서 “데이
터 레이크는 원천 형태의 데이터 저장소이며 조직 내 외부 수집 데이터의 단일 저장소이다.”
라는 “원천 형태의 단일 저장소”의 정의에 가장 충실하도록 구현이 가능한 아키텍처이며, 최
신 데이터 레이크 아키텍처의 핵심이라고 할 수 있다.
시장조사기관인 가트너 역시 2016년에 “Best Practices for Designing Your Data Lake”라는
보고서에서 저장과 분석이 분리된 데이터 레이크 아키텍처를 설명하였다[7]. 이러한 아키텍처
의 핵심은, 데이터는 무한에 가까운 저장 전용 영역에 저장되고 R이나 Apache Spark 또는
기타 툴을 이용한 분석을 수행하는 시점에 각 분석 툴이 있는 곳으로 [그림 2 a]와 같이 데이터
를 이동한다는 점이 중요한 특징이다. 분석에 가장 적합한 가상 혹은 논리적인 데이터 분석
환경을 적시에 만들어서 저장 영역으로부터 데이터를 이동 후 분석이 끝나면 바로 삭제가
가능한 효율적인 시스템을 만들 수 있는 것이 저장과 분석이 분리된 아키텍처의 장점이다.
정보통신기술진흥센터 17
주간기술동향 2018. 8. 29.
18 www.iitp.kr
ICT신기술
정보통신기술진흥센터 19
주간기술동향 2018. 8. 29.
20 www.iitp.kr
ICT신기술
나고 있다”라고 말했다[12].
셀프 서비스란, 데이터를 스스로 준비하고, 준비된 데이터를 스스로 탐색하며 원하는 결과
를 시각화하고 다른 사람들과 활용하는 것까지를 광의의 셀프 서비스라고 말한다. 이를 다시
말하면 데이터의 준비, 탐색, 시각화, 활용 모두를 사용자 스스로 직접 할 수 있어야 셀프
서비스라고 말할 수 있는 것이다. 결국 데이터 레이크를 구축하면서 가장 기본적으로 갖추어
야 할 현업 사용자를 위한 데이터 셀프 서비스는 첫째, 데이터를 자유자재로 시각화하고 인사
이트를 추출해 낼 수 있는 BI(Business Intelligence) 셀프 서비스, 둘째, 전사 데이터 레이크에
존재하는 전체 데이터를 쉽게 탐색하고 조회할 수 있는 데이터 탐색 셀프 서비스, 셋째, 탐색
한 데이터를 목적에 맞게 스스로 가공하고 정제할 수 있는 데이터 가공 셀프 서비스, 넷째,
통계분석 알고리즘, 머신러닝 알고리즘 등을 스스로 적용할 수 있는 AI 셀프 서비스 등과 같이
다양한 영역이 존재할 수 있다([그림 4] 참조). 그러나 이렇게 제공된 환경의 활용에 대해서
사용자들이 어려움을 느끼고 별도의 과다한 추가 노력이 투입되어야 한다고 생각한다면 사용
자들은 데이터를 이해하고 활용하는 기쁨이 중노동으로 느껴지게 되므로 활용도는 자연스럽
게 감소하게 될 것이다. 그러므로 쉽고 간단하며 필수적인 요소들부터 하나씩 단계적으로 구
현할 필요가 있다. 산업과 조직의 특성에 따라 다르겠지만 예를 들어서 어떤 데이터가 어디에
어떻게 존재하는지 쉽게 탐색할 수 있는 탐색 셀프 서비스, 데이터를 자유롭게 시각화할 수
있는 BI 셀프 서비스와 같은 것들이 필수적인 셀프 서비스가 될 수 있을 것이다.
그리고 IT나 기술에 익숙하지 않은 현업 사용자들을 감안한 앞선 뮌헨 리의 데이터 사냥꾼
이라는 역할이 있는데, 이는 직원이 좋은 아이디어를 갖고 있는 경우, 데이터 사냥꾼들이 가서
그 데이터를 찾아서 정제하고 가공해서 현업이 쉽고 활용할 수 있도록 도와주는 흥미로운
정보통신기술진흥센터 21
주간기술동향 2018. 8. 29.
데이터 레이크는 조직의 방대하고 복잡한 현존하는 데이터를 아우르는 더 큰 개념의 데이터
허브이다. 그러므로 당연히 장기적으로는 현재 데이터가 발생하는 원천 시스템(Transactional
System)의 이후에 존재하는 모든 데이터와 관련한 시스템의 상위 집합이 되어야 하므로 처음
디자인 시에 고려해야 할 사항이 매우 많다. 특히, 현재 운영 중인 ODS(Operational Data Store),
DW(Data Warehouse) 등과 같은 기존 시스템과 데이터 레이크와의 R&R(Role & Responsibility),
향후 단계적 로드맵 등을 정확하게 정의하지 않으면 프로젝트 시작과 수행하는 내내 경영진
과 다양한 부서의 도전을 받게 될 것이다.
많은 전문가들이 데이터 레이크가 현존하는 DW를 대체하지는 않는다고 말하고 있다. DW와
데이터 레이크는 서로 보완적인 존재이다. 특히, 데이터 레이크는 장기적으로는 조직의 모든
데이터의 원천을 저장하는 단일 저장소로 확장될 것이며 DW는 지금과 같이 의사결정을 위해
22 www.iitp.kr
ICT신기술
2. 문제의 해결에 초점
정보통신기술진흥센터 23
주간기술동향 2018. 8. 29.
IV. 결론 및 시사점
[ 참고문헌 ]
[1] Robert Lenzner, “IBM CEO Ginni Rometty Crowns Data As The Globe’s Next Natural
ResourceForbes,” Mar 7, 2013.
[2] 마이클 포터(Michael Eugene Porter), 한글판 “마이클 포터의 경쟁우위 - 탁월한 성과를 지속적
으로 창출하는 법”, 21세기북스, 2008, 영문판 “Competitive Advantage – Creating and sustaining
superior performance,” 1985.
[3] 클레이튼 크리스텐슨(Clayton M. Christensen), “Disruptive Technologies: Catching the Wave,”
Harvard Business Review, January-February 1995.
[4] 제임스 딕슨(James Dixon), James Dixon’s Blog, https://jamesdixon.wordpress.com/2010/10/14/,
2010.
[5] 위키피디아, Data Lake from Wikipedia, Data_lake, last edited on 16 July 2018.
[6] Timm Grosser, Jacqueline Bloemen, Melanie Mack & Jevgeni Vitsenko, BARC Research Study,
“Hadoop and Data Lakes - Use cases, Benefits and Limitations,” Graph “Challenges when
implementing Hadoop,” Nov. 2016, p.30.
[7] 닉 휴데커(Nick Heudecker), “Best Practices for Designing Your Data Lake,” Gartner, 2016.
[8] 위키피디아, Data Science from Wikipedia, Data_science, last edited on, 6 August 2018.
[9] 위키피디아, Sandbox from Wikipedia, Sandbox, last edited on, 29 July 2018,
[10] 프레딥 메논(Pradeep Menon), “Demystifying Data Lake Architecture,” medium.com of a medium
corporation, July 5 2017.
[11] 필립 러썸(Philip Russom), “The Data Lake Manifesto: 10 Best Practices,” twdi articles of
twdi.org, Oct. 2017, p.2.
[12] 안드레아스 퀼마이어(Andreas Kohlmaier), “모든 직원에게 데이터 레이크를 개방··· 독일 재
보험 기업의 도전,” CIO Korea magazine, April 2018.
24 www.iitp.kr