You are on page 1of 29

제4장 데이터 분석 개요

4.1 데이터분석이란?
데이터분석이란?

데이터 수집 및 저장 기술의 급속한 발전으로 조직은 방대한 양의 데이터 축적이 가능해짐

→ 데이터를 분석하는 행위의 중요성은 증가

대용량의 데이터로부터, 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하여 모형화함으로써 유용한 지식을
추출하는 일련의 과정

기업은 데이터분석을 통해 근원 데이터로부터 정보의 연관성을 파악하고 가치 있는 정보를 추출해 실제


비즈니스 의사 결정에 적용

지식 추출의 방법

연역 귀납

관련 이론, 문헌, 과거 사례,


전문가 노하우 데이터 분석
데이터분석 유형

1 기술 분석 (Descriptive analysis)

§ 가장 기본이 되는 분석
§ 주어진 데이터를 요약 및 집계하여 결과 도출

2 탐험적 분석 (Exploratory data analysis)

§ 데이터 분석에서 시각화가 차지하는 비중이 커지면서 주목을 받게


된 분석 유형으로 다양한 그래프를 통한 사실 확인이 주된 작업
§ 주로 데이터분석 초기에 가설 수립을 위해 수행 ü 정보의 생성

3 예측 분석 (Predictive analysis) ü 지식의 추출

§ 미래 혹은 발생하지 않은 어떤 사건에 대한 예측을 하는 것을 목표로


하는 분석
§ 다양한 통계 기법 및 머신러닝 기법이 사용

4 처방적 분석(Prescriptive Analytics)

§ 예측되는 사태를 위해 무엇을 하면 좋을지 해결방안을 제시하는 비


즈니스 분석
§ 기술적 분석, 예측 분석 등을 조합하여 최선의 행동 결정
데이터분석의 문제 유형

분류 (Classification)
§ 서로 다른 그룹에 속하는 객체의 예가 주어지면 그 객체의 속성을 사용하여 모델링하고 이를 통해 새로운
객체의 그룹을 예측하는 것
§ 예측하고자 하는 목표변수가 범주형인 문제
§ 분류 문제의 예
§ 기업들의 재무비율 데이터를 통해 이듬해 부도 여부를 예측 (목표변수: 부도 여부)
§ 통신사 회원들의 가입정보를 이용해 통신사 변경 가능성 예측 (목표변수: 고객의 이탈 여부)
§ 마케팅 활동 후의 가망고객 예측 (목표변수: 마케팅 대상의 반응 여부)
추정 (Estimation)
§ 과거의 데이터를 바탕으로 관측되지 않은 변수의 미래의 값을 평가하는 것
§ 예측하고자 하는 목표변수가 집단 변수가 아닌 연속형(수치형)인 문제
§ 추정 문제의 예
§ 시장 데이터를 이용한 주가 지수 예측 (목표변수: 주가 지수)
§ 관객 데이터를 이용한 영화 흥행 예측 (목표변수: 관객수)

분류와 추정 모두 변수의 값을 예측한다는 점에서 같지만


예측하고자 하는 목표 변수의 형태(범주형/연속형)에 따라 차이가 있음
데이터분석의 문제 유형…

연관성규칙 (Association Rules)


§ 유사 행태에 대한 집단화를 수행함
§ 친화성 분석(affinity grouping)과 같은 개념
§ 연관성규칙의 예
§ 마트에서 할인쿠폰 발행을 위해 고객의 구매 물품을 조사한 후 빈번하게 같이 구매되는 제품 파악
→ 할인 쿠폰의 효과성 증가
§ 넷플릭스 사용자의 시청목록 분석을 통한 추천시스템 개발
군집화 (Clustering)
§ 유사한 특성을 가진 데이터끼리 그룹을 생성하여 부분집합으로 분할
§ 내부 클래스 간 유사도를 높이고 외부 클래스 간 유사도를 최소화하여 데이터를 그룹화
§ 군집 분석은 사전에 클래스에 대한 라벨이 없음
§ 군집화의 예
§ 마케팅을 위해 동일한 특성을 갖는 고객 그룹 생성
§ 신용카드 사기 적발 등의 아웃라이어 탐색
문제유형과 관련 기법들

문제유형
Predictive Descriptive
추정 분류 Affinity
Clustering
(Estimation) (Classification) Grouping

Regression ü ü

ü
ANN ü ü (Kohonen
Network)
주요 ü
기법 Decision Tree

ü
Association Rule

Clustering ü
Algorithm
4.2 데이터마이닝의 정의 및 등장배경
데이터마이닝이란?

데이터마이닝은 대용량의 데이터로부터, 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하여


모형화함으로써 유용한 지식을 추출하는 일련의 과정

연산 속도의 증가로 데이터를


이용한 모델링이 용이해짐
Computer
지식추출에 용이한 방법론 Power의 증가
및 Tool의 개발

통계적 기법과 데이터 수집과


기계학습 관리능력의
방법의 접목 향상
데이터의 수집 및 저장
비용 이 낮아지고
데이터 관리에 필요한 H/W,
S/W 환경 좋아짐
데이터마이닝의 등장배경

정보화 시대의 도래와 데이터에 대한 인식 변화


§ 비즈니스, 사회, 과학 등 일상생활의 거의 모든 측면에서 데이터가 생성되고 있음
§ 정보기술의 성숙과 인터넷의 등장으로 누구나 원하는 정보를 쉽게 얻을 수 있게 됨
§ 인터넷의 확산은 정보의 비대칭성 해소 → 기업의 의사결정 지원
§ 데이터마이닝을 통해 기업 경쟁력 강화에 도움이 되면서 지식이 기업의 핵심자산이라는 인식 확대
데이터 수집 및 관리능력의 향상
§ 데이터의 양적 성장은 전산화와 데이터 수집 및 저장도구의 신속한 개발에 의한 결과
§ 90년대 초반 데이터 웨어하우스 개념이 등장하면서 축적된 데이터를 체계적으로 활용할 수 있는
체계적인 기반 구축 → 데이터마이닝에 대한 급격한 관심의 증가
§ 2000년대 인터넷의 시대가 도래하면서 수집 가능한 데이터가 증가하게 되었고 데이터마이닝의 대상도
확장됨
데이터 분석 알고리즘의 발전
§ 통계 및 머신러닝 기법의 발전으로 데이터로부터 지식 추출이 용이해짐
컴퓨팅 기술의 발전
§ 연산속도의 증가로 데이터를 이용한 모델링이 용이해짐
데이터마이닝의 수행 과정

1단계) 샘플링 (Sampling/selecting) 단계


2단계) 데이터 정제 및 전처리 (Data cleaning/Preprocessing) 단계
3단계) 탐색 및 변형 (Exploration/Transformation) 단계
4단계) 모형화 (Modeling) 단계
5단계) 보고 및 가시화(Reporting/ Visualization)/적용(Implementation) 단계
데이터마이닝의 수행 과정

1단계) 샘플링 단계
§ 분석에 사용될 레코드를 파악하기 위해 방대한 양의 데이터(모집단)에서부터 모집단을 닮은 적은 양의
데이터 (샘플: 표본)를 추출하는 단계
§ 적절한 샘플링 방법을 사용하는 것이 중요
§ 샘플링 에러에 주의할 필요

2단계) 데이터 정제 및 전처리


§ 데이터 베이스가 일관성이 없고 불완전하며 오류가 있을 경우 데이터의 무결성과 질을 보장하기 위해
데이터 정제작업을 수행
§ 전처리(preprocessing)과정을 통해 데이터의 타당성 검증
§ 결측치 처리 방법
§ 극단치의 존재 여부
§ 변수에 대한 정의, 측정단위, 측정기간 등에 대한 일관성 확보
데이터마이닝의 수행 과정

3단계) 탐색 및 변형단계
§ 탐색단계
§ 보유하고 있는 수많은 변수들의 관계를 살펴보는 단계
§ 각 변수의 분포, 설정한 주제와의 관계 및 변수간의 선형, 비선형 관계 등을 관찰
§ 각종 그래프를 통한 시각적 관찰을 사용하기도 함
§ 데이터의 변형
§ 기존의 변수를 이용하여 새로운 변수를 도출
§ 예를 들어 ‘고객의 지난달 카드 사용 내역’ 으로부터 ‘고객의 지난달 1회 평균 카드 사용 금액’과 같은
정보를 도출
§ 차후 모형화 단계에서 중요한 정보로써 활용
데이터마이닝의 수행 과정

4단계) 분석 모형화 단계
§ 선정된 중요한 변수를 사용하여 다양한 모형(회귀분석, 인공신경망, 의사결정나무 등)을 구축하는 단계
§ 적용할 모형구축기법의 선정, 수렴 및 일반화, 안정성의 점검 등을 수행

5단계) 보고 및 가시화/적용 단계
§ 보고 및 가시화
§ 수행결과를 이해하기 쉬운 형태로 표현
§ 그래프 및 도표를 활용
§ 적용단계
§ 개발된 모형을 정보시스템의 모델 베이스에 반영
4.3 데이터마이닝의 주요 개념
데이터마이닝에 사용되는 기술

데이터마이닝은 통계학, 기계학습, 데이터베이스, 데이터웨어하우스 시스템, 고성능 컴퓨팅 등 다양한 영역의
기술들이 통합하면서 형성

데이터
통계
베이스

데이터마이닝
기계 고성능
학습 컴퓨팅

통계학

§ 통계모형은 데이터와 데이터 클래스를 모델링하기 위해 널리 사용됨

§ 통계학은 데이터에서 다양한 패턴을 추출하고 패턴에 영향을 주는 매커니즘을 이해하는데 사용

기계학습(Machine Learning)

§ 기계학습은 데이터에 근거하여 컴퓨터가 학습하거나 성능을 개선할 수 있는 방법을 조사함

§ 데이터에 근거한 복잡한 패턴을 자동으로 인식하고 지능적인 의사결정을 할 수 있도록 자동으로 학습
지도학습과 비지도학습

기계학습

지도학습 비지도학습

§ 대상데이터: 입력변수와 출력 § 대상데이터: 입력변수만 포함


변수가 모두 포함된 데이터 된 데이터
§ 목적: 정답(label)이 주어진 학 § 목적: 대상데이터의 특성을 파
습용 데이터(training data)를 이 악하여 비슷한 데이터끼리 그
용하여 예측변수와 출력변수 룹으로 분류하는 학습 방법
간의 관계를 학습하여 분류·예
측 수행

③ 연관규칙 ④ 군집화
데이터에 내제된 비슷한 속성을 가진
① 분류 ② 예측 규칙 발견 객체끼리 그룹화
범주형 변수에 대한 연속형 변수에 대한
예측 예측
지도학습과 비지도학습

지도학습 (Supervised Learning)

§ 분류와 예측을 위해 사용되는 학습 방법으로 예측 목표가 있음

§ 학습을 위한 데이터에 주요 출력변수의 값, 즉 정답(label)이 알려져 있음

§ 학습 매커니즘

§ 학습용 데이터(training data)를 이용하여 입력변수와 출력변수 간의 패턴(관계)을 도출

§ 학습용 데이터를 통해 구축된 모형을 새로운 데이터에 적용하여 출력값을 분류 또는 예측

비지도학습(Unsupervised Learning)

§ 특성이 비슷한 데이터끼리 그룹으로 분류하는 학습 방법

§ 예측 또는 분류를 위해 필요한 출력변수가 없는 데이터들에 대해 특정 패턴을 추출

§ 지도학습과 달리 학습을 위한 데이터가 필요 없기 때문에 ‘비지도학습’이라고 함

Ex 1) 트위터에서 비슷한 주제의 게시물을 올린 사람끼리 그룹화

Ex 2) 구매패턴이 비슷한 고객군 별로 그룹화


모형의 평가

학습한 모델의 효과성을 검증하기 위해 모델의 평가를 수행해야 함

모형의 평가 요소

§ 예측력: 모형이 주어진 데이터에 대해 얼마나 정확한 예측을 하는지 평가

§ 해석력: 구축된 모형이 입력 변수와 출력 변수의 관계에 대한 설명력을 얼마나 가지고 있는지 평가

§ 효율성: 모형 구축 시 꼭 필요한 입력변수만을 사용하여 모형이 구축되었는지 평가(불필요하거나


다중공선성 (Multicollinearity) 이 높은 입력 변수가 사용되지 않았는지 확인)

§ 안정성: 모집단 내 다른 자료에 적용하였을 때도 안정적인 결과를 나타내는지 확인

모형의 선택 기준

§ 예측 모형(Estimation): 예측 목표 변수가 연속형인 모형 (MSE, RMSE, MAPE 등)

§ 분류 모형(Classification): 예측 목표 변수가 범주형인 모형 (accuracy, recall, precision 등)


모형의 평가

분류 모형의 평가

§ 이번 장에서는 주로 이진 분류(binary classification)에 대해 논의함

§ 이진 분류의 예) 부도 여부, 주가의 방향성 예측, 고객 이탈 여부, 질병 탐지 등

§ 분류 모형의 평가는 정확도(accuracy) 뿐만 아니라 민감도(sensitivity, recall), 특이도(specificity) 등의


다양한 지표를 통해서 이루어짐

§ 분류 모형의 성과를 측정하는 가장 간단한 방법은 정확한 답의 비율을 계산하는 것 → 정확도(accuracy)

§ 물론 정확도가 잘 맞으면 훌륭한 모형이라고 할 수 있지만 현실 세계의 문제들을 100%의 정확도로 분류해
내는 것은 불가능

§ 그렇기 때문에 어떤 부분의 오차를 인정할 것인지에 따라 다른 평가지표가 사용됨

부도 예측 문제 예시

§ 부도 예측 문제의 경우 부도 위험이 높은 기업을 건전하다고 예측하는 것이 더 위험할까?


§ 건전 기업을 부도라고 예측하는 것이 더 위험할까?
→ 대부분의 경우 부도 기업을 건전하다고 예측하는 경우
금융기관의 직접적인 손실로 이어지기 때문에 이러한 오류가 더 위험하다고 판단함
모형의 평가

분류 모형의 평가

§ 분류 모형의 평가는 정확도(accuracy) 뿐만 아니라 민감도(sensitivity, recall), 특이도(specificity) 등의


다양한 지표를 통해서 이루어짐

§ 모형 평가를 위한 혼동 행렬 (Confusion Matrix)

실제 정답

Positive Negative

False Positive
Positive True Positive
(Type Ⅱ Error)
실험 결과
False Negative
Negative True Negative
(Type ⅠError)

!"#$%$&' = )! + +,
,'-.%$&' = +! + ),

§ 문제에 대한 예측값이 같아도 평가 지수가 다를 수 있음

§ 즉, 어떤 모형이 적합한지는 해결하고자 하는 문제의 특성에 따라 평가 지수를 달리해서 판정해야 함


모형의 평가

분류 모형의 평가

§ 정확도 (Accuracy)

§ 전체 데이터 중 양성을 양성이라고 분류하고 음성을 음성이라고 분류하는 개수의 비율을 의미함

§ 가장 대표적으로 사용되는 지표로 전체 데이터 중 제대로 분류된 데이터의 비율을 의미함


() + (+
!""#$%"& =
)++

예) 부도 예측을 수행하기 위한 전체 데이터 중 부도를 부도라고 예측하고 건전 기업을 건전으로


예측하는 비율
모형의 평가

분류 모형의 평가

§ 민감도 (Sensitivity, recall, true positive rate)

§ 민감도는 양성에 대해 얼마나 민감한지를 의미하는 지표로 양성인 것을 놓치지 않고 잘 골라내는지


판단

§ 즉, 양성을 양성이라고 잘 판정할수록 민감도가 높음 → 얼마나 양성을 잘 판정하는지 판단

§ 민감도 = 판정한 것 중 실제 양성의 수 / 전체 양성의 수


()
,-./010201& =
() + 3+

예) 부도 기업을 부도라고 예측을 잘 하는 경우


모형의 평가

분류 모형의 평가

§ 정밀성 (Precision)

§ 구축한 모형이 얼마나 정밀한지 판단하는 지표로 진짜 양성을 잘 검출할수록 정밀도가 증가함

§ 양성으로 예측한 데이터 중 실제 양성의 비율로 나타냄


()
)$-"0/04. =
() + 3)

예) 부도라고 예측한 데이터 중 실제 부도 기업의 비율

§ 특이도 (Specificity)

§ 얼마나 특이한 것만 양성으로 골라내는지 판단

§ 즉, 음성을 음성이라고 잘 판정하는 경우


(+
,5-"060"01& =
(+ + 3)
모형의 평가

분류 모형의 평가

§ ROC 커브

§ ROC 그래프는 가로축을 FP Rate (Specificity) 값의 비율로 하고 세로축을 TP Rate (Sensitive) 로


하여 시각화 한 그래프

§ 민감도와 특이도가 어떤 관계를 가지고 변화하는지 시각화한 그래프로 ROC 커브의 아래 면적을 구한
값을 AUC(Area Under Curve)라고 함 → 하나의 수치로 계산되어 성능 비교 가능

§ ROC커브가 X축과 Y축에 가까울수록 이상적인 모형에 가까움

§ AUC가 클수록 변별력이 높은 모형이라고 할 수 있으며 변별력이 높은 모형일수록 1에 가까워짐


모형의 평가

분류 모형의 평가

민감도와 특이도의 trade off

§ 이해를 돕기 위해 병원 진단을 예로 민감도와 특이도를 이해해보자. 민감도의 경우 환자의 생


명과 직접적인 관련이 있을 수 있다. 민감도가 낮은 검진의 경우, False Negative(환자인데 정
상으로 판단)가 많아진다. 환자인데 정상으로 판단하여 적절한 치료를 받지 못하면, 환자의 생
명에 지장이 있을 수도 있다. 이것이 많은 사람들이 민감도를 중요시하는 이유이다. 반면, 특이
도의 경우 불필요한 비용의 낭비와 관련이 있다. 특이도가 낮으면, False Positive(정상인데 환
자로 판단)가 많아진다. 정상인이 환자로 판단되면, 환자가 불안감에 시달리거나, 불필요한 정
밀한 추가검사를 받아 환자가 아니라는 것을 밝혀야 한다. 따라서 불필요한 손실이 일어나게
됩니다. 이렇듯 민감도와 특이도는 현실적인 관점에서 trade off의 관계에 있다. 민감도를 높
이면 특이도는 낮아지게 된다. 따라서 적절한 수준에서 검진의 민감도와 특이도를 설정할 필
요가 있다.
모형의 평가

예측 모형의 평가

§ 분류 모델과는 반대로 예측 모델에는 정확한 예측이라는 단순한 개념이 존재하지 않음

§ 수치 예측은 대체로 정확하지 않을 가능성이 높으며, 정답에 대해 가까이 있을 수도 있고 멀리 떨어져 있을


수도 있음
모형의 평가

예측 모형의 평가

§ MSE (Mean Squared Error)

§ 예측값과 실제값의 차이를 제곱한 값

§ 특이치(outlier)가 존재하는 경우 수치가 급격히 늘어나 강건성이 떨어진다는 단점이 있음


< !
∑(& − &)
7,8 =
.

§ RMSE (Root Mean Squared Error)

§ 이 평가법은 예측한 값과 정답의 차이를 살펴보고 예측값이 정답보다 높거나 낮을 수 있다는 사실에
영향을 받지 않는 방식으로 평균을 계산함

§ RMSE는 값 자체와 같은 단위로 오차의 결과가 나오기 때문에 직관적으로 이해가 쉽다는 장점이 있음

§ 그러나 예측값(예상값)의 규모에 따라 값이 달라지기 때문에 다른 데이터를 사용하는 모형에 대해서는


비교가 쉽지 않다는 단점이 있음

< !
∑(& − &)
>7,8 =
.
모형의 평가

예측 모형의 평가

§ MAE (Mean Absolute Error)

§ 예측값과 실제값의 차이를 모두 더하는 개념

§ 절대값을 취하기 때문에 도출된 오류에 대해 직관적으로 이해하기 쉽고 MSE보다 특이치에


강건하다는 특징이 있음
∑ & − &<
7!8 =
.

§ MAPE (Mean Absolute Percentage Error)

§ 예측값에 대한 오차의 비율로 모델 간의 오류 비율을 비교해볼 수 있음

§ 오차의 비율로 모형 비교가 가능하기 때문에 오차 평균의 크기가 큰 모형도 비교 가능


& − &<

&
7!)8 = ×100
.

You might also like