Professional Documents
Culture Documents
4.1 데이터분석이란?
데이터분석이란?
대용량의 데이터로부터, 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하여 모형화함으로써 유용한 지식을
추출하는 일련의 과정
지식 추출의 방법
연역 귀납
1 기술 분석 (Descriptive analysis)
§ 가장 기본이 되는 분석
§ 주어진 데이터를 요약 및 집계하여 결과 도출
분류 (Classification)
§ 서로 다른 그룹에 속하는 객체의 예가 주어지면 그 객체의 속성을 사용하여 모델링하고 이를 통해 새로운
객체의 그룹을 예측하는 것
§ 예측하고자 하는 목표변수가 범주형인 문제
§ 분류 문제의 예
§ 기업들의 재무비율 데이터를 통해 이듬해 부도 여부를 예측 (목표변수: 부도 여부)
§ 통신사 회원들의 가입정보를 이용해 통신사 변경 가능성 예측 (목표변수: 고객의 이탈 여부)
§ 마케팅 활동 후의 가망고객 예측 (목표변수: 마케팅 대상의 반응 여부)
추정 (Estimation)
§ 과거의 데이터를 바탕으로 관측되지 않은 변수의 미래의 값을 평가하는 것
§ 예측하고자 하는 목표변수가 집단 변수가 아닌 연속형(수치형)인 문제
§ 추정 문제의 예
§ 시장 데이터를 이용한 주가 지수 예측 (목표변수: 주가 지수)
§ 관객 데이터를 이용한 영화 흥행 예측 (목표변수: 관객수)
문제유형
Predictive Descriptive
추정 분류 Affinity
Clustering
(Estimation) (Classification) Grouping
Regression ü ü
ü
ANN ü ü (Kohonen
Network)
주요 ü
기법 Decision Tree
ü
Association Rule
Clustering ü
Algorithm
4.2 데이터마이닝의 정의 및 등장배경
데이터마이닝이란?
1단계) 샘플링 단계
§ 분석에 사용될 레코드를 파악하기 위해 방대한 양의 데이터(모집단)에서부터 모집단을 닮은 적은 양의
데이터 (샘플: 표본)를 추출하는 단계
§ 적절한 샘플링 방법을 사용하는 것이 중요
§ 샘플링 에러에 주의할 필요
3단계) 탐색 및 변형단계
§ 탐색단계
§ 보유하고 있는 수많은 변수들의 관계를 살펴보는 단계
§ 각 변수의 분포, 설정한 주제와의 관계 및 변수간의 선형, 비선형 관계 등을 관찰
§ 각종 그래프를 통한 시각적 관찰을 사용하기도 함
§ 데이터의 변형
§ 기존의 변수를 이용하여 새로운 변수를 도출
§ 예를 들어 ‘고객의 지난달 카드 사용 내역’ 으로부터 ‘고객의 지난달 1회 평균 카드 사용 금액’과 같은
정보를 도출
§ 차후 모형화 단계에서 중요한 정보로써 활용
데이터마이닝의 수행 과정
4단계) 분석 모형화 단계
§ 선정된 중요한 변수를 사용하여 다양한 모형(회귀분석, 인공신경망, 의사결정나무 등)을 구축하는 단계
§ 적용할 모형구축기법의 선정, 수렴 및 일반화, 안정성의 점검 등을 수행
5단계) 보고 및 가시화/적용 단계
§ 보고 및 가시화
§ 수행결과를 이해하기 쉬운 형태로 표현
§ 그래프 및 도표를 활용
§ 적용단계
§ 개발된 모형을 정보시스템의 모델 베이스에 반영
4.3 데이터마이닝의 주요 개념
데이터마이닝에 사용되는 기술
데이터마이닝은 통계학, 기계학습, 데이터베이스, 데이터웨어하우스 시스템, 고성능 컴퓨팅 등 다양한 영역의
기술들이 통합하면서 형성
데이터
통계
베이스
데이터마이닝
기계 고성능
학습 컴퓨팅
통계학
기계학습(Machine Learning)
§ 데이터에 근거한 복잡한 패턴을 자동으로 인식하고 지능적인 의사결정을 할 수 있도록 자동으로 학습
지도학습과 비지도학습
기계학습
지도학습 비지도학습
③ 연관규칙 ④ 군집화
데이터에 내제된 비슷한 속성을 가진
① 분류 ② 예측 규칙 발견 객체끼리 그룹화
범주형 변수에 대한 연속형 변수에 대한
예측 예측
지도학습과 비지도학습
§ 학습 매커니즘
비지도학습(Unsupervised Learning)
모형의 평가 요소
§ 해석력: 구축된 모형이 입력 변수와 출력 변수의 관계에 대한 설명력을 얼마나 가지고 있는지 평가
모형의 선택 기준
분류 모형의 평가
§ 물론 정확도가 잘 맞으면 훌륭한 모형이라고 할 수 있지만 현실 세계의 문제들을 100%의 정확도로 분류해
내는 것은 불가능
부도 예측 문제 예시
분류 모형의 평가
실제 정답
Positive Negative
False Positive
Positive True Positive
(Type Ⅱ Error)
실험 결과
False Negative
Negative True Negative
(Type ⅠError)
!"#$%$&' = )! + +,
,'-.%$&' = +! + ),
분류 모형의 평가
§ 정확도 (Accuracy)
§ 전체 데이터 중 양성을 양성이라고 분류하고 음성을 음성이라고 분류하는 개수의 비율을 의미함
분류 모형의 평가
분류 모형의 평가
§ 정밀성 (Precision)
§ 구축한 모형이 얼마나 정밀한지 판단하는 지표로 진짜 양성을 잘 검출할수록 정밀도가 증가함
§ 특이도 (Specificity)
분류 모형의 평가
§ ROC 커브
§ 민감도와 특이도가 어떤 관계를 가지고 변화하는지 시각화한 그래프로 ROC 커브의 아래 면적을 구한
값을 AUC(Area Under Curve)라고 함 → 하나의 수치로 계산되어 성능 비교 가능
분류 모형의 평가
예측 모형의 평가
예측 모형의 평가
§ 이 평가법은 예측한 값과 정답의 차이를 살펴보고 예측값이 정답보다 높거나 낮을 수 있다는 사실에
영향을 받지 않는 방식으로 평균을 계산함
§ RMSE는 값 자체와 같은 단위로 오차의 결과가 나오기 때문에 직관적으로 이해가 쉽다는 장점이 있음
< !
∑(& − &)
>7,8 =
.
모형의 평가
예측 모형의 평가