Professional Documents
Culture Documents
4장 데이터분석개요 2023
4장 데이터분석개요 2023
4.1 데이터분석이란?
데이터분석이란?
대용량의 데이터로부터, 데이터 내에 존재하는 관계, 패턴, 규칙 등을 탐색하여 모형화함으로써 유용한 지식을
추출하는 일련의 과정
지식 추출의 방법
연역 귀납
1 기술 분석 (Descriptive analysis)
§ 가장 기본이 되는 분석
§ 주어진 데이터를 요약 및 집계하여 결과 도출
분류 (Classification)
§ 서로 다른 그룹에 속하는 객체의 예가 주어지면 그 객체의 속성을 사용하여 모델링하고 이를 통해 새로운
객체의 그룹을 예측하는 것
§ 예측하고자 하는 목표변수가 범주형인 문제
§ 분류 문제의 예
§ 기업들의 재무비율 데이터를 통해 이듬해 부도 여부를 예측 (목표변수: 부도 여부)
§ 통신사 회원들의 가입정보를 이용해 통신사 변경 가능성 예측 (목표변수: 고객의 이탈 여부)
§ 마케팅 활동 후의 가망고객 예측 (목표변수: 마케팅 대상의 반응 여부)
추정 (Estimation)
§ 과거의 데이터를 바탕으로 관측되지 않은 변수의 미래의 값을 평가하는 것
§ 예측하고자 하는 목표변수가 집단 변수가 아닌 연속형(수치형)인 문제
§ 추정 문제의 예
§ 시장 데이터를 이용한 주가 지수 예측 (목표변수: 주가 지수)
§ 관객 데이터를 이용한 영화 흥행 예측 (목표변수: 관객수)
문제유형
Predictive Descriptive
추정 분류 Affinity
Clustering
(Estimation) (Classification) Grouping
Regression ü ü
ü
ANN ü ü (Kohonen
Network)
주요 ü
기법 Decision Tree
ü
Association Rule
Clustering ü
Algorithm
4.2 데이터마이닝의 정의 및 등장배경
데이터마이닝이란?
1단계) 샘플링 단계
§ 분석에 사용될 레코드를 파악하기 위해 방대한 양의 데이터(모집단)에서부터 모집단을 닮은 적은 양의
데이터 (샘플: 표본)를 추출하는 단계
§ 적절한 샘플링 방법을 사용하는 것이 중요
§ 샘플링 에러에 주의할 필요
3단계) 탐색 및 변형단계
§ 탐색단계
§ 보유하고 있는 수많은 변수들의 관계를 살펴보는 단계
§ 각 변수의 분포, 설정한 주제와의 관계 및 변수간의 선형, 비선형 관계 등을 관찰
§ 각종 그래프를 통한 시각적 관찰을 사용하기도 함
§ 데이터의 변형
§ 기존의 변수를 이용하여 새로운 변수를 도출
§ 예를 들어 ‘고객의 지난달 카드 사용 내역’ 으로부터 ‘고객의 지난달 1회 평균 카드 사용 금액’과 같은
정보를 도출
§ 차후 모형화 단계에서 중요한 정보로써 활용
데이터마이닝의 수행 과정
4단계) 분석 모형화 단계
§ 선정된 중요한 변수를 사용하여 다양한 모형(회귀분석, 인공신경망, 의사결정나무 등)을 구축하는 단계
§ 적용할 모형구축기법의 선정, 수렴 및 일반화, 안정성의 점검 등을 수행
5단계) 보고 및 가시화/적용 단계
§ 보고 및 가시화
§ 수행결과를 이해하기 쉬운 형태로 표현
§ 그래프 및 도표를 활용
§ 적용단계
§ 개발된 모형을 정보시스템의 모델 베이스에 반영
4.3 데이터마이닝의 주요 개념
데이터마이닝에 사용되는 기술
데이터마이닝은 통계학, 기계학습, 데이터베이스, 데이터웨어하우스 시스템, 고성능 컴퓨팅 등 다양한 영역의
기술들이 통합하면서 형성
데이터
통계
베이스
데이터마이닝
기계 고성능
학습 컴퓨팅
통계학
기계학습(Machine Learning)
§ 데이터에 근거한 복잡한 패턴을 자동으로 인식하고 지능적인 의사결정을 할 수 있도록 자동으로 학습
지도학습과 비지도학습
기계학습
지도학습 비지도학습
③ 연관규칙 ④ 군집화
데이터에 내제된 비슷한 속성을 가진
① 분류 ② 예측 규칙 발견 객체끼리 그룹화
범주형 변수에 대한 연속형 변수에 대한
예측 예측
지도학습과 비지도학습
§ 학습 매커니즘
비지도학습(Unsupervised Learning)
모형의 평가 요소
§ 해석력: 구축된 모형이 입력 변수와 출력 변수의 관계에 대한 설명력을 얼마나 가지고 있는지 평가
모형의 선택 기준
분류 모형의 평가
§ 물론 정확도가 잘 맞으면 훌륭한 모형이라고 할 수 있지만 현실 세계의 문제들을 100%의 정확도로 분류해
내는 것은 불가능
부도 예측 문제 예시
분류 모형의 평가
실제 정답
Positive Negative
False Positive
Positive True Positive
(Type Ⅱ Error)
실험 결과
False Negative
Negative True Negative
(Type ⅠError)
!"#$%$&' = )! + +,
,'-.%$&' = +! + ),
분류 모형의 평가
§ 정확도 (Accuracy)
§ 전체 데이터 중 양성을 양성이라고 분류하고 음성을 음성이라고 분류하는 개수의 비율을 의미함
분류 모형의 평가
분류 모형의 평가
§ 정밀성 (Precision)
§ 구축한 모형이 얼마나 정밀한지 판단하는 지표로 진짜 양성을 잘 검출할수록 정밀도가 증가함
§ 특이도 (Specificity)
분류 모형의 평가
§ ROC 커브
§ 민감도와 특이도가 어떤 관계를 가지고 변화하는지 시각화한 그래프로 ROC 커브의 아래 면적을 구한
값을 AUC(Area Under Curve)라고 함 → 하나의 수치로 계산되어 성능 비교 가능
분류 모형의 평가
예측 모형의 평가
예측 모형의 평가
§ 이 평가법은 예측한 값과 정답의 차이를 살펴보고 예측값이 정답보다 높거나 낮을 수 있다는 사실에
영향을 받지 않는 방식으로 평균을 계산함
§ RMSE는 값 자체와 같은 단위로 오차의 결과가 나오기 때문에 직관적으로 이해가 쉽다는 장점이 있음
< !
∑(& − &)
>7,8 =
.
모형의 평가
예측 모형의 평가