Professional Documents
Culture Documents
데이터 마이닝 및 WEKA GUI를 알아보자
데이터 마이닝 및 WEKA GUI를 알아보자
데이터 마이닝 및
WECA GUI를 알아보자
사실 외카(WECA)를 사용하기 위해서는 단순히 툴 사용이나 API를 익히는 것 못지않게 데이터 마이닝의 기본 개념을 익히는
게 상당히 중요하다. 따라서 이번 컬럼에서는 간단히 데이터 마이닝과 그 필요 개념들에 대해서 리뷰 해보고 그 것을 기반으
로 외카 GUI 실습에 중요성을 두고 알아보는 시간을 가져보자.
스텝
바이
스텝 3
데이터마이닝이라 함은 수많은 데이터를 분석해서 그 속에서 할 정도로 비중이 크다. 예를 들어 설명하면 스팸 메일 처리 데이
특정 패턴을 발굴하고 이를 기반으로 예측을 수행하는 자동화된 터 마이닝 서비스에서 스팸과 상관관계가 높은 제목 및 본문의
프로세스를 의미한다. 이 마이닝이라는 작업이 특정 패턴에 적합 단어, 받는 사람 이름 및 서버 주소, 이전 사용자가 메일을 보낸
한지 확인하는 그런 데이터 분석 작업과는 다르다. 예를 들어 특 주소에서 왔는지 아니면 처음 보는 주소에서 온 것인지에 대한
정 데이터의 평균이나 표준편차 등을 구하는 것은 데이터 분석 속성들은 스팸성을 판단하는데 아주 중요한 속성들이 될 것이다.
작업의 일환이라 볼 수 있겠다. 이런 데이터마이닝은 확률/통계 하지만 그 이외의 속성인 함께 받는 사람들의 숫자, 본문 및 제목
학, 선형대수 그리고 머신 러닝(Machine Learning)과 같은 학 의 인코딩 및 언어 등등의 것들은 일반적으로 스팸을 판단하는데
문적 이론 기반을 가지고 있다. 하지만 수학이 나온다고 해서 미 큰 영향을 미치지 못하는 속성들이 될 것이다. 물론 이들도 중요
리 겁먹을 필요는 없다. 사실 개인적으로는 실용적인 예제를 통 속성이 될 수 있겠으나 직관적으로 그렇지 않다는 말씀을 드리는
한 감각을 익히고 그 이후 필요시 더 깊은 내용에 대해 학습하는 바다. 이를 위해 아주 샘플링을 잘 해서 실제 데이터 분석을 하는
과정을 선호하기 때문에 이번 강좌들에서는 예제를 통한 감각 학 과정이 필요하다. 이를 속성 선택 과정이라고 한다.
습에 치중하고 나머지 심화 학습은 독자들의 선택에 맡기겠다. 속성에는 숫자형(Numerical), 서열형(Ordinal), 명목형
먼저 외카(WECA)를 가지고 놀기 전에 몇 가지 데이터와 머 (Nominal) 속성이 있다. 먼저 숫자형은 속성과 관련된 실수값을
신 러닝에 대한 선행학습을 할 필요가 있다. 그리하여 다음 컬럼 의미한다. 두 개의 숫자형 값은 서로 비교가 가능하며 연속적인
에서는 여러가지 데이터 속성의 종류에 대해 알아보는 시간을 가 값이고 특정 상황에서는 이산적인 특징을 띌 수 있으며 서열화도
져 보겠고, 학습 알고리즘의 핵심 기술과 데이터 마이닝의 프로 가능하다. 예를 들어 나이, 사이트에 로그인한 횟수 등등이 될 수
세스에 대해서 살펴보는 시간을 가져 볼 것이다. 있을 것이다. 서열형(Ordinal) 역시 이산적인 특징을 가지고 있
다. 한 가지 특이할 만한 특징은 이 속성은 순서만을 가지고 있다
데이터마이닝의 속성 는 것인데, 예를 들어‘많다’
,‘적다’
등과 같은 속성들이 좋은 예
학습 알고리즘은 학습을 위해 어느 정도 정리된 데이터 셋이 가 될 수 있을 것이다. 재미있는 사실은 이들 사이에 많고 적은
필요하다. 이 데이터 셋은 속성이라는 데이터 집합으로 구성이 것이 어느정도의 차이를 가지고 있는지 절대적인 기준이 성립되
되는데 이 속성의 정의 및 전처리가 데이터마이닝의 승패를 가늠 어있지 않다는 점이다. 마지막으로 명목형(Nominal)속성은 범
256 m a s o
데이터 마이닝 및 WECA GUI를 알아보자
검정색, 붉은색 등의 값들 중에 하나가 될 수 있을 것이다. 명목 회귀분석 입력 속성들에 대해서 연속형 연속형 회귀분석,
출력 속성을 예측하는 신경망
형 속성은 독자들 또한 잘 아시다시피 값의 대소 비교가 불가능
알고리즘
하다. 그리고 그런 비교 자체가 의미가 없다. 분류 입력 속성들에 대해서 이산형 이산형 결정트리,
그리고 이들 속성들 간에는 변환이 가능한데, 숫자형 속성을 이 출력 속성을 예측하는 또는 나이브
m a s o 257
스 텝 바 이 스 텝 | 3
258 m a s o
데이터 마이닝 및 WECA GUI를 알아보자
정의할 수 있는 장점을 가지고 있다. 이 포맷은 헤더부분과 본문 <relation-name>은 문자열로 데이터셋의 이름을 명시한다. 만
부분으로 크게 나뉠 수 있는데 헤더 부분에는 데이터 파일의 이 일 이름에 공백이 있다면 따옴표로 문자열이 하나임을 명시해 줘
름과 속성이름을 정의하고 그 타입까지 정의할 수 있다는 점이 야 한다.
특징이며 우리가 처음에 배운 데이터 속성들의 개념을 바로 이
부분에서 적용할 수 있다. @attribute <attribute-name> <datatype>
여기에서 $WEKAHOME/data 디렉토리에 존재하는 IRIS
데이터 셋의 헤더를 확인해 보면 <리스트 1>과 같으며 본문은 < 속성은 위와 같이 정의하는데 마찬가지로 attribute-name은
리스트 2>와 같다. 속성 이름을 의미하는 문자열이 와야 하며 datatype은 아래 4가
지 타입 중에 하나가 올 수 있다.
<리스트 1> iris.arff 헤더 부분
m a s o 259
스 텝 바 이 스 텝 | 3
260 m a s o
데이터 마이닝 및 WECA GUI를 알아보자
start버튼을 눌러 빌드를 해보도록 하자. 상당히 재미있는 결과 용할 수 있다는 장점이 있다. 게다가 모델이 어떤 과정을 통해 결
가 나오는 것을 아래를 통해 확인 할 수 있다. 과 클래스를 판단하는지도 눈으로 볼 수 있다.
m a s o 261