Professional Documents
Culture Documents
초록
Introduction
서론
1.1 주요 기여 및 연구 질문
1.2 문제 설명
2. 문헌 검토
3. GAM 테스트
4. 방법
5. 사용된 도구
컨테이너 시작 순서:
- 변환 컨테이너 (수신 데이터 트랜잭션을 분석 컨테이너에서 사용하는 필수 데이터
형식으로 집계하고 15 분마다 작업을 실행함)
- 분석 컨테이너는 게임 거래 데이터 분석을 실행하고 저장하며, 매일 오후 6 시에
작업을 실행한다.
6. MONGO DB
Mongo DB 는 고성능, 고가용성 및 손쉬운 확장성을 제공하는 크로스 플랫폼으로 문서
지향 데이터베이스인데, 컬렉션과 문서의 개념으로 작동한다. 데이터베이스는 컬렉션을
위한 물리적 컨테이너이며, 각 데이터베이스는 파일 시스템에서 자체 파일 세트를
얻는다. 단일 Mongo DB 서버에는 일반적으로 여러 데이터베이스가 있다. 컬렉션은
Mongo DB 문서 그룹으로, RDBMS 테이블과 동일하다.
7. 데이터의 성격
7.1 데이터 수집
7.2 기능 및 라벨링
8. 구현
8.1 데이터 전처리
8.2 책임 있는 도박 섹션
8.3 로그 분석 및 데이터 집계
8.4 일일 분석을 위한 표
8.5 월별 분석을 위한 표
9. 머신러닝
10. 예측 분석
11. 분류 및 선정방법
12. 서포트 벡터 머신
기계 학습에서 지원 벡터 머신(SVM, 지원 벡터 네트워크라고도 함)은 분류 및 회귀
분석을 위해 데이터를 분석하는 학습 알고리즘과 관련된 지도 학습 모델이다. SVM 은
많은 패턴 인식 및 회귀 추정 문제에 사용되었으며 종속성 추정, 예측 및 지능형 기계
구축 문제에 적용되었다. MLP(Multi-Layer Perceptron) 분류기에서는 네트워크
출력과 원하는 출력 간의 총 오류 합계가 최대화되는 훈련 단계 중에 가중치가
업데이트된다.
피쳐 선택
- 중요한 특징을 선택하고 종속 변수와 상관 관계가 없는 중복되거나 쓸모 없는 특징을
제거하는 프로세스다.
- 변수와 종속변수의 상관관계를 테스트하기 위한 모델을 만든다.
피쳐 생성
- 피쳐 생성에는 변수 수정과 여러 변수를 결합하여 새 변수 생성이 포함된다.
- 특징을 집계하거나 결합하여 새로운 특징을 생성하고, 특징을 분해하거나 분할하여
새로운 특성을 생성하는 방식을 혼합한다.
피쳐 추출
- 모델링할 수 있는 데이터 세트의 특징(차원) 수를 자동으로 줄이는 프로세스다.
- 일부 데이터 세트에는 기능이 너무 많아서 모든 특징을 그대로 사용하면 모델이 매우
복잡해진다.
피쳐 스케일링
- 특징 중 하나에 광범위한 값이 있는 경우 거리는 이 특정에 따라 결정된다. 따라서
모든 특 징의 범위는 각 특징이 대략적으로 최종 거리에 비례하도록 정규화되어야 한다.
- 원시 데이터의 값 범위는 매우 다양하다. 일부 기계 학습 알고리즘에서는 정규화 없이
목적 함수가 제대로 작동하지 않는다.
이름 설명
14.4 데이터 정보
15. 기계 학습 모델링
기본 사용자 세부정보
입출금 내역
15.1 데이터베이스 뷰
추세 검증표
속성 중독되지 않음 중독됨
일일 평균 사용량 69 분 143 분
한달 평균 입금 시간 0.06 2.08
평균 철수 시간 0.71 1.70
15.4 숨겨진 추세
<Svm 과 Naive Bayes 알고리즘의 비교, 여기서 Svm 중독된 플레이어의 정확한 평균
소비 시간 표시>
15.5 데이터 분석
추세 검증
16. 자동화
17. 결과
18. 머신러닝 예측
18.1 오버샘플링
18.2 ROC 곡선
ROC 곡선(수신기 작동 곡선)은 모든 분류 임계값에서 분류 모델의 성능을 보여주는
그래프다. 곡선은 두 가지 매개변수를 표시한다.
- 참양성률
- 거짓양성률
ROC 곡선은 다양한 분류 임계값을 표시하며, 분류 임계값을 낮추면 더 많은 항목을
양성으로 분류하므로 거짓양성과 참양성이 모두 증가한다.
19. 혼동 행렬/오차 행렬
20.1 시스템의 한계
21. 결론