Professional Documents
Culture Documents
예측 인공지능 제작
- 금융 리스크 관리 강화
: 신용 위험이 높은 사용자를 식별함을 통해서 대출 결정 , 이자율 설정 , 정보에 기반한 결정을 내리기
위함 .
- 건전한 금융 환경 조성
: 신용 문제를 조기에 감지함으로써 사용자가 자신의 금융 상태를 더 잘 관리하고 신용 점수를
유지하거나 향상시킬 수 있는 기회를 갖게 된다 .
탐구 과정
• 데이터 준비 및 시드 설정
: seed_everything 함수는 재현 가능 결과를 위해서 랜덤 시드를 설정하고 훈련 데이터와
테스트 데이터를 불러온다 .
• 데이터 확인
: train.head(3) 과 test.head(3) 을 통해 데이터의 첫 3 개 행을 확인한다 .
• 오버샘플링 결과 시각화
: Target 열은 예측된 확률 중 연체될 확률을 나타낸다 .
• 모델 학습 및 예측 및 결과 확인
: XGBoost 분류기를 학습하고 테스트 데이터에 대해 예측 확률을 구한다 .
코드 해석
• 신용 불량자 에측 과정
1. 랜덤시드 설정 및 데이터 불러오기
: 사용할 시드 설정 후 테스트 데이터를 CSV 파일에서 불러옴
2. 데이터 시각화
: 타겟 변수인 TARGET 을 사용하여서 분포를 히스토그램에 표시해준다 .
3. 데이터 전처리
: 학습 데이터와 테스트 데이터를 나누고 예측 변수와 특성 변수를 나누어 저장한 후 Label
Encoding 수행을 통해서 범주형 변수를 숫자로 변환하여 모델학습을 한다 .
코드 해석
4. 불균형한 클래스 처리
: 불균형한 클래스를 처리함으로써 TARGET 클래스의 불균형을 보완하고 모델의 성능을
향상시킨다 .
5. XGBoost 모델학습
: XGBoost 분류 모델 정의한 후에 오버샘플링된 학습 데이터를 사용해 모델을 학습함
6. 테스트 데이터 예측
: XGBoost 모델을 사용해 테스트 데이터에 대한 예측 확률을 생성함
탐구 결과
• 하이퍼 파라미터 튜닝
- 각 데이터 세트와 모델에 하이퍼파라미터 세트가 필요하게 되는데 이를 결정하기 위해
하이퍼파라미터 세트를 선택 후 모델을 통해 실행해야한다 .
- 성능 향상
: 예측 정확도 , 정밀도 , 재현율과 같은 성능 지표를 개선하는 것을 의미하며 학습 데이터에
잘 적응하고 일반화 능력의 향상
- 과적합 방지
: 적절한 하이퍼파라미터 설정은 과적합을 방지하는데 효과적으로 작용될 수 있다 .