You are on page 1of 13

신용카드 연체 가능성

예측 인공지능 제작

우신영조 - 우신영 , 이진우


목차
• 탐구목적
• 탐구과정
• 코드제작
• 탐구결과
• 개선방안
탐구 목적

• 신용 카드 연체가능성이 존재하는 사용자를 탐지하는 인공지능 제작

- 금융 리스크 관리 강화
: 신용 위험이 높은 사용자를 식별함을 통해서 대출 결정 , 이자율 설정 , 정보에 기반한 결정을 내리기
위함 .
- 건전한 금융 환경 조성
: 신용 문제를 조기에 감지함으로써 사용자가 자신의 금융 상태를 더 잘 관리하고 신용 점수를
유지하거나 향상시킬 수 있는 기회를 갖게 된다 .
탐구 과정

• XGBoost (eXtreme Gradient Boosting)


- 데이터를 처리하며 분류에 특화될 때 사용하기에 유용해서 XGBoost 알고리즘을 사용하였다 .
• 학습 진행 방식
- 과적합 방지
: XGBoost 를 활용하면 규제 매개변수인 라쏘와 릿지를 조정함으로써 모델이 훈련 데이터에 맞춰져
일반화 능력이 떨어짐을 방지할 수 있다 .
- 예측 및 해석
: XGBoost 모델이 신용 불량자일 확률을 예측하고 모델이 어떤 특성을 기반으로 예측을 내렸는지
해석하기 위한 특성 중요도 분석할 수 있음 .
코드 제작
코드 제작
코드 제작
코드 제작
코드 해석

• 데이터 준비 및 시드 설정
: seed_everything 함수는 재현 가능 결과를 위해서 랜덤 시드를 설정하고 훈련 데이터와
테스트 데이터를 불러온다 .
• 데이터 확인
: train.head(3) 과 test.head(3) 을 통해 데이터의 첫 3 개 행을 확인한다 .
• 오버샘플링 결과 시각화
: Target 열은 예측된 확률 중 연체될 확률을 나타낸다 .
• 모델 학습 및 예측 및 결과 확인
: XGBoost 분류기를 학습하고 테스트 데이터에 대해 예측 확률을 구한다 .
코드 해석

• 신용 불량자 에측 과정
1. 랜덤시드 설정 및 데이터 불러오기
: 사용할 시드 설정 후 테스트 데이터를 CSV 파일에서 불러옴
2. 데이터 시각화
: 타겟 변수인 TARGET 을 사용하여서 분포를 히스토그램에 표시해준다 .
3. 데이터 전처리
: 학습 데이터와 테스트 데이터를 나누고 예측 변수와 특성 변수를 나누어 저장한 후 Label
Encoding 수행을 통해서 범주형 변수를 숫자로 변환하여 모델학습을 한다 .
코드 해석

4. 불균형한 클래스 처리
: 불균형한 클래스를 처리함으로써 TARGET 클래스의 불균형을 보완하고 모델의 성능을
향상시킨다 .
5. XGBoost 모델학습
: XGBoost 분류 모델 정의한 후에 오버샘플링된 학습 데이터를 사용해 모델을 학습함
6. 테스트 데이터 예측
: XGBoost 모델을 사용해 테스트 데이터에 대한 예측 확률을 생성함
탐구 결과

• 테스트 파일을 통해서 실행시킨 결과


- baseline_submission.to_csv('baseline_submission.csv', index=False) 코드의 이
부분을 통해서 확률로 나온 결과를 확인할 수 있다 .
- 특정 Test_02440 , Test_02587 에서 각각 0.664982, 0.67286 이 나옴을 확인할 수 있다 .
- public score 로 다음과 같은 점수가 측정됨을 확인할 수 있었다 .
개선 방안

• 하이퍼 파라미터 튜닝
- 각 데이터 세트와 모델에 하이퍼파라미터 세트가 필요하게 되는데 이를 결정하기 위해
하이퍼파라미터 세트를 선택 후 모델을 통해 실행해야한다 .
- 성능 향상
: 예측 정확도 , 정밀도 , 재현율과 같은 성능 지표를 개선하는 것을 의미하며 학습 데이터에
잘 적응하고 일반화 능력의 향상
- 과적합 방지
: 적절한 하이퍼파라미터 설정은 과적합을 방지하는데 효과적으로 작용될 수 있다 .

You might also like