Professional Documents
Culture Documents
베이비시터 매칭 활성화 방안 제시
Team Analysts
인천대학교 산업경영공학과
박지환 201701355
손승태 201701358
이현욱 201701365
조연성 201701370
최승원 201701374
필요성
• 맞벌이가구의 증가
최근 들어 맞벌이가구의 수가 증가하면서 부모들이 일하는 동안에 아이들을 돌보아줄 수 있는 베이비시터 수요가 증가하게 됨
3
과제 개요
Decision Tree 모델을 활용하여 베이비시터 회원들이 고용에 영향을 미치는 요소들의 중요도를
알아내고자 함
• 의사결정 나무 Sitter data set
Tree 1 Tree 2
… Tree N
Depth: M
Apply Status
• 실험 방법
- Python3 에서 각각 sklearn 의 RandomForestClassifier, xgboost 의 XGBClassifier 과
LightGBM 의 LGBMClassifier 를 사용
- apply status( 고용 상태 ) 열을 독립변수로 두고 train, validation, test set 을 랜덤 추출을 통해
각각 75%, 20%, 5% 의 비율로 분할
- 모든 모델에 대해 공통 파라미터인 n_estimators, max_depth 를
각각 [10, 20, 50, 100, 200], [1~10] 의 조합으로 실험 5
Feature Importance - 실험결과
• 실험 결과
여러 조합으로 실험한 결과 n_estimators=50, max_depth=2 의 조합이 전반적으로 결과가 좋았음
• 데이터 수집
- 제공받은 베이비시터 데이터에서 viewCount, 평점 등을 활용하여 인기 베이비시터를 결정함
- 인기 베이비시터들의 소개글을 selenium 을 통해 크롤링
- 한글 형태소 분석기인 Open Korean Text(OKT) 를 이용하여 소개글을 단어화
• 실험 방법
- 단어화 된 소개글과 sklearn 의 CountVectorizer 를 이용하여 n_gram 기반의 키워드 후보군을 생성
- Pre-training 모델인 구글의 BERT 를 사용한 키워드 추출 라이브러리 KeyBERT 를 이용하여 키워드 추출
• 실험 결과
• 실험 방법
- 베이비시터 데이터를 정규화하고 각 Feature 들을 cosine_similarity 기법을
이용해 유사도를 계산하여 Content Based Filtering 구현
- 부모와 베이비시터의 데이터를 병합하여 SVD 행렬 분해를 한 이후 잠재요인 행렬을 이용해
행렬을 복원하는 기법인 Matrix Factorization 을 사용하여 Collaborative Filtering 구현
8
추천시스템 개발 - 실험결과
• 실험 결과
Loss: 0.0002730
9
결론
• 베이비시터 매칭 역량 차트
베이비시터 매칭 역량 차트를 통해 베이비시터 본인이 부모와 매칭이 안되는 이유를 파악하도록 하여
본인의 단점을 보완하도록 유도함
• 자기소개 키워드 제시
베이비시터 자기소개 작성 란에 부모들이 베이비시터를 선택하는데 긍정적인 영향을 주는 키워드들을 제시하여
자신의 역량을 표현하는 데에 도움을 줌
• 추천시스템 개선
콘텐츠 기반 추천으로 추천의 폭을 넓히고 , 협업 필터링 추천으로 개인화 추천을 함으로써
부모들이 더욱 질 좋은 추천을 받을 수 있게 됨 10