You are on page 1of 23

BIG DATA

PREDICT HOTEL BOOKING


CANCELLATIONS
Lecturer: PhD. Tran Thi Phi
Phung

Nhóm: Ủa Em ?
1
Thành Viên Nhóm Ủa Em ?

Phan Thị Mỹ Duyên Lê Đào Trúc Lan Bùi Hoàng Thiện

Lê Hồng Quân Nguyễn Đức Tính Tô Huyền Trang

2
01 • Lý do chọn đề tài: nhu cầu phát triển một mô hình tối ưu để dự báo huỷ phòng cá

Sơ nhân là vô cùng cần thiết, điều này giúp các chủ khách sạn thấy được khả năng huỷ
phòng của khách hàng để có các chiến lược giữ chân khách hàng phù hợp, đúng lúc
và thiết lập các chính sách đặt, huỷ phòng tốt hơn.

lược
Câu hỏi nghiên cứu:
• Đâu là mô hình tối ưu nhất để dự đoán huỷ đặt
Đối tượng nghiên cứu:
• Việc huỷ đặt phòng khách sạn với nguồn dữ
phòng khách sạn? liệu thực tế từ Hotel Booking Demand datasets
• Làm thế nào để cải thiện tính chính xác của mô
hình?
Mục tiêu nghiên cứu: Ý nghĩa nghiên cứu:
• Xây dựng mô hình dự đoán huỷ đặt phòng khách • Nghiên cứu này đóng góp cho lý thuyết về dự báo
sạn huỷ đặt phòng.
• So sánh tính chính xác các mô hình và đề xuất mô • Đề xuất một mô hình tối ưu giúp nhà quản lý thực
hình tối ưu để dự đoán huỷ đặt phòng hiện các chính sách phù hợp để quản lý doanh thu

3
02
Các nghiên cứu
Cơ sở lý thuyết
Kỹ thuật địnhtrước
tính ít được phổ biến hơn (Song và Li, 2008) và không thu được kết quả chính xác nếu chúng
không dựa trên số liệu cần thiết (Yüksel, 2005)
Kỹ thuật định lượng là lựa chọn tối ưu nếu thông tin trong quá khứ có thể được định lượng và các mẫu quá
khứ có thể được ngoại suy một cách hợp lý cho tương lai (Lee và cộng sự, 2008).
• Chuỗi thời gian phi nhân quả (ARIMA, SARIMA, TARIMA)
• Kinh tế lượng (VAR, hồi quy, AIDS)
• Dựa trên trí tuệ nhân tạo ( SVM, Tree-based methods, ANN)

Đề xuất
Nghiên cứu của Agustín và Eleazar (2020) sử dụng mô hình ANN (kết hợp thuật toán di truyền GA) mang
lại kết quả dự đoán tỷ lệ hủy bỏ chính xác đến 98%. Tuy nhiên việc kết hợp các mô hình khá phức tạp.
Nhóm đề xuất sử dụng các phương pháp truyền thống và đơn giản hơn và bổ sung các biến như giá phòng,
phân khúc thị trường, kênh phân phối,...
4
03 Phương Pháp Nghiên Cứu
3.1 Thu Thập và chuẩn bị dữ
Tập dữ liệu này liệu
bao gồm: 1 khách sạn trong thành phố và một khách sạn nghỉ dưỡng tại Bồ Đào Nha
Bao gồm: 119.000 lượt đặt phòng (lượt đặt trước trong khoảng thời gian trong khoảng 3 năm từ 1/7/2015 -
31/8/2017)
Các bước chuẩn bị dữ liệu bao gồm:
• Chọn lọc và loại bỏ các biến không cần thiết hoặc thiếu dữ liệu
• Encode các dữ liệu phân loại (categorical data)
• Chuẩn hóa các dữ liệu số (numerical data)
=> Để làm cho các mô hình ít nhạy cảm hơn với các thang đo và duy trì tính nhất quán khi so sánh kết quả giữa chúng.

Kết quả phân tích mô tả cho thấy khoảng hơn 40% các lượt booking được đặt online qua các đại lý hoặc công ty
du lịch. Tỉ lệ huỷ đặt phòng trung bình của hai khách sạn là 37%, trong đó, khách sạn thành phố chiếm 42% và
khách sạn nghỉ dưỡng chiếm 28%.

5
6
3.2 Phương pháp xử lý dữ
liệu
Nhóm dùng Google Colab để áp dụng các thuật toán máy học có giám sát khác nhau dựa trên ngôn ngữ lập trình
Python. Các thuật toán được áp dụng bao gồm: Decision Tree Classifier, Random Forest, CatBoost và ANN.

Decision Tree Random Forests


Là một cây phân cấp có cấu trúc được dùng để phân Là thuật toán học có giám sát (supervised learning). Nó có
lớp các đối tượng dựa vào dãy các luật. Cho dữ liệu về thể được sử dụng cho cả phân lớp và hồi quy. Nó cũng là
các đối tượng gồm các thuộc tính cùng với lớp thuật toán linh hoạt và dễ sử dụng nhất. Một khu rừng bao
(classes) của nó, cây quyết định sẽ sinh ra các luật để gồm cây cối.
dự đoán lớp của các dữ liệu chưa biết.

CatBoost Mạng Nơron nhân tạo (Artificial Neural Network- ANN)


Là một thuật toán khoa học máy tính được phát triển bởi Là mô hình xử lý thông tin được mô phỏng dựa trên hoạt
các nhà nghiên cứu và kỹ sư của Yandex, nó là sự kế động của hệ thống thần kinh của sinh vật, bao gồm số
thừa của thuật toán MatrixNet được sử dụng rộng rãi lượng lớn các Nơron được gắn kết để xử lý thông tin.
trong công ty để xếp hạng các nhiệm vụ, dự báo và đưa
ra các đề xuất

7
Workflow
Process

8
04
XỬ LÝ DỮ LIỆU
&
KẾT QUẢ DỰ
9
Kết Quả Dự
Đoán
Trong phần này kết quả của kỹ thuật sẽ
được trình bày và thảo luận. Các thước đo
của một số kỹ thuật sẽ được trình bày trước,
sau đó là thảo luận về mô hình và kết quả.

10
4.1. Thước đo hiệu suất
Confusion Matrix:
Là bảng tương quan cho thấy sự khác biệt giữ
phân loại thực tế và phân loại dự đoán cho bộ
thử nghiệm trong một bảng có dán nhãn

Thể hiện có bao nhiêu điểm dữ liệu thực sự


thuộc vào một class, và được dự đoán là rơi
vào một class. Mối quan hệ giữa các class thể
hiện qua thước đo recall (tỷ lệ thu hồi) và
precision (độ đặc hiệu)

11
4.1. Thước đo hiệu suất
Recall (đôi khi còn được gọi là
Sensitivity - độ nhạy): được định
nghĩa là tỉ lệ số điểm Positive mô
hình dự đoán đúng (TP) trong số
những điểm thực sự là positive (TP +
FN). Recall càng cao, tức là số điểm
là positive bị bỏ sót càng ít. Nó có
công thức là:

12
Precision: được định nghĩa là tỉ lệ số
điểm Positive mô hình dự đoán đúng
(TP) trên tổng số điểm mô hình dự
đoán là Positive (TP+FP). Precision
cao đồng nghĩa với việc độ chính xác
của các điểm tìm được là cao và
ngược lại. Nó có công thức là:

13
Accuracy: hay là độ chính xác tức là độ dự đoán tần suất người phân loại thực
hiện dự đoán (Precision) chính xác. Độ chính xác là tỷ lệ giữa số dự đoán đúng
trên tổng số dự đoán.

14
F1 Score: là một phương pháp cơ bản và đơn giản để đo lường sự khác biệt giữa hai lớp
có giá trị thực, kết hợp với precision và recall (Güneş và cộng sự, 2010). Với F1-score,
chúng ta chỉ cần quan tâm đến một chỉ số duy nhất (thay vì hai – precision và recall).
F1-score càng cao tươngứng precision và recall càngcao, mô hình phân loại càng tốt

15
4.2 Kết quả mô hình

• Các thước đo trên được áp dụng cho các mô hình: Decision Tree, Random
Forest và CatBoost.
• Đối với mô hình ANN, việc áp dụng các thước đo như f1 score, precision và
recall có thể tạo ra các nhầm lẫn trong quá trình đánh giá hơn là hữu dụng
cho toàn bộ dữ liệu.
• Do đó, mô hình ANN sẽ được đánh giá bằng thước đo Accuracy và kết quả
so sánh mô hình cũng được so sánh bằng thước đo chính là Accuracy.

16
4.2 Kết quả mô hình

Random Forest

Decision Tree

17
4.2 Kết quả mô hình

CatBoost

ANN
18
• Kết quả cho thấy cả 4 mô hình đều cho hiệu suất
4.2 So sánh mô hình tốt với độ chính xác cao từ 95%.
• Trong đó, CatBoost mang lại độ chính xác cao nhất
(99.5%), tiếp đến là ANN, Random Forest và cuối
cùng là Decision Tree.
• Mặc dù là một thuật toán máy học khá mới và chưa
từng được nhắc đến trong các nghiên cứu trước về
đề tài huỷ đặt phòng khách sạn. CatBoost có tiềm
năng trở thành một mô hình đơn giản và hiệu quả
để áp dụng cho lĩnh vực này và mở rộng đến các
ngành liên quan trong tương lai.

19
5
KẾT LUẬN
20
ĐÓNG GÓP CỦA NGHIÊN
CỨU
Góp phần mở rộng lý thuyết có sẵn về ngành khách sạn và nhà nghỉ bằng cách đề xuất phương
pháp luận để dự báo số lượt hủy đặt phòng khách sạn bằng trí tuệ nhân tạo; khẳng định về tiện
ích của dữ liệu PNR để dự báo các lần hủy khách sạn riêng lẻ

Các dự báo có thể được điều chỉnh gần với xu hướng thị trường mới nhất.

Cho phép dự báo tình trạng huỷ phòng của khách sạn với mức độ chính xác cao nhất bằng
cách xử dụng các biến mà khách sạn dễ tiếp cận và mở rộng.

Sử dụng CatBoots Giảm độ phức tạp, đơn giản, nhanh chóng hơn. Có thể điều chỉnh gần với xu hướng mới,
tạo ra các mô hình và cung cấp sự báo bằng cách sử dụng thông tin có sẵn trong quá trình đặt phòng

21
HÀM Ý QUẢN TRỊ

Từ quan điểm từ nhà quản lý, kết quả đạt được chỉ ra rằng hồ sơ lịch sử của khách hàng (PNR) là
điều cần thiết cho các doanh nghiệp kinh doanh dịch vụ khách sạn.

Hạn chế những khó khăn và tổn thất doanh thu mà việc huỷ khách sạn tạo ra. Kỹ thuật này giúp ban
quản lý nắm thông tin trước để họ thiết lập các chính sách giá phù hợp

Tạo một lợi thế cạnh tranh đáng kể vì nó có thể dự báo tỷ lệ hủy với mức độ chính xác cao và tốc độ
xử lý nhanh với lượng dữ liệu lớn, đồng thời xác định được khách hàng nào có khả năng huỷ phòng
nhất.

Do đó, khách sạn có thể thực hiện hành động chủ động để khuyến khích khách hàng duy trì đặt phòng
bằng cách gửi tin nhắn, email, lời nhắc,... liên hệ trực tiếp.

22
THANK YOU FOR LISTENING

23

You might also like