You are on page 1of 48

KHDL –

G05
ĐỀ TÀI: NGHIÊN CỨU THÔNG TIN CHUYẾN
BAY TRONG VẬN CHUYỂN HÀNG KHÔNG
VÀ DU LỊCH
DANH SÁCH
HỌ VÀ TÊN THÀNH VIÊN
MSSV PHÂN CÔNG MỨC ĐỘ HOÀN
THÀNH
TRƯƠNG THIÊN BẢO 312210230819 Tiểu luận, bổ sung hoàn 100%
chỉnh dữ liệu, Phân tích dữ
liệu, giải bài toán, phương
pháp phân cụm, dự doán kết
quả, làm slides.
NGUYỄN VĂN TÚ 31221025423 Xử lý dữ liệu thô ,Phân tích 100%
giải bài toán, đưa ra kiến
nghị giải pháp, phương pháp
phân cụm, tiểu luận, slides
PHAN THỊ HOÀI THƯƠNG 31221026956 Tìm Mẫu, Tiền Xử lý dữ liệu, 100%
phân tích bài toán, phương
pháp phân lớp, dự đoán số
liệu, tiêu luận, làm slides
NGUYỄN HOÀNG VÂN 31221024163 Tìm Mẫu, Xử Lý Dữ liệu thô, 100%
phân tích , phương pháp
phân lớp, đưa kiến nghị dự
đoán, slides, tiểu luận
NỘI DUNG THUYẾT TRÌNH

02
PHÂN TÍCH
0
ỨNG1
DỤNG
03
TRẢ LỜI CÂU HỎI
0
ỨNG DỤNG
1
MÔ TẢ DỮ LIỆU

TÊN BỘ DỮ LIỆU: Travel Dataset - Datathon 2019

NGUỒN: https://www.kaggle.com/datasets/leomauro/
argodatathon2019/data

• Dữ liệu phục vụ cho việc nghiên cứu những thông tin chuyến bay trong
ngành vận chuyển hàng không và vận chuyển trong du lịch.
• Dữ liệu thô chứa 271888 đối tượng (hàng) và 10 thuộc tính (cột)
Mô tả cấu trúc của bộ dữ liệu
về FLIGHT
TIỀN XỬ LÝ DỮ LIỆU
01 02 03
LÀM SẠCH Mô tả dữ
DỮ LIỆU liệu sau rút
Mô tả dữ
gọn
liệu sau xử lý
LÀM SẠCH DỮ LIỆU
Thêm 3 thuộc tính (cột):
• Average Price
• Year Select rows:
• Month • Lấy 50 khách hàng (ứng
8932 chuyến bay) Feature Constructor:
• Năm 2020-2023. • Phân ra loại vé Cao và Thấp

Select Columns:
• Bỏ các thuộc tính không
Edit Domain:
cần thiết.
• Sửa tên thuộc tính
Missing data:
flightType
• Không xuất hiện nên không
phải xử lý
MÔ TẢ DỮ LIỆU BẰNG LƯỢC
ĐỒ
• Dữ liệu sau khi gán nhãn gồm
7 thuộc tính quan sát, với
priceType là biến phụ thuộc
nhằm mục đích tìm hiểu khách
hàng đó đi với giá cao hay
thấp.

• Sử dụng công cụ Feature


Statistics để mô tả thống kê
các biến này với những giá trị
như Mean, Median, Dispersion,
Min, Max,... của 8932 kết quả
khảo sát.
MÔ TẢ DỮ LIỆU
● 8932 Đối tượng (hàng).
● 7 Thuộc tính (cột):
○ FlightType
○ Price Bởi vì
○ Time  FlightType, Price, Time, Distance ảnh
hưởng trực tiếp và gián tiếp theo chiều
○ Distance
hướng tỉ lệ thuận với priceType.
○ Year
○ Month
 Year, Month ảnh hưởng priceType theo
chiều hướng tháng cao điểm hoặc thấp
○ PriceType điểm của mùa bay thì sẽ ảnh hưởng tới
● AveragePrice: biến phụ thuộc. Price và priceType tăng hoặc giảm. Mỗi
năm sẽ bị ảnh hưởng theo biến động của
● priceType có giá trị là “Cao” : giá vé cao hơn so với nền kinh tế - xã hội.
giá trị trung bình.
● priceType có giá trị là “Thấp”: giá vé thấp hơn so với
giá trị trung bình.
PHÂN TÍCH 02
BÀI TOÁN
Dự báo giá vé máy bay nhằm để hãng hàng không
01 điều chỉnh giá vé thích hợp và khách hàng điều chỉnh
hành vi tiêu dùng

Sử dụng các thuật toán phân cụm để định hình


02 và hiểu rõ hơn hành vi đặt vé của các nhóm
khách hàng
MÔ TẢ BÀI TOÁN 1

Các hãng hàng không cần lên kế hoạch cũng như các nghiệp
vụ phân tích và dự báo để tính toán hợp lí các chi phí như chi
phí bay của từng loại vé như thế nào để khách hàng tin tưởng
đồng hành và sử dụng dịch vụ với chất lượng và chi phí phù
hợp ?
XÂY DỰNG MÔ HÌNH
KẾT QUẢ VÀ ĐÁNH GIÁ

Cao: Giá vé cao so với thị


trường

Thấp: Giá vé thấp so với thị


trường

Kết quả đánh giá bài toán 1 theo Logistic Regression


KẾT QUẢ VÀ ĐÁNH GIÁ

Kết quả đánh giá bài toán 1 theo SVM


KẾT QUẢ VÀ ĐÁNH GIÁ

dự báo là cao >< giá vé thấp vì lỗ vốn

Giá thấp hơn >< tiềm năng lợi


nhuận

+ T = 0,0% < LR = 2,6% < SVM = 8,3%


→ Vậy nên chọn phương pháp T và LR để thực hiện Test & Core
- Dựa vào Test & Core
+ AUC của T = NN = 1.000

→ Vậy 2 phương pháp trên đều có thể thích hợp thực hiện dự báo
KẾT QUẢ VÀ ĐÁNH GIÁ

Kết quả đánh giá bài toán 1 và quyết định chọn phương pháp
nghiên cứu
KẾT QUẢ VÀ ĐÁNH GIÁ

Quan sát bảng kết quá trên ta


thấy đường màu cam của mô
hình Tree là mô hình tiệm cận
với điểm (0;1) nhất.
Còn đường màu xanh dương
của mô hình SVM và đường
màu xanh lá của mô hình
Logistic Regression xa điểm
(0:1) nên bị đánh giá thấp hơn.

→ Vậy phương pháp Tree là


phương pháp phù hợp nhất.

Đường cong ROC


KẾT QUẢ VÀ ĐÁNH GIÁ

Kết quả nghiên cứu bài toán 1


KẾT QUẢ VÀ ĐÁNH GIÁ

Kết quả đánh giá bài toán 1 theo Tree


Phân tích:
• (Time) ≤ 0,72 có giá vé thấp 100% → nên tăng giá.

• (Time) ≥ 0,72 có tỉ lệ tăng đến 21% ( 73,2%) → nên


giảm giá.

• Giá vé không được hơn 1166,1 BRL → Xét 2 TH:

 Tăng giá hạng vé 1 (firstClass) do tỷ lệ dự


báo chắc chắn thấp 100% → lợi nhuận cao
hơn.

 Hạ giá hạng vé 2,3 (economic, premium) do


tỷ lệ dự báo giá cao đến 71,2% → lợi nhuận
cao, duy trì lâu → cạnh tranh → mất khách
hàng.
KIẾN NGHỊ
• Khách hàng có xu hướng đi bằng phương tiện hàng không nhiều hơn
→ tạo chương trình thưởng và ưu đãi dành riêng cho khách hàng thân
thiết → thúc đẩy hành khách quen thuộc của bạn tiếp tục lựa chọn
hãng của bạn khi đi lại.

• Xem xét giá vé của các đối thủ cạnh tranh trong cùng tuyến đường và
cùng phân đoạn thị trường → điều chỉnh giá → cân nhắc liệu nên cạnh
tranh bằng giá thấp hơn / giá tương đương /giá cao hơn.

• Khách hàng sẵn sàng chi trả với mức giá cao → tạo ra các giá trị và trải
nghiệm đáng giá , duy trì một dịch vụ xuất sắc để có thể cạnh tranh
được với các đối thủ.
MÔ TẢ BÀI TOÁN 2

Các hãng hàng không cần làm gì để giúp cải thiện dịch vụ, tối
ưu hóa quy trình đặt vé và tạo ra chiến lược tiếp thị chính xác
hơn cho từng nhóm khách hàng?
Phân cụm
1. Hierarchical
Clustering
2. K-Means
Hierarchical
Clustering
CHẠY MÔ HÌNH VÀ KẾT QUẢ
Hierarchical
Clustering
Thực hiện phân cụm bằng bộ dữ liệu
phân lớp để dự báo xu hướng đặt vé
máy bay của các nhóm khách hàng
trong tương lai -> dùng meta để loại
bỏ thuộc tính “priceType” để không
ảnh hưởng tới kết quả
 Do số lượng dự liệu lên đến 8932 kết quả khảo sát ->
Dùng Data Sampler để lấy ngẫu nhiên dữ liệu để khảo
sát để có thể làm việc hiệu quả hơn -> tránh mất thời
gian tiến hành và khai thác
 Để tiến hành Hierarchical Clustering -> Cần
tính khoảng cách ước tính (sử dụng Euclidean
(normalized)) -> với cách tính khoảng cách
Complete-link (khoảng cách lớn nhất). Cho kết
quả chạy từ 2 đến 5 cụm.
Hộp thoại Hierarchical Clustering để chia dữ liệu thành các cụm từ 2 tới 5
 Sau khi chia dữ liệu lần
lượt thành 2, 3, 4, 5 cùng
thì ta dùng Silhouette Plot
để xem kết quả công cụ
từ đó lựa chọn phương
án tối ưu. Khi đó
Silhouette Plot sẽ được
tính khoảng cách theo
công thức Euclidean. Tìm
group chọn cluster ta có
kết quả phân cụm lần
lượt như sau:
Silhouette score của cụm càng lớn thì độ tương đồng của từng điểm trong cum càng cao thì kết quả
phân cụm đó càng tốt. Vì thế sau khi thử phân cụm bố dữ liệu thành 2, 3, 4 và 5 cụm thì kết quả khi chia
dữ liệu thành hai cụm là tốt nhất.

=> Qua những giá trị này, có thể nói cách phân cụm chưa thật sự đáng tin cậy, sát với thực tế và cần
thêm các chuyên gia có kinh nghiệm, chuyên môn để đánh giá lại.
K-Means
Tiến hành phân cụm với thuật toán k-means ta
có :
Kết quả được phân ra các giá trị sau :

+ Silhouette index 0,5: sát thực tế.


+ 0,25 Silhouette index 0,5: cần đánh giá lại (kinh nghiệm của chuyên gia).
+ Silhouette index 0,25: không tin tưởng và cluster, tìm phương pháp đánh giá
khác. Theo kết quả chạy từ 2 đến 5 cụm có những kết quả sau:
+ Phân thành 2 cụm: Score=0.282, cụm 1, 2 có sự phân tách.
+ Phân thành 3 cụm: Score=0.251, cụm 1, 2, 3 có sự phân tách.
+ Phân thành 4 cụm: Score=0.224, nhóm 1, 2, 3, 4 có sự phân tách.
+ Phân thành 5 cụm: Score=0.229, nhóm 1, 2, 3, 4, 5 có sự phân tách.
Kết quả lựa chọn phương pháp phân cụm :

Kết quả phân cụm bằng k-Means

Vì vậy đối với bộ dữ liệu của nhóm thì phân cụm theo phương
pháp k-Means là tốt nhất
Phân càng nhiều nhóm chỉ số score càng thấp, và sự phân tách trong các nhóm càng
nhiều. Vì vậy, nhóm đã quyết định chọn phương án phân bộ dữ liệu thành hai nhóm:

Bảng Silhouette Plot cho 2 phân cụm phân hoạch


Chuỗi thao tác thực hiện phân cụm và phân tích cụm
Bảng thống kê mô tả cụm 1
Bảng thống kê mô tả cụm 2
Biểu đồ Bar Plot so sánh giá trị distance giữa 2 cụm
Biểu đồ Box Plot so sánh giá trị distance giữa 2 cụm
NHẬN XÉT
Qua 2 biểu đồ trên ta có thể nhận thấy rằng, với
nhóm khách hàng cụm 1, với chặng bay ngắn hơn,
người ta sẽ lựa chọn đa dạng các loại vé nhưng có
nghiêng về về loại vé 3 là economy

Đây là một dạng vé máy có mức giá tiết kiệm.


Còn với nhóm khách hàng cụm 2 ta thấy :

Với chặng bay dài hơn người ta thường lựa


chọn loại vé 1 và 2, lần lượt là loại firstClass
và premium, đây là những hàng vé có mức giá
khá cao.
KIẾN NGHỊ

+ Với nhóm khách hàng cụm 1 (chặng bay ngắn hơn), nên tiếp tục tối ưu
hóa giá vé economy để thu hút họ. Cân nhắc cung cấp các ưu đãi giảm giá
cho vé economy trên các chặng bay ngắn.
+ Đối với nhóm khách hàng cụm 2 (chặng bay dài), tiếp tục cung cấp
các dịch vụ và tiện ích cao cấp cho hành khách như firstClass và
premium

+ Dựa trên sự hiểu biết về hành vi lựa chọn loại vé của các nhóm khách
hàng, tạo chiến dịch tiếp thị đặc trưng cho từng nhóm.

+ Chú ý những ngành hàng không và du lịch là nhũng ngành


có tính cạnh tranh cao và thị trường thay đổi nhanh chóng.
Do đó, việc duy trì sự linh hoạt và thích nghi là rất quan
trọng để thành công
THANKS FOR
WATCHING
NHÓM G05 – KHOA HỌC DỮ LIỆU

You might also like