Professional Documents
Culture Documents
G05 - Slides
G05 - Slides
G05
ĐỀ TÀI: NGHIÊN CỨU THÔNG TIN CHUYẾN
BAY TRONG VẬN CHUYỂN HÀNG KHÔNG
VÀ DU LỊCH
DANH SÁCH
HỌ VÀ TÊN THÀNH VIÊN
MSSV PHÂN CÔNG MỨC ĐỘ HOÀN
THÀNH
TRƯƠNG THIÊN BẢO 312210230819 Tiểu luận, bổ sung hoàn 100%
chỉnh dữ liệu, Phân tích dữ
liệu, giải bài toán, phương
pháp phân cụm, dự doán kết
quả, làm slides.
NGUYỄN VĂN TÚ 31221025423 Xử lý dữ liệu thô ,Phân tích 100%
giải bài toán, đưa ra kiến
nghị giải pháp, phương pháp
phân cụm, tiểu luận, slides
PHAN THỊ HOÀI THƯƠNG 31221026956 Tìm Mẫu, Tiền Xử lý dữ liệu, 100%
phân tích bài toán, phương
pháp phân lớp, dự đoán số
liệu, tiêu luận, làm slides
NGUYỄN HOÀNG VÂN 31221024163 Tìm Mẫu, Xử Lý Dữ liệu thô, 100%
phân tích , phương pháp
phân lớp, đưa kiến nghị dự
đoán, slides, tiểu luận
NỘI DUNG THUYẾT TRÌNH
02
PHÂN TÍCH
0
ỨNG1
DỤNG
03
TRẢ LỜI CÂU HỎI
0
ỨNG DỤNG
1
MÔ TẢ DỮ LIỆU
NGUỒN: https://www.kaggle.com/datasets/leomauro/
argodatathon2019/data
• Dữ liệu phục vụ cho việc nghiên cứu những thông tin chuyến bay trong
ngành vận chuyển hàng không và vận chuyển trong du lịch.
• Dữ liệu thô chứa 271888 đối tượng (hàng) và 10 thuộc tính (cột)
Mô tả cấu trúc của bộ dữ liệu
về FLIGHT
TIỀN XỬ LÝ DỮ LIỆU
01 02 03
LÀM SẠCH Mô tả dữ
DỮ LIỆU liệu sau rút
Mô tả dữ
gọn
liệu sau xử lý
LÀM SẠCH DỮ LIỆU
Thêm 3 thuộc tính (cột):
• Average Price
• Year Select rows:
• Month • Lấy 50 khách hàng (ứng
8932 chuyến bay) Feature Constructor:
• Năm 2020-2023. • Phân ra loại vé Cao và Thấp
Select Columns:
• Bỏ các thuộc tính không
Edit Domain:
cần thiết.
• Sửa tên thuộc tính
Missing data:
flightType
• Không xuất hiện nên không
phải xử lý
MÔ TẢ DỮ LIỆU BẰNG LƯỢC
ĐỒ
• Dữ liệu sau khi gán nhãn gồm
7 thuộc tính quan sát, với
priceType là biến phụ thuộc
nhằm mục đích tìm hiểu khách
hàng đó đi với giá cao hay
thấp.
Các hãng hàng không cần lên kế hoạch cũng như các nghiệp
vụ phân tích và dự báo để tính toán hợp lí các chi phí như chi
phí bay của từng loại vé như thế nào để khách hàng tin tưởng
đồng hành và sử dụng dịch vụ với chất lượng và chi phí phù
hợp ?
XÂY DỰNG MÔ HÌNH
KẾT QUẢ VÀ ĐÁNH GIÁ
→ Vậy 2 phương pháp trên đều có thể thích hợp thực hiện dự báo
KẾT QUẢ VÀ ĐÁNH GIÁ
Kết quả đánh giá bài toán 1 và quyết định chọn phương pháp
nghiên cứu
KẾT QUẢ VÀ ĐÁNH GIÁ
• Xem xét giá vé của các đối thủ cạnh tranh trong cùng tuyến đường và
cùng phân đoạn thị trường → điều chỉnh giá → cân nhắc liệu nên cạnh
tranh bằng giá thấp hơn / giá tương đương /giá cao hơn.
• Khách hàng sẵn sàng chi trả với mức giá cao → tạo ra các giá trị và trải
nghiệm đáng giá , duy trì một dịch vụ xuất sắc để có thể cạnh tranh
được với các đối thủ.
MÔ TẢ BÀI TOÁN 2
Các hãng hàng không cần làm gì để giúp cải thiện dịch vụ, tối
ưu hóa quy trình đặt vé và tạo ra chiến lược tiếp thị chính xác
hơn cho từng nhóm khách hàng?
Phân cụm
1. Hierarchical
Clustering
2. K-Means
Hierarchical
Clustering
CHẠY MÔ HÌNH VÀ KẾT QUẢ
Hierarchical
Clustering
Thực hiện phân cụm bằng bộ dữ liệu
phân lớp để dự báo xu hướng đặt vé
máy bay của các nhóm khách hàng
trong tương lai -> dùng meta để loại
bỏ thuộc tính “priceType” để không
ảnh hưởng tới kết quả
Do số lượng dự liệu lên đến 8932 kết quả khảo sát ->
Dùng Data Sampler để lấy ngẫu nhiên dữ liệu để khảo
sát để có thể làm việc hiệu quả hơn -> tránh mất thời
gian tiến hành và khai thác
Để tiến hành Hierarchical Clustering -> Cần
tính khoảng cách ước tính (sử dụng Euclidean
(normalized)) -> với cách tính khoảng cách
Complete-link (khoảng cách lớn nhất). Cho kết
quả chạy từ 2 đến 5 cụm.
Hộp thoại Hierarchical Clustering để chia dữ liệu thành các cụm từ 2 tới 5
Sau khi chia dữ liệu lần
lượt thành 2, 3, 4, 5 cùng
thì ta dùng Silhouette Plot
để xem kết quả công cụ
từ đó lựa chọn phương
án tối ưu. Khi đó
Silhouette Plot sẽ được
tính khoảng cách theo
công thức Euclidean. Tìm
group chọn cluster ta có
kết quả phân cụm lần
lượt như sau:
Silhouette score của cụm càng lớn thì độ tương đồng của từng điểm trong cum càng cao thì kết quả
phân cụm đó càng tốt. Vì thế sau khi thử phân cụm bố dữ liệu thành 2, 3, 4 và 5 cụm thì kết quả khi chia
dữ liệu thành hai cụm là tốt nhất.
=> Qua những giá trị này, có thể nói cách phân cụm chưa thật sự đáng tin cậy, sát với thực tế và cần
thêm các chuyên gia có kinh nghiệm, chuyên môn để đánh giá lại.
K-Means
Tiến hành phân cụm với thuật toán k-means ta
có :
Kết quả được phân ra các giá trị sau :
Vì vậy đối với bộ dữ liệu của nhóm thì phân cụm theo phương
pháp k-Means là tốt nhất
Phân càng nhiều nhóm chỉ số score càng thấp, và sự phân tách trong các nhóm càng
nhiều. Vì vậy, nhóm đã quyết định chọn phương án phân bộ dữ liệu thành hai nhóm:
+ Với nhóm khách hàng cụm 1 (chặng bay ngắn hơn), nên tiếp tục tối ưu
hóa giá vé economy để thu hút họ. Cân nhắc cung cấp các ưu đãi giảm giá
cho vé economy trên các chặng bay ngắn.
+ Đối với nhóm khách hàng cụm 2 (chặng bay dài), tiếp tục cung cấp
các dịch vụ và tiện ích cao cấp cho hành khách như firstClass và
premium
+ Dựa trên sự hiểu biết về hành vi lựa chọn loại vé của các nhóm khách
hàng, tạo chiến dịch tiếp thị đặc trưng cho từng nhóm.