You are on page 1of 38

BỘ GIÁO DỤC VÀ ĐÀO TẠO

ĐẠI HỌC KINH TẾ TP HỒ CHÍ MINH

TRƯỜNG KINH TẾ LUẬT VÀ QUẢN LÝ NHÀ NƯỚC



DỰ ÁN KẾT THÚC HỌC PHẦN

ĐỀ TÀI:
PHÂN TÍCH DỮ LIỆU, DỰ ĐOÁN PHÂN LOẠI KHÁCH HÀNG DỰA TRÊN
BỘ DỮ LIỆU UBG

Học phần: Khoa Học Dữ Liệu

Mã lớp học phần: 22C1INF50905944

Giảng viên hướng dẫn: Nguyễn Văn Hồ

Chuyên ngành: Kinh tế học ứng dụng

Khóa: K47

TP. Hồ Chí Minh, Ngày 24 tháng 12 năm 2022


BẢNG ĐÁNH GIÁ THÀNH VIÊN

Hoàn Chữ ký của


Họ và tên MSSV Nhiệm vụ
thành sinh viên

Nghiên cứu, tổng quan bộ


La Ngọc
31211027210 dữ liệu, nhận xét biểu đồ, 100%
Liên
thảo luận, dự báo.

Nghiên cứu dữ liệu, cơ sở


Lê Nguyễn
31211020203 lý thuyết, nhận xét biểu đồ, 100%
Trà My
tổng hợp, chỉnh sửa.

Nguyễn Nghiên cứu và phân tích dữ


Kim Trâm 31211022713 liệu, tổng quan đề tài, nhận 100%

Anh xét.

Nghiên cứu dữ liệu và phân


Huỳnh Bảo
31211022011 tích tiền xử lý dữ liệu, nhận 100%
Trâm
xét, kết luận

Nghiên cứu và phân tích dữ


Nguyễn Thị
31211020216 liệu, chạy Rstudio, nhận xét 100%
Thanh Trúc
biểu đồ, slides
MỤC LỤC

LỜI CẢM ƠN................................................................................................................. 1

DANH MỤC BẢNG BIỂU, SƠ ĐỒ, HÌNH ẢNH.......................................................1

CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI........................................................................... 3

1.1. Lý do chọn đề tài....................................................................................................3

1.2. Mục tiêu đề tài........................................................................................................3

1.3. Đối tượng và phạm vi nghiên cứu của đề tài (thương mại sản xuất)................... 3

1.3.1. Chọn bộ dữ liệu............................................................................................... 3

1.3.2. Cấu trúc của bộ dữ liệu...................................................................................4

1.4. Công cụ sử dụng.................................................................................................... 4

1.5. Ý nghĩa nghiên cứu................................................................................................4

1.6. Cấu trúc đề tài........................................................................................................ 5

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT..............................................................................5

2.1. Tổng quan về Khoa học dữ liệu.............................................................................5

2.2. Lợi ích của Khoa học dữ liệu trong kinh doanh quản lý.......................................7

2.3. Quy trình thực hiện dự án Khoa học dữ liệu......................................................... 7

2.4. Mô hình RFM.........................................................................................................8

2.4.1. Giới thiệu mô hình...........................................................................................8

2.4.2. Quy hình thực hiện.......................................................................................... 9

2.4.3. Lợi ích............................................................................................................ 10

2.5. RStudio.................................................................................................................10

2.5.1 Giới thiệu Rstudio...........................................................................................10

2.5.2. Quy trình thực hiện với Rstudio:...................................................................10

CHƯƠNG 3. PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MÔ TẢ DỮ LIỆU...11

3.1. Xác định và phân tích yêu cầu người dùng......................................................... 11

3.2. Tổng quan về cơ sở dữ liệu nguồn...................................................................... 12


3.2.1. Mô tả dữ liệu nguồn..................................................................................... 12

3.2.2 Lựa chọn và trình bày dữ liệu cần phân tích đối với yêu cầu người dùng. 12

CHƯƠNG 4. PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ............................................. 14

4.1. Giới thiệu giải pháp và quy trình thực hiện.........................................................14

4.2. Phân tích và trực quan hóa kết quả (Đánh giá tổng quan mô hình RFM thông
qua Excel và ứng dụng Rstudio).................................................................................17

4.2.1. Trực quan dữ liệu đã được xử lý:................................................................. 17

4.2.2. Kết quả trực quan của RFM qua Excel và Rstudio:.....................................18

4.2.3. Biểu đồ trực quan đánh giá kết quả RFM.....................................................19

4.2.4. Histogram RFM.............................................................................................24

4.2.5. Trực quan hóa phân khúc khách hàng..........................................................25

4.3. Thảo luận và đánh giá về kết quả phân tích và các đề xuất hỗ trợ ra quyết định30

CHƯƠNG 5. KẾT LUẬN............................................................................................31

5.1. Kết quả đạt được.................................................................................................. 31

5.2. Hạn chế.................................................................................................................31

5.3. Hướng phát triển.................................................................................................32


FILE THUYẾT TRÌNH...............................................................................................32

TÀI LIỆU THAM KHẢO........................................................................................... 32

PHỤ LỤC...................................................................................................................... 33
LỜI CẢM ƠN

Lời đầu tiên, nhóm em xin gửi lời cảm ơn đến thầy Nguyễn Văn Hồ. Trong quá
trình học tập và tìm hiểu bộ môn Khoa học dữ liệu, nhóm em đã nhận được sự quan
tâm giúp đỡ, hướng dẫn rất nhiệt tình, tâm huyết của thầy. Nhờ có thầy mà nhóm em
đã tích lũy được rất nhiều và hiểu rõ được kiến thức của môn học, có nhiều kinh
nghiệm trong tin học văn phòng để ứng dụng vào công việc sau này. Thông qua bài
tiểu luận này, nhóm em xin phép trình bày và mở rộng các kiến thức đã được thầy
truyền đạt trong bộ môn Khoa học dữ liệu.

Có lẽ kiến thức là vô hạn mà mức độ tiếp thu của bản thân mỗi người luôn tồn
tại những hạn chế nhất định. Do đó trong quá trình làm bài, nhóm em chắc chắn
không thể tránh khỏi những thiếu sót. Vì vậy chúng em rất mong nhận được lời nhận
xét và các ý kiến đóng góp của thầy để bài báo cáo của nhóm em hoàn thiện hơn.

DANH MỤC BẢNG BIỂU, SƠ ĐỒ, HÌNH ẢNH

Mục Loại Tên Trang

1.3.2 Bảng Cấu trúc của bộ dữ liệu 4

2.1 Hình Lược đồ Data Science 6

2.4.1 Hình Mô hình RFM 8

2.4.2 Hình Ví dụ về RFM score 9

3.2.1 Bảng Mô tả dữ liệu nguồn 12

3.2.2 Hình Bộ dữ liệu đã qua tiền xử lý 13

4.1.1 Hình Chuẩn hoá dữ liệu thành bảng điểm 14

4.1.2 Hình Dữ liệu điểm R,F,M và RFM score 15

4.1.3 Hình Phân loại số lượng khách hàng và tỷ lệ tương ứng 15

4.1.4 Biểu đồ Label segment Treemap 16

1
4.1.5 Biểu đồ Đồ thị lệch chuẩn 16

4.2.1.1 Hình Mã code và kết quả thể hiện dữ liệu đã được xử lý 17

4.2.1.2 Biểu đồ Xác nhận dữ liệu hai biến “Current price” và 18


“Quality” đã được xử lý

4.2.2.3 Hình Kết quả RFM thông qua Rstudio 18

4.2.2.4 Hình Kết quả so sánh RFM score giữa Excel và 19


Rstudio

4.2.3.5 Biểu đồ RFM heat map 19

4.2.3.6 Biểu đồ RFM bar chart 21

4.2.3.7 Biểu đồ Mối tương quan giữa Recency và Monetary 22

4.2.3.8 Biểu đồ Mối tương quan giữa Frequency và Monetary 23

4.2.4.9 Biểu đồ RFM Histogram 24

4.2.5.10 Hình Phân khúc khách hàng 25

4.2.5.11 Biểu đồ RFM plot median Recency 25

4.2.5.12 Biểu đồ RFM plot median Frequency 26

4.2.5.13 Biểu đồ RFM plot median Monetary 27

4.2.5.14 Biểu đồ Số lượng và giá cả của các sản phẩm được mua 28

4.2.5.15 Biểu đồ Tổng số tiền mua hàng, thu nhập trung bình và 29
các hộ gia đình của các bang.

2
CHƯƠNG 1. TỔNG QUAN ĐỀ TÀI

1.1. Lý do chọn đề tài

Một doanh nghiệp muốn tìm ra chiến lược kinh doanh phù hợp phải nắm bắt
được tình trạng khách hàng của mình thông qua việc lưu trữ dữ liệu. Trong các mô
hình kinh doanh hiện nay, nhóm lựa chọn mô hình kinh doanh lò sưởi để phân tích và
đưa ra các giải pháp phù hợp cho mô hình.

Nhu cầu sử dụng lò sưởi ở các quốc gia vùng ôn đới là rất cao vì mùa đông nơi
này có khí hậu giá rét. Lò sưởi rất phổ biến ở phương Tây, nhất là Bắc Âu, vì vậy
ngành công nghiệp lò sưởi ở các quốc gia này rất phát triển. Nhận biết được tầm phủ
sóng của thị trường này, nhóm quyết định thực hành đánh giá hành vi người tiêu dùng,
đưa ra các chiến lược kinh doanh cho doanh nghiệp dựa vào việc “Phân tích dữ liệu,
dự đoán phân loại khách hàng dựa trên bộ dữ liệu UBG (tập đoàn lớn nhất đại diện
cho các doanh nghiệp độc lập chuyên về thị trường lò sưởi)” và ứng dụng các phương
pháp khoa học dữ liệu để tạo một case phân tích dữ liệu kinh tế.

1.2. Mục tiêu đề tài

Mục tiêu chính của đề tài là đề xuất các chiến lược kinh doanh phù hợp với
doanh nghiệp cho giai đoạn tiếp tới. Để làm được điều này, nhóm phải tiến hành thu
thập dữ liệu và đánh giá hành vi người tiêu dùng. Tiếp theo, nhóm sẽ phân loại khách
hàng của tập đoàn UBG, dự đoán khả năng mua hàng của khách hàng, từ đó đề xuất,
hỗ trợ ra quyết định, giúp doanh nghiệp bán được các sản phẩm và có chiến lược kinh
doanh hiệu quả làm tăng doanh thu.

1.3. Đối tượng và phạm vi nghiên cứu của đề tài (thương mại sản xuất)

1.3.1. Chọn bộ dữ liệu

Dựa vào bảng dữ liệu được doanh nghiệp UBG công khai tại: Link trang web.

Đối tượng nghiên cứu của đề tài gồm các thông tin của doanh nghiệp như thông
tin khách hàng, thông tin sản phẩm, doanh thu và thời gian bán. Dữ liệu được ghi lại
sau các lần giao dịch thành công với người tiêu dùng. Đề tài được nghiên cứu trong
3
phạm vi thương mại sản xuất. Nghiên cứu được thực hiện tại tập đoàn UBG bao gồm
các hoạt động kinh doanh của tập đoàn trong giai đoạn từ đầu năm 2018 đến nửa đầu
năm 2020.

1.3.2. Cấu trúc của bộ dữ liệu

Đặc điểm Mô tả

Đơn biến hay đa biến Đa biến

Lĩnh vực Thương mại sản xuất

Số lượng mẫu 15,000

Bảng 1.3.2: Cấu trúc bộ dữ liệu

1.4. Công cụ sử dụng

Model RFM áp dụng tính các chỉ số với từng khách hàng dựa trên lịch sử mua
hàng của họ, vì vậy ta sẽ sử dụng Excel để xử lí số liệu kết hợp với việc sử dụng
RStudio để số liệu được thể hiện cụ thể nhất.

Excel là một phần mềm quen thuộc giúp khai phá, phân tích, thống kê, tính
toán các số liệu. Nó phù hợp để tính RFM với những bước khá đơn giản và dễ dàng
cho ra kết quả một cách nhanh bằng một số công cụ và công thức có sẵn.

RStudio là một môi trường phát triển tích hợp cho R, một ngôn ngữ lập trình
cho tính toán thống kê và đồ họa. Chương trình này có sẵn ở hai định dạng: RStudio
Desktop - một ứng dụng máy tính để bàn thông thường và RStudio Server chạy trên
một máy chủ từ xa và cho phép truy cập RStudio bằng trình duyệt web.

1.5. Ý nghĩa nghiên cứu

Với sự phát triển mạnh mẽ không ngừng của khoa học công nghệ dữ liệu như
hiện nay, việc thu thập, lưu trữ dữ liệu về khách hàng là nguồn tài nguyên mang đến
nhiều tiềm năng và là cơ sở trong việc khai thác, phân tích và giải quyết các vấn đề

4
kinh doanh. Các nhà quản trị luôn hiểu tầm quan trọng của khách hàng và họ muốn
thông qua dữ liệu lịch sử mua hàng để hiểu hơn về khách hàng của họ, để việc kết nối
với khách hàng dễ dàng hơn, mô hình phân loại khách hàng đưa tầm nhìn của các nhà
quản trị đi xa hơn và xây dựng mở rộng mối quan hệ với khách hàng. Phân tích luôn
là một trong những yếu tố then chốt để dẫn đến thắng lợi trong hoạt động Sales &
Marketing, và mô hình RFM là một trong những mô hình quan trọng. RFM cho phép
người làm nhắm mục tiêu các nhóm khách hàng cụ thể với các thông tin phù hợp hơn
nhiều với hành vi của họ – và có thể tạo ra tỷ lệ phản hồi cao hơn nhiều, cộng với sự
trung thành và giá trị lâu dài của khách hàng tăng lên. Kết quả nghiên cứu sẽ là dữ liệu
tham khảo cho các doanh nghiệp, công ty, tập đoàn, muốn phân tích và xác định
hành vi của khách hàng mình đang có. Từ đó có những chiến dịch marketing ho c
chăm sóc đ c biệt đến khách hàng và quản trị khách hàng hiệu quả hơn.

1.6. Cấu trúc đề tài

Bài nghiên cứu gồm 34 trang, 2 bảng, 11 hình và 12 biểu đồ.

Ngoài phần mở đầu, mục lục, danh mục từ viết tắt, danh mục bảng, danh mục
hình ảnh, danh mục tài liệu tham khảo và phục lục, đề tài được kết cấu thành 5
chương như sau:

 Chương 1: Tổng quan đề tài.

 Chương 2: Cơ sở lý thuyết.

 Chương 3: Phân tích yêu cầu người dùng và mô tả dữ liệu.

 Chương 4: Phân tích dữ liệu và kết quả.

 Chương 5: Kết luận.

CHƯƠNG 2. CƠ SỞ LÝ THUYẾT

2.1. Tổng quan về Khoa học dữ liệu

Khoa học dữ liệu có thể hiểu là nghiên cứu dữ liệu, mà nguồn dữ liệu ở nhiều
dạng khác nhau được thu thập từ các lĩnh vực, ngành nghề, sau đó khai thác, khám
5
phá bằng những thuật toán, công cụ, phương pháp nghiên cứu, mô hình kết hợp với
các kiến thức chuyên ngành (toán học, thống kê, trí tuệ nhân tạo, kỹ thuật máy tính,...)
để giải quyết vấn đề. Kết quả đạt được sẽ trả lời, lý giải các câu hỏi: điều gì đã xảy ra;
tại sao lại như thế; điều gì sẽ xảy ra tiếp theo; cần giải quyết như thế nào, trong bao
lâu; ảnh hương gì sẽ xảy ra;... và thu được thông tin, kiến thức có ý nghĩa đối với hoạt
động kinh tế- xã hội.

Hình 2.1: Lược đồ Data Science

Lược đồ Data Science gồm 3 nội dung chính: quản trị dữ liệu, phân tích dữ liệu
và sử dụng kết quả. Nguồn dữ liệu thu thập từ quá trình quan sát, đo lường các thuộc
tính, giá trị, đ c điểm,.. của sự vật, hiện tượng cần xem xét được làm sạch và giữ an
toàn, sau đó bằng các phương pháp, thuật toán sẽ được khai thác để đưa ra những kết
quả theo yêu cầu để phục vụ cho mục đích trong các lĩnh vực.

Trải qua các cuộc cách mạng công nghiệp, sự bùng lên mạnh mẽ về dữ liệu lớn
(Big Data), sự ra đời và những bước tiến vượt bậc: điện toán đám mây (Clouding
Computing) - giúp lưu trữ và truy nhập dữ liệu lên “clouds” qua Internet thay vì máy
tính người dùng, Internet vạn vật (IoT) trao đổi qua Internet không cần kết nối trực
6
tiếp , trí tuệ nhân tạo (AI) - phát triển máy tính (chức năng máy tính) thông minh như
con người,... làm thế giới thay đổi đáng kinh ngạc. Khoa học dữ liệu phát triển một
cách nhanh chóng, đ c biệt trong thời đại 4.0, hướng tới cuộc cách mạng công nghiệp
5.0, trở thành ngành nghề đầy tiềm năng cho thế hệ trẻ và được rất nhiều công ty, tập
đoàn lớn, tổ chức trên tất cả các lĩnh vực quan tâm và săn đón.

2.2. Lợi ích của Khoa học dữ liệu trong kinh doanh quản lý

 Khám phá các mẫu biến đổi tiềm ẩn:

Khoa học dữ liệu cho phép các doanh nghiệp phát hiện ra những mẫu và mối
quan hệ mới có tiềm năng biến đổi toàn bộ tổ chức, có thể là những thay đổi với chi
phí thấp trong việc quản lý nguồn lực để tạo ra tác động tối đa đến tỷ suất lợi nhuận.

 Sáng tạo các sản phẩm và giải pháp mới

Khoa học dữ liệu giúp phát hiện ra những lỗ hổng và vấn đề thường bị bỏ sót.
Thông tin chuyên sâu hơn về quyết định mua hàng, phản hồi của khách hàng và quy
trình kinh doanh có thể thúc đẩy sự đổi mới sáng tạo trong hoạt động nội bộ cũng như
các giải pháp bên ngoài.

 Tối ưu hóa trong thời gian thực:

Các doanh nghiệp, đ c biệt là những doanh nghiệp quy mô lớn, g p rất nhiều
thách thức trong việc phản ứng với những điều kiện thay đổi trong thời gian thực.
Điều này có thể gây ra những tổn thất ho c gián đoạn đáng kể trong hoạt động kinh
doanh. Khoa học dữ liệu có thể hỗ trợ các công ty dự đoán thay đổi và phản ứng một
cách tối ưu với những tình huống khác nhau.

2.3. Quy trình thực hiện dự án Khoa học dữ liệu

 Thu thập dữ liệu


 Xử lý dữ liệu
 Phân lớp, phân cụm dữ liệu
 Phân loại khách hàng trên sàn thương mại điện tử
 Dự đoán khả năng mua hàng của khách hàng
 Đánh giá kết quả phân tích và đưa ra các đề xuất hỗ trợ ra quyết định

7
2.4. Mô hình RFM

2.4.1. Giới thiệu mô hình

RFM (viết tắt của Recency, Frequency, Monetary value) là một kỹ thuật phân
khúc khách hàng dựa trên hành vi giao dịch của khách hàng trong quá khứ.

Các số liệu RFM này là các chỉ báo quan trọng về hành vi của khách hàng vì
tần suất và giá trị tiền tệ ảnh hưởng đến giá trị khách hàng và lần truy cập gần đây ảnh
hưởng đến tỷ lệ giữ lại, một thước đo của mức độ tương tác.

Hình 2.4.1: Mô hình RFM

Mô hình được tạo nên từ 3 yếu tố (thang điểm từ 1-5 cho từng yếu tố):

R (Recency): là khoảng thời gian khách hàng mua hàng gần đây nhất(hay lần
cuối mua hàng của người tiêu dùng). Chỉ số này càng lớn, xu hướng rời bỏ của khách
hàng càng cao. Đó là một cảnh báo cho doanh nghiệp nên thay đổi sản phẩm để đáp
ứng thị hiếu khách hàng ho c thay đổi chính sách để nâng cao chất lượng phục vụ.
F (Frequency): là tần suất mua hàng của khách hàng (cũng có thể hiểu là tổng
số giao dịch ho c thời gian trung bình giữa các giao dịch ho c lượt truy cập)
M (Monetary Value): giá trị mỗi lần giao dịch( sức mua của khách hàng). Đó
là giá trị về vật chất mà doanh nghiệp có được mỗi khi khách hàng sử dụng dịch vụ.

Lưu ý:

Một số doanh nghiệp chỉ sử dụng 2 trong 3 yếu tố này: RF, RM hay FM.

8
Tùy vào doanh nghiệp hay loại hình kinh doanh sẽ có sự thay đổi thang điểm
cho phù hợp hơn.

2.4.2. Quy hình thực hiện

Bước 1: Chuẩn bị dữ liệu

Cần thu thập dữ liệu giao dịch về mỗi khách hàng bao gồm các thông tin tương
ứng với từng cột:

 ID khách hàng
 Số lượng giao dịch hay đơn đ t hàng
 Doanh thu cho mỗi lần giao dịch, tổng doanh thu của khách hàng
 Thời gian mua hàng gần nhất (ngày giao dịch)

Bước 2: Tính các giá trị R, F, M

Với bảng dữ liệu thu thập được, sử dụng các hàm, thao tác trong excel để tính
các giá trị R, F, M tương ứng với từng khách hàng.

Bước 3: Tính điểm RFM và phân loại khách hàng.

Hình 2.4.2: Ví dụ về RFM Score

Những khách hàng có điểm RFM cao nhất có nhiều khả năng sẽ phản hồi một
đề nghị. Từ số điểm của mỗi khách hàng, có thể phân loại để quan sát khách hàng có
tiềm năng, khách hàng trung thành hay khách hàng có nguy cơ rời bỏ. Với mỗi loại
khách hàng, doanh nghiệp sẽ có những chính sách phù hợp để sản phẩm trở nên đa

9
dạng, thu hút khách hàng hơn nhằm tăng doanh thu, lợi nhuận cùng các chiến lược
chăm sóc để giữ chân khách hàng hiệu quả.

2.4.3. Lợi ích

Thông qua phân khúc khách hàng từ RFM, doanh nghiệp có thể phát triển
chiến lược kinh doanh và điều chỉnh bộ máy tổ chức doanh nghiệp sao cho phù hợp
với mục tiêu đ t ra nhằm phục vụ cho từng phân khúc. M t khác, theo dõi sự thay đổi
cơ cấu khách hàng theo thời gian giúp đánh giá sự phát triển.

Phân tích RFM giúp nhắm đến các nhóm khách hàng với các thông tin liên lạc
phù hợp hơn với từng hành vi. Vì thế, làm tăng tỷ lệ phản hồi, mức độ tương tác của
khách hàng.

2.5. RStudio

2.5.1 Giới thiệu Rstudio

RStudio là IDE (Integrated Development Environment), là một phần mềm cho


phép truy cập trực tiếp vào phần mềm R, hỗ trợ rất nhiều tính năng nâng cao,nâng cao
hiệu quả trong việc quản lý và phân tích dữ liệu với R. Một cách hiểu khách thì
RStudio là môi trường phát triển tích hợp của ngôn ngữ R, và R được sử dụng là trình
biên dịch trong môi trường đấy.

2.5.2. Quy trình thực hiện với Rstudio:

Bước 1: Nhập dữ liệu vào Rstudio (nhóm nhập liệu dưới dạng .xlsx)

Bước 2: Xử lý dữ liệu và xác nhận dữ liệu đã được làm sạch

Bước 3: Gõ mã code để chạy chương trình RFM

Bước 4: Gõ bảng “Customer segment” và các “Recency - Frequency - Monetary”


score range

Bước 5: Vẽ các biểu đồ phân tích kết quả

(Phần code được lưu dạng nén .R và gửi riêng để nộp)

10
CHƯƠNG 3. PHÂN TÍCH YÊU CẦU NGƯỜI DÙNG VÀ MÔ TẢ DỮ LIỆU

3.1. Xác định và phân tích yêu cầu người dùng

 Bài toán 1: Dự đoán hành vi tiêu dùng của khách hàng

Trước đây, hầu hết các doanh nghiệp không xác định được nhu cầu thực sự của
khách hàng mà chỉ tập trung vào việc quảng bá tràn lan sản phẩm - dịch vụ của mình
có được, không nắm rõ vấn đề của khách hàng là gì, đưa ra hàng loạt các hàng
hóa/dịch vụ mà không biết điều gì là cần thiết, phù hợp nhất cho khách hàng của mình.
Vì thế, việc xác định đúng khả năng mua hàng của khách hàng là một việc hết sức cần
thiết để góp phần tiết kiệm được phần lớn chi phí và thời gian của doanh nghiệp.
Để giải quyết được bài toán này, nhóm cần nghiên cứu tập trung vào các nhu
cầu, thị hiếu của khách hàng thông qua các biến động về doanh số bán hàng, doanh
thu, các đánh giá và mức độ quay trở lại của khách hàng. Từ đó, đưa ra các lập luận
phù hợp để dự đoán đúng khả năng mua hàng của khách hàng.

 Bài toán 2: Dự đoán phân loại khách hàng trên các sàn thương mại điện tử

Đối với doanh nghiệp, việc làm sao để phân loại được khách hàng trên các thị
trường là một bài toán rất quan trọng mà trước kia họ khó có thể thực hiện được.
Không thể xác định rõ khách hàng của mình là những đối tượng nào, không có chính
sách phù hợp cho từng khách, điều này dễ khiến cho các doanh nghiệp rơi vào tình
trạng hoang mang trên các sàn thương mại, truyền thông không đúng cách, phải chi
quá lớn cho các chiến dịch quảng cáo vô ích và đôi khi ảnh hưởng/làm phiền khách
hàng. Với bài toán dự đoán phân loại khách hàng có thể giúp doanh nghiệp xác định
được những đối tượng khách hàng của mình (tiềm năng, sắp rời bỏ,...) rồi từ đó có thể
đưa ra các chiến dịch tiếp thị phù hợp cho từng đối tượng ở từng sàn thương mại điện
tử khác nhau.
Để giải quyết được bài toán này, nhóm cần dựa trên hành vi giao dịch lịch sử
của khách hàng trên các sàn thương mại điện tử, sử dụng các thuật toán để phân tích
các chỉ số và tiến hành gom nhóm đối tượng phù hợp.

11
3.2. Tổng quan về cơ sở dữ liệu nguồn

Bộ dữ liệu sử dụng là bộ UBG to DAX - Data Model, dữ liệu lịch sử bán hàng
cho khách hàng trong quá khứ.
Nguồn gốc: đây là dữ liệu bán hàng được thu thập trong khoảng 6 tháng từ
tháng 1/2018 đến tháng 6/2020 từ Công ty Cổ Phần - Tập Đoàn UBG (UBG) trong
lĩnh vực kinh doanh thương mại.

3.2.1. Mô tả dữ liệu nguồn

Bộ dữ liệu này bao gồm khoảng 15,000 hàng và 7 biến tính năng. Mỗi hàng
tương ứng với thông tin mua hàng hóa/sản phẩm của khách hàng và bao gồm các cột:

Order ID Mã số hóa đơn

Product ID Mã số của sản phẩm

Location ID Mã số của chi nhánh/địa điểm cửa hàng

Customer ID Mã số người mua hàng

Purchase Date Ngày mua hàng của khách hàng

Quantity Số lượng hàng hóa đã mua

Current/Market price Giá tiền

Bảng 3.2.1: Mô tả dữ liệu nguồn

Bên cạnh đó, bộ dữ liệu này cũng thể hiện đầy đủ thông tin rất chi tiết và cụ thể
của từng biến thông qua 4 bảng cơ sở dữ liệu thô (Products, Locations, Customers,
Sales Person).

3.2.2 Lựa chọn và trình bày dữ liệu cần phân tích đối với yêu cầu người dùng

Dữ liệu đưa vào để tạo mô hình cần phải được thông qua bước tiền xử lý dữ
liệu như:
 Thực hiện việc tổng hợp dữ liệu
12
 Loại bỏ các dữ liệu nhiễu (thiếu giá trị, sai số liệu)
 Định dạng lại các biến thời gian
 Biến đổi dữ liệu qua xử lý về các định dạng chuẩn.
Sau khi đã tiến hành các bước tiền xử lý dữ liệu và cũng như cân nhắc yêu cầu
thông tin của bài toán, nhóm đã đưa ra được một tập dữ liệu tổng hợp mới, phù hợp
với mô hình mà nhóm sử dụng, bao gồm các biến:
 OrderID

 Product ID

 Location ID

 Sales Person ID

 Customer ID

 Purchase Date

 Quantity

 Current/Market price

 Amount (Khai thác số liệu từ biến Quantity và biến Current/Market price)

Hình 3.2.2 Bộ dữ liệu đã qua tiền xử lý

13
CHƯƠNG 4. PHÂN TÍCH DỮ LIỆU VÀ KẾT QUẢ

4.1. Giới thiệu giải pháp và quy trình thực hiện

Sau khi đã có bộ dữ liệu phù hợp với yêu cầu của bài toán, nhóm tiến hành
phân tích các giá trị Recency, Frequency và Monetary

 Nhóm sử dụng công cụ PivotTable của excel để tính các giá trị
 Tiến hành kéo các trường vào các vùng dữ liệu tương ứng để tính
Frequency, Monetary và Recency.
 Nhóm chọn ngày đang xét là ngày 30/06/2020 cho giá trị Recency.

Từ giá trị RFM đã được tính, tiến hành chuẩn hóa dữ liệu: Recency, Frequency,
Monetary sẽ được chia thành 5 ranks để khái quát hơn. Ngoài ra, các biến đều phải có
cùng khoảng rank (cùng là 5) để đồng nhất mức độ tác động lên rank tổng hợp của
khách hàng. (Dùng hàm “PERCENTILE.INC”)

Hình 4.1.1: Chuẩn hóa dữ liệu thành bảng điểm

 Tính điểm cho từng khách hàng:

Sử dụng hàm VLOOKUP để dò tìm dữ liệu trong bảng điểm, trả về dữ liệu theo
điểm số cho từng khách hàng tương ứng với từng giá trị của Recency, Frequency,
Monetary

Dùng hàm CONCATENATE để ghép 3 giá trị của RFM lại với nhau, ta được
điểm RFM tổng hợp tương ứng với mỗi khách hàng.

14
Hình 4.1.2: Dữ liệu điểm R,F,M và RFM Score

 Thực hiện customer segmentation

Hình 4.1.3: Phân loại số lượng khách hàng và tỷ lệ tương ứng

15
Biểu đồ 4.1.4: Label segment treemap

Nhìn vào bảng và biểu đồ phân tích phân khúc khách hàng thì nhóm At Risk
chiếm số lượng cao nhất 122 khách hàng với tỷ lệ là 15%. Theo sau đó là nhóm
Hibernating Customers chiếm tỷ lệ 14% với 110 khách hàng. Hai phân nhóm khách
hàng đáng quan tâm nhất, và được dự đoán có khả năng mang lại doanh thu cao nhất
là Champions và Loyal Customers có tỷ lệ lần lượt là 11% (92 khách hàng) và 8%
(với 63 khách hàng)

 Đồ thị độ lệch chuẩn

​ ​ Biểu đồ 4.1.5: Đồ thị lệch chuẩn


16
Sau khi phân khúc khách hàng, nhóm sử dụng Rstudio để xác định độ lệch
chuẩn nhằm đánh giá lại kết quả phân khúc mà nhóm đã thực hiện.

Như kết quả đã được hiển thị trong biểu đồ 4.1.5, có thể thấy rằng tất cả các
phân khúc khách hàng của nhóm đều có độ lệch chuẩn thấp (nhỏ hơn 0,1). Áp dụng
vào mô hình mà nhóm đang xét, độ lệch chuẩn này đã xác định được mức độ ổn định
của số liệu thống kê xoay quanh giá trị trung bình. Như vậy, giá trị độ lệch chuẩn của
cả 11 phân khúc này đều phù hợp, vì thế mức độ ổn định của số liệu càng lớn, dao
động quanh giá trị trung bình càng nhỏ.

=> Có thể sử dụng 11 phân khúc khách hàng này cho các bước phân tích, dự đoán tiếp
theo của báo cáo.

4.2. Phân tích và trực quan hóa kết quả (Đánh giá tổng quan mô hình RFM thông
qua Excel và ứng dụng Rstudio)

Bài toán 1: Dự đoán hành vi tiêu dùng của khách hàng

4.2.1. Trực quan dữ liệu đã được xử lý:

Hình 4.2.1.1: Mã code và kết quả thể hiện dữ liệu đã được xử lý tại Rstudio

17
Biểu đồ 4.2.1.2: Biểu đồ xác nhận dữ liệu hai biến “Current Price” và “Quantity” đã
được xử lý

Sau khi xử lý dữ liệu, nhóm sử dụng biểu đồ hiển thị so sánh dữ liệu hai biến
“Current price” và “Quantity” nhận được phần đề: “There are negatives for both
Quantity and Current price” tức bộ dữ liệu của hai biến đã được xử lý.

4.2.2. Kết quả trực quan của RFM qua Excel và Rstudio:

Hình 4.2.2.3: Kết quả RFM thông qua chạy Rstudio

18
Hình 4.2.2.4: Kết quả so sánh RFM score giữa Excel và Rstudio

Sử dụng hàm Exact để so sánh kết quả RFM từ Rstudio và Excel và hàm Countif để
đếm “FALSE”.

4.2.3. Biểu đồ trực quan đánh giá kết quả RFM

 Biểu đồ Heatmap thể hiện sự tương quan giữa hai biến “Frequency” & “Recency”:

Biểu đồ 4.2.3.5: Bản đồ nhiệt hiển thị giá trị tiền tệ trung bình cho các danh mục điểm
số Recency và Frequency

19
Bản đồ nhiệt hiển thị giá trị tiền tệ trung bình cho các danh mục khác nhau của
điểm số Recency và Frequency. Điểm cao hơn về Frequency và Recency được đ c
trưng bởi giá trị tiền tệ trung bình cao hơn như được chỉ ra bởi các vùng tối hơn trong
bản đồ nhiệt. Thông qua biểu đồ trên ta có thể thấy:

● Mức độ chi tiêu/ Doanh thu khá cao: xuất phát từ vùng khách hàng
Frequent Shopper - mức 5 - đậm màu nhất (tăng đậm màu dần tương ứng
từ 1-5). Mức độ tăng màu biểu diễn tác động bởi chất lượng sản phẩm tốt
hay không, điểm giá tiền của sản phẩm có phù hợp hay không ho c cũng có
thể khách hàng muốn mua loại sản phẩm/ m t hàng mới.
● Tương ứng ta cũng có mức độ tập trung Recency tăng theo thứ tự từ 1-5.
Mức độ tăng màu càng đậm thể hiện việc khách hàng càng có xu hướng
quay lại chi tiêu mua sắm.

Qua đó ta có thể rút ra được rằng khách hàng nòng cốt chính đang là khách
hàng lâu năm, họ có xu hướng quay lại chi tiêu mua sắm các m t hàng khá nhiều.
Thực tế mức 1 - 5 tăng theo hai chiều này cho thấy dấu hiệu đáng mừng là khách hàng
có xu hướng quay lại chi tiêu mua sắm m t hàng của công ty sau những lần đầu mua
sắm.

Ngược lại tại giao nhau khu vực 1 - 2 của “Frequency” với “Recency” màu
trung tính ở mức 3 và nhạt ở mức 5 cho thấy những khách hàng mới “New Shopper”
mức chi tiêu còn khá thấp.

Từ đây, công ty cần có những chính sách hợp lý phát triển thu hút nhiều khách hàng
mới, tiềm năng đồng thời giữ chân những khách hàng “sẽ - đang” lâu năm.

 RFM bar chart biểu đồ cho sự tương quan 3 biến “Frequency score”, “Recency
Score”, “Monetary”:

20
Biểu đồ 4.2.3.6: RFM bar chart

RFM bar chart được sử dụng nhằm tạo phân phối cho điểm số tiền tệ về sự kết
hợp khác nhau của tần suất và điểm số của lần truy cập gần đây (lần cuối cùng mua
hàng của khách hàng).

Biểu đồ 4.2.3.6 này thể hiện một cách nhìn khái quát và rõ hơn biểu đồ 4.2.3.6
về những khu vực RFM cần chú ý như:

● 5-5-5: có mức monetary cao nhất => Khách hàng lâu năm có mức chi tiêu
cao
● 1:5-3 -1:5: có mức monetary ổn định => Khách hàng thường xuyên cần giữ
chân
● 1:5-1-1:5: có mức monetary thấp (hầu như không có tại các điểm recency
ngoại trừ điểm 3) => cần tìm cách thu hút nhu cầu tiêu dùng mới.
 Scatter Plot: Biểu đồ thể hiện sự tương quan giữa hai biến “Recency score” và
“Monetary”

21
Biểu đồ 4.2.3.7: Mối tương quan của Recency và Monetary

Với thời điểm xét là 30/6/2020 thì nhìn vào biểu đồ, phần lớn khách hàng mua
sắm trong mức Recency = 100 tức tính từ ngày 22/3/2020 đổ về. Một số lượng khách
hàng khác có mức chi tiêu cao với lượng ngày truy cập lần cuối ở mức Recency trong
khoảng 100 - 150 (tức 1/2/2020 - 22/3/2020). Những khách hàng mua hàng gần đây
có xu hướng mang lại nhiều doanh thu hơn so với khách hàng đã ghé thăm trong quá
khứ (thời gian mua hàng lần cuối là lâu hơn). Một số khách hàng có mức chi tiêu khá
cao trong lần ghé thăm mới đây.

Vì m t hàng chính là lò sưởi - m t hàng không thể thiếu ở các nước ôn đới
đồng thời từ ngày tính là cuối tháng 6, đầu tháng 7 tới cũng là lúc khách hàng bắt đầu
mua sắm chuẩn bị cho những ngày lễ lớn như “Halloween” hay “Christmas” do đó
đây cũng là cơ hội để thực hiện chiến lược kinh doanh thích hợp thu hút được khách
hàng đồng thời đẩy mạnh sự quay trở lại chi mua của khách hàng.

 Biểu đồ thể hiện sự tương quan giữa hai biến “Frequency” và “Monetary” (Scatter
Plot)

22
Biểu đồ 4.2.3.8: Mối tương quan của Frequency và Monetary

Tần suất người mua hàng và giá trị tiền tệ có một mối tương quan ch t chẽ. Tần
suất mua hàng cao nhất là hơn 30 lần và số tiền nhiều nhất người tiêu dùng chi tiêu
cho mỗi lần mua sắm tại đây là hơn $75,000. Tần suất mua hàng của khách hàng tăng
lên, kéo theo doanh thu cũng tăng lên. Nhóm khách hàng Champions sẽ ghé thăm
thường xuyên hơn để mua sắm. Nhóm khách hàng thân thiết hay những khách hàng
trung thành, tiềm năng, họ sẽ là yếu tố góp phần thúc đẩy doanh thu tăng lên. Cũng có
thể suy ra rằng, tần suất và doanh thu tỷ lệ thuận với nhau. Khi tần suất mua hàng của
người tiêu dùng tăng lên nói lên rằng doanh nghiệp đang làm năng có hiệu quả và đáp
ứng nhu cầu tiêu dùng của khách hàng mức tối ưu. Do vậy cần đẩy mạnh tiếp cận
được càng nhiều người tiêu dùng càng tốt.

23
4.2.4. Histogram RFM

Biểu đồ 4.2.4.9: Biểu đồ phân bố tần số kết quả RFM

Biểu đồ cho thấy sự phân bố tương đối của các giá trị cho 3 biến được dùng để
tính toán điểm của Recency - Frequency - Monetary. Đ c điểm của các biểu đồ này là
sự chúng có hình dáng lệch, nhất là biểu đồ Recency lệch hẳn sang bên trái thay vì đối
xứng ở giữa. Đây là dấu hiệu tốt vì doanh nghiệp có lượt khách mua hàng gần đây
nhiều. Biểu đồ Monetary và Frequency có cùng hình dạng phân bố đỉnh độc lập với
đỉnh nằm về phía trái. Điều này cho thấy tần suất mua của khách hàng và giá trị họ
mua đang nằm ở phân khúc trung bình thấp so với tổng thể. Giá trị xuất hiện nhất của
biểu đồ Recency là 19, biểu đồ Frequency là 17 và biểu đồ Monetary là 35,704, tương
ứng với số điểm RFM là 433.

Với kết quả này, doanh nghiệp nên tập trung vào việc nâng cao chỉ số F và M.
Tri ân khách hàng bằng t ng voucher giảm giá cho những lần mua kế tiếp là cách hiệu
quả để thu hút khách quay lại, tăng tần số mua hàng của khách. Ngoài ra, khách hàng
cũng sẽ rất vui lòng mua lại nếu doanh nghiệp có ấn tượng tốt trong mắt họ. Vì vậy
phát triển dịch vụ cũng là điều cần thiết mà doanh nghiệp nên làm. Bên cạnh đó, nếu
doanh nghiệp muốn tăng chỉ số F và M thì chương trình tích điểm t ng quà là rất phù

24
hợp. Khách hàng sẽ quay lại nhiều lần, mua những đơn hàng đạt giá trị để tham gia
vào chương trình.

Bài toán 2: Dự đoán phân loại khách hàng (Đánh giá qua kết quả mô hình RFM
và qua ứng dụng Rstudio)

4.2.5. Trực quan hóa phân khúc khách hàng

Hình 4.2.5.10: Phân khúc khách hàng

Hiện tại, nhóm đã tách các khách hàng thành các phân khúc RFM khác nhau,
các biểu đồ RFM plot median dưới đây sẽ trực quan hóa dữ liệu của nhóm dựa trên
các phân khúc được chỉ định này.

 RFM plot median recency

Biểu đồ 4.2.5.11: Biểu đồ phân loại theo RFM về thời gian mua hàng trung bình gần
đây (RFM plot median recency)
25
Biểu đồ này cho thấy thời gian mua hàng trung bình gần đây cho các phân khúc
khách hàng là khác nhau.

● Với thời điểm xét là 30/6/2020, nhóm khách hàng Hibernating có thời gian
mua hàng trung bình gần đây dài nhất với hơn 120 ngày.
● Với thời điểm xét là 30/6/2020, nhóm khách hàng Champions có thời gian
mua hàng trung bình gần đây ngắn nhất là gần 20 ngày.

=> Điều này khẳng định cho việc tập trung chăm sóc nhóm khách hàng VIP
(Champions và Loyal Customers) luôn là mục tiêu ưu tiên với nhiều ưu điểm như mức
độ rủi ro thấp, thời gian giao dịch gần nhất, có khả năng mang lại doanh thu cao hơn
các phân khúc khách hàng khác.

 RFM plot median Frequency

Biểu đồ 4.2.5.12: Biểu đồ phân loại theo RFM về tuần suất giao dịch trung bình gần
đây (RFM plot median recency)

26
Biểu đồ 4.2.5.12 cho thấy, tần suất giao dịch của các nhóm phân khúc khách
hàng có sự chênh lệch.

● Nhóm Champions vẫn là điểm nổi bật với trung vị đạt gần 25 lần. Trong
khi những phân khúc khách hàng khác chỉ có từ 12 - 22 lần giải ngân.
● Tỷ lệ nắm giữ sản phẩm của khách hàng hiện giờ vẫn chưa cao (khoảng từ
10 - 18 lần).

=> Cần xây dựng hệ thống sản phẩm và khách hàng thực sự linh hoạt, hấp dẫn để giữ
chân khách hàng quay lại nhiều hơn. Từ đó, gia tăng tỷ lệ nắm giữ sản phẩm và doanh
số giải ngân sẽ có thể cao hơn.

Đ c biệt, biểu đồ này cần lưu ý tới hai phân khúc khách hàng cần có chính sách
chăm sóc là Potential Loyalist và About to Sleep.

 RFM plot median Monetary:

Biểu đồ 4.2.5.13: Biểu đồ phân loại theo RFM về giá trị tiền tệ trung bình khách hàng
đã chi tiêu (RFM plot median Monetary)

Biểu đồ trên cho thấy tầm quan trọng của phân khúc Champions vì cho đến nay
chúng có giá trị tiền tệ trung bình lớn nhất.
27
● Chúng ta có thể cũng nhận thấy sự chênh lệch không quá lớn giữa nhóm
khách hàng Champions và nhóm Loyal Customers (khách hàng gần thứ hai
với Champions) xấp xỉ 1,2 lần.
● Ngoài ra, chúng ta cũng thấy rằng những khách hàng At Risk có giá trị tiền
tệ trung bình khá tốt (hơn 45,000) và như chúng ta đã thấy trong Biểu đồ
4.2.5.12, nhóm At Risk là một trong những nhóm khách hàng có thời gian
mua hàng trung bình gần nhất dài.

=> Điều này có thể là ảnh hưởng từ chính sách sản phẩm dành cho nhóm khách hàng
có nguy cơ rủi ro cao vẫn còn, kết hợp với việc chưa có giải pháp hiệu quả hơn khai
thác nhóm khách hàng tiềm năng để biến họ thành những khách hàng thân thiết. Ho c
cũng có thể nói các giải pháp và chính sách giữ chân khách hàng, chương trình khách
hàng thân thiết còn đang trong giai đoạn xây dựng, triển khai chưa đạt được hiệu quả.

Bài toán mở rộng: Mô tả số liệu sản phẩm - khả năng mua hàng của khách hàng:

a) Quantity & Price:

Biểu đồ 4.2.5.14: Số lượng và giá cả của các sản phẩm được mua

Dựa vào biểu đồ trên, ta thấy tổng sản phẩm doanh nghiệp bán được từ đầu
năm 2018 đến 30/06/2020 là 29,138 sản phẩm. Trong đó sản phẩm được ưa chuộng
nhất với số lượng bán ra thị trường cao nhất (632 sản phẩm) có mức giá là $530 (bằng
20,4% so với sản phẩm có mức giá cao nhất là $2,597). Sản phẩm ít được ưa chuộng

28
nhất là 2 sản phẩm với mức giá $1,052 và $1,635 với số lượng được bán ra là 228 sản
phẩm mỗi loại.

Hai khung giá tiền khách hàng chi tiêu nhiều nhất: sản phẩm trong khung giá
($315 - $590) - hàng hoá cấp thấp/ thông thường, sản phẩm trong khung giá ($1671 -
$1809 ) - hàng hoá cấp cao.

b) State:

Biểu đồ 4.2.5.15: Tổng số tiền mua hàng, thu nhập trung bình và các hộ gia đình của
các bang.

Mức chi tiêu mua sắm sản phẩm trên hai bảng đồ thị có hướng di chuyển tương
ứng giống nhau, đồng thời thể hiện sự tương quan giữa ba biến “Sum of Households”,
“Sum of Median Income”, “Sum of Amount”.

Phân tích số liệu các bang state:

 “Florida”: với mức thu nhập bình quân (Sum of Median Income) đứng thứ
2. Tuy nhiên, tổng dân cư lại cao hơn không nhiều so với m t bằng chung
các tiểu bang khác nhưng đáng ngạc nhiên là sức mua hàng của họ vô
cùng lớn (xếp thứ 1 về chi tiêu). Như vậy, nhu cầu về hàng hóa của dân cư
ở đây rất lớn để đạt mức doanh thu cao (Sum of Amount) như vậy.

 “New York”: ứng với lượng dân cư cao nhất, tổng chi tiêu cũng chiếm vị
trí thứ nhất cùng mức thu nhập bình quân cao hơn so với các bang khác.

29
Có thể dự đoán rằng, mức thu nhập bình quân càng tăng lên thì khả năng
chi tiêu cho hàng hóa của người dân ở bang này sẽ tỷ lệ thuận.

 Các bang còn lại có số lượng mua hàng thấp hơn nhiều và hướng đi của
ba đường với mỗi bang cũng ở mức tương đồng. Cho thấy rằng họ chi tiêu
phù hợp với mức thu nhập trung bình dẫn đến doanh thu không chênh lệch
quá nhiều.

4.3. Thảo luận và đánh giá về kết quả phân tích và các đề xuất hỗ trợ ra quyết
định

Từ các phân tích, đánh giá kết quả của những biểu đồ phía trên nhóm đã dự
đoán được hành vi mua hàng của khách hàng đối với các sản phẩm của doanh nghiệp
cũng như dự đoán phân loại khách hàng và đề ra một số biện pháp cho từng đối tượng
khách hàng như sau:

● Nhóm khách hàng thân thiết hay những khách hàng trung thành, tiềm năng,
họ sẽ là yếu tố góp phần thúc đẩy doanh thu tăng lên và có khả năng chi trả
rất cao. Đối với những nhóm khách hàng này, nhóm có đề xuất doanh
nghiệp có thể dành cho họ những lợi ích như: miễn phí vận chuyển, cung
cấp thẻ thành viên, sáng tạo thêm những sản phẩm mới với công năng vượt
trội, thường xuyên liên hệ để xin đánh giá về sự trải nghiệm của họ ho c là
tổ chức các sự kiện để mời khách hàng đến tham quan, tương tác trực tiếp.
● Nhóm khách hàng đã ngưng quay lại một thời gian nhưng trước kia họ đã
mua hàng thường xuyên và chi tiêu nhiều nhất. Doanh nghiệp có thể ưu đãi
giá, gửi email cá nhân để kết nối lại với họ,.. Sau đó, kiểm tra phản hồi và
điều chỉnh cách tiếp cận phù hợp.
● Các khách hàng có điểm RFM cao nhưng điểm F là 1 là các khách hàng
mới. Nhóm để xuất doanh nghiệp nên tiết kiệm bằng cách liên hệ với họ ít
hơn ho c sử dụng các phương pháp rẻ hơn nhưng không được bỏ qua nhóm
khách hàng này.

Tóm lại, doanh nghiệp cần đẩy mạnh tiếp cận được càng nhiều người tiêu dùng
càng tốt, họ nên tập trung vào việc nâng cao chỉ số F và M. Và ngoài những biện pháp
đã nêu, doanh nghiệp vẫn có thể áp dụng nhiều biện pháp hơn nữa để gia tăng số
30
lượng khách hàng trung thành và tăng doanh thu cho mình. Dựa vào những kết quả đã
phân tích phía trên, thì việc dự báo phân loại khách hàng của doanh nghiệp sẽ không
còn là một bài toán “đoán mò” nữa mà nó sẽ có công thức rõ ràng và doanh nghiệp có
thể dựa vào nó để đề ra chính sách hợp lý cho các nhóm khách hàng của mình.

CHƯƠNG 5. KẾT LUẬN

5.1. Kết quả đạt được

Dự án đã hoàn thiện cơ bản và đạt được những kết quả sau:

 Về m t lý thuyết, dự án đã đề ra những điểm cơ bản nhất của cơ sở lý


thuyết tổng quan về khai phá dữ liệu

 Về m t thực tế, áp dụng cơ sở lý thuyết để giải quyết dữ liệu cho ra kết


quả thõa với mục đích nghiên cứu. Với việc phân tích và khai thác dữ liệu
cho ra kết quả ta thấy sự hiệu quả của mô hình. Từ đó, giúp ta dễ dàng
tìm ra các phân khúc khách hàng có hành vi mua sắm tương đồng nhau và
có những chiến lược hợp lý.

5.2. Hạn chế

M c dù đã nỗ lực hết mình để hoàn thành bài nghiên cứu, tuy nhiên, trong quá
trình làm bài, không thể tránh khỏi một số hạn chế do các yếu tố chủ quan, cũng như
khách quan:

 Bài dự án của nhóm đã cố gắng đạt được mục tiêu nhưng kinh nghiệm
nghiên cứu chưa có nhiều và vốn kiến thức còn tương đối hạn chế nên
không thể tránh được những thiếu sót nhất định. Thời gian học phần ngắn
nên vẫn còn chưa thực sự vững trong thực hành các bước huấn luyện dữ
liệu cũng như làm việc với dữ liệu.

 Độ chính xác vẫn còn chưa đạt tới mức tuyệt đối, vì vậy không thể tránh
khỏi những sai sót trong quá trình làm việc nên việc đưa ra kết luận không
thể hoàn toàn 100% .

31
 Tại Việt Nam, dữ liệu về khách hàng là một dạng bảo mật thông tin, vì
vậy, chưa thực sự có cơ hội làm việc với dữ liệu trong nước và dữ liệu
thực tế.

5.3. Hướng phát triển

Từ các kết quả đạt được có thể thấy đây không chỉ là một bài dự án mà còn
xem như là nguồn tham khảo ở nhiều khía cạnh và góc nhìn để giúp người quản trị có
một bức tranh tổng quan hơn về khách hàng cũng như tình hình của công ty, doanh
nghiệp. Và giúp họ nhận diện, phân tích chiến lược marketing nói riêng, trong lĩnh
vực phân tích dữ liệu và khách hàng nói chung. Dự án còn là cách giới thiệu một giải
pháp phân tích với dữ liệu lớn giúp việc ra quyết định của nhà quản trị có hiệu quả tối
ưu nhất.

Để dự án được hoàn thiện hơn, sẽ tiếp tục mở rộng dự án và có thể đưa vào
thực tế sử dụng một cách triệt để. Có thể kết hợp nhiều hơn các phương pháp, mô hình
phân tích khác để có sự hiểu biết hơn về hành vi khách hàng. Từ dự án này nhóm có
thể phát triển hơn cho việc trau dồi thêm kiến thức cũng như kinh nghiệm cho những
lần phân tích các bộ dữ liệu khác. Sẽ tìm những nguồn dữ liệu có giá trị thực tiễn và ý
nghĩa. Nghiên cứu sâu các bài toán khai phá dữ liệu và áp dụng được vào thực tế.
Không chỉ áp dụng được mà còn phù hợp với tình hình giai đoạn hiện nay như: định
hướng trong kinh doanh,..

FILE THUYẾT TRÌNH

Link Slide thuyết trình

TÀI LIỆU THAM KHẢO

1. Nguyen Van Ho. Bài giảng môn Khoa học dữ liệu. Truy xuất từ hệ thống học trực
tuyến: https://lms.ueh.edu.vn/course/view.php?id=6081

2. Birant, D. (2011). Data mining using RFM analysis. In Knowledge-oriented


applications in data mining. IntechOpen.
3. Blattberg, R.C.; Kim, B-D. & Neslin, S.A. (2008). Database Marketing: Analyzing
and Managing Customers, Chapter 12, pp. 323-337, Springer, ISBN: 978-0387725789,
New York, USA.

32
4. Han, J.; Pei, H.& Yin. Y. (2000). Mining Frequent Patterns without Candidate
Generation. Proceedings of Conference on the Management of Data (SIGMOD’00),
pp. 1-12, ISBN:1581132174, Dallas, Texas, United States, May 2000, ACM New
York, NY, USA.
5. Khoa học Dữ liệu – Data science là gì? (25 THÁNG MƯỜI MỘT, 2019). Truy xuất
từ: https://abiz.edu.vn/khoa-hoc-du-lieu-data-science-la-gi/
6. Khoa học dữ liệu là gì. Truy xuất từ: https://aws.amazon.com/vi/what-is/data-
science/
7. Phân tích phân khúc khách hàng với mô hình RFM. Truy xuất từ:
https://tigosoftware.com/vi/phan-tich-phan-khuc-khach-hang-voi-mo-hinh-rfm
8. QUÝ, T. Q. (2021). Introduction about R and RStudio. Đại học Công nghệ Thông
tin & Truyền thông Thái Nguyên.
9. Tuân, B. (2022). RFM - Customer Level Data. Truy xuất từ:
https://rpubs.com/votieuvu1986/938658?fbclid=IwAR37XQ532oCTPTvkB5m6aZM
HcE4z3Xu-0O_9-n3K2kN9nNtiuiDQiLZAjkU

PHỤ LỤC

1. Bảng RFM segmentation

RFM score Label Description

555, 554, 544, 545, 454, 455, Bought recently, order often and
Champions
445 spend the most.

543, 444, 435, 355, 354, 345, Orders regularly. Responsive to


Loyal
344, 335 promotions.

553, 551, 552, 541, 542, 533,


532, 531, 452, 451, 442, 441, Potential Recent customers who spent good
431, 453, 433, 432, 423, 353, Loyalist amounts.
352, 351, 342, 341, 333, 323

512, 511, 422, 421, 412, 411, New


Bought most recently.
311 Customers

33
Potential loyalist a few months ago.
525, 524, 523, 522, 521, 515,
Spends frequently and a good
514, 513, 425, 424, 413, 414, Promising
amount. But the last purchase was
415, 315, 314, 313
several weeks ago.

535, 534, 443, 434, 343, 334, Need Core customers whose last purchase
325, 324 Attention happened more than one month ago.

Made their last purchase a long time


331, 321, 312, 221, 213, 231, About To
ago but in the last 4 weeks either
241, 251 Sleep
visited the site or opened an email.

255, 254, 245, 244, 253, 252,


Similar to 'Cannot Lose Them' but
243, 242, 235, 234, 225, 224,
At Risk with smaller monetary and frequency
153, 152, 145, 143, 142, 135,
value.
134, 133, 125, 124

155, 154, 144, 214, 215, 115, Cannot Lose Made the largest orders, and often.
114, 113 Them But haven’t returned for a long time.

Customers who made smaller and


332, 322, 233, 232, 223, 222, Hibernating infrequent purchases before but
132, 123, 122, 212, 211 customers haven't purchased anything in a long
time.

Made last purchase long time ago and


Lost
111, 112, 121, 131, 141, 151 didn’t engage at all in the last 4
customers
weeks.

34

You might also like