You are on page 1of 5

Sau đây em xin trình bày về đề tài nghiên cứu "Xây dựng mô hình phân tích dữ liệu chân

dung khách
hàng để xác định khách hàng tiềm năng cho doanh nghiệp." Lựa chọn đề tài xuất phát từ sự nhận thức
về giới hạn của nguồn lực và sự đa dạng của con người. nên việc áp dụng khoa học dữ liệu trong phân
tích khách hàng sẽ giúp doanh nghiệp hiểu rõ hơn về đối tượng mục tiêu của mình và xây dựng chiến
lược tiếp thị hiệu quả.

Mục tiêu của nghiên cứu là thực hiện phân tích dữ liệu khách hàng bằng các thuật toán Khoa học dữ liệu
và xây dựng chân dung khách hàng cho doanh nghiệp. hướng đến việc cung cấp giải pháp tốt nhất cho
nghiên cứu, đồng thời giới thiệu về đối tượng và phạm vi nghiên cứu. Đối tượng nghiên cứu là nhóm
khách hàng mục tiêu mà doanh nghiệp muốn phục vụ, trong khi phạm vi nghiên cứu bao gồm các doanh
nghiệp và tổ chức mong muốn hiểu rõ đặc điểm, nhu cầu, và hành vi của khách hàng.

sử dụng phần mềm Orange để phân cụm và phân lớp, kết hợp với Excel để tính toán và trực quan hóa
dữ liệu. Các thuật toán như Logistic Regression, Support Vector Machine, và Decision Tree được áp dụng
để đạt được mô hình phân tích chính xác và hiệu quả.

Ngoài ra, cung cấp kiến thức về mô hình phân lớp dữ liệu, với sự giải thích chi tiết về Logistic Regression,
Support Vector Machine, và Decision Tree. Mỗi mô hình mang lại ưu điểm và nhược điểm riêng, và sự
hiểu biết về chúng sẽ giúp doanh nghiệp lựa chọn phương pháp phù hợp nhất với nhu cầu cụ thể của họ.
góp phần vào việc nâng cao hiểu biết về khách hàng, từ đó giúp doanh nghiệp tối ưu hóa chiến lược tiếp
thị và cá nhân hóa trải nghiệm của khách hàng.

Quy trình Phân lớp Dữ liệu

Mô tả: Trình bày 2 bước chính của quy trình - xây dựng mô hình phân lớp và áp dụng mô hình để phân
lớp dữ liệu mới.

Bước 1 - Xây dựng mô hình phân lớp : Giới thiệu về quá trình huấn luyện, đầu vào dữ liệu mẫu đã được
gán nhãn, và kết quả là mô hình phân lớp.

Bước 2 - Áp dụng mô hình : Trình bày giai đoạn đánh giá mô hình và phân lớp dữ liệu mới, giải thích cách
kiểm tra độ chính xác và sử dụng mô hình.

Tiền xử lý Dữ liệu : Mô tả các bước cơ bản trong tiền xử lý dữ liệu, bao gồm loại bỏ giá trị thiếu, sửa
chữa lỗi, chuẩn hóa dữ liệu, giảm thiểu dữ liệu, và tiền xử lý dữ liệu hình ảnh.

Phân lớp Dữ liệu : Định nghĩa và giải thích quá trình sử dụng mô hình phân loại để phân loại đối tượng
dữ liệu vào các lớp cụ thể.

Đánh giá tính hiệu quả: Trình bày về ma trận nhầm lẫn, độ chính xác, độ nhạy, Precision, F1-score, ROC,
AUC và giải thích cách đánh giá hiệu suất mô hình phân loại.

Phân cụm Dữ liệu: Trình bày về các phương pháp đánh giá ngoài và nội bộ, cũng như Silhouette index.
Sử dụng thuật toán Kmeans

Mô tả nguồn dữ liệu và cấu trúc dữ liệu:

Bộ dữ liệu "Customer Personality Analysis" lấy từ Kaggle chứa thông tin nhân khẩu học và lựa chọn tiêu
dùng của một doanh nghiệp. Dữ liệu gồm 2241 dòng và 29 cột thuộc tính, bao gồm mã khách hàng, năm
sinh, tuổi, nhóm tuổi, trình độ học vấn, tình trạng hôn nhân, thu nhập, và các chỉ số chi tiêu cho các sản
phẩm.

Tiền xử lý dữ liệu:

Dữ liệu có 24 ô thiếu giá trị được xử lý bằng chức năng Preprocess, loại bỏ các biến thiếu bằng công cụ
Impute Missing Values của Orange. Sau đó, mẫu dữ liệu được phân chia thành 70% cho "Data Training"
và 30% cho "Data Test".

Bài toán 1 - Mô tả dữ liệu:

Phân tích đặc điểm và ảnh hưởng của thuộc tính đến việc dự đoán khách hàng tiềm năng sử dụng các
phương pháp thống kê và biểu đồ trong Excel.

Phân tích dữ liệu:

-Nhóm Tuổi Khách Hàng:

Middle-Aged chiếm tỷ lệ cao nhất (67.5%), có sức mua và ổn định. doanh nghiệp cần cung cấp dịch vụ
chăm sóc khách hàng sau khi mua, hỗ trợ tận tình qua điện thoại hoặc email.

Elderly chiếm tỷ lệ thứ 2 (27.9%), tập trung vào sức khỏe và thương hiệu ổn định. Doanh nghiệp nên tối
ưu hoá sản phẩm,trang web mua hàng, cung cấp hướng dẫn, thông tin rõ ràng để khách hàng dễ dàng và
tiện lợi trong việc sử dụng.

Young Adult chiếm tỷ lệ thấp nhất (4.6%), đòi hỏi linh hoạt và chiến lược quảng cáo trực tuyến. cập nhập
theo xu hướng mới. ưu đãi đặc biệt dành cho họ

-Tình Trạng Hôn Nhân:

Tỷ lệ Đã kết hôn chiếm 64%, doanh nghiệp có thể tạo combo sản phẩm hấp dẫn cho gia đình.

-Trình Độ Học Vấn:

Tỷ lê khách hàng Tốt nghiệp đại học chiếm 76.4%, nên tập trung vào chiến lược marketing linh hoạt và
giá trị và chất lượng

-Số Tiền Chi Theo Sản Phẩm:

Rượu và thịt là mặt hàng được chi tiêu nhiều nhất, nên doanh nghiệp cần tối ưu hóa tiếp thị cho chúng.

-Số Lần Mua Hàng Theo Địa Điểm:

Mua hàng trực tiếp và truy cập website chiếm tỷ lệ cao, nhưng doanh nghiệp cũng nên tận dụng các
chiến lược khác nhau cho từng địa điểm mua hàng.

Kết luận Bài Toán 1:Phân tích từng đặc điểm khách hàng giúp xác định nhóm tiềm năng là nhóm tuổi
Middle-Aged (từ 45 tuổi đến nhỏ hơn 65 tuổi), đã kết hôn, trình độ học vấn đã tốt nghiệp đại học. tập
trung vào mặt hàng rượu và thịt. Và phần lớn, khách hàng sẽ tập trung mua hàng trực tiếp, khách hàng
truy cập vào website của doanh nghiệp và nhóm đã đề xuất 1 số chiến lược kinh doanh cụ thể, như tạo
trải nghiệm mua sắm độc đáo, ưu đãi kết hợp cho các mặt hàng tiềm năng, và chiến lược quảng cáo tập
trung.
Bài toán 2: Phân cụm dữ liệu để tìm ra nhóm khách hàng tiềm năng

Bài toán phân cụm khách hàng tiềm năng dựa trên các đặc điểm nhân khẩu học là một quá trình quan
trọng để hiểu rõ và tối ưu hóa chiến lược kinh doanh. Chúng ta sử dụng phương pháp K-Means để phân
loại khách hàng thành các nhóm dựa trên độ tuổi, trình độ học vấn, tình trạng hôn nhân, thu nhập hằng
năm, tổng số con trong gia đình và tổng chi tiêu.

Dựa trên kết quả phân cụm của Kmeans, chúng ta nhận thấy rằng việc chia thành 2 nhóm là phương án
tối ưu nhất, với điểm số Silhouette cao nhất là 0.617. Nhóm khách hàng C1 có thu nhập cao, chi tiêu lớn,
đa dạng độ tuổi, và thường đã tốt nghiệp và kết hôn. Ngược lại, nhóm C2 có thu nhập thấp hơn, chi tiêu
ít, và chủ yếu ở độ tuổi trung bình.

Thông qua minh họa từ Silhouette Plot, Distributions, và Scatter Plot, chúng ta có thể thấy rằng theo kết
quả Feature Statistic thì những đặc điểm của nhóm khách hàng tiềm năng nằm ở nhóm C1và chúng em
tìm ra được 1 số đặc điểm đáng lưu ý như sau: Nhóm 1 có thu nhập cao (chủ yếu từ 52000 đô - 72000
đô), mức chi tiêu cao ( 400 - 1200 đô) và số người không có con hoặc 1 con trong gia đình chiếm chủ
yếu. Điểm đặc thù của 2 nhóm khách hàng đều ở độ tuổi trung niên, đã tốt nghiệp và đã kết hôn.

Từ các dữ liệu và 6 thuộc tính của 2 nhóm khách hàng, giúp chúng ta có cái nhìn tổng quan về đặc điểm
của từng nhóm. Đối với kinh doanh, việc áp dụng kiến thức về phân nhóm khách hàng và quan trọng để
tối ưu hóa chiến lược giá cả và sản phẩm.

Dựa vào phân tích chi tiết, chúng em đề xuất các chiến lược tùy chỉnh cho mỗi nhóm khách hàng. Đối với
nhóm C1, nên tập trung vào các chương trình ưu đãi, sản phẩm và dịch vụ cao cấp. Đồng thời, cần duy
trì giao diện và trải nghiệm dịch vụ tốt nhất. Đối với nhóm C2, có thể phát triển các chiến lược giá cả phù
hợp và sản phẩm dễ tiếp cận.

Bài toán 3: Mô hình dự đoán mức thu nhập của khách hàng tiềm năng 2.6.1.Mô tả bài toán : Bước 1: Sử
dụng Data Sampler để thực hiện lấy mẫu dữ liệu -Lấy 70% mẫu dữ liệu từ file “Data đã tiền xử lý” trước
đó và lưu với tên “Data Training”. -Lấy 30% mẫu dữ liệu từ file “Data đã tiền xử lý” trước đó và lưu với
tên “Data Test”. Bước 2: Chọn dữ liệu File “Data Training” và chọn cột “Income_Group” làm Target.
Bước 3: Nối File “Data Training” và 4 phương pháp Logistic Regression, SVM, Decision Tree và Test and
Score → Nối Test and Score với Confusion Matrix và ROC Analysis để thực hiện đánh giá kết quả và đánh
giá ma trận nhầm lẫn. Bước 4: Liên kết phương pháp tốt nhất và File “Data Test” với Predictions để
đánh giá và phân loại dữ liệu đầu vào. Bước 5: Xuất kết quả dự báo qua Data Table, lưu dưới tên file
“Phân lớp”.

Mô hình Classification: Dự đoán khách hàng thuộc nhóm thu nhập nào, ở đây là nhóm A với mức thu
nhập trên 55,000 USD mỗi năm hay nhóm B với mức thu nhập dưới 55,000 USD mỗi năm. Việc dự đoán
dựa trên nhóm tuổi/trình độ học vấn/tình trạng hôn nhân/số con/số ngày kể từ lần cuối mua hàng/tổng
chi tiêu cho các mặt hàng trong 2 năm gần đây/số đơn hàng có giảm giá/số đơn hàng mua qua trang
web doanh nghiệp/số đơn hàng mua qua catalog doanh nghiệp/số đơn hàng mua trực tiếp tại cửa hàng
của doanh nghiệp.

Thử nghiệm trên 3 phương pháp: Decision Tree, SVM và Logistic Regression.

Bài toán được thực hiện dựa trên “Lý thuyết về sự lựa chọn của người tiêu dùng - Giới hạn ngân sách:
khả năng mua hàng của người tiêu dùng” của bộ môn kinh tế vi mô. Lý thuyết này xuất phát từ “10
nguyên lý của kinh tế học”, cụ thể là nguyên lý thứ 3 về “Con người duy lý”, nghĩa là họ “cố gắng làm tốt
nhất để đạt được mục tiêu của họ với các cơ hội sẵn có”.

2.6.1. Phân tích và đánh giá:

- Do dữ liệu đã đạt chuẩn, không có dữ liệu bị lỗi nên nhóm bỏ qua bước tiền xử lý dữ liệu.

- Sử dụng Test and Score để so sánh đánh giá 3 thuật toán: Tree, Logistic Regression và SVM. Lựa
chọn thuật toán chính xác và tốt nhất phục vụ cho việc dự báo.

- Sử dụng dữ liệu từ “Data Training”, chọn biến “Income_Group” là biến phụ thuộc (target).

Tại bảng Test and Score, chọn tỷ lệ lấy mẫu tại Cross Validation hoặc Random Sampling để có chỉ số đẹp:

Nhận xét:

Evaluation results cho ta biết được kết quả định lượng của 3 mô hình: Cây quyết định (Decision Tree),
Hồi quy logistic (Logistic Regression) và SVM và xem giá trị nào là cao nhất. Sau khi xem xét, nhóm thấy
mô hình Hồi quy Logistic (Logistic Regression) ở trường hợp Cross Validation, 10 phần (folds) có:

- Tính chính xác (CA): 0.927;

- Giá trị trung bình điều hoà (F1): 0.927;

- Độ chính xác (Precision): 0.927;

- Độ phủ (Recall): 0.927;

- Diện tích đường cong (AUC): 0.980 đạt số liệu tốt nhất trong các ví dụ trên.

=> Từ đó rút ra kết luận nên chọn phương pháp Hồi quy logistic (Logistic Regression).

2.6.1.1. Đánh giá mô hình dựa trên kết quả của Ma trận nhầm lẫn (Confusion Matrix):

Nhận xét:

Dựa vào kết quả của 3 mô hình trên, ta có thể thấy đối với sai lầm loại 2 (dự đoán là B nhưng thực tế
thuộc nhóm A): Dự báo là khách hàng thuộc nhóm B nhưng thực tế là thuộc nhóm A. Nếu sai lầm này
càng lớn thì việc dự đoán mức thu nhập của khách hàng sẽ không còn ý nghĩa và công ty sẽ không thể
biết được nhóm khách hàng có khả năng tiêu thụ sản phẩm của mình. Việc này sẽ khiến lượng cầu hàng
hóa giảm và khiến doanh nghiệp chịu tổn thất kinh tế.

Nhóm đã quan sát và thấy: FP (LR) = 8.1% < FN (Tree) = 8.6% <FP (SVM) = 10.3%. Như vậy, lỗi loại 2 của
phương pháp Logistic Regression là nhỏ nhất nên ta nên sử dụng phương pháp này.

2.6.1.1. Đánh giá mô hình dựa trên kết quả của ROC Analysis:

Nhận xét:

Mô hình hiệu quả khi có đường cong ROC càng tiệm cận (0;1). Dựa vào kết quả trên, nhóm quan sát thấy
mô hình Hồi quy logistic (Logistic Regression) có đường cong ROC tiệm cận (0;1) nên mô hình này hiệu
quả nhất.

Kết luận: Phương pháp Hồi quy logistic (Logistic Regression) là phương pháp tốt nhất.
2.6.1.1. Sau khi đánh giá mô hình, ta chọn phương pháp Hồi quy logistic (Logistic Regression) để
dự báo dữ liệu.

Xét Ma trận nhầm lẫn (Confusion Matrix) của phương pháp hồi quy logistic

Ma trận này thể hiện rõ:

- 604 A-A: dự đoán 604 người là khách hàng loại A và trên thực tế là khách hàng loại A.

- 68 B-A: dự đoán 68 người là khách hàng loại B và trên thực tế là khách hàng loại A.

- 40 A-B: dự đoán 40 người là khách hàng loại A và trên thực tế là khách hàng loại B.

- 776 B-B: dự đoán 776 người là khách hàng loại B và trên thực tế là khách hàng loại B.

 Điều trên cho thấy, số khách hàng thuộc nhóm B nhiều hơn.

Kết quả và phát hiện từ bài toán dự đoán mức thu nhập khách hàng bằng phương pháp hồi quy Logistic
- Random Sampling cho thấy độ chính xác cao. Đề xuất rằng doanh nghiệp có thể áp dụng mô hình này
để xác định nhóm khách hàng phù hợp với giới hạn ngân sách, giúp tối đa hóa lợi nhuận và tránh tình
trạng hàng tồn kho. Mô hình cũng quan trọng vì khách hàng có thu nhập khác nhau sẽ có hành vi tiêu
dùng khác nhau, và việc dự đoán giúp định hình chiến lược giá phù hợp với tâm lý của từng nhóm khách
hàng.

Kết luận trong nền kinh tế 4.0, việc xác định chân dung khách hàng là quan trọng để hiểu rõ hơn về nhu
cầu và mong đợi của họ. Điều này giúp doanh nghiệp tối ưu hóa chiến lược kinh doanh, marketing, và
phát triển sản phẩm, dịch vụ phù hợp. Đối với doanh nghiệp đang nghiên cứu chân dung khách hàng,
nhóm đã xác định một nhóm khách hàng tiềm năng: người trung niên, tốt nghiệp đại học, đã kết hôn.
Nhóm đề xuất chiến lược nâng cao chất lượng sản phẩm, tối ưu hóa trải nghiệm mua sắm, và tăng
cường chăm sóc khách hàng.

Tuy nhiên, cũng nhấn mạnh một số hạn chế, bao gồm hạn chế kiến thức chuyên ngành, phạm vi nghiên
cứu hạn chế, và độ chính xác của dữ liệu sử dụng. Một số kiến nghị cho doanh nghiệp bao gồm nâng cao
chất lượng sản phẩm, tối ưu hóa trải nghiệm mua sắm, và phát triển chương trình khuyến mãi và chăm
sóc khách hàng. Chiến lược tiếp thị đa dạng và phân khúc hoá đối tượng khách hàng cũng được đề xuất,
cùng với việc duy trì và cải thiện dịch vụ giữ chân khách hàng thông qua các chương trình khuyến mãi và
thành viên.

You might also like