0% found this document useful (0 votes)
68 views37 pages

Data Mining - 3

presentation
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd
0% found this document useful (0 votes)
68 views37 pages

Data Mining - 3

presentation
Copyright
© © All Rights Reserved
We take content rights seriously. If you suspect this is your content, claim it here.
Available Formats
Download as PDF, TXT or read online on Scribd

The image part with relationship ID rId3 was not found in the file.

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG


VIỆN KINH TẾ – BƯU ĐIỆN

CHƯƠNG 3
Khai phá dữ liệu trong
Marketing

The image part with relationship ID rId3 was not found in the file.
NỘI DUNG BÀI HỌC
Những bước quan trọng của 1 dự án khai phá dữ liệu
• Thu thập dữ liệu
• Xây dựng các mục chủ chốt
• Lựa chọn và khai thác theo mục chủ chốt
• Xây dựng mô hinh

Một số ứng dụng trong Marketing


• Phân tích khách truy cập Website
• Phân tích nhóm hàng hóa - Market basket analysis
• CRM và Khách hàng: hài lòng, giữ chân, duy trì
• Bán chéo (Cross-Selling) và Bundled Marketing
• Lắng nghe khách hàng với Texting mining
Ths. Nguyễn Hoàng Giang – Khai phá dữ liệu trong Marketing
NỘI DUNG BÀI HỌC

Những bước quan trọng của 1 dự án khai phá dữ liệu


• Thu thập dữ liệu
• Xây dựng các mục chủ chốt
• Lựa chọn và khai thác theo mục chủ chốt
• Xây dựng mô hinh

Ths. Nguyễn Hoàng Giang – Khai phá dữ liệu trong Marketing


LIÊN HỆ THÔNG TIN DOANH NGHIỆP
§ Nhiệm vụ của người khai phá phân tích dữ liệu:

ü Biến đổi ngôn ngữ doanh nghiệp thành ngôn ngữ của Khai phá dữ liệu Vấn đề kỹ
thuật tìm ra
ü Định hướng rõ cách sử dụng kết quả và hướng trình bày kết quả
mô hình xác
định mối
Khai phá dữ liệu:
Doanh nghiệp: quan hệ
- Xây dựng kế hoạch ngăn ngừa tỷ lệ giữa các
- Tìm quy luật hành vi
khách hàng rời bỏ biến ßà
khách hàng
- Dự đoán số lượng khách hàng sử Hiểu doanh
- Tìm quy luật có ích cho nghiệp để
dụng sản phẩm trong 3 năm tới
một chiến dịch xác định
- Xác định danh sách sản phẩm có khả
- Học thêm kiến thức biến
năng ảnh hưởng tới doanh thu

Ths. Nguyễn Hoàng Giang – Khai phá dữ liệu trong Marketing


DỮ LIỆU TRONG DỰ ÁN KHAI PHÁ DỮ LIỆU

§ Thu thập dữ liệu: nguồn dữ liệu, cách thức thu thập


§ Loại dữ liệu cần lưu ý: missing value, outliers,…
§ Ví dụ: lọc và xử lý (Thống kê mô tả)
ü Thay đổi format dữ liệu để chạy công thức
ü Tìm và xóa bỏ những ký hiệu lạ lẫn trong dữ liệu: file csv.

Ghi nhớ:
(1)Các loại dữ liệu
(2)Biện pháp lựa chọn và xử lý
XÂY DỰNG MỤC CHỦ CHỐT

§ Mục chủ chốt là các mục quan trọng (đầu vào) để thiết lập mô
hình khai phá dữ liệu
§ Đối với các biến x: Có thể sử dụng các thuật toán để xác định
§ Đối với biến phụ thuộc y: lựa chọn theo đề bài ban đầu

Ghi nhớ:
(1) Xác định mục chủ chốt
(2) Logic tư duy trên phần mềm
LỰA CHỌN VÀ KHAI THÁC THEO MỤC CHỦ CHỐT

§ Lựa chọn phương thức khai thác phù hợp


§ Ví dụ: Phân loại (trường hợp dữ liệu có thể xác định rõ đặc tính phân hai của
biến đích – biến y i.e. Có/Không, Tốt/Xấu)
Phân khúc (trường hợp dữ liệu không thể/không có đặc tính của biến
đích phân thành các loại)

Ghi nhớ:
(1) Mong muốn – mục đích của doanh nghiệp/người khai phá
(2) Biện pháp lựa chọn và xây dựng
XÂY DỰNG MÔ HÌNH

§ Lựa chọn thuật toán – tư duy logic: lý do lựa chọn và sự phù hợp
§ Áp dụng vào thực tế thế nào?

Ghi nhớ:
(1)Phù hợp với loại dữ liệu đầu vào
VÍ DỤ File Credit.csv
Doanh nghiệp ABC trong lĩnh vực ngân hàng cung cấp dịch vụ thẻ tín dụng. Với
dữ liệu thu thập được từ nhóm khách hàng hiện tại đang sử dụng dịch vụ,
doanh nghiệp lưu trữ thông tin (1) Nhân khẩu học & (2) Thông tin về thẻ của
khách hàng. Doanh nghiệp muốn tìm hiểu về hành vi sử dụng thẻ tín dụng của
nhóm khách hàng và khám phá nhóm khách hàng tiềm năng.
VÍ DỤ
• Income: thu nhập của khách hàng (10000$)
• Limit: hạn mức tín dụng cung cấp cho khách hàng
• Rating: xếp hạng tín dụng của khách hàng
• Cards: số lượng thẻ tín dụng mà khách hàng có
• Age: độ tuổi của khách hàng
• Education: trình độ học vấn của khách hàng (số năm giáo dục)
• Gender: giới tính của khách hàng
• Student: Khách hàng có là sinh viên hay không
• Married: Nếu khách hàng đã có gia đình
• Ethnicity: dân tộc của khách hàng
• Balance: Số dư thẻ tín dụng trung bình tính bằng đô la
VÍ DỤ
VÍ DỤ
VÍ DỤ
• Lựa chọn biến và chuẩn đoán dữ liệu: boxplot, biểu đồ tần suất,…(thống kê
mô tả)
• Lựa chọn biến độc lập và phụ thuộc
• Lựa chọn kỹ thuật phân tích: Hồi quy, phân cụm
NỘI DUNG BÀI HỌC

Một số ứng dụng trong Marketing


• Phân tích khách truy cập Website
• Phân tích nhóm hàng hóa - Market basket analysis
• CRM và Khách hàng: hài lòng, giữ chân, duy trì
• Bán chéo (Cross-Selling) và Bundled Marketing
• Lắng nghe khách hàng với Texting mining

Ths. Nguyễn Hoàng Giang – Khai phá dữ liệu trong Marketing


PHÂN TÍCH KHÁCH HÀNG TRÊN WEBSITE

Đầu
§ Phân tích thông tin trên website: Đo lường, thu Xử lý Chiến
Dữ liệu mục chủ
Dữ liệu chốt lược
thập, phân tích và báo cáo dữ liệu web nhằm
ü Hiểu và tối ưu hóa việc sử dụng web
Thường Thường Theo
Mục
ü Công cụ để nghiên cứu thị trường và kinh dưới dưới dạng chiến
tiêu,
dạng dữ chỉ số à lược
doanh đích
liệu phương thức kinh đến
ü Đánh giá và cải thiện hiệu quả của trang đếm đo lương doanh
web -Tối ưu
-Số lần giới -Tổng thời -Tỷ lệ chuyển đổi chi phí
§ Quy trình dữ liệu thiệu gian -Giá trị đặt hàng -Tăng
-Số thời gian -Tỷ lệ quay trung bình doanh
§ Vai trò của Khai phá dữ liệu trong phân tích
lại -Tỷ suất hoàn thu/thị
web: A/B testing – tìm mối liên kết 2 biến thể -KH đặc biệt thành nhiệm vụ phần
PHÂN TÍCH KHÁCH HÀNG TRÊN WEBSITE

§ A/B testing: ngẫu nhiên § 5 điều cần lưu ý:


ü phương pháp tuyệt vời để tìm ra các ü Không kết luận khi mẫu quá nhỏ
chiến lược tiếp thị và quảng cáo trực ü Có thể có hiệu ứng tâm lý ảnh hưởng tới A/B testing
tuyến tốt nhất cho doanh nghiệp ü Cẩn thận những điểm ngách của A/B testing
ü Có thể áp dụng để kiểm tra mọi thứ trực ü Phân mẫu so sánh ngẫu nhiên và rõ rệt hai loại
tuyến, từ bản sao trang web đến email bán ü Chỉ kiểm nghiệm với những khách hàng có khả năng bị
hàng quảng cáo ảnh hưởng bởi kết quả
§ Phương pháp:
ü Xác định rõ biến muốn kiểm nghiệm A/B testing on Tableau:
https://www.youtube.com/watch?v=veB0MdDZqWQ
ü Làm rõ mục đích muốn nhắm đến
ü Các thử nghiệm cần chạy song song
PHÂN TÍCH NHÓM HÀNG HOÁ

§ Liên hệ mật thiết với thuật toán Quy luật liên kết - Association rule learning: tìm kiếm mối
liên hệ giữa các đầu vào, ví dụ: hành vi mua sản phẩm từ 1 siêu thị/doanh nghiệp trong cùng 1
thời điểm của 1 khách hàng/nhiều khách hàng à Mua cái gì và khi nào??
§ Point of Sale Data: dữ liệu về giao dịch mua bán sản phẩm (bán lẻàsản phẩm khác) tại 1 thời
điểm (thời gian+địa điểm)
§ If-then: Nếu mua A sẽ mua B
§ Next product to buy, customer segments, profitability, product proposition (combo)

Cus ID Sản phẩm Ví dụ:


(1) {sữa, thịt} = sản
1 {bánh mì, trứng, sữa}
Giao phẩm thường mua
dịch 2 {bánh mì, sữa, thịt}
(2) {sữa} à {thịt} =
3 {bánh mì, sữa, thịt, trứng} mua sữa sẽ mua
4 {trứng, sữa, thịt, rau} thịt
PHÂN TÍCH NHÓM HÀNG HOÁ

A=>B[Support, Confidence] Laptop=>Phần mềm diệt virus


§ Quy luật liên kết
[Support=10%,confidence=70%]
Support: Tỷ suất giao dịch
ü Support Nghĩa là:
có sản phẩm X
ü Confidence ü 10% giao dịch chỉ ra rằng Phần
mềm diệt virus được mua cùng
ü Lift => Support(X)= tần suất xuất
Laptop
hiện của (X)/N
ü 70% khách hàng mua phần
=> A=>B: Support(A=>B)= tần
mềm diệt virus đã mua Laptop
suất xuất hiện của (A,B)/N

Confidence: Tỷ suất B được mua với A


=> Confidence(A=>B)=P(A∩B)/P(A)=tần suất xuất hiện của (A,B)/tần
suất xuất hiện của (A)
<tổng giao dịch có A và B chia cho tổng giao dịch có A>
=> Confidence(sữa=>thịt)=(3/4)/(4/4)=0.75=75%
PHÂN TÍCH NHÓM HÀNG HOÁ

A=>B[Support, Confidence] Laptop=>Phần mềm diệt virus


§ Quy luật liên kết
[Support=10%,confidence=70%]
Support: Tỷ suất giao dịch
ü Support Nghĩa là:
có sản phẩm X
ü Confidence ü 10% giao dịch chỉ ra rằng Phần
mềm diệt virus được mua cùng
ü Lift => Support(X)= tần suất xuất
Laptop
hiện của (X)/N
ü 70% khách hàng mua phần
=> A=>B: Support(A=>B)= tần
mềm diệt virus đã mua Laptop
suất xuất hiện của (A,B)/N

Confidence: Tỷ suất B được mua với A


=> Confidence(A=>B)=P(A∩B)/P(A)=tần suất xuất hiện của (A,B)/tần
suất xuất hiện của (A)
<tổng giao dịch có A và B chia cho tổng giao dịch có A>
=> Confidence(sữa=>thịt)=(3/4)/(4/4)=0.75=75%
PHÂN TÍCH NHÓM HÀNG HOÁ

Lift(A=>B)
§ Quy luật liên kết Ví dụ: Quy luật liên kết {bánh
mì}=>{trứng}, lift sẽ là:
ü Support Lift: Chỉ số liên kết giữa A và
ü Confidence B trong Quy luật liên kết A=>B.
support(bánh mì)=3/4=0.75
<A ảnh hưởng tới B thế nào>.
ü Lift support(trứng)=3/4=0.75
=> Lift(bánh mì=>trứng)
=>Lift(A=>B)
=0.5/0.75∗0.75=0.8888~0.9 < 1
=Support/(Supp(A)*Supp(B))

Nếu lift = 1 thì: A và B mang tính độc lập, không ảnh hưởng, ko có
quy luật nào giữa A và B
Nếu lift > 1 thì: A và B phụ thuộc vào nhau, mức độ phụ thuộc chính
là giá trị của lift
Nếu lift < 1 thì: A có ảnh hưởng tiêu cực tới B
PHÂN TÍCH NHÓM HÀNG HOÁ

Bảng tương quan Ví dụ: Quy luật liên kết {bánh


§ Quy luật liên kết Nếuà Thì mì}=>{trứng}, chi-square sẽ là:
ü Support A B
support(bánh mì=>trứng)=2/4=0.5
ü Confidence Có Không confidence(bánh
ü Lift Có {A,B} {A} mì=>trứng)=(2/4)/(3/4)=0.67
ü +)Chi-square Không {B} X Lift(bánh mì=>trứng) = 0.9
=> = 4*(0.9-1)^2 * … =
0.34

Kiểm
nghiệm
tính ngẫu
nhiên Chi-square càng cao càng tốt -> Chứng minh quy luật A liên kết B
https://www.youtube.com/watch?v=IXZyPbahDWs
PHÂN TÍCH NHÓM HÀNG HOÁ
• Giả sử A,B C, và C là sản phẩm mới. Rõ ràng, người mua hàng
thích sản phẩm A,B sẽ ưa thích sản phẩm C, vậy tập trung hướng tới
nhóm khách hang đang mua sản phẩm A & B nhưng chưa thử sản phẩm
C. Sử dụng các chương trình khuyến mại nhằm kích thích người mua
thử sản phẩm C.
• Giả sử A,B C và quy luật này đúng cho rất nhiều giao dịch. Vì vậy,
cân nhắc không nên giảm giá!!!
• Giả sử A,B C trong trường hợp thanh lý hàng tồn kho, thiết kế
các chương trình phù hợp để giảm giá sản phẩm trong bộ kết hợp trên
phụ thuộc vào mục tiêu marketing
PHÂN TÍCH NHÓM HÀNG HOÁ

Nếu nhóm hàng hoá A & B được mua cùng với nhau, những quyết định
Marketing có thể thực hiện bao gồm:
• Thực hiện trưng bày sản phẩm. Đặt hàng hoá A và B cùng với nhau nếu
trong cùng một phân loại sản phẩm
• Chương trình khuyến mãi được áp dụng trên A hoặc B
• Chương trình truyền thông cho B có thể nhắm tới nhóm đối tượng KH A
• A và B có thể kết hợp trở thành một sản phẩm mới
BÁN CHÉO VÀ BÁN THÊM https://www.youtube.com/watch?v=aslTl6i-hpQ

Doanh nghiệp Khách hàng


§ Bundle marketing: bán thêm, bán § Bundle marketing: tác động tới nhận
chéo sản phẩm, gia tăng độ nhận thức về giá trị hàng hóa+giá sản
diện à lợi nhuận phẩm à Có lời hơn về giá và số
lượng, cảm giác được làm chủ

Khách hàng hiện hữu

Kỹ thuật khai phá dữ liệu:


- Phân tích hành vi khách hàng: phân nhóm, phân loại, yếu tố nhân khẩu học kết
hợp hành vi mua sắm
- Phân tích hành vi sản phẩm: phân nhóm sản phẩm – mối liên kết (market basket)
- So sánh ưu đãi vs. không ưu đãi (theo mùa)
BÁN CHÉO VÀ BÁN THÊM

§ 2 case studies: Horizon và Netting – nghiên cứu về hành vi sử dụng sản phẩm
của khách hàng hiện hữu
§ Phân khúc khách hàng: Tài chính
QUẢN LÝ QUAN HỆ KHÁCH HÀNG
4 phân loại
KH chính

KH cũ
Bên liên KH tiềm KH hiện
KH mới
quan: năng tại
- Chiến lược
- Marketing
- Sales
- After-sales
Biến họ Biến họ Biến họ
- Khách hàng
thành thành thành
- Đối thủ khách khách khách hàng
- Cổ đông hàng hàng trung thành Thu
lặp lại hút lại
Mục tiêu
QUẢN LÝ QUAN HỆ KHÁCH HÀNG

§ CRM - Quản lý quan hệ khách hàng:


ü Khách hàng đóng vai trò trung tâm trong chiến lược doanh nghiệp
ü Phần mềm hỗ trợ: SAP ERP (ngoài Khai phá dữ liệu)

Hành động Hành động của


của KH doanh nghiệp

Thấu hiểu khách


Đo lường và hàng
Đánh giá Khai phá
dữ liệu

Ghi nhớ:
1) Khai phá dữ liệu là 1 phần trong Quản lý quan hệ khách hàng
QUẢN LÝ QUAN HỆ KHÁCH HÀNG
RFM measure where:
R = recency of last purchase
F = frequency of purchase within a given period of time
M = monetary value of purchase(s)

Changes in customer behavior can be defined in three ways:


•Lift: increased usage of a product or service
•Shift: the acquisition of new customers for a product or service
•Retention: a customer’s current activity level with a given product or service is maintained.

Three customer behaviors that might be considered key information in identifying long-term
loyalty include:
• Overall marketing response
• Customer inquiries
• Customer complaints
QUẢN LÝ QUAN HỆ KHÁCH HÀNG

Nguồn: https://phamdinhkhanh.github.io/
QUẢN LÝ QUAN HỆ KHÁCH HÀNG

§ Thu thập dữ liệu: xác định dữ liệu mang dấu ấn của khách hàng
ü Khách hàng là Ai? Người mua + quyết định + sử dụng = Khách hàng.
ü Độ sẵn có của dữ liệu:
(-) nhiều kiểu dữ liệu, dữ liệu vô danh, không liên kết đủ, trong các bộ phận khác
nhau;
(+) mỗi kiểu có tác dụng riêng

Ghi nhớ:
2) Nhiều mối quan hệ khách hàng, phụ thuộc vào mục tiêu kinh doanh
QUẢN LÝ QUAN HỆ KHÁCH HÀNG

§ Một số phương pháp kỹ thuật phổ biến


ü Link Analysis
ü Neuro network
ü Chi-square
Mỗi phương thức được sử dụng phụ thuộc vào sự lựa chọn+yêu cầu của từng tình
huống

Ghi nhớ:
3) Nhiều phương pháp khai phá – mục đích chung: tìm mối quan hệ
4) Cẩn thận về tính bảo mật và hợp pháp của dữ liệu
QUẢN LÝ QUAN HỆ KHÁCH HÀNG

§ Link Analysis vs. Neural network: phân tích tìm ra mối quan hệ giữa các điểm dựa trên
lý thuyết biểu đồ mối quan hệ (network, graph theory)

BLACK ü Chỉ ra mối quan hệ vs. Đưa ra dự đoán (tập duyệt)


Artificial
BOX Neuron
Link Neural
QUẢN LÝ QUAN HỆ KHÁCH HÀNG

§ Neural network vs. Chi-square: phân tích tìm ra mối quan hệ giữa các điểm dựa trên
mối quan hệ có điều kiện
ü Weight giả định (neural network, weight co-efficient) vs Cây điều kiện If-then (chi-
square, decision tree)

Chi-square Neural
LẮNG NGHE KHÁCH HÀNG VỚI TEXT MINING

§ Ngôn ngữ: phương thức liên hệ, trao đổi thông tin, lưu trữ thông tin – bối cảnh doanh
nghiệp
§ Loại dữ liệu: không cấu trúc (unstructured data) – Khó nhưng tiềm năng!
§ Nhiều phương thức kỹ thuật khai phá phân tích: phân khúc, tổng hợp, phân loại, mô hình
Baye, sentiment analysis…
§ Tìm ra đặc điểm và kết hợp lại với các dữ liệu khác
§ 2 kiểu khai phá: bag-of-words vs natural language processing
§ 1 vài công cụ khai phá: SPSS modeler, Tableau, Weka, SAS text miner

Ghi nhớ:
(1) 1 nhánh mới của khai phá dữ liệu
LẮNG NGHE KHÁCH HÀNG VỚI TEXT MINING

§ 2 kiểu khai phá: bag-of-words vs natural language processing

Quá trình xử lý ngôn ngữ tự nhiên


1 Mô hình túi của từ ngữ Bag of words 2 Natural language processing
▪ B1: Loại bỏ hết những phần râu ria trong văn ▪ 1 nhánh của khoa học máy tính, AI – trí tuệ
bản: dấu chấm, phấy, sai chính tả, từ phổ biến nhân tạo…
(tôi, cô, anh, và, những, ….) ▪ Thông qua cấu trúc và ý nghĩa của từng loại
▪ B2: Thiết lập ma trận liên kết cho nghĩa từ chủ ngôn ngữ: chữ viết, âm thanh, ngữ pháp…
đề và các nội dung liên quan thuộc chủ đề đó
▪ B3: Chuyển đổi dữ liệu dạng chữ thành các
điểm đại diện để ứng dụng kỹ thuật khai phá dữ
liệu truyền thống (Bayes)

(1) Đối với tiếng Việt: tương đối khó do 1 từ có thể có nhiều âm tiết/ngữ
(2) BoW không phân biệt được sự khác nhau về ý nghĩa khi đảo từ trong 1 câu
LẮNG NGHE KHÁCH HÀNG VỚI TEXT MINING

§ Cách thức xử lý dữ liệu

Dữ liệu đầu vào

ID Khách hàng Sở hữu sản phẩm Ý kiến/Nhận xét/Phản hồi


(Y/N)
1 Y Sản phẩm tốt, chất lượng
2 N Giá ổn nhưng không phải sản
phẩm tôi muốn
Kết quả
Từ Tần suất Nhóm Xu hướng
Sản 2 Tài chính Tích cực Bộ ngôn ngữ
Phẩm 2 Sản phẩm Tiêu cực thiết lập trong
phần mềm
Tốt 1 Kiểm nghiệm Bình thường
giá 1 …. Ko xác định
ÔN TẬP CHƯƠNG 3

3 Khai phá dữ liệu trong Marketing:


ü Những bước quan trọng
ü Ứng dụng trong Marketing

Những bước quan trọng của một dự Ứng dụng trong Marketing:
án khai phá dữ liệu trong Marketing: 1. Tìm hiểu hành vi khách
1. Liên hệ vấn đề doanh hàng
nghiệp 2. Hành vi sản phẩm
2. Thu thập dữ liệu => Bán thêm, bán chéo, chiến
3. Thực hành với các mục lược thu hút và giữ chân
chủ chốt khách hàng
4. Xây dựng mô hình

You might also like