You are on page 1of 46

TRƯỜNG ĐẠI HỌC NGOẠI THƯƠNG

VIỆN KINH TẾ VÀ KINH DOANH QUỐC TẾ

…………..o0o…………..

BÁO CÁO CUỐI KÌ


MÔN HỌC: PHÂN TÍCH DỮ LIỆU KINH DOANH

ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU KINH DOANH THÁNG


3/2023 VÀ ĐỀ XUẤT GIẢI PHÁP NÂNG CAO DOANH SỐ,
TRẢI NGHIỆM KHÁCH HÀNG CHO SEPHORA

Nhóm SV thực hiện: Nhóm 4

Lớp tín chỉ: VJP205(HKI1-2324)1.1

Giảng viên hướng dẫn: PGS.TS Nguyễn Thị Thuỳ Vinh


TS. Phạm Thị Cẩm Anh

Hà Nội, 10/2023
DANH SÁCH THÀNH VIÊN

ĐÁNH
STT HỌ TÊN MÃ SINH VIÊN CHỨC VỤ
GIÁ

1 Phan Thị Châu Anh 2111510010 Nhóm trưởng 100%

2 Lê Phương Chi 2114110045 Thành viên 100%

3 Phạm Nguyễn Quang Minh 2111510055 Thành viên 100%

4 Chu Thúy Quỳnh 2114110264 Thành viên 100%

5 Trương Thanh Sơn 2111510075 Thành viên 100%

6 Trần Quang Toản 2111510076 Thành viên 100%

7 Nguyễn Phương Uyên 2114510081 Thành viên 100%

1
MỤC LỤC
LỜI MỞ ĐẦU ................................................................................................................ 4
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU ........................................ 6
1.1. Tổng quan bộ dữ liệu .........................................................................................6
1.2. Giả thuyết nghiên cứu ........................................................................................6
1.2.1. Giả thuyết 1 ...................................................................................................6
1.2.2. Giả thuyết 2 ...................................................................................................6
1.2.3. Giả thuyết 3 ...................................................................................................6
1.3. Các phương pháp phân tích dữ liệu được sử dụng .........................................7
CHƯƠNG 2: XỬ LÝ DỮ LIỆU VÀ ĐỀ XUẤT GIẢI PHÁP NÂNG CAO
DOANH SỐ, TRẢI NGHIỆM KHÁCH HÀNG CHO SEPHORA ..........................8
2.1. Xử lý và phân tích dữ liệu ..................................................................................8
2.1.1. Làm sạch dữ liệu ...........................................................................................8
2.1.2. EDA (Exploratory Data Analysis) ..............................................................12
2.1.3. Sentiment Analysis ......................................................................................20
2.1.4. Text Analysis ...............................................................................................26
2.1.5. Recommender System .................................................................................28
2.2. Kiểm chứng giả thuyết .....................................................................................36
2.3. Giải pháp ...........................................................................................................39
2.3.1. Từ phương pháp EDA .................................................................................39
2.3.2. Từ phương pháp Sentiment Analysis ..........................................................41
2.3.3. Từ phương pháp Text Analysis ...................................................................41
2.3.4. Từ phương pháp Recommender System .....................................................41
CHƯƠNG 3: KẾT LUẬN ........................................................................................... 43
TÀI LIỆU THAM KHẢO .......................................................................................... 45

2
DANH MỤC BẢNG BIỂU
Bảng 2.1. Số lượng và tỷ trọng của dữ liệu thiếu so với dữ liệu gốc ..............................9
Bảng 2.2. Phân tích dữ liệu cột loves count, reviews, price usd ...................................10
Bảng 2.3. Các sản phẩm của Shani Darden Skin Care và SEPHORA COLLECTION 29
Bảng 2.4. Top 8 sản phẩm nhận được nhiều đánh giá nhất...........................................31
Bảng 2.5. Tỷ trọng theo từng loại da của người tiêu dùng sản phẩm Rose Quartz Facial
Roller .............................................................................................................................31
Bảng 2.6. Tỷ trọng theo từng loại da của người tiêu dùng sản phẩm Jade Facial Roller
.......................................................................................................................................32
Bảng 2.7. Tỷ trọng theo từng loại da của người tiêu dùng sản phẩm 1 Minute Face
Masks .............................................................................................................................32
Bảng 2.8. Tỷ trọng theo từng loại da của người tiêu dùng sản phẩm Clarifying Peel
Pads ................................................................................................................................33
Bảng 2.9. Tỷ trọng theo từng loại da của người tiêu dùng sản phẩm Supplement Case
.......................................................................................................................................33
DANH MỤC HÌNH ẢNH
Hình 2.1. Biểu đồ giá trị loves count .............................................................................10
Hình 2.2. Biểu đồ giá trị reviews ...................................................................................11
Hình 2.3. Biểu đồ giá trị price usd.................................................................................11
Hình 2.4. Top sản phẩm của Primary Category ............................................................13
Hình 2.5. Top sản phẩm của Secondary Category ........................................................13
Hình 2.6. Top sản phẩm của Tertiary Category ............................................................14
Hình 2.7. Giá trung bình các dòng sản phẩm ................................................................15
Hình 2.8. Top 10 thương hiệu phổ biến nhất.................................................................16
Hình 2.9. Kết quả Excel đưa ra .....................................................................................17
Hình 2.10. Wordcloud các đặc tính được tìm kiếm nhiều nhất .....................................18
Hình 2.11. Top 10 sản phẩm được yêu thích nhất.........................................................19
Hình 2.12. Công thức Lehvenstein xác định chuỗi gần giống nhất ..............................19
Hình 2.13. Phân bổ mức rating của khách hàng ............................................................21
Hình 2.14. Danh sách 20 sản phẩm có rating cao nhất .................................................21
Hình 2.15. Top 20 sản phẩm có rating cao nhất ............................................................22
Hình 2.16. Top 20 sản phẩm có rating thấp nhất ..........................................................23
Hình 2.17. Top 20 sản phẩm skincare được yêu thích nhất ..........................................23
Hình 2.18. Top 20 sản phẩm Bath & Body được yêu thích nhất ..................................24
Hình 2.19. Top 20 sản phẩm Fragrance được yêu thích nhất........................................24
Hình 2.20. Top 20 sản phẩm Hair được yêu thích nhất ................................................25
Hình 2.21. Top 20 sản phẩm Makeup được yêu thích nhất ..........................................25
Hình 2.22. Top 20 sản phẩm Mini Size được yêu thích nhất ........................................26
Hình 2.23. Wordcloud các đánh giá tích cực ................................................................27
Hình 2.24. Wordcloud các đánh giá tiêu cực ................................................................28
Hình 2.25. Số lượt đánh giá của các sản phẩm thuộc SEPHORA COLLECTION ......30
Hình 2.26. Tỷ lệ theo từng loại da của sản phẩm Rose Quartz Facial Roller ...............34
Hình 2.27. Đánh giá của khách hàng khi dùng Rose Quartz Facial Roller ...................34
3
LỜI MỞ ĐẦU

1. Lý do chọn đề tài

Thị trường mỹ phẩm hiện nay là một thị trường mang lại doanh thu cao cho các
doanh nghiệp trong lĩnh vực này. Khi mức sống và nhu cầu ngày càng cao, phụ nữ sẽ
quan tâm hơn tới sắc đẹp, họ sẵn sàng chi nhiều tiền hơn để thỏa mãn những điều đó.
Rất nhiều hãng mỹ phẩm lớn đang ngày càng phát triển và không thể không kể tới
Sephora. Sephora là một chuỗi cửa hàng và trang web bán lẻ chuyên về sản phẩm làm
đẹp và mỹ phẩm. Hãng Sephora có nguồn gốc từ Pháp và là một trong những tên tuổi
lớn trong ngành công nghiệp làm đẹp trên toàn thế giới. Sephora đã phát triển và đa
dạng hóa các mặt hàng mỹ phẩm, cho đến nay đã có hơn 2300 cửa hàng nhỏ và lớn ở
khắp 33 nước trên thế giới như Hoa Kỳ, Trung Quốc, Ấn Độ, Pháp, Canada, Tây Ban
Nha, Czech… và hơn 400 cửa hàng trên dọc khắp các bang ở Mỹ. Chiến lược kinh doanh
để thu hút khách hàng của Sephora đó là tạo ra mô hình cửa hàng mở rộng và thuận tiện
cho khách hàng. Họ cung cấp một loạt sản phẩm và thương hiệu trong cùng một nơi để
làm cho việc mua sắm dễ dàng và tối ưu hóa trải nghiệm khách hàng. Chiến lược đặc
biệt của Sephora là tạo nên một môi trường trải nghiệm và thử nghiệm sản phẩm. Đó là
lý do Sephora đã và đang phát triển mạnh trên toàn thế giới.

Nhận thức được sự phát triển mạnh mẽ của doanh nghiệp, chúng em quyết định
thực hiện đề tài “Phân tích dữ liệu kinh doanh tháng 3/2023 và đề xuất giải pháp nâng
cao doanh số, trải nghiệm khách hàng cho Sephora”.

2. Mục tiêu nghiên cứu

Nhóm nghiên cứu tập trung sâu sát vào chi tiết và thông qua việc phân tích các dữ
liệu nhằm mục đích để bài báo cáo cung cấp cái nhìn toàn diện về tình hình kinh doanh
của Sephora, từ chiến lược sản phẩm, mạng lưới cửa hàng đến chiến dịch tiếp thị và tài
chính.

3. Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu: Hoạt động kinh doanh của công ty Sephora.

Phạm vi nghiên cứu: Gần 50,000 đánh giá của khách hàng với hơn 2800 sản phẩm
tại cửa hàng trực tuyến Sephora tháng 3/2023.

4. Phương pháp nghiên cứu:


4
Quy trình thực hiện bài báo cáo của chúng em gồm có bước cơ bản như đi tìm giả
thuyết dựa trên những số liệu, xử lý bộ dữ liệu bằng những phương pháp như mô hình
hồi quy tuyến tính, Exploratory Data Analysis, Sentiment Analysis, Text Analysis,
Recommender System, Data Visualization để đánh giá giả thuyết và đưa ra các giải pháp
cho doanh nghiệp.

5. Kết cấu bài báo cáo:

Kết cấu bài cáo báo gồm 3 chương:

Chương 1: Tổng quan về đề tài nghiên cứu

Chương 2: Xử lý dữ liệu và đề xuất giải pháp nâng cao doanh số, trải nghiệm
khách hàng cho Sephora

Chương 3: Kết luận

Với những kiến thức chuyên môn và số liệu còn nhiều hạn chế, chúng em không
thể tránh khỏi các thiếu sót trong quá trình hoàn thiện báo cáo. Chúng em rất mong nhận
được nhiều đánh giá và nhận xét để đề tài này được chỉn chu hơn.

5
CHƯƠNG 1: TỔNG QUAN VỀ ĐỀ TÀI NGHIÊN CỨU

1.1. Tổng quan bộ dữ liệu


Bộ dữ liệu nhóm phân tích được thu thập thông qua phần mềm Python vào tháng
3/2023, thể hiện dữ liệu kinh doanh của chuỗi cửa hàng và trang web bán lẻ Sephora.

Bộ dữ liệu bao gồm hai phần:

● Phần 1: Dữ liệu về thông tin sản phẩm gồm: thông tin về tất cả sản phẩm
làm đẹp (hơn 2,800 sản phẩm) từ cửa hàng trực tuyến của Sephora: tên sản phẩm,
thương hiệu, giá cả, thành phần, đánh giá và các đặc điểm khác.

● Phần 2: Dữ liệu về đánh giá của khách hàng: Đánh giá của khách hàng
(khoảng 50,000 lượt) của tất cả các sản phẩm từ danh mục chăm sóc da, bao gồm
cả đặc điểm của họ và xếp hạng đánh giá.

1.2. Giả thuyết nghiên cứu


1.2.1. Giả thuyết 1: Tất cả các nhân tố: rating, reviews, love counts đều không ảnh
hưởng tới giá

Trong thực tế kinh doanh hiện nay, rating, reviews, và loves count không ảnh
hưởng đến giá của sản phẩm bởi sự thiếu tin cậy và khả năng thao túng trong hệ thống
đánh giá, sự ưu tiên của doanh nghiệp đối với các chiến lược tiếp thị khác, chính sách
giá cố định, quảng bá và thương hiệu mạnh mẽ, chính sách giá cạnh tranh, và ưu tiên sự
chất lượng và đặc điểm độc đáo của sản phẩm.

1.2.2. Giả thuyết 2: Các đánh giá của khách hàng về sản phẩm là một phân phối
chuẩn (normal distribution), nghĩa là trung bình các đánh giá là trung lập và số lượng
các đánh giá tiêu cực và tích cực tương đối bằng nhau

Các đánh giá của khách hàng được giả sử tuân theo một phân phối chuẩn (normal
distribution). Điều này có nghĩa là hầu hết các đánh giá tập trung xung quanh giá trị
trung bình với số lượng đánh giá tăng dần hoặc giảm dần theo khoảng cách từ giá trị
trung bình. Reviews của khách hàng được đo lường dựa trên thang rating 1-5, với
khoảng 3 (đánh giá trung lập), các mức rating trên 3 và dưới 3 được coi là tích cực/tiêu
cực.

1.2.3. Giả thuyết 3: Nhóm nghiên cứu đã thu thập các dữ liệu về đánh giá các sản
phẩm của Sephora thông qua mức rating trung bình của khách hàng từ một bộ dữ
6
liệu gồm tất cả các danh mục sản phẩm mà Sephora phân phối. Nhóm chọn ngẫu
nhiên mẫu bằng phương pháp Systematic sampling (chọn mẫu với 100 quan sát đầu
tiên của tệp dữ liệu) và tin rằng mức rating trung bình của khách hàng trên 100 sản
phẩm sẽ không lớn hơn 4. Với độ tin cậy 95%, kiểm chứng giả thuyết của nhóm
nghiên cứu?

1.3. Các phương pháp phân tích dữ liệu được sử dụng


a) Exploratory Data Analysis

Exploratory Data Analysis (EDA) là quá trình nghiên cứu sơ bộ và khám phá dữ
liệu để hiểu rõ tính chất của nó. Nhóm nghiên cứu sử dụng EDA để phân tích chi tiết
sản phẩm, dự đoán thị trường, và tối ưu hóa chiến lược tiếp thị, nhờ vào tính linh hoạt
của EDA trong đối mặt với biến động thị trường.

b) Sentiment Analysis

Phân tích tâm trạng (Sentiment Analysis) đánh giá và xác định cảm xúc trong văn
bản, giúp Sephora hiểu các đánh giá từ khách hàng thông qua bộ dữ liệu. Phương pháp
này hỗ trợ đo lường đối thủ, phát hiện xu hướng thị trường, và tối ưu hóa chiến lược tiếp
thị, đồng thời cung cấp thông tin về chất lượng sản phẩm và tâm lý của khách hàng.

c) Text analysis

Phân tích văn bản (Text Analysis) giúp chuyển đổi đánh giá sản phẩm và phản hồi
trên mạng xã hội thành thông tin có thể hiểu và xử lý bằng máy tính. Phương pháp này
giúp Sephora hiểu rõ xu hướng thị trường, sở thích của khách hàng, và tìm kiếm ý kiến
tiêu cực để cải thiện sản phẩm và chiến lược tiếp thị.

d) Recommender System

Hệ thống gợi ý (Recommender System) giúp dự đoán và đề xuất sản phẩm dựa
trên lịch sử và hành vi người dùng, nhằm cung cấp trải nghiệm cá nhân hóa và tối ưu
hóa tương tác. Đối với Sephora, hệ thống này không chỉ cá nhân hóa mua sắm dựa trên
lịch sử và sở thích cá nhân, mà còn khuyến khích khám phá sản phẩm mới và tăng lòng
trung thành của khách hàng. Điều này giúp Sephora tối ưu hóa chiến lược tiếp thị, dự
đoán nhu cầu và xu hướng mua sắm, tạo ra sự linh hoạt và tăng hiệu quả chiến dịch
quảng cáo.

e) Data visualization
7
Trực quan hóa dữ liệu (Data Visualization) là quá trình sử dụng biểu đồ để làm
cho dữ liệu phức tạp trở nên dễ hiểu. Sephora áp dụng phương pháp này để phân tích
doanh số bán hàng, xu hướng thị trường, và hiệu suất. Biểu đồ giúp cá nhân hóa trải
nghiệm mua sắm, theo dõi hiệu quả chiến lược tiếp thị, và đồng bộ dữ liệu từ nhiều
nguồn, giúp Sephora đưa ra quyết định chiến lược thông minh dựa trên xu hướng và các
mối quan hệ.

f) Mô hình hồi quy tuyến tính

Mô hình hồi quy tuyến tính là phương pháp thống kê để dự đoán mối quan hệ tuyến
tính giữa các biến. Mô hình giúp hiểu và dự đoán hiệu suất kinh doanh, xác định mối
quan hệ giữa các biến, và giải quyết nhiễu dữ liệu. Mô hình linh hoạt, dễ hiểu, và phù
hợp để đánh giá yếu tố ảnh hưởng đến doanh số bán hàng và kết quả kinh doanh của
Sephora

g) Nền tảng Microsoft Excel

Microsoft Excel là phần mềm bảng tính phổ biến, cung cấp môi trường linh hoạt
và dễ sử dụng để nhập, xử lý và phân tích dữ liệu. Tích hợp công thức và hàm giúp thực
hiện phép toán và phân tích một cách hiệu quả, Excel có khả năng tổ chức dữ liệu và tạo
biểu đồ, tích hợp dữ liệu từ nhiều nguồn, và tương tác với các ứng dụng khác trong bộ
Office. Với khả năng phân tích như PivotTables và Solver, cùng khả năng lập trình thông
qua VBA, Excel là công cụ linh hoạt giúp thực hiện phân tích chi tiết, trực quan hóa dữ
liệu, và xử lý tập dữ liệu lớn một cách hiệu quả.

CHƯƠNG 2: XỬ LÝ DỮ LIỆU VÀ ĐỀ XUẤT GIẢI PHÁP NÂNG CAO


DOANH SỐ, TRẢI NGHIỆM KHÁCH HÀNG CHO SEPHORA

2.1. Xử lý và phân tích dữ liệu


2.1.1. Làm sạch dữ liệu
Phân tích dữ liệu kinh doanh ngày càng trở nên quan trọng trong quá trình ra quyết
định chiến lược cho các hoạt động của doanh nghiệp hướng tới mục tiêu phát triển bền
vững. Để đạt được kết quả chính xác và đáng tin cậy, bước đầu tiên và không thể thiếu
là quy trình làm sạch dữ liệu để biến dữ liệu thô thành thông tin có giá trị.

2.1.1.1. Dữ liệu thiếu thông tin

a) Cách thực hiện


8
• Bước 1: Chọn các cột cần làm sạch dữ liệu
• Bước 2: Sử dụng hàm Countblank để xác định các cột thiếu dữ liệu và số
lượng quan sát thiếu
• Bước 3: Sử dụng lệnh Filter trên thanh công cụ
• Bước 4: Chọn Blanks, thực hiện xóa các quan sát bị thiếu dữ liệu

b) Kết quả

Nhóm thực hiện kiểm tra các cột dữ liệu và nhận được kết quả các cột sau thiếu dữ
liệu và tỷ trọng của dữ liệu thiếu so với dữ liệu gốc

Bảng 2.1. Số lượng và tỷ trọng của dữ liệu thiếu so với dữ liệu gốc

Tỷ trọng so với dữ liệu


Tên cột Số lượng dữ liệu thiếu
gốc

variation value 16 0,57%

variation desc 2021 72,06%

sale price usd 2741 97,75%

tertiary category 157 5,60%

child max price 890 31,74%

child min price 890 31,74%

2.1.1.2. Loại bỏ giá trị ngoại lai

a) Cách thực hiện

• Bước 1: Sử dụng hàm min, max, median để kiểm tra dữ liệu các cột
• Bước 2: Chọn các cột cần xử lý dữ liệu
• Bước 3: Chọn Scatter Chart

9
• Bước 4: Xóa các dữ liệu cực lớn hoặc cực nhỏ, có vị trí cách biệt so với
các dữ liệu khác

b) Kết quả

Sau khi kiểm tra dữ liệu nhận thấy “loves count”, “reviews” , “price usd” có xuất
hiện dữ liệu ngoại lai:

Bảng 2.2. Phân tích dữ liệu cột loves count, reviews, price usd

Cột dữ liệu Min Max Median

loves count 513 1401068 17337

reviews 1 21281 263

price usd 3 425 35

Sử dụng Scatter Chart để tìm và xử lý dữ liệu ngoại lai:

Hình 2.1. Biểu đồ giá trị loves count

10
Hình 2.2. Biểu đồ giá trị reviews

Hình 2.3. Biểu đồ giá trị price usd


2.1.1.3. Làm sạch dữ liệu dạng văn bản

a) Cách thực hiện

• Bước 1: Chọn cột hoặc ô dữ liệu cần làm sạch

11
• Bước 2: Loại bỏ các ký tự đặc biệt không cần thiết. Sử dụng hàm
SUBSTITUTE.
• Bước 3: Chuyển dữ liệu về dạng chữ thường(lowercase) hoặc chữ
hoa(uppercase) nếu cần. Sử dụng hàm LOWER để thực hiện.
• Bước 4: Loại bỏ khoảng trắng không cần thiết bằng hàm TRIM, loại bỏ
khoảng trắng dư thừa ở đầu và cuối chuỗi.
• Bước 5: Kiểm tra và điều chỉnh bất kỳ vấn đề cụ thể nào trong dữ liệu .
Điều này có thể bao gồm lỗi chính tả hoặc định dạng.

b) Kết quả

Nhóm thu được dữ liệu dễ đọc, dễ quản lý, chính xác và phù hợp với việc phân
tích dữ liệu, nhập dữ liệu vào hệ thống và tạo báo cáo.

2.1.1.4. Loại bỏ dữ liệu không cần thiết

Cách thực hiện

• Bước 1: Chọn cột hoặc hàng không cần thiết hoặc không liên quan đến
mục tiêu
• Bước 2: Xoá các cột/hàng

2.1.2. EDA (Exploratory Data Analysis)


2.1.2.1. Phân tích danh mục sản phẩm:

Nhóm nghiên cứu đã phân tích các danh mục sản phẩm dựa trên Pivot Table &
Pivot Chart

● Bước 1: Kéo 2 lần cột Primary/Secondary/Tertiary Category vào cột Rows


và cột Values

● Bước 2: Ở cột Values chọn Count

● Bước 3: Chọn biểu đồ Bar Chart.

12
Hình 2.4. Top sản phẩm của Primary Category

Hình 2.5. Top sản phẩm của Secondary Category

13
Hình 2.6. Top sản phẩm của Tertiary Category
Kết luận: Các kết quả ở trên cho chúng ta biết rằng dữ liệu Sản phẩm được thu
thập chia thành 8 loại theo “Primary Category”, 36 loại theo "Secondary Category", 97
loại theo danh mục "Tertiary Category". Phần lớn dữ liệu bao gồm các sản phẩm thuộc
danh mục chăm sóc da, đây là cơ sở để nhóm nghiên cứu hoàn thành Sentiment và Text
Analysis.

2.1.2.2. Giá trung bình các dòng sản phẩm (Primary Category)

Sử dụng Pivot Chart để tính toán mà trực quan hóa giá trung bình của 8 dòng sản
phẩm: Bath & Body, Fragrance, Hair, Makeup, Men, Mini Size, Skincare, Tools &
Brushes.

● Bước 1: Chọn cột dữ liệu “primary category” và “price usd”

● Bước 2: Chọn Pivot Chart & Table

o Kéo “primary category” vào Axis


14
o Kéo “price usd” vào Values và chọn Average

Kết luận: Dòng sản phẩm Fragrance có giá cao nhất (115.8$), tiếp theo đó là dòng
sản phẩm Skincare (57.7$), các dòng sản phẩm cho toàn thân (Bath & Body, Hair) có
mức giá tương đương nhau (34.7$, 35.5$).

Hình 2.7. Giá trung bình các dòng sản phẩm


2.1.2.3. Mức độ phổ biến của thương hiệu:

Để phân tích mức độ phổ biến của thương hiệu, chúng tôi sử dụng Pivot Chart &
Table

● Bước 1: Chọn cột dữ liệu “Brand name” và “Loves count”

● Bước 2: Chọn Pivot Chart & Table

○ Kéo “Brand name” vào Axis

○ Kéo “Loves count” vào Values và chọn Average

15
Hình 2.8. Top 10 thương hiệu phổ biến nhất
Kết luận: Thương hiệu phổ biến nhất là Olaplex với GTTB của loves count là
325335,75. Xếp ngay sau đó là The Ordinary: 232433, Rare Beauty by Selena Gomez:
190684, NARS: 179381.

2.1.2.4. Tác động của các đặc điểm khác nhau đến giá cả:

Để phân tích các đặc điểm tác động đến giá cả, chúng tôi chọn phân tích theo mô
hình hồi quy đa biến vì nó cung cấp một công thức toán học dễ giải thích các giả thuyết
đặt ra để đưa ra các dự đoán, giải pháp trong tương lai.

Áp dụng phương pháp ANOVA cho mô hình hồi quy tuyến tính đa biến

Nhóm đề xuất mô hình như sau:

Price USD = β0 + β1 × Loves count + β2 × Rating + β3 × Reviews

Trong đó: : β0: Hệ số chặn của mô hình

16
β1 (i = 1,2,3): Hệ số góc

● Biến phụ thuộc: Price USD

● Biến độc lập:

○ Reviews

○ Loves count

○ Rating

Hình 2.9. Kết quả Excel đưa ra


Loves Count có mối quan hệ tương quan ngược chiều với Price USD, Loves Count
tăng thì xu hướng giá sẽ giảm. Trong mô hình này thì Slope Coefficient=-0.0001 được
giải thích là khi Loves count tăng 10.000 thì trung bình giá của tất cả sản phẩm sẽ giảm
1 USD.

Rating có mối quan hệ tương quan cùng chiều với Price USD, Rating tăng thì tăng
thì xu hướng giá cũng tăng. Slope Coefficients=7.884 được giải thích là khi Rating tăng
0.1 /5 thì trung bình giá của tất cả sản phẩm sẽ tăng 0.7884 USD.

Reviews có mối quan hệ tương quan cùng chiều với Price USD, reviews tăng thì
xu hướng giá cũng tăng. Slope Coefficients=0.0002 được giải thích là khi số lượng
Reviews tăng 1000 thì trung bình giá của sản phẩm sẽ tăng 2.2 USD.

Kết luận: Kết hợp cả 3 biến độc lập từ Bảng Regression Statistics cho chúng ta
kết quả R bình phương và R bình phương hiệu chỉnh để đánh giá mức độ phù hợp của
mô hình. Giá trị Adjusted R Square bằng 0,016 cho thấy biến độc lập đưa vào phân tích
hồi quy ảnh hưởng rất thấp tới sự biến thiên của biến phụ thuộc, còn lại là do các biến

17
ngoài mô hình và sai số ngẫu nhiên. Sự thay đổi trung bình của giá được phản ánh thông
qua 1,6% của 3 biến độc lập là Loves Count, Rating, Review.

Vì R Square luôn có xu hướng tăng khi mà số lượng biến độc lập được thêm vào
mô hình, thậm chí những biến độc lập được thêm không có mối quan hệ với biến phụ
thuộc. Vì vậy, sự thay đổi nhỏ của biến độc lập thôi cũng có thể dẫn đến việc đánh giá
sai sự thay đổi của biến phụ thuộc (overfitting).

2.1.2.5. Các đặc tính sản phẩm được tìm kiếm nhiều nhất

Trong các danh mục sản phẩm thì Makeup là danh mục được nhiều người ưa
chuộng và phổ biến nhất.

Để tìm kiếm đặc tính chung của các sản phẩm Makeup bán chạy nhất, nhóm nghiên
cứu đã khai thác dữ liệu “highlights” của danh mục sản phẩm Makeup và đưa vào
website cung cấp Wordcloud cho thấy từ khóa có tần suất xuất hiện nhiều nhất.

Hình 2.10. Wordcloud các đặc tính được tìm kiếm nhiều nhất

Kết luận: Vegan, Cruelty Free và Long-wearing là 3 điểm chung lớn nhất trong
những sản phẩm Makeup đã được bán ra tại Sephora. Điều đó cho thấy xu hướng của
người tiêu dùng ưa chuộng những sản phẩm Makeup không chỉ lâu trôi mà còn phải
thân thiện với môi trường và mang tính nhân đạo. Đây cũng là xu hướng mới của ngành
kinh doanh mỹ phẩm. Vậy nên Sephora nên tập trung vào những sản phẩm có đặc tính
này để đưa ra bày bán tại hệ thống của mình.
18
2.1.2.6. Đề xuất các sản phẩm có thể bán chạy

● Bước 1: Đưa ra Top 10 sản phẩm được yêu thích nhất (love counts)

Hình 2.11. Top 10 sản phẩm được yêu thích nhất

● Bước 2: Xét các đặc tính (“highlights”) và 10 sản phẩm đó thuộc danh
mục cấp ba nào (“tertiary category”)

● Bước 3: Lọc ra các sản phẩm cùng danh mục (“tertiary category”)

● Bước 4: Đưa dữ liệu về highlight của các sản phẩm trong cùng danh mục
vào và phân tích xem sản phẩm nào có highlight gần giống với sản phẩm top nhất
(sử dụng công thức Lehvenstein trong Excel)

Hình 2.12. Công thức Lehvenstein xác định chuỗi gần giống nhất

• Bước 5: Tra cứu tên và brand sản phẩm dựa trên kết quả highlight của sản
phẩm đó.

19
2.1.3. Sentiment Analysis
2.1.3.1. Xác định các review là tích cực, tiêu cực hay trung lập

Để đánh giá những review là tích cực, tiêu cực hay trung lập, chúng ta sẽ căn cứ
vào mức rating trung bình của khách hàng dựa theo sản phẩm/thương hiệu. Công cụ sử
dụng là biểu đồ histogram, với trục hoành là mức rating tăng từ 1-5 tương ứng với mức
độ hài lòng sản phẩm của khách hàng & trục tung là trung bình số lượng tương ứng với
từng mức rating.

Có thể thấy, phần lớn mức rating tập trung vào khoảng 3.5-5.0 và mode=[4.0-4.5].
Như vậy, hầu hết các đánh giá là tích cực hoặc trung tính và chỉ một số lượng nhỏ review
của khách hàng là tiêu cực.

20
Hình 2.13. Phân bổ mức rating của khách hàng
a) Sản phẩm nào có nhiều đánh giá tích cực nhất?

Để xác định sản phẩm/thương hiệu có đánh giá tích cực hay tiêu cực nhất, chúng
ta sẽ dùng công cụ pivottable lọc ra top 20 sản phẩm được đánh giá cao nhất/thấp nhất
với số lượng review từ 1000 trở lên dựa vào rating thang 1-5:

● Bước 1: Lọc những sản phẩm có số lượng review lớn hơn hoặc bằng 1000

● Bước 2: Sort rating from largest to smallest

● Bước 3: Lọc 20 sản phẩm có rating cao nhất

Hình 2.14. Danh sách 20 sản phẩm có rating cao nhất


● Bước 4: Sử dụng công cụ Pivot table & Pivot Chart
21
○ Chọn Product name vào rows

○ Chọn Rating vào value

○ Sử dụng Pivot chart để minh họa

Hình 2.15. Top 20 sản phẩm có rating cao nhất


2.1.3.2. Sản phẩm nào có nhiều đánh giá tiêu cực nhất?

Tương tự như trên, chúng ta có thể xác định được top 20 sản phẩm có số lượt
reviews lớn hơn 1000 và nhận rating thấp nhất:

22
Hình 2.16. Top 20 sản phẩm có rating thấp nhất
2.1.3.2. Top 20 sản phẩm theo danh mục được yêu thích nhất:

Tương tự như trên, chúng ta sẽ phân loại danh mục sản phẩm theo primary category
và dựa vào loves count để tìm được top các thương hiệu được yêu thích nhất thông qua
pivot table & pivot chart

Hình 2.17. Top 20 sản phẩm skincare được yêu thích nhất

23
Hình 2.18. Top 20 sản phẩm Bath & Body được yêu thích nhất

Hình 2.19. Top 20 sản phẩm Fragrance được yêu thích nhất

24
Hình 2.20. Top 20 sản phẩm Hair được yêu thích nhất

Hình 2.21. Top 20 sản phẩm Makeup được yêu thích nhất

25
Hình 2.22. Top 20 sản phẩm Mini Size được yêu thích nhất

2.1.4. Text Analysis


Trước hết, chúng ta căn cứ vào “ rating ” của khách hàng. Tương tự như phần
trước, ta sẽ phân loại các review dựa trên rating . Các review có rating trong khoảng 4-
5 sẽ là nhóm review tích cực, còn các review có rating thấp hơn 4 sẽ là nhóm review
tiêu cực.

● Bước 1: Dùng filter của Excel để sort ra 2 nhóm dựa theo rating.

● Bước 2: Dùng lệnh: &””& để tổng hợp text từ các ô của excel.

● Bước 3: Đưa văn bản Text đã tổng hợp được lên trang web (Worditout.com)
và convert sang Word Cloud ( hoặc có thể sử dụng Chức năng “ Text to columns” ở
trong Excel sau đó dùng Pivot Table để thống kê Frequency của các từ)

a) Nhóm review tích cực

26
Hình 2.23. Wordcloud các đánh giá tích cực
Sau khi được thống kê, chúng ta có thể nhận thấy được một vài điểm nổi bật trong
những đánh giá tích cực của khách hàng như:

● Khách hàng có xu hướng đề cập đến tình trạng da của họ như: “ dry”,
“sensitive”, “oily” cho thấy sự đa dạng hóa sản phẩm đáp ứng được nhu cầu của
các đối tượng khách hàng khác nhau( tình trạng da khách hàng khác nhau)

● Khách hàng cũng bày tỏ mức độ yêu thích sau khi sử dụng các sản phẩm
như: “ good”, “ amazing”, “ love”, “ lovely” cùng với đó là “ definitely”, “
recommend” , “ sure” .

● Một số cảm nhận của khách hàng khi sử dụng các sản phẩm như “
smooth”, “ soft” , “luxurious”, “brighter”,”light”,”creamy”, cũng như đề cập rất
nhiều đến đặc tính hương thơm của sản phẩm “ smell”, “fragrance” .

● Khách hàng cũng đề cập đến routine sử dụng các sản phẩm như: “
morning”, “ night”, “week”, “ weeks”.

b) Nhóm review tiêu cực

27
Hình 2.24. Wordcloud các đánh giá tiêu cực
Tương tự nhóm review tích cực, ta cũng thu được một vài thông tin nổi bật của
nhóm review tiêu cực như sau:

● Khách hàng bày tỏ sự không hài lòng về sản phẩm: “don’t” , “ didn’t”,
“haven’t” , “doesn’t” “ it isn’t “ “ unfortunately” , “ bad”.

● Khách hàng cũng phản hồi về các đặc tính không tốt của sản phẩm như “
greasy” , “ sticky” , “ break” hay các yếu tố liên quan như “ ingredient” , “price”,
“scent” , “size”. Khi khách hàng có đánh giá không tốt về sản phẩm, họ có xu
hướng đánh giá thêm cả những yếu tố liên quan ví dụ như: sản phẩm này có giá
quá cao so với ích lợi mà nó mang lại.

● So với nhóm đánh giá tích cực, thì ở nhóm đánh giá tiêu cực khách hàng
có đề cập chi tiết hơn các vấn đề mà họ gặp phải: “dry”, “oil”, “acne” , “scars”. Từ
đó giúp nhãn hãng có thể có các biện pháp có thể khắc phục tình trạng này.

2.1.5. Recommender System


Căn cứ vào cột “is_recommended” và “skin_type” của file
“skincare_products_reviews” để phân tích lịch sử mua hàng và đánh giá của khách hàng
về các sản phẩm skincare dành cho các loại da từ đó đưa ra khuyến nghị những sản phẩm
mà khách hàng có thể quan tâm.

Đầu tiên, xử lý những quan sát thiếu dữ liệu trong cột “is_recommended” và
“skin_type”, giữ lại những sản phẩm đã được đánh giá và phân loại da.

28
2.1.5.1. Phân tích nhãn hàng

a) Giá thành

Cách thực hiện: Sử dụng lệnh Sort để sắp xếp cột “price usd” theo thứ tự từ cao
xuống thấp và ngược lại.

Kết quả:

• Nhãn hàng có giá thành cao nhất: Shani Darden Skin Care (Sản phẩm
Shani Darden by Déesse PRO LED Light Mask với giá 1900 USD)

• Nhãn hàng có giá thành thấp nhất: SEPHORA COLLECTION (Sản phẩm
Mini Cleansing Wipes - Coconut Water với giá 3 USD)

Bảng 2.3. Các sản phẩm của Shani Darden Skin Care và SEPHORA COLLECTION

SEPHORA
Shani Darden Skin Care
COLLECTION

Số lượng sản phẩm 4 65

Số lượng reviews 350 2348

Giá trung bình 619 15,3

Nghiên cứu về hai nhãn hàng trên, ta thấy thương hiệu đắt tiền nhất Shani Darden
Skin Care chỉ cung cấp các sản phẩm chăm sóc da chuyên sâu, độc đáo, không phổ biến
trong khi thương hiệu rẻ nhất SEPHORA COLLECTION tập trung vào các sản phẩm
chăm sóc da bình dân, được sử dụng nhiều như mặt nạ, serum với giá thành hợp lý và
vừa túi tiền của người tiêu dùng. Với sự chênh lệch lớn về giá cả và loại sản phẩm,
SEPHORA COLLECTION trở nên phổ biến hơn, thu hút được nhiều đánh giá và khách
hàng hơn so với Shani Darden Skin Care tại chuỗi cửa hàng Sephora.

b) SEPHORA COLLECTION

SEPHORA COLLECTION là một dòng sản phẩm của Sephora - chuỗi cửa hàng
bán lẻ mỹ phẩm và sản phẩm làm đẹp quốc tế. SEPHORA COLLECTION bao gồm một
loạt các sản phẩm mỹ phẩm và chăm sóc da, từ trang điểm đến sản phẩm dưỡng da và

29
làm đẹp. Điều đặc biệt là, SEPHORA COLLECTION thường có giá trung bình đến phải
chăng hơn so với một số thương hiệu khác có mặt trong cửa hàng Sephora.

● Sản phẩm của SEPHORA COLLECTION

Sử dụng lệnh Remove Duplicates nhận được kết quả các loại da mà sản phẩm của
SEPHORA COLLECTION hướng tới:

o combination
o dry
o normal
o oily
SEPHORA COLLECTION có một lượng sản phẩm lớn lên tới 65 sản phẩm khác
nhau với nhiều chủng loại được sử dụng để chăm sóc da mặt.

Hình 2.25. Số lượt đánh giá của các sản phẩm thuộc SEPHORA COLLECTION
Trong đó có 8 sản phẩm nhận được nhiều đánh giá nhất thể hiện phần nào số lượng
người dùng đông đảo của các sản phẩm này và Rose Quartz Facial Roller là sản phẩm
nhận được nhiều lượt đánh giá nhất với 132 lượt.

30
Bảng 2.4. Top 8 sản phẩm nhận được nhiều đánh giá nhất

Sản phẩm Lượt đánh giá

Rose Quartz Facial Roller 132

Jade Facial Roller 124

1 Minute Face Masks 120

Clarifying Peel Pads 117

Supplement Case 105

Ultra Glow Toner with Vitamins C + E 102

Facial Cleansing Tool 97

SUPERMASK - The Charcoal Mask 85

● Rose Quartz Facial Roller


Sử dụng Pivot Chart để phân tích sản phẩm được đánh giá nhiều nhất Rose
Quartz Facial Roller

Bảng 2.5. Tỷ trọng theo từng loại da của người tiêu dùng sản phẩm Rose Quartz
Facial Roller

product_name Rose Quartz Facial Roller

Skin type Count of skin_type Percentage

combination 71 54%

dry 23 17%

normal 26 20%

oily 12 9%

Grand Total 132

31
Bảng 2.6. Tỷ trọng theo từng loại da của người tiêu dùng sản phẩm Jade Facial Roller

product_name Jade Facial Roller

Row Labels Count of skin_type Percentage

combination 68 55%

dry 17 14%

normal 25 20%

oily 14 11%

Grand Total 124

Bảng 2.7. Tỷ trọng theo từng loại da của người tiêu dùng sản phẩm 1 Minute Face
Masks

product_name 1 Minute Face Masks

Row Labels Count of skin_type Percentage

combination 67 56%

dry 17 14%

normal 21 18%

oily 15 13%

Grand Total 120

32
Bảng 2.8. Tỷ trọng theo từng loại da của người tiêu dùng sản phẩm Clarifying Peel
Pads

product_name Clarifying Peel Pads

Row Labels Count of skin_type Percentage

combination 65 56%

dry 14 12%

normal 19 16%

oily 19 16%

Grand Total 117

Bảng 2.9. Tỷ trọng theo từng loại da của người tiêu dùng sản phẩm Supplement Case

product_name Supplement Case

Row Labels Count of skin_type Percentage

combination 59 56%

dry 16 15%

normal 15 14%

oily 15 14%

Grand Total 105

33
Hình 2.26. Tỷ lệ theo từng loại da của sản phẩm Rose Quartz Facial Roller
Rose Quartz Facial Roller được sử dụng trên nhiều loại da nhưng phổ biến nhất là
da hỗn hợp (combination) với tỷ trọng 54% trong đó lượt đánh giá tích cực chiếm 77%.

Hình 2.27. Đánh giá của khách hàng khi dùng Rose Quartz Facial Roller
2.1.5.2. Gợi ý cho khách hàng mới

Đối với những khách hàng mua lần đầu, doanh nghiệp có thể tạo ra danh mục sản
phẩm gợi ý sử dụng dựa theo đặc tính da của họ như sau:

• Với làn da của khách hàng có tính combination (da hỗn hợp): nhãn hàng
có thể gợi ý cho khách hàng sử dụng Rose Quartz Facial Roller - sản phẩm phổ
biến nhất, đồng thời phần lớn khách hàng mua sản phẩm này cũng có tính chất da
combination

34
• Tương tự với làn da có tính dry (da khô), khách hàng cũng được gợi ý
dùng Rose Quartz Facial Roller. Ngoài ra có thể tham khảo 1 Minute Face Masks
và Jade Facial Rolle

• Với khách hàng có làn da normal (da thường), ngoài sản phẩm Rose
Quartz Facial Roller khách hàng có thể tham khảo Jade Facial Roller - sản phẩm
có tới 20% khách hàng sử dụng là người có làn da normal

• Còn với tệp khách hàng có làn da oily (da dầu), khách hàng có thể tham
khảo Clarifying Peel Pads.

Danh mục gợi ý trên dựa trên lịch sử mua hàng của các khách hàng cũ nên sẽ chủ
yếu gợi ý cho các khách hàng mới sử dụng sản phẩm Rose Quartz Facial Roller bởi đây
là sản phẩm phổ biến nhất của nhãn hàng cũng như nhận được nhiều những đánh giá
tích cực. Nhưng ngoài ra có thể tư vấn thêm các sản phẩm khác cho khách hàng tùy
thuộc vào đặc tính da của họ.

Kết luận

Sephora cung cấp nhiều loại nhãn hiệu và sản phẩm dành cho chăm sóc da. Giữa
thương hiệu rẻ nhất và đắt nhất, thương hiệu rẻ hơn sẽ thu hút nhiều người dùng hơn.
Các mặt hàng có giá thành thấp hơn dễ dàng tiếp cận với nhiều khách hàng hơn.

Nhìn vào SEPHORA COLLECTION, nhãn hàng nhận được rất nhiều phản hồi
tích cực về sản phẩm của mình. Trong số 4.086 đánh giá, 82,61% đề xuất sản phẩm
tương ứng của họ. Sản phẩm phổ biến nhất của họ là Rose Quartz Facial Roller.

Sản phẩm này không chỉ phổ biến nhất mà còn có tỷ lệ khuyên dùng trên 70% cho
mọi loại da. Những người đánh giá có làn da hỗn hợp đã khuyên dùng sản phẩm này với
tỷ lệ cao nhất là 54%.

Nhìn chung, phần lớn các đánh giá cho sản phẩm này là tích cực. Số lượng đánh
giá tốt và khuyến nghị sản phẩm này nhiều hơn hẳn các đánh giá tiêu cực. Mặc dù vậy,
các đánh giá tiêu cực mang lại phản hồi hữu ích cho SEPHORA COLLECTION trong
việc cải thiện sản phẩm và dịch vụ tới khách hàng.

35
2.2. Kiểm chứng giả thuyết
Giả thuyết 1: Tất cả các nhân tố: rating, reviews, love counts đều không ảnh
hưởng tới giá

● Công cụ/phương pháp sử dụng để chứng minh/bác bỏ giả thuyết:

○ Sử dụng F-test để đánh giá thông qua nested models, gồm 2 thành phần
sau:

○ Unrestricted model thể hiện sự tương quan giữa 3 biến rating, loves
count, review với giá (tương ứng X1, X2, X3 với Yi).

○ Restricted model thể hiện tác động của 1 biến rating với giá (tương ứng
X1 với Yi).

○ Lập giả thuyết rỗng để chứng minh/bác bỏ giả thuyết.

● Chứng minh/bác bỏ giả thuyết:

+SSEr: trong trường hợp restricted model (bằng 6457727.33)

+SSEu: trong trường hợp unrestricted model (bằng 6375709)

+q: số lượng biến phụ thuộc bị loại bỏ trong restricted model (bằng 2)

+k: tổng số lượng biến phụ thuộc (bằng 3)

Với độ tin cậy 95%; q=2 và (n-k-1)=2771 degrees of freedom:

36
Vì F-statistics > F critical value => Bác bỏ giả thuyết rỗng

Kết luận:

● Ít nhất 1 trong 3 biến độc lập (rating, loves count, review) tác động tới giá

● Như đã phân tích theo mô hình hồi quy tuyến tính phía trên:

b1=7,88 b2= -0,0001 b3=0,0026 => Đúng với kết quả từ việc bác bỏ giả
thuyết rỗng

Giả thuyết 2: Các đánh giá của khách hàng về sản phẩm là một phân phối chuẩn
(normal distribution), nghĩa là trung bình các đánh giá là trung lập và số lượng các
đánh giá tiêu cực và tích cực tương đối bằng nhau.

● Công cụ/phương pháp sử dụng để chứng minh/bác bỏ giả thuyết:

○ Dựa trên hình dạng phân phối của mức rating và các kiến thức đã học
về hình dạng phân phối (skewness, kurtosis)

○ Dựa trên phương pháp tính mean, median và skewness

37
Như đã minh họa trên hình vẽ, đây không phải normal distribution mà là phân phối
có Negative (Left) skewed (Mean<Median<Mode) xuất hiện một lượng outliers ở đuôi
bên trái.

Từ đó, ta có thể kết luận rằng: đánh giá reviews của khách hàng phần lớn là tích
cực, chỉ có một lượng nhỏ khách hàng không hài lòng về sản phẩm => Bác bỏ giả thuyết

Giả thuyết 3: Nhóm nghiên cứu đã thu thập các dữ liệu về đánh giá các sản
phẩm của Sephora thông qua mức rating trung bình của khách hàng từ một data set
gồm tất cả các danh mục sản phẩm mà Sephora phân phối. Nhóm chọn ngẫu nhiên
mẫu bằng phương pháp Systematic sampling (chọn mẫu với 100 quan sát đầu tiên
của tệp dữ liệu) và tin rằng mức rating trung bình của khách hàng trên 100 sản phẩm
sẽ không lớn hơn 4. Với độ tin cậy 95%, kiểm chứng giả thuyết của nhóm nghiên
cứu?

● Công cụ/phương pháp sử dụng để chứng minh/bác bỏ giả thuyết:

○ Sử dụng kiểm định giả thuyết (hypothesis testing) của phân phối thông
qua phương pháp z-statistic và t-statistic,...

○ Kiến thức về phân phối

● Kiểm chứng giả thuyết:

Như đã trình bày ở trước, phân phối rating của khách hàng không phải là một phân
phối chuẩn (nonnormal) tuy nhiên theo “Định luật giới hạn trung tâm”: Chúng ta có thể
giả định phân phối của mẫu là xấp xỉ phân phối chuẩn khi số lượng quan sát trong mẫu
lớn (ở trường hợp này là 100) và z-statistic được áp dụng khi biết phương sai của bộ dữ
liệu

o Sample mean = 4,265 (100 quan sát đầu của bộ dữ liệu)

o standard deviation of population = 0,415

Xây dựng giả thuyết:

38
H0: μ≤4; H1: μ>4

Với độ tin cậy 95%, one-tailed z-critical value= 1,645 hoặc -1,645

Vì z-statistics > z-ctitical value => Bác bỏ giả thuyết rỗng

Kết luận: Với độ tin cậy 95%, mức rating trung bình của 100 sản phẩm sẽ lớn hơn 4

2.3. Giải pháp


2.3.1. Từ phương pháp EDA
a) Dựa trên các phân tích về mức độ phổ biến của thương hiệu:

● Doanh nghiệp nên tối ưu hóa hiệu suất và tăng cường mức độ phổ biến
của thương hiệu sản phẩm hoặc dịch vụ đang có một cơ sở phát triển mạnh mẽ:

○ Cần xây dựng chiến lược tiếp thị hiệu quả.

○ Tương tác mạnh mẽ trên các nền tảng truyền thông xã hội và trang web.
Sử dụng quảng cáo kỹ thuật số để tiếp cận khách hàng mục tiêu.

○ Tạo các chương trình khuyến mãi và giảm giá để thu hút sự quan tâm
từ khách hàng từ đó giúp thương hiệu tạo ra lưu lượng mua sắm và nhận
diện thương hiệu.

● Đối với các thương hiệu có mức độ phổ biến thấp, cần thực hiện các giải
pháp để tăng cường nhận diện thương hiệu và cải thiện hiệu suất:

○ Đánh giá và cải thiện chất lượng dịch vụ và trải nghiệm mua sắm của
khách hàng, ví dụ: Sephora cần có hệ thống vận chuyển và phân phối
hiệu quả để đảm bảo sản phẩm đến tay người tiêu dùng một cách an
toàn và nhanh chóng.

b) Dựa trên các phân tích giá trung bình của các sản phẩm

• Dòng sản phẩm Fragrance (Hương thơm) - Giá cao nhất (115.8$):

o Xác định mục tiêu thị trường và tập trung vào việc tiếp cận và phục vụ
khách hàng cao cấp.

39
• Dòng sản phẩm Skincare (Chăm sóc da) - Giá trung bình (57.7$):

o Tạo chiến dịch tiếp thị dựa trên mục tiêu để tiếp cận đúng đối tượng
khách hàng và truyền tải giá trị của sản phẩm.

• Dòng sản phẩm cho toàn thân (Bath & Body, Hair) - Giá tương đương
nhau (34.7$, 35.5$):

o Tạo cơ hội để khách hàng tương tác với sản phẩm. Điều này có thể bao
gồm việc chia sẻ đánh giá và phản hồi từ khách hàng trước đó trên trang
web hoặc các nền tảng truyền thông xã hội.

c) Dựa trên đặc tính được tìm kiếm nhiều nhất: “Vegan”, “Cruelty-Free” và “Long-
wearing”.

• Sephora có thể tập trung vào những sản phẩm có đặc tính này để đáp ứng
nhu cầu của thị trường và tận dụng xu hướng mới trong ngành kinh doanh mỹ
phẩm

• Sử dụng chiến dịch tiếp thị và quảng cáo để tôn vinh và tạo sự nhận diện
đối với các sản phẩm Vegan, Cruelty-Free và Long-wearing. Sử dụng nội dung
trực quan và thông điệp môi trường để tạo sự quan tâm từ khách hàng.
• Sephora có thể tận dụng xu hướng thị trường và mục tiêu những khách
hàng quan tâm đến các giá trị xã hội và môi trường thông qua việc tập trung vào
sản phẩm Makeup Vegan, Cruelty-Free và Long-wearing.

d) Dựa trên những đặc tính của những sản phẩm bán chạy nhất để đưa danh sách sản
phẩm gợi ý.

• Sephora có thể sử dụng chiến lược cross-selling (bán hàng kết hợp) hoặc
up-selling (bán hàng tốt hơn) để tận dụng sự tương tự giữa các sản phẩm bán chạy
và các sản phẩm có đặc tính tương tự. Điều này giúp tạo ra thêm doanh số bán
hàng cho các sản phẩm mới hoặc ít phổ biến hơn

• Cân nhắc lợi nhuận mà các sản phẩm top đang đưa lại là bao nhiêu, so
sánh với các sản phẩm tương tự và có thể cân nhắc quảng cáo về sản phẩm tương
tự với khách hàng thay vì sản phẩm cũ.

40
2.3.2. Từ phương pháp Sentiment Analysis
● Dựa trên các phân tích về sản phẩm được yêu thích nhất theo từng danh
mục: Bath & Body, Fragrance, Hair, Skincare, Makeup, Mini size,... ; doanh
nghiệp nên tiếp tục chiến lược duy trì các dòng sản phẩm này để giữ vững tăng
trưởng doanh thu. Bên cạnh đó, doanh nghiệp cũng có thể tạo ra list các sản phẩm
được yêu thích để khách hàng dễ dàng hơn trong việc tìm hiểu, tham khảo thông
tin và tìm ra sản phẩm phù hợp với mình.

● Đối với các dòng sản phẩm nhận nhiều reviews tiêu cực, doanh nghiệp có
thể:

○ Dựa trên reviews chi tiết khách hàng để khắc phục chất lượng sản phẩm

○ Cắt giảm nhập các loại sản phẩm này để tiết kiệm chi phí hàng tồn
kho,...

○ Hạ giá sản phẩm

● Đối với các sản phẩm ít reviews (nhỏ hơn 1000 lượt đánh giá từ khách
hàng): doanh nghiệp nên thực hiện các chiến lược marketing phù hợp để quảng bá
sản phẩm, tiếp cận tới nhiều đối tượng khách hàng hơn.

2.3.3. Từ phương pháp Text Analysis


● Dựa trên Wordcloud của nhóm đánh giá tích cực và tiêu cực có thể thấy
khách hàng nhấn mạnh mong muốn khắc phục tình trạng da của họ. Doanh nghiệp
có thể phát triển sâu hơn các đặc tính sản phẩm hoặc cho ra sản phẩm mới để đáp
ứng nhu cầu khách hàng.

● Ngoài ra các đặc tính như kích cỡ, giá cả, mùi hương cũng được đề cập
trong những đánh giá không tốt về sản phẩm do đó doanh nghiệp cũng có thể có
những định hướng phát triển cụ thể liên quan đến đặc tính này để có thể thỏa mãn
khách hàng cũng như mở rộng tệp khách hàng của mình hơn.

2.3.4. Từ phương pháp Recommender System


Thứ nhất, tại cửa hàng Sephora, có thể phân loại khu vực sản phẩm để có một phần
riêng biệt cho các sản phẩm của Sephora Collection. Khuyến khích khách hàng đánh giá
và gửi phản hồi về sản phẩm của Sephora Collection đồng thời tạo cơ hội cho họ chia

41
sẻ trải nghiệm của họ trên trang web của Sephora sẽ giúp xây dựng sự tin tưởng và khích
lệ mua sắm.

Thứ hai, hợp tác với các người ảnh hưởng hoặc beauty blogger nổi tiếng để họ
đánh giá và giới thiệu các sản phẩm này. Những người này có sự ảnh hưởng lớn đối với
cộng đồng mua sắm.

Thứ ba, mở rộng marketing trên các nền tảng mạng xã hội như Facebook. Tiktok,
Instagram, Twitter bởi đây là những nền tảng có lượng người sử dụng lớn, chiếm 60%
dân số thế giới, giúp đẩy mạnh độ phủ sóng của sản phẩm tới người dùng.

Thứ tư, đẩy mạnh kinh doanh sản phẩm Rose Quartz Facial Roller - sản phẩm được
yêu thích nhất và phù hợp với nhiều loại da như sau:

● Tạo một chương trình hướng dẫn, tư vấn và dùng thử cho khách hàng có
loại da hỗn hợp, da khô về Rose Quartz Facial Roller. Điều này giúp họ tận dụng
tối đa lợi ích từ sản phẩm và có trải nghiệm tích cực.

● Tạo nội dung chất lượng cao về cách chăm sóc da hỗn hợp và cách sử
dụng Rose Quartz Facial Roller. Đây có thể là video hướng dẫn, bài viết blog, hoặc
bài viết trên trang web của Sephora.

● Sử dụng từ khóa liên quan đến chăm sóc da hỗn hợp và Rose Quartz Facial
Roller để tối ưu hóa trang web của Sephora và thúc đẩy tìm kiếm trực tuyến.

● Sử dụng dữ liệu từ lượt đánh giá tích cực của khách hàng để cải thiện mô
tả sản phẩm trên trang web của Sephora và thể hiện lợi ích cụ thể đối với loại da
hỗn hợp.

42
CHƯƠNG 3: KẾT LUẬN

Tóm lại, bằng việc tiến hành phân tích các dữ liệu và cung cấp cái nhìn chi tiết về
Sephora, chúng em đã nhận thấy sự phát triển đầy thú vị của một thương hiệu hàng đầu
trong ngành mỹ phẩm và làm đẹp. Sephora đã thành công trong việc tạo ra một danh
tiếng dựa trên chất lượng sản phẩm và trải nghiệm mua sắm. Tuy nhiên, còn tiềm ẩn cơ
hội để phát triển hơn nữa và mở rộng sự hiện diện trên toàn cầu.

Sau quá trình phân tích, ngoài việc đặt giả thuyết và kiểm chứng giả thuyết, chúng
em đã thu được những kết quả và nhận biết được các thông tin cụ thể như sau:

● Phân tích danh mục sản phẩm: dữ liệu Sản phẩm được thu thập chia thành
8 loại theo “Primary Category”, 36 loại theo "Secondary Category", 97 loại theo
danh mục "Tertiary Category". Phần lớn dữ liệu bao gồm các sản phẩm thuộc danh
mục chăm sóc da.

● Giá trung bình các dòng sản phẩm: Dòng sản phẩm Fragrance có giá cao
nhất, tiếp theo đó là dòng sản phẩm Skincare, các dòng sản phẩm cho toàn thân
(Bath & Body, Hair.

● Mức độ phổ biến của thương hiệu: Thương hiệu phổ biến nhất là Olaplex,
xếp ngay sau đó là The Ordinary, Rare Beauty by Selena Gomez, NARS,...

● Các đặc tính sản phẩm được tìm kiếm nhiều nhất: Vegan, Cruelty Free và
Long-wearing là 3 điểm chung lớn nhất trong những sản phẩm Makeup đã được
bán ra tại Sephora. Điều đó cho thấy xu hướng của người tiêu dùng ưa chuộng
những sản phẩm Makeup không chỉ lâu trôi mà còn phải thân thiện với môi trường
và mang tính nhân đạo.

Ngoài ra, còn một số thông tin nhận được sau quá trình phân tích dữ liệu như xác
định các review là tích cực, tiêu cực hay trung lập; top 20 sản phẩm được yêu thích nhất,
giá thành, lịch sử mua hàng… để từ đó đưa ra những khuyến nghị những sản phẩm mà
khách hàng có thể quan tâm và các giải pháp cần thiết cho nhãn hàng.

Dưới những thông tin, nhận thức và giải pháp thu được từ bài báo cáo này, chúng
em kỳ vọng Sephora sẽ tiếp tục trụ vững trong sứ mệnh làm đẹp và mang lại sự tự tin
cho mọi người trên khắp thế giới, và chắc chắn Sephora sẽ tiếp tục là một trong những
biểu tượng lớn trong ngành mỹ phẩm trong tương lai. Từ việc phân tích chúng em đã
43
nhận biết được các thông tin như giá cả, lượng hàng bán… từ đó doanh nghiệp có thể
tìm ra một chiến dịch tiếp thị cụ thể đóng góp vào việc tăng doanh số bán hàng. Việc
phân tích dữ liệu còn có thể dự báo doanh số bán hàng trong tương lai hoặc dự đoán xu
hướng thị trường. Kết quả phân tích giúp phát triển chiến lược mới hoặc điều chỉnh
chiến lược hiện tại và đưa ra các quyết định liên quan đến sản phẩm, giá cả, tiếp thị và
quản lý tồn kho. Quá trình phân tích dữ liệu giúp doanh nghiệp hiểu rõ hơn về hoạt động
kinh doanh của mình, tối ưu hóa chiến lược, và định hình sự phát triển trong tương lai.

44
TÀI LIỆU THAM KHẢO

1. About Us Sephora. Available at: https://www.sephora.com/beauty/about-us


2. What is exploratory data analysis? IBM. Available at:
https://www.ibm.com/topics/exploratory-data-analysis
3. What is sentiment analysis? (2023) GeeksforGeeks. Available at:
https://www.geeksforgeeks.org/what-is-sentiment-analysis/
4. The Definitive Guide to Text Analysis (2023) Qualtrics. Available at:
https://www.qualtrics.com/experience-management/research/text-analysis/
5. An in-depth guide to how Recommender Systems work Built In. Available at:
https://builtin.com/data-science/recommender-systems
6. What is data visualization? definition, examples, and learning resources
Tableau. Available at: https://www.tableau.com/learn/articles/data-visualization
7. Thúy, K. and Fischman, S. (2019) VI, Amazon. Available at:
https://aws.amazon.com/vi/what-is/linear-regression/
8. Microsoft Excel Encyclopædia Britannica. Available at:
https://www.britannica.com/technology/Microsoft-Excel

9. Excel string compare - 5 easy methods (2022) Simon Sez IT. Available at:
https://www.simonsezit.com/article/excel-string-compare/

45

You might also like