Professional Documents
Culture Documents
BaoCao
BaoCao
HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
Lê Vinh 20522158
I. LÝ DO CHỌN ĐỀ TÀI..........................................................................................4
II. DỮ LIỆU.................................................................................................................4
1. Ưu điểm................................................................................................................4
2. Hạn chế.................................................................................................................4
Trênn các mô hình thương mại điện tử nổi bật ở thị trường Việt Nam bây giờ như Tiki
và Shopee, khi một khách hàng chưa mua sản phẩm thì đã có các dự đoán về thời gian
giao hàng. Từ đó giúp loại bỏ chướng ngại vật mang tên “Khi nào nhận được hàng”
của những người mua sắm. Tuy tính năng dự đoán thời gian giao hàng này sẽ làm
giảm doanh số của những món có thời gian giao lâu hơn nhưng bù lại sẽ tăng doanh số
nhiều hơn đáng kể cho những món giao nhanh hơn đối với khách hàng đó. Vì trên tâm
lý chung, khi người dùng mua hàng online họ thường ngại mua hàng vì tình trạng đơn
hàng mất hơn một tuần để giao là phổ biến và không có cách nào để họ biết được món
hàng nào sẽ giao nhanh hay chậm hay có tới đúng lúc họ cần hay không.
Xem xét trang thương mại điện tử Tiki. Tiki là viết tắt của “Tìm kiếm & Tiết kiệm”, là
tên của website thương mại điện tử Việt Nam. Thành lập từ tháng 3 năm 2010, Tiki
hiện đang là trang thương mại điện tử lọt top 2 tại Việt Nam và top 6 tại khu vực Đông
Nam Á.
Mô hình ban đầu của Tiki trang web bán sách online. Tháng 4 năm 2017, Tiki đánh
dấu bước chuyển mình khi chuyển sang hình thức Marketplace cung cấp hơn 10 triệu
sản phẩm từ 16 ngành hàng lớn, phục vụ hàng triệu khách hàng trên toàn quốc, đồng
thời ra mắt dịch vụ TikiNow, giao hàng nhanh trong 2h. [1]
Khi đang giao đến địa chỉ hiện tại (thể hiện ở hình ảnh 1 là Quận 1, Bến Nghé) thì các
món hàng được đề xuất ở “Thương hiệu nổi bật” và các “Điện thoại Smartphone” có
dòng ước tính thời gian giao hàng ở cuối mỗi sản phẩm.
Điều này giúp cho người mua biết được đơn hàng sẽ đến khi nào và đặc biệt đối với
dịch vụ giao siêu tốc 2h của Tiki, giúp người dùng có được cảm giác “ảo mà như thật”.
Món hàng mình vừa bấm mua đã xuất hiện ngay trước cửa nhà chỉ sau 2 giờ đồng hồ
mà không cần phải tìm địa chỉ, chuẩn bị phương tiện vận chuyển, trang phục và di
chuyển đến chỗ mua. Tuy đó là đặc điểm chung của các trang thương mại điện tử
nhưng thời gian giao hàng của các trang đó thường không được xác định trước hay là
chỉ được ước tính sau khi tạo đơn, hoặc sau khi bên người bán xác nhận đơn. Việc đó
tạo nên một rào cản tâm lý trong việc chọn mua một sản phẩm trên mạng. So sánh với
trang thương mại điện tử khác, ở đây là Shopee.
Shopee là sàn giao dịch thương mại điện tử có trụ sở đặt tại Singapore, thuộc sở hữu
của Sea Ltd (trước đây là Garena), được thành lập vào năm 2009 bởi Lý Tiểu Đông.
Shopee được giới thiệu lần đầu tại Singapore vào năm 2015, và hiện đã có mặt tại các
quốc gia: Singapore; Malaysia, Đài Loan, Thái Lan, Indonesia, Việt Nam, Philippines,
Brazil, Ba Lan.
Tính đến năm 2021, Shopee được coi là nền tảng thương mại điện tử lớn nhất Đông
Nam Á với 343 triệu lượt truy cập hàng tháng. Ngoài ra, Shopee còn phục vụ người
tiêu dùng và người bán trên khắp các quốc gia ở Đông Á và Mỹ Latinh.[2]
Trang chủ của Shopee khi truy cập vào chưa tìm thấy liền được các sản phẩm, không
như Tiki nơi mà các sản phẩm là thứ đầu tiên được phô bày ra, cùng với thời gian giao
hàng dự kiến. Tuy nhiên phần lớn người tiêu dùng lại lựa chọn Shopee thay vì Tiki,
nhưng sự lựa chọn đó không phải vì các tính năng của Shopee nổi trội hơn mà vì giá
cả. Tính đến đầu năm 2023, Shopee tiếp tục dẫn đầu thị trường Thương mại điện tử
Việt Nam khi chiếm đến 63,1% thị phần tổng doanh thu của 5 sàn Thương mại điện tử
lớn nhất hiện nay. Trong đó doanh thu bán hàng trên nền tảng vượt 24.700 tỷ đồng với
289,7 triệu sản phẩm được giao thành công từ 211.609 người bán. [3]
Không như Tiki, các sản phẩm được Shopee đề xuất không thể hiện thời gian giao
hàng, từ đó dẫn đến việc người mua sẽ đặt những câu hỏi như “Người bán mất bao lâu
để chuẩn bị hàng?”, “Giao hàng mất bao lâu?”, “Thời điểm thực tế mà hàng về đến tay
là khi nào?”. Câu hỏi này có thể được trả lời, tuy nhiên nó yêu cầu người dùng phải
vào trang sản phẩm riêng lẻ rồi xác định vị trí hiện tại. Thao tác này lặp đi lặp lại sẽ dễ
khiến người dùng cảm thấy chán chường, có thể dẫn đến việc thay đổi ý định hoặc
thậm chí không mua hàng.
Từ sự khác biệt giữa phương thức “hấp dẫn người tiêu dùng” này, nhóm chúng em xác
định bài toán của đề tài là: Bằng việc vận dụng các kỹ thuật xử lý dữ liệu lớn, đưa ra
thời gian giao – nhận hàng ước tính dựa vào thời điểm người dùng truy cập web và
một vài tham số có thể thu được khác.
Thuộc tính Mô tả
Biến phân loại chỉ định việc có khả năng giao hàng trễ
Late_delivery_risk
hay không
Order Id Mã đơn
Order Item Discount Rate % giảm giá đối với sản phẩm hiện tại trong đơn
Order Item Id Mã chi tiết đơn
Order Item Profit Ratio Lợi nhuận của sản phẩm (trùng)
Thành tiền của sản phẩm sau khi đã tính các yếu tố giảm
Order Item Total
giá, số lượng
Đường dẫn đến hình ảnh sản phẩm (hầu như không còn
Product Image
hoạt động được nữa - 404 Not found)
2. Thống kê mô tả
- Ta có các chỉ số cơ bản về tập dữ liệu như: giá trị nhỏ nhất, giá trị lớn nhất,
số dòng dữ liệu, độ lệch chuẩn, giá trị trung bình,…
III. MÔ TẢ BÀI TOÁN
Từ dữ liệu đã được đề cập ở trên, nhóm mô phỏng trường hợp của một mô hình
thương mại điện tử sử dụng cơ sở NoSQL được tổ chức trên đám mây và áp dụng các
biện pháp cũng như kỹ thuật để có thể thực hiện được đề tài. Đầu tiên, nhóm sẽ quy
định các bảng cho cơ sở dữ liệu, với dữ liệu và định nghĩa cột từ cơ sở dữ liệu được đề
cập phía trên. Đối với đề tài này để tương tác với dữ liệu trên môi trường phân tán đám
mây nhóm sử dụng MongoDB.
Thuộc tính Mô tả
_id Trường ID được tạo bởi Mongo
CategoryId Mã loại sản phẩm
CategoryName Tên loại sản phẩm
Collection khách hàng (customers) gồm 20.7 nghìn dòng, 2 index (“_id” được tạo bởi
Mongo và “CustomerId” để tham chiếu trên bộ dữ liệu) và gồm các thuộc tính:
Thuộc tính Mô tả
_id Trường ID được tạo bởi Mongo
CustomerId Mã khách hàng
CustomerCity Thành phố giao hàng đến
CustomerFname Tên của khách hàng
CustomerLname Họ và tên đệm của khách hàng
CustomerPassword Mật khẩu của khách hàng
CustomerSegment Phân loại khách hàng
CustomerState Bang giao hàng đến
CustomerStreet Địa chỉ cụ thể giao hàng
CustomerZipcode Mã bưu chính giao hàng
CustomerEmail Địa chỉ email của khách hàng
Đối với dữ liệu gốc, có các ta cũng có trường tương tự như trên nhưng xét với mỗi
Order (OrderCity, OrderCountry, Market). Các trường liên quan tới địa chỉ này không
đầy đủ thông tin như các trường liên quan tới khách hàng nên đề tài sẽ cho rằng địa chỉ
giao hàng là địa chỉ hiện tại của khách hàng. Khi khách hàng cập nhật lại địa chỉ thì
địa chỉ giao hàng ở đơn đã tạo trước đó sẽ không thay đổi. Bên cạnh đó còn các trường
như Latitude, Longitude là điểm lấy hàng của đơn nhưng do không có thông tin của
các điểm lấy hàng nên đề tài sẽ bỏ qua các yếu tố này.
IV. THIET KE CO SO DU LIEU PHAN TAN TICH HOP DIEN TOAN DAM
MAY MONGODB ATLAS
V. THIẾT LẬP MÔI TRƯỜNG SPARK TRÊN NỀN TẢNG GOOGLE
CLOUD PLATFORM
Đầu tiên đăng nhập vào nơi quản lý dự án của Google Cloud tại
https://console.cloud.google.com/projectselector2/home/dashboard
Sau đó nếu chưa có dự án nào thì tạo mới dự án hoặc chọn một trong các dự án đã có
sẵn. Để tạo mới dự án ở góc phải trên có “CREATE PROJECT”, ta chọn mục này thì
sẽ được điều hướng tới trang tạo dự án mới. Ta điền các thông tin tương ứng vào rồi
nhấn "CREATE”
Sau khi project được tạo xong ta quay lại nơi quản lý project
(https://console.cloud.google.com/projectselector2/home/dashboard) và chọn project
vừa được tạo
Các thư viện bổ sung cần thiết cho việc kết nối:
Sau khi tải xong các thư viện bổ sung (các file .jar) ta bỏ các file này vào thư mục
$SPARK_HOME/jars và sau đó chạy Spark với lệnh
cd $SPARK_HOME
Sau đó ta chạy ô lệnh kết nối trong Jupyter, nếu kết quả như trên hình (một ô hồng
rỗng) và không có thông báo lỗi thì kết nối đã thành công và dữ liệu đã được query về.