You are on page 1of 11

TIỀN XỬ LÍ SỐ LIỆU

(Hiện tại chỉ làm phần tiền xử lí số liệu cho missing_data, sau khi phân tích
xong dirty_data sẽ gộp lại và phân tích lại)

Chọn các biến chính là “date”, “order_price”, “delivery_charges”,


“customer_lat”, “customer_long”, “coupon_discount”, “order_total”,
“is_expedited_delivery”, “distance_to_nearest_warehouse”

Ta không chọn các biến “order_id”, “customer_id” vì mỗi giá trị của
chúng là riêng biệt và không có ý nghĩa thống kê. Biến
“latest_customer_review” ở định dạng string (character) và không có quy luật
nên ta cũng bỏ biến này.

1.
THỐNG KÊ MÔ TẢ

1 Dữ liệu thô

1.1 Tóm tắt dữ liệu

a Ngày tháng và các biến định lượng


date order_price delivery_charges customer_lat

Min. :2019-01-01 00:00:00.00 Min. : 580 Min. : 46.20 Min. :-37.83

1st Qu.:2019-04-05 00:00:00.00 1st Qu.: 7095 1st Qu.: 66.38 1st Qu.:-37.82

Median :2019-07-07 00:00:00.00 Median : 12508 Median : 76.79 Median :-37.81

Mean :2019-07-05 03:21:09.95 Mean : 19432 Mean : 77.17 Mean :-36.81

3rd Qu.:2019-10-07 12:00:00.00 3rd Qu.: 19423 3rd Qu.: 83.87 3rd Qu.:-37.81

Max. :2019-12-31 00:00:00.00 Max. :947691 Max. :114.04 Max. : 37.83

NA's :5 NA's :10 NA's :10

customer_long coupon_discount order_total distance_to_nearest_warehouse

Min. :144.9 Min. : 0.00 Min. : 569 Min. : 0.0549

1st Qu.:145.0 1st Qu.: 5.00 1st Qu.: 6477 1st Qu.: 0.7431

Median :145.0 Median :10.00 Median : 11061 Median : 1.0385

Mean :145.0 Mean :11.04 Mean : 25712 Mean : 1.6465

3rd Qu.:145.0 3rd Qu.:15.00 3rd Qu.: 17367 3rd Qu.: 1.3979

Max. :145.0 Max. :25.00 Max. :5688270 Max. :94.9734

NA's :10 NA's :10 NA's :10

b Các biến định tính


nearest_warehouse season

n missing distinct n missing distinct

990 10 3 990 10 4

Value Bakers Nickolson Thompson Value Autumn Spring Summer Winter

Frequency 224 361 405 Frequency 242 265 246 237

Proportion 0.226 0.365 0.409 Proportion 0.244 0.268 0.248 0.239


is_expedited_delivery

n missing distinct Info Sum Mean Gmd 0 1

1000 0 2 0.75 498 0.498 0.5005 502 498

is_happy_customer

n missing distinct Info Sum Mean Gmd 0 1 <NA>

990 10 2 0.571 737 0.7444 0.3809 253 737 10

1.1 Đồ thị tổng quan

a Dữ liệu khuyết

b Các biến dưới dạng đồ thị


2 Dữ liệu hậu xử lí

2.1 Tóm tắt dữ liệu

a Ngày tháng và các biến định lượng


b Các biến định tính
2.2 Đồ thị tổng quan

You might also like