Professional Documents
Culture Documents
Sinh viên :
Lúc này, chúng ta đang có quá nhiều dữ liệu, chưa mang tính phục vụ có mục đích cho
người sử dụng. Chúng ta đang thiếu tri thức, dữ liệu đã qua xử lý và phục vụ riêng cho mục đích
của người sử dụng. Vấn đề là làm thế nào để khai thác tri thức từ đống dữ liệu khổng lồ hiện
đang có trong tay.
Giải pháp cho việc khai phá ra tri thức chính là sự ra đời của công nghệ kho dữ liệu.
I. Giới thiệu
1. Mục tiêu.
Xây dựng kho cho doanh nghiệp chứa số lượng lớn các cửa hàng đặt tại nhiều thành phố và bang
khác nhau.Tại mỗi thành phố có nhiều cửa hàng , mỗi cửa hàng mang nhiều mặt hàng khác nhau
với số lượng phong phú. Ngoài ra, còn lưu trữ thông tin khách hàng để mang lại sự phục vụ hài
lòng nhất cho khách hàng.
2. Phạm vi dự án.
Kho dữ liệu được dùng cho một chuỗi các cửa hàng tại nhiều thành phố và các bang. Khách hàng
sống tại các thành phố đó đến mua trực tiếp hoặc đặt hàng qua email. Mỗi khách hàng sống ở
một thành phố duy nhất, và doanh nghiệp sẽ cố làm hài lòng khách hàng bằng cách hiển thị số
lượng mặt hàng khách hàng mong muốn đặt hàng tại thành phố mà khách hàng đang sinh sống.
Khách hàng có thể mua với bất kể số lượng là bao nhiêu và mỗi hóa đơn đặt hàng sẽ sẽ được
định danh bằng số của hóa đơn đó.
Doanh nghiệp có một số lượng lớn các cửa hàng tại nhiều thành phố và bang khác nhau.
- Mỗi thành phố có nhiều cửa hàng và có một cơ quan đầu não để điều phối tất cả các cửa
hàng. Địa chỉ của mỗi cửa hàng được ghi lại.
- Mỗi cửa hàng có nhiều mặt hàng khác nhau với số lượng phong phú.
- Khách hàng đến mua hàng chia làm 2 loại là: khách hàng đến mua trực tiếp và khách
hàng đặt hàng qua thư điện tử.
- Mỗi khách hàng sống ở một thành phố duy nhất. Doanh nghiệp sẽ bán cho khách hàng
các mặt hàng hiện có tại thành phố mà khách hàng đó sống. Nếu khách hàng muốn mua
mặt hàng mà thành phố đó không có, thì đơn hàng sẽ chuyển sang các cừa hàng ở thành
phố khác mà có mặt hàng khách hàng muốn.
- Số lượng mặt hàng trong mỗi đơn hàng là không giới hạn.
+ Một kho dữ liệu là một bộ dữ liệu hướng chủ đề.,tích hợp, biến động, theo thời gian và
không mất đi được dử dụng để hỗ trợ cho quá trình ra quyết định quản lý.
+ Kho dữ liệu như một cơ sở dữ liệu hỗ trợ quyết định mà được duy trì một cách riêng
biệt từ cơ sở dữ liệu của doanh nghiệp. Hỗ trợ xử lý thông tin bằng cách cung cấp một nền tảng
vững chắc dữ liệu lịch sử và hợp nhất cho việc phân tích.
+ Kho dữ liệu có thể sẽ lấy thông tin từ nhiều nguồn khác nhau như: database, Oracle,
SQL server, các file thông thường… của doanh nghiệp như các dữ liệu về: cửa hàng, khách
hàng, sản phẩm, bán hàng, nhân viên…
+ Kho dữ liệu được chuyển hóa, phân ra thành những mục riêng như: khách hàng, bán
hàng, sản phẩm,…nhờ công cụ OLAP(Online Analyze Proceesing) để hỗ trợ việc truy vấn thông
tin.
+ Dữ liệu được làm sạch và tích hợp bằng các kỹ thuật tích hợp dữ liệu để đảm bảo tính
nhất quán trong quy ước đặt tên, mã hóa cấu trúc, các độ đo thuộc tính…giữa các nguồn dữ liệu
khác nhau như: giá của sản phẩm bao gồm đơn vị tiền tệ, thuế,…
- Chuyển đổi ngược từ các lược đồ quan hệ sang mô hình thực thể liên kết mở rộng.
Headquarter Database (DB của mỗi cửa hàng đầu não ở mỗi thành phố)
Relation Customer (Customer_id, Customer_name, City_id, First_order_date)
Relation Walk-in_customers (*Customer_id, tourism_guide, Quarter)
Relation Mail_order_customers (*Customer_id, post_address, Quarter )
- Tích hợp các mô hình thực thể liên kết mở rộng thành một lược đồ thống nhất.
Vì dataCity_id xuất hiện trong thực thể Headerqarter và thực thể Customer chúng được thể hiện
như hình vẽ sau:
Trộn EER bằng cách khái quát hóa:
Vì hai tập thực thể Walk_in Customer và Mail_order Customer có cùng khóa nên chúng có thể
được khái quát hóa giao nhau thể hiện như hình vẽ:
Tích hợp hai lược đồ thành một lược đồ thống nhất như hình vẽ dưới đây:
3. Tích hợp dữ liệu
3.1. Mô hình hóa dữ liệu cho kho dữ liệu:
Bảng Customer
Kết quả:
Bảng fact_head
Kết quả:
Bảng Headquarter
Kết quả:
Bảng items
Kết quả:
Bảng Time
Kết quả:
Bảng mail_order_customer
Kết quả:
Bảng order_items
Kết quả:
Bảng Order
Kết quả:
Bảng Sales:
Kết quả:
Bảng Stores
Kết quả:
Bảng Stored_item
Kết quả:
Bảng walk_in_customer
Kết quả:
3.3. Tích hợp dữ liệu
Stores
Stored_items
Stores
Stored_items
Relationship Ra
Relationship Ra
Walk_in_customers
Mail_order_customers
Walk_in_customers
Relationship Rb
Relationship Rb
Items
Stored_items
Items
Stored_items
Relationship Rc
Relationship Rc
Order_items
Order
Order_items
Order
Relationship Rx
Relationship Rx
Bảng Order
Bảng Items:
Order_items
item
Relationship Ry
Relationship Ry
Order Item Descrip Siz Weig Unit_pric Manufactur Quantit Price Place_order_date
_no _id t e e e_date y
1 5 Iron S 3 $185.50 2015-05-09 1 185.50 2015-05-06
2 3 Air M 15 $500.00 2015-03-07 1 500.00 2015-10-21
Conditi
oner
3 3 Air M 15 $500.00 2015-03-07 5 2500.00 2015-10-24
Conditi
oner
4 3 Air M 15 $500.00 2015-03-07 1 500.00 2015-06-12
Conditi
oner
5 1 TV L 15 $1200.00 2015-01-22 1 1200.00 2015-09-29
5 5 Iron S 3 $185.50 2015-05-09 1 185.50 2015-09-29
6 1 TV L 15 $1200.00 2015-01-22 4 4800.00 2015-08-22
7 1 TV L 15 $1200.00 2015-01-22 3 3600.00 2015-06-07
8 3 Air M 15 $500.00 2015-03-07 2 1000.00 2015-11-25
Conditi
oner
9 2 Refrige L 50 $1500.00 2015-02-27 3 4500.00 2015-12-19
rator
9 4 Washin M 100 $700.00 2015-04-18 4 2800.00 2015-12-19
g
machin
e
10 1 TV L 15 $1200.00 2015-01-22 1 1200.00 2015-06-26
11 1 TV L 15 $1200.00 2015-01-22 4 4800.00 2015-06-11
11 3 Air M 15 $500.00 2015-03-07 5 2500.00 2015-06-11
Conditi
oner
11 4 Washin M 100 $700.00 2015-04-18 2 1400.00 2015-06-11
g
machin
e
12 2 Refrige L 50 $1500.00 2015-02-27 3 4500.00 2015-05-20
rator
12 5 Iron S 3 $185.50 2015-05-09 5 927.50 2015-05-20
13 3 Air M 15 $500.00 2015-03-07 4 2000.00 2015-05-30
Conditi
oner
14 1 TV L 15 $1200.00 2015-01-22 2 2400.00 2015-11-26
14 2 Refrige L 50 $1500.00 2015-02-27 1 3000.00 2015-11-26
rator
14 3 Air M 15 $500.00 2015-03-07 5 2500.00 2015-11-26
Conditi
oner
14 4 Washin M 100 $700.00 2015-04-18 2 1400.00 2015-11-26
g
machin
e
14 5 Iron S 3 $185.50 2015-05-09 1 185.50 2015-11-26
15 2 Refrige L 50 $1500.00 2015-02-27 2 3000.00 2015-08-25
rator
16 3 Air M 15 $500.00 2015-03-07 5 2500.00 2015-06-07
Conditi
oner
16 5 Iron S 3 $185.50 2015-05-09 5 927.50 2015-06-07
17 1 TV L 15 $1200.00 2015-01-22 4 4800.00 2015-06-24
17 5 Iron S 3 $185.50 2015-05-09 2 371.00 2015-06-24
18 5 Iron S 3 $185.50 2015-05-09 4 742.00 2015-07-08
19 4 Washin M 100 $700.00 2015-04-18 4 2800.00 2015-11-19
g
machin
e
20 2 Refrige L 50 $1500.00 2015-02-27 2 3000.00 2015-11-02
rator
20 3 Air M 15 $500.00 2015-03-07 3 1500.00 2015-11-02
Conditi
oner
20 5 Iron S 3 $185.50 2015-05-09 2 371.00 2015-11-02
21 1 TV L 15 $1200.00 2015-01-22 1 1200.00 2015-06-24
22 5 Iron S 3 $185.50 2015-05-09 5 927.50 2015-08-13
23 5 Iron S 3 $185.50 2015-05-09 3 556.50 2015-07-20
24 1 TV L 15 $1200.00 2015-01-22 5 6000.00 2015-06-26
25 1 TV L 15 $1200.00 2015-01-22 5 6000.00 2015-06-11
25 3 Air M 15 $500.00 2015-03-07 4 2000.00 2015-06-11
Conditi
oner
26 5 Iron S 3 $185.50 2015-05-09 2 371.00 2015-06-03
27 1 TV L 15 $1200.00 2015-01-22 1 1200.00 2015-08-31
27 2 Refrige L 50 $1500.00 2015-02-27 2 3000.00 2015-08-31
rator
27 4 Washin M 100 $700.00 2015-04-18 1 700.00 2015-08-31
g
machin
e
28 5 Iron S 3 $185.50 2015-05-09 5 927.50 2015-07-28
29 1 TV L 15 $1200.00 2015-01-22 2 2400.00 2015-09-01
29 3 Air M 15 $500.00 2015-03-07 5 2500.00 2015-09-01
Conditi
oner
30 4 Washin M 100 $700.00 2015-04-18 2 1400.00 2015-07-01
g
machin
e
31 2 Refrige L 50 $1500.00 2015-02-27 3 4500.00 2015-12-20
rator
31 3 Air M 15 $500.00 2015-03-07 2 1000.00 2015-12-20
Conditi
oner
31 4 Washin M 100 $700.00 2015-04-18 1 700.00 2015-12-20
g
machin
e
31 5 Iron S 3 $185.50 2015-05-09 1 185.50 2015-12-20
32 4 Washin M 100 $700.00 2015-04-18 4 2800.00 2015-10-06
g
machin
e
33 1 TV L 15 $1200.00 2015-01-22 1 1200.00 2015-08-01
34 2 Refrige L 50 $1500.00 2015-02-27 3 4500.00 2015-12-08
rator
34 5 Iron S 3 $185.50 2015-05-09 2 371.00 2015-12-08
35 2 Refrige L 50 $1500.00 2015-02-27 5 7500.00 2015-10-22
rator
36 5 4 742.00 2016-01-05
37 2 Refrige L 50 $1500.00 2015-02-27 4 6000.00 2016-01-10
rator
37 3 Air M 15 $500.00 2015-03-07 4 2000.00 2016-01-10
Conditi
oner
37 5 Iron S 3 $185.50 2015-05-09 2 371.00 2016-01-10
38 2 Refrige L 50 $1500.00 2015-02-27 1 1500.00 2015-12-12
rator
39 2 Refrige L 50 $1500.00 2015-02-27 1 1500.00 2015-12-12
rator
40 1 TV L 15 $1200.00 2015-01-22 1 1200.00 2016-04-03
40 2 Refrige L 50 $1500.00 2015-02-27 2 3000.00 2016-04-03
rator
40 3 Air M 15 $500.00 2015-03-07 5 2500.00 2016-04-03
Conditi
oner
40 4 Washin M 100 $700.00 2015-04-18 3 2100.00 2016-04-03
g
machin
e
41 2 Refrige L 50 $1500.00 2015-02-27 2 3000.00 2016-06-07
rator
42 1 TV L 15 $1200.00 2015-01-22 3 3600.00 2015-08-02
43 2 Refrige L 50 $1500.00 2015-02-27 2 3000.00 2016-06-13
rator
44 4 Washin M 100 $700.00 2015-04-18 2 1400.00 2015-12-20
g
machin
e
45 5 Iron S 3 $185.50 2015-05-09 5 927.50 2015-07-18
46 1 TV L 15 $1200.00 2015-01-22 3 3600.00 2016-07-03
47 2 Refrige L 50 $1500.00 2015-02-27 5 7500.00 2015-12-10
rator
48 3 Air M 15 $500.00 2015-03-07 5 2500.00 2016-08-03
Conditi
oner
49 3 Air M 15 $500.00 2015-03-07 4 2000.00 2016-10-18
Conditi
oner
50 2 Refrige L 50 $1500.00 2015-02-27 3 4500.00 2015-09-27
rator
51 4 Washin M 100 $700.00 2015-04-18 1 700.00 2016-08-13
g
machin
e
52 4 Washin M 100 $700.00 2015-04-18 5 3500.00 2016-09-25
g
machin
e
52 5 Iron S 3 $185.50 2015-05-09 1 185.50 2016-09-25
53 4 Washin M 100 $700.00 2015-04-18 2 1400.00 2016-11-04
g
machin
e
54 1 TV L 15 $1200.00 2015-01-22 4 4800.00 2016-10-19
55 2 Refrige L 50 $1500.00 2015-02-27 4 6000.00 2015-10-19
rator
56 3 Air M 15 $500.00 2015-03-07 2 1000.00 2016-06-20
Conditi
oner
57 2 Refrige L 50 $1500.00 2015-02-27 2 3000.00 2016-05-01
rator
58 4 Washin M 100 $700.00 2015-04-18 5 3500.00 2016-03-23
g
machin
e
59 1 TV L 15 $1200.00 2015-01-22 2 2400.00 2016-06-19
60 1 TV L 15 $1200.00 2015-01-22 3 3600.00 2016-10-13
61 1 TV L 15 $1200.00 2015-01-22 3 3600.00 2016-05-18
62 3 Air M 15 $500.00 2015-03-07 1 500.00 2016-12-20
Conditi
oner
63 2 Refrige L 50 $1500.00 2015-02-27 4 6000.00 2016-01-09
rator
64 5 Iron S 3 $185.50 2015-05-09 3 556.50 2017-02-22
65 1 TV L 15 $1200.00 2015-01-22 5 6000.00 2016-08-23
66 1 TV L 15 $1200.00 2015-01-22 2 2400.00 2016-02-23
66 4 Washin M 100 $700.00 2015-04-18 2 1400.00 2016-02-23
g
machin
e
66 5 Iron S 3 $185.50 2015-05-09 2 371.00 2016-02-23
67 1 TV L 15 $1200.00 2015-01-22 1 1200.00 2017-03-08
68 1 TV L 15 $1200.00 2015-01-22 1 1200.00 2017-01-20
69 5 Iron S 3 $185.50 2015-05-09 5 927.50 2017-01-02
3.4. Độ đo
loyal_customer = khách hàng mà đã mua tất tần tật (mọi orders của nó) >= $7000
Biểu đồ loyal_customer
unit_sold = số lượng hàng bán được của mỗi item từ trước đến nay
Biểu đồ unit_sold
avg_sold = số tiền trung bình thu được của mỗi item từ trước đến nay
Biểu đồ avg_sold
V. Các báo cáo xử lý phân tích trực tuyến
1. Tìm địa chỉ đầu não cùng với tên thành phố và bang của tất cả các cửa hàng mà số lượng của 1
item cao hơn 1 mức nào đó.
Khối
- Time
- Head_item
Địa chỉ đầu não cùng với tên thành phố và bang của tất cả các cửa hàng mà số lượng của
1 item cao hơn 1 mức nào đó.
2. Tìm thành phố và bang mà 1 khách hàng nhất định nào đó sống.
Tìm theo tiểu bang: