You are on page 1of 76

PHÂN TÍCH DỮ LIỆU

&
TRI THỨC KINH DOANH

Bài 4: Trực quan hóa và khám phá dữ liệu

http://cbafaculty.org/business-management/
Trực quan hóa dữ liệu
• Trực quan hóa dữ liệu – tiến trình trình bày
dữ liệu (thường với số lượng lớn) ở dạng có ý
nghĩa để cung cấp thông tin hỗ trợ ra quyết
định tốt hơn.
– Trực quan hóa dữ liệu cải tiến việc ra quyết định,
cung cấp cho người quản lý khả năng phân tích tốt
hơn và giảm sự phụ thuộc vào chuyên gia công
nghệ, cải thiện sự cộng tác và chia sẻ thông tin.

2
Thí dụ 3.1: Bảng đối ngược phân tích dữ liệu
trực quan
• Dữ liệu bảng có thể được sử dụng để xác định một cách chính
xác số lượng 1 sản phẩm nào đó được bán trong tháng hoặc
so sánh số lượng bán giữa các tháng.
– Thí dụ: việc bán sản phẩm A trong tháng 2 giảm khoảng 6.7% ( bằng 1-
– B3/B2). Tuy nhiên, dựa trên các tính toán như vậy khó để rút ra
được bức tranh tổng thể về việc bán hàng.

Monthly
Product Sales

3
Thí dụ 3.1: Bảng đối ngược với phân tích dữ liệu
trực quan
• Một biểu đồ trực quan cho
phép:
– Dễ so sánh chung về việc bán
hàng các sản phẩm khác nhau
(thí dụ: sản phẩm C bán được ít
nhất);
– Xác định các khuynh hướng (việc
bán sản phẩm D tăng), hay các
mẫu khác (việc bán sản phẩm C
tương đối ổn định trong khi việc
bán sản phẩm B thay đổi nhiều),
và các ngoại lệ (việc bán sản
phẩm E sụt giảm trong tháng 9).

4
Bảng điều khiển

• Bảng điều khiển/dashboard  là một dạng thể hiện trực quan


của các chỉ số kinh doanh chính. Nó phỏng theo bảng điều
khiển ô tô ở đó hiển thị tốc độ, xăng dầu, nhiệt độ, …
– Bảng điều khiển cung cấp sự tổng hợp các thông tin kinh doanh chính
để giúp quản lý chức năng và tiến trình nghiệp vụ.  

5
Tạo biểu đồ trong Microsoft Excel
 Chọn tab Insert.
 Chọn dữ liệu.
 Chọn dạng biểu đồ, dạng con.

 Sử dụng Chart Tools để tùy biến.

6
Biểu đồ cột và biểu đồ thanh
• Excel phân biệt giữa các biểu đồ thanh dọc và ngang, gọi là
biểu đồ cột và biểu đồ thanh.
– Biểu đồ cột phân cụm (clustered column chart) so sánh các giá trị giữa
các nhóm sử dụng các hình chữ nhật dọc;
– Biểu đồ cột chồng xếp (stacked column chart) trình bày mức đóng góp
của mỗi giá trị tới tổng bằng cách chồng các hình chữ nhật;
– Biểu đồ cột chồng 100% (100% stacked column chart) so sánh phần
trăm mỗi giá trị đóng góp tới tổng.
• Các biểu đồ cột và thanh ngang sử dụng để so sánh các nhóm
hay dữ liệu có thứ tự để trình bày sự khác nhau giữa các tập
giá trị và trình bày tỷ lệ hay phần trăm đối với tổng thể.

7
Thí dụ 3.2: Tạo biểu đồ cột
Chọn dải C3:K6, bao gồm cả đầu mục và dữ liệu các loại. Nhấn
nút Column Chart và sau đó chọn dạng biểu đồ đầu tiên trong
danh sách (clustered column chart).

Highlighted Cells

Excel file EEO Employment Report


8
Thí dụ 3.2: Tạo biểu đồ cột
Để thêm tiêu đề, nhấn biểu tượng đầu tiên trên nhóm Chart Layouts. Nhấn “Chart
Title” trong biểu đồ và đổi nó thành “EEO Employment Report—Alabama.” Các tên
của data series có thể thay đổi bằng cách nhấn nút Select Data trong nhóm Data của
tab Design. Trong hộp hội thoại Select Data Source (bên dưới), nhấn “Series1” và sau
đó nhấn nút Edit. Nhập tên của data series, trong trường hợp này là “All Employees.”
Thay đổi tên của các data series khác tới “Men” và “Women”.

9
Biểu đồ đường
• Biểu đồ đường (Line chart) hữu dụng để trình bày dữ liệu
theo thời gian.
– Ta có thể vẽ nhiều chuỗi dữ liệu trên biểu đồ đường; tuy nhiên sẽ khó
diễn giải nếu giá trị dữ liệu khác nhau nhiều. Trong trường hợp đó nên
tạo các chuỗi dữ liệu riêng rẽ.

Thí dụ 3.3: Biểu đồ đường mô tả


dữ liệu xuất khẩu của Mỹ vào
Trung Quốc

China Trade Data

10
Biểu đồ quạt

• Biểu đồ quạt (pie chart) thể hiện tỷ lệ tương đối giữa các giá
trị sử dụng các phần của hình tròn.

Thí dụ 3.4: Biểu đồ quạt cho dữ


liệu dân cư

Census Education Data

11
Biểu đồ quạt
• Các chuyên gia trực quan hóa dữ liệu không khuyến khích sử dụng biểu đồ
quạt. Trong biểu đồ quạt, khó so sánh kích thước tương đối của các phần; tuy
nhiên có thể dễ dàng so sánh các cột trong biểu đồ cột để xác định tỷ lệ tương
đối của dữ liệu.
– Nếu sử dụng biểu đồ quạt, ràng buộc với số nhỏ nhóm và đảm bảo tổng số là
100%, sử dụng nhãn để trình bày tên nhóm và số phân trăm. Tránh biểu đồ quạt 3
chiều - (3-D) pie chart—đặc biệt khi chúng được quay—và giữ cho chúng đơn giản.

12
Biểu đồ vùng
• Biểu đồ vùng (area chart) liên kết các đặc điểm của biểu đồ
quạt và biểu đồ đường.
– Biểu đồ vùng thể hiện nhiều thông tin hơn biểu đồ quạt và biểu đồ
đường nhưng có thể làm khó người quan sát vì quá nhiều chi tiết nếu
quá nhiều chuỗi dữ liệu được sử dụng; do đó nên sử dụng chúng cẩn
thận.

Thí dụ 3.5: Biểu đồ vùng mô tả


sự tiêu dùng năng lượng

Energy Production &


Consumption

13
Biểu đồ phân tán

• Biểu đồ phân tán (Scatter chart) trình bày quan hệ


giữa 2 biến. Để tạo biểu đồ phân tán, ta cần các quan
sát chứa cặp biến.

Thí dụ 3.6: Biểu đồ phân


tán thể hiện dữ liệu bất
động sản

Home Market Value

14
Biểu đồ bong bóng

• Biểu đồ bong bóng (bubble chart) là dạng biểu đồ phân tán


với kích thước của các điểm dữ liệu tương ứng với giá trị của
biến thứ 3; như vậy, nó là cách để vẽ 3 biến trong không gian
2 chiều.

Thí dụ 3.7: Biểu đồ


bong bóng so sánh
chứng khoán

Stock Comparisons

15
Các biểu đồ Excel khác

• Biểu đồ chứng khoán - Stock chart


• Biểu đồ mặt - Surface chart
• Biểu đồ bánh - Doughnut chart
• Biểu đồ radar - Radar chart

16
Dữ liệu địa lý
• Nhiều ứng dụng phân tích nghiệp vụ chứa dữ liệu địa lý. Trực
quan hóa dữ liệu địa lý có thể bộc lộ các quan hệ dữ liệu
chính, các khuynh hướng và các cơ hội kinh doanh ẩn. Thêm
nữa nó có thể giúp xác định các lỗi dữ liệu và giúp người dung
hiểu giải pháp và như vậy tăng khả năng chấp nhận của mô
hình ra quyết định
• Các công ty như Nike sử dụng dữ liệu địa lý và các hệ thống
thông tin để trực quan hóa vị trí các sản phẩm đang được
phân phối và các liên kết giữa dữ liệu nhân chủng học và
thông tin bán hàng. Thông tin ngày rất quan trọng cho các
chiến lược marketing.

17
Các công cụ trực quan hóa dữ liệu của Excel khác

• Data bars
• Color scales
• Icon sets
• Sparklines
• Camera tool

18
Thí dụ 3.8: Trực quan hóa dữ liệu thông qua
định dạng điều kiện
• Data bars trình bày các thanh màu theo tỷ lệ độ lớn của các
giá trị dữ liệu (tương tự biểu đồ thanh) nhưng đặt trực tiếp
trong các ô của dải dữ liệu.
– Chọn dữ liệu trong mỗi cột, nhấn nút Conditional Formatting trong
nhóm Styles trong tab Home, chọn Data Bars, và chọn các lựa chọn
màu tô.

Monthly Product Sales

19
Thí dụ 3.8: Trực quan hóa dữ liệu thông qua
định dạng điều kiện
• Color scales tô mầu dựa trên giá trị số của các ô sử dụng bảng
màu.
– Mã hóa màu của các dữ liệu định lượng được gọi là bản đồ
nhiệt/heatmap.  

20
Thí dụ 3.8: Trực quan hóa dữ liệu thông qua
định dạng điều kiện
• Icon sets cung cấp thông tin tương tự sử dụng các ký hiệu
khác nhau như mũi tên hay mầu đèn dừng colors.

21
Sparklines
• Sparklines là đồ thị tổng hợp dữ liệu của một hàng
hay một cột vào một ô đơn.
• Excel có 3 dạng sparklines: line, column, và win/loss.
– Line sparklines dùng cho dữ liệu chuỗi thời gian
– Column sparklines phù hợp với dữ liệu phân loại.
– Win-loss sparklines hữu dụng với dữ liệu tăng lên hay giảm
xuống theo thời gian.  

22
Thí dụ 3.9 Các thí dụ dùng Sparklines

• Nói chung nên mở rộng hàng hay cột để trình bày sparkline. Tuy nhiên lưu
ý rằng chiều dài của các thanh không được tỷ lệ phù hợp với dữ lieu; thí
dụ trong cột đầu sản phẩm D và E bằng 1/3 sản phẩm A là không chính
xác. Do đó hãy cẩn thận khi dùng chúng.

23
Công cụ Camera
• Công cụ này cho phép tạo hình ảnh động của dải nào đó từ
các worksheet khác nhau và đặt chúng, thay đổi kích thước và
tổ chức chúng trong một trang đơn.
• Chúng là các ảnh liên kết tới các dải giá trị, và được cập nhật
theo dữ liệu gốc.
– Để sử dụng công cụ camera, trước hết thêm nó vào Quick Access Toolbar (tập
các nút trên ribbon). Từ menu File chọn Options và sau đó Quick Access
Toolbar. Chọn Commands, và sau đó Commands Not in the Ribbon. Chọn
Camera để bổ sung nó vào thanh truy cập nhanh.

24
Truy vấn dữ liệu: Bảng, Sắp xếp và lọc

• Người quản lý thường cần sắp xếp và lọc dữ


liệu.
– Lọc/Filtering nghĩa là trích tập con các bản ghi có
tính chất nào đó.
• Excel cung cấp định dạng bảng (Table) dễ dàng
cho việc phân tích sử dụng sắp xếp và lọc

25
Thí dụ 3.10: Tạo bảng Excel
• Trước hết, chọn dải giá trị, bao gồm cả đầu mục – header (shortcut hữu dụng là
chọn ô trên bên trái sau đó nhấn Ctrl+Shift+down arrow, và sau đó Ctrl+Shift+right
arrow).
• Tiếp theo nhấn Table trong nhóm Tables ở tab Insert, đảm bảo check My Table Has
Headers. (Có thể chỉ chọn 1 ô trong bảng và sau đó nhấn Table trên menu Insert.)
• Dải bảng được định dạng và sẽ tự động tăng thêm khi dữ liệu mới được nhập vào.
• Nếu nhấn vào bảng, tab Table Tools Design sẽ hiện lên trên ribbon, cho phép thay
đổi một số thứ như lược đồ màu, loại bỏ trùng dữ liệu, thay đổi định dạng, ...

Credit Risk

26
Thí dụ 3.11: Tính toán dựa trên bảng
• Giả sử trong bảng Credit Risk Data chúng ta muốn tính tổng tiền tiết kiệm
trong cột C. Hiển nhiên ta có thể đơn giản sử dụng hàm =SUM(C4:C428).
Tuy nhiên trong bảng, ta có thể sử dụng biểu thức =SUM(Table1[Savings]).
Tên bảng,Table1, có thể tìm thấy (và thay đổi) trong nhóm Properties ở tab
Table Tools Design. Lưu ý rằng Savings là tên của đầu mục của cột C. Một
ưu điểm của việc này là nếu chúng ta bổ sung thêm các bản ghi mới vào
bảng, giá trị tính toán sẽ được cập nhật tự động,

27
Sắp xếp dữ liệu trong Excel

• Nút sort trong Excel có thể tìm thấy trong tab Data ở nhóm
Sort & Filter. Chọn 1 ô trong cột muốn sắp xếp và nhấn nút
“AZ down arrow” để sắp xếp theo thứ tự tăng dần và nhấn
nút “AZ up arrow” để sắp xếp theo thứ tự giảm dần. Cũng có
thể nhấn nút Sort để xác định tiêu chí sắp xếp nâng cao.

28
Thí dụ 3.12 Sắp xếp dữ liệu trong CSDL Purchase
Orders
• Giả sử ta muốn sắp xếp dữ liệu theo nhà cung cấp. Nhấn ô bất
kỳ trong cột A (nhưng không phải header/ô A3) và sau đó
nhất nút “AZ down” trong tab Data. Excel sẽ chọn toàn bộ dải
dữ liệu và sắp xếp theo tên nhà cung cấp trong cột A.

29
Phân tích Pareto
 Năm 1906, nhà kinh tế học người Ý, Vilfredo Pareto đã quan
sát rằng phần lớn của cải ở Ý thuộc sở hữu của một tỷ lệ nhỏ
người dân.
• Tương tự, các nhà kinh doanh thường thấy phần lớn số hàng
bán được là cho một phần nhỏ khách hàng, phần lớn lỗi sản
phẩm bắt nguồn từ một số nhỏ nguồn, hay phần lớn giá trị
tồn kho do một số nhỏ mặt hàng
 Phân tích Pareto bao gồm việc sắp xếp dữ liệu và tính toán tỷ
lệ tích lũy.

30
Thí dụ 3.13: Áp dụng nguyên tắc Pareto
Bicycle Inventory Sort by

75% giá trị tồn kho xe đạp từ 40% (9/24) sản phẩm.

31
Lọc dữ liệu
• Với các file dữ liệu lớn, tìm ra tập con các bản
ghi thỏa mãn tích chất nào đó bằng cách sắp
xếp sẽ tốn thời gian.
• Excel cung cấp 2 công cụ:
– AutoFilter cho các tiêu chuẩn đơn giản, và
– Advanced Filter cho các tiêu chuẩn phức tạp.

32
Thí dụ 3.14: Lọc các bản ghi theo mô tả sản phẩm

Trong CSDL Purchase Orders, giả sử ta quan tâm tới tất cả các bản ghi của sản
phẩmBolt-nut package.

Chọn ô nào đó trong CSDL,


nhấn
Data > Sort & Filter > Filter
Nhấn mũi tên xuống trong ô
D3.
Chọn Bolt-nut package để lọc
loại bỏ các sản phẩm khác.

33
Thí dụ 3.14: Các kết quả lọc
• Công cụ lọc không trích ra các bản ghi, chúng đơn giản là ẩn các bản ghi
không thỏa mãn tiêu chuẩn. Tuy nhiên ta có thể copy và paste dữ liệu tới
worksheet khác, tới Word hay PowerPoint.
• Để khôi phục dữ liệu gốc, nhấn mũi tên xuống lần nữa và sau đó nhấn
Clear filter trong “Item Description.”

34
Thí dụ 3.15: Lọc các bản ghi theo giá sản phẩm
• Giả sử ta muốn xác định tất cả các bản ghi trong CSDL Purchase Orders mà
giá ít nhất là $200. Trước hết, nhấn mũi tên xuống trong cột Item Cost và
đặt con trỏ trên Numbers Filter. Màn hình sẽ liệt kê các lựa chọn. Chọn
Greater Than Or Equal To . . . Từ danh sách.

35
Thí dụ 3.15: Lọc các bản ghi theo giá sản phẩm
• Hộp hội thoại Custom AutoFilter cho phép ta xác định 2 tiêu chuẩn cụ thể
sử dụng logic “and” và “or”. Nhập vào số 200 như trong hình; công cụ sẽ
trình bày tất cả các bản ghi với giá $200 hoặc nhiều hơn.

36
AutoFilter

• AutoFilter tạo tiêu chuẩn lọc dựa trên dạng dữ liệu được lọc.
Nếu ta chọn lọc trên Order Date hay Arrival Date, công cụ
AutoFilter sẽ trình bày danh sách thực đơn Date Filters khác
nhau mà bao gồm “tomorrow,” “next week,” “year to date,”
v.v...
• Kết quả là AutoFilter có thể được sử dụng để “drill down” vào
dữ liệu.
– Thí dụ, sau khi lọc các kết quả bởi Bolt-nut package, chúng ta có thể
lọc bởi order date và chọn tất cả các đơn hang được xử lý trong tháng
9.

37
Các phương pháp thống kê với dữ liệu tổng hợp
• Thống kê/Statistics là khoa học của sự không chắc
chắn đồng thời cũng là công nghệ trích rút thông tin
từ dữ liệu.
Thống kê là số đo tổng hợp của dữ liệu.
Thống kê mô tả là các phương pháp mô tả và tổng
hợp dữ liệu.
Microsoft Excel hỗ trợ phân tích thống kê theo 2 cách:
1. Các hàm thống kê, và
2. Analysis Toolpak add-in

38
Phân phối tần suất với dữ liệu phân loại
• Phân phối tần suất/frequency distribution là bảng
trình bày số quan sát cho mỗi nhóm tách biệt nào đó.
– Một cách tự nhiên, các biến phân loại xác định các nhóm
trong một phân phối tần suất.
• Để xây dựng phân phối tần suất, ta chỉ cần đếm số
quan sát xuất hiện của mỗi nhóm.
– Điều này có thể được thực hiện bằng cách sử dụng hàm
COUNTIF.

39
Thí dụ 3.16: Xây dựng phân phối tần suất của các sản phẩm
trong CSDL Purchase Orders

• Liệt kê tên các sản phẩm trong 1 cột của bảng tính.
• Sử dụng hàm =COUNTIF($D$4:$D$97,cell_reference), với
cell_reference là cột chứa tên mục

40
Thí dụ 3.16: Xây dựng phân phối tần suất của các sản phẩm
trong CSDL Purchase Orders

• Lập biểu đồ cột để trình bày tần suất.

41
Phân phối tần suất tương đối
• Tần suất tương đối là tỷ lệ trên tổng.
• Nếu tập dữ liệu có n quan sát thì tần suất tương đối của nhóm
i là:

• Ta thường nhân tần suất tương đối với 100 để thể hiện phần
trăm.
• Phân phối tần suất tương đối/relative frequency distribution
là bảng tổng hợp tần suất tương đối của tất cả các nhóm.

42
Thí dụ 3.17: Xây dựng phân phối tần suất tương đối của sản
phẩm trong CSDL Purchase Orders

• Trước hết, tính tổng tất cả các tần suất (lưu ý rằng tổng của
các tần suất phải là tổng số quan sát, n).
• Sau đó chia tần suất của mỗi nhóm cho số này.

43
Phân phối tần suất với dữ liệu số

• Với dữ liệu số chứa số nhỏ các giá trị phân


biệt, ta có thể lập phân phối tần suất tương tự
như cách ta làm với dữ liệu phân loại; nghĩa là
ta đơn giản sử dụng hàm COUNTIF để đếm tần
suất của mỗi giá trị rời rạc.

44
Thí dụ 3.18: Tần suất và phân phối tần suất tương đối của
điều khoản thanh toán

• Trong dữ liệu Purchase Orders data, điều khoản


thanh toán (A/P term) có thể là 15, 25, 30, và 45.

45
Công cụ Histogram của

• Mô tả đồ thị của phân phối tần suất đối với dữ


liệu số ở dạng biểu đồ cột được gọi là
histogram.
• Phân phối tần suất và histogram có thể được
tạo sử dụng Analysis Toolpak trong Excel.
– Nhấn nút Data Analysis tools trong nhóm Analysis
của tab Data trong thanh menu Excel và chọn
Histogram trong danh sách.

46
Biểu đồ Histogram
• Xác định Input Range tương ứng với dữ liệu. Nếu ta bao gồm phần
đầu/header, thì sau đó có thể chọn hộp Labels để Excel biết rằng dải dữ
liệu đó chứa nhãn. Bin Range xác định các nhóm (Excel gọi là “bins”) để sử
dụng cho phân phối tần suất.

47
Sử dụng Bin Ranges
• Nếu ta không xác định Bin Range, Excel sẽ tự động xác định
các giá trị gói cho phân phối tần suất và histogram.
• Nếu ta có các giá trị rời rạc, thiết lập cột của các giá trị này
trong bảng tính cho các bin range và xác định dải này trong
trường Bin Range.

48
Thí dụ 3.19: Sử dụng công cụ Histogram
• Chúng ta sẽ tạo phân phối tần suất đối với biến điều khoản
thanh toán (A/P Term) trong CSDL Purchase Orders.
• Ta xác định bin range dưới dữ liệu trong các ô H99:H103 như
sau:
Month
15
25
30
45

49
Thí dụ 3.19: Sử dụng công cụ Histogram

• Kết quả công cụ Histogram:

50
Histogram của dữ liệu số
• Đối với dữ liệu số mà có nhiều giá trị rời rạc khác nhau hay dữ liệu liên tục,
phân phối tần suất đòi hỏi ta xác định
1. Số nhóm,
2. Độ rộng mỗi nhóm, và
3. Các giới hạn trên và dưới của mỗi nhóm.
• Chọn giữa 5 tới 15 nhóm, và dải của mỗi nhóm nên bằng nhau.
• Chọn cận dưới của nhóm đầu tiên (LL) là số nhỏ hơn giá trị dữ liệu nhỏ
nhất và cận trên của nhóm sau cùng (UL) là số lớn hơn giá trị lớn nhất của
dữ liệu.

51
Thí dụ 3.20: Xây dựng phân phối tần suất và Histogram cho
giá đơn hàng
• Dải dữ liệu từ nhỏ nhất là $68.75 tới lớn nhất là $127,500; thiết lập cận
dưới của nhóm đầu tiên là $0 và cận trên của nhóm sau cùng là $130,000.
• Nếu ta chọn 5 nhóm, sử dụng phương trình (3.2) độ rộng của mỗi nhóm là
($130,000 - 0) / 5 = $26,000

52
Thí dụ 3.20: Xây dựng phân phối tần suất và Histogram cho
giá đơn hàng

• Histogram 10 nhóm

53
Thí dụ 3.21 Tính tần suất tương đối tích lũy
• Thiết lập tần suất tương đối tích lũy của nhóm đầu tiên bằng tần suất
tương đối của nó. Sau đó cộng tần suất tương đối của nhóm kế tiếp để tạo
tần suất tương đối tích lũy.
• Thí dụ, tần suất tương đối tích lũy trong ô D3 được tính bằng =D2+C3 =
0.000 + 0.447 = 0.447.

54
Phân vị
• Phân vị thứ k (kth percentile) là giá trị ở đó hay dưới đó có ít nhất k%
quan sát. Các chung nhất để tính phân vị thứ k là sắp xếp các giá trị
dữ liệu từ nhỏ nhất tới lớn nhất và tính hạng của phân vị k sử dụng
công thức:

• Phần mềm thống kê sử dụng các phương pháp khác nhau mà


thường là nội suy giữa các hạng/rank thay vì làm tròn, do đó có thể
tạo các kết quả khác nhau.
– Hàm PERCENTILE.INC(array, k) tính phân vị thứ k của dữ liệu trong dải xác định
ở đó k nằm trong dải 0 tới 1, bao gồm cả 0 và 1.

55
Thí dụ 3.22 và 3.23: Tính toán các phân vị

• Tính phân vị 90 Cost per order trong dữ liệu


Purchase Orders.
– Hạng/Rank của phân vị k= nk/100 + 0.5
– n = 94; k = 90
– Với phân vị 90, rank là
= 94(90)/100+0.5 = 85.1 (khoảng 85)
– Giá trị của quan sát thứ 85 = $74,375
• Sử dụng hàm PERCENTILE.INC(G4:G97,0.9), phân vị 90 là
$73,737.50, khác hơn so với sử dụng công thức (3.3).

56
Thí dụ 3.24 Công cụ Rank và Percentile của Excel

Data >
Data Analysis >
Rank and Percentile

Phân vị 90.3 là
= $74,375
(cùng kết quả với tính tay
phân vị 90)

Giá trị của phân vị 90 được tính trong thí dụ 3.23 là $74,375 là giá
trị phân vị 90.3.

57
Bộ tứ
• Quartiles chia dữ liệu thành 4 phần.
– Phân vị 25 được gọi là quartile thứ nhất,Q1;
– Phân vị 50 được gọi là quartile thứ 2, Q2;
– Phân vị 75 được gọi là quartile thứ 3, Q3; và
– Phân vị 100 được gọi là quartile thứ 4, Q4.
• Một phần tư dữ liệu nằm dưới quartile thứ nhất, một nửa dữ
liệu nằm dưới quartile thứ 2 và ba phần tư nằm dưới quartile
thứ 3.
• Hàm QUARTILE. INC(array, quart), với array xác định dải dữ
liệu và quart là số giữa 1 và 4, chỉ quartile mong muốn.

58
Thí dụ 3.25 Tính Quartile trong Excel

• Tính các quartile của dữ liệu Cost per Order


 Quartile thứ nhất: =QUARTILE.INC(G4:G97,1) = $6,757.81
 Quartile thứ 2: =QUARTILE.INC(G4:G97,2) = $15,656.25
 Quartile thứ 3: =QUARTILE.INC(G4:G97,3) = $27,593.75
 Quartile thứ 4: =QUARTILE.INC(G4:G97,4) = $127,500.00

59
Cross-Tabulations
• Bảng chéo/cross-tabulation là phương pháp tạo bảng trình
bày số các quan sát trong tập dữ liệu đối với các nhóm con
của 2 biến phân loại.
– Bảng cross-tabulation còn được gọi là contingency table.
• Các nhóm con của biến phải loại trừ lẫn nhau và đầy đủ, nghĩa
là mỗi quan sát chỉ có thể phân loại vào 1 nhóm con duy nhất
và quan sát ở tất cả các nhóm con tạo thành tập dữ liệu đầy
đủ.

60
Thí dụ 3.26: Thành lập Cross-Tabulation
 CSDL Sales Transactions

 Đếm số (và tính phần trăm) book và DVD được đặt hàng theo
vùng.

61
Trực quan hóa Cross-Tabulation: Biểu đồ Regional Sales by
Product

62
Thăm dò dữ liệu sử dụng PivotTables
• Excel cung cấp công cụ mạnh để chắt lọc dữ
liệu phức tạp thành thông tin có ý nghĩa:
PivotTables.
• PivotTable cho phép tạo các tổng hợp tùy biến
và các biểu đồ thông tin chính của dữ liệu.
• PivotTable có thể được sử dụng để tạo nhanh
cross-tabulation và để drill down vào tập dữ
liệu lớn.

63
Tạo PivotTables

Trong CSDL
Insert >
Tables >
PivotTable
Wizard tạo
PivotTable trống
như hình bên.

64
Liệt kê các trường của PivotTable

Chọn và kéo các


trường vào 1 trong
các vùng của
PivotTable:
Report Filter
Column Labels
Row Labels
Σ Values

65
Thí dụ 3.27 Tạo PivotTable

PivotTable cho
Region và Product
Mặc định
PivotTable tính
tổng của trường
trong vùng Values.
Ta cần đếm số các
bản ghi trong mỗi
nhóm.

66
Thay đổi thiết lập trường giá trị

Active Field > Analyze >


Field Settings
Thay đổi phương thức
tổng trong hộp hội
thoại Value Field
Settings
Chọn Count

67
Pivot Table

68
Biến đổi PivotTable
• Bỏ chọn các hộp trong
PivotTable Field List hoặc
kéo các trường tới các
vùng khác.
• Ta có thể dễ dàng bổ
sung nhiều biến trong
các trường để tạo các
góc nhìn dữ liệu khác
nhau.
– Thí dụ: kéo trường Source
vào vùng Row Labels

69
Thí dụ 3.28: Sử dụng lọc báo cáo PivotTable

• Kéo trường vào vùng Report Filter trong danh sách PivotTable
Field cho phép thêm chiều thứ 3 vào phân tích.

Nhấn mũi tên xuống trong ô B1;


chọn Credit:

70
PivotCharts
• PivotChart trực quan dữ liệu trong PivotTable.
• Chúng có thể được tạo chỉ với 1 click.
– Chọn PivotTable
– Trong tab analyze, chọn PivotChart.
– Excel sẽ trình bày hộp hội thoại Insert Chart để
cho phép ta chọn dạng biểu đồ muốn trình bày.

71
Thí dụ 3.29: PivotChart cho dữ liệu bán hàng

Bằng cách nhấn nút drop-down, ta có thể dễ dàng thay đổi dữ liệu cần
trình bày. Bằng cách nhấn vào biểu đồ và chọn tab PivotChart Tools Design
ta có thể chuyển các hàng, cột được trình bày hay thay đổi toàn bộ biểu
đồ.

72
Slicers
• Excel 2010 giới thiệu công cụ slicers — công
cụ để khoan sâu vào các lát của PivotTable và
trình bày tập con dữ liệu.
• Để tạo slicer cho cột nào đó trong CSDL, nhấn
vào PivotTable và chọn Insert Slicer trong tab
Analyze của PivotTable Tools.

73
Thí dụ 3.30 Sử dụng Slicers

Cross-tabulation “sliced”
by E-mail

74
Bảng điều khiển PivotTable
• Công cụ camera hữu dụng để tạo bcác bảng
điều khiển dựa trên PivotTable.
• Nếu ta tạo một vài PivotTable và một vài biểu
đồ, ta có thể dễ dàng sử dụng công cụ camera
để tạo các hình ảnh của chúng và hợp nhất
chúng vào một worksheet.
• Trong mô hình này, ta vẫn có thể thay đổi các
PivotTable và chúng sẽ được cập nhật tự động
trên bảng điều khiển.

75
Thí dụ bảng điều khiển Camera-Based

76

You might also like