You are on page 1of 126

17/07/2023

Chương 3:
Phương pháp xây dựng
hệ hỗ trợ ra quyết định
Học phần: Hệ hỗ trợ ra quyết định
Mã học phần: 120039

Giảng viên: Thái Thị Ngọc Lý


4

Nội dung chương 3

Khảo sát và thu thập dữ liệu

Phân tích và khai thác dữ liệu

Sử dụng tri thức hỗ trợ ra quyết định

1
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.1 Khảo sát
Một cuộc khảo sát là một công cụ mạnh mẽ để thu thập dữ liệu từ tập
hợp dữ liệu trích xuất thông tin mới.
Khi thực hiện khảo sát cần quan tâm:
1.1.1 Mục đích
1.1.2 Nguồn khảo sát và thu thập thông tin
1.1.3 Các phương pháp khảo sát và thu thập thông tin
1.1.4 Cách thức tổ chức và lưu trữ dữ liệu

1. Khảo sát và thu thập dữ liệu

1.1 Mục đích


Mục đích của khảo sát thường là:
• Khám phá và mô tả đặc điểm trong một tập hợp dữ liệu của đối tượng nghiên cứu.
• Kiểm định một giả thuyết.
Trong thực tế, không thể thu thập dữ liệu toàn bộ của đối tượng nghiên cứu
vì :
- ngân sách có giới hạn,
- thời gian không dài,
- trong thống kê học, mẫu có thể đại diện
cho tổng thể với độ tin cậy (95% hoặc 90%)

2
17/07/2023

1. Khảo sát và thu thập dữ liệu

1.1 Mục đích


Ví dụ các vấn đề:
1. Sự chậm trễ kéo dài và thường xuyên dẫn đến nhiều bức xúc cho hành
khách đi máy bay. Cảm xúc của họ có thể cuối cùng dẫn đến chuyển đổi
hành vi, giao tiếp bằng những lời nói tiêu cực và những lời phàn nàn.
Các vấn đề
2. Sự luân chuyển của nhân viên cao hơn dự đoán. này rộng lớn
3. Phần ít nhóm các thành viên trong các tổ chức không thăng tiến trong sự
nghiệp của họ.
4. Công cụ hiện tại để đánh giá nhân viên tiềm năng cho các vị trí quản lý là
không hoàn hảo.
5. Những người lao động trẻ trong tổ chức cho thấy mức độ cam kết thấp
với tổ chức.

1.1 Mục đích


• Nhà quản lý thường mô tả vấn đề bằng triệu chứng/ hiện tượng.
• Ví dụ: Sự luân chuyển của nhân viên cao hơn dự đoán.
• Để tìm ra vấn đề thực sự, sử dụng kỹ thuật “5 Whys” (của Sakichi Toyada).
Số 5 là số chung, số lần hỏi tại sao là không giới hạn, lặp lại đến khi nào tìm
được nguyên nhân gốc rễ.
• Ví dụ:
• Tại sao? Bởi vì họ không hài lòng với công việc của họ.
• Tại sao? Bởi vì họ không tìm thấy một thách thức trong công việc của họ.
• Tại sao? Vì họ không kiểm soát được công việc của mình.
• Tại sao? Bởi vì họ không có nhiều ảnh hưởng đến việc lập kế hoạch, thực hiện và đánh giá
công việc họ làm.
• Tại sao? Bởi vì quản lý đã gây áp lực giao việc.

3
17/07/2023

1.1 Mục đích

Các vấn Chủ đề có


đề này Thu hẹp thể nghiên
rộng lớn cứu

Khẳng định
Nhận định vấn Nghiên cứu sơ vấn đề nghiên
đề rộng lớn bộ cứu

10

10

1.1 Mục đích


Biến đổi vấn đề rộng lớn thành một chủ đề khả thi để nghiên cứu (theo
Machi và McEvoy, 2012) bằng cách:
1) làm cho nó cụ thể và chính xác hơn,
2) thiết lập ranh giới rõ ràng.
3) chọn một góc độ/quan điểm mà từ đó chúng ta điều tra đối tượng.

11

11

4
17/07/2023

1.1 Mục đích


Biến đổi vấn đề rộng lớn thành một Ví dụ: “Một nhóm ít các thành
chủ đề khả thi để nghiên cứu (theo viên trong các tổ chức không
Machi và McEvoy, 2012) bằng cách: thăng tiến trong sự nghiệp của
1) làm cho nó cụ thể và chính xác họ”
hơn, Xác định các thuật ngữ chính:
2) thiết lập ranh giới rõ ràng. Chủ thể: “sự nghiệp”
Hành động: “thăng tiến ”
Làm 2 việc trên bằng cách tìm ra các Đối tượng: “Một nhóm ít các
thuật ngữ chính của phát biểu vấn đề thành viên”
ban đầu là cần xác định chủ thể,
hành động và đối tượng.
12

12

1.1 Mục đích


Biến đổi vấn đề rộng lớn thành một chủ đề khả thi để nghiên cứu (theo
Machi và McEvoy, 2012) bằng cách:
3) chọn một góc độ mà từ đó chúng ta điều tra đối tượng.
Cách lựa chọn quan điểm học thuật sẽ giúp chúng ta thu hẹp nghiên
cứu của chúng tôi.
Ví dụ: “Sự chậm trễ kéo dài và thường xuyên dẫn đến nhiều sự thất
vọng đối với những người đi máy bay. Những cảm giác này cuối cùng có
thể dẫn đến chuyển đổi hành vi, giao tiếp truyền miệng tiêu cực và
khiếu nại của khách hàng ”.
13

13

5
17/07/2023

1.1 Mục đích


Biến đổi vấn đề rộng lớn thành một chủ đề khả thi để nghiên cứu (theo
Machi và McEvoy, 2012) bằng cách:
3) chọn một góc độ mà từ đó chúng ta điều tra đối tượng.
Sau khi nghiên cứu sơ bộ về vấn đề, có 2 quan điểm:
quan điểm 1 : quản lý hoạt động
quan điểm 2: quản lý thời gian chờ đợi chủ quan của khách hàng (quản lý nhận thức)
Nếu chọn quan điểm:
Quan điểm 1 -> chỉnh lại quá trình hoạt động của tổ chức để giảm thời gian chờ.
Quan điểm 2 -> cung cấp dịch vụ trải nghiệm trong thời gian chờ đợi của khách hàng.

14

14

1.1 Mục đích


Nghiên cứu sơ bộ
1) Nguồn gốc và lịch sử của công ty - khi nó ra đời, hoạt động kinh doanh của nó,
tốc độ phát triển, quyền sở hữu và quyền kiểm soát, v.v.
2) Quy mô về nhân viên, tài sản hoặc cả hai.
3) Hiến chương - mục đích và hệ tư tưởng.
4) Vị trí - khu vực, quốc gia hoặc khác.
5) Nguồn lực - con người và những người khác.
6) Mối quan hệ phụ thuộc lẫn nhau với các thể chế khác và môi trường bên ngoài.
7) Tình hình tài chính trong năm đến mười năm trước đó, và các dữ liệu tài chính
có liên quan.
8) Thông tin về các yếu tố cấu trúc (ví dụ, vai trò và vị trí trong tổ chức và số lượng
nhân viên ở mỗi cấp độ công việc, các kênh giao tiếp, hệ thống kiểm soát, hệ
thống quy trình làm việc).
9) Thông tin về triết lý quản lý. 15

15

6
17/07/2023

1.1 Mục đích >


Nghiên cứu sơ bộ
Nghiên cứu sơ bộ là quá trình nhà nghiên cứu đi tìm ra câu trả lời cho
các câu hỏi như sau:
“Vấn đề là gì?”;
“Tại sao vấn đề tồn tại? ”;
“Vấn đề có quan trọng không?”;
"Lợi ích của việc giải quyết vấn đề là gì?"

16

16

1.1 Mục đích >


Khẳng định vấn đề nghiên cứu (tuyên bố vấn đề)
Một tuyên bố vấn đề được cho là tốt khi nó bao gồm cả tuyên bố về
(các) mục tiêu nghiên cứu và (các) câu hỏi nghiên cứu.
• mục tiêu của nghiên cứu là giải thích lý do tại sao nghiên cứu được
thực hiện.
• Các câu hỏi nghiên cứu chỉ rõ những gì muốn nghiên cứu. Chúng định
hướng quá trình thu thập và phân tích dữ liệu nhằm đạt được mục
tiêu nghiên cứu

17

17

7
17/07/2023

1.1 Mục đích >


Khẳng định vấn đề nghiên cứu (tuyên bố vấn đề)
Ví dụ: Hãng hàng không CAA thực hiện các chuyến bay thuê chuyến và bay thường xuyên
đến các điểm đến có đường bay trung bình - như Địa Trung Hải, Bắc Phi và Biển Đỏ - và
đến các điểm đến đường dài như Caribê. Ngày nay, dàn máy bay của CAA bao gồm 3 chiếc
Boeing 737-800 (mới) và 4 chiếc Boeing 767-300 (đã lỗi thời). Vì những chiếc Boeing 767
đã khá lỗi thời nên chúng cần được bảo dưỡng nhiều hơn những chiếc máy bay bình
thường. Mặc dù có chương trình bảo dưỡng chuyên sâu nhưng những chiếc máy bay này
gặp rất nhiều vấn đề kỹ thuật. Do đó, thời gian dài của CAA cần phải đối phó với rất nhiều
sự chậm trễ trong thời gian gần đây. Các máy bay đường dài mới đã được đặt hàng, nhưng
những máy bay này sẽ không được giao trước năm 2016. Điều đó có nghĩa là chắc chắn sẽ
xảy ra nhiều sự chậm trễ hơn. Điều này có thể dẫn đến nhiều sự thất vọng đối với hành
khách đi máy bay, chuyển đổi hành vi và chuyển sang giao tiếp bằng lời nói tiêu cực.
Những cảm xúc và hành vi này của người tiêu dùng cuối cùng có thể có tác động tiêu cực
đến hoạt động và lợi nhuận của doanh nghiệp.
18

18

1.1 Mục đích >


Khẳng định vấn đề nghiên cứu (tuyên bố vấn đề)
Ví dụ: Hãng hàng không CAA …
Đối với Hãng hàng không CAA, việc đạt được “không trì hoãn” (không
có sự chậm trễ) là điều không tưởng. Do đó, dự án này sẽ tập trung vào
việc quản lý nhận thức của trải nghiệm chờ đợi cho nên mục tiêu của
nghiên cứu này gồm hai phần:
(1) để xác định các yếu tố làm gia tăng trải nghiệm chờ đợi của hành
khách,
(2) để điều tra các tác động có thể xảy ra của việc chờ đợi đối với sự hài
lòng của khách hàng và đánh giá dịch vụ.
19

19

8
17/07/2023

1.1 Mục đích >


Khẳng định vấn đề nghiên cứu (tuyên bố vấn đề)
Ví dụ: Hãng hàng không CAA …
Dựa vào mục tiêu nghiên cứu, dự án này tập trung vào các câu hỏi
nghiên cứu sau:
1. Các yếu tố ảnh hưởng đến cảm nhận về thời gian chờ đợi của hành
khách đi máy bay là gì và các yếu tố này ảnh hưởng đến cảm nhận
về thời gian chờ đợi ở mức độ nào?
2. Hậu quả của việc chờ đợi là gì và ảnh hưởng như thế nào đến mối
quan hệ giữa chờ đợi và đánh giá dịch vụ?
3. Các biến số tình huống (chẳng hạn như thời gian lấp đầy) làm tăng
phản ứng của khách hàng đối với trải nghiệm chờ đợi như thế nào?20
20

1.1 Mục đích >


Câu hỏi nghiên cứu
3 loại câu hỏi nghiên cứu:
• Câu hỏi nghiên cứu khám phá (Exploratory research questions)
• Câu hỏi nghiên cứu mô tả (Descriptive research questions)
• Câu hỏi nghiên cứu nhân quả (Causal research questions)

21

21

9
17/07/2023

1.1 Mục đích >


Câu hỏi nghiên cứu
Câu hỏi nghiên cứu khám phá thường được phát triển khi:
a) không biết nhiều về một hiện tượng cụ thể không;
b) kết quả nghiên cứu hiện có không rõ ràng hoặc bị hạn chế nghiêm trọng;
c) chủ đề rất phức tạp; hoặc
d) không có đủ lý thuyết để hướng dẫn việc xây dựng khung lý thuyết.

Nghiên cứu thăm dò thường dựa trên các phương pháp tiếp cận định tính để thu thập dữ
liệu, chẳng hạn như các cuộc thảo luận không chính thức (vớingười tiêu dùng, nhân viên,
nhà quản lý), phỏng vấn, nhóm tập trung và / hoặc nghiên cứu điển hình.
Kết quả của các nghiên cứu thăm dò thường không thể khái quát hóa được cho tổng thể.

22

22

1.1 Mục đích >


Câu hỏi nghiên cứu
Câu hỏi nghiên cứu khám phá >> Ví dụ:
Giám đốc của một tập đoàn đa quốc gia rất cần biết liệu các giá trị đạo đức làm việc của nhân viên
làm việc trong công ty con của nó ở Thành phố Pennathur có khác với người Mỹ hay không?
Có rất ítthông tin về Pennathur (ngoại trừ nó là một thành phố nhỏ ở miền nam Ấn Độ), và
vì có nhiều tranh cãi gay gắt về giá trị đạo đức làm việc có ý nghĩa như thế nào đối với những người
ở các nền văn hóa khác,
Cho nên sự tò mò của nhà quản lý chỉ có thể được thỏa mãn bằng một nghiên cứu khám phá, phỏng
vấn tìm kiếm những người tham gia vào các tổ chức ở Pennathur. Tôn giáo, các điều kiện chính trị,
kinh tế và xã hội, sự giáo dục, các giá trị văn hóa, v.v. đóng một vai trò quan trọng trong cách mọi
người nhìn nhận công việc của họ ở các khu vực khác nhau trên thế giới.
Ở đây, vì rất ít người biết về các giá trị đạo đức làm việc ở Ấn Độ, một nghiên cứu khám phá sẽ phải
được thực hiện.
23

23

10
17/07/2023

1.1 Mục đích >


Câu hỏi nghiên cứu
Câu hỏi nghiên cứu mô tả:
Mục tiêu của nghiên cứu mô tả là thu được dữ liệu mô tả chủ đề quan
tâm.
Nghiên cứu mô tả có bản chất là định lượng hoặc định tính. Các nghiên
cứu mô tả thường được thiết kế để thu thập dữ liệu mô tảđặc điểm
của các đối tượng (chẳng hạn như con người, tổ chức, sản phẩm hoặc
thương hiệu), sự kiện hoặc tình huống.
Kết quả của các nghiên cứu mô tả có thể khái quát hóa được cho tổng
thể.
24

24

1.1 Mục đích >


Câu hỏi nghiên cứu
Câu hỏi nghiên cứu mô tả:
Các nghiên cứu mô tả có thể giúp nhà nghiên cứu:
1. Hiểu các đặc điểm của một nhóm trong một tình huống nhất định (ví dụ:
hồ sơ của một phân khúc cụ thể trên thị trường).
2. Suy nghĩ một cách có hệ thống về các khía cạnh trong một tình huống
nhất định (ví dụ, các yếu tố liên quan đến sự hài lòng trong công việc).
3. Đưa ra các ý tưởng để thăm dò và nghiên cứu thêm.
4. Giúp đưa ra các quyết định nhất định (đơn giản) (chẳng hạn như các
quyết định liên quan đến việc sử dụng các kênh giao tiếp cụ thể tùy
thuộc vào hồ sơ khách hàng, giờ mở cửa, giảm chi phí, tuyển dụng nhân
viên, và những thứ tương tự).

25

25

11
17/07/2023

1.1 Mục đích >


Câu hỏi nghiên cứu
Câu hỏi nghiên cứu mô tả >> Ví dụ:
Một giám đốc ngân hàng muốn quyết định cho một khách hàng vay
hay không? Thì cần nghiên cứu hồ sơ của những người cá nhân có
khoản thanh toán khoản vay chưa thanh toán trong sáu tháng trở lên.

Hồ sơ sẽ bao gồm thông tin chi tiết về độ tuổi trung bình, thu nhập,
tính chất nghề nghiệp, tình trạng việc làm toàn thời gian / bán thời gian
và những thứ tương tự. Điều này có thể giúp anh ta thu thập thêm
thông tin hoặc quyết định ngay lập tức về những loại cá nhân sẽ không
đủ điều kiện cho các khoản vay trong tương lai.
26

26

1.1 Mục đích >


Câu hỏi nghiên cứu
Câu hỏi nghiên cứu nhân quả
Các nghiên cứu về nhân quả kiểm tra xem một biến số có làm thay đổi biến số khác
hay không?
Để thiết lập mối quan hệ nhân quả, tất cả bốn điều kiện sau đây cần được đáp ứng:
1. Biến độc lập và biến phụ thuộc nên đồng biến.
2. Biến độc lập (yếu tố nguyên nhân giả định) phải đứng trước biến phụ thuộc.
3. Không có yếu tố nào khác có thể là nguyên nhân có thể gây ra sự thay đổi trong
biến phụ thuộc.
4. Cần có một lời giải thích hợp lý (một lý thuyết) và nó phải giải thích tại sao biến
độc lập lại ảnh hưởng đến biến phụ thuộc.

27

27

12
17/07/2023

1.1 Mục đích >


Câu hỏi nghiên cứu
Câu hỏi nghiên cứu nhân quả >> Ví dụ:
Một giám đốc marketing muốn biết liệu doanh số bán hàng của công ty
có tăng hay không nếu anh ta tăng ngân sách quảng cáo.
Ở đây, người quản lý muốn biết bản chất của mối quan hệ có thể được
thiết lập giữa quảng cáo và bán hàng bằng cách kiểm tra giả thuyết:
"Nếu quảng cáo được tăng lên, thì doanh số bán hàng cũng sẽ tăng
lên."

28

28

1.1 Mục đích >


Khẳng định vấn đề nghiên cứu (tuyên bố vấn đề)
TÓM TẮT Khẳng định vấn đề
Vấn đề Mục tiêu nghiên cứu Câu hỏi nghiên cứu

Sự chậm trễ thường xuyên và Mục đích nghiên cứu là 2 vấn đề: (1) Các yếu tố ảnh hưởng đến cảm
kéo dài có thể dẫn đến nhiều (1) để tìm hiểu các yếu tố ảnh nhận về thời gian chờ đợi của hành
thất vọng giữa các hành khách hưởng đến khách hàng trong thời khách đi máy bay là gì và các yếu tố
của hãng hàng không, chuyển gian chờ, này ảnh hưởng đến cảm nhận về
đổi hành vi, và chuyển sang thời gian chờ đợi ở mức độ nào?
giao tiếp bằng lời nói tiêu cực. (2) để điều tra các tác động có thể (2) Hậu quả của việc chờ đợi là gì
Những cảm giác và hành vi này xảy ra của việc chờ đợi đối với sự và ảnh hưởng như thế nào đến mối
cuối cùng có những tác động hài lòng của khách hàng và đánh quan hệ giữa chờ đợi và đánh giá
tiêu cực đến hiệu quả hoạt động giá dịch vụ. dịch vụ?
và lợi nhuận của công ty. (3) Các biến số tình huống (chẳng
hạn như thời gian lấp đầy) làm tăng
phản ứng của khách hàng đối với
trải nghiệm chờ đợi như thế nào?
29

29

13
17/07/2023

Bài tập
Cửa hàng bánh mì là một phần của chuỗi dịch vụ thực phẩm lớn cung cấp
các bữa ăn cho hệ thống trường học trong quận và các khách hàng khác.
Tiệm bánh có trách nhiệm giao sản phẩm đến hơn 50 điểm giao hàng. Người
quản lý cửa hàng bánh mì này lo ngại về việc giao hàng đúng giờ. Lý do chính
của mối quan tâm này không chỉ là tiền phạt mà anh ta phải trả cho việc giao
hàng trễ, mà còn là duy trì sự hài lòng của khách hàng. Có lợi nhuận trong
việc giảm thiểu quãng đường di chuyển hoặc tối đa hóa tải trọng xe tải,
nhưng đạt được sự kịp thời với chi phí thấp không chỉ là tối đa hóa lợi nhuận
của cửa hàng bánh mì, vì nó còn khiến khách hàng hài lòng.
• Yêu cầu: nghiên cứu tình huống và viết ra sự khẳng định vấn đề nghiên cứu.

30

30

TÓM TẮT Khẳng định vấn đề


Vấn đề Mục tiêu nghiên cứu Câu hỏi nghiên cứu
Tiệm bánh phải giao sản phẩm Mục tiêu nghiên cứu là 2 vấn (1)?
đến hơn 50 điểm giao hàng đúng đề: (1) (2)?
giờ. Lý do chính của mối quan (3)?
tâm này không chỉ là tiền phạt
mà anh ta phải trả cho việc giao
hàng trễ, mà còn là duy trì sự
hài lòng của khách hàng.

31

31

14
17/07/2023

1.1 Mục đích >


Câu khẳng định vấn đề
TÓM TẮT Khẳng định vấn đề
Vấn đề Mục tiêu nghiên cứu Câu hỏi nghiên cứu

Tiệm bánh phải giao sản phẩm Mục đích nghiên cứu là 2 vấn (1) giảm thiểu quãng đường di
đến hơn 50 điểm giao hàng đề: (1) để giao hàng đúng giờ chuyển hoặc tối đa tải trọng của
đúng giờ. Lý do chính của mối với chi phí thấp, (2) xe tải có làm tăng lợi nhuận?
quan tâm này không chỉ là để điều tra các yếu tố duy trì sự (2) Tối đa lợi nhuận có làm tăng
tiền phạt mà anh ta phải trả hài lòng của khách hàng. sự hài lòng của khách hàng?
cho việc giao hàng trễ, mà (3) Các biến số tình huống
còn là duy trì sự hài lòng của (chẳng hạn như quà khuyến mãi
khách hàng. khi nhận hàng trễ hoặc giảm giá
đợt sau) có làm giảm phản ứng
của khách hàng đối với trải
nghiệm chờ đợi khi giao hàng
trễ như thế nào?
32

32

1. Khảo sát và thu thập dữ liệu

1.2 Nguồn khảo sát và thu thập thông tin


Nguồn khảo sát:
• Dữ liệu thứ cấp (đã được công bố):
• là dữ liệu do người khác thu thập, sử dụng cho các mục đích có thể là khác với mục đích nghiên
cứu của chúng ta
• Dữ liệu chưa xử lý (dữ liệu thô) hoặc dữ liệu đã xử lý
• Nguồn: Báo cáo thống kê, báo cáo nghiên cứu, bài báo, giáo trình và các tài liệu khoa học khác…
• * Bản chất và giá trị của dữ liệu thứ cấp cần được đánh giá cẩn thận trước khi sử dụng.

• Dữ liệu sơ cấp (chưa được công bố)


• Là dữ liệu do chính người nghiên cứu thu thập từ các đối tượng điều tra khảo sát để phục vụ mục
đích riêng của nghiên cứu.
• Số liệu/dữ liệu thô ban đầu, chưa qua tính toán, xử lý, tổng hợp, công bố.
• Nguồn: Điều tra khảo sát, cơ sở dữ liệu điều tra chưa qua xử lý.

33

33

15
17/07/2023

1.2 Nguồn khảo sát và thu thập thông tin


Các tiêu chí chính để đánh giá dữ liệu thứ cấp
✓Tính kịp thời của dữ liệu.
• kiểm tra ngày tháng trên tất cả dữ liệu để đảm bảo dữ liệu là thông tin mới nhất.
✓Độ chính xác của dữ liệu.
• Độ chính xác của dữ liệu có thể bị ảnh hưởng bởi ai đã thu thập và cách thức dữ liệu
được thu thập và cần tìm ra thông tin nào chính xác hơn khi dữ liệu không nhất quán
giữa các nguồn với nhau.?
✓Mức độ liên quan của dữ liệu.
• Dữ liệu phải liên quan đến mục tiêu nghiên cứu của bạn.
✓Chi phí của dữ liệu
• Lợi ích của dữ liệu phải lớn hơn chi phí bỏ ra.

34

34

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin

Nguồn dữ liệu thứ cấp Nguồn dữ liệu sơ cấp


(Second data) (Primaly data)

Phỏng vấn

Nghiên cứu tài Quan sát


liệu Bảng câu hỏi
Thí nghiệm

35

35

16
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
Giả thuyết nghiên cứu:
Khái niệm: Giả thuyết là một tiên đoán/ nhận định mối quan hệ nhân
quả giữa 2 biến: biến độc lập và biến phụ thuộc.
Biến độc lập là nguyên nhân,
Biến phụ thuộc là kết quả.
Ví dụ:
Các nghiên cứu chỉ ra rằng việc phát triển sản phẩm mới thành công có
ảnh hưởng đến giá cổ phiếu của công ty.

36

36

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN:
Khái niệm: Một biến là bất kỳ thứ gì có thể nhận các giá trị khác nhau
hoặc thay đổi. Các giá trị có thể khác nhau vào các thời điểm khác nhau
đối vớicùng một đối tượng hoặc người, hoặc đồng thời cho các đối
tượng hoặc người khác nhau.
Ví dụ
Hôm nay, ba thành viên trong đợt bán hàng bộ phận có thể vắng mặt;
ngày mai, sáu thành viêncó thể không xuất hiện để làm việc; ngày sau
đó, có thể có không có ai vắng mặt.
37

37

17
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN:
4 loại biến được đề cập trong phần này:
1. Biến phụ thuộc (còn được gọi là biến tiêu chí) - dependent variable
2. Biến độc lập (hay còn gọi là biến dự báo) - independent variable
3. Biến điều tiết/xúc tác- moderating variable
4. Biến trung gian - mediating variable

38

38

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 1. Biến phụ thuộc (còn được gọi là biến tiêu chí) - dependent variable
Biến phụ thuộc là biến mô tả các tiêu chí/đặc điểm cho vấn đề cần nghiên cứu.
Thông qua việc phân tích biến phụ thuộc (tức là tìm ra những biến nào ảnh hưởng
đến nó), có thể tìm ra câu trả lời hoặc giải pháp cho vấn đề.
Một nghiên cứu có một hoặc nhiều hơn một biến phụ thuộc.
Ví dụ: luôn có sự giằng co giữa chất lượng và khối lượng đầu ra, sản xuất với chi phí
thấp và sự hài lòng của khách hàng, v.v.
Trong những trường hợp như vậy, người quản lý quan tâm đến việc biết các yếu tố
ảnh hưởng đến tất cả các biến phụ thuộc quan tâm và cách chúng có thể khác nhau
đối với các biến phụ thuộc khác nhau. Các cuộc điều tra này có thể yêu cầu các
phân tích thống kê đa biến.
39

39

18
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 1. Biến phụ thuộc (còn được gọi là biến tiêu chí) - dependent
variable
Tình huống: Một nhà quản lý lo ngại rằng doanh số của một sản phẩm
mới sẽ thay đổi sau khi tiếp thị thử nghiệm sản phẩm, không đáp ứng
được kỳ vọng của anh ta.
Biến phụ thuộc ở đây là "doanh số bán hàng".
Vì doanh số của sản phẩm có thể khác nhau - chúng có thể thấp, trung
bình hoặc cao - đó là một biến số;

40

40

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 1. Biến phụ thuộc (còn được gọi là biến tiêu chí) - dependent
variable
Bài tập 1: Nghiên cứu trong lĩnh vực tài chính hành vi đã chỉ ra rằng quá
tự tin có thể khiến các nhà đầu tư phản ứng kém với thông tin mới.
Biến phụ thuộc trong trường hợp này là gì?
Bài tập 2: Một giám đốc tiếp thị tin rằng việc hạn chế sự sẵn có của một
sản phẩm sẽ làm tăng khả năng mong muốn của sản phẩm.
Biến phụ thuộc ở đây là gì?

41

41

19
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 2. Biến độc lập (hay còn gọi là biến dự báo) - independent variable
Khái niệm:
Trong một giả thuyết, biến độc lập là nguyên nhân. Biến độc lập tăng hoặc giảm sẽ
làm biến phụ thuộc tăng/ giảm.
Ví dụ:
Các nghiên cứu chỉ ra rằng việc phát triển sản phẩm mới thành công có ảnh hưởng
đến giá cổ phiếu của công ty.
Nghĩa là, sản phẩm mới càng thành công thì giá thị trường chứng khoán của công ty
đó càng cao.
Do đó, “thành công của sản phẩm mới” là biến số độc lập và “giá thị trường chứng
khoán” là biến phụ thuộc.

42

42

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 2. Biến độc lập (hay còn gọi là biến dự báo) - independent variable
Bài tập 1:
Một nhà đầu tư tin rằng nhiều thông tin hơn sẽ làm tăng độ chính xác của
các dự báo của anh ta.
Xác định biến độc lập?
Bài tập 2:
Một giám đốc tiếp thị tin rằng việc lựa chọn những người phát ngôn và
người mẫu có ngoại hình hấp dẫn xác nhận sản phẩm của họ sẽ làm tăng tính
thuyết phục mua sản phẩm.
Xác định biến độc lập?

43

43

20
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 3. Biến xúc tác - moderating variable
Khái niệm:
Biến xúc tác là biến có tác động mạnh mẽ đến mối quan hệ giữa biến
độc lập - biến phụ thuộc. Có nghĩa là, sự hiện diện biến xúc tác sẽ điều
chỉnh mối quan hệ ban đầu giữa các biến độc lập và phụ thuộc.

44

44

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 3. Biến xúc tác - moderating variable
Ví dụ: Người ta nhận thấy rằng có mối quan hệ giữa sự sẵn có của các tài liệu
hướng dẫn tham khảo mà nhân viên sản xuất có quyền truy cập và sản phẩm bị lỗi.
Nghĩa là, khi người lao động tuân thủ các quy trình đã nêu trong sách hướng dẫn,
họ có thể sản xuất các sản phẩmđó là hoàn mỹ.
Mặc dù mối quan hệ này có thể được cho là đúng đối với tất cả người lao động, tuy
nhiên nó phụ thuộc vào sự mong muốn hoặc sự thúc giục của người lao động khi
xem hướng dẫn sử dụng mỗi khi một quy trình mới được thông qua.
Nói cách khác, chỉ những người quan tâm và muốn tham khảo sách hướng dẫn mỗi
khi áp dụng một quy trình mới sẽ tạo ra những sản phẩm hoàn mỹ. Những người
khác không tham khảo hướng dẫn sử dụng sẽ tạo ra các sản phẩm bị lỗi

45

45

21
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 3. Biến xúc tác - moderating variable
Bài tập 1: Một nhà quản lý nhận thấy rằng việc đào tạo ngoài công việc có tác động
lớn đến năng suất của những người được tuyển dụng trong bộ phận của cô ấy. Tuy
nhiên, bà cũng nhận thấy rằng những nhân viên trên 60 tuổi dường như không thu
được nhiều lợi ích và không cải thiện được bằng cách đào tạo như vậy.
Bài tập 2: Một nhà quản lý của một công ty bảo hiểm nhận thấy rằng “sự hấp dẫn
về nỗi sợ hãi” trong quảng cáo có liên quan tích cực đến ý định hành vi của người
tiêu dùng để mua bảo hiểm cho ngôi nhà của họ. Hiệu ứng này đặc biệt mạnh đối
với những người có mức độ lo lắng cao.
Yêu cầu:
Xác định biến độc lập, biến phụ thuộc và biến xúc tác.

46

46

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 4. Biến trung gian - mediating variable
Khái niệm:
Trong mô hình nghiên cứu, biến trung gian M đóng vai trò làm
trung gian, là cầu nối giữa biến độc lập X và phụ thuộc Y. X tác động lên
M, M tác động lên Y, lúc này giữa X và Y có hai mối liên hệ là trực tiếp
và gián tiếp.
Biến trung
Biến độc lập Biến phụ thuộc
gian

Thời gian: t1 t2 t3

47

47

22
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 4. Biến trung gian - mediating variable
Ví dụ: Một lý thuyết phổ biến cho rằng sự đa dạng của lực lượng lao động (bao gồm những
người có nguồn gốc dân tộc, chủng tộc và quốc tịch khác nhau) đóng góp nhiều hơn vào
hiệu quả của tổ chức vì mỗi nhóm mang chuyên môn và kỹ năng đặc biệt của mình đến nơi
làm việc. Tuy nhiên, sức mạnh tổng hợp này có thể được khai thác chỉ khi các nhà quản lý
biết cách khai thác những tài năng đặc biệt của nhóm công việc đa dạng; nếu không chúng
sẽ vẫn chưa được khai thác.
Phân tích:
sự đa dạng của lực lượng lao động - biến độc lập.
hiệu quả của tổ chức là biến phụ thuộc.
chuyên môn quản lý là biến xúc tác.

48

48

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
BIẾN >> 4. Biến trung gian - mediating variable
Ví dụ:
Và theo thời gian làm việc thì sức mạnh tổng hợp sáng tạo sẽ xuất hiện
làm tăng hiệu quả làm việc của tổ chức. Cho nên, sức mạnh tổng hợp
sáng tạo là t1biến trung gian.
Thời gian: t2 t3
Sự đa dạng của lực Sức mạnh tổng Hiệu quả của sự tổ
lượng lao động hợp sáng tạo chức

? Biến ? Biến ? Biến

Chuyên môn của


nhà quản lý
? Biến 49

49

23
17/07/2023

Bài tập tổng hợp


Bài tập 1:
Việc không tuân thủ các nguyên tắc kế toán gây ra sự nhầm lẫn lớn, từ
đó tạo ra một số vấn đề khó khăn cho tổ chức. Tuy nhiên, những người
có nhiều kinh nghiệm trong việc ghi sổ kế toán có thể ngăn chặn các lỗi
phát sinh bằng cách thực hiện hành động sửa chữa kịp thời.
Yêu cầu:
Liệt kê và gắn nhãn các biến trong tình huống này, giải thích mối quan
hệ giữa các biến và minh họa chúng bằng sơ đồ..

50

50

Bài tập tổng hợp


Bài tập 2: Một người quản lý cửa hàng nhận xét rằng tinh thần của nhân viên
trong siêu thị của cô ấy rất thấp. Cô cho rằng nếu điều kiện làm việc của họ
được cải thiện, thang lương được nâng lên và các chế độ nghỉ dưỡng hấp
dẫn hơn, thì tinh thần của họ sẽ được nâng lên. Tuy nhiên, cô nghi ngờ, nếu
việc tăng thang lương sẽ nâng cao tinh thần của tất cả các nhân viên đang
làm việc. Phỏng đoán của cô ấy là những người có thu nhập phụ sẽ không bị
trả lương cao hơn bị “kích động”, và chỉ những người không có thu nhập phụ
mới hài lòng với việc được tăng lương, nhờ đó tinh thần phấn chấn hơn.
Yêu cầu:
Liệt kê và gắn nhãn các biến trong tình huống này.
Giải thích mối quan hệ giữa các biến và minh họa chúng bằng sơ đồ.

51

51

24
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
Trong nghiên cứu kinh doanh, ba phương pháp thu thập dữ liệu quan trọng là phỏng vấn, quan sát
mọi người và khảo sát bằng bảng câu hỏi.
Phương pháp phỏng vấn:
• Phỏng vấn trực tiếp
• Ưu điểm: thông tin tối ưu, dữ liệu chất lượng
• Nhược điểm: tốn nhiều thời gian, kinh phí (sử dụng quà để thuyết phục tham gia)
• Phỏng vấn trực tuyến: email, google form
• Ưu điểm: rất nhanh chóng
• Nhược điểm: người không hiểu công nghệ không thể tham gia khảo sát, trả lời hời hợt
• Phỏng vấn qua điện thoại: mạng viễn thông, Facebook, Zalo, Skype, Zoom để gọi điện
• Ưu điểm: có thể lưu lại video
• Nhược điểm: ?

52

52

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
Phương pháp quan sát:
Quan sát là phương pháp thu thập thông tin thông qua các tri giác như nghe, nhìn,... để
thu nhận các thông tin từ thực tế xã hội nhằm đáp ứng mục tiêu nghiên cứu của đề tài.
• Ưu điểm của phương pháp quan sát:
• phương pháp quan sát là đạt được ấn tượng trực tiếp và sự thể hiện của cá nhân được quan sát, trên
cơ sở ấn tượng mà điều tra viên ghi chép lại thông tin.
• Hạn chế:
• Chỉ sử dụng cho các nghiên cứu với đối tượng chỉ xảy ra trong hiện tại
(quá khứ và tương lai không quan sát được).
• Tính bao trùm của quan sát bị hạn chế, bởi vì người quan sát không thể quan sát mẫu lớn được.
• Bị ảnh hưởng tính chủ quan của người quan sát.

53

53

25
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
Phương pháp bảng câu hỏi:
Các dạng bảng câu hỏi:
Bảng câu hỏi do cá nhân quản lý
Bảng câu hỏi qua thư
Bảng câu hỏi điện tử và trực tuyến

54

54

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
Phương pháp bảng câu hỏi: >> Bảng câu hỏi do cá nhân quản lý
Khi cuộc khảo sát chỉ giới hạn trong một khu vực địa phương, một cách tốt để thu
thập dữ liệu là tự quản lý các bảng câu hỏi.
Ưu điểm chính của việc này là nhà nghiên cứu hoặc một thành viên của nhóm
nghiên cứu có thể thu thập tất cả các phản hồi trong một khoảng thời gian ngắn

55

55

26
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
Phương pháp bảng câu hỏi: >> Bảng câu hỏi qua thư
Một bảng câu hỏi qua thư là một bảng câu hỏi tự quản lý (giấy và bút
chì) được gửi đến những người trả lời thông quathư.
Phương pháp này từ lâu đã trở thành xương sống của nghiên cứu kinh
doanh, nhưng với sự xuất hiện của Internet, di độngđiện thoại, và
mạng xã hội, bảng câu hỏi qua thư đã trở nên thừa hoặc thậm chí lỗi
thời.
Thay vào đó, bảng câu hỏi trực tuyến được đăng trên Internet hoặc gửi
qua email.
56

56

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
Phương pháp bảng câu hỏi: >> Bảng câu hỏi điện tử và trực tuyến
Bảng câu hỏi trực tuyến thường được tạo dưới dạng “biểu mẫu web” với cơ sở dữ liệu để lưu trữ các câu trả lời và
phần mềm thống kê để cung cấp phân tích thống kê.
ưu điểm:
• tối đa khả năng của Internet để cung cấp quyền truy cập cho các nhóm và cá nhân, những người sẽ khó, nếu không
muốn nói là không thể tiếp cận thông qua các kênh khác. Các cộng đồng ảo phát triển mạnh mẽ trên mạng và hàng
trăm nghìn người thường xuyên tham gia thảo luận về hầu hết mọi vấn đề và mối quan tâm có thể hình dung được
(Wright, 2005).
• bảng câu hỏi trực tuyến có thể được bao phủ trong cuộc khảo sát. Một (liên kết đến) bảng câu hỏi được gửi đến
những người trả lời, những người có thể hoàn thành nó một cách thuận tiện, tại nhà của họ và theo tốc độ của
riêng họ.
• Quá trình tự động xử lý khảo sát giúp tiết kiệm thêm chi phí, thời gian và năng lượng
Hạn chế:
• vấn đề liên quan đến việc lấy mẫu. Ví dụ, việc tự chọn và tỷ lệ phản hồi cực thấp gây khó khăn cho việc xác định
tính đại diện của mẫu và tổng quát hóa các phát hiện, vì những người trả lời khảo sát có thể không đại diện cho
tổng thể.
• Bảng câu hỏi thường bị cho là thư rác.
• Những thắc mắc, nghi ngờ của người được khảo sát thì không được giải thích hoặc làm rõ. 57

57

27
17/07/2023

1. Khảo sát và thu thập dữ liệu


1.3 Các phương pháp khảo sát và thu thập
thông tin
Phương pháp bảng câu hỏi:
Cách cải thiện tỷ lệ trả lời câu hỏi cho bảng khảo sát:
✓thông báo trước về cuộc khảo sát sắp tới,
✓tổ chức nghiên cứu có uy tín giới thiệu người thiết kế ra bảng câu hỏi.
✓Một khoản tiền nhỏ được trả khi trả lời xong bảng câu hỏi.

58

58

1. Khảo sát và thu thập dữ liệu

1.4 Cách thức tổ chức và lưu trữ dữ liệu


• Cách thức tổ chức khảo sát (Quy trình khảo sát)
Chỉnh sửa
Thiết kế Thu thập dữ Chỉnh sửa
không phản Phân tích Công bố
khảo sát liệu dữ liệu
hồi

Giai đoạn thiết kế khảo sát: (2) Nguyên tắc đo lường


thiết kế bảng câu hỏi theo các nguyên tắc: ✓ Phân loại
✓ Mã hóa
(1) Nguyên tắc của từ ngữ: ✓ Quy mô và tỷ lệ
✓ Nội dung và mục đích của câu hỏi, ✓ Độ tin cậy và tính hợp lệ
✓ Từ ngữ và ngôn ngữ, (3) Những cái chung chung
✓ Loại và dạng câu hỏi ✓ Hình thức của bảng câu hỏi
* 1 câu hỏi không quá 20 từ. ✓ Độ dài của bảng câu hỏi
✓ Trình tự ✓ Giới thiệu cho người trả lời
✓ Dữ liệu phân loại hoặc thông tin cá nhân ✓ Hướng dẫn hoàn thành 59

59

28
17/07/2023

Giai đoạn thiết kế khảo sát >>


Thiết kế bảng câu hỏi theo các nguyên tắc
(1) Nguyên tắc của từ ngữ:
Nội dung và mục đích của câu hỏi,
• cảm giác chủ quan hoặc sự kiện khách quan
• Nếu các biến được nhấn có tính chất chủ quan (ví dụ: sự hài lòng, sự tham
gia), nơi đo lường niềm tin, nhận thức và thái độ của người trả lời, thì các
câu hỏi nên nhấn vào các khía cạnh và yếu tố của khái niệm.
• Khi các biến khách quan, chẳng hạn như độ tuổi và trình độ học vấn của
người trả lời, được nhấn mạnh, một câu hỏi trực tiếp duy nhất - tốt nhất là
câu hỏi có nhóm danh mục được chia tỷ lệ theo thứ tự - là phù hợp.

60

60

1. Khảo sát và thu thập dữ liệu

1.4 Cách thức tổ chức và lưu trữ dữ liệu


• Cách thức tổ chức khảo sát (Quy trình khảo sát)
Chỉnh sửa
Thiết kế Thu thập dữ Chỉnh sửa
không phản Phân tích Công bố
khảo sát liệu dữ liệu
hồi

Giai đoạn chỉnh sửa dữ liệu: có 3 lỗi thường xảy ra,


- Lỗi ngoài phạm vi
Ví dụ: một người có tuổi là 348.
- Lỗi nhất quán
Ví dụ: khảo sát về uống sữa, trẻ có 8 tuổi (là hợp lệ), tình trạng hôn nhân: kết
hôn.
- Lỗi định tuyến
Ví dụ: khảo sát có những câu hỏi liên quan với nhau thì những câu hỏi không
liên quan được trả lời, hoặc những câu hỏi có liên quan vẫn chưa được trả lời.
Giai đoạn chỉnh sửa không phản hồi
61
Những câu hỏi không được trả lời sẽ được gán giá trị là “không biết”
61

29
17/07/2023

1. Khảo sát và thu thập dữ liệu

1.4 Cách thức tổ chức và lưu trữ dữ liệu


• Cách thức tổ chức khảo sát (Quy trình khảo sát)
Chỉnh sửa
Thiết kế Thu thập dữ Chỉnh sửa
không phản Phân tích Công bố
khảo sát liệu dữ liệu
hồi

Giai đoạn phân tích:


- Lặp bảng các đặc điểm
- Phân tích sâu hơn tùy theo loại nghiên cứu thì dùng
- phương pháp thống mô tả
- Hoặc phương pháp thống kê suy luận
Giai đoạn công bố
- Viết báo cáo
- Trình bày với bên liên quan.
- Bảo mật thông tin
62

62

1. Khảo sát và thu thập dữ liệu

1.4 Cách thức tổ chức và lưu trữ dữ liệu


Lưu trữ dữ liệu
• Giấy
• Tập tin txt, csv, xml, json
• Bảng tính (Excel)
Khả năng lưu trữ
• Bảng trong hệ quản trị cơ sở dữ liệu
• Cloud (Azue,…)

63

63

30
17/07/2023

Bài tập 2
Nhà trường muốn đánh giá việc cung cấp các dịch vụ tiện ích cho sinh
viên có tăng sự phát triển trong học tập của sinh viên và sinh viên có
hài lòng với các tiện ích đang được cung cấp.
• Hãy nêu khẳng định vấn đề nghiên cứu.
• Xác định nguồn khảo sát?
• Thiết kế bảng câu hỏi để khảo sát
• Xây dựng bảng câu hỏi qua Form.

64

64

Bài tập 1
Nhà trường muốn đánh giá năng lực của giảng viên qua chất lượng dạy
học của giảng viên bằng việc khảo sát dùng bảng câu hỏi với các sinh
viên trong trường.
• Hãy nêu khẳng định vấn đề nghiên cứu.
• Xác định nguồn khảo sát?
• Thiết kế bảng câu hỏi để khảo sát
• Xây dựng bảng câu hỏi qua Form.

65

65

31
17/07/2023

Làm sạch dữ liệu (Data cleaning)


• Kiểm tra lỗi chính tả
• Xóa các dòng trùng lắp
• Chuyển hình thức trình bày của chữ
• Làm sạch khoảng trắng
• Chuyển lỗi số được lưu như text thành số
• Tách các thành phần ngày giờ
• Trộn và tách cột
• Chuyển đổi giữa cột và dòng
• Điền dữ liệu vào ô trống
66

66

2. Phân tích và khai thác dữ liệu


Tập dữ liệu (data set) thường là một mảng dữ liệu hình chữ nhật- hình
thức bảng, với các biến trong cột và các quan sát trong hàng.
Một biến (variable) (hoặc trường hoặc thuộc tính) là một đặc điểm của
các thành viên của một quần thể, chẳng hạn như chiều cao, giới tính
hoặc mức lương.
Một quan sát (observation) (hoặc trường hợp hoặc bản ghi) là một
danh sách tất cả các giá trị biến cho một phần tử của một tập hợp.

67

67

32
17/07/2023

2. Phân tích và khai thác dữ liệu


Ví dụ:
Tập dữ liệu:
?
Biến: ?
Quan sát: ?

(1,35,Male,
Minnesota,1
,$65400,5)

68

68

2. Phân tích và khai thác dữ liệu


Phân loại dữ liệu
Có 2 loại dữ liệu:
• Numerical: số hay còn gọi là định lượng
• Ý nghĩa: có thể thực hiện bất kỳ phép toán số học nào trên loại dữ liệu số.
• Ví dụ: Age, Children, và Salary
• Categorical: phân loại hay còn gọi là định tính
• Ý nghĩa: không thể thực hiện bất kỳ phép toán số học nào trên loại dữ liệu số.
• Ví dụ: Gender và State

* Kiểu dữ liệu ngày (date) được xem là kiểu dữ liệu số (numerical).

69

69

33
17/07/2023

2. Phân tích và khai thác dữ liệu


Phân loại dữ liệu
Numerical gồm có:
• Rời rạc (discrete)
• Ý nghĩa : chỉ nhận các giá trị
nguyên.
• Ví dụ: Children
• Liên tục (continuous)
• Ý nghĩa: có thể nhận số
thập phân, có giá trị biến
thiên liên tục.
• Ví dụ: Salary, cân nặng,
chiều cao.

70

70

2. Phân tích và khai thác dữ liệu


Phân loại dữ liệu
Categorical gồm
có:
• Ordinal: thứ tự
• Ví dụ: Opinion
• Nominal: định
danh (không có
thứ tự tự nhiên)
• Ví dụ: Gender

71

71

34
17/07/2023

2. Phân tích và khai thác dữ liệu


Phân loại dữ liệu

Tập dữ liệu được


chia làm 2 loại:
▪ Dữ liệu chéo
▪ Dữ liệu thời gian

72

72

Bài tập
• Hãy xác định các kiểu dữ liệu trong bảng dữ liệu sau đây?

73

73

35
17/07/2023

2. Phân tích và khai thác dữ liệu


Phân tích dữ liệu gồm có 3 dạng:
- Phân tích thống kê mô tả (Descriptive)
- Phân tích mối quan hệ (Relationships)
- Phân tích thống kê suy luận (Inference)

74

74

2. Phân tích và khai thác dữ liệu


Mô tả (Description)
Biến định tính Biến định lượng
Tần suất Thống kê mô tả cho một biến đơn
gồm có phương pháp tần suất, các
thước đo về xu hướng trung tâm và
sự phân tán.
• Tần suất
• Xu hướng trung tâm
• Sự phân bố dữ liệu
• Độ phân tán
• Các phương pháp về hình dáng
75

75

36
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả (Description)


Tần suất
• Khái niệm: Tần suất chỉ đơn giản là đề cập đến số lần các danh mục
con khác nhau của một hiện tượng xảy ra, từ đó tính phần trăm cho
dữ liệu.
• Trong Excel sử dụng COUNTIF()
• Ví dụ: thống kê và phân tích biến Gender của tập dữ liệu Supermarket
Transaction.

76

76

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
• Phép đo xu hướng tập trung
(measures of central tendency);
• Sự phân bố của dữ liệu
(measures of distribution)
• Phép đo độ phân tán
(measures of variability);
• Hình dáng phân phối dữ liệu
(measures of shape).

77

77

37
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
• Phép đo xu hướng tập trung có 3 công thức:
• Mean: trung bình mẫu
• Median: trung vị
• Mode: giá trị có tần số xuất hiện nhiều nhất của mẫu

78

78

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
• Mean: trung bình mẫu
σ𝑛𝑖=1 𝑋𝑖
𝑋ത =
𝑛

• 𝑋ത : Giá trị trung bình của một biến X


• Xi: giá trị thứ I của biến X
• n: số quan sát trong mẫu
• Ví dụ:
7+3+2+4+3 Trong Excel, sử dụng hàm
S1 = {7, 3, 2, 4, 3}  𝑋ത = = 3.8
5 AVERAGE để tính Mean
S2 = {8, 7, 5, 6, 4,3}  𝑋ത = ?

79

79

38
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
• Median (trung vị) là một giá trị ở vị trí giữa của một biến nghĩa là có 50%giá
trị > trung vị và 50% < trung vị.
Cách xác định trung vị:
Bước 1: Sắp xếp tăng dần hoặc giảm dần
Bước 2: Tìm vị trí của trung vị
𝑛+1
Trường hợp n là số lẻ: vị trí ở giữa mẫu = 2
Trường hợp n là số chẵn:
vị trí 1: n/2 và vị trí 2: (n/2) + 1
tính trung bình 2 điểm ở giữa của mẫu.
80

80

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
Median Trong Excel, sử
dụng hàm MEDIAN
• Ví dụ 1: n = 5 (là số lẻ)
để tính trung vị
S1 = {7, 3, 2, 4, 3}
Bước 1: S1 = {2,3,3,4,7}
Bước 2: 𝑣ị 𝑡𝑟í 𝑡𝑟𝑢𝑛𝑔 𝑣ị = 3, 𝑚𝑒𝑑𝑖𝑎𝑛 𝑙à 3
• Ví dụ: n = 6 (là số chẵn)
S2 = {8, 7, 5, 6, 4,3}
Bước 1: {3,4,5,6,7,8}
Bước 2: vị trí 1 = n/2 = 3, vị trí 2 = (n/2) + 1
Median = (5 + 6) /2 = 5.5

81

81

39
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
• Mode (Yếu vị): giá trị có tần số xuất hiện lớn nhất của mẫu.
• Ví dụ: {2, 3, 3, 5, 7, 10} Mode là 3
• Một số trường hợp đặc biệt:
• Khi có 2 hoặc nhiều 2 giá trị có tần số xuất hiện nhiều nhất và bằng nhau thì
mode là giá trị nhỏ nhất.
Ví dụ: {3, 3, 3, 9, 16, 16, 16, 27, 37, 48} Mode là 3
• Khi các giá trị trong mẫu không có giá trị nào có tần số xuất hiện nhiều hơn,
Trong Excel, sử dụng hàm
mode là không có.
MODE để tính Mode
Ví dụ: {2, 3, 9 , 5, 7 , 10} Mode không có

83

83

Bài tập
A={2,4,5,6,7,8,9}
B= {5, 2, 3 ,7, 10 , 5}
Xác định các phép đo của phân tích mô tả cho tập dữ liệu trên.
• Phép đo xu hướng tập trung (measures of central tendency);
• Mean = ?, Median = ?, Mode = ?

84

84

40
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
Mode
• Yếu vị là đại lượng thống kê mô tả duy nhất có thể vận dụng cho dữ
liệu định tính.
Ví dụ: Thu thập thông tin về giới tính của công nhân trong một nhà máy
sản xuất, biến Giới tính là biến định danh với mã hóa 1 đại diện cho
Nam, 2 đại diện cho Nữ. Nếu đếm được nhiều số 1 hơn số 2, tức giá trị
của Mode trong tình huống này là 1, đồng nghĩa với công nhân nam
nhiều hơn công nhân nữ.

85

85

2. Phân tích và khai thác dữ liệu > Mô tả


Sự phân bố của dữ liệu
Các phép đo:
• Tổi thiểu (Minimun)
• Tối đa (Maximum)
• Phân vị (Percentiles)
• Khoảng phân tứ vị (Quartiles)

86

86

41
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Sự phân bố của dữ liệu
Tổi thiểu (Minimun)
Sắp xếp các cột tăng dần.
Ví dụ: S = {7, 3, 2, 4, 3}  S = {2,3,3,4,7)  Min là 2
Excel dùng hàm Min
Tối đa (Maximum)
Sắp xếp các cột giảm dần.
Ví dụ: S = {7, 3, 2, 4, 3}  S = {7,4,3,3,2)  Max là 7
Excel dùng hàm Max

87

87

2. Phân tích và khai thác dữ liệu > Mô tả


Sự phân bố của dữ liệu
Phân vị (Percentiles):
phân vị cho biết tỷ lệ phần trăm dữ liệu trong một tập số liệu rơi
vào vùng cao hơn hoặc vùng thấp hơn một giá trị cho trước.
Phân vị thứ p (0% < p < 100%) là giá trị có ít nhất p% số hạng của
mẫu (đã sắp theo giá trị tăng dần) có giá trị nhỏ hơn hoặc bằng giá trị
này và (100-p) có giá trị lớn hơn hoặc bằng giá trị này.
Phân vị 10 Là giá trị tại đó có 10% quan sát có giá trị nhỏ hơn hoặc bằng giá trị này.
Phân vị 25 Là giá trị tại đó có 25% quan sát có giá trị nhỏ hơn hoặc bằng giá trị này.
Phân vị 50 Là giá trị tại đó có 50% quan sát có giá trị nhỏ hơn hoặc bằng giá trị này.
Phân vị 75 Là giá trị tại đó có 75% quan sát có giá trị nhỏ hơn hoặc bằng giá trị này.

88

88

42
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Sự phân bố của dữ liệu
Phân vị (Percentiles):
Bước 1: Sắp xếp tăng dần cho mẫu.
Bước 2: Xác định vị trí : (p/100)*(n+1) trong đó p là [0…1]
Bước 3: lấy giá trị tại vị trí ở bước 2 trong mẫu.
Ví dụ: Mẫu có 11 quan sát về vốn đầu tư của doanh nghiệp. Đơn vị tính
triệu USD
Bước 1: Sắp xếp tăng dần
X
(Vốn đầu tư của doanh 10 12 14 16 18 20 22 24 26 28 30
nghiệp)
Thứ tự quan sát 1 2 3 4 5 6 7 8 9 10 11
89

89

2. Phân tích và khai thác dữ liệu > Mô tả


Sự phân bố của dữ liệu
Phân vị (Percentiles): mẫu có n = 11 quan sát
X
(Vốn đầu tư của 10 12 14 16 18 20 22 24 26 28 30
doanh nghiệp)
Thứ tự quan sát 1 2 3 4 5 6 7 8 9 10 11

* mẫu được sắp xếp tăng dần


Bước 2: n lẻ
Phân vị 5 10 25 50 75 90 95
Vị trí 5 1.2 3 6 9 10.8 11.4
*(11+1)=0.6
100
Giá trị P 10 10 + 0.2(12-10)= 10.4 14 20 26 28+0.8(30-28)= 29.6
90

90

43
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Sự phân bố của dữ liệu
Phân vị (Percentiles):
X
(Vốn đầu tư của 10 12 14 16 18 20 22 24 26 28 30
doanh nghiệp)
Thứ tự quan sát 1 2 3 4 5 6 7 8 9 10 11
Trong Excel sử dụng hàm:
PERCENTILE(array,k)
PERCENTILE.EXC(array,k) sử dụng hàm này khi mẫu có số quan sát nhiều.
PERCENTILE.INC(array,k) sử dụng hàm này khi mẫu có số quan sát rất ít.
*Các phiên bản EXC được đề nghị cho một số lượng nhỏ các quan sát.
array: là dãy số
k: phân vị [0…1]

91

91

2. Phân tích và khai thác dữ liệu > Mô tả


Sự phân bố của dữ liệu
Khoảng tứ phân vị (Quartiles):
Khái niệm: điểm tứ phân vị (quartile) là giá trị bằng số phân chia một
mẫu thành bốn phần, mỗi phần có số liệu quan sát bằng nhau (=25%).
Khi n là số lẻ (n+1)/4 và Khi n là số chẵn n/4
Tứ phân vị có 3 giá trị: tứ phân vị thứ nhất (Q1), thứ nhì (Q2) và thứ ba
(Q3).
Q1 Phân vị 25 Là giá trị tại đó có 25% quan sát có giá trị nhỏ hơn hoặc bằng giá trị này.
Q2 Phân vị 50 Là giá trị tại đó có 50% quan sát có giá trị nhỏ hơn hoặc bằng giá trị này.
Q3 Phân vị 75 Là giá trị tại đó có 75% quan sát có giá trị nhỏ hơn hoặc bằng giá trị này.
Q4 Phân vị 100
92

92

44
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Sự phân bố của dữ liệu
Khoảng tứ phân vị (Quartiles): • Trong Excel sử dụng hàm:
Ví dụ: {1, 2, 5, 6, 7, 8, 12, 13, 14, 15, 200} có QUARTILE.EXC(array,quart)
n = 11 QUARTILE.INC(array,quart)
* mảng phải được sắp xếp tăng dần.
Vị trí Giá trị quart QUARTILE returns
điểm 0 Minimum value
phân vị
1 First quartile (25th percentile)
Q1 Phân vị 25 0.25 * (n+1) = 3 5
Q2 Phân vị 50 0.5 * (n+1) = 6 8 2 Median value (50th percentile)
Q3 Phân vị 75 0.75 * (n+1) = 9 14
3 Third quartile (75th percentile)

{1, 2, 5, 6, 7, 8, 12, 13, 14, 15, 200} 4 Maximum value

93

93

Bài tập Min


A B

Max
A={2,4,5,6,7,8,9} Phân vị
1
B= {5, 2, 3 ,7, 10 , 5} 5
Xác định các phép đo của 10

phân tích mô tả cho tập dữ 25


50
liệu trên.
75
• Sự phân bổ dữ liệu 90
• Min = ?, Max = ?, Phân vị: 95
1,5,10,25,50,75,90,95 ? , Q1, Q1
Q2, Q3. Q2
Q3
94

94

45
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
Độ phân tán của dữ liệu:
• Khoảng biến thiên (Range )
• Độ trải giữa (Interquartile range -IQR)
• Phương sai (Variance)
• Độ lệch chuẩn (Standard deviation)
• Độ lệch tuyệt đối trung bình (Mean absolute deviation)

95

95

2. Phân tích và khai thác dữ liệu > Mô tả > Khuynh hướng phân tán
Khoảng biến thiên (Range )

Range = max – min


Range của mẫu cao hơn sẽ biến thiên nhiều hơn.

Ví dụ: {38, 37, 36, 28, 18, 14, 12, 11, 10,7, 9,9}
Max = 38
Min = 7
Range = 38 – 7 = 31

96

96

46
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả > Khuynh hướng phân tán
Độ trải giữa (Interquartile range -IQR)
• Interquartile range (được viết tắt là IQR) là độ trải giữa.
IQR = Q3 – Q1
Trong đó:
• Q1 là khoảng phân vị 25,
• Q3 là khoảng phân vị 75
• Ví dụ: {62,63,64,64,70,72,76,77, 81, 81}
n = 10
Q1 = 63.75
Q3 = 78
IQR = 14.25

97

97

2. Phân tích và khai thác dữ liệu > Mô tả > Phép đo độ biến thiên
Phương sai (Variance)
• Phương sai đo lường sự chênh lệch từ giá trị đang xét đến điểm trung
vị hoặc trung bình.
• Một phương sai lớn cho biết các số trong tập dữ liệu nằm cách xa giá
trị trung bình và biến động lớn, trong khi phương sai nhỏ chỉ ra điều
ngược lại.
• Giá trị phương sai bằng 0 nghĩa là tất cả các giá trị trong một tập dữ
liệu là giống hệt nhau. Hay không có sai số.
• Tất cả các phương sai không bằng 0 sẽ là số dương.

98

98

47
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả > Phép đo độ biến thiên
Phương sai (Variance)
• Ví dụ: {17, 15, 23, 7, 9, 13}
Bước 1: Tính 𝟏𝟕+𝟏𝟓+𝟐𝟑+𝟕+𝟗+𝟏𝟑
mean ഥ
Mean: 𝑿 = = 14
𝟔
Bước 2: Tính
khoảng cách Xi 17 15 23 7 9 13
Trong Excel, sử dụng
Xi - 𝑋ത 3 1 9 -7 -5 -1
hàm:
ത2
(Xi - 𝑋) 9 1 81 49 25 1
VAR.S() tính phương
sai của mẫu.
Bước 3: Tính 9+1+81+49+25+1 VAR.P() tính phương
phương sai s2 = = 33.2 sai của tổng thể.
6−1

99

99

2. Phân tích và khai thác dữ liệu > Mô tả > Phép đo độ biến thiên
Độ lệch chuẩn (Standard deviation, SD)
• Độ lệch chuẩn là căn bậc 2 của phương sai, là đại lượng mô tả sự chênh
lệch của một giá trị so với giá trị trung bình.
s = 𝑠2

Độ lệch chuẩn cao là các giá trị đang biến thiên Trong Excel, sử dụng
rất lớn nghĩa là cách xa giá trị trung bình. hàm:
Ví dụ: STDEV.S() tính độ lệch
chuẩn của mẫu.
9+1+81+49+25+1
s2 = = 33.2 (ví dụ của bài phương sai) STDEV.P() tính độ lệch
6−1
chuẩn của tổng thể.
s = 𝑠2 = 33.2 = 5.76
100

100

48
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả > Khuynh hướng phân
tán
Độ lệch tuyệt đối trung bình (Mean absolute deviation)
• Độ lệch tuyệt đối trung bình (MAD) của tập dữ liệu là khoảng
cách trung bình giữa mỗi giá trị dữ liệu và giá trị trung bình.

σ𝑛 ത
𝑖=1 𝑋𝑖 −𝑋
MAD = 𝑛

101

101

2. Phân tích và khai thác dữ liệu > Mô tả > Khuynh hướng phân
tán
Độ lệch tuyệt đối trung bình (Mean absolute deviation)
Mean
Ví dụ: Cho D1 = {2, 2, 4, 4} và D2 = {1, 1, 6, 4}
2+2+4+4
𝑋𝐷1 = =3
4

2 −3 + 2 −3 + 4 −3 + 4 −3 0 2 3 4
MADD1= =1
4

Mean
1+1+6+4
𝑋𝐷2 = =3
4

1 −3 + 1 −3 + 6 −3 + 4 −3
MADD2= =2 1 4 6
4 0 3
102

102

49
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả > Khuynh hướng phân
tán
Độ lệch tuyệt đối trung bình (Mean absolute deviation)
• Độ lệch tuyệt đối trung bình (MAD) của tập dữ liệu là khoảng
cách trung bình giữa mỗi giá trị dữ liệu và giá trị trung bình.

σ𝑛 ത
𝑖=1 𝑋𝑖 −𝑋
MAD = 𝑛
Trong Excel, sử dụng
hàm:
AVEDEV() tính độ lệch
tuyệt đối trung bình
của mẫu.

103

103

Bài tập
Độ phân tán A B
A={2,4,5,6,7,8,9} Range
B= {5, 2, 3 ,7, 10 , 5} IQR
s2
Xác định các phép đo của s
phân tích mô tả cho tập dữ MAD
liệu trên.
• Độ phân tán dữ liệu
• Range, IQR, s2, s, MAD

104

104

50
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả hình dáng dữ liệu
• Phép đo hình dáng của dữ liệu:
• Skew: độ lệch
• Kurt: độ nhọn

105

105

2. Phân tích và khai thác dữ liệu > Mô tả> Mô tả trên biến định lượng >
Phân phối chuẩn
• Phân phối chuẩn còn được gọi là phân phối Gaussian trong tiếng Anh
là Normal Distribution.
• Phân phối chuẩn thông thường có hai tham số: giá trị trung bình và
độ lệch chuẩn.
• Đối với phân phối chuẩn,
• 68% các quan sát nằm trong
khoảng  độ lệch chuẩn của giá trị trung bình,
• 95% nằm trong  hai lần độ lệch chuẩn và
• 99,7% nằm trong  ba lần độ lệch chuẩn.

106

106

51
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả> Mô tả trên biến định lượng >
Phân phối chuẩn
• Dữ liệu thực tế hiếm khi theo một phân phối chuẩn hoàn toàn cho
nên sử dụng hệ số độ lệch và độ nhọn để đo lường mức độ khác biệt
của một phân phối nhất định so với phân phối chuẩn.
• Độ lệch đo lường tính đối xứng của
một phân phối. Phân phối chuẩn là
đối xứng và có độ lệch bằng 0.
• Độ nhọn đo độ dày của đuôi phân phối
so với đuôi của phân phối chuẩn.
Phân phối chuẩn có độ nhọn bằng 3.

Đường màu đỏ là phân phối chuẩn.


107

107

2. Phân tích và khai thác dữ liệu > Mô tả> Mô tả trên biến định lượng >
Phân phối chuẩn
Độ lệch Độ nhọn
Nếu phân phối của tập dữ liệu: Phân phối với đuôi lớn thể hiện dữ liệu ở đuôi phân phối
- có độ lệch nhỏ hơn 0 hoặc độ lệch vượt quá dữ liệu ở đuôi phân phối chuẩn (ví dụ nhiền
âm, thì đuôi bên trái của phân phối hơn năm độ lệch chuẩn so với giá trị trung bình). Các
dài hơn đuôi bên phải; phân phối có độ nhọn thấp cho thấy tập dữ liệu có điểm
- độ lệch dương ngụ ý rằng đuôi cực trị thấp hơn các bản phân phối chuẩn. điều này cho
bên phải của phân phối dài hơn thấy phân phối không có đuôi mập hay mỏng. Do đó, nếu
đuôi bên trái. một phân phối quan sát được:
- có độ nhọn > 3, phân phối được cho là có đuôi mập khi
so sánh với phân phối chuẩn.
- có độ nhọn < 3, nó được cho là có đuôi mỏng khi so
sánh với phân phối chuẩn.

108

108

52
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
Các phương pháp về hình dáng:
• Hình dáng dữ liệu mô tả sự phân bố
của dữ liệu.
• Dữ liệu được phân bố theo 3 dạng:
• đối xứng
• bất đối xứng trái,
• bất đối xứng phải
• Có 2 thước đo chủ yếu đánh giá hình
dáng phân phối dữ liệu (Groeneveld
& Meeden, 1984):
1) Hệ số Skewness
2) Chỉ số Kurtosis
109

109

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
Hệ số skewness đo lường mức độ không đối xứng của phân phối dữ liệu.
𝑛 𝑋 − 𝑋ത
Skewness = σ𝑛 ( 𝑖 )3
(𝑛−1)(𝑛−2) 𝑖=1 𝑠

Skewness = 0: dạng phân phối chuẩn (đối xứng)


Skewness > 0 : dạng phân phối bất đối xứng phải
Skewness < 0: dạng phân phối bất đối xứng trái
Có thể được tính bằng cách khác:
Dạng đối xứng: Mean = Median = Mode
Dạng bất đối xứng phải: Mode < Median < Mean → tích cực
Bất đối xứng trái: Mean < Median < Mode → tiêu cực Trong Excel, sử dụng hàm:
SKEW() tính skewness.
110

110

53
17/07/2023

2. Phân tích và khai thác dữ liệu > Mô tả


Mô tả trên biến định lượng
Chỉ số Kurtosis là chỉ số để đo lường độ cao (độ nhọn) phần trung tâm của
một phân phối dữ liệu của mẫu so với phân phối chuẩn.
σ𝑛 ത
𝑖=1(𝑋𝑖 − 𝑋)
Kurtosis =
𝑛𝑠4
Trong đó: s là độ lệch chuẩn
Khi phần trung tâm càng cao và nhọn, chỉ số Kurtosis càng lớn.
Kurtosis > 3: Leptokurtic or heavy-tailed distribution (kurtosis more than normal
distribution) → tích cực
Kurtosis = 3 : Mesokurtic (phân phối dạng chuẩn).
Kurtosis < 3 : Platykurtic or short-tailed distribution (kurtosis less than normal
distribution) → tiêu cực Trong Excel, sử dụng hàm:
KURT() tính Kurtosis.
111

111

Bài tập
• Công ty của bạn cần chọn nhà cung
cấp 10 bộ phận thiết bị trong sản xuất,
và yêu cầu đường kính là 100cm.
1) Phương pháp nên được dùng để
đưa ra quyết định?
2) Quan sát bảng thống kê mô tả và hãy
cho biết nhà cung cấp nào sẽ được
chọn? Tại sao?

112

112

54
17/07/2023

Bài tập 2
• Mô tả đặc
điểm biến
Salary trong
tập dữ liệu về
lương của các
cầu thủ bóng
chày. (Baseball
Salaries.xlsx)

113

113

Bài tập 2
• Mô tả đặc
điểm biến
Salary trong
tập dữ liệu về
lương của các
cầu thủ bóng
chày. (Baseball
Salaries.xlsx)

114

114

55
17/07/2023

Biểu đồ

Clustered Column – Biểu đồ cột Pie chart – Biểu đồ tròn

• Dùng cho dữ liệu định tính hoặc rời rạc

115

115

Biểu đồ Dot Plot


• Dot Plot biểu diễn các điểm dữ liệu trên cùng một trục số bằng chấm tròn.
• Nếu các điểm dữ liệu có cùng giá trị thì chúng được xếp tầng tại giá trị đó.
• Dot Plot cho thấy sự phân bố dữ liệu và độ trải rộng của tập dữ liệu.
Ví dụ: bằng dot plot biểu diễn sự đi lại của người dân đến South Africa và
New Zealand ở Úc. Quan sát dot plot, hãy cho biết,
▪ Tập dữ liệu có bao nhiêu quan sát?
▪ Trung tâm ở đâu?
▪ Spread của biểu đồ như thế nào?

116

116

56
17/07/2023

Dot Plot
Bài tập: Quan sát biểu đồ, hãy cho biết
▪ Giá trị trung bình?
▪ Trung vị?
▪ Giải thích tại sao giá trị trung bình tốt hơn giá trị median?

117

117

Dot Plot
• So sánh sự khác nhau giữa 2 tập dữ liệu về cân nặng của trái dâu và
cân nặng của trái nho.

Cân nặng của trái dâu

Cân nặng của trái nho

118

118

57
17/07/2023

Histogram – Biểu đồ tần suất


• Biểu đồ là một biểu đồ cột hiển thị tần suất dữ liệu theo các nhóm.
• Biểu đồ hiển thị hình dáng của sự phân phối dữ liệu.
• Histogram được dùng cho biến định lượng liên tục.

119

119

Histogram – Biểu đồ tần suất


Các dạng biểu đồ Histogram
• Symmetry
• Đối xứng hoặc bất đối xứng Symmetry Flat
• Nếu đối xứng, gò hay phẳng?
• Skew
• Lệch trái, Lệch phải
Skewed Left Skewed Right
• Peaks or Modes
• Unimodal, bimodal, multiple peaks
(một đỉnh, hai đỉnh, nhiều đỉnh)
Uniform Bimodal Multiple peaks Peaked
• Spread (chỉ xét khi biểu đồ có dạng hình chuông)
• Là khoảng cách giữa điểm uốn với trung tâm
(theo định lý giới hạn trung tâm)

120

120

58
17/07/2023

Histogram – Biểu đồ tần suất


Có 3 cách tạo Histogram:
1) Tạo Histogram trực tiếp trên tập dữ liệu trong Excel.
2) Tạo Histogram sử dụng hàm FREQUENCY.
3) Tạo Histogram sử dụng Data Analysis Tool pack.

121

121

Histogram – Biểu đồ tần suất


Cách tính số bins và chiều rộng của bin
• Đếm số lượng dữ liệu (n)
• Số lượng bins (number of bins) = 𝑛 và làm tròn lên (hàm ROUNDUP).
• Chiều rộng của bins (bin width) = (max – min)/ Số lượng bins.
Tạo danh mục bins
▪ Chọn giá trị bắt đầu = min - bin width
▪ Bin tiếp theo = bin trước + bin width
▪ Làm tròn các giá trị bin.

122

122

59
17/07/2023

Histogram – Biểu đồ tần suất


Cách 1: Tạo Histogram trực tiếp trên tập dữ
liệu trong Excel.
Bước 1: Chọn tập dữ liệu
Bước 2: Chọn lệnh Insert → Charts Histogram
Bước 3: Chỉnh sửa các thông số cho
Histogram cho phù hợp
▪ Nhấn chuột phải trên Horizontal value,
▪ Format Axis

123

123

Histogram – Biểu đồ tần suất


• By Category: theo bins đã định trước
• Automatic: bins được tạo tự động
• Bin Width: một bin (thùng) lớn bao nhiêu
• Number of Bins: số lượng bin
▪ Overflow Bin: muốn biết những giá trị nào
trên một giá trị định trước.
▪ Underflow Bin: muốn biết những giá trị nào
dưới một giá trị định trước.

124

124

60
17/07/2023

Histogram – Biểu đồ tần suất


Cách 2: Tạo Histogram sử dụng hàm FREQUENCY.
Bước 1: Tạo danh sách các bins (xem slide 133)
Bước 2: Nhập hàm
=FREQUENCY(data_array,bin_array) → Enter →
Control + Shift + Enter
Bước 3: Chuyển các bins thành các giá trị
khoảng.
Bước 4: Chọn lệnh Insert → Charts Histogram
Bước 5: Chuột phải Horizontal Values → Format
Axis → Axis Options Bins → By Category

125

125

Histogram – Biểu đồ tần suất


Cách 3: Tạo Histogram từ ToolPak.
Bước 1: Tạo danh sách các bins. (xem slide 133)
Bước 2: Chọn lệnh Data → Analysis → Data
Analysis → Histogram
Bước 3: Chỉnh sửa các thông số cho Histogram
cho phù hợp
▪ Output Range: vị trí xuất kết quả
▪ Input Range: tập dữ liệu ▪ Chart Output: Xuất biểu đồ
▪ Bin Range: vùng chứa các bins
▪ Labels: Dữ liệu có tiêu đề
126

126

61
17/07/2023

Box-Whisker Plot
Biểu đồ hình hộp và hình râu cho thấy
✓sự phân bố dữ liệu ở các phần tư,
✓làm nổi bật giá trị trung bình và giá trị ngoại lai.
✓Biểu diễn 5 phép đo của thống kê mô tả là min,
max, lower quartile (Q1), upper quartile (Q3) và
median.
Hộp có các đường kéo dài theo chiều dọc/ngang
được gọi là "râu".
Những đường này biểu thị sự thay đổi
bên ngoài phần tư trên và dưới,
bất kỳ điểm nào bên ngoài các
đường/râu là điểm ngoại lệ.

130

130

Box-Whisker Plot
Các bước vẽ Box Plot Xác định các ngoại lệ trên box plot
Bước 1: Sắp xếp tăng dần tập dữ liệu
Bước 6: Tính IQR của bạn = Q3 - Q1
Bước 2: Tìm median, lower quartile
và upper quartile. Bước 7: Tính toán chặn trên = Q3 +
Bước 3: Vẽ trên trục tọa độ xy, các (1.5 * IQR)
giá trị từ min và max
Bước 8: Tính toán chặn dưới = Q1 -
Bước 4: Vẽ hình hộp chữ nhật từ Q1
đến Q3 và đường thẳng tại vị trí giá (1.5 * IQR)
trị median trong hình hộp chữ nhật.
Bước 5: Vẽ râu từ Q1 đến min và Q3
đến max.

131

131

62
17/07/2023

Box-Whisker Plot
Bài tập: Vào mùa hè, mỗi sinh viên trong được ghi nhận lại việc đọc bao
nhiêu cuốn sách bằng biểu đồ sau. Hỏi,
1) Số lượng sách lớn nhất mà sinh viên đọc?
2) Số lượng sách ở giữa mà sinh viên đọc?
3) Khoảng trải giữa là bao nhiêu?

132

132

Box-Whisker Plot
• Bài tập: Dữ liệu về số giờ mỗi tuần mà mỗi học sinh trong số 13
học sinh lớp bảy dành để làm bài tập về nhà. Thực hiện từng
bước tạo một biểu đồ hộp (box whisker plot) và dot plot để tóm
tắt dữ liệu.
3 10 12 4 7 9 5 5 11 11 5 12 11

133

133

63
17/07/2023

Biểu đồ
• Line chart: biểu diễn dữ liệu thời gian

• Scatter plot/ Scatter chart: phân tích mối quan hệ giữa 2 biến định
lượng

134

134

Scatter plot – Biểu đồ phân tán


• Biểu đồ phân tán thể hiện mối tương quan giữa hai yếu tố khác nhau.

135

135

64
17/07/2023

Bài tập 3
Baseball Salaries 2011.xlsx chứa dữ liệu về 843 cầu thủ MLB trong mùa
giải 2011. Sử dụng những dữ liệu này,
1) hãy tạo một biểu đồ histogram cho biến lương của cầu thủ. Nêu
nhận xét về hình dáng phân bổ của dữ liệu.
2) hãy tạo một biểu đồ hình box-whisker plot để mô tả đặc điểm phân
bổ tiền lương của tất cả cầu thủ theo từng vị trí chơi bóng.
a) Vị trí nào có mức lương tốt nhất.
b) Lương cầu thủ của vị trí nào có nhiều ngoại lai.

137

137

Outliers – Giá trị ngoại lai


Giá trị ngoại lai là giá trị ở các đầu cực của tập dữ liệu.
Một số giá trị ngoại lai đại diện cho các giá trị thực từ sự biến đổi tự
nhiên trong quần thể. Các ngoại lệ khác có thể do nhập dữ liệu không
chính xác, trục trặc thiết bị hoặc các lỗi đo lường khác.
Dữ liệu ngoại lai không phải lúc nào cũng là dạng dữ liệu bẩn hoặc
không chính xác, vì vậy phải cẩn thận với chúng trong quá trình làm
sạch dữ liệu.
Các giá trị ngoại lai thực sự phải luôn được giữ lại trong tập dữ liệu vì
chúng đại diện cho các biến thể tự nhiên trong mẫu của bạn.
138

138

65
17/07/2023

Outliers – Giá trị ngoại lai


Có 3 phương pháp:
• Phương pháp độ trải giữa (IQR)
• Phương pháp trực quan hóa dữ liệu
• Kiểm tra thống kê (z-scores)

139

139

Outliers – Giá trị ngoại lai >


Phương pháp độ trải giữa (IQR)
Các bước thực hiện:
1) Sắp xếp dữ liệu của bạn từ thấp đến
cao.
2) Xác định phần tư đầu tiên (Q1), trung vị
và phần tư thứ ba (Q3).
3) Tính IQR của bạn = Q3 - Q1
4) Tính toán chặn trên = Q3 + (1.5 * IQR)
5) Tính toán chặn dưới = Q1 - (1.5 * IQR)
6) Sử dụng chặn trên và chặn dưới để tìm
ra ngoại lệ.

140

140

66
17/07/2023

Outliers – Giá trị ngoại lai >


Phương pháp độ trải giữa (IQR)
Ví dụ: {3310, 3355, 3450, 3480, 3480, 3490, 3520, 3540, 3550, 3650, 3730,
3925} n = 12
* mẫu đã được sắp xếp tăng dần.
Q1 = ?
Q3 = ?
IQR = Q3 - Q1 = ?
chặn trên = Q3 + (1.5 * IQR) = ?
chặn dưới = Q1 - (1,5 * IQR) = ?
Vậy ngoại lệ là ?

141

141

Outliers – Giá trị ngoại lai >


Phương pháp độ trải giữa (IQR)
Ví dụ: {3310, 3355, 3450, 3480, 3480, 3490, 3520, 3540, 3550, 3650, 3730,
3925} n = 12
* mẫu đã được sắp xếp tăng dần.
Q1 = 3465
Q3 = 3600
IQR = Q3 - Q1 = 3600 - 3465 = 135
chặn trên = Q3 + (1.5 * IQR) = 3600 + 1.5(135) = 3802.5
chặn dưới = Q1 - (1,5 * IQR) = 3465 - 1.5(135) = 3262.5
Vậy ngoại lệ là 3925

142

142

67
17/07/2023

Outliers – Giá trị ngoại lai


• Vẽ box plot
• Xác định outliers?

143

143

Outliers – Giá trị ngoại lai >


Phương pháp trực quan hóa dữ liệu
• Sử dụng đồ thị box-and-whisker plot
Insert > Charts > Box and Whisker

144

144

68
17/07/2023

Outliers – Giá trị ngoại lai >


Kiểm tra thống kê (z-scores)
Theo phân phối chuẩn, áp dụng định lý giới hạn trung tâm
68% các điểm dữ liệu nằm trong khoảng μ±σ
95% các điểm dữ liệu nằm trong khoảng μ±2σ
99.7% các điểm dữ liệu nằm trong khoảng μ±3σ

Với Với một điểm dữ liệu x, z score của nó được tính bởi:
x−μ
z-score = σ
Những điểm có z-score nằm ngoài đoạn [−3,3] là các điểm ngoại lệ.

145

145

2. Phân tích và khai thác dữ liệu


Phân tích mối quan hệ (Relationships)
• Mối quan hệ giữa các biến định tính
• Sử dụng bảng chéo (crosstabs)
• Kiểm tra phi tham số: phân tích mối quan hệ giữa biến định danh và biến thứ
tự
• Tương quan thứ hạng của Spearman và tương quan thứ hạng của Kendall
được sử dụng để kiểm tra mối quan hệ giữa hai biến thứ tự
• Mối quan hệ giữa biến định tính và định lượng
• Mối quan hệ giữa các biến định lượng
• Ma trận tương quan được sử dụng để kiểm tra mối quan hệ giữa các biến liên
tục và rời rạc.

146

146

69
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định tính
Ví dụ: Tập dữ liệu 8761 người lớn hút thuốc và uống rượu.
Dữ liệu được mã hóa là
• “N” là “Non,”
• “O” là “Occasional,”
• “H” là “Heavy,”
• “S” là “Smoker”
• “D” là “Drinker.”
• Câu hỏi nghiên cứu:
• Có dấu hiệu nào cho thấy thói quen hút thuốc và uống rượu có
liên quan không?
• Nếu có, chúng có liên quan như thế nào?

147

147

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định tính
• Có dấu hiệu nào cho thấy thói quen hút thuốc và
uống rượu có liên quan không?
• Phương pháp sử dụng: Crosstabs

148

148

70
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định tính
• Nếu có, chúng có liên quan như thế nào?
→ NS và ND có quan hệ nhiều.

149

149

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định tính
Bài tập: Sử dụng tập tin Supermaket Transactions.xlsx, phân tích mối
quan hệ giữa 2 biến. Tìm mẫu nào nổi bật?
a. Gender so với Product Department.
b. Marital Status so với Product Department.
c. Annual Income so với Product Department.

150

150

71
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định tính và định lượng
Dữ liệu được tổ chức:
• Xếp chồng (Stacked)
• Không xếp chồng (Unstacked)

UnStacked data

Stacked data
151

151

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định tính và định lượng
Ví dụ: Sử dụng unstacked data để phân tích

152

152

72
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định tính và định lượng
Bài tập: Sử dụng tập tin Baseball Salaries 2011 Extra.xlsx để phân tích mối
quan hệ giữa 2 biến lương và …
▪ Pitcher (Yes for all pitchers, No for the others)
▪ League (American or National)
▪ Division (National West, American East, and so on)
▪ Yankees (Yes if team is New York Yankees, No otherwise)
▪ Playoff Team 2011 (Yes for the eight teams that made it to the playoffs, No
for the others)
▪ World Series Team 2011 (Yes for St. Louis Cardinals and Texas Rangers, No for
others)

153

153

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định tính và định lượng
Bài tập: Sử dụng tập tin Baseball Salaries 2011 Extra.xlsx để phân
tích mối quan hệ giữa 2 biến lương và …
Kết quả phân tích mối quan hệ giữa biến lương và biến Positions

154

154

73
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định tính và định lượng
Bài tập: Sử dụng tập tin Baseball Salaries 2011 Extra.xlsx để phân
tích mối quan hệ giữa biến lương và …
Kết quả phân tích
mối quan hệ giữa
biến lương và
biến Positions

155

155

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Biểu đồ phân tán (Scatter plot/ Scatter chart)
• Biểu đồ phân tán biểu diễn mối quan hệ tương quan giữa 2 biến định lượng.
• Biểu đồ phân tán có thể được mô tả bằng:
hướng (direction),
hình dáng (form/shape) và
độ mạnh của mối quan hệ (strength).
• Giá trị ngoại lai là giá trị nằm xa
đường xu hướng
Ví dụ: GPA của sinh viên có bị ảnh hưởng
từ Motivation không?
Nếu có, thì mức độ ảnh hưởng.

156

156

74
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
hướng (direction) của biểu đồ phân tán
positive association negative association

Mối quan hệ thuận khi motivation tăng thì Mối quan hệ nghịch khi Absences giảm thì
GPA cũng tăng GPA tăng
hoặc motivation giảm thì GPA cũng giảm. hoặc Absences tăng thì GPA giảm.
157

157

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
hình dáng (form/shape) của biểu đồ phân tán
linear relationship curvilinear relationship

mối quan hệ tuyến tính là: mối quan hệ có dạng đường cong,
- các điểm trên scatterplot gần giống với một đường thẳng. - là một biến không tăng với tốc độ không đổi và
- khi một biến thay đổi một đơn vị thì các biến khác tăng một - thậm chí có thể bắt đầu giảm dần sau một thời điểm nhất
khoảng tỷ lệ bằng nhau. định.

158

158

75
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
độ mạnh của mối quan hệ (strength) của biểu đồ phân tán
Độ mạnh của mối quan hệ dựa vào độ dốc của đường xu hướng.
Mối quan hệ tuyến tính mạnh
nhất xảy ra khi độ dốc là 1.
Điều này có nghĩa là khi một
biến tăng một, thì biến kia
cũng tăng một lượng tương tự.
Đường này nằm ở góc 45 độ.

* Công thức tính độ mạnh của


mối quan hệ chính xác hơn là Hệ
số tương quan (correlation
coefficient) hay còn gọi là
Pearson r.

159

159

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
độ mạnh của mối quan hệ (strength) của biểu đồ phân tán
Độ mạnh của mối quan hệ dựa vào độ dốc của đường xu hướng.
Pearson r: Absolute Strength of
𝟏 𝒙𝒊 𝒙 ഥ 𝒚𝒊 − 𝒚
ഥ Value of r Relationship
𝒓= ෍( − )( )
𝒏−𝟏 𝒔𝒙 𝒔𝒚 r < 0.3 None or very
weak
• r  [ -1 , 1 ].
0.3 < r < 0.5 Weak
• r > 0 là positive association.
r < 0.7 Moderate
• Khi x > mean thì y có xu hướng > mean.
• Khi x < mean thì ý có xu hướng < mean. r > 0.7 Strong

• r < 0 là negative association.


• Khi x > mean thì y có xu hướng < mean.
• Khi x < mean thì ý có xu hướng > mean.

160

160

76
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
độ mạnh của mối quan hệ (strength) của biểu đồ phân tán
Độ mạnh của mối quan hệ dựa vào độ dốc của đường xu hướng.
Pearson r:
Absolute Strength of
Value of r Relationship
r < 0.3 None or very
weak
0.3 < r < 0.5 Weak
r < 0.7 Moderate
r > 0.7 Strong

161

161

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
độ mạnh của mối quan hệ (strength) của biểu đồ phân tán
Độ mạnh của mối quan hệ dựa vào độ dốc của đường xu hướng.
Hiệp phương sai:
COVARIANCE > 0: positive
COVARIANCE < 0: negavite
Trong Excel, sử dụng hàm:
COVARIANCE.P (population)
và COVARIANCE.S (sample)
tính hướng của mối quan hệ.

162

162

77
17/07/2023

Absolute Value of Strength of


r Relationship
2. Phân tích và khai thác dữ liệu > r < 0.3 None or very weak
Phân tích mối quan hệ (Relationships) > 0.3 < r < 0.5 Weak

Mối quan hệ giữa các biến định lượng r < 0.7


r > 0.7
Moderate
Strong

độ mạnh của mối quan hệ (strength) của biểu đồ phân tán


Độ mạnh của mối quan hệ dựa vào độ dốc của đường xu hướng.
Hệ số tương quan:
Là một đại lượng không có đơn vị và
không bị ảnh hưởng bởi thang đo.
Đo độ dốc của đường thẳng (đường xu hướng)
Covar(X, Y)
Correl(X, Y) = Stdev(X) × Stdev(Y)

Trong Excel, sử dụng hàm:


CORREL đo độ dốc của mối quan hệ.
163

163

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Biểu đồ phân tán (Scatter plot/ Scatter chart)
Ví dụ: Phân tích mối quan hệ giữa tuổi và thu nhập

Ví dụ: Phân tích mối quan hệ giữa


Yards và Driving Accuracy
164

164

78
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Biểu đồ phân tán (Scatter plot/ Scatter chart)
Biến phụ thuộc: là biến dự đoán ,
Biến độc lập: là biến ảnh hưởng đến biến phục thuộc trong một mô hình kinh tế.
Trên Scatter plot,
▪ Biến phụ thuộc nằm trên trục x,
▪ Biến độc lập nằm trên trục y

165

165

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Biểu đồ phân tán (Scatter plot/ Scatter
chart)
1) Chèn biểu đồ
2) Chọn tập dữ liệu của 2 biến
3) Vào lệnh Insert > Charts > Scatter
4) Thêm đường xu hướng: Chọn biểu
đồ > Chart Design > Add Chart
Element > Trendline > Linear
* Đường xu thế (Trendline): Xu thế là sự
thay đổi (tăng hay giảm) của dữ liệu
trong một thời gian dài.
166

166

79
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Biểu đồ phân tán (Scatter plot/ Scatter chart)

- Hiển thị hàm hồi quy: Display Equation on chart


- Hiển thị hệ số R-square (R bình phương): R-square
- R-square: dùng đánh giá sự phân bố tập trung của dữ liệu với
đường xu hướng.
- R-square  [0,1] nghĩa là bao nhiêu phần trăm phân bố tập
trung vào đường xu hướng.
- Ví dụ: R-square = 0.41% nghĩa là biến phụ thuộc 41% vào biến
độc lập và 59% phụ thuộc vào các yếu tố/biến khác.

167

167

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Biểu đồ phân tán (Scatter plot/ Scatter chart)
Các loại đường xu hướng:
- Exponential
- y = cebx với c,b là hằng số, e = 2,718 cơ số tự nhiên trong
logarit
- Là đường cong xu hướng hàm mũ biểu diễn sự tang/giảm với
tốc độ liên tục nhanh.
- Nếu dữ liệu chứa giá trị 0 hoặc âm thì không tạo đường.

- Linear
- y = mx + b với m là slope và b là intercept.
- Là đường thẳng/tuyến tính biểu diễn sự tăng giảm ổn định.
- R-squared  [0,1] cho biết mức độ tương ứng của các giá trị
ước tính cho đường xu hướng với dữ liệu thực tế.

168

168

80
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Biểu đồ phân tán (Scatter plot/ Scatter
chart)
Các loại đường xu hướng:
- Logarithmic
- y = clnx + b với c,b là hằng số và hàm logarit ln
- Là đường cong khi tốc độ thay đổi trong dữ liệu tăng hoặc
giảm nhanh chóng rồi cân bằng.
- Biểu diễn dữ liệu có số âm và số dương.
- Polynomial
- y = b + c1x + c2x2 + … + cnxn
- Là đường cong xu hương đa thức biểu diễn dữ liệu dao
động.
- Bậc (Order) của đa thức được xác định từ đồi hoặc thung
lũng trong đường cong.

169

169

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Biểu đồ phân tán (Scatter plot/ Scatter
chart)
Các loại đường xu hướng:
- Power: Đường xu hướng dạng hàm mũ
- y = cxb với c,b là hằng số
- Là đường cong xu hướng biểu diễn tập dữ liệu được đo
trong một tỷ lệ cụ thể.
- Nếu dữ liệu là 0 hoặc âm thì không thể tạo đường xu
hướng.

- Moving Average
𝐴𝑡+𝐴𝑡 𝐴𝑡 𝑛 1
- Ft = 1
− + …+ − +
𝑛
- Là đường trung bình động. Period: số khoảng thời gian,
trong một khoảng thời gian, sẽ tính ra 1 điểm trung bình.
170

170

81
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Biểu đồ phân tán (Scatter plot/ Scatter chart)
Ví dụ: Phân tích mối quan hệ giữa tuổi và thu nhập

Ví dụ: Phân tích mối quan hệ giữa


Yards và Driving Accuracy
171

171

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Bài tập: Phân tích mối quan hệ giữa số việc gửi xe ngoài trời và gửi xe
trong hầm? Sử dụng hàm corel và công cụ phân tích, sau đó vẽ biểu đồ
phân tán.

172

172

82
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích mối quan hệ (Relationships) >
Mối quan hệ giữa các biến định lượng
Ví dụ: Sử dụng tập tin Golf_Stats.xlsx để phân tích
• Do younger players play more events?
• Are earnings related to age?
• Việc nào liên quan đến earnings nhiều nhất: driving, putting, or greens in
regulation?
• Những câu trả lời cho những câu hỏi này có giữ từ năm này sang năm khác?

173

173

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Thống kê suy luận là quá trình suy luận suy ra các đặc điểm của một
phân phối cơ bản bằng việc phân tích dữ liệu mẫu. Từ việc phân tích,
thống kê suy luận suy ra tính chất của tổng thể.
Thống kê suy luận có 2 kỹ thuật chính:
▪ Ước lượng:
▪ Các kỹ thuật để ước lượng: ước lượng điểm, ước lượng khoảng.
▪ Kiểm định giả thuyết
▪ Là một giả thuyết hoặc một tuyên bố liên quan đến một tham số quần thể. Sau đó, sử
dụng dữ liệu mẫu để bác bỏ hoặc chấp nhận sự chuẩn xác của giả thuyết đề xuất.
▪ Các kỹ thuật: kiểm định giả thuyết tham số, kiểm định giả thuyết phi tham số.

174

174

83
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Một số thuật ngữ:
Tổng thể nghiên cứu (study population)
Mẫu (Sample)
Phần tử (Element)
Đơn vị chọn mẫu (sampling units)
Khung mẫu (Sampling frame): danh sách các giá trị mẫu

175

175

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Ý nghĩa Ví dụ
Tổng thể hoặc Là tập hợp tất cả các đối tượng nghiên cứu. Nghiên cứu các doanh nghiệp nhỏ và vừa (viết tắt
quần thể là DNNVV) tại quận 3, Tp. HCM.
nghiên cứu → Tổng thể nghiên cứu là tập hợp tất cả doanh
nghiệp tại quận 3.
Mẫu Mẫu là một tập hợp con của tổng thể, thường
được chọn ngẫu nhiên và tốt nhất để đại diện
cho tổng thể.
Phần tử Là đơn vị nhỏ nhất của tổng thể. Mỗi DNNVV tại quận 3 là một phần tử nghiên cứu.

Đơn vị chọn Tổng thể thường được chia thành nhiều nhóm có Chia quận 3 thành các phường.
mẫu đặc tính riêng. → Mỗi phường là đơn vị chọn mẫu,
Mỗi nhóm được gọi là đơn vị chọn mẫu. → DNNVV ở phường là phần tử
Khung mẫu Là danh sách liệt kê dữ liệu cần thiết của tất cả Khung mẫu là danh sách gồm các thông tin (tên
các đơn vị và phần tử của tổng thể doanh nghiệp, địa chỉ, qui mô, ..) của toàn bộ
DNNVV tại quận 3 theo phường được chọn.
176

176

84
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Quá trình chọn mẫu
Bước 1: Định nghĩa tổng thể và phần tử
Bước 2: Xác định khung lấy mẫu
Bước 3: Xác định kích thước mẫu
Bước 4: Xác định phương pháp chọn mẫu

177

177

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Phương pháp chọn mẫu
• Chọn mẫu ngẫu nhiên (theo xác suất)/probability samples
• Sử dụng cơ chế random.
• Chọn mẫu phán đoán (phi xác suất)/judgmental sample
• Do nhà nghiên cứu chọn lựa.

178

178

85
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Phương pháp chọn mẫu > Chọn mẫu ngẫu nhiên (theo xác suất)
Các phương pháp random:
1. Simple Random Sampling/ Chọn mẫu ngẫu nhiên đơn giản
2. Systematic Sampling/ Chọn mẫu ngẫu nhiên hệ thống
3. Stratified Sampling/ Chọn mẫu ngẫu nhiên phân tầng
4. Cluster Sampling/ Chọn mẫu ngẫu nhiên theo nhóm-cụm-chùm
5. Multistage Sampling Schemes/ Sơ đồ lấy mẫu nhiều giai đoạn

179

179

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
• Chọn mẫu phán đoán (phi xác suất)/judgmental sample
• Chọn mẫu thuận tiện
• Chọn mẫu định mức
• Chọn mẫu phát triển mầm

180

180

86
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Chọn mẫu phi xác suất > Chọn mẫu thuận tiện
Chọn mẫu thuận tiện nghĩa là dựa trên tính dễ tiếp cận với đối tượng nghiên
cứu.
Vídụ: muốn tìm hiểu sự đầu tư trực tiếp của các công ty nước ngoài (FDI) vào
Việt Nam ở khu công nghiệp T.
▪ Giả sử cỡ mẫu là 210 doanh nghiệp.
▪ Chia doanh nghiệp FDI thành 3 nhóm: Mỹ, Nhật và các nước còn lại. Vậy
mỗi nhóm là 70 doanh nghiệp.
▪ Bất kỳ doanh nghiệp FDI cho phép tiếp cận thì chọn cho đến khi chọn đủ 70
doanh nghiệp của mỗi nhóm.
181

181

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Chọn mẫu phi xác suất > Chọn mẫu định mức
Chọn mẫu định mức nghĩa là chi cỡ mẫu theo một tỷ lệ hoặc cách thức nào
đó rồi dùng chọn mẫu thuận tiện/phán đoán.
Vídụ: muốn tìm hiểu sự đầu tư trực tiếp của các công ty nước ngoài (FDI) vào
Việt Nam ở khu công nghiệp T.
▪ Giả sử cỡ mẫu là 210 doanh nghiệp.
▪ Chia doanh nghiệp FDI thành 3 nhóm: Mỹ, Nhật và các nước còn lại. Vậy
mỗi nhóm là 70 doanh nghiệp.
▪ Bất kỳ doanh nghiệp FDI cho phép tiếp cận thì chọn cho đến khi chọn đủ 70
doanh nghiệp của mỗi nhóm.
182

182

87
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Chọn mẫu phi xác suất > Chọn mẫu phát triển mầm – Snowball sampling
Chọn một hoặc một số đối tượng đầu tiên. Từ các đối tượng đầu tiên, tìm các đối tượng
tiếp theo dựa trên các mối liên hệ giữa chúng.
Thông qua đối tượng đầu tiên, hỏi họ giới thiệu các phần tử khác cho mẫu. sẽ làm trung
gian hỗ trợ tiếp cận mẫu nghiên cứu.
Vídụ: muốn tìm hiểu sự đầu tư trực tiếp của các công ty nước ngoài (FDI) vào Việt Nam ở
khu công nghiệp T.
▪ Giả sử cỡ mẫu là 210 doanh nghiệp.
▪ Chia doanh nghiệp FDI thành 3 nhóm: Mỹ, Nhật và các nước còn lại. Vậy mỗi nhóm là 70
doanh nghiệp.
▪ Bất kỳ doanh nghiệp FDI cho phép tiếp cận thì chọn cho đến khi chọn đủ 70 doanh
nghiệp của mỗi nhóm.

183

183

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Simple Random Sampling/


Chọn mẫu ngẫu nhiên đơn giản
• Chọn mẫu ngẫu nhiên đơn là phương pháp đơn giản nhất của mẫu
xác suất.
• Quy trình chọn mẫu ngẫu nhiên đơn bao gồm:
• lập danh sách toàn bộ các đơn vị mẫu/ đối tượng trong quần thể nghiên cứu
và đánh số thứ tự (khung mẫu)
• quyết định cỡ mẫu
• dùng phương pháp bốc thăm hoặc bảng số ngẫu nhiên để chọn.

184

184

88
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Simple Random Sampling/


Chọn mẫu ngẫu nhiên đơn giản
Ví dụ 1: Giải sử tổng sinh viên của đại học UFM hiện tại là 5000,
Tìm hiểu về việc hiểu chuẩn đầu ra của sinh viên UFM, trường tiến
hành khảo sát mẫu 500 sinh viên từ 5000 sinh viên UFM.
Các bước lấy mẫu:
Bước 1: Lập khung mẫu chứa 5000 sinh viên của UFM.
Bước 2: chọn mẫu ngẫu nhiên bằng các cách thức: tung đồng xu, tung
xúc xắc, bốc thăm, bảng số ngẫu nhiên hoặc sử dụng phần mềm máy
tính như vòng quay, hàm random để chọn.

185

185

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Simple Random Sampling/


Chọn mẫu ngẫu nhiên đơn giản
Ví dụ 2: Sử dụng tập tin Random Sampling.xlsx,
Khung mẫu có 40 gia đình với thu nhập hàng năm, tìm hiểu thu nhập của
tổng thể này bằng cách lấy mẫu ngẫu nhiên đơn giản với cỡ 10 .
Sử dụng hàm rand trong Excel để tạo số ngẫu nhiên.
Các bước lấy mẫu:
Bước 1: Lập khung mẫu chứa 40 gia đình.
Bước 2: dùng hàm rand() để tạo số ngẫu nhiên
Bước 3: sắp xếp các số ngẫu nhiên tăng dần/giảm dần
Bước 4: lấy 10 đơn vị mẫu nhỏ nhất/ lớn nhất.

186

186

89
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Simple Random Sampling/


Chọn mẫu ngẫu nhiên đơn giản
Công cụ Sampling trong Excel: Data → Data Analysis → Sampling
Các tham số:
Input Range: khung mẫu
Sampling Method
Periodic: vị trí của đơn vị mẫu đầu tiên
Random: cỡ mẫu
Output Options: vị trí xuất mẫu

187

187

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Simple Random Sampling/


Chọn mẫu ngẫu nhiên đơn giản
Ví dụ 3: Sử dụng tập tin Random Sampling.xlsx,
Khung mẫu có 40 gia đình với thu nhập hàng năm, tìm hiểu thu nhập của tổng thể này bằng
cách lấy mẫu ngẫu nhiên đơn giản với cỡ 10.
Sử dụng công cụ Sampling trong Excel để tạo số ngẫu nhiên.
Các bước lấy mẫu:
Bước 1: Lập khung mẫu chứa 40 gia đình.
Bước 2: Vào lệnh Data → Data Analysis → Sampling
Bước 3: Cung cấp thông tin cho các tham số:
• Input: Vùng khung mẫu
• Sampling Method: Random (chọn mẫu ngẫu nhiên đơn giản)
• Output Options: Output Range/New Worksheet Ply/New Workbook

188

188

90
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Systematic Sampling/
Chọn mẫu ngẫu nhiên hệ thống
Ý nghĩa: Theo phương pháp chọn mẫu ngẫu nhiên hệ thống, tất cả đối
tượng trong tổng thể (N) được liệt kê theo thứ tự định trước. Sau đó
tùy vào quy mô mẫu và tổng thể mà quyết định khoảng cách các mẫu.
Các bước lấy mẫu:
Bước 1: Tính khoảng lấy mẫu k = N/n.
Bước 2: Chọn vị trí mầm (giá trị đầu tiên) bằng cách lấy ngẫu nhiên r 
[1,k]
Bước 3: Chọn các giá trị thứ i tiếp theo = r + i*k

189

189

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Systematic Sampling/
Chọn mẫu ngẫu nhiên hệ thống
Ví dụ 1: Trong tiệc cuối năm gồm 150 nhân viên, cần chọn ra 5 nhân viên để trao
giải may mắn bằng cách chọn mẫu ngẫu nhiên hệ thống.
Các bước lấy mẫu:
Bước 1: Tính khoảng lấy mẫu k = 150/5=30. Cỡ mẫu (n) là 5.
Bước 2: Chọn vị trí mầm ngẫu nhiên r = 3, với r  [1,k]
Bước 3: Chọn các giá trị thứ i tiếp theo = r + i*k cho đến khi hoàn thành cỡ mẫu
• Vị trí nhân viên thứ 2 được chọn: 3 + 2*30 = 63
• Vị trí nhân viên thứ 3 được chọn: 3 + 3*30 = 93
• Vị trí nhân viên thứ 4 được chọn: 3 + 4*30 = 123
• Vị trí nhân viên thứ 5 được chọn: 3 + 5*30 = 153

190

190

91
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Systematic Sampling/
Chọn mẫu ngẫu nhiên hệ thống
Ví dụ 2: Thực hiện ví dụ 1 trên Excel

Bước 1: Tính khoảng lấy mẫu k = ROUNDDOWN(N/n,0).


Bước 2: Chọn vị trí mầm ngẫu nhiên r = RANDBETWEEN(1,k)
Bước 3: Gán nhãn cho các đơn vị mẫu bắt đầu từ r được gán là 1
Bước 4: Lọc nâng cao để trích mẫu cần chọn nghĩa là chọn các giá trị
được gán nhãn là 1.

191

191

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Systematic Sampling/
Chọn mẫu ngẫu nhiên hệ thống
Công cụ Sampling trong Excel: Data → Data Analysis → Sampling
Các tham số:
Input Range: khung mẫu
Sampling Method
Periodic: vị trí của đơn vị mẫu đầu tiên
Output Options: vị trí xuất mẫu

192

192

92
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Stratified Sampling/
Chọn mẫu ngẫu nhiên phân tầng
Chọn mẫu ngẫu nhiên phân tầng là kỹ thuật chọn mẫu được thực hiện
bởi việc chia tổng thể thành các nhóm đặc trưng riêng lẻ gọi là tầng.
Ví dụ: giới tính, độ tuổi, thu nhập, trình độ học vấn,….
Đặc điểm của chọn mẫu kiểu này là tiêu chí nghiên cứu trong từng tầng
tương đối đồng nhất, còn giữa các tầng có sự khác biệt.
Sau khi đã phân tầng xong ta vẫn có thể áp dụng cách chọn mẫu ngẫu
nhiên đơn giản hoặc ngẫu nhiên hệ thống để chọn đối tượng của từng
tầng vào nghiên cứu.

193

193

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Stratified Sampling/
Chọn mẫu ngẫu nhiên phân tầng
Các bước lấy mẫu:
Bước 1: Lập danh sách các đối tượng trong quần thể nghiên cứu.
Bước 2: Phân chia quần thể nghiên cứu thành các tầng khác nhau căn
cứ vào các đặc điểm như giới, nhóm tuổi, tình trạng hôn nhân…đảm
bảo giữa các tầng không có sự chồng chéo.
Bước 3: Quyết định số cá thể được lựa chọn ở mỗi tầng. Cỡ mẫu ở mỗi
tầng phải tỷ lệ thuận với kích cỡ của từng tầng trong quần thể.
Bước 4: Tiến hành phương pháp chọn mẫu ngẫu nhiên đơn trong từng
tầng.

194

194

93
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Stratified Sampling/
Chọn mẫu ngẫu nhiên phân tầng
Ví dụ 1: Cần nghiên cứu sự hài lòng của sinh viên về chất lượng giảngdạy của
đại học UFM. Trong phương pháp chọn mẫu phân tầng, giả sử nghiên cứu
cần mẫu là 500 sinh viên trong tổng thể gồm 12000 sinh viên.
Người nghiên cứu chia tổng thể sinh viên theo ngành thành 14 tầng tương
ứng Tài chính – Ngân hàng, Quản trị kinh doanh, Kế toán, Kinh doanh quốc
tế, Marketing, Bất động sản, Ngôn ngữ anh, Toán kinh tế, Luật kinh tế, Kinh
tế, Hệ thống thông tin quản lý, Quản trị dịch vụ du lịch và lữ hành, Quản trị
khách sạn, Quản trị nhà hàng và dịch vụ ăn uống.
Dựa trên số lượng sinh viên của từng khối ngành, người nghiên cứu chọn ra
500 sinh viên của trường để tiến hành khảo sát.
195

195

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Stratified Sampling/
Chọn mẫu ngẫu nhiên phân tầng
Ví dụ 2: Tập tinStratified Sampling.xlsx chứa một khung mẫu gồm tất cả
50.000 người ở thành phố Midtown có thẻ tín dụng của một nhà bán lẻ
cụ thể.
Nhà bán lẻ quan tâm đến việc ước tính số lượng thẻ tín dụng trung
bình mà những người này sở hữu, cũng như thông tin khác về việc sử
dụng tín dụng của họ.
Công ty quyết định phân tầng những khách hàng này theo độ tuổi,
chọn một mẫu phân tầng cỡ 200 với các cỡ mẫu tỷ lệ thuận, sau đó liên
hệ với 200 người này qua điện thoại.
Công ty có thể tiến hành như thế nào?
196

196

94
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Stratified Sampling/
Chọn mẫu ngẫu nhiên phân tầng
Ví dụ 2: Tiến hành nghiên cứu
Bước 1: khung mẫu
Bước 2: Chọn đặc trưng đề phân tầng và gán nhãn tầng cho các đơn vị
mẫu.
Sau một số điều tra sơ bộ, công ty quyết định sử dụng ba loại tuổi:
18−30, 31−62 và 63−80.
(Giả định rằng không có ai trong dân số dưới 18 tuổi hoặc trên 80 tuổi.)
Bước 3: Tính số lượng đơn vị mẫu trong mỗi tầng và tính cỡ mẫu tầng.
Bước 4: Chọn mẫu theo phương pháp ngẫu nhiên đơn giản/hệ thống.
197

197

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Cluster Sampling/
Chọn mẫu ngẫu nhiên theo nhóm-cụm-chùm
Là kỹ thuật chọn mẫu trong đó việc lựa chọn ngẫu nhiên các nhóm cá thể (ví
dụ trong cùng làng, xã, trường học, khoa phòng, bệnh viện,…) từ nhiều cụm
trong một quần thể nghiên cứu. Trong trường hợp này, đơn vị mẫu là các
cụm chứ không phải là các cá thể. Cách thực hiện:
Bước 1: Xác định các cụm thích hợp.
Bước 2: Lập danh sách tất cả các cụm, chọn ngẫu nhiên một số cụm vào mẫu.
Có hai cách chọn mẫu theo ý tưởng của người nghiên cứu:
Cách 1: Tất cả các cá thể trong các cụm đã chọn vào nghiên cứu.
Cách 2: Liệt kê danh sách các cá thể trong các cụm đã chọn, sau đó áp dụng cách chọn
mẫu ngẫu nhiên đơn hoặc ngẫu nhiên hệ thống trong mỗi cụm để chọn các cá thể vào
mẫu.

198

198

95
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Multistage Sampling Schemes/


Sơ đồ lấy mẫu nhiều giai đoạn
Chọn mẫu nhiều bậc là dạng lấy mẫu kết hợp nhiều phương pháp chọn
mẫu với nhau. Chọn mẫu nhiều bậc có tính ứng dụng cao, phù hợp
trong điều kiện các nghiên cứu với tổng thể phức tạp.
Ví dụ: để nghiên cứu 1.000 hộ nông dân trồng lúa trong tỉnh X, người
ta đã lựa chọn như sau:
Chọn 5 huyện trong tỉnh X
Trong mỗi huyện đã chọn, chọn 4 xã
Tại mỗi xã đã chọn, chọn 5 ấp
Với mỗi ấp, chọn 10 hộ nông dân
Sau đó, tiến hành nghiên cứu dựa trên số mẫu thu được.

199

199

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu


Cỡ mẫu là số đơn vị mẫu được lựa chọn vào nghiên cứu.
Tại sao xác định cỡ mẫu vì:
- Liên quan đến tính khả thi
- Ảnh hưởng đến ngân sách nghiên cứu

Xác định cỡ mẫu


• Xác định cỡ mẫu theo phương pháp ước lượng tổng thể
• Cỡ mẫu tùy thuộc vào phương pháp phân tích dữ liệu.

200

200

96
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu


Cỡ mẫu là số đơn vị mẫu được lựa chọn vào nghiên cứu.
Tại sao xác định cỡ mẫu vì:
- Liên quan đến tính khả thi
- Ảnh hưởng đến ngân sách nghiên cứu

201

201

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Xác định cỡ mẫu
Điều kiện để cỡ mẫu tốt:
• Dự đoán Thực tế Xảy ra –
TRUE
Không xảy ra –
FALSE
Dự đoán xảy ra – TRUE POSITIVE FALSE POSITIVE
Dự đoán

POSITIVE (sensitivity: độ nhạy) (Xảy ra giả)


Dự đoán không xảy ra - TRUE NEGATIVE FALSE NEGATIVE
NEGATIVE (Không xảy ra giả) (specificity: độ đặc hiệu)
• Ước lượng (hoặc làm nghiên cứu khoa học)
p: tỉ lệ Thực tế Có ảnh hưởng Không có ảnh hưởng
biến cố Có ý nghĩa thống kê TỐT Type I error ()
Kết quả phân
tích thống kê

xảy ra (p < ) (power: độ nhạy nghiên


suy luận

Ví dụ: là cứu)
tỉ lệ mắc Không có ý nghĩa thống kê Type II error () TỐT
bệnh (p > )

Cần phải ước tính cỡ mẫu (n) sao cho =0.05 hoặc 0.01 và =0.10 hoặc 0.2
202

202

97
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu


Xác định cỡ mẫu gồm 2 loại:
- Xác định cỡ mẫu theo phương pháp ước lượng tổng thể
- Xác định cỡ mẫu theo phương pháp phân tích

203

203

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu theo phương pháp ước lượng tổng thể
Xác định cỡ mẫu cần phải có 3 tham số:
- Mức độ ảnh hưởng (tỉ lệ, số trung bình)
- Độ biến thiên/độ dao động (độ lệch chuẩn cho số trung bình)
- Sai số chấp nhận (alpha, beta)

204

204

98
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu theo phương pháp ước lượng tổng thể
Theo Cochran, W.G (1953), nếu chọn mẫu theo phương pháp ngẫu nhiên
đơn giản khi xác định cỡ mẫu thì chia theo 2 loại:
1) Xác định cỡ mẫu cho ước lượng trung bình tổng thể (ước lượng theo
một đặc trưng nào đó)
Nghĩa là khi nghiên cứu với mục tiêu đo lường là tìm kiếm các giá trị định lượng
của biến số đại diện cho các đặc tính quan trọng của tổng thể.
2) Xác định cỡ mẫu cho ước lượng tỉ lệ tổng thể
Nghĩa là khi mục đích nghiên cứu muốn biết được tỉ lệ một đặc trưng nào đó trong
tổng thể.

205

205

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Ước lượng trung bình tổng thể


• Quần thể/Tổng thể (population) • Mẫu n đối tượng
• Gọi  (Mu) là trung bình của quần thể. • Gọi m là trung bình các quan sát.
Số  là không biết.
• 𝜎 : độ lệch chuẩn của  trong tổng thể. • s: độ lệch chuẩn của m trong mẫu.

Ước lượng trung bình tổng thể là dùng m để ước lượng ra .

206

206

99
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu theo phương pháp ước lượng trung bình tổng thể

2
Ζ𝑠
𝑛=
𝑒
Trong đó:
n: số lượng cỡ mẫu tối thiểu
Z: khoảng tin cậy 95%, tại giá trị 1.96
e: sai số chuẩn (±5%)

207

207

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu theo phương pháp ước lượng trung bình tổng thể
2
Ζ𝑠
𝑛=
𝑒
Ví dụ: Muốn ước lượng số ngày nghỉ bệnh trung bình trong năm của công nhân
nhà máy, giám đốc nhân sự của nhà máy qua tìm hiểu ở các nhà máy tương tự
thấy tổng số ngày nghỉ bệnh có phân phối bình thường với độ lệch chuẩn là 3
ngày. Mẫu cần được chọn là bao nhiêu công nhân, nếu khoảng tin cậy là 95%
và sai số e là  0.5 ngày.
Giải:
Z = 95% = 1.96 Tính cỡ mẫu:
Ζ𝑠 2 1.96∗3 2
s=3 𝑛= = = 138.29
𝑒 0.5
e = 0.5
Vậy, cỡ mẫu nghiên cứu cần là 139 công nhân.
208

208

100
17/07/2023

Xác định cỡ mẫu cho nghiên cứu so sánh


hai số trung bình.

209

209

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Ước lượng tỉ lệ tổng thể


• Quần thể/Tổng thể (population) • Mẫu n đối tượng
• Gọi  (pai) tỉ lệ mắc bệnh trong • Gọi p tỉ lệ quan sát xảy ra.
quần thể. Số  là không biết.

Ước lượng tỉ lệ tổng thể là dùng p để ước lượng ra . Cách này dựa
theo lý thuyết p là ước số khách quan nhất của .

210

210

101
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu cho ước lượng tỉ lệ tổng thể


Không biết số lượng quần thể/số lượng quần thể chưa được cập nhật.
Sử dụng công thức của Yamane Taro (1967)
2
Ζ
𝑛= 𝑝(1 − 𝑝)
𝑒
Trong đó:
n = số lượng cỡ mẫu tối thiểu e=
𝑝(1−𝑝)
𝑛
Z = khoảng tin cậy 95%, tại giá trị 1.96 Trong trường hợp này n là không biết
e = sai số chuẩn (±5%) nên được sử dụng lại từ nghiên cứu
p: tỉ lệ quan sát xảy ra trước hoặc nghiên cứu tương tự.

211

211

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu cho ước lượng tỉ lệ tổng thể


Không biết số lượng quần thể/số lượng quần thể chưa được cập nhật.
Ví dụ: Xác định tỉ lệ mắc bệnh tiểu đường ở Việt Nam. Biết rằng, trong
nghiên cứu y khoa trước đó, tỉ lệ bệnh tiểu đường trong cộng đồng người
trung niên là 10% (p=0.1), độ tin cậy là 95% và sai số e là 1%.
Giải:
Z = 1.96
Ζ 2 1.96 2
𝑛= 𝑝 1−𝑝 =𝑛 = 0.1(1 − 0.1) = 34,574.4
p = 0.1 𝑒 0.01

e = 0.04
Vậy cỡ mẫu cần là 34,575 bệnh nhân.
212

212

102
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu


Xác định cỡ mẫu theo phương pháp ước lượng tổng thể :
Xác định cỡ mẫu cho ước lượng tỉ lệ tổng thể
• Đã biết (chính xác / khoảng) số lượng quần thể
Sử dụng công thức của Yamane (1967)
𝑁
𝑛=
1 + 𝑁𝑒2
Trong đó:
n = số lượng cỡ mẫu
N = số lượng tổng quần thể
e = giới hạn mẫu bị lỗi (±3%; ±5%; ±7%; ±10%)
khoảng tin cậy 95% và kết quả có ý nghĩa thống kê p= 0.5 được giả định

213

213

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu


Xác định cỡ mẫu theo phương pháp ước lượng tổng thể :
• Đã biết (chính xác / khoảng) số lượng quần thể
𝑁
𝑛=
1 + 𝑁𝑒2
Ví dụ: Nghiên cứu sinh viên UFM tìm được việc làm đúng với chuyên ngành đã được
đào tạo. Giả sử số lượng sinh viên tốt nghiệp là 1000. Xác định cỡ mẫu nghiên cứu với
sai số e là 5%?
Giải:
Quy mô của tổng thể (N) được tính từ danh sách tốt nghiệp của trường.
1000
𝑛= = 285.71
1+1000(0.05)2
Vậy cỡ mẫu tối thiểu cần là 286 sinh viên.
214

214

103
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu


Xác định cỡ mẫu theo phương pháp
ước lượng tổng thể :
Đã biết (chính xác / khoảng) số
lượng quần thể
• Sử dụng bảng kích cỡ mẫu của
Krejcie and Morgan (1970)

215

215

Xác định cỡ mẫu cho nghiên cứu so sánh


hai tỉ lệ.

216

216

104
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu


Xác định cỡ mẫu theo phương pháp phân tích:
• Phân tích EFA
• Phân tích regression

217

217

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu


Xác định cỡ mẫu theo phương pháp phân tích:

Phân tích EFA Phân tích regression


Theo Hair et al. (2006) chỉ ra Theo Tabachnick & Fidell (2007)
• mẫu tối thiểu =50, n  50 + kP
số quan sát Trong đó:
• k= ví dụ (5:1)* hoặc 10:1
biến đo lường • n = số lượng cỡ mẫu
• Pj: số biến quan sát của thang đo thứ j
• m = số biến độc lập
• m: thang đo
• P: số biến độc lập của mô hình
n = kσ𝑚𝑗=1 𝑃𝑗 • k: 5 quan sát/1 biến hoặc 10/1
Trong đó:
n = số lượng cỡ mẫu,
m = số lượng câu hỏi đo lường
*: 1 biến đo lường cần tối thiểu 5 quan sát. Số quan sát hiểu một cách đơn giản là số phiếu khảo sát hợp lệ cần thiết;
Biến đo lường đơn giản là một câu hỏi đo lường trong bảng khảo sát. 218

218

105
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu


Phân tích EFA
Ví dụ: Phân tích mô hình có 9 thang đo, mỗi thang đo có 5 biến quan sát,
nếu chọn k = 5/1.
n = kσ𝑚 9
𝑗=1 𝑃𝑗 = 5 σ𝑗=1 5 = 225
n = 225 quan sát là cỡ mẫu tối thiểu. Tùy vào ngân sách thực hiện khảo sát
có thể lựa chọn trên mức tối thiểu.

nếu chọn k = 10/1.


n = kσ𝑚 9
𝑗=1 𝑃𝑗 = 10 σ𝑗=1 5 = 450
Cỡ mẫu là 450.
219

219

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)

Xác định cỡ mẫu


Phân tích regression
Ví dụ: Phân tích một mô hình gồm có 6 biến độc lập và 1 biến phụ
thuộc.
Với k = 5 quan sát cho 1 biến phụ thuộc;
n >= 50 + 5*6 = 80
Cỡ mẫu tối thiểu là 80 quan sát.

Với k = 10, n >= 50 + 10*6 = 110


Cỡ mẫu tối thiểu là 110 quan sát
220

220

106
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Thống kê suy luận có 2 kỹ thuật chính:
▪ Ước lượng:
▪ Các kỹ thuật để ước lượng: ước lượng điểm và ước lượng khoảng cách.
▪ Kiểm định giả thuyết
▪ Là một giả thuyết hoặc một tuyên bố liên quan đến một tham số quần thể. Sau đó, sử
dụng dữ liệu mẫu để bác bỏ hoặc chấp nhận sự chuẩn xác của giả thuyết đề xuất.
▪ Các kỹ thuật: kiểm định giả thuyết tham số, kiểm định giả thuyết phi tham số.

221

221

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Ước lượng:
Mục đích của bất kỳ mẫu ngẫu nhiên nào, đơn giản hay cách khác, là
ước tính các thuộc tính của tổng thể từ dữ liệu quan sát được trong
mẫu.
Ví dụ: Giả sử một cơ quan chính phủ muốn biết mức độ sống của người
dân thông qua thu nhập của hộ gia đình ở Việt Nam.
Không thể khảo sát hết tất cả dân số nên cơ quan sẽ khảo sát một số
hộ gia đình bằng cách lấy mẫu đại diện từ đó tính trung bình thu nhập
của mẫu và từ kết quả của mẫu để ước lượng mức thu nhập của toàn
dân số.
222

222

107
17/07/2023

2. Phân tích và khai thác dữ liệu >


Phân tích thống kê suy luận (Inference)
Kiểm định giả thuyết
Tình huống: nghiên cứu về sự khác biệt quy mô vốn đầu tư giữa doanh
nghiệp 100% vốn đầu tư nước ngoài (DNNN) và doanh nghiệp khác (DNK)
trong các khu công nghiệp. Kết quả điều tra 180 doanh nghiệp cho thấy:
DNNN có giá trị trung bình vốn đầu tư là 800 triệu USD và DNK là 200 triệu
USD.
• Kết luận Quy mô vốn đầu tư của DNN > DNK.
Nếu kết luận như trên là không chính xác và thiếu tin cậy vì kết quả chỉ mới là
của mẫu chứ không phải tổng thể.
Vậy, để kết luận cho tổng thể thì cần phải kiểm định giả thuyết từ đó khẳng
định bản chất/đặc trưng của tổng thể từ các kết quả của dữ liệu trong mẫu.

223

223

Kiểm định giả thuyết


Một số khái niệm
Khung lý thuyết và giả thuyết
• Khung lý thuyết sự tóm tắt các hiện tượng thành các biến số nhất
định có liên quan với nhau trong một mô hình và giải thích tại sao các
biến số này có liên quan đến một lý thuyết.
• Quá trình xây dựng khung lý thuyết bao gồm:
• Bước 1: Giới thiệu định nghĩa về các khái niệm hoặc biến trong sự khẳng định
vấn đề.
• Bước 2: Phát triển một mô hình khái niệm riêng cho việc nghiên cứu.
• Bước 3: Giải thích mối quan hệ giữa các biến và lý thuyết trong mô hình ở
bước 2.

224

224

108
17/07/2023

Giả thuyết
Giả thuyết có thể được định nghĩa là các mối quan hệ được suy đoán
một cách logic giữa hai hoặc nhiều biến thể hiện dưới dạng một câu và
phát biểu này có thể kiểm tra được.
Ví dụ: Sự đa dạng về lực lượng lao động có ảnh hưởng tích cực đến
hiệu quả của tổ chức.

Một giả thuyết phải thỏa 2 tiêu chí:


➢Có thể được kiểm chứng
➢Có thể được chứng minh là sai

225

225

Giả thuyết
Các dạng phát biểu giả thuyết:
➢Nếu thì
➢Giả thuyết có hướng và không có hướng
➢Giả thuyết không và giả thuyết thay thế

226

226

109
17/07/2023

Giả thuyết
Các dạng phát biểu giả thuyết:
➢Nếu thì
Tình huống: Phụ nữ trẻ sẽ dễ bày tỏ sự không hài lòng với trọng lượng
cơ thể của mình hơn khi họ thường xuyên bị lộ hình ảnh của những
người mẫu gầy trong các quảng cáo.
Giải thuyết:
Nếu phụ nữ trẻ thường xuyên tiếp xúc với hình ảnh của những người
mẫu gầy trong các quảng cáo, thì họ sẽ dễ bày tỏ sự không hài lòng với
trọng lượng cơ thể của mình.

227

227

Giả thuyết >


Giả thuyết có hướng và không có hướng
Giả thuyết có hướng:
là mối quan hệ giữa hai biến số hoặc so sánh hai nhóm, các
thuật ngữ như tích cực, tiêu cực hoặc nhiều hơn, nhỏ hơn và tương tự
được sử dụng.

Ví dụ 1: Căng thẳng trải qua trong công việc càng lớn thì mức độ hài
lòng trong công việc của nhân viên càng thấp.
Ví dụ 2: Phụ nữ có nhiều động lực hơn nam giới.

228

228

110
17/07/2023

Giả thuyết >


Giả thuyết có hướng và không có hướng
Giả thuyết không có hướng:
Giả thuyết không định hướng là những giả thuyết đưa ra một mối
quan hệ hoặc sự khác biệt, nhưng không đưa ra dấu hiệu về hướng (tích cực,
tiêu cực) của những mối quan hệ hoặc sự khác biệt này.

Ví dụ 1: Có mối quan hệ giữa xu hướng tìm kiếm kích thích và sở thích của
người tiêu dùng đối với các thiết kế sản phẩm phức tạp.

Ví dụ 2: Có sự khác biệt giữa các giá trị đạo đức làm việc của nhân viên Mỹ
và châu Á.
229

229

Giả thuyết >


Giả thuyết không và giả thuyết thay thế
Giả thuyết không (Null Hypothesis)
Giả thuyết không (được ký hiệu là H0) là giả định rằng bất kì sự khác biệt hay
ý nghĩa nào bạn quan sát được trong một tập hợp dữ liệu là do sự ngẫu
nhiên; giả thuyết này có thể đúng hoặc không đúng.

Đối lập với giả thuyết không là giả thuyết thay thế/ đối thuyết (được ký hiệu
là H1); giả thuyết này có thể đúng hoặc không đúng.

Trong nghiên cứu kinh doanh-kinh tế, 2 dạng giả thuyết thường được sử
dụng là:
i. Giả thuyết và đối thuyết tham số
ii. Giải thuyết và đối thuyết phi tham số
230

230

111
17/07/2023

Giả thuyết >


Giả thuyết vô hiệu và giả thuyết thay thế
Giả thuyết thay thế

231

231

3. Sử dụng tri thức hỗ trợ ra quyết định


ToolPak
• File > Properties >
Add-Ins > Manage :
Excel Add-ins> Go

232

232

112
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định


ToolPak
• Chọn Analysis
ToolPak >
Descriptive Statistic

233

233

3. Sử dụng tri thức hỗ trợ ra quyết định >


ToolPak
• Điền các thông tin
Input Range Vùng dữ liệu
Grouped By Cách tổ chức biến
Labels in first row Nếu có tiêu đề dòng thì nhấn chọn
Output Range Vùng xuất kết quả
New Worksheet Ply Worksheet mới
New Workbook Workbook mới
Summary statistics Thống kê mô tả
Confidence Level for Mean Khoảng tin cậy cho giá trị trung bình
Kth Largest Giá trị lớn thứ K trong vùng dữ liệu

Kth Smallest Giá trị nhỏ nhất thứ K trong vùng dữ liệu

234

234

113
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE
• Bảng Pivot cho phép chia nhỏ
dữ liệu theo từng danh mục
như doanh số bán hàng trung
bình theo giới tính, theo khu
vực của quốc gia, theo thời
gian trong ngày.
• Các bảng đếm này được gọi
bảng tổng hợp vì có thể liệt kê
số lượng, tổng, trung bình và
các biện pháp tóm tắt khác.

235

235

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE
• Filters
• Biến nào được vào Filter thì sẽ được dùng để lọc dữ liệu.
• Rows
• Các giá trị của biến được đặt trên dòng dùng để tính toán.
• Columns
• Các giá trị của biến được đặt từng cột dùng để tính toán.
• Values
• Biến được dùng để thực hiện các tính toán sum, count, …

236

236

114
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE
Chèn Pivot Table:
Bước 1: Chọn tập dữ liệu
Bước 2: Insert > Tables > PivotTable > From Table/Range

237

237

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE
Sử dụng tập dữ liệu Electmart_Sales.xlsx
1) Tính tổng chi phí theo thời gian (Time),
2) Tổng chi phí theo vùng (Region)
3) Tính tổng chi phí theo từng vùng (Region) của từng thời gian (Time)

238

238

115
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE
• Tính tổng chi phí theo thời gian (Time),

• Tính tổng chi phí theo từng vùng (Region) của từng thời gian (Time)

239

239

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE
• Hiệu chỉnh Field Settings: Vào khu vực  Values > Value Field Settings

240

240

116
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE
Tùy chỉnh Pivot Table (Pivot Table Options)
• Chọn vào vùng của PivotTable
• Mở Options
• Cách 1: Chuột phải > PivotTable Options
• Cách 2: Vào menu PivotTable Analyze
• Thay đổi theo yêu cầu:
• Đặt tên cho PivotTable

241

241

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE
Bài tập: Hiển thị bố cục của bảng tổng hợp của các biến Time, Region,
Card Type, Gender, Total Cost như hình sau. Cho biết layout nào đã
được sử dụng?
Gợi ý:
Design > Layout > Report Layout

242

242

117
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE > DRILL DOW – DRILL UP
• Đi sâu vào một
lượng lớn dữ liệu
trong hệ thống
phân cấp
• PivotTable gọi là
Drilling (gồm có
drill down và drill
up) với nhiều thao
tác mở rộng, thu
gọn và lọc.

243

243

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE > DRILL DOW – DRILL UP
Khám phá dữ liệu theo phân cấp thời gian Year,
Month trong tập dữ liệu Groceriespt.
Bước 1: Chọn vùng dữ liệu
Bước 2: Power Pivot > Add to Data Model >
Diagram View
Bước 3: Chọn Year và Month > Chuột phải vào tên
bảng > Create Hierarchy
Bước 4: Đổi tên Hierarchy thành Times
Bước 5: Home > Pivot Table

244

244

118
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE > DRILL DOW – DRILL UP
Bước 6: Tạo bảng tổng hợp như hình

Bước 7: Thực hiện Drill down


- Chọn cột Year > Drill Down
Bước 8: Thực hiện Drill up
- Chọn cột Year > Drill up

245

245

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE > DRILL DOW – DRILL UP
Bài tập
• Drilling cho Year và Month trong Groceriespt.xlxs
• Drilling cho Group và Product trong Groceriespt.xlxs

246

246

119
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE > GROUP – UNGROUP
• Group Field và Group Selection
dùng để thống kê theo nhóm
• Ungroup để xóa việc thống kê
theo nhóm

Hộp thoại Grouping


1.Starting at: Giá trị bắt đầu
2.Ending at: Giá trị kết thúc
3.By,
1. Là khoảng thời gian.
2. Khoảng cách số giữa các nhóm
đối với biến định lượng

247

247

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE > GROUP – UNGROUP
Bài tập:
1) Sử dụng tập tin Electmart_Sales để thống kê tổng
chi phí của từng vùng theo từng quí.
2) Thống kê trung bình chi phí theo nhóm High Items
với khoảng cách nhóm là 100.

248

248

120
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE > SLICER
• Slicer cho phép xem dữ liệu thay đổicủa bảng tổng
hợp theo từng biến/cột được slice.
• Chèn Slicer:
• Cách 1PivotTable Analyze > Filter > Insert Slicer > Chọn
biến… (Hình 1)
• Cách 2: Insert > Filter >
Insert Slicer

Bài tập: Tạo lát cắt theo quí cho bảng pivot table

249

249

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE > TIMELINE
• Tạo Pivot Table phải có cột được định dạng Date
• Lệnh PivotTable Analyze > Insert Timeline > Ngày

• Kết quả

250

250

121
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE > TIMELINE
• Bài tập: Tạo lát cắt theo quí cho bảng pivot table của dữ liệu 313

251

251

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT CHART
Các bước tạo Pivot Chart
• Đặt con trỏ chuột vào vùng Pivot Table
• PivotTable Analyze > Tools > Pivot Chart

252

252

122
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT CHART
Dilling trên Pivot Chart
• Chọn + để Drill down hoặc
• Chọn - để Drill up

253

253

3. Sử dụng tri thức hỗ trợ ra quyết định >


PIVOT TABLE
• Bài tập: Sử dụng 314, tạo
bảng dashboard cho tập dữ
liệu doanh số.

254

254

123
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


DATA MODEL
• Quản lý các nguồn dữ liệu
• Cung cấp dữ liệu cho Pivot Table và Pivot Chart

255

255

3. Sử dụng tri thức hỗ trợ ra quyết định >


DATA MODEL
Thêm dữ liệu vào mô hình dữ liệu
• Chọn vùng dữ liệu
• Vào lệnh Power Pivot > Tables > Add to Data Model

• Tạo mối quan hệ giữa các bảng nếu có nhiều hơn 1 bảng.
• Cách 1: Home > View > Diagram View > Kéo thả bảng 1 sang bảng nhiều.
• Cách 2: Data > Data Tools > Relationship
256

256

124
17/07/2023

3. Sử dụng tri thức hỗ trợ ra quyết định >


POWER PIVOT
• Bài tập: Cho 2 tập dữ liệu gồm bang (State) và doanh số (Sales). Lập
bảng tổng hợp doanh số theo từng bang. Và vẽ biểu đồ tương ứng.

257

257

3. Sử dụng tri thức hỗ trợ ra quyết định >


POWER PIVOT > Measure và KPI

258

258

125
17/07/2023

Cảm ơn!
259

259

126

You might also like