Professional Documents
Culture Documents
03 DSS 2023
03 DSS 2023
Chương 3:
Phương pháp xây dựng
hệ hỗ trợ ra quyết định
Học phần: Hệ hỗ trợ ra quyết định
Mã học phần: 120039
1
17/07/2023
2
17/07/2023
3
17/07/2023
Khẳng định
Nhận định vấn Nghiên cứu sơ vấn đề nghiên
đề rộng lớn bộ cứu
10
10
11
11
4
17/07/2023
12
13
5
17/07/2023
14
14
15
6
17/07/2023
16
16
17
17
7
17/07/2023
18
19
8
17/07/2023
21
21
9
17/07/2023
Nghiên cứu thăm dò thường dựa trên các phương pháp tiếp cận định tính để thu thập dữ
liệu, chẳng hạn như các cuộc thảo luận không chính thức (vớingười tiêu dùng, nhân viên,
nhà quản lý), phỏng vấn, nhóm tập trung và / hoặc nghiên cứu điển hình.
Kết quả của các nghiên cứu thăm dò thường không thể khái quát hóa được cho tổng thể.
22
22
23
10
17/07/2023
24
25
25
11
17/07/2023
Hồ sơ sẽ bao gồm thông tin chi tiết về độ tuổi trung bình, thu nhập,
tính chất nghề nghiệp, tình trạng việc làm toàn thời gian / bán thời gian
và những thứ tương tự. Điều này có thể giúp anh ta thu thập thêm
thông tin hoặc quyết định ngay lập tức về những loại cá nhân sẽ không
đủ điều kiện cho các khoản vay trong tương lai.
26
26
27
27
12
17/07/2023
28
28
Sự chậm trễ thường xuyên và Mục đích nghiên cứu là 2 vấn đề: (1) Các yếu tố ảnh hưởng đến cảm
kéo dài có thể dẫn đến nhiều (1) để tìm hiểu các yếu tố ảnh nhận về thời gian chờ đợi của hành
thất vọng giữa các hành khách hưởng đến khách hàng trong thời khách đi máy bay là gì và các yếu tố
của hãng hàng không, chuyển gian chờ, này ảnh hưởng đến cảm nhận về
đổi hành vi, và chuyển sang thời gian chờ đợi ở mức độ nào?
giao tiếp bằng lời nói tiêu cực. (2) để điều tra các tác động có thể (2) Hậu quả của việc chờ đợi là gì
Những cảm giác và hành vi này xảy ra của việc chờ đợi đối với sự và ảnh hưởng như thế nào đến mối
cuối cùng có những tác động hài lòng của khách hàng và đánh quan hệ giữa chờ đợi và đánh giá
tiêu cực đến hiệu quả hoạt động giá dịch vụ. dịch vụ?
và lợi nhuận của công ty. (3) Các biến số tình huống (chẳng
hạn như thời gian lấp đầy) làm tăng
phản ứng của khách hàng đối với
trải nghiệm chờ đợi như thế nào?
29
29
13
17/07/2023
Bài tập
Cửa hàng bánh mì là một phần của chuỗi dịch vụ thực phẩm lớn cung cấp
các bữa ăn cho hệ thống trường học trong quận và các khách hàng khác.
Tiệm bánh có trách nhiệm giao sản phẩm đến hơn 50 điểm giao hàng. Người
quản lý cửa hàng bánh mì này lo ngại về việc giao hàng đúng giờ. Lý do chính
của mối quan tâm này không chỉ là tiền phạt mà anh ta phải trả cho việc giao
hàng trễ, mà còn là duy trì sự hài lòng của khách hàng. Có lợi nhuận trong
việc giảm thiểu quãng đường di chuyển hoặc tối đa hóa tải trọng xe tải,
nhưng đạt được sự kịp thời với chi phí thấp không chỉ là tối đa hóa lợi nhuận
của cửa hàng bánh mì, vì nó còn khiến khách hàng hài lòng.
• Yêu cầu: nghiên cứu tình huống và viết ra sự khẳng định vấn đề nghiên cứu.
30
30
31
31
14
17/07/2023
Tiệm bánh phải giao sản phẩm Mục đích nghiên cứu là 2 vấn (1) giảm thiểu quãng đường di
đến hơn 50 điểm giao hàng đề: (1) để giao hàng đúng giờ chuyển hoặc tối đa tải trọng của
đúng giờ. Lý do chính của mối với chi phí thấp, (2) xe tải có làm tăng lợi nhuận?
quan tâm này không chỉ là để điều tra các yếu tố duy trì sự (2) Tối đa lợi nhuận có làm tăng
tiền phạt mà anh ta phải trả hài lòng của khách hàng. sự hài lòng của khách hàng?
cho việc giao hàng trễ, mà (3) Các biến số tình huống
còn là duy trì sự hài lòng của (chẳng hạn như quà khuyến mãi
khách hàng. khi nhận hàng trễ hoặc giảm giá
đợt sau) có làm giảm phản ứng
của khách hàng đối với trải
nghiệm chờ đợi khi giao hàng
trễ như thế nào?
32
32
33
33
15
17/07/2023
34
34
Phỏng vấn
35
35
16
17/07/2023
36
36
37
17
17/07/2023
38
38
39
18
17/07/2023
40
40
41
41
19
17/07/2023
42
42
43
43
20
17/07/2023
44
44
45
45
21
17/07/2023
46
46
Thời gian: t1 t2 t3
47
47
22
17/07/2023
48
48
49
23
17/07/2023
50
50
51
51
24
17/07/2023
52
52
53
53
25
17/07/2023
54
54
55
55
26
17/07/2023
56
57
27
17/07/2023
58
58
59
28
17/07/2023
60
60
29
17/07/2023
62
63
63
30
17/07/2023
Bài tập 2
Nhà trường muốn đánh giá việc cung cấp các dịch vụ tiện ích cho sinh
viên có tăng sự phát triển trong học tập của sinh viên và sinh viên có
hài lòng với các tiện ích đang được cung cấp.
• Hãy nêu khẳng định vấn đề nghiên cứu.
• Xác định nguồn khảo sát?
• Thiết kế bảng câu hỏi để khảo sát
• Xây dựng bảng câu hỏi qua Form.
64
64
Bài tập 1
Nhà trường muốn đánh giá năng lực của giảng viên qua chất lượng dạy
học của giảng viên bằng việc khảo sát dùng bảng câu hỏi với các sinh
viên trong trường.
• Hãy nêu khẳng định vấn đề nghiên cứu.
• Xác định nguồn khảo sát?
• Thiết kế bảng câu hỏi để khảo sát
• Xây dựng bảng câu hỏi qua Form.
65
65
31
17/07/2023
66
67
67
32
17/07/2023
(1,35,Male,
Minnesota,1
,$65400,5)
68
68
69
69
33
17/07/2023
70
70
71
71
34
17/07/2023
72
72
Bài tập
• Hãy xác định các kiểu dữ liệu trong bảng dữ liệu sau đây?
73
73
35
17/07/2023
74
74
75
36
17/07/2023
76
76
77
77
37
17/07/2023
78
78
79
79
38
17/07/2023
80
81
81
39
17/07/2023
83
83
Bài tập
A={2,4,5,6,7,8,9}
B= {5, 2, 3 ,7, 10 , 5}
Xác định các phép đo của phân tích mô tả cho tập dữ liệu trên.
• Phép đo xu hướng tập trung (measures of central tendency);
• Mean = ?, Median = ?, Mode = ?
84
84
40
17/07/2023
85
85
86
86
41
17/07/2023
87
87
88
88
42
17/07/2023
89
90
43
17/07/2023
91
91
92
44
17/07/2023
93
93
Max
A={2,4,5,6,7,8,9} Phân vị
1
B= {5, 2, 3 ,7, 10 , 5} 5
Xác định các phép đo của 10
94
45
17/07/2023
95
95
2. Phân tích và khai thác dữ liệu > Mô tả > Khuynh hướng phân tán
Khoảng biến thiên (Range )
Ví dụ: {38, 37, 36, 28, 18, 14, 12, 11, 10,7, 9,9}
Max = 38
Min = 7
Range = 38 – 7 = 31
96
96
46
17/07/2023
2. Phân tích và khai thác dữ liệu > Mô tả > Khuynh hướng phân tán
Độ trải giữa (Interquartile range -IQR)
• Interquartile range (được viết tắt là IQR) là độ trải giữa.
IQR = Q3 – Q1
Trong đó:
• Q1 là khoảng phân vị 25,
• Q3 là khoảng phân vị 75
• Ví dụ: {62,63,64,64,70,72,76,77, 81, 81}
n = 10
Q1 = 63.75
Q3 = 78
IQR = 14.25
97
97
2. Phân tích và khai thác dữ liệu > Mô tả > Phép đo độ biến thiên
Phương sai (Variance)
• Phương sai đo lường sự chênh lệch từ giá trị đang xét đến điểm trung
vị hoặc trung bình.
• Một phương sai lớn cho biết các số trong tập dữ liệu nằm cách xa giá
trị trung bình và biến động lớn, trong khi phương sai nhỏ chỉ ra điều
ngược lại.
• Giá trị phương sai bằng 0 nghĩa là tất cả các giá trị trong một tập dữ
liệu là giống hệt nhau. Hay không có sai số.
• Tất cả các phương sai không bằng 0 sẽ là số dương.
98
98
47
17/07/2023
2. Phân tích và khai thác dữ liệu > Mô tả > Phép đo độ biến thiên
Phương sai (Variance)
• Ví dụ: {17, 15, 23, 7, 9, 13}
Bước 1: Tính 𝟏𝟕+𝟏𝟓+𝟐𝟑+𝟕+𝟗+𝟏𝟑
mean ഥ
Mean: 𝑿 = = 14
𝟔
Bước 2: Tính
khoảng cách Xi 17 15 23 7 9 13
Trong Excel, sử dụng
Xi - 𝑋ത 3 1 9 -7 -5 -1
hàm:
ത2
(Xi - 𝑋) 9 1 81 49 25 1
VAR.S() tính phương
sai của mẫu.
Bước 3: Tính 9+1+81+49+25+1 VAR.P() tính phương
phương sai s2 = = 33.2 sai của tổng thể.
6−1
99
99
2. Phân tích và khai thác dữ liệu > Mô tả > Phép đo độ biến thiên
Độ lệch chuẩn (Standard deviation, SD)
• Độ lệch chuẩn là căn bậc 2 của phương sai, là đại lượng mô tả sự chênh
lệch của một giá trị so với giá trị trung bình.
s = 𝑠2
Độ lệch chuẩn cao là các giá trị đang biến thiên Trong Excel, sử dụng
rất lớn nghĩa là cách xa giá trị trung bình. hàm:
Ví dụ: STDEV.S() tính độ lệch
chuẩn của mẫu.
9+1+81+49+25+1
s2 = = 33.2 (ví dụ của bài phương sai) STDEV.P() tính độ lệch
6−1
chuẩn của tổng thể.
s = 𝑠2 = 33.2 = 5.76
100
100
48
17/07/2023
2. Phân tích và khai thác dữ liệu > Mô tả > Khuynh hướng phân
tán
Độ lệch tuyệt đối trung bình (Mean absolute deviation)
• Độ lệch tuyệt đối trung bình (MAD) của tập dữ liệu là khoảng
cách trung bình giữa mỗi giá trị dữ liệu và giá trị trung bình.
σ𝑛 ത
𝑖=1 𝑋𝑖 −𝑋
MAD = 𝑛
101
101
2. Phân tích và khai thác dữ liệu > Mô tả > Khuynh hướng phân
tán
Độ lệch tuyệt đối trung bình (Mean absolute deviation)
Mean
Ví dụ: Cho D1 = {2, 2, 4, 4} và D2 = {1, 1, 6, 4}
2+2+4+4
𝑋𝐷1 = =3
4
2 −3 + 2 −3 + 4 −3 + 4 −3 0 2 3 4
MADD1= =1
4
Mean
1+1+6+4
𝑋𝐷2 = =3
4
1 −3 + 1 −3 + 6 −3 + 4 −3
MADD2= =2 1 4 6
4 0 3
102
102
49
17/07/2023
2. Phân tích và khai thác dữ liệu > Mô tả > Khuynh hướng phân
tán
Độ lệch tuyệt đối trung bình (Mean absolute deviation)
• Độ lệch tuyệt đối trung bình (MAD) của tập dữ liệu là khoảng
cách trung bình giữa mỗi giá trị dữ liệu và giá trị trung bình.
σ𝑛 ത
𝑖=1 𝑋𝑖 −𝑋
MAD = 𝑛
Trong Excel, sử dụng
hàm:
AVEDEV() tính độ lệch
tuyệt đối trung bình
của mẫu.
103
103
Bài tập
Độ phân tán A B
A={2,4,5,6,7,8,9} Range
B= {5, 2, 3 ,7, 10 , 5} IQR
s2
Xác định các phép đo của s
phân tích mô tả cho tập dữ MAD
liệu trên.
• Độ phân tán dữ liệu
• Range, IQR, s2, s, MAD
104
104
50
17/07/2023
105
105
2. Phân tích và khai thác dữ liệu > Mô tả> Mô tả trên biến định lượng >
Phân phối chuẩn
• Phân phối chuẩn còn được gọi là phân phối Gaussian trong tiếng Anh
là Normal Distribution.
• Phân phối chuẩn thông thường có hai tham số: giá trị trung bình và
độ lệch chuẩn.
• Đối với phân phối chuẩn,
• 68% các quan sát nằm trong
khoảng độ lệch chuẩn của giá trị trung bình,
• 95% nằm trong hai lần độ lệch chuẩn và
• 99,7% nằm trong ba lần độ lệch chuẩn.
106
106
51
17/07/2023
2. Phân tích và khai thác dữ liệu > Mô tả> Mô tả trên biến định lượng >
Phân phối chuẩn
• Dữ liệu thực tế hiếm khi theo một phân phối chuẩn hoàn toàn cho
nên sử dụng hệ số độ lệch và độ nhọn để đo lường mức độ khác biệt
của một phân phối nhất định so với phân phối chuẩn.
• Độ lệch đo lường tính đối xứng của
một phân phối. Phân phối chuẩn là
đối xứng và có độ lệch bằng 0.
• Độ nhọn đo độ dày của đuôi phân phối
so với đuôi của phân phối chuẩn.
Phân phối chuẩn có độ nhọn bằng 3.
107
2. Phân tích và khai thác dữ liệu > Mô tả> Mô tả trên biến định lượng >
Phân phối chuẩn
Độ lệch Độ nhọn
Nếu phân phối của tập dữ liệu: Phân phối với đuôi lớn thể hiện dữ liệu ở đuôi phân phối
- có độ lệch nhỏ hơn 0 hoặc độ lệch vượt quá dữ liệu ở đuôi phân phối chuẩn (ví dụ nhiền
âm, thì đuôi bên trái của phân phối hơn năm độ lệch chuẩn so với giá trị trung bình). Các
dài hơn đuôi bên phải; phân phối có độ nhọn thấp cho thấy tập dữ liệu có điểm
- độ lệch dương ngụ ý rằng đuôi cực trị thấp hơn các bản phân phối chuẩn. điều này cho
bên phải của phân phối dài hơn thấy phân phối không có đuôi mập hay mỏng. Do đó, nếu
đuôi bên trái. một phân phối quan sát được:
- có độ nhọn > 3, phân phối được cho là có đuôi mập khi
so sánh với phân phối chuẩn.
- có độ nhọn < 3, nó được cho là có đuôi mỏng khi so
sánh với phân phối chuẩn.
108
108
52
17/07/2023
109
110
53
17/07/2023
111
Bài tập
• Công ty của bạn cần chọn nhà cung
cấp 10 bộ phận thiết bị trong sản xuất,
và yêu cầu đường kính là 100cm.
1) Phương pháp nên được dùng để
đưa ra quyết định?
2) Quan sát bảng thống kê mô tả và hãy
cho biết nhà cung cấp nào sẽ được
chọn? Tại sao?
112
112
54
17/07/2023
Bài tập 2
• Mô tả đặc
điểm biến
Salary trong
tập dữ liệu về
lương của các
cầu thủ bóng
chày. (Baseball
Salaries.xlsx)
113
113
Bài tập 2
• Mô tả đặc
điểm biến
Salary trong
tập dữ liệu về
lương của các
cầu thủ bóng
chày. (Baseball
Salaries.xlsx)
114
114
55
17/07/2023
Biểu đồ
115
115
116
116
56
17/07/2023
Dot Plot
Bài tập: Quan sát biểu đồ, hãy cho biết
▪ Giá trị trung bình?
▪ Trung vị?
▪ Giải thích tại sao giá trị trung bình tốt hơn giá trị median?
117
117
Dot Plot
• So sánh sự khác nhau giữa 2 tập dữ liệu về cân nặng của trái dâu và
cân nặng của trái nho.
118
118
57
17/07/2023
119
119
120
120
58
17/07/2023
121
121
122
122
59
17/07/2023
123
123
124
124
60
17/07/2023
125
125
126
61
17/07/2023
Box-Whisker Plot
Biểu đồ hình hộp và hình râu cho thấy
✓sự phân bố dữ liệu ở các phần tư,
✓làm nổi bật giá trị trung bình và giá trị ngoại lai.
✓Biểu diễn 5 phép đo của thống kê mô tả là min,
max, lower quartile (Q1), upper quartile (Q3) và
median.
Hộp có các đường kéo dài theo chiều dọc/ngang
được gọi là "râu".
Những đường này biểu thị sự thay đổi
bên ngoài phần tư trên và dưới,
bất kỳ điểm nào bên ngoài các
đường/râu là điểm ngoại lệ.
130
130
Box-Whisker Plot
Các bước vẽ Box Plot Xác định các ngoại lệ trên box plot
Bước 1: Sắp xếp tăng dần tập dữ liệu
Bước 6: Tính IQR của bạn = Q3 - Q1
Bước 2: Tìm median, lower quartile
và upper quartile. Bước 7: Tính toán chặn trên = Q3 +
Bước 3: Vẽ trên trục tọa độ xy, các (1.5 * IQR)
giá trị từ min và max
Bước 8: Tính toán chặn dưới = Q1 -
Bước 4: Vẽ hình hộp chữ nhật từ Q1
đến Q3 và đường thẳng tại vị trí giá (1.5 * IQR)
trị median trong hình hộp chữ nhật.
Bước 5: Vẽ râu từ Q1 đến min và Q3
đến max.
131
131
62
17/07/2023
Box-Whisker Plot
Bài tập: Vào mùa hè, mỗi sinh viên trong được ghi nhận lại việc đọc bao
nhiêu cuốn sách bằng biểu đồ sau. Hỏi,
1) Số lượng sách lớn nhất mà sinh viên đọc?
2) Số lượng sách ở giữa mà sinh viên đọc?
3) Khoảng trải giữa là bao nhiêu?
132
132
Box-Whisker Plot
• Bài tập: Dữ liệu về số giờ mỗi tuần mà mỗi học sinh trong số 13
học sinh lớp bảy dành để làm bài tập về nhà. Thực hiện từng
bước tạo một biểu đồ hộp (box whisker plot) và dot plot để tóm
tắt dữ liệu.
3 10 12 4 7 9 5 5 11 11 5 12 11
133
133
63
17/07/2023
Biểu đồ
• Line chart: biểu diễn dữ liệu thời gian
• Scatter plot/ Scatter chart: phân tích mối quan hệ giữa 2 biến định
lượng
134
134
135
135
64
17/07/2023
Bài tập 3
Baseball Salaries 2011.xlsx chứa dữ liệu về 843 cầu thủ MLB trong mùa
giải 2011. Sử dụng những dữ liệu này,
1) hãy tạo một biểu đồ histogram cho biến lương của cầu thủ. Nêu
nhận xét về hình dáng phân bổ của dữ liệu.
2) hãy tạo một biểu đồ hình box-whisker plot để mô tả đặc điểm phân
bổ tiền lương của tất cả cầu thủ theo từng vị trí chơi bóng.
a) Vị trí nào có mức lương tốt nhất.
b) Lương cầu thủ của vị trí nào có nhiều ngoại lai.
137
137
138
65
17/07/2023
139
139
140
140
66
17/07/2023
141
141
142
142
67
17/07/2023
143
143
144
144
68
17/07/2023
Với Với một điểm dữ liệu x, z score của nó được tính bởi:
x−μ
z-score = σ
Những điểm có z-score nằm ngoài đoạn [−3,3] là các điểm ngoại lệ.
145
145
146
146
69
17/07/2023
147
147
148
148
70
17/07/2023
149
149
150
150
71
17/07/2023
UnStacked data
Stacked data
151
151
152
152
72
17/07/2023
153
153
154
154
73
17/07/2023
155
155
156
156
74
17/07/2023
Mối quan hệ thuận khi motivation tăng thì Mối quan hệ nghịch khi Absences giảm thì
GPA cũng tăng GPA tăng
hoặc motivation giảm thì GPA cũng giảm. hoặc Absences tăng thì GPA giảm.
157
157
mối quan hệ tuyến tính là: mối quan hệ có dạng đường cong,
- các điểm trên scatterplot gần giống với một đường thẳng. - là một biến không tăng với tốc độ không đổi và
- khi một biến thay đổi một đơn vị thì các biến khác tăng một - thậm chí có thể bắt đầu giảm dần sau một thời điểm nhất
khoảng tỷ lệ bằng nhau. định.
158
158
75
17/07/2023
159
159
160
160
76
17/07/2023
161
161
162
162
77
17/07/2023
163
164
78
17/07/2023
165
165
166
79
17/07/2023
167
167
- Linear
- y = mx + b với m là slope và b là intercept.
- Là đường thẳng/tuyến tính biểu diễn sự tăng giảm ổn định.
- R-squared [0,1] cho biết mức độ tương ứng của các giá trị
ước tính cho đường xu hướng với dữ liệu thực tế.
168
168
80
17/07/2023
169
169
- Moving Average
𝐴𝑡+𝐴𝑡 𝐴𝑡 𝑛 1
- Ft = 1
− + …+ − +
𝑛
- Là đường trung bình động. Period: số khoảng thời gian,
trong một khoảng thời gian, sẽ tính ra 1 điểm trung bình.
170
170
81
17/07/2023
171
172
172
82
17/07/2023
173
173
174
174
83
17/07/2023
175
175
Đơn vị chọn Tổng thể thường được chia thành nhiều nhóm có Chia quận 3 thành các phường.
mẫu đặc tính riêng. → Mỗi phường là đơn vị chọn mẫu,
Mỗi nhóm được gọi là đơn vị chọn mẫu. → DNNVV ở phường là phần tử
Khung mẫu Là danh sách liệt kê dữ liệu cần thiết của tất cả Khung mẫu là danh sách gồm các thông tin (tên
các đơn vị và phần tử của tổng thể doanh nghiệp, địa chỉ, qui mô, ..) của toàn bộ
DNNVV tại quận 3 theo phường được chọn.
176
176
84
17/07/2023
177
177
178
178
85
17/07/2023
179
179
180
180
86
17/07/2023
181
182
87
17/07/2023
183
183
184
184
88
17/07/2023
185
185
186
186
89
17/07/2023
187
187
188
188
90
17/07/2023
Systematic Sampling/
Chọn mẫu ngẫu nhiên hệ thống
Ý nghĩa: Theo phương pháp chọn mẫu ngẫu nhiên hệ thống, tất cả đối
tượng trong tổng thể (N) được liệt kê theo thứ tự định trước. Sau đó
tùy vào quy mô mẫu và tổng thể mà quyết định khoảng cách các mẫu.
Các bước lấy mẫu:
Bước 1: Tính khoảng lấy mẫu k = N/n.
Bước 2: Chọn vị trí mầm (giá trị đầu tiên) bằng cách lấy ngẫu nhiên r
[1,k]
Bước 3: Chọn các giá trị thứ i tiếp theo = r + i*k
189
189
Systematic Sampling/
Chọn mẫu ngẫu nhiên hệ thống
Ví dụ 1: Trong tiệc cuối năm gồm 150 nhân viên, cần chọn ra 5 nhân viên để trao
giải may mắn bằng cách chọn mẫu ngẫu nhiên hệ thống.
Các bước lấy mẫu:
Bước 1: Tính khoảng lấy mẫu k = 150/5=30. Cỡ mẫu (n) là 5.
Bước 2: Chọn vị trí mầm ngẫu nhiên r = 3, với r [1,k]
Bước 3: Chọn các giá trị thứ i tiếp theo = r + i*k cho đến khi hoàn thành cỡ mẫu
• Vị trí nhân viên thứ 2 được chọn: 3 + 2*30 = 63
• Vị trí nhân viên thứ 3 được chọn: 3 + 3*30 = 93
• Vị trí nhân viên thứ 4 được chọn: 3 + 4*30 = 123
• Vị trí nhân viên thứ 5 được chọn: 3 + 5*30 = 153
190
190
91
17/07/2023
Systematic Sampling/
Chọn mẫu ngẫu nhiên hệ thống
Ví dụ 2: Thực hiện ví dụ 1 trên Excel
191
191
Systematic Sampling/
Chọn mẫu ngẫu nhiên hệ thống
Công cụ Sampling trong Excel: Data → Data Analysis → Sampling
Các tham số:
Input Range: khung mẫu
Sampling Method
Periodic: vị trí của đơn vị mẫu đầu tiên
Output Options: vị trí xuất mẫu
192
192
92
17/07/2023
Stratified Sampling/
Chọn mẫu ngẫu nhiên phân tầng
Chọn mẫu ngẫu nhiên phân tầng là kỹ thuật chọn mẫu được thực hiện
bởi việc chia tổng thể thành các nhóm đặc trưng riêng lẻ gọi là tầng.
Ví dụ: giới tính, độ tuổi, thu nhập, trình độ học vấn,….
Đặc điểm của chọn mẫu kiểu này là tiêu chí nghiên cứu trong từng tầng
tương đối đồng nhất, còn giữa các tầng có sự khác biệt.
Sau khi đã phân tầng xong ta vẫn có thể áp dụng cách chọn mẫu ngẫu
nhiên đơn giản hoặc ngẫu nhiên hệ thống để chọn đối tượng của từng
tầng vào nghiên cứu.
193
193
Stratified Sampling/
Chọn mẫu ngẫu nhiên phân tầng
Các bước lấy mẫu:
Bước 1: Lập danh sách các đối tượng trong quần thể nghiên cứu.
Bước 2: Phân chia quần thể nghiên cứu thành các tầng khác nhau căn
cứ vào các đặc điểm như giới, nhóm tuổi, tình trạng hôn nhân…đảm
bảo giữa các tầng không có sự chồng chéo.
Bước 3: Quyết định số cá thể được lựa chọn ở mỗi tầng. Cỡ mẫu ở mỗi
tầng phải tỷ lệ thuận với kích cỡ của từng tầng trong quần thể.
Bước 4: Tiến hành phương pháp chọn mẫu ngẫu nhiên đơn trong từng
tầng.
194
194
93
17/07/2023
Stratified Sampling/
Chọn mẫu ngẫu nhiên phân tầng
Ví dụ 1: Cần nghiên cứu sự hài lòng của sinh viên về chất lượng giảngdạy của
đại học UFM. Trong phương pháp chọn mẫu phân tầng, giả sử nghiên cứu
cần mẫu là 500 sinh viên trong tổng thể gồm 12000 sinh viên.
Người nghiên cứu chia tổng thể sinh viên theo ngành thành 14 tầng tương
ứng Tài chính – Ngân hàng, Quản trị kinh doanh, Kế toán, Kinh doanh quốc
tế, Marketing, Bất động sản, Ngôn ngữ anh, Toán kinh tế, Luật kinh tế, Kinh
tế, Hệ thống thông tin quản lý, Quản trị dịch vụ du lịch và lữ hành, Quản trị
khách sạn, Quản trị nhà hàng và dịch vụ ăn uống.
Dựa trên số lượng sinh viên của từng khối ngành, người nghiên cứu chọn ra
500 sinh viên của trường để tiến hành khảo sát.
195
195
Stratified Sampling/
Chọn mẫu ngẫu nhiên phân tầng
Ví dụ 2: Tập tinStratified Sampling.xlsx chứa một khung mẫu gồm tất cả
50.000 người ở thành phố Midtown có thẻ tín dụng của một nhà bán lẻ
cụ thể.
Nhà bán lẻ quan tâm đến việc ước tính số lượng thẻ tín dụng trung
bình mà những người này sở hữu, cũng như thông tin khác về việc sử
dụng tín dụng của họ.
Công ty quyết định phân tầng những khách hàng này theo độ tuổi,
chọn một mẫu phân tầng cỡ 200 với các cỡ mẫu tỷ lệ thuận, sau đó liên
hệ với 200 người này qua điện thoại.
Công ty có thể tiến hành như thế nào?
196
196
94
17/07/2023
Stratified Sampling/
Chọn mẫu ngẫu nhiên phân tầng
Ví dụ 2: Tiến hành nghiên cứu
Bước 1: khung mẫu
Bước 2: Chọn đặc trưng đề phân tầng và gán nhãn tầng cho các đơn vị
mẫu.
Sau một số điều tra sơ bộ, công ty quyết định sử dụng ba loại tuổi:
18−30, 31−62 và 63−80.
(Giả định rằng không có ai trong dân số dưới 18 tuổi hoặc trên 80 tuổi.)
Bước 3: Tính số lượng đơn vị mẫu trong mỗi tầng và tính cỡ mẫu tầng.
Bước 4: Chọn mẫu theo phương pháp ngẫu nhiên đơn giản/hệ thống.
197
197
Cluster Sampling/
Chọn mẫu ngẫu nhiên theo nhóm-cụm-chùm
Là kỹ thuật chọn mẫu trong đó việc lựa chọn ngẫu nhiên các nhóm cá thể (ví
dụ trong cùng làng, xã, trường học, khoa phòng, bệnh viện,…) từ nhiều cụm
trong một quần thể nghiên cứu. Trong trường hợp này, đơn vị mẫu là các
cụm chứ không phải là các cá thể. Cách thực hiện:
Bước 1: Xác định các cụm thích hợp.
Bước 2: Lập danh sách tất cả các cụm, chọn ngẫu nhiên một số cụm vào mẫu.
Có hai cách chọn mẫu theo ý tưởng của người nghiên cứu:
Cách 1: Tất cả các cá thể trong các cụm đã chọn vào nghiên cứu.
Cách 2: Liệt kê danh sách các cá thể trong các cụm đã chọn, sau đó áp dụng cách chọn
mẫu ngẫu nhiên đơn hoặc ngẫu nhiên hệ thống trong mỗi cụm để chọn các cá thể vào
mẫu.
198
198
95
17/07/2023
199
199
200
200
96
17/07/2023
201
201
Ví dụ: là cứu)
tỉ lệ mắc Không có ý nghĩa thống kê Type II error () TỐT
bệnh (p > )
Cần phải ước tính cỡ mẫu (n) sao cho =0.05 hoặc 0.01 và =0.10 hoặc 0.2
202
202
97
17/07/2023
203
203
Xác định cỡ mẫu theo phương pháp ước lượng tổng thể
Xác định cỡ mẫu cần phải có 3 tham số:
- Mức độ ảnh hưởng (tỉ lệ, số trung bình)
- Độ biến thiên/độ dao động (độ lệch chuẩn cho số trung bình)
- Sai số chấp nhận (alpha, beta)
204
204
98
17/07/2023
Xác định cỡ mẫu theo phương pháp ước lượng tổng thể
Theo Cochran, W.G (1953), nếu chọn mẫu theo phương pháp ngẫu nhiên
đơn giản khi xác định cỡ mẫu thì chia theo 2 loại:
1) Xác định cỡ mẫu cho ước lượng trung bình tổng thể (ước lượng theo
một đặc trưng nào đó)
Nghĩa là khi nghiên cứu với mục tiêu đo lường là tìm kiếm các giá trị định lượng
của biến số đại diện cho các đặc tính quan trọng của tổng thể.
2) Xác định cỡ mẫu cho ước lượng tỉ lệ tổng thể
Nghĩa là khi mục đích nghiên cứu muốn biết được tỉ lệ một đặc trưng nào đó trong
tổng thể.
205
205
206
206
99
17/07/2023
Xác định cỡ mẫu theo phương pháp ước lượng trung bình tổng thể
2
Ζ𝑠
𝑛=
𝑒
Trong đó:
n: số lượng cỡ mẫu tối thiểu
Z: khoảng tin cậy 95%, tại giá trị 1.96
e: sai số chuẩn (±5%)
207
207
Xác định cỡ mẫu theo phương pháp ước lượng trung bình tổng thể
2
Ζ𝑠
𝑛=
𝑒
Ví dụ: Muốn ước lượng số ngày nghỉ bệnh trung bình trong năm của công nhân
nhà máy, giám đốc nhân sự của nhà máy qua tìm hiểu ở các nhà máy tương tự
thấy tổng số ngày nghỉ bệnh có phân phối bình thường với độ lệch chuẩn là 3
ngày. Mẫu cần được chọn là bao nhiêu công nhân, nếu khoảng tin cậy là 95%
và sai số e là 0.5 ngày.
Giải:
Z = 95% = 1.96 Tính cỡ mẫu:
Ζ𝑠 2 1.96∗3 2
s=3 𝑛= = = 138.29
𝑒 0.5
e = 0.5
Vậy, cỡ mẫu nghiên cứu cần là 139 công nhân.
208
208
100
17/07/2023
209
209
Ước lượng tỉ lệ tổng thể là dùng p để ước lượng ra . Cách này dựa
theo lý thuyết p là ước số khách quan nhất của .
210
210
101
17/07/2023
211
211
e = 0.04
Vậy cỡ mẫu cần là 34,575 bệnh nhân.
212
212
102
17/07/2023
213
213
214
103
17/07/2023
215
215
216
216
104
17/07/2023
217
217
218
105
17/07/2023
219
220
106
17/07/2023
221
221
222
107
17/07/2023
223
223
224
224
108
17/07/2023
Giả thuyết
Giả thuyết có thể được định nghĩa là các mối quan hệ được suy đoán
một cách logic giữa hai hoặc nhiều biến thể hiện dưới dạng một câu và
phát biểu này có thể kiểm tra được.
Ví dụ: Sự đa dạng về lực lượng lao động có ảnh hưởng tích cực đến
hiệu quả của tổ chức.
225
225
Giả thuyết
Các dạng phát biểu giả thuyết:
➢Nếu thì
➢Giả thuyết có hướng và không có hướng
➢Giả thuyết không và giả thuyết thay thế
226
226
109
17/07/2023
Giả thuyết
Các dạng phát biểu giả thuyết:
➢Nếu thì
Tình huống: Phụ nữ trẻ sẽ dễ bày tỏ sự không hài lòng với trọng lượng
cơ thể của mình hơn khi họ thường xuyên bị lộ hình ảnh của những
người mẫu gầy trong các quảng cáo.
Giải thuyết:
Nếu phụ nữ trẻ thường xuyên tiếp xúc với hình ảnh của những người
mẫu gầy trong các quảng cáo, thì họ sẽ dễ bày tỏ sự không hài lòng với
trọng lượng cơ thể của mình.
227
227
Ví dụ 1: Căng thẳng trải qua trong công việc càng lớn thì mức độ hài
lòng trong công việc của nhân viên càng thấp.
Ví dụ 2: Phụ nữ có nhiều động lực hơn nam giới.
228
228
110
17/07/2023
Ví dụ 1: Có mối quan hệ giữa xu hướng tìm kiếm kích thích và sở thích của
người tiêu dùng đối với các thiết kế sản phẩm phức tạp.
Ví dụ 2: Có sự khác biệt giữa các giá trị đạo đức làm việc của nhân viên Mỹ
và châu Á.
229
229
Đối lập với giả thuyết không là giả thuyết thay thế/ đối thuyết (được ký hiệu
là H1); giả thuyết này có thể đúng hoặc không đúng.
Trong nghiên cứu kinh doanh-kinh tế, 2 dạng giả thuyết thường được sử
dụng là:
i. Giả thuyết và đối thuyết tham số
ii. Giải thuyết và đối thuyết phi tham số
230
230
111
17/07/2023
231
231
232
232
112
17/07/2023
233
233
Kth Smallest Giá trị nhỏ nhất thứ K trong vùng dữ liệu
234
234
113
17/07/2023
235
235
236
236
114
17/07/2023
237
237
238
238
115
17/07/2023
• Tính tổng chi phí theo từng vùng (Region) của từng thời gian (Time)
239
239
240
240
116
17/07/2023
241
241
242
242
117
17/07/2023
243
243
244
244
118
17/07/2023
245
245
246
246
119
17/07/2023
247
247
248
248
120
17/07/2023
Bài tập: Tạo lát cắt theo quí cho bảng pivot table
249
249
• Kết quả
250
250
121
17/07/2023
251
251
252
252
122
17/07/2023
253
253
254
254
123
17/07/2023
255
255
• Tạo mối quan hệ giữa các bảng nếu có nhiều hơn 1 bảng.
• Cách 1: Home > View > Diagram View > Kéo thả bảng 1 sang bảng nhiều.
• Cách 2: Data > Data Tools > Relationship
256
256
124
17/07/2023
257
257
258
258
125
17/07/2023
Cảm ơn!
259
259
126