You are on page 1of 81

Trường Đại Học Công nghiệp Tp.

Hồ Chí Minh
Khoa Quản trị Kinh doanh

KIỂM ĐỊNH THỐNG KÊ


Giáo trình điện tử

Biên soạn bởi: Nguyễn Minh Toàn

1
Lựa chọn phương pháp phân tích
• Những kết quả có ý nghĩa gì về mặt thống kê?
• Liệu các kết quả có xuất hiện một cách ngẫu
nhiên do việc chỉ sử dụng một mẫu duy nhất
không?
– Xác định sự khác biệt trong dữ liệu quan sát được.
– Sự liên kết giữa hai hay nhiều biến số
– Tìm hiểu mức độ của liên kết

2
Thang đo lường dùng để đo
các biến số
Loại thang Giá trị trung Độ phân tán Tính tương Kiểm định ý
đo bình thích hợp thích hợp quan thích nghĩa
hợp
Định danh Mode (Không có) Hệ số ngẫu Kiểm định
nhiên
Thứ tự Trung vị Số phần trăm Dãy tương Kiểm định
quan dấu hiệu
Khoảng Trung bình số Dộ lệch tiêu Hệ số tương Kiểm định T
cách học chuẩn quan hay F
Tỷ lệ Trung bình số Hệ số biến Tất cả các Tất cả các
học thiên phép trên kiểm định
trên.

3
Dữ liệu tham số và phi tham số
• Parametric (tham số): phân phối xung quanh
giá trị trung bình hoặc giá trị trung tâm cách
đối xứng tương tự đường cong xác suất
chuẩn tắc. Kiểm định xác xuất ý nghĩa thống
kê đối với bất kỳ mẫu nghiên cứu nào lấy ra
từ tổng thể
• Nonparametric (phi tham số): không phân
phối theo đường cong xác suất chuẩn tắc.

4
Tính phụ thuộc và phụ thuộc lẫn nhau
• Một biến số phụ thuộc vào kiểm định về tính
phụ thuộc của nó với những biến số độc lập
khác.
• Tất cả các biến số được nghiên cứu về mối liên
hệ lẫn nhau, tính phụ thuộc lẫn nhau giữa
chúng.

5
Mục đích kiểm định thống kê
• Kiểm tra những sai biệt đáng kể giữa một mẫu
đơn thuần với tổng thể đặc biệt nào đó.
• Kiểm tra những sai biệt đáng kể giữa hai mẫu
độc lập hay có liên quan với nhau.
• Kiểm định ý nghĩa của những sai biệt giữa ba
hay nhiều mẫu độc lập hay có liên quan với
nhau.
• Sự đo lường mối tương quan và những kết
quả kiểm định về ý nghĩa của chúng.
6
KIỂM ĐỊNH THỐNG KÊ ĐỂ ĐÁNH
GIÁ CÁC GIẢ THUYẾT

7
Các bước tổng quát cần thực hiện
• Phát biểu giả thuyết “không” và giả thuyết thay thế
1

• Chọn mức ý nghĩa mong muốn


2

• Chọn kiểm định thống kê thích hợp


3

• Xác định vùng bác bỏ hay các vùng tới hạn


4

• Tính trị số thống kê của kiểm định thích hợp cho phân phối lấy mẫu
5

• Rút ra kết luận thống kê về giả thuyết “không”.


6
8
Đặt giả thuyết về tham số tổng thể

• Giả thuyết: một phát biểu, một nhận định,


một đề xuất về tham số tổng thể.
• Giả thuyết không (Null Hypothesis)
• Giả thuyết đối (Alternative Hypothesis)
• Kiểm định -> quyết định không bác bỏ (tức
loại ) hoặc ngược lại.

9
Một số nguyên tắc liên quan đến việc
đặt giả thuyết
• Giả thuyết thường mô tả hiện tượng lúc bình
thường, mô tả tình trạng nguyên thủy, hoặc tình trạng
không chịu tác động gì của hiện tượng. Trong cấu trúc
luôn có dấu bằng hoặc ≤, ≥
• Giả thuyết mô tả tình trạng ngược lại , nó biểu
hiện các nghi ngờ, các nhận định về hiện tượng mà
đang muốn chứng minh trong bài toán kiểm định.
• Nếu loại bỏ tức là có bằng chứng thống kê để cho
rằng đúng
• Nếu không loại tức là không chứng thống kê được
là đúng.
Ex1
10
Ví dụ: Metro EMS

Một bệnh viện tại trung tâm thành phố cung cấp
dịch vụ cấp cứu tại nhà. Với khoảng 20 xe cấp
cứu, mục tiêu của trung tâm là cung cấp dịch vụ
cấp cứu trong khoảng thời gian trung bình là 12
phút sau khi nhận được điện thoại yêu cầu.
Dựa trên số liệu mẫu về thời gian phục vụ khách
hàng đã được ghi nhận, giám đốc trung tâm
muốn thực hiện một kiểm định xem thời gian
phục vụ khách hàng có bằng 12 phút hay ít hơn?

11
Xác suất sai lầm loại I và xác suất sai lầm loại II

• Định nghĩa Xác xuất sai lầm:


– Xác suất sai lầm loại I ( ): xác suất để bác bỏ giả
thuyết trong khi thật sự nó đúng.
= P (sai lầm loại I) = P (loại / đúng)
– Xác suất sai lầm loại II ( ): xác suất để không bác bỏ
giả thuyết trong khi nó sai.
= P (sai lầm loại II) = P (không loại / sai)
• Giá trị xác định nên diện tích vùng bác bỏ giả
thuyết (nếu giá trị kiểm định tính toán trên
các thông tin mẫu rơi vào vùng này ta sẽ quyết
định bác bỏ ).

12
Mức ý nghĩa của kiểm định

• Nếu thấy một nhà thống kê làm kiểm định và kết


luận rằng kiểm định của họ “có ý nghĩa thống kê ở
mức p%” tức là họ đã đi đến bác bỏ và có thể
sai tối đa chỉ p%.
• Ví dụ: Nếu bác bỏ giả thuyết với mức
=0.05
• Đại lượng : mức ý nghĩa của kiểm định.
• Giá trị (1- ): độ tin cậy. Nó xác định vùng chấp
nhận .
• thì không kiểm soát được. Lượng thay đổi ở
không tỉ lệ trực tiếp với lượng thay đổi ở .
13
Giá trị tới hạn

• Xác định được thì xác định được vùng bác


bỏ và vùng chấp nhận .
• Giá trị giới hạn: biên giới chia đôi 2 vùng chấp
nhận và bác bỏ trên phân phối của giá trị
kiểm định.

14
Kiểm định hai bên
• : = 368
• : ≠ 368

/2 /2

=368
Bác bỏ Bác bỏ
Không bác bỏ
Ngưỡng chấp nhận được

15
Kiểm định một bên (bên phải)
• : = 368 ℎ ặ : ≠ 368
• : > 368

=368
Bác bỏ
Không bác bỏ
Ngưỡng chấp nhận được

16
Kiểm định một bên (bên trái)
• : = 368 ℎ ặ ≠ 368
• : < 368

=368
Bác bỏ
Không bác bỏ
Ngưỡng chấp nhận được

17
Giả thuyết và đối thuyết

H0: m   Thời gian đáp ứng của dịch vụ


cấp cứu đạt yêu cầu, không cần
phải thay đổi.

Ha: m   Thời gian đáp ứng của dịch vụ cấp cứu


không đạt yêu cầu, cần điều chỉnh.

Với: m = thời gian đáp ứng trung bình (theo tổng thể) của
dịch vụ cấp cứu.

18
Sai lầm loại I và sai lầm loại II

Bản chất tổng thể

H0 đúng H0 Sai
Kết luận (m < 12) (m > 12)

Chấp nhận H0
Quyết định đúng Sai lầm loại II
(Kết luận m < 12)

Bác bỏ H0 Quyết định đúng


Sai lầm loại I
(Kết luận m > 12)

19
p - giá trị (p-value) và
Kiểm định giả thuyết một phía
 p – giá trị , được tính bởi kiểm định thống kê, là mức ý
nghĩa nhỏ nhất dùng để bác bỏ giả thuyết không với dữ
liệu mẫu tương ứng.

 Nếu p – giá trị bé hơn hoặc bằng mức ý nghĩa , thì giá
trị của kiểm định thống kê sẽ nằm trong miền bác bỏ.

 Bác bỏ H0 nếu p – giá trị <  .

20
Giá trị tiêu chuẩn cho bài toán
kiểm định giả thuyết một phía
 Thống kê Z có phân phối chuẩn hóa, Z ~ N(0,1) .

 Sử dụng bảng tra phân phối chuẩn hóa để tìm giá trị
z1- với mức ý nghĩa  cho trước.

 Giá trị của thống kê được thiết lập tại biên của miền
bác bỏ gọi là giá trị tiêu chuẩn của kiểm định.

 Luật bác bỏ:


• Bên trái: Bác bỏ H0 nếu z < -z1-
• Bên phải: Bác bỏ H0 nếu z > z1-

21
Kiểm định một phía cho kỳ vọng:
Trường hợp biết s
 Ví dụ: Metro EMS
Một mẫu ngẫu nhiên gồm thời gian
đáp ứng khi có yêu cầu của 40 ca cấp cứu
được chọn. Trung bình mẫu là 13.25 phút.
Biết rằng độ lệch tiêu chuẩn của tổng
thể là s = 3.2 phút.

Giám đốc EMS muốn thực hiện


một kiểm định, với mức ý nghĩa 5%,
để xác định xem liệu thời gian một ca cấp cứu
có bé hơn hoặc bằng 12 phút hay không?

22
Các bước kiểm định
• Bước 1: Xây dựng giả thuyết không và đối thuyết.
• Bước 2: Xác định mức ý nghĩa .
• Bước 3: Lấy mẫu và tính giá trị thống kê của kiểm
định.
Sử dụng p – giá trị
• Bước 4: Sử dụng giá trị thống kê kiểm định để
tính p- giá trị.
• Bước 5: Bác bỏ H0 nếu p – giá trị < .

23
Các bước kiểm định
Sử dụng giá trị tiêu chuẩn
• Bước 4: Sử dụng mức ý nghĩa để xác định
giá trị tiêu chuẩn và luật bác bỏ.
• Bước 5: Sử dụng giá trị thống kê kiểm định và
luật bác bỏ để xác định có bác bỏ H0 hay
không.

24
Kiểm định một phía cho kỳ vọng:
Trường hợp biết s
 Sử dụng giá trị tiêu chuẩn và p – giá trị

1. Xây dựng giả thuyết. H0: m  


Ha: m  

2. Xác định mức ý nghĩa.  = .05

3. Tính giá trị thống kê.


x - m 13.25 - 12
z= = = 2.47
s / n 3.2 / 40

25
Kiểm định một phía cho kỳ vọng:
Trường hợp biết s
 Sử dụng p – giá trị

4. Tính p – giá trị.

với z = 2.47, (z) = .9932.


p–giá trị = 1 - .9932 = .0068

5. Xác định có bác bỏ H0 hay không?


Vì p–giá trị = .0068 <  = .05, ta bác bỏ H0.
Ta kết luận với ít nhất 95% độ tin cậy rằng Metro
EMS không đáp ứng được mục tiêu thời gian phục vụ
khách hàng từ 12 phút trở xuống.

26
Kiểm định một phía cho kỳ vọng:
Trường hợp biết s
 Sử dụng p – giá trị
Phân phối
mẫu của  = .05
Z = X -m
0

s/ n
p- giá trị
= 

z
0 z1- = z=
1.645 2.47
27
Kiểm định một phía cho kỳ vọng:
Trường hợp biết s
 Sử dụng giá trị tiêu chuẩn

4. Xác định giá trị tiêu chuẩn và luật bác bỏ.

Với  = .05, z.95 = 1.645


Bác bỏ H0 nếu z > 1.645

5. Xác định có bác bỏ H0 hay không?


Vì 2.47 > 1.645, bác bỏ H0.
Ta kết luận với ít nhất 95% độ tin cậy rằng Metro
EMS không đáp ứng được mục tiêu thời gian phục vụ
khách hàng từ 12 phút trở xuống.

28
Kiểm định mối liên hệ giữa hai biến dữ
liệu định tính
• kiểm tra mối quan hệ giữa hai biến categorical
(danh nghĩa hoặc thứ tự), có thể kiểm soát
cho các biến lớp bổ sung
• (Nominal & nominal) || (Nominal & ordinal)
– Ordinal & ordinal

Crosstabs

29
Cơ sở lý thuyết – kiểm định Chi- bình
phương (overview)
• Giả thuyết
– : Hai biến độc lập nhau
– : Hai biến có liên hệ nhau, sự thay đổi của biến này
có thể làm cho biến kia thay đổi.
( )
• Tính =∑
• Tìm giá trị giới hạn ,
• Tiêu chuẩn quyết định
– Bác bỏ giả thuyết nếu: > , Sig< ∝
– Chấp nhận giả thuyết nếu: ≤ , Sig≥∝

30
Kiểm định Chi- bình phương
( )
• =∑
• : Đại lượng Chi – bình phương dùng để kiểm định
• : đại diện cho số trường hợp được quan sát trong 1 ô cụ thể của
bảng chéo (tần số quan sát)
• : đại diện cho số trường hợp mà mong đợi gặp trong những ô
của bảng chéo đó nếu không có mối liên hệ giữa 2 biến trong bảng
(tần số mong đợi)
• c : số cột của bảng
• r : số hàng của bảng
×
=
• : tổng số quan sát của hàng thứ i
• : tổng số quan sát của cột thứ j

31
Kiểm định mối liên hệ giữa hai biến dữ
liệu định tính
• Ví dụ: Trình độ học vấn có tác động đến cách
đọc báo (Mối liên hệ giữa trình độ học vấn và
cách đọc báo của người đọc)
– : Học vấn không có liên hệ cách đọc báo
• Analyze\Descriptive Statistics\Crosstabs
– Crosstabs: Statistics

32
Ví dụ
Xác định mức độ hài lòng của khách hàng, một
công ty bán lẻ đã tiến hành khảo sát 582 khách
hàng ở 4 địa điểm bán hàng.
- Từ những kết quả khảo sát,phát hiện ra rằng
chất lượng của dịch vụ khách hàng là yếu tố
quan trọng nhất ảnh hưởng đến sự hài lòng
tổng thể của khách hàng.
- Với thông tin này, muốn kiểm tra xem mỗi địa
điểm cửa hàng cung cấp một mức độ tương
tự và đầy đủ các dịch vụ khách hàng?
33
Crosstabs: Statistics

• Biết độ mạnh của mối tương quan giữa 2 biến


Nominal
– Contingency coefficient
– Phi and Cramer’s V
– Lambda
– Uncertainty coefficient
• Nghiên cứu 2 biến thang đo thứ bậc
– Tau-b của Kendall
– D của Somer
– Gamma của Goodman và Kruskal
34
Crosstabs Cell Display
• Mỗi ô (cell) của bảng có thể chứa bất kỳ sự
kết hợp của số lượng, tỷ lệ phần trăm, và các
số dư được lựa chọn.
– Counts: Số lượng các trường hợp thực sự quan
sát và số lượng các trường hợp dự đoán nếu các
hàng và cột các biến độc lập với nhau
– Percentages: Tỷ lệ có thể tăng lên trong các hàng
hoặc xuống trong các cột. Tỷ lệ phần trăm của
tổng số trường hợp đại diện trong bảng (một lớp)
thì cũng có sẵn.

35
Output
• Bảng 1: thể hiện những thông tin tổng hợp
• Bảng 2: bảng chéo kết hợp 2 biến. Các ô thể
hiện đại lượng thống kê.
• Bảng 3: bảng tóm lược kết quả kiểm định
– Pearson Chi-Square
– Continuity Correction
– Likelihood Ratio
– Linear-by-Linear Association

36
Mức ý nghĩa của kiểm định
Pearson Chi-Square
– Tra bảng Chi-bình phương tìm giá trị giới hạn ở
bậc tự do (df) và mức ý nghĩa (đã chọn độ tin cậy
của kiểm định lúc đầu) rồi so sánh giá trị Chi- bình
phương tính được (value)
– SPSS gọi p-value là Sig (Observed significance
level). Quyết định theo nguyên tắc:
• Chấp nhận nếu sig. >
• Bác bỏ nếu sig. <

37
Mức ý nghĩa của kiểm định
• Continuity Correction: sử dụng cho bảng kết hợp của 2
biến mà mỗi biến đều chỉ có 2 biểu hiện.
• Likelihood Ratio: với những cỡ mẫu lớn hơn kết quả
của 2 số thông kê này rất gần nhau
• Linear-by-Linear Association: đo lường mối liên hệ
tuyến tính giữa 2 biến, chỉ hữu dụng khi biến hàng và
cột được sắp xếp lớn dần.
• Cuối bảng: cho biết % số ô có tần suất mong đợi dưới
5. Kiểm định Chi-bình phương chỉ có ý nghĩa khi số
quan sát đủ lớn, nếu có quá 20% số ô trong bảng chéo
có tần số lý thuyết nhỏ hơn 5 thì giá trị chi-bình
phương không còn đáng tin cậy.

38
Hệ số liên hợp
(Contingency coefficient)
• Đánh giá mức độ tương quan giữa 2 biến.
• Công thức tính:

=
+
• N: quy mô mẫu
• C=0 khi giữa 2 biến không có quan hệ và
0 ≤ ≤ 1.

39
Cramer’s V
• Cho biết độ mạnh của mối liên hệ giữa các
biến định danh

= 0≤ ≤1
( − 1)
• K: số hàng hoặc số cột trong bảng, chọn k nhỏ
nhất.
• N: số quan sát trong mẫu.

40
Lambda (L)( )
• Đo lường liên hệ của các biến định danh.
ố ướ − ố
=
ố ướ
• Sai số trước: số các sai lầm có thể phạm phải khi dự
đoán các trị số của biến phụ thuộc mà không xem xét
đến biến độc lập.
• Sai số sau: số các sai lầm có thể phạm phải khi dự đoán
các trị số của biến phụ thuộc có xem xét đến biến độc
lập.
• phụ thuộc vào vị trí biến phụ thuộc trong hàng hay
cột.
41
Kiểm định mối liên hệ giữa 2 biến thứ
bậc
• Gamma: thước đo mối liên hệ giữa hai biến thứ tự mà dao động giữa
-1 và 1. Trị số nằm trong khoảng từ -1 (liên hệ nghịch hoàn toàn) đến 1
(liên hệ thuận hoàn toàn), giá trị 0 đại diện cho sự độc lập hoàn toàn giữa
2 biến.
• Somers' d: là một phần mở rộng không đối xứng của gamma chỉ
khác trong đó bao gồm của số lượng các cặp không bị ràng buộc
vào biến số độc lập.
• Kendall's tau-b: thích hợp cho những bảng cân đối (số cột = số hàng) còn
Kendall's tau-c thích hợp cho bảng không cân đối. Dấu của hệ số cho
biết hướng của mối quan hệ, và giá trị tuyệt đối của nó cho thấy sức
mạnh, với giá trị tuyệt đối lớn hơn cho thấy mối quan hệ mạnh mẽ
hơn. Giá trị có thể dao động từ -1 đến 1.
• Correlations: Hệ số tương quan r Pearson và hệ số tương hạng Spearman
để đo lường mức độ tương quan tuyến tính giữa 2 biến định lượng hay
thứ bậc.
42
Kiểm định mối liên hệ giữa 2 biến thứ
bậc
• Ví du: Mối liên hệ giữa tuổi tác và mức độ
quan tâm đối với chủ đề gia đình trên báo
SGTT.
– Đặt giả thuyết : Tuổi tác không có liên hệ với
mức độ quan tâm đến chủ đề gia đình trong báo
SGTT.

43
KIỂM NGHIỆM SỰ KHÁC NHAU GIỮA 2
GIÁ TRỊ TRUNG BÌNH

44
Nội dung
• Các vấn đề chung về kiểm định
• Kiểm định mối quan hệ giữa hai biến dữ liệu định tính: kiểm
nghiệm mối quan hệ giữa 2 biến trong bản chéo. Sử dụng
kiểm nghiệm Chi bình phương.
• Kiểm nghiệm sự khác nhau giữa 2 giá trị trung bình
– Kiểm nghiệm Student’s t cho 1 mẫu và giá trị cụ thể
(One-Sample T-Test)
– Kiểm nghiệm Student’s t cho 2 mẫu độc lập
(Independent samples t test)
– Kiểm nghiệm Student’s t cho cặp mẫu
(Paired samples t test)

45
One-Sample T-Test
• Các thử nghiệm thể hiện sự khác
biệt giữa trung bình mẫu và giá trị cụ
thể đã biết hoặc đưa giả định.
• Cho phép bạn xác định mức độ tín
nhiệm đối với sự khác biệt
• Tạo một bảng thống kê mô tả cho mỗi
biến thử nghiệm

46
One-Sample T-Test
• Ví dụ: Vấn đề về một dây chuyền sản xuất
– Một nhà máy sản xuất xe ô tô, sản xuất các hệ
thống phanh đĩa mà đường kính phải đo là
322 mm.
– Kiểm tra chất lượng ngẫu nhiên rút ra từ 16
cái trong 8 đầu máy sản xuất, xác định có hay
không có đường kính trung bình của hệ thống
phanh trong mỗi mẫu khác biệt đáng kể so
với 322 mm.

47
Quy trình kiểm định giả thiết
1. Phát biểu giả thiết và giả thiết thay thế

2. Chọn loại kiểm định thống kê

3. Chọn mức ý nghĩa mong muốn

4. Tính giá trị khác biệt

5. Có được giá trị kiểm định

6. Diễn giải kết quả kiểm nghiệm

48
Ví dụ: Vấn đề về một dây chuyền sản
xuất
H0: m = 3 Đường kính trung bình của phanh đĩa
trong mỗi mẫu là 322 mm.

Ha: m ≠ 3 Hệ thống sản xuất phanh đĩa không đạt yêu cầu,
cần điều chỉnh.

Với: m = đường kính trung bình của phanh đĩa


(theo tổng thể).

49
One-Sample T-Test

Ví dụ: Vấn đề về một dây chuyền sản xuất

1. Xây dựng giả thuyết. H0: m = 3


Ha: m ≠ 3

2. Xác định mức ý nghĩa.  = .1

3. Thực hiện.

50
One-Sample T-Test
• Thực hiện
– Phân tích file brakes.sav
– Chia tập tin đầu tiên thành các nhóm theo số máy
(Machine Number).
• Data\Split File.
– Compare groups.
– Analyze\ Compare Means\ One-Sample T-Test
• Test Variable: Đường kính phanh đĩa (Disc Brake Diameter)
• Test value: 322
• Khoảng phần trăm tin cậy: 90

51
One-Sample T-Test
• Output
– One-Sample Statistics

52
One-Sample T-Test
• Output
– One-Sample Test

53
One-Sample T-Test
• Một số vấn đề
– Sử dụng khi trung bình mẫu phải được so
sánh với một giá trị thử nghiệm được biết.
– Kiểm tra có những giá trị ngoại lệ không.
(skewness, Exploratory Data Analysis hay
boxplots)
– Kiểm tra các giả định rằng giá trị của biến thử
nghiệm thì độc lập của trật tự quan sát.

54
One-Sample T-Test
• Ví dụ: Kiểm định giả thuyết: Tuổi trung bình của
độc giả báo SGTT là 30 tuổi.
– Đặt giả thuyết : Tuổi trung bình của độc giả báo
SGTT =30.
– Options..
• Confidence Interval: Khoảng tin cậy cho sự khác biệt giữa
trung bình và giá trị giả thuyết kiểm tra.
• Missing Values:
– Exclude cases analysis by analysis: Mỗi kiểm định T sử dụng tất
cả các trường hợp chứa giá trị có ý nghĩa đối với biến được
kiểm định
– Exclude cases listwise: Mỗi kiểm định T chỉ sử dụng trường hợp
chỉ có dữ liệu hợp lệ cho tất cả các biến được sử dụng
trong bất kỳ yêu cầu kiểm tra T.

55
Independent-Sample T-Test
• Ví dụ: hãy xem xét điểm thi môn toán và kiểm tra
miệng. Bạn muốn thực hiện thử nghiệm trên điểm
số miệng, bằng cách sử dụng các sinh viên ở trên
và dưới bằng cách chia làm các nhóm độc lập.
• Với thủ tục Independent-sample T-Test, cần phải
cung cấp điểm cắt. Chương trình sẽ phân chia
mẫu thành hai tại điểm cắt và thực hiện các kiểm
tra t. Đặc tính của phương pháp này là điểm cắt
có thể dễ dàng được thay đổi mà không cần để
tạo ra các biến nhóm bằng tay cho mỗi lần.

56
Independent-Sample T-Test
• Hiển thị:
– Mô tả số liệu thống kê cho mỗi biến thử
nghiệm
– Kiểm tra về tính ngang bằng của phương sai
– Một khoảng tin cậy cho sự khác biệt giữa hai
biến (95% hoặc giá trị được chỉ định)

57
Independent-Sample T-Test
• Ví dụ: Phân tích một cửa hàng, muốn
đánh giá chương trình khuyến mãi thẻ tín
dụng gần đây. Chương trình này đã kết
thúc, 500 chủ thẻ đã được lựa chọn ngẫu
nhiên. Một nửa nhận được một quảng
cáo giảm khi mua hàng được thực hiện
trong vòng ba tháng, và một nửa nhận
quảng cáo theo mùa.

58
Independent-Sample T-Test
• Thực hiện
– Phân tích file creditpromo.sav
– Analyze\ Compare Means\ Independent-Sample
T-Test
• Test Variable(s): $ spent during promotional period
• Grouping Variable: Type of mail insert received
• Define Groups:
– Group1: 0
– Group2: 1

59
Independent-Sample T-Test
• Output
– Group Statistics
– Independent Samples Test

60
Independent-Sample T-Test
• Output

61
Independent-Sample T-Test
• Output

62
Independent-Sample T-Test
• Output

63
Independent-Sample T-Test
• Ví dụ: Một cuộc khảo sát xu hướng ngưng sử
dụng được áp dụng cho các tài khoản tại
một công ty điện thoại di động. Thước đo
từ 0-100 điểm, một tài khoản chọn điểm 50
trở lên có thể họ đang tìm kiếm thay đổi
nhà cung cấp. Một nhà quản lý đã khảo sát
và có được 50 khách hàng trên 200 mẫu
ngẫu nhiên, muốn so sánh chúng với số
phút sử dụng trung bình mỗi tháng.
64
Independent-Sample T-Test
• Thực hiện
– Phân tích file cellular.sav
– Analyze\ Compare Means\ Independent-Sample
T-Test
• Test Variable(s): Avg monthly minutes
• Grouping Variable: Propensity to leave
• Define Groups:
– Cut point: 50

65
Independent-Sample T-Test

66
Independent-Sample T-Test

67
Independent-Sample T-Test
• Thích hợp cho hai trung bình rút ra từ những mẫu độc lập cần so
sánh. Các biến được sử dụng để hình thành các nhóm có thể đã tồn
tại, tuynhiên, một điểm cắt trên một biến liên tục có thể cung
cấp tự động tạo ra các nhóm trong quá trình phân tích.
• Giống như với tất cả các T-Test, independent-samples T-Test
giả định rằng mỗi mẫu trung bình thì xuất phát từ một tập hợp bình
thường. Biến kiểm tra với các giá trị xa nhất hoặc xa trung
tâm nên được kiểm tra cẩn thận; sử dụng boxplots cho việc này.
• Có các thủ tục khác có thể sử dụng để kiểm tra các số liệu có đặc
biệt không. Dùng phân tích dữ liệu Exploratory để biết thêm thông
tin.
• Nếu biến nhóm của bạn có nhiều hơn hai nhóm, hãy thử các thủ
tục One-Way ANOVA.

68
Independent-Sample T-Test
• Ví dụ: So sánh giữa 2 khu vực HN và HCM về
số nhân khẩu trung bình của hộ gia đình.
• Kết luận: số nhân khẩu trung bình trong hộ gia
đình ở Tp.HCM lớn hơn một cách có ý nghĩa
thống kê so với HN (dựa trên giá trị trung bình
của mẫu).

69
Paired-Sample T-Test
• Một trong những thiết kế thử nghiệm phổ
biến nhất là thiết kế "pre-post“.
• Kiểm tra giả thuyết có sự khác biệt giữa 2 biến
hay không. Dữ liệu bao gồm 2 phép đo được thực
hiện trên cùng 1 chủ đề hay đo lường được thực
hiện trên 1 đôi của chủ đề.
• Quá trình kiểm nghiệm sẽ bắt đầu từ tính toán
chênh lệch giá trị từng cặp, sau đó xem chênh
lệch trung bình của tổng thể có khác 0 không, nếu
khác 0 tức là có khác biệt .
70
Paired-Sample T-Test
• Cung cấp thông tin
– Mô tả số liệu thống kê cho mỗi biến thử nghiệm
– Mối tương quan Pearson giữa mỗi cặp và ý
nghĩa của nó
– Một khoảng tin cậy của trung bình sự khác
biệt (95% hoặc một giá trị cụ thể)

71
Paired-Sample T-Test
• Ví dụ: Một bác sĩ muốn đánh giá một chế độ
ăn mới cho các bệnh nhân có tiền sử mắc
bệnh tim. Để kiểm tra hiệu quả của chế độ ăn
uống này, 16 bệnh nhân được đặt vào chế độ
ăn uống trong 6 tháng. Trọng lượng và mức độ
mỡ của họ được đo trước và sau khi nghiên
cứu.
– Bác sĩ muốn biết trước và sau của các phép đo đã
có thay đổi không?
72
Paired-Sample T-Test
• Thực hiện
– Phân tích file dietstudy.sav
– Analyze\ Compare Means\ Paired-Sample T-Test
• Paired Variables (Các biến kết hợp):
– Triglyceride, Final Triglyceride
– Weight, Final Weight
• Khoảng phần trăm tin cậy: 95%

73
Paired-Sample T-Test
• Output
– Paired Samples Statistics
– Paired Samples Correlations
– Paired Samples Test

74
Paired-Sample T-Test
• Output

75
Paired-Sample T-Test
• Output

76
Paired-Sample T-Test
• Output

77
Paired-Sample T-Test
• Thích hợp cho hai mẫu trung bình có
liên quan được so sánh.
• Trước khi chạy T-Test, phải đánh giá sự phân
bố của điểm khác biệt bằng cách dùng biểu đồ
histogram, dùng boxplots kiểm tra các giá trị
ngoại lệ hoặc xa trung tâm, hoặc dùng phân
tích dữ liệu bằng Exploratory.

78
Paired-Sample T-Test
• Ví dụ: Công ty chế biến thực phẩm muốn khảo
sát sự đánh giá của người tiêu dùng về loại
đậu phộng chế biến sẵn vừa được cải tiến
thành phần nước bột áo. Tổ chức cho dùng
thử sản phẩm trên cùng 1 nhóm người thu
được những thông tin xác thực về đánh giá
mùi vị, độ ngon.

79
Kiểm định trung bình tổng thể
• Phân tích liên hệ giữa biến nguyên nhân định tính
và biến kết quả định lượng.
(Analyze\Compare Means\)
– So sánh trị trung bình của 1 tổng thể với 1 giá trị cụ
thể. Thực hiện phép kiểm định giả thuyết về trung
bình của tổng thể
(One-Sample T-Test).
– So sánh 2 trị trung bình của 2 nhóm tổng thể riêng
biệt. Thực hiện phép kiểm định giả thuyết về sự bằng
nhau của 2 trung bình của tổng thể dựa trên 2 mẫu
độc lập rút từ 2 tổng thể (Independent-Sample T-
Test).

80
Kiểm định trung bình tổng thể
 So sánh 2 trị trung bình của 2 nhóm tổng thể riêng
biệt (mỗi phần tử quan sát có sự tương đồng theo
cặp với 1 phần tử ở tổng bên kia). Sử dụng phép
kiểm định giả thuyết về sự bằng nhau của 2 trung
bình tổng thể dự trên dl mẫu rút theo cách phối hợp
từng cặp (Paired-Sample T-Test).
• So sánh cho trị trung bình của nhiều nhóm
tổng thể độc lập. Sử dụng pp kiểm định giả
thuyết về sự bằng nhau của trung bình nhiều
tổng thể (One-way ANOVA) (phân tích
phương sai).
81

You might also like