You are on page 1of 4

4 .

Bài toán kiểm định


4.1. Bài toán kiểm định một tham số
Bài toán 1: Thực hiện kiểm định tại mức ý nghĩa 10%, số tuổi trung bình của khách
mua hàng có vượt quá 42 tuổi hay không?
Bài làm:
Gọi µ là số tuổi trung bình của khách mua hàng.
Ho: µ ≤ 42
H1: µ > 42
> t.test(Age,mu=42,alt="g")

One Sample t-test

data: Age
t = 2.1806, df = 499, p-value = 0.01484
alternative hypothesis: true mean is greater than 42
95 percent confidence interval:
42.35616 Inf
sample estimates:
mean of x
43.458
Kết luận: p-value = 0.01484 < mức ý nghĩa= 0.1 => Ta bác bỏ
Ho, chấp nhận H1
Vây tại mức ý nghĩa 10%, đủ bằng chứng thống kê để cho rằng số tuổi trung bình của
khách hàng vượt quá 42 tuổi.

Bài toán 2: Thực hiện kiểm định tại mức ý nghĩa 5%, cho tỷ lệ số người mua hàng có
số tuổi bằng 22 là 3% hay không?
Bài làm:
Gọi p là tỷ lệ số người người mua hàng có số tuổi bằng 22
Ho: p = 0.03
H1: p # 0.03
> sum(Age==22)
[1] 12
> sum(length(Age))
[1] 500
prop.test(12,500,p=0.03,alt="t",correct=T)

1-sample proportions test with continuity correction

data: 12 out of 500, null probability 0.03


X-squared = 0.42955, df = 1, p-value = 0.5122
alternative hypothesis: true p is not equal to 0.03
95 percent confidence interval:
0.01305178 0.04272684
sample estimates:
p
0.024
Kết luận: p-value = 0.5122 > mức ý nghĩa 0.05 => Ta bác bỏ Ho, chấp nhận H1
Vây tại mức ý nghĩa 5%,
4.2. Bài toán kiểm định hai tham số.
Bài toán 1: Kiểm định xem số tiền mua trung bình vào mùa hè có ít hơn vào mùa đông
hay không?? Với mức ý nghĩa 5%.
Bài làm:
Gọi µ1, µ2 lần lượt là số tiền mua trung bình vào mùa hè, mùa đông.
Ho: µ1- µ2 >= 0, H1: µ1- µ2 < 0
Lệnh:
> e=Purchase.Amount..USD.[Season=="Summer"]
> f=Purchase.Amount..USD.[Season=="Winter"]
> t.test(e,f,mu=0,alt="l")

Welch Two Sample t-test

data: e and f
t = -0.67623, df = 241.3, p-value = 0.2498
alternative hypothesis: true difference in means is less than 0
95 percent confidence interval:
-Inf 2.759968
sample estimates:
mean of x mean of y
57.28571 59.20000

Kết luận: p-value = 0.2498 > mức ý nghĩa = 0.05 => nên ta không đủ bằng chứng để
bác bỏ Ho.
Vậy tại mức ý nghĩa 5%, không đủ bằng chứng thống kê cho rằng trung bình số tiền bỏ
ra cho quần áo mùa hè ít hơn so với quần áo
Bài toán 2: Tại mức ý nghĩa 5%, kiểm định tỷ lệ thanh toán Debit Card của Nam cao hơn tỷ lệ
này ở Nữ?
Bài làm:
Gọi p1, p2 lần lượt là tỷ lệ thanh toán Debit Card của Nam cao hơn tỷ lệ này ở Nữ.
Ho: p1-p2 ≤ 0
H1: p1-p2 > 0
> m=sum(Payment.Method=="Debit Card"&Gender=="Male")
> n=sum(Payment.Method=="Debit Card"&Gender=="Female")
> m
[1] 25
> n
[1] 59
> sum(Gender=="Male")
[1] 125
> sum(Gender=="Female")
[1] 375
> prop.test(c(25,59),c(125,375),alt="g",correct=F)

2-sample test for equality of proportions without continuity


correction

data: c(25, 59) out of c(125, 375)


X-squared = 1.221, df = 1, p-value = 0.1346
alternative hypothesis: greater
95 percent confidence interval:
-0.02381362 1.00000000
sample estimates:
prop 1 prop 2
0.2000000 0.1573333

Kết luận: p-value = 0.1346 > mức ý nghĩa = 0.05 => không đủ bằng chứng để
bác bỏ Ho
Vậy tại mức ý nghĩa 5%, không đủ bằng chứng thống kê cho rằng tỷ lệ tỷ lệ thanh toán
Debit Card của Nam cao hơn tỷ lệ này ở Nữ.

4.3. Bài toán Phân Tích Phương Sai.


Vấn đề đặt ra:
Kiểm định tại mức ý nghĩa 5%, số tuổi có ảnh hưởng đến kích thước hàng mà họ chọn
mua sản phẩm có kích thước(S,M,L,XL) không ? Sau đó lập bảng phân tích phương
sai.
Bài làm:
Gọi µ1, µ2, µ3, µ4 lần lượt là số tuổi trung bình của khách hàng mua các sản phẩm có
kích thước S,M,L,XL
Ho: µ1=µ2= µ3= µ4
H1:∃ i,j ∈ {1,2,3,4} : µi # µj

> anova(lm(Age~Size))
Analysis of Variance Table

Response: Age
Df Sum Sq Mean Sq F value Pr(>F)
Size 3 899 299.55 1.3428 0.2597
Residuals 496 110643 223.07

Kết luận: p-value = 0.2597 > mức ý nghĩa= 0.05 => bác bỏ H1, chấp nhận Ho
Vậy tại mức ý nghĩa 5%, đủ bằng chứng thống kê cho rằng số tuổi ảnh hưởng đến kích
cỡ sản phẩm khách hàng mua.

Lập bảng phân tích phương sai:

Tổng bình phương Bậc tự do Phương Sai Tỉ số F


Nguồn biến thiên
(sum Sq) (df) (MS)

Giữa các nhóm 899 3 299.55 1.3428


223.07
Nội bộ các nhóm 110643 496

Tổng 111542 499 522.62

4.4. Kiểm định độ biến động về số tiền mua hàng của người đàn ông và người
phụ nữ có như nhau hay không? Tại mức ý nghĩa 5%

Bài làm: Gọi sigma2(1), sigma2(2) lần lượt là độ biến động về số tiền mua hàng
của người đàn ông và người phụ nữ
Ho: sigma2(1) = sigma2(2)
H1: sigma2(1) # sigma2(2)

> M1=subset(Purchase.Amount..USD.,Gender=="Male")
> M2=subset(Purchase.Amount..USD.,Gender=="Female")
> var.test(M1,M2,mu=0,alt="t")

F test to compare two variances

data: M1 and M2
F = 0.85907, num df = 124, denom df = 374, p-value = 0.3185
alternative hypothesis: true ratio of variances is not equal to 1
95 percent confidence interval:
0.6507529 1.1582626
sample estimates:
ratio of variances
0.8590712

Kết luận: p-value = 0.3185 > mức ý nghĩa 0.05 => Không đủ chứng cứ để bác
bỏ Ho.
Tại mức ý nghĩa 5%, đủ bằng chứng thống kê cho rằng độ biến động về số tiền
mua hàng của đàn ông và phụ nữ là như nhau.

4.5. Kiểm định tại mức ý nghĩa 5%, Loại quần áo khách hàng mua không có mối
liên hệ với các mùa trong năm hay không?
Bài làm:
Ho: Loại quần áo khách hàng mua và các mùa trong năm không có liên hệ với nhau
H1: Loại quần áo khách hàng mua và các mùa trong năm có liên hệ với nhau

matran=table(Category,Season)
> chisq.test(matran)

Pearson's Chi-squared test

data: matran
X-squared = 5.2612, df = 9, p-value = 0.811

Kết luận: p-value = 0.811 > mức ý nghĩa 0.05 => không đủ bằng chứng bác bỏ
Ho
Tại mức ý nghĩa 5%, Loại quần áo khách hàng mua và các mùa trong năm không có
liên hệ với nhau.
Bài toán 4.6: Tại mức ý nghĩa 5%, đánh giá xếp hạng của các đối tượng theo dữ
liệu điều tra có tuân theo phân phối chuẩn hay không?
Bài làm:
Ho: đánh giá xếp hạng của các đối tượng theo dữ liệu điều tra có tuân theo phân
phối chuẩn
H1: đánh giá xếp hạng của các đối tượng theo dữ liệu điều tra có tuân theo phân
phối chuẩn

Lệnh:
> shapiro.test(Review.Rating)

Shapiro-Wilk normality test

data: Review.Rating
W = 0.95164, p-value = 1.007e-11

Nhận xét: p-value = 1.007e-11 < mức ý nghĩa 0.05 => bác bỏ Ho, chấp nhận H1.
Kết luận: Tại mức ý nghĩa 5%, đủ bằng chứng thống kê cho rằng đánh giá xếp
hạng của các đối tượng theo dữ liệu điều tra không tuân theo phân phối chuẩn.

You might also like