Bài 3-Môn phân tích xử lý số liệu thực nghiệm-IUH

You might also like

You are on page 1of 14

Thống kê mô tả

T-Test, Chi-squared Test

Số liệu dạng phân loại (biến không liên tục)

• Số liệu phân loại:


–Giới tính: nam, nữ
–Chủng tộc: Á, Âu, Phi

• Số liệu bán định lượng:


–Tình trạng bệnh tật: ôn hòa, khá, nghiêm trọng
–Giai đoạn của bệnh ung thư: I, II, III, IV
–Ưa thích: Rất không thích, không thích, không ý kiến,
thích, rất thích

1
Xấp xỉ phân phối chuẩn của một phân phối nhị
thức
• Đối với cá nhân người tiêu dùng i, xác suất thích sản phẩm A là
pi. Giả thiết rằng tất cả người tiêu dùng là độc lập thì pi = p.
• Phương sai của pi là var(pi) = p(1-p)

• Đối với 1 mẫu của n người tiêu dùng, xác suất ước lượng mức
độ ưa thích sản phẩm A là: p + p2 + p3 + ... + pn
p= 1
n
Và phương sai của p là:
p (1 - p )
var( p ) =
n
Độ lệch chuẩn: p (1 - p )
s= 3
n
3

Xấp xỉ phân phối chuẩn của một phân phối nhị thức
• 10 người, 8 người thích A.
• Tỉ lệ ưa thích A: p = 0.8
• Phương sai: var(p) = 0.8(0.2)/10 = 0.016
• Độ lệch chuẩn của p: s = 0.126
• 95% CI of p: 0.8 + 1.96(0.126) = 0.55 to 1.00

2
Kiểm định giả thiết và Trị số p
Chương 7, Giáo trình Phân tích số liệu và vẽ biểu đồ bằng R.

Dữ liệu liên tục


Kiểm định T-student

3
Các giả định của kiểm định T-Student (T-Test)
• Số liệu dạng số (numeric) và liên tục (continuous)
• Phân phối chuẩn (normal distribution)

Kiểm định T cho một mẫu (one-sample T-test)

R command: t.test(age, mu=30)


8

4
Paired t-test – ví dụ
• Vấn đề: Đánh giá một loại thịt dưới ánh sáng trắng và ánh sáng đỏ về
mức độ ưa thích loại thịt. 12 người tham gia được hỏi đánh giá mức
độ đỏ của thịt dưới ánh sáng đỏ và ánh sáng trắng
Kết quả:
Người AS đỏ AS trắng
1 20 22
2 18 19
3 19 17
4 22 18
5 17 21
6 20 23
7 19 19
8 16 20
9 21 22
10 17 20
11 23 27
12 18 24

Paired t-test – phân tích


Người AS đỏ AS trắng Sự khác biệt
(trắng – đỏ)
Sự khác biệt: d=1.83, SD= 2.82
1 20 22 2
2 18 19 1 Sai số chuẩn (SE) = SD/sqrt(n) =
3 19 17 -2
2.82/sqrt(12) = 0.81
4 22 18 -4
5 17 21 4
T-test = (1.83 – 0)/0.81 = 2.2496
6 20 23 3
7 19 19 0 df = 12-1 = 11
8 16 20 4 p-value = 0.0459
9 21 22 1
Kết luận: Có sự khác nhau có ý
10 17 20 3
nghĩa về hiệu ứng màu sắc của
11 23 27 4
ánh sáng.
12 18 24 6
GTTB 19.16 21.00 1.83 Note: R commands tìm p-value:
SD 2.12 2.80 2.82 p-value= (1-pt(2.2496,11))*2
10

10

5
Paired t-test – R phân tích
red<-c(20,18,19,22,17,20,19,16,21,17,23,18)
white<-c(22,19,17,18,21,23,19,20,22,20,27,24)
t.test(red, white, paired=TRUE)

data: red and white


t = -2.2496, df = 11, p-value = 0.04592
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
-3.6270234 -0.0396433
sample estimates:
mean of the differences
-1.833333

11

11

Two-sample t-test (equal variance)


Sự khác biệt:
D=x–y
Mẫu Nhóm 1 Nhóm2 Phương sai của D:
1 x1 y1
2 x2 y2
3 x3 y3
4 x4 y4
5 x5 y5 T-statistic:
… …
n xn yn
Kích thước n1 n2
GTTB x y 95% khoảng tin cậy:
SD sx sy

df=n1+n2-2 12

12

6
Two-group comparison: Ví dụ
20 người tiêu dùng đánh giá mức độ ưa thích
của hộ đối với 2 món ăn tráng miệng làm từ gạo
(A & B)

13

13

Two sample t-test Equal variance - dùng R


a<-c(3,7,1,9,3,4,1,2,6,7,5,8,5,9,4,6,4,3,9,5)
b<-c(3,1,2,4,5,2,2,5,3,2,3,4,2,3,5,4,3,1,3,2)
t.test(a,b,var.equal=TRUE)

14

14

7
Two sample t-test Unequal variance - dùng R
a<-c(3,7,1,9,3,4,1,2,6,7,5,8,5,9,4,6,4,3,9,5)
b<-c(3,1,2,4,5,2,2,5,3,2,3,4,2,3,5,4,3,1,3,2)
t.test(a,b)

15

15

Chuyển đổi dữ liệu: multiplicative effects

— Ví dụ sau thể hiện mức độ enzym lysozyme có trong gastric juice của 29
bệnh nhân bị bệnh (peptic ulcer) và 30 người bình thường ( normal
controls). Kết quả cho thấy có sự khác biệt giữa hai nhóm.

Group 1:
0.2 0.3 0.4 1.1 2.0 2.1 3.3 3.8 4.5 4.8 4.9 5.0 5.3 7.5 9.8 10.4
10.9 11.3 12.4 16.2 17.6 18.9 20.7 24.0 25.4 40.0 42.2 50.0 60.0

Group 2:
0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8 3.6 4.8 4.8 5.4 5.7
5.8 7.5 8.7 8.8 9.1 10.3 15.6 16.1 16.5 16.7 20.0 20.7 33.0

16

16

8
Unpaired t-test by R
g1 <-c( 0.2, 0.3, 0.4, 1.1, 2.0, 2.1, 3.3, 3.8,
4.5, 4.8, 4.9, 5.0, 5.3, 7.5, 9.8, 10.4,
10.9, 11.3, 12.4, 16.2, 17.6, 18.9, 20.7,
24.0, 25.4, 40.0, 42.2, 50.0, 60)
g2 <-c(0.2, 0.3, 0.4, 0.7, 1.2, 1.5, 1.5, 1.9, 2.0,
2.4, 2.5, 2.8, 3.6, 4.8, 4.8, 5.4, 5.7, 5.8,
7.5, 8.7, 8.8, 9.1, 10.3, 15.6, 16.1, 16.5,
16.7, 20.0, 20.7, 33.0)
t.test(g1, g2)
data: g1 and g2
t = 2.0357, df = 40.804, p-value = 0.04831
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
0.05163216 13.20239083
sample estimates:
mean of x mean of y
14.310345 7.683333
17

17

Giải thích số liệu

Phân màn hình thành 1 Histogram of g1 Histogram of g2


dòng 2 cột
par(mfrow=c(1,2))
15

15

hist(g1)
hist(g2)

Group 1:
10

10
Frequency

Frequency

mean(g1) = 14.3
sd(g1) = 15.7
Group 2:
5

mean(g2) = 7.7
sd(g2) = 7.8
0

0 10 20 30 40 50 60 0 5 10 20 30

g1 g2

18

18

9
Phân tích lại số liệu về lysozyme
log.g1 <- log(g1)
log.g2 <- log(g2)
t.test(log.g1, log.g2)
data: log.g1 and log.g2
t = 1.406, df = 55.714, p-value = 0.1653
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
-0.2182472 1.2453165
sample estimates:
mean of x mean of y
1.921094 1.407559

exp(1.921-1.407) = 1.67
Giá trị trung bình của nhóm 1 lớn hơn GTTB nhóm 2 là 67%
19

19

Kiểm định Wilcoxon: wilcox.test()


• Trường hợp áp dụng: biến dữ liệu không tuân theo phân phối chuẩn

• Ví dụ: biến igfi trong dữ liệu igf


• Kiểm định phân phối chuẩn:
shapiro.test(igfi)
W = 0.8528, p-value = 1.504e-08

> wilcox.test(igfi ~ sex)


Wilcoxon rank sum test with continuity correction
data: igfi by sex
W = 1125, p-value = 0.6819
alternative hypothesis: true mu is not equal to 0

Trị số p = 0.682 > alpha=0.05, cho thấy quả thật độ khác biệt về igfi giữa hai nhóm
nam và nữ không có ý nghĩa thống kê.
20

20

10
Kiểm định Wilcoxon cho các biến số theo cặp (wilcox.test)

• Thay vì dùng kiểm định t cho từng cặp, chúng ta cũng có thể sử dụng hàm wilcox.test
cho cùng mục đích:
• Ví dụ: Một nhóm bệnh nhân gồm 10 người được điều trị bằng một thuốc nhằm giảm
huyết áp. Huyết áp của bệnh nhân được đo lúc khởi đầu nghiên cứu (lúc chưa điều
trị), và sau khi điều khị. Số liệu huyết áp của 10 bệnh nhân như sau:

Trước khi điều trị (x0): 180, 140, 160, 160, 220, 185, 145, 160, 160, 170
Sau khi điều trị (x1): 170, 145, 145, 125, 205, 185, 150, 150, 145, 155

> # nhập dữ kiện


> before <- c(180, 140, 160, 160, 220, 185, 145, 160, 160, 170)
> after <- c(170, 145, 145, 125, 205, 185, 150, 150, 145, 155)
> bp <- data.frame(before, after)
> wilcox.test(before, after, paired=TRUE)

Wilcoxon signed rank test with continuity correction


data: before and after
V = 42, p-value = 0.02291
alternative hypothesis: true mu is not equal to 0
21

21

Dữ liệu gián đoạn:


Kiểm định tỷ lệ

22

22

11
So sánh hai tỉ lệ
Nhóm
1 2
____________________________________________

Kích thước mẫu n1 n2


Số sự kiện e1 e2
Tỉ lệ của sự kiện p1 p2

Sai khác biệt: D = p1 – p2


Sai số khác biệt: SE = [p1(1–p1)/n1 + p2(1–p2)/n2]1/2

Z = D / SE

95% CI: D + 1.96(SE)

Với (n1 + n2) > 20, và nếu Z > 2, có thể từ chối giả thiết Ho.
23

23

So sánh hai tỉ lệ- Ví dụ


Phân tích
Thirty-day mortality rate (%) of 100
rats who had been exposed to heroine Difference: D = 0.90 – 0.36 =
or cocain. 0.54
SE (D) = [0.9(0.1)/100 +
Group 0.36(0.64)/100]1/2
Heroine Cocaine = 0.057
__________________________________________
Sample size 100 100 Z = 0.54 / 0.057 = 9.54
Number of deaths 90 36
Mortality rate 0.90 0.36 95% CI:
0.54 + 1.96(0.057)
0.43 to 0.65

Kết luận: Từ chối giả thiết Ho.

24

24

12
So sánh 2 tỉ lệ - R
events <- c(90, 36)
total <- c(100, 100)
prop.test(events, total)

2-sample test for equality of proportions with


continuity correction

data: deaths out of total


X-squared = 60.2531, df = 1, p-value = 8.341e-15
alternative hypothesis: two.sided
95 percent confidence interval:
0.4190584 0.6609416
sample estimates:
prop 1 prop 2
0.90 0.36

25

25

So sánh hơn 2 tỉ lệ – Prop.test


Tập số liệu igf:

table(sex, ethnicity)
ethnicity
sex African Asian Caucasian Others
Female 4 43 22 0
Male 4 17 8 2

females <- c(4, 43, 22, 0)


total <- c(8, 60, 30, 2)
prop.test(females, total)

26

26

13
So sánh hơn 2 tỉ lệ – Prop.test
4-sample test for equality of proportions without
continuity correction

data: females out of total


X-squared = 6.2646, df = 3, p-value = 0.09942
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3 prop 4
0.5000000 0.7166667 0.7333333 0.0000000

Warning message:
Chi-squared approximation may be incorrect in:
prop.test(females, total)

27

27

Kiểm định Chi bình phương (Chi squared


test, chisq.test)
> chisq.test(sex, ethnicity)

Pearson's Chi-squared test


data: sex and ethnicity
X-squared = 6.2646, df = 3, p-value = 0.09942

Warning message:
Chi-squared approximation may be incorrect in:
chisq.test(sex, ethnicity)

28

28

14

You might also like