Bài 3-Môn phân tích xử lý số liệu thực nghiệm-IUH

Thống kê mô tả
T-Test, Chi-squared Test
Số liệu dạng phân loại (biến không liên tục)
• Số liệu phân loại:

–Giới tính: nam, nữ
–Chủng tộc: Á, Âu, Phi
• Số liệu bán định lượng:

–Tình trạng bệnh tật: ôn hòa, khá, nghiêm trọng
–Giai đoạn của bệnh ung thư: I, II, III, IV
–Ưa thích: Rất không thích, không thích, không ý kiến,
thích, rất thích
1
Xấp xỉ phân phối chuẩn của một phân phối nhị
thức
• Đối với cá nhân người tiêu dùng i, xác suất thích sản phẩm A là
pi. Giả thiết rằng tất cả người tiêu dùng là độc lập thì pi = p.
• Phương sai của pi là var(pi) = p(1-p)
• Đối với 1 mẫu của n người tiêu dùng, xác suất ước lượng mức
độ ưa thích sản phẩm A là: p + p2 + p3 + ... + pn
p= 1
n
Và phương sai của p là:
p (1 - p )
var( p ) =
n
Độ lệch chuẩn: p (1 - p )
s= 3
n
3
Xấp xỉ phân phối chuẩn của một phân phối nhị thức
• 10 người, 8 người thích A.
• Tỉ lệ ưa thích A: p = 0.8
• Phương sai: var(p) = 0.8(0.2)/10 = 0.016
• Độ lệch chuẩn của p: s = 0.126
• 95% CI of p: 0.8 + 1.96(0.126) = 0.55 to 1.00
2
Kiểm định giả thiết và Trị số p
Chương 7, Giáo trình Phân tích số liệu và vẽ biểu đồ bằng R.
Dữ liệu liên tục

Kiểm định T-student
3
Các giả định của kiểm định T-Student (T-Test)
• Số liệu dạng số (numeric) và liên tục (continuous)
• Phân phối chuẩn (normal distribution)
Kiểm định T cho một mẫu (one-sample T-test)
R command: t.test(age, mu=30)

8
4
Paired t-test – ví dụ
• Vấn đề: Đánh giá một loại thịt dưới ánh sáng trắng và ánh sáng đỏ về
mức độ ưa thích loại thịt. 12 người tham gia được hỏi đánh giá mức
độ đỏ của thịt dưới ánh sáng đỏ và ánh sáng trắng
Kết quả:
Người AS đỏ AS trắng
1 20 22
2 18 19
3 19 17
4 22 18
5 17 21
6 20 23
7 19 19
8 16 20
9 21 22
10 17 20
11 23 27
12 18 24
Paired t-test – phân tích

Người AS đỏ AS trắng Sự khác biệt
(trắng – đỏ)
Sự khác biệt: d=1.83, SD= 2.82
1 20 22 2
2 18 19 1 Sai số chuẩn (SE) = SD/sqrt(n) =
3 19 17 -2
2.82/sqrt(12) = 0.81
4 22 18 -4
5 17 21 4
T-test = (1.83 – 0)/0.81 = 2.2496
6 20 23 3
7 19 19 0 df = 12-1 = 11
8 16 20 4 p-value = 0.0459
9 21 22 1
Kết luận: Có sự khác nhau có ý
10 17 20 3
nghĩa về hiệu ứng màu sắc của
11 23 27 4
ánh sáng.
12 18 24 6
GTTB 19.16 21.00 1.83 Note: R commands tìm p-value:
SD 2.12 2.80 2.82 p-value= (1-pt(2.2496,11))*2
10
10
5
Paired t-test – R phân tích
red<-c(20,18,19,22,17,20,19,16,21,17,23,18)
white<-c(22,19,17,18,21,23,19,20,22,20,27,24)
t.test(red, white, paired=TRUE)
data: red and white

t = -2.2496, df = 11, p-value = 0.04592
alternative hypothesis: true difference in means is not
equal to 0
95 percent confidence interval:
-3.6270234 -0.0396433
sample estimates:
mean of the differences
-1.833333
11
11
Two-sample t-test (equal variance)

Sự khác biệt:
D=x–y
Mẫu Nhóm 1 Nhóm2 Phương sai của D:
1 x1 y1
2 x2 y2
3 x3 y3
4 x4 y4
5 x5 y5 T-statistic:
… …
n xn yn
Kích thước n1 n2
GTTB x y 95% khoảng tin cậy:
SD sx sy
df=n1+n2-2 12
12
6
Two-group comparison: Ví dụ
20 người tiêu dùng đánh giá mức độ ưa thích
của hộ đối với 2 món ăn tráng miệng làm từ gạo
(A & B)
13
13
Two sample t-test Equal variance - dùng R

a<-c(3,7,1,9,3,4,1,2,6,7,5,8,5,9,4,6,4,3,9,5)
b<-c(3,1,2,4,5,2,2,5,3,2,3,4,2,3,5,4,3,1,3,2)
t.test(a,b,var.equal=TRUE)
14
14
7
Two sample t-test Unequal variance - dùng R
a<-c(3,7,1,9,3,4,1,2,6,7,5,8,5,9,4,6,4,3,9,5)
b<-c(3,1,2,4,5,2,2,5,3,2,3,4,2,3,5,4,3,1,3,2)
t.test(a,b)
15
15
Chuyển đổi dữ liệu: multiplicative effects
Ví dụ sau thể hiện mức độ enzym lysozyme có trong gastric juice của 29
bệnh nhân bị bệnh (peptic ulcer) và 30 người bình thường ( normal
controls). Kết quả cho thấy có sự khác biệt giữa hai nhóm.
Group 1:
0.2 0.3 0.4 1.1 2.0 2.1 3.3 3.8 4.5 4.8 4.9 5.0 5.3 7.5 9.8 10.4
10.9 11.3 12.4 16.2 17.6 18.9 20.7 24.0 25.4 40.0 42.2 50.0 60.0
Group 2:
0.2 0.3 0.4 0.7 1.2 1.5 1.5 1.9 2.0 2.4 2.5 2.8 3.6 4.8 4.8 5.4 5.7
5.8 7.5 8.7 8.8 9.1 10.3 15.6 16.1 16.5 16.7 20.0 20.7 33.0
16
16
8
Unpaired t-test by R
g1 <-c( 0.2, 0.3, 0.4, 1.1, 2.0, 2.1, 3.3, 3.8,
4.5, 4.8, 4.9, 5.0, 5.3, 7.5, 9.8, 10.4,
10.9, 11.3, 12.4, 16.2, 17.6, 18.9, 20.7,
24.0, 25.4, 40.0, 42.2, 50.0, 60)
g2 <-c(0.2, 0.3, 0.4, 0.7, 1.2, 1.5, 1.5, 1.9, 2.0,
2.4, 2.5, 2.8, 3.6, 4.8, 4.8, 5.4, 5.7, 5.8,
7.5, 8.7, 8.8, 9.1, 10.3, 15.6, 16.1, 16.5,
16.7, 20.0, 20.7, 33.0)
t.test(g1, g2)
data: g1 and g2
t = 2.0357, df = 40.804, p-value = 0.04831
equal to 0
0.05163216 13.20239083
sample estimates:
mean of x mean of y
14.310345 7.683333
17
17
Giải thích số liệu
Phân màn hình thành 1 Histogram of g1 Histogram of g2

dòng 2 cột
par(mfrow=c(1,2))
15
15
hist(g1)
hist(g2)
Group 1:
10
10
Frequency
Frequency
mean(g1) = 14.3
sd(g1) = 15.7
Group 2:
5
mean(g2) = 7.7
sd(g2) = 7.8
0
0 10 20 30 40 50 60 0 5 10 20 30
g1 g2
18
18
9
Phân tích lại số liệu về lysozyme
log.g1 <- log(g1)
log.g2 <- log(g2)
t.test(log.g1, log.g2)
data: log.g1 and log.g2
t = 1.406, df = 55.714, p-value = 0.1653
equal to 0
-0.2182472 1.2453165
sample estimates:
mean of x mean of y
1.921094 1.407559
exp(1.921-1.407) = 1.67
Giá trị trung bình của nhóm 1 lớn hơn GTTB nhóm 2 là 67%
19
19
Kiểm định Wilcoxon: wilcox.test()

• Trường hợp áp dụng: biến dữ liệu không tuân theo phân phối chuẩn
• Ví dụ: biến igfi trong dữ liệu igf

• Kiểm định phân phối chuẩn:
shapiro.test(igfi)
W = 0.8528, p-value = 1.504e-08
> wilcox.test(igfi ~ sex)

Wilcoxon rank sum test with continuity correction
data: igfi by sex
W = 1125, p-value = 0.6819
alternative hypothesis: true mu is not equal to 0
Trị số p = 0.682 > alpha=0.05, cho thấy quả thật độ khác biệt về igﬁ giữa hai nhóm
nam và nữ không có ý nghĩa thống kê.
20
20
10
Kiểm định Wilcoxon cho các biến số theo cặp (wilcox.test)
• Thay vì dùng kiểm định t cho từng cặp, chúng ta cũng có thể sử dụng hàm wilcox.test
cho cùng mục đích:
• Ví dụ: Một nhóm bệnh nhân gồm 10 người được điều trị bằng một thuốc nhằm giảm
huyết áp. Huyết áp của bệnh nhân được đo lúc khởi đầu nghiên cứu (lúc chưa điều
trị), và sau khi điều khị. Số liệu huyết áp của 10 bệnh nhân như sau:
Trước khi điều trị (x0): 180, 140, 160, 160, 220, 185, 145, 160, 160, 170
Sau khi điều trị (x1): 170, 145, 145, 125, 205, 185, 150, 150, 145, 155
> # nhập dữ kiện

> before <- c(180, 140, 160, 160, 220, 185, 145, 160, 160, 170)
> after <- c(170, 145, 145, 125, 205, 185, 150, 150, 145, 155)
> bp <- data.frame(before, after)
> wilcox.test(before, after, paired=TRUE)
Wilcoxon signed rank test with continuity correction

data: before and after
V = 42, p-value = 0.02291
alternative hypothesis: true mu is not equal to 0
21
21
Dữ liệu gián đoạn:

Kiểm định tỷ lệ
22
22
11
So sánh hai tỉ lệ
Nhóm
1 2
____________________________________________
Kích thước mẫu n1 n2

Số sự kiện e1 e2
Tỉ lệ của sự kiện p1 p2
Sai khác biệt: D = p1 – p2

Sai số khác biệt: SE = [p1(1–p1)/n1 + p2(1–p2)/n2]1/2
Z = D / SE
95% CI: D + 1.96(SE)
Với (n1 + n2) > 20, và nếu Z > 2, có thể từ chối giả thiết Ho.
23
23
So sánh hai tỉ lệ- Ví dụ

Phân tích
Thirty-day mortality rate (%) of 100
rats who had been exposed to heroine Difference: D = 0.90 – 0.36 =
or cocain. 0.54
SE (D) = [0.9(0.1)/100 +
Group 0.36(0.64)/100]1/2
Heroine Cocaine = 0.057
__________________________________________
Sample size 100 100 Z = 0.54 / 0.057 = 9.54
Number of deaths 90 36
Mortality rate 0.90 0.36 95% CI:
0.54 + 1.96(0.057)
0.43 to 0.65
Kết luận: Từ chối giả thiết Ho.
24
24
12
So sánh 2 tỉ lệ - R
events <- c(90, 36)
total <- c(100, 100)
prop.test(events, total)
2-sample test for equality of proportions with

continuity correction
data: deaths out of total

X-squared = 60.2531, df = 1, p-value = 8.341e-15
alternative hypothesis: two.sided
0.4190584 0.6609416
sample estimates:
prop 1 prop 2
0.90 0.36
25
25
So sánh hơn 2 tỉ lệ – Prop.test

Tập số liệu igf:
table(sex, ethnicity)
ethnicity
sex African Asian Caucasian Others
Female 4 43 22 0
Male 4 17 8 2
females <- c(4, 43, 22, 0)

total <- c(8, 60, 30, 2)
prop.test(females, total)
26
26
13
So sánh hơn 2 tỉ lệ – Prop.test
4-sample test for equality of proportions without
continuity correction
data: females out of total

X-squared = 6.2646, df = 3, p-value = 0.09942
alternative hypothesis: two.sided
sample estimates:
prop 1 prop 2 prop 3 prop 4
0.5000000 0.7166667 0.7333333 0.0000000
Warning message:
Chi-squared approximation may be incorrect in:
prop.test(females, total)
27
27
Kiểm định Chi bình phương (Chi squared

test, chisq.test)
> chisq.test(sex, ethnicity)
Pearson's Chi-squared test

data: sex and ethnicity
X-squared = 6.2646, df = 3, p-value = 0.09942
Warning message:
Chi-squared approximation may be incorrect in:
chisq.test(sex, ethnicity)
28
28
14

Bài 3-Môn phân tích xử lý số liệu thực nghiệm-IUH

Uploaded by

Copyright:

Available Formats

You might also like

Bài 3-Môn phân tích xử lý số liệu thực nghiệm-IUH

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bài 3-Môn phân tích xử lý số liệu thực nghiệm-IUH

Uploaded by

Copyright:

Available Formats

Thống kê mô tả

T-Test, Chi-squared Test

Số liệu dạng phân loại (biến không liên tục)

• Số liệu phân loại:

• Số liệu bán định lượng:

Dữ liệu liên tục

Kiểm định T cho một mẫu (one-sample T-test)

R command: t.test(age, mu=30)

Paired t-test – phân tích

data: red and white

Two-sample t-test (equal variance)

Two sample t-test Equal variance - dùng R

Chuyển đổi dữ liệu: multiplicative effects

Giải thích số liệu

Phân màn hình thành 1 Histogram of g1 Histogram of g2

Kiểm định Wilcoxon: wilcox.test()

• Ví dụ: biến igfi trong dữ liệu igf

> wilcox.test(igfi ~ sex)

> # nhập dữ kiện

Wilcoxon signed rank test with continuity correction

Dữ liệu gián đoạn:

Kích thước mẫu n1 n2

Sai khác biệt: D = p1 – p2

95% CI: D + 1.96(SE)

So sánh hai tỉ lệ- Ví dụ

Kết luận: Từ chối giả thiết Ho.

2-sample test for equality of proportions with

data: deaths out of total

So sánh hơn 2 tỉ lệ – Prop.test

females <- c(4, 43, 22, 0)

data: females out of total

Kiểm định Chi bình phương (Chi squared

Pearson's Chi-squared test

You might also like