You are on page 1of 16

Chương 1:

Lệnh c
c()
Nhập dữ liệu bảng
data.frame()

Trung bình
mean()

Phương sai
var()

Độ lệch chuẩn

sd()

Trung vị
median()

Khoảng
range()

Cỡ mẫu
length()
Nhỏ nhất, lớn nhất
min() max()

Chương 3

Biểu đồ tròn

x <- c(32, 12, 30, 53)

> labels <- c("California", "Paris", "Moscow", "Mumbai")

> pie(x,labels,main="city areas")


Biểu đồ thanh

H <- c(25,12,43,7,51)

> M <- c("Delhi","Beijing","Washington","Tokyo","Moscow")

> barplot(H,xlab="Month",ylab="Happiness Index",col=“violet",names.arg=M, main="Happiness


Index",border="red")
Biểu đồ thanh ngang

> barplot(H,xlab="Month",ylab="Happiness Index", horiz=TRUE,col="blue",names.arg=M,


main="Happiness Index",border="red")
Biểu đồ thanh xếp chồng

1 mẫu: x<- read.table(text = "Coffee Milk Tea Water

1 2 6 9 7

2 6 3 9 5

3 1 4 3 4

4 8 7 2 3", header=TRUE)

> barplot(as.matrix(x))
Biểu đồ thanh nhóm

a <- read.table(text = "Coffee Milk Tea Water

A 2 6 9 7

B 6 3 9 5

C 1 4 3 4

D 8 7 2 3

")

> barplot(as.matrix(x), main="drink preference",xlab="drink styles", col=c("darkblue","red"),


legend = rownames(s), beside=TRUE)
Biêu đò tần số

x <- c(500, 600, 450, 200, 350, 700, 100, 400, 900, 350, 250, 600, 800, 200, 550, 450, 1000, 550, 950,
1100, 800, 650, 850, 200, 250, 600, 450, 650, 750, 700)

> hist(x, main="Doanh thu tháng 10/201X", xlab = "doanh thu ngày", border="pink", col="green",
xlim=c(0,1200), breaks = 5)
Biểu đồ đường

v <- c(8,14,26,5,43)

> plot(v,type="o",col="blue",xlab="month",ylab="rain fall", main="rain fall chart")


Vẽ them đường vào biểu đồ

v <- c(8,14,26,5,43)

> t <- c(14,7,8,10,13)

> plot(v,type="o",col="blue",xlab="Month",ylab="Rain fall",main="Rain fall chart")

> lines(t, type="o", col="red")


Biểu đồ phân tán

a <- c (6, 7, 8.5, 9, 4.5, 4, 6, 9, 6.5, 7, 5, 5.5, 6, 6.5, 8, 4, 4.5, 7, 6, 8 )

> b <- c(600, 620, 700, 1000, 200, 180, 550, 900, 620, 650, 450, 500, 570, 610, 820, 300, 350, 600, 640,
740)

> plot(x=a,y=b, xlab = "điểm thi", ylab = "số giờ học", xlim = c(4,9), ylim = c(400,1000), main="mối liên hệ
giữa số giờ học và điểm thi")
Chương 4

Tại công ty Bitis Đồng Nai ngày 30/6/2018. Kế toán vật tư phối hợp với thủ kho thực hiện
thống kê về tỷ lệ hư hỏng của loại giày thể thao nam tồn kho. Người ta tiến hành kiểm
tra ngẫu nhiên 200 đôi giày thể thao nam trong kho (số tồn theo sổ kế toán là 1.200 đôi).
thì thấy có 5 đôi bị tróc keo (keo không dính) hoặc không còn chất lượng. Với độ tin cậy
96%. Kế toán vật tư đã ước tính tỷ lệ giày thể thao nam bị hư hỏng trong kho và báo cáo
cho cấp trên.

Gọi p là tỷ lệ đôi giày thể thao nam bị hư hỏng trong kho của công ty Bitis Đồng Nai. khi
đó ta cần xác định khoảng tin cậy cho p với độ tin cậy 96%.
Theo đề ta có cơ mẫu là n = 200. tỷ lệ mẫu là r = 5/200 = ?. Với độ tin cậy 96% đề bài
cho. ta tìm được số giá trị tới hạn t bằng hàm qnorm() trên R
và kết quả của khoảng tin cậy cho p là

0.002327226 < p < 0.047672774

Hay 0.23% < p < 4.76%

trangdepgai<-function(alpha,r,n)
+ {t=qnorm(1-alpha/2);
+ epsilon=t*sqrt(r*(1-r)/n);
+ cand=r-epsilon;
+ cant=r+epsilon;
+ c(cand,mcant)
+ }
trangdepgai(alpha,r,n)

2 mẫu

Giám đốc công ty TAK đã yêu cầu nhóm sale khu vực thị xã Long Khánh thực hiện nghiên
cứu đánh giá thị trường về mặt hàng Collagen Venus Charge Peptide 20.000mg và ước
tính khối lượng bán mặt hàng Collagen này. Người ta đã tiến hành điều tra ngẫu nhiên
500 người dân tại TX Long Khánh. thấy có 50 người ưa thích. đang sử dụng sản phẩm
của công ty và 70 người trả lời sẽ sử dụng thử trong thời gian tới. Nhóm sale đã ước tính
số người ưa thích đang sử dụng. số sẽ sử dụng loại sản phẩm Collagen Venus và đánh giá
tiềm năng của thị trường này với độ tin cậy 98%. Biết rằng địa phương đó có 10.000 dân.

Gọi p1 là tỷ lệ người ưa thích đang sử dụng sản phẩm của TAK và p2 tỷ lệ người sẽ sử
dụng sản phẩm trong thời gian tới. Khi đó ta cần xác định khoảng tin cậy cho p1 và p2
với mức ý nghĩa 2%.

Ta có, mẫu nghiên cứu với kích thước n = 500, tỷ lệ mẫu của số người đang sử dụng là r1
= 50/500 = 0.1 và tỷ lệ mẫu số người sẽ sử dụng là r2 = 70/500 = 0.14.

Với độ tin cậy 98% đề bài cho, ta tìm được giá trị tới hạn t bằng hàm qnorm() trên R

và kết quả của khoảng tin cậy cho p1 và p2 như sau (kết quả xuất từ phần mềm R)

0.06878877 < p1 < 0.13121123


0.1039004 < p2 < 0.1760996

Hay

6.9% < p1 < 13.1%

10.4% < p2 < 17.6%

Ước tính số người tiêu thụ và đánh giá tiềm năng của thị trường Long Khánh

Ước tính tỷ lệ tiềm năng của thị trường Long Khánh

17.3% < p1+p2 < 30.7%

Ước tính số khách hàng tiềm năng tại thị trường này là (mu)

1730 < mu < 3070 (khách hàng)

Chương 5:

Khi Kiểm Định ta xét giá trị p-value:

Ý nghĩa: Khi p-value > α, ta chấp nhận giả thiết H

Khi p-value < α, ta bác bỏ giả thiết H, chấp nhận đối thiết H-

Kiểm định tỷ lệ 1 mẫu

Ví dụ . Trong nghiên cứu trên, chúng ta thấy có 69 nữ và 31 nam. Như vậy tỉ lệ nữ là 0.69 (hay 69%). Để
kiểm định xem tỉ lệ này có thật sự khác với tỉ lệ 0.5 hay không?

Chúng ta có thể sử dụng hàm prop.test(x, n, π) như sau:

> prop.test(69, 100, 0.50)

1-sample proportions test with continuity correction

data: 69 out of 100, null probability 0.5


X-squared = 13.69, df = 1, p-value = 0.0002156
alternative hypothesis: true p is not equal to 0.5
95 percent confidence interval:
0.5885509 0.7766330
sample estimates:
p
0.69
Trong kết quả trên, prop.test ước tính tỉ lệ nữ giới là 0.69, và khoảng tin cậy 95% là 0.588 đến 0.776. Giá
trị Chi bình phương là 13.69, với trị số p = 0.00216. Như vậy, nghiên cứu này có tỉ lệ nữ cao hơn 50%.

Kiểm định trung bình 1 mẫu;

Hàm t.test như sau: > t.test(tên biến, mu=giá trị trung bình giả thiết)

> t.test(age, mu=30)

One Sample t-test

age t = -27.6563, df = 99, p-value < 2.2e-16 alternative hypothesis: true mean is not equal to 30 95
percent confidence interval: 18.39300 19.94700 sample estimates:

mean of x 19.17

Trong lệnh trên age là biến số chúng ta cần kiểm định, và mu=30 là giá trị giả thiết. R trình bày trị số t = -
27.66, với 99 bậc tự do, và trị số p < 2.2e-16 (tức rất thấp). R cũng cho biết độ tin cậy 95% của age là từ
18.4 tuổi đến 19.9 tuổi (30 tuổi nằm quá ngoài khoảng tin cậy này). Nói cách khác, chúng ta có lí do để
phát biểu rằng độ tuổi trung bình trong mẫu này thật sự thấp hơn độ tuổi trung bình của quần thể.

Gọi tỷ lệ sản phẩm lỗi của chuyền hoàn chỉnh là p. Khi đó, đặt giả thuyết như sau:

Bài 6.1: Một nghiên cứu cho thấy trong một mẫu ngẫu nhiên gồm 50 vụ
trộm, 16% tội phạm đã bị bắt. Trong một mẫu ngẫu nhiên gồm 50 vụ trộm xe,
12% tội phạm đã bị bắt. Với α = 0.10, có thể kết luận rằng tỷ lệ người thực hiện
các vụ trộm bị bắt lớn hơn tỷ lệ của những người phạm tội trộm xe bị bắt.

Gọi tỉ lệ người thực hiện các vụ trộm bị bắt và thực hiện các vụ trộm xe bị bắt lần lượt là p₁, p₂. Ta cần
kiểm định giả thiết với mức ý nghĩa α= 0,1

Giả thiết: H+: p₁=p₂

H-: p₁>p₂

Dựa trên phân tích phần mềm R, ta có cơ sở để bác bỏ giả thiết H+ (p-value = 0,7732 > alpha= 0,1), chấp
nhận giả thiết H-. Tức là p₁ > p₂ . Hay nói cách khác tỉ lệ người thực hiện các vụ trộm bị bắt lớn hơn tỷ lệ
người thực hiện các vụ trộm xe bị bắt (16% > 12%)

Vậy tỉ lệ người thực hiện các vụ trộm bắt lớn hơn tỉ lệ người pham tội trộm xe bị bắt là chính xác.

_Thực hiện phân tích trên phần mềm R


a=c(8,6)
b=c(50,50)
prop.test(a,b,conf.level = 0.9)
2-sample test for equality of proportions with continuity correction

data: a out of b
X-squared = 0.083056, df = 1, p-value = 0.7732
alternative hypothesis: two.sided
90 percent confidence interval:
-0.0939588 0.1739588
sample estimates:
prop 1 prop 2
0.16 0.12

Bài 6.2:

Trong một mẫu ngẫu nhiên gồm 80 người Mỹ, 44 người ước rằng họ giàu có. Trong một mẫu ngẫu nhiên
gồm 90 người châu Âu, 41 người ước rằng họ giàu có. Tại α = 0.01, có sự khác biệt về tỷ lên không? Tìm
khoảng tin cậy 99% cho sự khác biệt của hai tỷ lệ.

Gọi tỷ lệ người giàu có ở Mỹ là p₁, tỷ lệ người giàu có ở châu Âu là p₂. Ta cần kiểm định giả thiết với mức
α= 0,01

Giả thiết: H+: p₁= p₂= p₂

H- : p₁≠ p₂

Dựa trên phân tích của phần mềm R, ta có cơ sở để bác bỏ giả thiết H+ (p-value = 0,2821 > alpha = 0,01),
chấp nhận đối thiết H-. Tức là p₁≠p₂. Hay nói cách khác tỉ lệ người giàu ở Mỹ lớn hơn tỷ lệ người giàu ở
châu Âu (55% ≠ 45%)

Vậy tỷ lệ người giàu ở Mỹ khác tỷ lệ người giàu ở châu Âu là chính xác.

Thực hiện phân tích trên phần mềm R:


c=c(44,41)
d=c(80,90)
prop.test(c,d,conf.level = 0.99)
2-sample test for equality of proportions with continuity correction

data: c out of d
X-squared = 1.1569, df = 1, p-value = 0.2821
alternative hypothesis: two.sided
99 percent confidence interval:
-0.1143671 0.3032560
sample estimates:
prop 1 prop 2
0.5500000 0.4555556

Bài 6.3:

Một cuộc khảo sát ngẫu hiên gần đây đối vớii hộ giá đình cho thấy 14 trong số 50
chủ hộ có một con mèo và 21 trong số 60 chủ hộ có một con chó. Tại α = 0.05,
kiểm định khẳng định rằng ít chủ hộ nuôi mèo hơn chủ hộ nuôi chó.

Gọi tỷ lệ hộ gia đình nuôi mèo là p₁, tỷ lệ hộ gia đình nuôi chó là p₂. Ta cần kiểm định giả thiết với mức α=
0,01
Giả thiết: H+: p₁= p₂= p₀

H- : p₁ < p₂

Dựa trên phân tích của phần mềm R, ta có cơ sở để bác bỏ giả thiết H+ (p-value = 0,5624 > alpha = 0,05),
chấp nhận đối thiết H-. Tức là p₁ < p₂. Hay nói cách khác tỉ lệ hộ gia đình nuôi mèo nhỏ hơn tỷ lệ hộ gia
đình nuôi chó (28% < 35%)

Vậy hộ gia đình nuôi mèo nhỏ hơn tỷ lệ hộ gia đình nuôi chó là chính xác.

Thực hiện phân tích trên phần mềm R


e=c(14,21)
f=c(50,60)
prop.test(e,f,conf.level = 0.95 )
2-sample test for equality of proportions with continuity correction

data: e out of f
X-squared = 0.33559, df = 1, p-value = 0.5624
alternative hypothesis: two.sided
95 percent confidence interval:
-0.2616951 0.1216951
sample estimates:
prop 1 prop 2
0.28 0.35

You might also like