Professional Documents
Culture Documents
1
1.2 Các tham số của mẫu
x
i 1
i
X
n
2. Mode: Là giá trị có tần suất xuất hiện lớn nhất của một tập hợp các số đo,
dạng này thường được dùng đối với dạng dữ liệu thang biểu danh. Giống như
trung vị, mode không bị ảnh hưởng bởi giá trị đầu mút của dãy phân phối.
2
1.2.1 Các tham số thống kê đo lường độ tập trung
3. Trung vị (Median): Là số nằm giữa (nếu lượng quan sát là số lẻ) hoặc là giá
trị trung bình của hai quan sát nằm giữa (nếu số lượng quan sát là số chẳn)
của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn. Đây là dạng
công cụ thống kê thường được dùng để đo lường mức độ tập trung của
dạng dữ liệu thang đo thứ tự, nó có đặc điểm là không bị ảnh hưởng của
các giá trị đầu mút của dãy phân phối, do đó rất thích hợp để phân tích đối
với dữ liệu có sự chênh lệch lớn về giá trị ở hay đầu mút của dãy phân phối.
- Gọi phân vị mức p là giá trị xp thỏa giá trị của hàm phân phối:
F(xp) p và F(xp+0) p
Nếu hàm phân phối F(x) liên tục thì F(xp) = P(Xxp) = p
- Nếu p=1/2: x1/2 là trung vị
- Ý nghĩa: Trung vị chia các giá trị thành 2 phần bằng nhau.
Ngoài ra, x1/4 , x1/2 , x3/4 có P(x1/4 < X < x3/4) = ½
Khoảng (x1/4 , x3/4) : gọi là khoảng tứ phân vị (Quartiles)
Ví dụ: 50 52 53 55 56 57 59 60 61 64 67
Me = 57
Quartiles: (53,61)
3
1.2 Các tham số của mẫu (tiếp)
Nhận xét rằng: xtb1 đại diện tốt hơn xtb2 vì nhóm 2 các dữ liệu biến đổi ít hơn
nhóm 1, điều này có nghĩa các giá trị trong nhóm 1 phân tán nhiều hơn, các
giá trị quan sát nằm xa giá trị trung bình của mẫu hơn là nhóm 2. Đo lường
độ phân tán cho biết được những khác biệt giữa hai nhóm dữ liệu. Có một
số công cụ đo lường độ phân tán của dữ liệu như:
1. Phương sai (Variance): Dùng để đo lường mức độ phân tán của một tập
các giá trị quan sát xung quanh giá trị trung bình của tập quan sát đó.
Phương sai bằng trung bình các bình phương sai lệch giữa các giá trị quan
sát đối với giá trị trung bình của các quan sát đó.
n
2
(x
i 1
i x)2
S
4
n 1
1.2.2 Các tham số đo lường phân tán (tiếp)
1 n
s i
n 1 i 1
( x x ) 2
5
1.2.2 Các tham số đo lường phân tán (tiếp)
6
1.2.2 Các tham số đo lường phân tán (tiếp)
5. Hệ số đối xứng Skewness: cho biết dạng phân phối của các giá
trị quan sát có thể được sử dụng để kiểm nghiệm tính phân phối
chuẩn. Một giá trị Skewness dương cho biết nhánh của phân
phối này lệch qua bên phải và ngược lại một trị âm chỉ ra nhánh
của phân phối này dài qua bên trái
- Skewness = 0: Các quan sát được phân phối một các đối xứng
xung quanh giá trị trung bình
- Skewness < 0: Các quan sát tập trung chủ yếu vào các giá trị
nhỏ nhất
- Skewness > 0: Các quan sát tập trung chủ yếu vào các giá trị
lớn nhất
- Skewness =
7
1.2.2 Các tham số đo lường phân tán (tiếp)
Kurtosis =
8
1.2.2 Các tham số đo lường phân tán (tiếp)
9
1.3 Khoảng ước lượng
10
1.3 Khoảng ước lượng (tiếp)
p (1 p )
p z / 2
n
Trường hợp chưa biết p (vì mẫu lớn) ta sử dụng xấp xỉ:
p (1 p )
p z / 2
n
Áp dụng: Descriptive Statitics
Chieàu daøi X 200 201 202 203 204 206 207 207 209 211
12 Troïng löôïng Y 150 151 153 154 202 256 257 257 259 263
Áp dụng: Descriptive Statitics (SPSS)
13
Chương 2: Kiểm định giả thuyết
14
2.1 Giới thiệu về Kiểm định giả thuyết
15
2.1 Giới thiệu về kiểm định giả thuyết (tiếp)
H đúng H sai
Chấp nhận H Quyết định đúng Sai lầm loại 2
XS: 1- XS:
Từ chối H Sai lầm loại 1 Quyết định đúng
XS: XS: 1-
: Mức ý nghĩa
: độ mạnh (Power) của tiêu chuẩn kiểm định
16
2.2 Kiểm định về trung bình của tổng thể
Bài toán 1:
H: = 0
K: 0
Bài toán 2:
H: 0
K: > 0
Bài toán 3:
H: 0
K: < 0
17
2.2 Kiểm định trung bình của tổng thể (tiếp)
Bài toán 1:
H: = 0
K: 0 __
• Mẫu lớn: Tiêu chuẩn kiểm định x 0
T n
S
Miền chấp nhận H: |T| < z/2
Miền từ chối H: |T| z/2
18
2.2 Kiểm định trung bình của tổng thể (tiếp)
Bài toán 2:
H: = 0
K: < 0 __
• Mẫu lớn: Tiêu chuẩn kiểm định x 0
T n
S
Miền chấp nhận H: T -z
Miền từ chối H: T < -z
19
2.2 Kiểm định trung bình của tổng thể (tiếp)
Bài toán 3:
H: = 0
K: > 0
__
• Mẫu lớn: Tiêu chuẩn kiểm định
x 0
T n
Miền chấp nhận H: T < z S
Miền từ chối H: T z
20
2.3 Kiểm định bằng nhau giữa trung bình của
hai tổng thể
Bài toán 1:
H: 1 = 2
K: 1 2
Bài toán 2:
H: 1 = 2
K: 1 < 2
Bài toán 3:
H: 1 = 2
K: 1 > 2
21
2.3 Kiểm định bằng nhau giữa trung
bình của hai tổng thể (tiếp)
Bài toán 1:
H: 1 = 2
K: 1 2
Trường hợp 1: Biết phương sai hoặc mẫu lớn:
x1 x2 x1 x2
T T
2 2
s12 s22
1 2
n1 H: |T|n2< z/2
Miền chấp nhận n1 n2
Miền từ chối H: |T| z/2
22
3. Pheùp kieåm ñònh: z-Test: Two Sample for Means
Bieát phöông sai Var1=1 Var2=0.98
x1 x2
T
1 1
S p2
n1 n2
2 2
( n
Miền2 chấp nhận
1 1) S ( n 1) S
H: 1|T| < t (n1+n2-2),
2 /2
2
S
MiềnP từ chối H: |T| t (n1+n2-2),/2
Bài toán 2 và 3 tương tự
n 1 n2 2
Thực hành: t–Test: Two sample for Means
24
4. Pheùp kieåm ñònh: t-Test: Two-Sample Assuming Equal Variances
S n21 1
F 2
~ Fisher (n 1, n2 1)
1
S
Miền chấp nhận H: nF2 <
1f (f : F Critical)
Miền từ chối H: F f
26
2.6 Phép kiểm định Chi-Square
Để kiểm định tính độc lập giữa hai biến, người ta sử
dụng phân phối ngẫu nhiên Chi bình phương () với tham
số thống kê Pearson chi bình phương để tiến hành so
sánh số lượng các trường hợp quan sát được với số
lượng các trường hợp mong đợi bằng công thức sau:
2
r c (oij Eij )
~ 2
( r 1)*(c 1)
i 1 j 1 E ij
27
2.6 Phép kiểm định Chi-Square
3.1 Phân tích phương sai một yếu tố (One way ANOVA/ One factor
ANOVA)
Các phép so sánh đề cập ở phần trước chỉ cho phép ta so sánh
trung bình hai tổng thể dựa trên mẫu từng cặp phối hợp hoặc hai
mẫu độc lập.
Trong phần này phương pháp kiểm định sẽ mở rộng cho trường hợp
so sánh trung bình của nhiều tổng thể được xây dựng trên việc xem
xét các biến thiên (phương sai) của các giá trị quan sát trong nội bộ
từng nhóm (mẫu) và giữa các nhóm (mẫu) với nhau.
Phân tích phương sai một yếu tố: chỉ có một yếu tố (biến kiểm soát)
được xem xét nhằm xác định ảnh hưởng của nó đến một yếu tố
khác.
Yếu tố được xem xét ảnh hưởng được dùng để phân loại các quan
sát thành các nhóm nhỏ khác nhau.
Một cách tổng quát, giả sử ta có k nhóm (mẫu) n , n , …, n quan sát
1 2 k
được chọn ngẫu nhiên độc lập từ k tổng thể (N1, N2, …, Nk) có thể
khác nhau về kích thước.
https://www.youtube.com/watch?v=ITf4vHhyGpc
30
3.1 Phân tích phương sai một yếu tố (tiếp)
Gọi 1, 2, …, k là các trung bình của k tổng thể, xij là
quan sát thứ j của nhóm thứ i. Ta có thể mô tả các
quan sát của k nhóm như sau:
Nhóm
1 2 … k
31
3.1 Phân tích phương sai một yếu tố (tiếp)
Với giả sử các tổng thể có phân phối chuẩn, có phương sai
bằng nhau, các sai số là độc lập với nhau, phân tích phương
sai một yếu tố kiểm nghiệm giả thuyết ban đầu như sau:
H: 1 = 2 = … = k.
K: có ít nhất 2 giá trị I nào đó là khác nhau.
Phân tích phương sai ở đây dựa trên thông số thống kê F
Với F là tỷ số giữa biến thiên giữa trung bình các nhóm trên
biến thiên giữa các quan sát trong nội bộ nhóm.
Nếu các giá trị trung bình của các nhóm khác biệt nhau
nhiều, đặc biệt trong mối quan hệ với sự biến thiên của nội
bộ từng nhóm, giá trị F thu được sẽ lớn và khi đó giả thuyết
H sẽ bị từ chối.
Nếu quan sát việc phân tích phương sai một yếu tố cho hai
nhóm thì kết quả thống kê F tính được sẽ chính bằng bình
phương kết quả thống kê t trong kiểm nghiệm t cho hai mẫu
độc lập
32
Các bước phân tích phương sai một yếu tố:
Phân tích phương sai một yếu tố dùng để kiểm định giả
thuyết về sự đồng nhất của các giá trị trung bình
Bước 1: Tính giá trị trung bình xitb cho từng nhóm và
xtb chung cho tất cả các nhóm
– Trung bình của mỗi
n
nhóm:
1 i
xi
ni
x
j 1
ij (i 1,2,..., k )
Bước 2: Tính các đại lượng thể hiện sự biến thiên trong
nội bộ từng nhóm (SSW) và giữa các nhóm (SSG)
Gọi SSi (Sum of Square): là đại lượng thể hiện sự
biến thiên trong nội bộ của nhóm thứ i là:
ni
SSi ( xij xi ) 2
j 1
SSW: Tổng cộng các biến thiên trong nội bộ của các
nhóm là:
k ni
SSW SS1 SS 2 ... SS k ( xij xi ) 2
i 1 j 1
34
Các bước phân tích phương sai một yếu tố(t)
35
Các bước phân tích phương sai một yếu tố(t)
SST (Total- sum of squares): là tổng bình phương các độ lệch giữa từng
quan sát với trung bình của tất cả các quan sát.
k ni
SST
Ta có: SST=SSG+SSW
( xij x ) 2
Ý nghĩa: Sự biến thiên của các giá trị so với giá trị trung bình(SST) = biến
thiên bởi yếu tố nghiên cứui (SSG)
1 j 1
+ biên thiên do các yêu tố khác (SSW)
36
Các bước phân tích phương sai một yếu tố(t)
Ta có: SSW
MSW
nk
SSG
MSG
k 1
37
Các bước phân tích phương sai một yếu tố(t)
38
Kết quả
Kết quả phân tích phương sai một yếu tố được thể
hiện dưới dạng bảng sau:
Biến thiên (Sum of Df (Mean square) Giá trị P-value
(Variance) squares) kiểm Sig.
định
39
Ví dụ
7.8
40
Groups Count Sum Average Variance
Gioáng caây 1 7 50.2 7.171429 0.192381
Gioáng caây 2 5 30.8 6.16 0.388
Gioáng caây 3 6 39.6 6.6 0.248
ANOVA
Source of SS df MS F P-value F crit
Variation
Between Groups 3.073714 2 1.536857 5.841659 0.01330 3.68231
Within Groups 3.946285 15 0.263086
Total 7.02 17
41
3.2 Phân tích phương sai 2 yếu tố
1 2 … K
Yếu X111, X112, …, X11s X211, X212, …, X21s … Xk11, Xk12, …, Xk1s
tố X121, X122, …, X12s X221, X222, …, X22s … Xk21, Xk22, …, Xk2s
theo … … … …
hàng X1m1, X1m2, …, X1ms X2m1, X2m2, …, X2ms … Xkm1, Xkm2, …, Xkms
Xijk=
42
Ví dụ
43
Các công thức
x ijl
xij l 1
s
Trung bình theo cột i:
1 m s
xi*
ms j 1 l 1
xijl
44
Các công thức (tiếp)
1 k s
x* j xijl
ks i 1 l 1
1 k m s
x
kms i 1 j 1 l 1
xijl
45
Các công thức (tiếp)
Bước 2: Tính các đại lượng thể hiện sự biến thiên trong
nội bộ từng nhóm (SSW) và giữa các nhóm (SSG)
SSG (between-groups sum of squares): Đại lượng thể
hiện sự biến thiên giữa các nhóm được tính bằng công
thức:
k
SSG ms ( xi* x ) 2
i 1
46
Các công thức (tiếp)
m
SSB ks ( x* j x ) 2
j 1
47
Các công thức (tiếp)
i 1 j 1
i 1 j 1 l 1
48
Các công thức (tiếp)
Tổng toàn bộ biến thiên:
k m s
SST ijl
i 1
( x x ) 2
j 1 l 1
Ta có: SST=SSG + SSB + SSI + SSE
Ý nghĩa: Sự biến thiên của các giá trị so với giá trị trung bình(SST) =
biến thiên bởi yếu tố cột(SSG) + biên thiên bởi yếu tố hàng (SSB)
+biến thiên do tac động qua lại giữa yếu tố hàng và cột (SSI) + biến
thiên chưa được nghiên cứu bởi 2 yếu tố trên (SSE)
Bước 3: Tính các ước lượng cho phương sai chung của k tổng thể,
MSB, MSG, MSI và MSE, bằng cách chia cho các bậc tự do tương
ứng, ta có:
SSG SSB
MSG MSB
k -1 m -1
SSI SSE
MSI MSE
49 (k - 1)(m - 1) m * k * (s - 1)
Các công thức (tiếp)
MSG
F1 ~ Fisher (k 1, km( s 1))
MSE
MSB
F2 ~ Fisher (m 1, km( s 1))
MSE
MSI
F3 ~ Fisher ((k 1)(m 1), km( s 1))
MSE
50
Ví dụ
ANOVA
Source of Variation SS df MS F P-value F crit
Sample 0.08 1 0.08 16 0.001762 4.747221
Columns 4.347778 2 2.173889 434.7778 6.36E-12 3.88529
Interaction 0.01 2 0.005 1 0.396569 3.88529
Within 0.06 12 0.005
Total 4.497778 17
51
Chương 4: Tương quan và hồi qui
~
y x a bx
• Trong đó: a và b là các hệ số của phương trình
na b x y
• Bằng phươngpháp
a x bình
b xphương
2
xynhỏ nhất xây dựng được hệ
phương trình chuẩn tắc xác định các hệ số a và b của phương trình.
53
Hồi qui
n
S ( Ai Ai' ) 2
i 1
n
(b0 b1x i yi ) 2
i 1
S n
2 (b0 b1 xi yi ) xi 0
b1 i 1
54
4.5 Hồi qui bội (tiếp)
n n
nb0 b1 xi yi
i 1 i 1
n n n
b0 xi b1 xi2 xi yi
i 1 i 1 i 1
55
Hồi qui (tiếp)
ax by e
cx dy f
a b e x
A B X
c d f y
1
AX B X A B
56
Hồi qui (tiếp)
n n
nb0 b1 xi y i b0 b1 X Y b0 Y b1 X
i 1 i 1
n n n
b0 xi b1 x 2
i xi yi ( 2)
i 1 i 1 i 1
The vao ( 2)
n n n
(Y b1 X ) xi b1 x 2
i xi yi
i 1 i 1 i 1
n n
(Y b1 X ) n X b1 x 2
i xi yi
i 1 i 1
n n
2
b1 ( x n X )
2
i x i yi n X Y
i 1 i 1
n
x i yi n X Y
b1 i 1
n
2
57 x
i 1
2
i nX
4.2.2 Ví dụ
25
20
15
10
0
0 2 4 6 8 10 12
58
Ví dụ (tiếp)
Tuổi nghề -
STT công Năng suất lao động
x xy x2 y2
nhân - y (triệu đồng)
(năm)
A 1 2 3=1x2 4=(1)2 5=(2)2
A 1 3 3 1 9
B 3 12 36 9 144
C 4 9 36 16 81
D 5 16 84 49 144
E 7 12 84 49 144
F 8 21 168 64 441
G 9 21 189 81 441
H 10 24 240 100 576
I 11 19 209 121 361
K 12 27 324 144 729
Tổng 70 164 1369 610 3182
Trung bình 7 16,4 137,3 x x
59
Ví dụ (tiếp)
60
4.2.3 Hệ số tương quan tuyến tính
Công thức tính hệ số tương quan:
xy x.y
r
x . y
Hoặc
x
r b.
y
61
Ý nghĩa của hệ số tương quan
r: có giá trị trong khoảng từ [-1,1]:
Khi r càng gần 0 thì quan hệ càng ít, ngược lại khi r
càng gần 1 hoặc -1 thì quan hệ càng chặt chẽ (r > 0
có quan hệ thuận và r < 0 có quan hệ nghịch).
Trường hợp r=0 thì giữa x và y không có quan hệ.
Từ số liệu bảng 1, ta tính được:
2 2
610 70 3182 164
x 3,464 y 7,017
10 10 10 10
136 ,9 (7 16 ,4 )
r 0,909
3,464 7,017
62
4.3. Liên hệ tương quan phi tuyến
Các phương trình hồi quy phi tuyến: Phương trình hồi quy
phi tuyến thường được sử dụng:
Phương trình parabol bậc 2:
~
y x a bx cx 2
Phương trình parabol bậc 2 thường được áp dụng
trong trường hợp các trị số của chỉ tiêu nguyên nhân
tăng lên thì trị số của chỉ tiêu kết quả tăng (hoặc giảm),
việc tăng (hoặc giảm) đạt đến trị số cực đại (hoặc cực
tiểu) rồi sau đó lại giảm (hoặc tăng).
* Phương trình hyperbol
~ b
yx a
x
63
4.3. Liên hệ tương quan phi tuyến
64
4.4 Kiểm định về bài toán hồi qui
65
4.4 Kiểm định về bài toán hồi qui (tiếp)
n
SSE (~
y i yi ) 2
i 1
n
SST i
( y
i 1
y ) 2
67
Ví dụ:
ANOVA
df SS MS F Significance F
Regression 1 29.60817 29.60817 92.01868 7.34E-05
Residual 6 1.930576 0.321763
Total 7 31.53875
68
Ví dụ:
69
4.4 Kiểm định về bài toán hồi qui (tiếp)
Hệ số
2 SSR SSE
R 1
SST SST
70
4.4 Kiểm định về bài toán hồi qui (tiếp)
Kiểm định F:
Giả thuyết: H: Phương trình hồi qui không phù hợp
K: Phương trình hồi qui phù hợp
Với số biến độc lập k=1
SSR SSR
MSR
k 1
SSE SSE
MSE
n (k 1) n 2
MSR
F ~ Fisher (1, n 2)
MSE
71
4.4 Kiểm định về bài toán hồi qui (tiếp)
Sb
n
e
2
n i
e 2
SSE
x 2
i nx ( x x)
i 1
i
2
S e2 i 1
n2
n2
MSE
i 1
72
4.5 Hồi qui bội (tiếp)
y phụ thuộc vào k biến độc lập: x1, x2, …, xk, lấy mẫu có kích
thước n
x1 x2 … xk y
74
4.5 Hồi qui bội (tiếp)
n
S ( Ai Ai' ) 2
i 1
n
(b0 b1x1i b 2 x 2i ... b k x ki y i ) 2
i 1
S bé nhất nếu b0 , b1, b2, .. , bk là nghiệm của
hệ phương trình
S S S S
0, 0, 0,..., 0,
b0 b1 b2 bk
75
4.5 Hồi qui bội (tiếp)
...
n
2 (b0 b1x1i b 2 x 2i ... b k x ki yi ) xki 0
i 1
76
4.5 Hồi qui bội (tiếp)
...
n n n n n
b0 xki b1 x1i x ki b2 x2i xki ... bk xki2 xki yi
i 1 i 1 i 1 i 1 i 1
77
4.5 Hồi qui bội (tiếp)
78
Phép kiểm định Fisher
n
SSE (~
yi yi ) 2
i 1
Ý nghĩa: Đại lượng thể hiện toàn bộ biến thiên của Y = biến thiên của Y
được giải thích bởi các Xi và phần biến thiên của Y do yếu tố khác
Công thức tính hệ số R2,, R2 chỉnh lý như phần trước
79
Phép kiểm định Fisher (tiếp)
80
Phép kiểm định Student
81
Phép kiểm định Student (tiếp)
82
Ví dụ về Hồi qui bội
1 f 1 ( x1 ) ... f m ( x1 )
1 f1 ( x2 ) ... f m ( x2 )
X
... ... ... ...
M=FT.F 1 f1 ( x k ) ... f m ( x k )
Ma trận hệ số A=(FT.F)-1 .FT . Y
85
Ví dụ: Hồi qui bội phi tuyến
X1 X2 Y
2.5 30 19.3
3 30 22.4
3.5 40 24.5
4 40 26.9
4.5 50 29.2
5 50 31.2
6 60 28.1
6.5 60 27.2
86
Với pt tuyến tính
ANOVA
df SS MS F Significance F
Regression 2 62.44135 31.22067 3.759837 0.100796
Residual 5 41.51865 8.303731
Total 7 103.96
Standard
Coefficients Error t Stat P-value Lower 95%
Intercept 14.23653846 5.101863 2.790459 0.038424 1.121783
X1 -0.823076923 3.574209 -0.23028 0.826998 -10.0109
X2 0.343653846 0.421014 0.816253 0.451476 -0.7386
87
Với pt phi tuyến
ANOVA
df SS MS F Significance F
Regression 2 88.74281 44.3714 14.57937 0.008197
Residual 5 15.21719 3.043439
Total 7 103.96
Standard
Coefficients Error t Stat P-value Lower 95%
Intercept 51.78543536 7.39621 7.001618 0.000916 32.77287
1/(X1+X2) -992.674153 251.5361 -3.94645 0.010889 -1639.27
X1X22 -0.00038795 0.000192 -2.02139 0.099195 -0.00088
88
Với pt phi tuyến
https://data-flair.training/blogs/logistic-regression-in-r/
89