You are on page 1of 89

PHÂN TÍCH DỮ LIỆU KINH DOANH

PGS. TS. Nguyễn Đình Thuân

TP. Hồ Chí Minh 9-2017

1
1.2 Các tham số của mẫu

1.2.1 Các tham số thống kê đo lường độ tập trung


(Measures of central tendency)
1. Giá trị trung bình (Mean): Là giá trị trung bình số học của một biến, được tính
bằng tổng các giá trị quan sát chia cho số quan sát. Đây là dạng công cụ
thường được dùng cho dạng đo khoảng cách và tỷ lệ. Giá trị trung bình có đặc
điểm là chịu sự tác động của các giá trị ở mỗi quan sát, do đó đây là thang đo
nhạy cảm nhất đối với sự thay đổi của các giá trị quan sát. Giá trị trung bình
được tính bằng công thức sau:
n

x
i 1
i
X 
n

2. Mode: Là giá trị có tần suất xuất hiện lớn nhất của một tập hợp các số đo,
dạng này thường được dùng đối với dạng dữ liệu thang biểu danh. Giống như
trung vị, mode không bị ảnh hưởng bởi giá trị đầu mút của dãy phân phối.

2
1.2.1 Các tham số thống kê đo lường độ tập trung

3. Trung vị (Median): Là số nằm giữa (nếu lượng quan sát là số lẻ) hoặc là giá
trị trung bình của hai quan sát nằm giữa (nếu số lượng quan sát là số chẳn)
của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn. Đây là dạng
công cụ thống kê thường được dùng để đo lường mức độ tập trung của
dạng dữ liệu thang đo thứ tự, nó có đặc điểm là không bị ảnh hưởng của
các giá trị đầu mút của dãy phân phối, do đó rất thích hợp để phân tích đối
với dữ liệu có sự chênh lệch lớn về giá trị ở hay đầu mút của dãy phân phối.
- Gọi phân vị mức p là giá trị xp thỏa giá trị của hàm phân phối:
F(xp)  p và F(xp+0)  p
Nếu hàm phân phối F(x) liên tục thì F(xp) = P(Xxp) = p
- Nếu p=1/2: x1/2 là trung vị
- Ý nghĩa: Trung vị chia các giá trị thành 2 phần bằng nhau.
Ngoài ra, x1/4 , x1/2 , x3/4 có P(x1/4 < X < x3/4) = ½
Khoảng (x1/4 , x3/4) : gọi là khoảng tứ phân vị (Quartiles)
Ví dụ: 50 52 53 55 56 57 59 60 61 64 67
Me = 57
Quartiles: (53,61)

3
1.2 Các tham số của mẫu (tiếp)

1.2.2 Các tham số thống kê đo lường mức độ phân tán (Measures of


Dispersion)
Khảo sát hai nhóm với các giá trị sau:
Nhóm 1: 52, 59, 60, 61, 66 Có xtb1 = Me1 = 60
Nhóm 2: 58, 59, 60, 61, 62 Có xtb2 = Me2 = 60

Nhận xét rằng: xtb1 đại diện tốt hơn xtb2 vì nhóm 2 các dữ liệu biến đổi ít hơn
nhóm 1, điều này có nghĩa các giá trị trong nhóm 1 phân tán nhiều hơn, các
giá trị quan sát nằm xa giá trị trung bình của mẫu hơn là nhóm 2. Đo lường
độ phân tán cho biết được những khác biệt giữa hai nhóm dữ liệu. Có một
số công cụ đo lường độ phân tán của dữ liệu như:
1. Phương sai (Variance): Dùng để đo lường mức độ phân tán của một tập
các giá trị quan sát xung quanh giá trị trung bình của tập quan sát đó.
Phương sai bằng trung bình các bình phương sai lệch giữa các giá trị quan
sát đối với giá trị trung bình của các quan sát đó.
n

2
 (x
i 1
i  x)2
S 
4
n 1
1.2.2 Các tham số đo lường phân tán (tiếp)

2. Độ lệch chuẩn (SD: Standard deviation): Một công cụ khác


dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung
bình của nó. Độ lệch chuẩn chính bằng căn bậc hai của phương
sai. Vì phương sai là trung bình của các bình phương sai lệch của
các giá trị quan sát từ giá trị trung bình, việc khảo sát phương sai
thường cho các giá trị rất lớn, do đó sử dụng phương sai sẽ gặp
khó khăn trong việc diễn giải kết quả. Sử dụng độ lệch chuẩn sẽ
giúp dễ dàng cho việc diễn giải do các kết quả sai biệt đưa ra sát
với dữ liệu gốc hơn.

1 n
s  i
n  1 i 1
( x  x ) 2

5
1.2.2 Các tham số đo lường phân tán (tiếp)

3. Khoảng biến thiên (Range): Là khoảng cách giữa giá


trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất.
R = Xmax – Xmin
4. Sai số trung bình mẫu (Standard Error of Mean):
Được dùng để đo lường sự khác biệt về giá trị trung
bình của mẫu nghiên cứu này so với mẫu nghiên
cứu khác trong điều kiện có cùng phân phối. Nó có
thể được dùng để so sánh giá trị trung bình quan sát
với một giá trị ban đầu nào đó (giả thuyết). Công
thức tính sai số trung bình mẫu:
S
Sx 
n

6
1.2.2 Các tham số đo lường phân tán (tiếp)

5. Hệ số đối xứng Skewness: cho biết dạng phân phối của các giá
trị quan sát có thể được sử dụng để kiểm nghiệm tính phân phối
chuẩn. Một giá trị Skewness dương cho biết nhánh của phân
phối này lệch qua bên phải và ngược lại một trị âm chỉ ra nhánh
của phân phối này dài qua bên trái
- Skewness = 0: Các quan sát được phân phối một các đối xứng
xung quanh giá trị trung bình
- Skewness < 0: Các quan sát tập trung chủ yếu vào các giá trị
nhỏ nhất
- Skewness > 0: Các quan sát tập trung chủ yếu vào các giá trị
lớn nhất

- Skewness =

7
1.2.2 Các tham số đo lường phân tán (tiếp)

6. Hệ số tập trung Kurtosis:


- Dùng để đánh giá đỉnh của đường cong quan sát với dạng
đường cong phân phối chuẩn.
-Kurtosis > 0: Cho thấy xu hướng tập trung các quan sát xung
quanh giá trị trung bình, phân phối có đỉnh
-Kurtosis < 0: Cho thấy đường cong có dạng hẹp hơn hay
đường cong của phân phối tương đối bằng phẳng

Kurtosis =

8
1.2.2 Các tham số đo lường phân tán (tiếp)

9
1.3 Khoảng ước lượng

1.3.1 Giới thiệu:


 Dựa vào các tham số của mẫu suy luận cho tham số của tổng thể.
 Các tham số của tổng thể là (,,p): là các giá trị xác định nhưng chưa biết
vì không khảo sát toàn bộ.
 Dùng các hàm ước lượng: ^ ^
 ( x, s , p )
 Các ước lượng là tốt nếu thỏa 2 điều kiện:

i ) E ( )  

ii ) D( )  min
 Ước lượng khoảng: Cần ước lượng tham số  của tổng thể
– Tìm 2 hàm ước lượng X và Y: P(X <  < Y) = 
– Với a,b là các giá trị cụ thể của X và Y trong lần thí nghiệm này
– (a,b): khoảng tin cậy (Confidence interval) cho  với độ tin cậy (Confidence Level)

10
1.3 Khoảng ước lượng (tiếp)

1.3.2 Ước lượng giá trị trung bình:


 Trường hợp 1: Biết phương sai (tổng thể có phân phối chuẩn)

x  z / 2
n
 Trường hợp 2: Không biết phương sai (tổng thể có phân phối
chuẩn)
SX
x  t / 2,n 1
n
 Trường hợp 3: Mẫu lớn
SX
x  z / 2
n
11
1.3 Khoảng ước lượng (tiếp)

1.3.3 Ước lượng tỷ lệ (trường hợp mẫu lớn)


 Với p là tỷ lệ % tần suất xuất hiện của một giá trị quan sát

 p (1  p )
p  z / 2
n
 Trường hợp chưa biết p (vì mẫu lớn) ta sử dụng xấp xỉ:

 
 p (1  p )
p  z / 2
n
 Áp dụng: Descriptive Statitics

Chieàu daøi X 200 201 202 203 204 206 207 207 209 211
12 Troïng löôïng Y 150 151 153 154 202 256 257 257 259 263
Áp dụng: Descriptive Statitics (SPSS)

13
Chương 2: Kiểm định giả thuyết

2.1 Giới thiệu:


 Kiểm định giả thuyết (Hypothesis testing): đánh
giá 1 giả thuyết về tổng thể là chấp nhận hay
từ chối dựa vào mẫu thu được.
 Chẳng hạn:
– Trung bình của 2 tổng thể là bằng nhau
– Trung bình của tổng thể thứ nhất là lớn hơn.
– Tổng thể có phân phối chuẩn.
– Trung bình của tổng thể là bằng 50
– Yếu tố A ảnh hưởng đến các yếu tố khác
– …

14
2.1 Giới thiệu về Kiểm định giả thuyết

 Các bước của bài toán kiểm định:


1. Đưa ra giả thuyết H0 (Null Hypothesis)
Đối thuyết K (Alternative Hypothesis)
2. Giả sử H0 là đúng tìm 1 tiêu chuẩn kiểm đinh T (là
đại lượng ngẫu nhiên biết được phân phối)
3. Với mức ý nghĩa (significiance Level)  cho trước
(là số dương khá bé) tìm được giá trị t:
P(|T|  t) = 1-
P(|T|  t) = 
4. Miền (|T|  t): miền chấp nhận giả thuyết H
Miền |T|  t): miền từ chối giả thuyết H

15
2.1 Giới thiệu về kiểm định giả thuyết (tiếp)

Hai loại sai lầm:


 Sai lầm loại 1: từ chối H / H đúng
 Sai lầm loại 2: chấp nhận / H sai
 Gọi  = P(Sai lầm loại 1)
 Gọi  = P(Sai lầm loại 2)

H đúng H sai
Chấp nhận H Quyết định đúng Sai lầm loại 2
XS: 1- XS: 
Từ chối H Sai lầm loại 1 Quyết định đúng
XS:  XS: 1-
 : Mức ý nghĩa
 : độ mạnh (Power) của tiêu chuẩn kiểm định
16
2.2 Kiểm định về trung bình của tổng thể

 Bài toán 1:
H:  = 0
K:  0
 Bài toán 2:
H:   0
K:  > 0
 Bài toán 3:
H:   0
K:  < 0

17
2.2 Kiểm định trung bình của tổng thể (tiếp)

 Bài toán 1:
H:  = 0
K:  0 __
• Mẫu lớn: Tiêu chuẩn kiểm định x  0
T n
S
Miền chấp nhận H: |T| < z/2
Miền từ chối H: |T|  z/2

• Mẫu nhỏ: Tiêu chuẩn kiểm định __


Miền chấp nhận H: |T| < t (n-1), /2 x  0
T n
Miền từ chối H: |T|  t (n-1), /2 S

18
2.2 Kiểm định trung bình của tổng thể (tiếp)

 Bài toán 2:
H:  = 0
K:  < 0 __
• Mẫu lớn: Tiêu chuẩn kiểm định x  0
T n
S
Miền chấp nhận H: T  -z
Miền từ chối H: T < -z

• Mẫu nhỏ: Tiêu chuẩn kiểm định __


Miền chấp nhận H: T  - t (n-1),  x  0
T n
Miền từ chối H: T < -t (n-1),  S

19
2.2 Kiểm định trung bình của tổng thể (tiếp)
 Bài toán 3:
H:  = 0
K:  > 0
__
• Mẫu lớn: Tiêu chuẩn kiểm định
x  0
T n
Miền chấp nhận H: T < z S
Miền từ chối H: T  z

• Mẫu nhỏ: Tiêu chuẩn kiểm định


Miền chấp nhận H: T  t (n-1), 
__
Miền từ chối H: T < t (n-1), 
x  0
SPSS: Analyze, Compare Means, One-Sample T Test T n
S

20
2.3 Kiểm định bằng nhau giữa trung bình của
hai tổng thể

 Bài toán 1:
H: 1 = 2
K: 1  2
 Bài toán 2:
H: 1 = 2
K: 1 < 2
 Bài toán 3:
H: 1 = 2
K: 1 > 2

21
2.3 Kiểm định bằng nhau giữa trung
bình của hai tổng thể (tiếp)
 Bài toán 1:
H: 1 = 2
K: 1  2
 Trường hợp 1: Biết phương sai hoặc mẫu lớn:

x1  x2 x1  x2
T T
2 2
  s12 s22
 1 2

n1 H: |T|n2< z/2
Miền chấp nhận n1 n2
Miền từ chối H: |T|  z/2

MS Excel: Z–Test: Two sample for Means

22
3. Pheùp kieåm ñònh: z-Test: Two Sample for Means
Bieát phöông sai Var1=1 Var2=0.98

Khu vöïc 1 Khu vöïc 2


11 12
13 17 Khu vöïc 1 Khu vöïc 2
7 13 Mean 9.4 8.3
9 6 Known Variance 1 0.98
15 9 Observations 10 10
6 9 Hypothesized Mean Difference 0
10 3 z 2.4720662
9 4 P(Z<=z) one-tail 0.0067167
8 5 z Critical one-tail 1.644853
6 5 P(Z<=z) two-tail 0.0134335
23 z Critical two-tail 1.9599611
2.3 Kiểm định bằng nhau giũa trung bình của
hai tổng thể (tiếp)
 Bài toán 1:
H: 1 = 2
K: 1  2
 Trường hợp 2: Không biết phương sai:

x1  x2
T
1 1
S p2   
 n1 n2 
2 2
( n
Miền2 chấp nhận
1  1) S  ( n  1) S
H: 1|T| < t (n1+n2-2),
2 /2
2
S 
MiềnP từ chối H: |T|  t (n1+n2-2),/2
Bài toán 2 và 3 tương tự
n 1  n2  2
Thực hành: t–Test: Two sample for Means

24
4. Pheùp kieåm ñònh: t-Test: Two-Sample Assuming Equal Variances

Khu vöïc 1 Khu vöïc 2 Khu vöïc 1 Khu vöïc 2


0.52 0.65 Mean 0.754 0.785714
0.7 0.7 Variance 0.02553 0.011329
0.75 0.72 Observations 5 7
0.87 0.75 Pooled Variance 0.017009
0.93 0.86 Hypothesized Mean Difference 0
0.9 df 10
0.92 t Stat -0.4153
P(T<=t) one-tail 0.343348
t Critical one-tail 1.812462
P(T<=t) two-tail 0.686696
t Critical two-tail 2.228139
25
2.4 So sánh hai phương sai tổng thể
 Bài toán:
H: 1 = 2
K: 1  2
 Tiêu chuẩn kiểm định:

S n21 1
F 2
~ Fisher (n  1, n2  1)
1
S
Miền chấp nhận H: nF2 <
1f (f : F Critical)
Miền từ chối H: F  f

 Thực hành: F-test

26
2.6 Phép kiểm định Chi-Square

2.6.1 Kiểm định tính độc lập giữa 2 biến


H: hai biến độc lập nhau
K: hai biến có liên hệ với nhau

Để kiểm định tính độc lập giữa hai biến, người ta sử
dụng phân phối ngẫu nhiên Chi bình phương () với tham
số thống kê Pearson chi bình phương để tiến hành so
sánh số lượng các trường hợp quan sát được với số
lượng các trường hợp mong đợi bằng công thức sau:
2
r c (oij  Eij )
  

~ 2
( r 1)*(c 1)
i 1 j 1 E ij
27
2.6 Phép kiểm định Chi-Square

 Oij: giá trị hàng i cột j Coke Pepsi 7Up


 Ri: tổng quan sát hàng i Nam 308 177 114
 Cj: tổng số quan sát cộtj Nữ 502 627 697

Ri C j Coke Pepsi 7Up Cộng


Eij 
n Nam 308 177 114 599
R C 1826 * 810 Nữ 502 627 697 1826
E21  2 1   609.92
n 2425 Cộng 810 804 811 2425
2 2
(308  200.07) (697  610,67)
2   ... 
200.07 610.67 Coke Pepsi 7Up
 129.83 Nam 200.07 198.59 200.32
Nữ 609.92 605.4 610.67

22,= 5.991476 Từ chối H


KL: Có liên hệ với nhau
28
2.6 Phép kiểm định Chi-Square

- Khi kết quả thống kê Chi bình phương (2)


- Với độ tin cậy xác định, kích thước mẫu là n,
bậc tự do df=(r-1)(c-1)) ta có thể kết luận bác
bỏ giả thuyết độc lập giữa hai biến (H).
- Sử dụng giá trị P so sánh với mức ý nghĩa
(Significance level) thường là 0.05 tương
ứng với 95% độ tin cậy,
- Kết luận từ chối H khi p-value nhỏ hơn hoặc
bằng mức ý nghĩa và ngược lại chấp nhận H
khi p-value lớn hơn mức ý nghĩa.
29
CHƯƠNG 3: PHÂN TÍCH PHƯƠNG SAI

3.1 Phân tích phương sai một yếu tố (One way ANOVA/ One factor
ANOVA)
 Các phép so sánh đề cập ở phần trước chỉ cho phép ta so sánh
trung bình hai tổng thể dựa trên mẫu từng cặp phối hợp hoặc hai
mẫu độc lập.
 Trong phần này phương pháp kiểm định sẽ mở rộng cho trường hợp
so sánh trung bình của nhiều tổng thể được xây dựng trên việc xem
xét các biến thiên (phương sai) của các giá trị quan sát trong nội bộ
từng nhóm (mẫu) và giữa các nhóm (mẫu) với nhau.
 Phân tích phương sai một yếu tố: chỉ có một yếu tố (biến kiểm soát)
được xem xét nhằm xác định ảnh hưởng của nó đến một yếu tố
khác.
 Yếu tố được xem xét ảnh hưởng được dùng để phân loại các quan
sát thành các nhóm nhỏ khác nhau.
 Một cách tổng quát, giả sử ta có k nhóm (mẫu) n , n , …, n quan sát
1 2 k
được chọn ngẫu nhiên độc lập từ k tổng thể (N1, N2, …, Nk) có thể
khác nhau về kích thước.
 https://www.youtube.com/watch?v=ITf4vHhyGpc
30
3.1 Phân tích phương sai một yếu tố (tiếp)

Gọi 1, 2, …, k là các trung bình của k tổng thể, xij là
quan sát thứ j của nhóm thứ i. Ta có thể mô tả các
quan sát của k nhóm như sau:

Nhóm

1 2 … k

X11 X21 … XK1


X12 X22 … XK2
… … … …

X1n1 X2n2 Xknk

31
3.1 Phân tích phương sai một yếu tố (tiếp)

 Với giả sử các tổng thể có phân phối chuẩn, có phương sai
bằng nhau, các sai số là độc lập với nhau, phân tích phương
sai một yếu tố kiểm nghiệm giả thuyết ban đầu như sau:
H: 1 = 2 = … = k.
K: có ít nhất 2 giá trị I nào đó là khác nhau.
 Phân tích phương sai ở đây dựa trên thông số thống kê F
 Với F là tỷ số giữa biến thiên giữa trung bình các nhóm trên
biến thiên giữa các quan sát trong nội bộ nhóm.
 Nếu các giá trị trung bình của các nhóm khác biệt nhau
nhiều, đặc biệt trong mối quan hệ với sự biến thiên của nội
bộ từng nhóm, giá trị F thu được sẽ lớn và khi đó giả thuyết
H sẽ bị từ chối.
 Nếu quan sát việc phân tích phương sai một yếu tố cho hai
nhóm thì kết quả thống kê F tính được sẽ chính bằng bình
phương kết quả thống kê t trong kiểm nghiệm t cho hai mẫu
độc lập

32
Các bước phân tích phương sai một yếu tố:

Phân tích phương sai một yếu tố dùng để kiểm định giả
thuyết về sự đồng nhất của các giá trị trung bình
 Bước 1: Tính giá trị trung bình xitb cho từng nhóm và
xtb chung cho tất cả các nhóm
– Trung bình của mỗi
n
nhóm:
1 i

xi 
ni
x
j 1
ij (i  1,2,..., k )

– Trung bình toàn bộ


ni
1 k 1 k __
x   xij   xi ni
n i 1 j 1 n i 1
33
Các bước phân tích phương sai một yếu tố(t)

Bước 2: Tính các đại lượng thể hiện sự biến thiên trong
nội bộ từng nhóm (SSW) và giữa các nhóm (SSG)
 Gọi SSi (Sum of Square): là đại lượng thể hiện sự
biến thiên trong nội bộ của nhóm thứ i là:
ni
SSi   ( xij  xi ) 2
j 1
 SSW: Tổng cộng các biến thiên trong nội bộ của các
nhóm là:

k ni
SSW  SS1  SS 2  ...  SS k   ( xij  xi ) 2
i 1 j 1

34
Các bước phân tích phương sai một yếu tố(t)

 Ý nghĩa của SSW:


– SSW là tổng bình phương các chênh lệch giữa từng quan sát với
trung bình của nhóm mà quan sát đó thuộc về (Within-groups sum
of squares)
– SSW là những biến thiên không do yếu tố kiểm soát (yếu tố dùng
để phân chia các nhóm) gây ra
 SSG (between-groups sum of squares): tổng bình phương
độ lệch giữa các nhóm
ni
SSG   ni ( xi  x ) 2
 Ý nghĩa của SSG: i 1
– SSG thể hiện sự biến thiên do sự khác nhau giữa các nhóm, tức là
biến thiên do yếu tố đang nghiên cứu gây ra

35
Các bước phân tích phương sai một yếu tố(t)

 SST (Total- sum of squares): là tổng bình phương các độ lệch giữa từng
quan sát với trung bình của tất cả các quan sát.

k ni


SST 
Ta có: SST=SSG+SSW
 ( xij  x ) 2
Ý nghĩa: Sự biến thiên của các giá trị so với giá trị trung bình(SST) = biến
thiên bởi yếu tố nghiên cứui (SSG)
1 j 1
+ biên thiên do các yêu tố khác (SSW)

36
Các bước phân tích phương sai một yếu tố(t)

Bước 3: Tính các ước lượng cho phương sai chung


của k tổng thể, MSW và MSG, bằng cách chia SSW
và SSG cho số bậc tự do tương ứng, ta có:
 MSW(Within-groups mean square)
 MSG(Between-groups mean square)

Ta có: SSW
MSW 
nk
SSG
MSG 
k 1

37
Các bước phân tích phương sai một yếu tố(t)

Bước 4: Tính giá trị kiểm định F:



MSG
F ~ Fisher (k  1, n  k )
MSW

 Với df=(k-1,n-k) và mức ý nghĩa (thường là 0.05), tra


bảng ta có f(k-1,n-k), còn gọi là fcritical,
 Nếu Fstat > fcrit : từ chối H
 Nếu Fstat < fcrit : chấp nhận H

38
Kết quả

Kết quả phân tích phương sai một yếu tố được thể
hiện dưới dạng bảng sau:
Biến thiên (Sum of Df (Mean square) Giá trị P-value
(Variance) squares) kiểm Sig.
định

Between SSG k-1 MSG=SSG/k-1 F=MSG/


Groups MSW

Within SSW n-k MSW=


Groups SSW/n-k

Total SST n-1

39
Ví dụ

Hàm lượng 1 Hàm lượng 2 Hàm lượng 3


6.6 5.6 6.1
6.8 5.8 6.3
6.9 6 6.8
7.1 6.2 6.4
7.5 7.2 6.5
7.5 7.5

7.8

40
Groups Count Sum Average Variance
Gioáng caây 1 7 50.2 7.171429 0.192381
Gioáng caây 2 5 30.8 6.16 0.388
Gioáng caây 3 6 39.6 6.6 0.248

ANOVA
Source of SS df MS F P-value F crit
Variation
Between Groups 3.073714 2 1.536857 5.841659 0.01330 3.68231
Within Groups 3.946285 15 0.263086
Total 7.02 17

41
3.2 Phân tích phương sai 2 yếu tố

Yếu tố theo cột

1 2 … K

Yếu X111, X112, …, X11s X211, X212, …, X21s … Xk11, Xk12, …, Xk1s
tố X121, X122, …, X12s X221, X222, …, X22s … Xk21, Xk22, …, Xk2s
theo … … … …
hàng X1m1, X1m2, …, X1ms X2m1, X2m2, …, X2ms … Xkm1, Xkm2, …, Xkms

Xijk=
42
Ví dụ

  Khu vực 1 Khu vực 2 Khu vực 3


  2.4 2.1 3.2
Nghề nghiệp A 2.4 2.2 3.2
  2.5 2.2 3.4
  2.5 2.2 3.4

Nghề nghiệp B 2.5 2.3 3.5


  2.6 2.3 3.5

43
Các công thức

B1: Tính các giá trị trung bình:


 Trung bình mỗi phần tử cột i hàng j
s

x ijl
xij  l 1
s
 Trung bình theo cột i:
1 m s
xi*  
ms j 1 l 1
xijl

44
Các công thức (tiếp)

 Trung bình theo hàng j:

1 k s
x* j   xijl
ks i 1 l 1

 Trung bình của toàn bộ:

1 k m s
x 
kms i 1 j 1 l 1
xijl

45
Các công thức (tiếp)

Bước 2: Tính các đại lượng thể hiện sự biến thiên trong
nội bộ từng nhóm (SSW) và giữa các nhóm (SSG)
 SSG (between-groups sum of squares): Đại lượng thể
hiện sự biến thiên giữa các nhóm được tính bằng công
thức:
k
SSG  ms  ( xi*  x ) 2

i 1

 SSG thể hiện sự biến thiên do sự khác nhau do yếu tố


theo cột gây ra

46
Các công thức (tiếp)

 SSB thể hiện sự biến thiên do sự khác nhau do yếu


tố thứ hai gây ra

m
SSB  ks  ( x* j  x ) 2
j 1

 Ý nghĩa: SSB thể hiện sự biến thiên do sự khác


nhau giữa các nhóm, tức là biến thiên do yếu tố
theo hàng gây ra

47
Các công thức (tiếp)

 Sự tác động qua lại giữa 2 yếu tố nghiên cứu:


s m
SSI  s   (x ij  xi*  x* j  x ) 2

i 1 j 1

• Sự biến thiên do các yếu tố chưa được nghiên cứu:


k m s
SSE   ( xijl  xij ) 2

i 1 j 1 l 1

48
Các công thức (tiếp)
 Tổng toàn bộ biến thiên:
k m s
SST     ijl
i 1
( x  x ) 2

j 1 l 1
 Ta có: SST=SSG + SSB + SSI + SSE
 Ý nghĩa: Sự biến thiên của các giá trị so với giá trị trung bình(SST) =
biến thiên bởi yếu tố cột(SSG) + biên thiên bởi yếu tố hàng (SSB)
+biến thiên do tac động qua lại giữa yếu tố hàng và cột (SSI) + biến
thiên chưa được nghiên cứu bởi 2 yếu tố trên (SSE)
Bước 3: Tính các ước lượng cho phương sai chung của k tổng thể,
MSB, MSG, MSI và MSE, bằng cách chia cho các bậc tự do tương
ứng, ta có:
SSG SSB
MSG  MSB 
k -1 m -1
SSI SSE
MSI  MSE 
49 (k - 1)(m - 1) m * k * (s - 1)
Các công thức (tiếp)

 Bước 4: Áp dụng tiêu chuẩn kiểm định

MSG
F1  ~ Fisher (k  1, km( s  1))
MSE
MSB
F2  ~ Fisher (m  1, km( s  1))
MSE
MSI
F3  ~ Fisher ((k  1)(m  1), km( s  1))
MSE

50
Ví dụ

ANOVA
Source of Variation SS df MS F P-value F crit
Sample 0.08 1 0.08 16 0.001762 4.747221
Columns 4.347778 2 2.173889 434.7778 6.36E-12 3.88529
Interaction 0.01 2 0.005 1 0.396569 3.88529
Within 0.06 12 0.005

Total 4.497778 17

51
Chương 4: Tương quan và hồi qui

4.1 Mở đầu: Liên hệ tương quan và phương pháp phân


tích tương quan
• Mối liên hệ ràng buộc lẫn nhau giữa các chỉ tiêu
hoặc tiêu thức của hiện tượng, trong đó sự biến
động của một chỉ tiêu này (chỉ tiêu kết quả) là do tác
động của nhiều chỉ tiêu khác (các chỉ tiêu nguyên
nhân) gọi là liên hệ tương quan
• Quá trình phân tích tương quan gồm các công việc
cụ thể sau:
• Phân tích định tính về bản chất của mối quan hệ
• Dùng phương pháp phân tổ hoặc đồ thị để xác định tính
chất và xu thế của mối quan hệ đó.
• Biểu hiện cụ thể mối liên hệ tương quan bằng phương trình
hồi quy tuyến tính hoặc phi tuyến và tính các tham số của
các phương trình.
• Đánh giá mức độ chặt chẽ của mối liên hệ tương quan =
52
4.2 Liên hệ tương quan tuyến tính giữa
2 chỉ tiêu

4.2.1 Phương trình hồi quy tuyến tính:


• Nếu gọi y và x là các giá trị quan sát được của chỉ tiêu kết quả và
chỉ tiêu nguyên nhân có thể xây dựng được phương trình hồi quy
đường thẳng như sau:

~
y x  a  bx
• Trong đó: a và b là các hệ số của phương trình

na  b x  y
• Bằng phươngpháp
a x bình
b xphương
2
 xynhỏ nhất xây dựng được hệ

phương trình chuẩn tắc xác định các hệ số a và b của phương trình.

53
Hồi qui

n
S   ( Ai Ai' ) 2
i 1
n
  (b0  b1x i  yi ) 2
i 1

 S bé nhất nếu b0 , b1 là nghiệm của hệ


phương trình
S n
 2 (b 0 b1 xi  yi )  0,
b0 i 1

S n
 2 (b0  b1 xi  yi ) xi 0
b1 i 1
54
4.5 Hồi qui bội (tiếp)

 n n

 nb0  b1  xi   yi
 i 1 i 1
 n n n
b0  xi  b1  xi2  xi yi

 i 1 i 1 i 1

55
Hồi qui (tiếp)

 ax  by  e

cx  dy  f
a b  e  x
A    B    X   
c d  f  y
1
AX  B  X  A B

56
Hồi qui (tiếp)
n n
nb0  b1  xi  y i  b0  b1 X  Y  b0  Y  b1 X
i 1 i 1
n n n
b0  xi  b1  x 2
i  xi yi ( 2)
i 1 i 1 i 1

The vao ( 2)
n n n
(Y  b1 X )  xi  b1  x 2
i   xi yi
i 1 i 1 i 1
n n
(Y  b1 X ) n X  b1  x 2
i   xi yi
i 1 i 1
n n
2
b1 (  x  n X ) 
2
i x i yi  n X Y
i 1 i 1
n

x i yi  n X Y
b1  i 1
n
2
57 x
i 1
2
i  nX
4.2.2 Ví dụ

Sự liên hệ giữa: tuổi nghề và năng suất lao động


của các công nhân
30

25

20

15

10

0
0 2 4 6 8 10 12

58
Ví dụ (tiếp)
Tuổi nghề -
STT công Năng suất lao động
x xy x2 y2
nhân - y (triệu đồng)
(năm)
A 1 2 3=1x2 4=(1)2 5=(2)2
A 1 3 3 1 9
B 3 12 36 9 144
C 4 9 36 16 81
D 5 16 84 49 144
E 7 12 84 49 144
F 8 21 168 64 441
G 9 21 189 81 441
H 10 24 240 100 576
I 11 19 209 121 361
K 12 27 324 144 729
Tổng 70 164 1369 610 3182
Trung bình 7 16,4 137,3 x x

59
Ví dụ (tiếp)

 Từ số liệu đã cho của x và y ở bảng 1, ta tính


toán các đại lượng xy, x2 và y2 như cột 3, 4
và 5 của bảng.
 Thay số liệu tính được ở bảng 2 vào hệ
phương trình, tính được: a = 3,52, b=1,84
 Gán giá trị a và b vào phương trình tổng quát
có dạng cụ thể của phương trình đường
thẳng là:
~
y x  3,52  1,84 x

60
4.2.3 Hệ số tương quan tuyến tính
 Công thức tính hệ số tương quan:
xy  x.y
r
 x . y
 Hoặc
x
r  b.
y

61
Ý nghĩa của hệ số tương quan
 r: có giá trị trong khoảng từ [-1,1]:
Khi r càng gần 0 thì quan hệ càng ít, ngược lại khi r
càng gần 1 hoặc -1 thì quan hệ càng chặt chẽ (r > 0
có quan hệ thuận và r < 0 có quan hệ nghịch).
 Trường hợp r=0 thì giữa x và y không có quan hệ.
Từ số liệu bảng 1, ta tính được:
2 2
610  70  3182  164 
x      3,464 y     7,017
10  10  10  10 

136 ,9  (7  16 ,4 )
r  0,909
3,464  7,017
62
4.3. Liên hệ tương quan phi tuyến

Các phương trình hồi quy phi tuyến: Phương trình hồi quy
phi tuyến thường được sử dụng:
 Phương trình parabol bậc 2:
~
y x  a  bx  cx 2
 Phương trình parabol bậc 2 thường được áp dụng
trong trường hợp các trị số của chỉ tiêu nguyên nhân
tăng lên thì trị số của chỉ tiêu kết quả tăng (hoặc giảm),
việc tăng (hoặc giảm) đạt đến trị số cực đại (hoặc cực
tiểu) rồi sau đó lại giảm (hoặc tăng).
 * Phương trình hyperbol

~ b
yx  a 
x
63
4.3. Liên hệ tương quan phi tuyến

 Phương trình hàm số mũ


~
y x  a .b x

 Phương trình hàm số mũ được áp dụng trong trường


hợp cùng với sự tăng lên của chỉ tiêu nguyên nhân thì
trị số của các chỉ tiêu kết quả thay đổi theo cấp số
nhân, nghĩa là có tốc độ tăng xấp xỉ nhau.
 Bằng phương pháp bình phương nhỏ nhất ta xây dựng
được các hệ phương trình chuẩn tắc phù hợp để xác
định các hệ số của các phương trình tương ứng.

64
4.4 Kiểm định về bài toán hồi qui

 Hệ số xác định R2 : R-Square Coefficient


Determination): Dùng để đo sự phù hợp về mô hình
tuyến tính
 Với các điểm nối đường hồi qui thực nghiệm:
Ai(xi,yi) i=1,…,n
 Giả sử tìm được phương trình hồi qui lý thuyết:
~
y  a  bx
 Gọi yi = axi+b+ei
 ei : thể hiện phần biến thiên của Y không thể giải thích
bởi mối liên hệ tuyến tính giữa X và Y
yi  ~
y  ei

65
4.4 Kiểm định về bài toán hồi qui (tiếp)

SSR: Sum of Square for Regression


SSE: Sum of Square for Error (Residual)
SST: Sum of Square for Total n
SSR   (~
yi  y ) 2
i 1

n
SSE   (~
y i  yi ) 2
i 1

n
SST   i
( y 
i 1
y ) 2

Ta có: SST = SSR + SSE


Ý nghĩa: Đại lượng thể hiện toàn bộ biến thiên của Y =
biến thiên của Y được giải thích bởi các Xi và phần biến
66
thiên của Y do yếu tố khác.
Ví dụ:

Thôøi gian x Hieäu suaát y SUMMARY OUTPUT


6 5.2
5 7.3 Regression Statistics
4 7.4 Multiple R 0.96891
7 4.6 R Square 0.938787
7 5.3 Adjusted R Square 0.928585
6 5 Standard Error 0.567241
10 1 Observations 8
8 2.9

67
Ví dụ:

ANOVA
df SS MS F Significance F
Regression 1 29.60817 29.60817 92.01868 7.34E-05
Residual 6 1.930576 0.321763
Total 7 31.53875

Coefficients Standard t Stat P-value Lower Upper


Error 95% 95%
Intercept 12.2151832 0.794816 15.36856 4.8E-06 10.27034 14.1600
Thôøi gian x -1.1136126 0.11609 -9.59264 7.34E-05 -1.39768 -
0.82955

68
Ví dụ:

69
4.4 Kiểm định về bài toán hồi qui (tiếp)

 Hệ số
2 SSR SSE
R   1
SST SST

 Có thể dùng Hệ số R2 chỉnh lý (Adjusted R2 : phản


ánh mức độ phù hợp của mô hình tổng thể)

2 SSE /(n  (k  1))


Adjusted R  1 
SST /(n  1)

70
4.4 Kiểm định về bài toán hồi qui (tiếp)

 Kiểm định F:
Giả thuyết: H: Phương trình hồi qui không phù hợp
K: Phương trình hồi qui phù hợp
 Với số biến độc lập k=1
SSR SSR
MSR  
k 1
SSE SSE
MSE  
n  (k  1) n  2
 MSR
F ~ Fisher (1, n  2)
MSE

71
4.4 Kiểm định về bài toán hồi qui (tiếp)

 Kiểm định t: Kiểm định hệ số hồi qui


Giả thuyết: H: b = 0 : hệ số hồi qui không có ý
nghĩa
K: b  0 : hệ số hồi qui có ý nghĩa
Tiêu chuẩn kiểm b định:
T ~ Student (n  2)
Sb

 Nếu |T|<tn-2,/2 : Chấp nhận H


 |T|t
S 2 n-2,/2 : TừMSE
chối H n

Sb 
n
e
2
 n i
e 2

SSE
x 2
i  nx  ( x  x)
i 1
i
2
S e2  i 1

n2

n2
 MSE
i 1
72
4.5 Hồi qui bội (tiếp)

 y phụ thuộc vào k biến độc lập: x1, x2, …, xk, lấy mẫu có kích
thước n
x1 x2 … xk y

1 x11 x21 xk1 y1

2 x12 x22 xk2 y2

n x1n x2n xkn yn


73
4.5 Hồi qui bội (tiếp)

 Giả sử phương trình hồi qui lý thuyết có dạng :


y = b0 + b1x1 + b2x2 + ... + bkxk
 Giả sử:
– Sai số i có phân phối chuẩn
– Các biến độc lập x1, x2 , ..., xk có phương sai bằng
nhau
– Các biến độc lập x1, x2 , ..., xk là độc lập
 Cần tìm các hệ số b0,b1,b2, … , bk

74
4.5 Hồi qui bội (tiếp)
n
S   ( Ai Ai' ) 2
i 1
n
  (b0  b1x1i  b 2 x 2i  ...  b k x ki  y i ) 2

i 1
 S bé nhất nếu b0 , b1, b2, .. , bk là nghiệm của
hệ phương trình

S S S S
 0,  0,  0,...,  0,
b0 b1 b2 bk
75
4.5 Hồi qui bội (tiếp)

 Thực hiện các phép đạo hàm riêng, ta có:


n
2 (b0  b1x1i  b 2 x 2i  ...  b k x ki  yi )  0
i 1
n
2 (b0  b1x1i  b 2 x 2i  ...  b k x ki  yi ) x1i  0
i 1

...
n
2 (b0  b1x1i  b 2 x 2i  ...  b k x ki  yi ) xki  0
i 1

76
4.5 Hồi qui bội (tiếp)

 Biến đổi, ta có:


n n n n
nb0  b1  x1i  b2  x2i  ...  bk  xki   yi
i 1 i 1 i 1 i 1
n n n n n
b0  x1i  b1  x  b2  x2i x1i  ...  bk  xki x1i   x1i yi
2
1i
i 1 i 1 i 1 i 1 i 1

...
n n n n n
b0  xki  b1  x1i x ki  b2  x2i xki  ...  bk  xki2   xki yi
i 1 i 1 i 1 i 1 i 1

77
4.5 Hồi qui bội (tiếp)

 Với các ma trận:


 1 x11 ... xk1   b0   y1 
     
 1 x12 ... xk 2   b1   y2 
X  B  Y  
... ... ... ...  ... ...
   
1 x ... xkn  b   
 1n  k y 
 n

 Ta có hệ phương trình trước được viết lại:


XT.X.B = XT.Y
B=( XT.X)-1 XT.Y

78
Phép kiểm định Fisher

Các công thức:


n
SSR   (~
yi  y ) 2
i 1

n
SSE   (~
yi  yi ) 2
i 1

 Ta có: SST = SSR + SSE


SST   i
( y 
i 1
y ) 2

 Ý nghĩa: Đại lượng thể hiện toàn bộ biến thiên của Y = biến thiên của Y
được giải thích bởi các Xi và phần biến thiên của Y do yếu tố khác
 Công thức tính hệ số R2,, R2 chỉnh lý như phần trước

79
Phép kiểm định Fisher (tiếp)

Giả thuyết: H: Phương trình hồi qui không phù


hợp
K: Phương trình hồi qui phù hợp
SSR
MSR 
k
SSE
MSE 
n  (k  1)
MSR
F ~ Fisher (k , n  (k  1))
MSE

80
Phép kiểm định Student

Kiểm định t: Kiểm định hệ số hồi qui


Giả thuyết:H: bj = 0 (các hệ số hồi qui không có ý nghĩa)
K: bj  0(có hệ số hồi qui có ý nghĩa)
bj
Giá trị kiểm định: T ~ Student (n  (k  1))
Sb j

Nếu |T| < tn-(k+1),/2 : Chấp nhận H


|T|  tn-(k+1),/2 : Từ chối H

81
Phép kiểm định Student (tiếp)

Gọi Gj: tập các biến trừ Xj


S e2
Sb j 
(1  RX2 j G j ) * S Xj2 * (n  1)

Trong đó: Se2 = MSE


S2Xj = Phương sai mẫu của biến Xj
R2XjGj=Hệ số tương quan giữa
2 XY  X Y
R XY 
S x SY

Khoảng tin cậy cho bj là: bj  t/2*Sbj

82
Ví dụ về Hồi qui bội

X1(thôøi gian:Phuùt) X2(Nhieät ñoä) Y(Hieäu suaát)


15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
60 135 7.26
83
84
4.6 Hồi qui bội phi tuyến
 Giả sử các tham số và các hàm thành phần trong phương trình
hồi qui là :
m
y  a   ai f i ( x1 , x 2 ,..., x k )
i 1
 Với ma trận F thay thế cho ma trận X ở trên như sau :

1 f 1 ( x1 ) ... f m ( x1 ) 
 
1 f1 ( x2 ) ... f m ( x2 ) 
X 
... ... ... ... 
 
 M=FT.F 1 f1 ( x k ) ... f m ( x k ) 

 Ma trận hệ số A=(FT.F)-1 .FT . Y

85
Ví dụ: Hồi qui bội phi tuyến

X1 X2 Y
2.5 30 19.3
3 30 22.4
3.5 40 24.5
4 40 26.9
4.5 50 29.2
5 50 31.2
6 60 28.1
6.5 60 27.2

86
Với pt tuyến tính

ANOVA
df SS MS F Significance F
Regression 2 62.44135 31.22067 3.759837 0.100796
Residual 5 41.51865 8.303731
Total 7 103.96
Standard
Coefficients Error t Stat P-value Lower 95%
Intercept 14.23653846 5.101863 2.790459 0.038424 1.121783
X1 -0.823076923 3.574209 -0.23028 0.826998 -10.0109
X2 0.343653846 0.421014 0.816253 0.451476 -0.7386

87
Với pt phi tuyến

ANOVA
df SS MS F Significance F
Regression 2 88.74281 44.3714 14.57937 0.008197
Residual 5 15.21719 3.043439
Total 7 103.96
Standard
Coefficients Error t Stat P-value Lower 95%
Intercept 51.78543536 7.39621 7.001618 0.000916 32.77287
1/(X1+X2) -992.674153 251.5361 -3.94645 0.010889 -1639.27
X1X22 -0.00038795 0.000192 -2.02139 0.099195 -0.00088

88
Với pt phi tuyến

https://data-flair.training/blogs/logistic-regression-in-r/

> data <- read.csv("C:\\Tam6\\Vidu.csv", header = TRUE)


> data
>
model<-nls(Y~a+b/(X1*X2)+c*X1*X2^2,data=data,start=c(
a=-1000,b=-1000,c=-1000))
> summary(model)

89

You might also like