Bai Giang Phan Tich Du Lieu Kinh Doanh

PHÂN TÍCH DỮ LIỆU KINH DOANH
PGS. TS. Nguyễn Đình Thuân
TP. Hồ Chí Minh 9-2017
1
1.2 Các tham số của mẫu
1.2.1 Các tham số thống kê đo lường độ tập trung

(Measures of central tendency)
1. Giá trị trung bình (Mean): Là giá trị trung bình số học của một biến, được tính
bằng tổng các giá trị quan sát chia cho số quan sát. Đây là dạng công cụ
thường được dùng cho dạng đo khoảng cách và tỷ lệ. Giá trị trung bình có đặc
điểm là chịu sự tác động của các giá trị ở mỗi quan sát, do đó đây là thang đo
nhạy cảm nhất đối với sự thay đổi của các giá trị quan sát. Giá trị trung bình
được tính bằng công thức sau:
n
x
i 1
i
X 
n
2. Mode: Là giá trị có tần suất xuất hiện lớn nhất của một tập hợp các số đo,
dạng này thường được dùng đối với dạng dữ liệu thang biểu danh. Giống như
trung vị, mode không bị ảnh hưởng bởi giá trị đầu mút của dãy phân phối.
2
1.2.1 Các tham số thống kê đo lường độ tập trung
3. Trung vị (Median): Là số nằm giữa (nếu lượng quan sát là số lẻ) hoặc là giá
trị trung bình của hai quan sát nằm giữa (nếu số lượng quan sát là số chẳn)
của một dãy quan sát được xắp xếp theo thứ tự từ nhỏ đến lớn. Đây là dạng
công cụ thống kê thường được dùng để đo lường mức độ tập trung của
dạng dữ liệu thang đo thứ tự, nó có đặc điểm là không bị ảnh hưởng của
các giá trị đầu mút của dãy phân phối, do đó rất thích hợp để phân tích đối
với dữ liệu có sự chênh lệch lớn về giá trị ở hay đầu mút của dãy phân phối.
- Gọi phân vị mức p là giá trị xp thỏa giá trị của hàm phân phối:
F(xp)  p và F(xp+0)  p
Nếu hàm phân phối F(x) liên tục thì F(xp) = P(Xxp) = p
- Nếu p=1/2: x1/2 là trung vị
- Ý nghĩa: Trung vị chia các giá trị thành 2 phần bằng nhau.
Ngoài ra, x1/4 , x1/2 , x3/4 có P(x1/4 < X < x3/4) = ½
Khoảng (x1/4 , x3/4) : gọi là khoảng tứ phân vị (Quartiles)
Ví dụ: 50 52 53 55 56 57 59 60 61 64 67
Me = 57
Quartiles: (53,61)
3
1.2 Các tham số của mẫu (tiếp)
1.2.2 Các tham số thống kê đo lường mức độ phân tán (Measures of

Dispersion)
Khảo sát hai nhóm với các giá trị sau:
Nhóm 1: 52, 59, 60, 61, 66 Có xtb1 = Me1 = 60
Nhóm 2: 58, 59, 60, 61, 62 Có xtb2 = Me2 = 60
Nhận xét rằng: xtb1 đại diện tốt hơn xtb2 vì nhóm 2 các dữ liệu biến đổi ít hơn
nhóm 1, điều này có nghĩa các giá trị trong nhóm 1 phân tán nhiều hơn, các
giá trị quan sát nằm xa giá trị trung bình của mẫu hơn là nhóm 2. Đo lường
độ phân tán cho biết được những khác biệt giữa hai nhóm dữ liệu. Có một
số công cụ đo lường độ phân tán của dữ liệu như:
1. Phương sai (Variance): Dùng để đo lường mức độ phân tán của một tập
các giá trị quan sát xung quanh giá trị trung bình của tập quan sát đó.
Phương sai bằng trung bình các bình phương sai lệch giữa các giá trị quan
sát đối với giá trị trung bình của các quan sát đó.
n
2
 (x
i 1
i  x)2
S 
4
n 1
1.2.2 Các tham số đo lường phân tán (tiếp)
2. Độ lệch chuẩn (SD: Standard deviation): Một công cụ khác

dùng để đo lường độ phân tán của dữ liệu xung quanh giá trị trung
bình của nó. Độ lệch chuẩn chính bằng căn bậc hai của phương
sai. Vì phương sai là trung bình của các bình phương sai lệch của
các giá trị quan sát từ giá trị trung bình, việc khảo sát phương sai
thường cho các giá trị rất lớn, do đó sử dụng phương sai sẽ gặp
khó khăn trong việc diễn giải kết quả. Sử dụng độ lệch chuẩn sẽ
giúp dễ dàng cho việc diễn giải do các kết quả sai biệt đưa ra sát
với dữ liệu gốc hơn.
1 n
s  i
n  1 i 1
( x  x ) 2
5
3. Khoảng biến thiên (Range): Là khoảng cách giữa giá

trị quan sát nhỏ nhất đến giá trị quan sát lớn nhất.
R = Xmax – Xmin
4. Sai số trung bình mẫu (Standard Error of Mean):
Được dùng để đo lường sự khác biệt về giá trị trung
bình của mẫu nghiên cứu này so với mẫu nghiên
cứu khác trong điều kiện có cùng phân phối. Nó có
thể được dùng để so sánh giá trị trung bình quan sát
với một giá trị ban đầu nào đó (giả thuyết). Công
thức tính sai số trung bình mẫu:
S
Sx 
n
6
5. Hệ số đối xứng Skewness: cho biết dạng phân phối của các giá
trị quan sát có thể được sử dụng để kiểm nghiệm tính phân phối
chuẩn. Một giá trị Skewness dương cho biết nhánh của phân
phối này lệch qua bên phải và ngược lại một trị âm chỉ ra nhánh
của phân phối này dài qua bên trái
- Skewness = 0: Các quan sát được phân phối một các đối xứng
xung quanh giá trị trung bình
- Skewness < 0: Các quan sát tập trung chủ yếu vào các giá trị
nhỏ nhất
- Skewness > 0: Các quan sát tập trung chủ yếu vào các giá trị
lớn nhất
- Skewness =
7
6. Hệ số tập trung Kurtosis:

- Dùng để đánh giá đỉnh của đường cong quan sát với dạng
đường cong phân phối chuẩn.
-Kurtosis > 0: Cho thấy xu hướng tập trung các quan sát xung
quanh giá trị trung bình, phân phối có đỉnh
-Kurtosis < 0: Cho thấy đường cong có dạng hẹp hơn hay
đường cong của phân phối tương đối bằng phẳng
Kurtosis =
8
9
1.3 Khoảng ước lượng
1.3.1 Giới thiệu:

 Dựa vào các tham số của mẫu suy luận cho tham số của tổng thể.
 Các tham số của tổng thể là (,,p): là các giá trị xác định nhưng chưa biết
vì không khảo sát toàn bộ.
 Dùng các hàm ước lượng: ^ ^
 ( x, s , p )
 Các ước lượng là tốt nếu thỏa 2 điều kiện:

i ) E ( )  

ii ) D( )  min
 Ước lượng khoảng: Cần ước lượng tham số  của tổng thể
– Tìm 2 hàm ước lượng X và Y: P(X <  < Y) = 
– Với a,b là các giá trị cụ thể của X và Y trong lần thí nghiệm này
– (a,b): khoảng tin cậy (Confidence interval) cho  với độ tin cậy (Confidence Level)

10
1.3 Khoảng ước lượng (tiếp)
1.3.2 Ước lượng giá trị trung bình:

 Trường hợp 1: Biết phương sai (tổng thể có phân phối chuẩn)

x  z / 2
n
 Trường hợp 2: Không biết phương sai (tổng thể có phân phối
chuẩn)
SX
x  t / 2,n 1
n
 Trường hợp 3: Mẫu lớn
SX
x  z / 2
n
11
1.3 Khoảng ước lượng (tiếp)
1.3.3 Ước lượng tỷ lệ (trường hợp mẫu lớn)

 Với p là tỷ lệ % tần suất xuất hiện của một giá trị quan sát
 p (1  p )
p  z / 2
n
 Trường hợp chưa biết p (vì mẫu lớn) ta sử dụng xấp xỉ:
 
 p (1  p )
p  z / 2
n
 Áp dụng: Descriptive Statitics
Chieàu daøi X 200 201 202 203 204 206 207 207 209 211
12 Troïng löôïng Y 150 151 153 154 202 256 257 257 259 263
Áp dụng: Descriptive Statitics (SPSS)
13
Chương 2: Kiểm định giả thuyết
2.1 Giới thiệu:

 Kiểm định giả thuyết (Hypothesis testing): đánh
giá 1 giả thuyết về tổng thể là chấp nhận hay
từ chối dựa vào mẫu thu được.
 Chẳng hạn:
– Trung bình của 2 tổng thể là bằng nhau
– Trung bình của tổng thể thứ nhất là lớn hơn.
– Tổng thể có phân phối chuẩn.
– Trung bình của tổng thể là bằng 50
– Yếu tố A ảnh hưởng đến các yếu tố khác
– …
14
2.1 Giới thiệu về Kiểm định giả thuyết
 Các bước của bài toán kiểm định:

1. Đưa ra giả thuyết H0 (Null Hypothesis)
Đối thuyết K (Alternative Hypothesis)
2. Giả sử H0 là đúng tìm 1 tiêu chuẩn kiểm đinh T (là
đại lượng ngẫu nhiên biết được phân phối)
3. Với mức ý nghĩa (significiance Level)  cho trước
(là số dương khá bé) tìm được giá trị t:
P(|T|  t) = 1-
P(|T|  t) = 
4. Miền (|T|  t): miền chấp nhận giả thuyết H
Miền |T|  t): miền từ chối giả thuyết H
15
2.1 Giới thiệu về kiểm định giả thuyết (tiếp)
Hai loại sai lầm:

 Sai lầm loại 1: từ chối H / H đúng
 Sai lầm loại 2: chấp nhận / H sai
 Gọi  = P(Sai lầm loại 1)
 Gọi  = P(Sai lầm loại 2)
H đúng H sai
Chấp nhận H Quyết định đúng Sai lầm loại 2
XS: 1- XS: 
Từ chối H Sai lầm loại 1 Quyết định đúng
XS:  XS: 1-
 : Mức ý nghĩa
 : độ mạnh (Power) của tiêu chuẩn kiểm định
16
2.2 Kiểm định về trung bình của tổng thể
 Bài toán 1:
H:  = 0
K:  0
 Bài toán 2:
H:   0
K:  > 0
 Bài toán 3:
H:   0
K:  < 0
17
2.2 Kiểm định trung bình của tổng thể (tiếp)
 Bài toán 1:
H:  = 0
K:  0 __
• Mẫu lớn: Tiêu chuẩn kiểm định x  0
T n
S
Miền chấp nhận H: |T| < z/2
Miền từ chối H: |T|  z/2
• Mẫu nhỏ: Tiêu chuẩn kiểm định __

Miền chấp nhận H: |T| < t (n-1), /2 x  0
T n
Miền từ chối H: |T|  t (n-1), /2 S
18
 Bài toán 2:
H:  = 0
K:  < 0 __
• Mẫu lớn: Tiêu chuẩn kiểm định x  0
T n
S
Miền chấp nhận H: T  -z
Miền từ chối H: T < -z
• Mẫu nhỏ: Tiêu chuẩn kiểm định __

Miền chấp nhận H: T  - t (n-1),  x  0
T n
Miền từ chối H: T < -t (n-1),  S
19
 Bài toán 3:
H:  = 0
K:  > 0
__
• Mẫu lớn: Tiêu chuẩn kiểm định
x  0
T n
Miền chấp nhận H: T < z S
Miền từ chối H: T  z
• Mẫu nhỏ: Tiêu chuẩn kiểm định

Miền chấp nhận H: T  t (n-1), 
__
Miền từ chối H: T < t (n-1), 
x  0
SPSS: Analyze, Compare Means, One-Sample T Test T n
S
20
2.3 Kiểm định bằng nhau giữa trung bình của
hai tổng thể
 Bài toán 1:
H: 1 = 2
K: 1  2
 Bài toán 2:
H: 1 = 2
K: 1 < 2
 Bài toán 3:
H: 1 = 2
K: 1 > 2
21
2.3 Kiểm định bằng nhau giữa trung
bình của hai tổng thể (tiếp)
 Bài toán 1:
H: 1 = 2
K: 1  2
 Trường hợp 1: Biết phương sai hoặc mẫu lớn:
x1  x2 x1  x2
T T
2 2
  s12 s22
 1 2

n1 H: |T|n2< z/2
Miền chấp nhận n1 n2
Miền từ chối H: |T|  z/2
MS Excel: Z–Test: Two sample for Means
22
3. Pheùp kieåm ñònh: z-Test: Two Sample for Means
Bieát phöông sai Var1=1 Var2=0.98
Khu vöïc 1 Khu vöïc 2

11 12
13 17 Khu vöïc 1 Khu vöïc 2
7 13 Mean 9.4 8.3
9 6 Known Variance 1 0.98
15 9 Observations 10 10
6 9 Hypothesized Mean Difference 0
10 3 z 2.4720662
9 4 P(Z<=z) one-tail 0.0067167
8 5 z Critical one-tail 1.644853
6 5 P(Z<=z) two-tail 0.0134335
23 z Critical two-tail 1.9599611
2.3 Kiểm định bằng nhau giũa trung bình của
hai tổng thể (tiếp)
 Bài toán 1:
H: 1 = 2
K: 1  2
 Trường hợp 2: Không biết phương sai:
x1  x2
T
1 1
S p2   
 n1 n2 
2 2
( n
Miền2 chấp nhận
1  1) S  ( n  1) S
H: 1|T| < t (n1+n2-2),
2 /2
2
S 
MiềnP từ chối H: |T|  t (n1+n2-2),/2
Bài toán 2 và 3 tương tự
n 1  n2  2
Thực hành: t–Test: Two sample for Means
24
4. Pheùp kieåm ñònh: t-Test: Two-Sample Assuming Equal Variances
Khu vöïc 1 Khu vöïc 2 Khu vöïc 1 Khu vöïc 2

0.52 0.65 Mean 0.754 0.785714
0.7 0.7 Variance 0.02553 0.011329
0.75 0.72 Observations 5 7
0.87 0.75 Pooled Variance 0.017009
0.93 0.86 Hypothesized Mean Difference 0
0.9 df 10
0.92 t Stat -0.4153
P(T<=t) one-tail 0.343348
t Critical one-tail 1.812462
P(T<=t) two-tail 0.686696
t Critical two-tail 2.228139
25
2.4 So sánh hai phương sai tổng thể
 Bài toán:
H: 1 = 2
K: 1  2
 Tiêu chuẩn kiểm định:
S n21 1
F 2
~ Fisher (n  1, n2  1)
1
S
Miền chấp nhận H: nF2 <
1f (f : F Critical)
Miền từ chối H: F  f
 Thực hành: F-test
26
2.6 Phép kiểm định Chi-Square
2.6.1 Kiểm định tính độc lập giữa 2 biến

H: hai biến độc lập nhau
K: hai biến có liên hệ với nhau
Để kiểm định tính độc lập giữa hai biến, người ta sử
dụng phân phối ngẫu nhiên Chi bình phương () với tham
số thống kê Pearson chi bình phương để tiến hành so
sánh số lượng các trường hợp quan sát được với số
lượng các trường hợp mong đợi bằng công thức sau:
2
r c (oij  Eij )
  

~ 2
( r 1)*(c 1)
i 1 j 1 E ij
27
 Oij: giá trị hàng i cột j Coke Pepsi 7Up

 Ri: tổng quan sát hàng i Nam 308 177 114
 Cj: tổng số quan sát cộtj Nữ 502 627 697
Ri C j Coke Pepsi 7Up Cộng

Eij 
n Nam 308 177 114 599
R C 1826 * 810 Nữ 502 627 697 1826
E21  2 1   609.92
n 2425 Cộng 810 804 811 2425
2 2
(308  200.07) (697  610,67)
2   ... 
200.07 610.67 Coke Pepsi 7Up
 129.83 Nam 200.07 198.59 200.32
Nữ 609.92 605.4 610.67
22,= 5.991476 Từ chối H

KL: Có liên hệ với nhau
28
- Khi kết quả thống kê Chi bình phương (2)

- Với độ tin cậy xác định, kích thước mẫu là n,
bậc tự do df=(r-1)(c-1)) ta có thể kết luận bác
bỏ giả thuyết độc lập giữa hai biến (H).
- Sử dụng giá trị P so sánh với mức ý nghĩa
(Significance level) thường là 0.05 tương
ứng với 95% độ tin cậy,
- Kết luận từ chối H khi p-value nhỏ hơn hoặc
bằng mức ý nghĩa và ngược lại chấp nhận H
khi p-value lớn hơn mức ý nghĩa.
29
CHƯƠNG 3: PHÂN TÍCH PHƯƠNG SAI
3.1 Phân tích phương sai một yếu tố (One way ANOVA/ One factor
ANOVA)
 Các phép so sánh đề cập ở phần trước chỉ cho phép ta so sánh
trung bình hai tổng thể dựa trên mẫu từng cặp phối hợp hoặc hai
mẫu độc lập.
 Trong phần này phương pháp kiểm định sẽ mở rộng cho trường hợp
so sánh trung bình của nhiều tổng thể được xây dựng trên việc xem
xét các biến thiên (phương sai) của các giá trị quan sát trong nội bộ
từng nhóm (mẫu) và giữa các nhóm (mẫu) với nhau.
 Phân tích phương sai một yếu tố: chỉ có một yếu tố (biến kiểm soát)
được xem xét nhằm xác định ảnh hưởng của nó đến một yếu tố
khác.
 Yếu tố được xem xét ảnh hưởng được dùng để phân loại các quan
sát thành các nhóm nhỏ khác nhau.
 Một cách tổng quát, giả sử ta có k nhóm (mẫu) n , n , …, n quan sát
1 2 k
được chọn ngẫu nhiên độc lập từ k tổng thể (N1, N2, …, Nk) có thể
khác nhau về kích thước.
 https://www.youtube.com/watch?v=ITf4vHhyGpc
30
3.1 Phân tích phương sai một yếu tố (tiếp)
Gọi 1, 2, …, k là các trung bình của k tổng thể, xij là
quan sát thứ j của nhóm thứ i. Ta có thể mô tả các
quan sát của k nhóm như sau:
Nhóm
1 2 … k
X11 X21 … XK1

X12 X22 … XK2
… … … …
…
X1n1 X2n2 Xknk
31
3.1 Phân tích phương sai một yếu tố (tiếp)
 Với giả sử các tổng thể có phân phối chuẩn, có phương sai
bằng nhau, các sai số là độc lập với nhau, phân tích phương
sai một yếu tố kiểm nghiệm giả thuyết ban đầu như sau:
H: 1 = 2 = … = k.
K: có ít nhất 2 giá trị I nào đó là khác nhau.
 Phân tích phương sai ở đây dựa trên thông số thống kê F
 Với F là tỷ số giữa biến thiên giữa trung bình các nhóm trên
biến thiên giữa các quan sát trong nội bộ nhóm.
 Nếu các giá trị trung bình của các nhóm khác biệt nhau
nhiều, đặc biệt trong mối quan hệ với sự biến thiên của nội
bộ từng nhóm, giá trị F thu được sẽ lớn và khi đó giả thuyết
H sẽ bị từ chối.
 Nếu quan sát việc phân tích phương sai một yếu tố cho hai
nhóm thì kết quả thống kê F tính được sẽ chính bằng bình
phương kết quả thống kê t trong kiểm nghiệm t cho hai mẫu
độc lập
32
Các bước phân tích phương sai một yếu tố:
Phân tích phương sai một yếu tố dùng để kiểm định giả
thuyết về sự đồng nhất của các giá trị trung bình
 Bước 1: Tính giá trị trung bình xitb cho từng nhóm và
xtb chung cho tất cả các nhóm
– Trung bình của mỗi
n
nhóm:
1 i
xi 
ni
x
j 1
ij (i  1,2,..., k )
– Trung bình toàn bộ

ni
1 k 1 k __
x   xij   xi ni
n i 1 j 1 n i 1
33
Các bước phân tích phương sai một yếu tố(t)
Bước 2: Tính các đại lượng thể hiện sự biến thiên trong
nội bộ từng nhóm (SSW) và giữa các nhóm (SSG)
 Gọi SSi (Sum of Square): là đại lượng thể hiện sự
biến thiên trong nội bộ của nhóm thứ i là:
ni
SSi   ( xij  xi ) 2
j 1
 SSW: Tổng cộng các biến thiên trong nội bộ của các
nhóm là:
k ni
SSW  SS1  SS 2  ...  SS k   ( xij  xi ) 2
i 1 j 1
34
 Ý nghĩa của SSW:

– SSW là tổng bình phương các chênh lệch giữa từng quan sát với
trung bình của nhóm mà quan sát đó thuộc về (Within-groups sum
of squares)
– SSW là những biến thiên không do yếu tố kiểm soát (yếu tố dùng
để phân chia các nhóm) gây ra
 SSG (between-groups sum of squares): tổng bình phương
độ lệch giữa các nhóm
ni
SSG   ni ( xi  x ) 2
 Ý nghĩa của SSG: i 1
– SSG thể hiện sự biến thiên do sự khác nhau giữa các nhóm, tức là
biến thiên do yếu tố đang nghiên cứu gây ra
35
 SST (Total- sum of squares): là tổng bình phương các độ lệch giữa từng
quan sát với trung bình của tất cả các quan sát.
k ni


SST 
Ta có: SST=SSG+SSW
 ( xij  x ) 2
Ý nghĩa: Sự biến thiên của các giá trị so với giá trị trung bình(SST) = biến
thiên bởi yếu tố nghiên cứui (SSG)
1 j 1
+ biên thiên do các yêu tố khác (SSW)
36
Bước 3: Tính các ước lượng cho phương sai chung

của k tổng thể, MSW và MSG, bằng cách chia SSW
và SSG cho số bậc tự do tương ứng, ta có:
 MSW(Within-groups mean square)
 MSG(Between-groups mean square)
Ta có: SSW
MSW 
nk
SSG
MSG 
k 1
37
Bước 4: Tính giá trị kiểm định F:


MSG
F ~ Fisher (k  1, n  k )
MSW
 Với df=(k-1,n-k) và mức ý nghĩa (thường là 0.05), tra

bảng ta có f(k-1,n-k), còn gọi là fcritical,
 Nếu Fstat > fcrit : từ chối H
 Nếu Fstat < fcrit : chấp nhận H
38
Kết quả
Kết quả phân tích phương sai một yếu tố được thể
hiện dưới dạng bảng sau:
Biến thiên (Sum of Df (Mean square) Giá trị P-value
(Variance) squares) kiểm Sig.
định
Between SSG k-1 MSG=SSG/k-1 F=MSG/

Groups MSW
Within SSW n-k MSW=

Groups SSW/n-k
Total SST n-1
39
Ví dụ
Hàm lượng 1 Hàm lượng 2 Hàm lượng 3

6.6 5.6 6.1
6.8 5.8 6.3
6.9 6 6.8
7.1 6.2 6.4
7.5 7.2 6.5
7.5 7.5
7.8
40
Groups Count Sum Average Variance
Gioáng caây 1 7 50.2 7.171429 0.192381
Gioáng caây 2 5 30.8 6.16 0.388
Gioáng caây 3 6 39.6 6.6 0.248
ANOVA
Source of SS df MS F P-value F crit
Variation
Between Groups 3.073714 2 1.536857 5.841659 0.01330 3.68231
Within Groups 3.946285 15 0.263086
Total 7.02 17
41
3.2 Phân tích phương sai 2 yếu tố
Yếu tố theo cột
1 2 … K
Yếu X111, X112, …, X11s X211, X212, …, X21s … Xk11, Xk12, …, Xk1s
tố X121, X122, …, X12s X221, X222, …, X22s … Xk21, Xk22, …, Xk2s
theo … … … …
hàng X1m1, X1m2, …, X1ms X2m1, X2m2, …, X2ms … Xkm1, Xkm2, …, Xkms
Xijk=
42
Ví dụ
Khu vực 1 Khu vực 2 Khu vực 3

2.4 2.1 3.2
Nghề nghiệp A 2.4 2.2 3.2
2.5 2.2 3.4
2.5 2.2 3.4
Nghề nghiệp B 2.5 2.3 3.5

2.6 2.3 3.5
43
Các công thức
B1: Tính các giá trị trung bình:

 Trung bình mỗi phần tử cột i hàng j
s
x ijl
xij  l 1
s
 Trung bình theo cột i:
1 m s
xi*  
ms j 1 l 1
xijl
44
Các công thức (tiếp)
 Trung bình theo hàng j:
1 k s
x* j   xijl
ks i 1 l 1
 Trung bình của toàn bộ:
1 k m s
x 
kms i 1 j 1 l 1
xijl
45
Bước 2: Tính các đại lượng thể hiện sự biến thiên trong
nội bộ từng nhóm (SSW) và giữa các nhóm (SSG)
 SSG (between-groups sum of squares): Đại lượng thể
hiện sự biến thiên giữa các nhóm được tính bằng công
thức:
k
SSG  ms  ( xi*  x ) 2
i 1
 SSG thể hiện sự biến thiên do sự khác nhau do yếu tố

theo cột gây ra
46
 SSB thể hiện sự biến thiên do sự khác nhau do yếu

tố thứ hai gây ra
m
SSB  ks  ( x* j  x ) 2
j 1
 Ý nghĩa: SSB thể hiện sự biến thiên do sự khác

nhau giữa các nhóm, tức là biến thiên do yếu tố
theo hàng gây ra
47
 Sự tác động qua lại giữa 2 yếu tố nghiên cứu:

s m
SSI  s   (x ij  xi*  x* j  x ) 2
i 1 j 1
• Sự biến thiên do các yếu tố chưa được nghiên cứu:

k m s
SSE   ( xijl  xij ) 2
i 1 j 1 l 1
48
 Tổng toàn bộ biến thiên:
k m s
SST     ijl
i 1
( x  x ) 2
j 1 l 1
 Ta có: SST=SSG + SSB + SSI + SSE
 Ý nghĩa: Sự biến thiên của các giá trị so với giá trị trung bình(SST) =
biến thiên bởi yếu tố cột(SSG) + biên thiên bởi yếu tố hàng (SSB)
+biến thiên do tac động qua lại giữa yếu tố hàng và cột (SSI) + biến
thiên chưa được nghiên cứu bởi 2 yếu tố trên (SSE)
Bước 3: Tính các ước lượng cho phương sai chung của k tổng thể,
MSB, MSG, MSI và MSE, bằng cách chia cho các bậc tự do tương
ứng, ta có:
SSG SSB
MSG  MSB 
k -1 m -1
SSI SSE
MSI  MSE 
49 (k - 1)(m - 1) m * k * (s - 1)
 Bước 4: Áp dụng tiêu chuẩn kiểm định
MSG
F1  ~ Fisher (k  1, km( s  1))
MSE
MSB
F2  ~ Fisher (m  1, km( s  1))
MSE
MSI
F3  ~ Fisher ((k  1)(m  1), km( s  1))
MSE
50
Ví dụ
ANOVA
Source of Variation SS df MS F P-value F crit
Sample 0.08 1 0.08 16 0.001762 4.747221
Columns 4.347778 2 2.173889 434.7778 6.36E-12 3.88529
Interaction 0.01 2 0.005 1 0.396569 3.88529
Within 0.06 12 0.005
Total 4.497778 17
51
Chương 4: Tương quan và hồi qui
4.1 Mở đầu: Liên hệ tương quan và phương pháp phân

tích tương quan
• Mối liên hệ ràng buộc lẫn nhau giữa các chỉ tiêu
hoặc tiêu thức của hiện tượng, trong đó sự biến
động của một chỉ tiêu này (chỉ tiêu kết quả) là do tác
động của nhiều chỉ tiêu khác (các chỉ tiêu nguyên
nhân) gọi là liên hệ tương quan
• Quá trình phân tích tương quan gồm các công việc
cụ thể sau:
• Phân tích định tính về bản chất của mối quan hệ
• Dùng phương pháp phân tổ hoặc đồ thị để xác định tính
chất và xu thế của mối quan hệ đó.
• Biểu hiện cụ thể mối liên hệ tương quan bằng phương trình
hồi quy tuyến tính hoặc phi tuyến và tính các tham số của
các phương trình.
• Đánh giá mức độ chặt chẽ của mối liên hệ tương quan =
52
4.2 Liên hệ tương quan tuyến tính giữa
2 chỉ tiêu
4.2.1 Phương trình hồi quy tuyến tính:

• Nếu gọi y và x là các giá trị quan sát được của chỉ tiêu kết quả và
chỉ tiêu nguyên nhân có thể xây dựng được phương trình hồi quy
đường thẳng như sau:
~
y x  a  bx
• Trong đó: a và b là các hệ số của phương trình
na  b x  y
• Bằng phươngpháp
a x bình
b xphương
2
 xynhỏ nhất xây dựng được hệ

phương trình chuẩn tắc xác định các hệ số a và b của phương trình.
53
Hồi qui
n
S   ( Ai Ai' ) 2
i 1
n
  (b0  b1x i  yi ) 2
i 1
 S bé nhất nếu b0 , b1 là nghiệm của hệ

phương trình
S n
 2 (b 0 b1 xi  yi )  0,
b0 i 1
S n
 2 (b0  b1 xi  yi ) xi 0
b1 i 1
54
4.5 Hồi qui bội (tiếp)
 n n
 nb0  b1  xi   yi
 i 1 i 1
 n n n
b0  xi  b1  xi2  xi yi

 i 1 i 1 i 1
55
Hồi qui (tiếp)
 ax  by  e

cx  dy  f
a b  e  x
A    B    X   
c d  f  y
1
AX  B  X  A B
56
Hồi qui (tiếp)
n n
nb0  b1  xi  y i  b0  b1 X  Y  b0  Y  b1 X
i 1 i 1
n n n
b0  xi  b1  x 2
i  xi yi ( 2)
i 1 i 1 i 1
The vao ( 2)
n n n
(Y  b1 X )  xi  b1  x 2
i   xi yi
i 1 i 1 i 1
n n
(Y  b1 X ) n X  b1  x 2
i   xi yi
i 1 i 1
n n
2
b1 (  x  n X ) 
2
i x i yi  n X Y
i 1 i 1
n
x i yi  n X Y
b1  i 1
n
2
57 x
i 1
2
i  nX
4.2.2 Ví dụ
Sự liên hệ giữa: tuổi nghề và năng suất lao động

của các công nhân
30
25
20
15
10
0
0 2 4 6 8 10 12
58
Ví dụ (tiếp)
Tuổi nghề -
STT công Năng suất lao động
x xy x2 y2
nhân - y (triệu đồng)
(năm)
A 1 2 3=1x2 4=(1)2 5=(2)2
A 1 3 3 1 9
B 3 12 36 9 144
C 4 9 36 16 81
D 5 16 84 49 144
E 7 12 84 49 144
F 8 21 168 64 441
G 9 21 189 81 441
H 10 24 240 100 576
I 11 19 209 121 361
K 12 27 324 144 729
Tổng 70 164 1369 610 3182
Trung bình 7 16,4 137,3 x x
59
Ví dụ (tiếp)
 Từ số liệu đã cho của x và y ở bảng 1, ta tính

toán các đại lượng xy, x2 và y2 như cột 3, 4
và 5 của bảng.
 Thay số liệu tính được ở bảng 2 vào hệ
phương trình, tính được: a = 3,52, b=1,84
 Gán giá trị a và b vào phương trình tổng quát
có dạng cụ thể của phương trình đường
thẳng là:
~
y x  3,52  1,84 x
60
4.2.3 Hệ số tương quan tuyến tính
 Công thức tính hệ số tương quan:
xy  x.y
r
 x . y
 Hoặc
x
r  b.
y
61
Ý nghĩa của hệ số tương quan
 r: có giá trị trong khoảng từ [-1,1]:
Khi r càng gần 0 thì quan hệ càng ít, ngược lại khi r
càng gần 1 hoặc -1 thì quan hệ càng chặt chẽ (r > 0
có quan hệ thuận và r < 0 có quan hệ nghịch).
 Trường hợp r=0 thì giữa x và y không có quan hệ.
Từ số liệu bảng 1, ta tính được:
2 2
610  70  3182  164 
x      3,464 y     7,017
10  10  10  10 
136 ,9  (7  16 ,4 )
r  0,909
3,464  7,017
62
4.3. Liên hệ tương quan phi tuyến
Các phương trình hồi quy phi tuyến: Phương trình hồi quy
phi tuyến thường được sử dụng:
 Phương trình parabol bậc 2:
~
y x  a  bx  cx 2
 Phương trình parabol bậc 2 thường được áp dụng
trong trường hợp các trị số của chỉ tiêu nguyên nhân
tăng lên thì trị số của chỉ tiêu kết quả tăng (hoặc giảm),
việc tăng (hoặc giảm) đạt đến trị số cực đại (hoặc cực
tiểu) rồi sau đó lại giảm (hoặc tăng).
 * Phương trình hyperbol
~ b
yx  a 
x
63
4.3. Liên hệ tương quan phi tuyến
 Phương trình hàm số mũ

~
y x  a .b x
 Phương trình hàm số mũ được áp dụng trong trường

hợp cùng với sự tăng lên của chỉ tiêu nguyên nhân thì
trị số của các chỉ tiêu kết quả thay đổi theo cấp số
nhân, nghĩa là có tốc độ tăng xấp xỉ nhau.
 Bằng phương pháp bình phương nhỏ nhất ta xây dựng
được các hệ phương trình chuẩn tắc phù hợp để xác
định các hệ số của các phương trình tương ứng.
64
4.4 Kiểm định về bài toán hồi qui
 Hệ số xác định R2 : R-Square Coefficient

Determination): Dùng để đo sự phù hợp về mô hình
tuyến tính
 Với các điểm nối đường hồi qui thực nghiệm:
Ai(xi,yi) i=1,…,n
 Giả sử tìm được phương trình hồi qui lý thuyết:
~
y  a  bx
 Gọi yi = axi+b+ei
 ei : thể hiện phần biến thiên của Y không thể giải thích
bởi mối liên hệ tuyến tính giữa X và Y
yi  ~
y  ei
65
4.4 Kiểm định về bài toán hồi qui (tiếp)
SSR: Sum of Square for Regression

SSE: Sum of Square for Error (Residual)
SST: Sum of Square for Total n
SSR   (~
yi  y ) 2
i 1
n
SSE   (~
y i  yi ) 2
i 1
n
SST   i
( y 
i 1
y ) 2
Ta có: SST = SSR + SSE

Ý nghĩa: Đại lượng thể hiện toàn bộ biến thiên của Y =
biến thiên của Y được giải thích bởi các Xi và phần biến
66
thiên của Y do yếu tố khác.
Ví dụ:
Thôøi gian x Hieäu suaát y SUMMARY OUTPUT

6 5.2
5 7.3 Regression Statistics
4 7.4 Multiple R 0.96891
7 4.6 R Square 0.938787
7 5.3 Adjusted R Square 0.928585
6 5 Standard Error 0.567241
10 1 Observations 8
8 2.9
67
Ví dụ:
ANOVA
df SS MS F Significance F
Regression 1 29.60817 29.60817 92.01868 7.34E-05
Residual 6 1.930576 0.321763
Total 7 31.53875
Coefficients Standard t Stat P-value Lower Upper

Error 95% 95%
Intercept 12.2151832 0.794816 15.36856 4.8E-06 10.27034 14.1600
Thôøi gian x -1.1136126 0.11609 -9.59264 7.34E-05 -1.39768 -
0.82955
68
Ví dụ:
69
 Hệ số
2 SSR SSE
R   1
SST SST
 Có thể dùng Hệ số R2 chỉnh lý (Adjusted R2 : phản

ánh mức độ phù hợp của mô hình tổng thể)
2 SSE /(n  (k  1))

Adjusted R  1 
SST /(n  1)
70
 Kiểm định F:
Giả thuyết: H: Phương trình hồi qui không phù hợp
K: Phương trình hồi qui phù hợp
 Với số biến độc lập k=1
SSR SSR
MSR  
k 1
SSE SSE
MSE  
n  (k  1) n  2
 MSR
F ~ Fisher (1, n  2)
MSE
71
 Kiểm định t: Kiểm định hệ số hồi qui

Giả thuyết: H: b = 0 : hệ số hồi qui không có ý
nghĩa
K: b  0 : hệ số hồi qui có ý nghĩa
Tiêu chuẩn kiểm b định:
T ~ Student (n  2)
Sb
 Nếu |T|<tn-2,/2 : Chấp nhận H

 |T|t
S 2 n-2,/2 : TừMSE
chối H n
Sb 
n
e
2
 n i
e 2
SSE
x 2
i  nx  ( x  x)
i 1
i
2
S e2  i 1
n2

n2
 MSE
i 1
72
 y phụ thuộc vào k biến độc lập: x1, x2, …, xk, lấy mẫu có kích
thước n
x1 x2 … xk y
1 x11 x21 xk1 y1
2 x12 x22 xk2 y2
n x1n x2n xkn yn

73
 Giả sử phương trình hồi qui lý thuyết có dạng :

y = b0 + b1x1 + b2x2 + ... + bkxk
 Giả sử:
– Sai số i có phân phối chuẩn
– Các biến độc lập x1, x2 , ..., xk có phương sai bằng
nhau
– Các biến độc lập x1, x2 , ..., xk là độc lập
 Cần tìm các hệ số b0,b1,b2, … , bk
74
n
S   ( Ai Ai' ) 2
i 1
n
  (b0  b1x1i  b 2 x 2i  ...  b k x ki  y i ) 2
i 1
 S bé nhất nếu b0 , b1, b2, .. , bk là nghiệm của
hệ phương trình
S S S S
 0,  0,  0,...,  0,
b0 b1 b2 bk
75
 Thực hiện các phép đạo hàm riêng, ta có:

n
2 (b0  b1x1i  b 2 x 2i  ...  b k x ki  yi )  0
i 1
n
2 (b0  b1x1i  b 2 x 2i  ...  b k x ki  yi ) x1i  0
i 1
...
n
2 (b0  b1x1i  b 2 x 2i  ...  b k x ki  yi ) xki  0
i 1
76
 Biến đổi, ta có:

n n n n
nb0  b1  x1i  b2  x2i  ...  bk  xki   yi
i 1 i 1 i 1 i 1
n n n n n
b0  x1i  b1  x  b2  x2i x1i  ...  bk  xki x1i   x1i yi
2
1i
i 1 i 1 i 1 i 1 i 1
...
n n n n n
b0  xki  b1  x1i x ki  b2  x2i xki  ...  bk  xki2   xki yi
i 1 i 1 i 1 i 1 i 1
77
 Với các ma trận:

 1 x11 ... xk1   b0   y1 
     
 1 x12 ... xk 2   b1   y2 
X  B  Y  
... ... ... ...  ... ...
   
1 x ... xkn  b   
 1n  k y 
 n
 Ta có hệ phương trình trước được viết lại:

XT.X.B = XT.Y
B=( XT.X)-1 XT.Y
78
Phép kiểm định Fisher
Các công thức:

n
SSR   (~
yi  y ) 2
i 1
n
SSE   (~
yi  yi ) 2
i 1
 Ta có: SST = SSR + SSE

SST   i
( y 
i 1
y ) 2
 Ý nghĩa: Đại lượng thể hiện toàn bộ biến thiên của Y = biến thiên của Y
được giải thích bởi các Xi và phần biến thiên của Y do yếu tố khác
 Công thức tính hệ số R2,, R2 chỉnh lý như phần trước
79
Phép kiểm định Fisher (tiếp)
Giả thuyết: H: Phương trình hồi qui không phù

hợp
K: Phương trình hồi qui phù hợp
SSR
MSR 
k
SSE
MSE 
n  (k  1)
MSR
F ~ Fisher (k , n  (k  1))
MSE
80
Phép kiểm định Student
Kiểm định t: Kiểm định hệ số hồi qui

Giả thuyết:H: bj = 0 (các hệ số hồi qui không có ý nghĩa)
K: bj  0(có hệ số hồi qui có ý nghĩa)
bj
Giá trị kiểm định: T ~ Student (n  (k  1))
Sb j
Nếu |T| < tn-(k+1),/2 : Chấp nhận H

|T|  tn-(k+1),/2 : Từ chối H
81
Phép kiểm định Student (tiếp)
Gọi Gj: tập các biến trừ Xj

S e2
Sb j 
(1  RX2 j G j ) * S Xj2 * (n  1)
Trong đó: Se2 = MSE

S2Xj = Phương sai mẫu của biến Xj
R2XjGj=Hệ số tương quan giữa
2 XY  X Y
R XY 
S x SY
Khoảng tin cậy cho bj là: bj  t/2*Sbj
82
Ví dụ về Hồi qui bội
X1(thôøi gian:Phuùt) X2(Nhieät ñoä) Y(Hieäu suaát)

15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
60 135 7.26
83
84
4.6 Hồi qui bội phi tuyến
 Giả sử các tham số và các hàm thành phần trong phương trình
hồi qui là :
m
y  a   ai f i ( x1 , x 2 ,..., x k )
i 1
 Với ma trận F thay thế cho ma trận X ở trên như sau :
1 f 1 ( x1 ) ... f m ( x1 ) 
 
1 f1 ( x2 ) ... f m ( x2 ) 
X 
... ... ... ... 
 
 M=FT.F 1 f1 ( x k ) ... f m ( x k ) 

 Ma trận hệ số A=(FT.F)-1 .FT . Y
85
Ví dụ: Hồi qui bội phi tuyến
X1 X2 Y
2.5 30 19.3
3 30 22.4
3.5 40 24.5
4 40 26.9
4.5 50 29.2
5 50 31.2
6 60 28.1
6.5 60 27.2
86
Với pt tuyến tính
ANOVA
Regression 2 62.44135 31.22067 3.759837 0.100796
Residual 5 41.51865 8.303731
Total 7 103.96
Standard
Coefficients Error t Stat P-value Lower 95%
Intercept 14.23653846 5.101863 2.790459 0.038424 1.121783
X1 -0.823076923 3.574209 -0.23028 0.826998 -10.0109
X2 0.343653846 0.421014 0.816253 0.451476 -0.7386
87
Với pt phi tuyến
ANOVA
Regression 2 88.74281 44.3714 14.57937 0.008197
Residual 5 15.21719 3.043439
Total 7 103.96
Standard
Coefficients Error t Stat P-value Lower 95%
Intercept 51.78543536 7.39621 7.001618 0.000916 32.77287
1/(X1+X2) -992.674153 251.5361 -3.94645 0.010889 -1639.27
X1X22 -0.00038795 0.000192 -2.02139 0.099195 -0.00088
88
Với pt phi tuyến
https://data-flair.training/blogs/logistic-regression-in-r/
> data <- read.csv("C:\\Tam6\\Vidu.csv", header = TRUE)

> data
>
model<-nls(Y~a+b/(X1*X2)+c*X1*X2^2,data=data,start=c(
a=-1000,b=-1000,c=-1000))
> summary(model)
89

Bai Giang Phan Tich Du Lieu Kinh Doanh

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Bai Giang Phan Tich Du Lieu Kinh Doanh

Uploaded by

Copyright:

Available Formats

PHÂN TÍCH DỮ LIỆU KINH DOANH

PGS. TS. Nguyễn Đình Thuân

TP. Hồ Chí Minh 9-2017

1.2.1 Các tham số thống kê đo lường độ tập trung

1.2.2 Các tham số thống kê đo lường mức độ phân tán (Measures of

2. Độ lệch chuẩn (SD: Standard deviation): Một công cụ khác

3. Khoảng biến thiên (Range): Là khoảng cách giữa giá

6. Hệ số tập trung Kurtosis:

1.3.1 Giới thiệu:

1.3.2 Ước lượng giá trị trung bình:

1.3.3 Ước lượng tỷ lệ (trường hợp mẫu lớn)

2.1 Giới thiệu:

 Các bước của bài toán kiểm định:

Hai loại sai lầm:

• Mẫu nhỏ: Tiêu chuẩn kiểm định __

• Mẫu nhỏ: Tiêu chuẩn kiểm định __

• Mẫu nhỏ: Tiêu chuẩn kiểm định

MS Excel: Z–Test: Two sample for Means

Khu vöïc 1 Khu vöïc 2

Khu vöïc 1 Khu vöïc 2 Khu vöïc 1 Khu vöïc 2

 Thực hành: F-test

2.6.1 Kiểm định tính độc lập giữa 2 biến

 Oij: giá trị hàng i cột j Coke Pepsi 7Up

Ri C j Coke Pepsi 7Up Cộng

22,= 5.991476 Từ chối H

- Khi kết quả thống kê Chi bình phương (2)

X11 X21 … XK1

– Trung bình toàn bộ

 Ý nghĩa của SSW:

Bước 3: Tính các ước lượng cho phương sai chung

Bước 4: Tính giá trị kiểm định F:

 Với df=(k-1,n-k) và mức ý nghĩa (thường là 0.05), tra

Between SSG k-1 MSG=SSG/k-1 F=MSG/

Within SSW n-k MSW=

Total SST n-1

Hàm lượng 1 Hàm lượng 2 Hàm lượng 3

Yếu tố theo cột

Khu vực 1 Khu vực 2 Khu vực 3

Nghề nghiệp B 2.5 2.3 3.5

B1: Tính các giá trị trung bình:

 Trung bình theo hàng j:

 Trung bình của toàn bộ:

 SSG thể hiện sự biến thiên do sự khác nhau do yếu tố

 SSB thể hiện sự biến thiên do sự khác nhau do yếu

 Ý nghĩa: SSB thể hiện sự biến thiên do sự khác

 Sự tác động qua lại giữa 2 yếu tố nghiên cứu:

• Sự biến thiên do các yếu tố chưa được nghiên cứu:

 Bước 4: Áp dụng tiêu chuẩn kiểm định

4.1 Mở đầu: Liên hệ tương quan và phương pháp phân

4.2.1 Phương trình hồi quy tuyến tính:

 S bé nhất nếu b0 , b1 là nghiệm của hệ

Sự liên hệ giữa: tuổi nghề và năng suất lao động

 Từ số liệu đã cho của x và y ở bảng 1, ta tính

 Phương trình hàm số mũ

 Phương trình hàm số mũ được áp dụng trong trường

 Hệ số xác định R2 : R-Square Coefficient

SSR: Sum of Square for Regression

Ta có: SST = SSR + SSE

Thôøi gian x Hieäu suaát y SUMMARY OUTPUT

Coefficients Standard t Stat P-value Lower Upper

 Có thể dùng Hệ số R2 chỉnh lý (Adjusted R2 : phản

2 SSE /(n  (k  1))

 Kiểm định t: Kiểm định hệ số hồi qui