You are on page 1of 92

Báo cáo Lab 3 – Nhóm 14

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH


TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN

PHÂN TÍCH DỮ LIỆU


KINH DOANH

Đề tài:
BÁO CÁO LAB 3

Giảng viên: PGS. Nguyễn Đình Thuân


KS. Nguyễn Minh Nhựt
Lớp: IS403.M22
Nhóm 14:

Lê Thị Ái Nhi - 19521963


Lê Hữu Thắng - 19522200
Trịnh Thị Thanh Trúc - 19521059
Đặng Vũ Phương Uyên - 19520345
Nguyễn Thị Thu Phương - 19522066

TP.HCM, ngày 24 tháng 04 năm 2022


Báo cáo Lab 3 – Nhóm 14

MỤC LỤC
1. Hồi quy tuyến tính đa biến ......................................................................................... 1
a. Khái niệm hồi quy .................................................................................................... 1
b. Khái niệm hồi quy tuyến tính ................................................................................... 1
c. Khái niệm hồi quy tuyến tính đơn biến ................................................................... 1
d. Khái niệm hồi quy tuyến tính đa biến ..................................................................... 1
e. Ví dụ minh họa ......................................................................................................... 4
2. Hồi qui phi tuyến đa biến ......................................................................................... 18
a. Định nghĩa .............................................................................................................. 18
b. Ví dụ minh họa ....................................................................................................... 19
3. Hồi qui logistic ........................................................................................................... 24
c. Định nghĩa: ............................................................................................................. 24
d. Đặt vấn đề: .............................................................................................................. 25
e. Các bước thực hiện ................................................................................................ 25
f. Ví dụ minh họa : Graduate School Survey ........................................................... 26
4. Colleges and Universities.......................................................................................... 44
a. Tính bằng Excel ..................................................................................................... 48
b. Tính bằng R ............................................................................................................ 56
c. Tính bằng Python ................................................................................................... 59
5. Hồi quy phi tuyến đa biến với dữ liệu thực tế tùy chọn về/của Việt Nam. .......... 62
a. Phát biểu chung ...................................................................................................... 62
b. Thực hiện phép tính Hồi quy phi tuyến đa biến trên MS Excel ............................. 64
c. Thực hiện phép tính Hồi quy phi tuyến đa biến trên R. ....................................... 68
d. Thực hiện phép tính Hồi quy phi tuyến đa biến trong Python ............................ 74
6. Hồi quy Logistic với dữ liệu thực tế tùy chọn về/của Việt Nam ........................... 77
a. Phát biểu bài toán (hay vấn đề) cần giải quyết ..................................................... 77
b. Excel ........................................................................................................................ 79
c. Bằng R..................................................................................................................... 83
d. Bằng Python ........................................................................................................... 84
e. Giải thích và kết luận ............................................................................................. 85
Báo cáo Lab 3 – Nhóm 14
7. Bảng phân công công việc ........................................................................................ 89
Báo cáo Lab 3 – Nhóm 14

1. Hồi quy tuyến tính đa biến

a. Khái niệm hồi quy


Phân tích hồi quy (regression analysis) là kỹ thuật thống kê dùng để ước lượng
phương trình phù hợp nhất với các tập hợp kết quả quan sát của biến phụ thuộc và
biến độc lập. Nó cho phép đạt được kết quả ước lượng tốt nhất về mối quan hệ chân
thực giữa các biến số. Từ phương trình ước lượng được này, người ta có thể dự báo
về biến phụ thuộc (chưa biết) dựa vào giá trị cho trước của biến độc lập (đã biết).

b. Khái niệm hồi quy tuyến tính


Linear Regression (Hồi quy tuyến tính) là một trong những thuật toán cơ bản
và phổ biến nhất của Supervised Learning (Học có giám sát), trong đó đầu ra dự
đoán là liên tục. Thuật toán này thích hợp để dự đoán các giá trị đầu ra là các đại
lượng liên tục như doanh số hay giá cả thay vì cố gắng phân loại chúng thành các
đại lượng rời rạc như màu sắc và chất liệu của quần áo, hay xác định đối tượng trong
một bức ảnh là mèo hay chó, …

c. Khái niệm hồi quy tuyến tính đơn biến


Phân tích hồi quy tuyến tính đơn biến: Chỉ liên quan đến một biến độc lập,
dùng để xác định rằng giá trị trung bình tổng thể của biến phụ thuộc thay đổi khi giá
trị của biến độc lập thay đổi.

d. Khái niệm hồi quy tuyến tính đa biến


Phân tích hồi quy tuyến tính đa biến: là phần mở rộng của hồi quy tuyến tính đơn
biến với nhiều biến độc lập. Giả sử, ta có n biến độc lập n≥1 và xem xét ảnh hưởng
của n biến độc lập này tới biến phụ thuộc Y , ta có phương trình sau:

𝑌 = 𝛽 + 𝛽 𝑋 + 𝛽 𝑋 +⋯ + 𝛽 𝑋 + 𝜀

1
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Trong đó:

Ký hiệu Ý nghĩa

Y Biến phụ thuộc

X Biến độc lập

𝛽 Tung độ gốc (Hệ số tự


do)

𝛽 , …. 𝛽 Hệ số gốc riêng phần

𝛽 : là một ước lượng cho sự thay đổi của

Y ứng với sự gia tang của một đơn vị 𝑋


khi tất cả các biến độc laapk được giữ
không đổi.

𝜀 Sai số ngẫu nhiên

𝑒 = (𝑌 − 𝑌 )

Trong đó:

Ký hiệu Ý nghĩa

𝑌 Biến tiên lượng

𝑒 Phần dư

 Các giả thuyết thống kê


● Kiểm định ý nghĩa của phương trình hồi quy
▪ Giả thuyết:
- 𝐻 = 𝛽 =0
- 𝐻 = 𝛽 ≠0

2
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

▪ Gía trị kiểm định


𝐵
𝑡=
𝑆𝑒 𝐵

▪ Quy tắc kiểm định


o Cách 1:
𝐵á𝑐 𝑏ỏ 𝐻 𝑛ế𝑢 𝑡 < −𝑡 , ( )
ℎ𝑜ặ𝑐 𝑡 > 𝑡 , ( )

o Cách 2:
𝐵á𝑐 𝑏ỏ 𝐻 𝑛ế𝑢 𝑝 − 𝑣𝑎𝑙𝑢𝑒 > 0.05

● Kiểm định độ phù hợp của phương trình hồi quy


▪ Giả thuyết:
- 𝐻 = 𝛽 = ⋯ = 𝛽 = 0 (𝑅 = 0)
- 𝐻 = 𝛽 +⋯+ 𝛽 ≠ 0 (𝑅 ≠ 0)

▪ Gía trị kiểm định


𝑀𝑆𝑅
𝐹=
𝑀𝑆𝐸

Trong đó:

Ký hiệu Ý nghĩa

𝑘 Số lượng tham số

▪ Quy tắc kiểm định


o Cách 1:
𝐵á𝑐 𝑏ỏ 𝐻 𝑛ế𝑢 𝐹 > 𝐹 , , ( )

o Cách 2:
3
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
𝐵á𝑐 𝑏ỏ 𝐻 𝑛ế𝑢 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 0.05

● Khoảng tin cậy của 𝐵 với I thuộc (1, 2, …, k):


▪ 𝐵 𝑡ℎ𝑢ộ𝑐 ( 𝐵 * 𝑡 , ( ) ∗ 𝑠𝑒 (𝐵 ))

e. Ví dụ minh họa

Một Công ty phần mềm thu thập dữ liệu của một mẫu gồm 20 lập trình viên.
Người ta đề nghị sử dụng phân tích hồi qui để xác định xem lương có mối liên hệ với
số năm kinh nghiệm và điểm thi năng khiếu về lập trình do công ty tổ chức hay không?
Số năm kinh nghiệm, điểm thi năng khiếu Và mức lương hàng năm ($1000s) của 20
lập trình viên được trình bày ở bảng sau:

Experience (yrs) Score Salary ($K)

4 78 24

7 100 43

1 86 24

5 82 34

8 86 36

10 84 38

0 75 22

1 80 23

6 83 30

6 91 33

9 88 38

2 73 27

4
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

10 75 36

5 81 32

6 74 29

8 87 34

4 79 30

6 94 34

3 70 28

3 89 30

Bảng 1: Dữ liệu được sử dụng

Trong đó:

- Lương của nhân viên phụ thuộc vào:


● Experience: Số năm kinh nghiệm
● Score: Điểm thi năng khiếu về lập trình do công ty tổ chức.
⇨ Biến độc lập: Experience, Score.
⇨ Biến phụ thuộc: Salary.
- Yêu cầu bài toán: Mức độ ảnh hưởng của số năm kinh nghiệm và điểm thi năng
khiếu về lập trình do công ty tổ chức đến lương.
- Mô hình hồi quy mẫu:
𝑆𝑎𝑙𝑎𝑟𝑦 = 𝛽 + 𝛽 𝐸𝑥𝑝𝑒𝑟𝑖𝑒𝑛𝑐𝑒 + 𝛽 𝑆𝑐𝑜𝑟𝑒

- Mối quan hệ giữ các biến phụ thuộc và biến độc lập:
● Mối quan hệ giữa Experience và Salary:

5
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 1: Mối quan hệ giữa Experience và Salary

Nhận xét: Khi số năm kinh nghiệm của lập trình viên tăng lên thì lương của
nhân viên cũng tăng theo nên mối quan hệ giữ hai thuộc tính là đồng biến, tức
là hệ số được dự đoán của Experience mang giá trị dương.

● Mối quan hệ giữa Score và Salary:

Hình 2: Mối quan hệ giữa Score và Salary

6
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Nhận xét: Khi số điểm đánh giá năng lực của lập trình viên tăng lên thì lương
của nhân viên cũng tăng theo nên mối quan hệ giữ hai thuộc tính là đồng biến,
tức là hệ số được dự đoán của Score mang giá trị dương.

- Dùng công cụ Data Analysis trong Excel ta được:

Hình 3: Tính bằng công cụ Excel thông qua Data Analysis

- Tính toán lại và giải thích các giá trị:

● Khái niệm:
● SSR: tổng bình phương biến thiên độ lệch tiên lượng và giá trị trung
bình

𝑆𝑆𝑅 = 𝑌− 𝑌

● SSE: tổng bình phương biến thiên độ lệch tiên lượng và quan sát

𝑆𝑆𝐸 = 𝑌− 𝑌

● SST: tổng bình phương biến thiên độ lệch quan sát và giá trị trung bình.

7
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

𝑆𝑆𝑇 = 𝑌− 𝑌 = 𝑆𝑆𝐸 + 𝑆𝑆𝑅

● Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó cũng
được dùng tương tự như R Square. Trong thực tế người ta dùng
Adjusted R Square nhiều R Square. Vì Adjusted R Square có thêm các
tham số n và k nên độ chính xác sẽ cao hơn R Square. Adjusted R
Square càng gần 1 thì mô hình hồi qui càng phù hợp.
𝑆𝑆𝐸
[𝑛 − (𝑘 + 1)]
𝐴𝑑𝑗𝑢𝑠𝑡𝑒𝑑 𝑅2 = 1 −
𝑆𝑆𝑇
𝑛−1

● MSR: trung bình chênh lệch tổng bình phương sai số giải thích được
bằng mô hình

● MSE: trung bình chênh lệch tổng bình phương các phần dư

● Các ma trận:

8
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi
quy còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng
cách trung bình mà các giá trị quan sát rơi khỏi đường hồi quy. Các giá
trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ nằm gần đường hồi qui
hơn.
● Anova

df SS MS F Significane F

Regression k SSR MSR = SSR / k 𝑀𝑆𝑅 F.DIST.RT(F;k;n-(k+1))


𝐹=
𝑀𝑆𝐸

Residual n – (k + 1) SSE MSE = SSE / [n – (k +


1)]

Total n-1 SST

df SS MS F Significane F

Regression 2 𝑆𝑆𝑅 MSR = SSR / k 𝐹 = = 2.327735947


. 27318E-07
𝑆𝑆𝑅
= 𝑌− 𝑌 𝑀𝑆𝑅 = .
𝑘
500.32852303 = 42.7601255207934
= 500.3285303 =
2
= 250.164265157218

Residual 20 𝑆𝑆𝐸 MSE = SSE / [n – (k +


– 1)]
= 𝑌
(2
+
− 𝑌
1)

9
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

= = 𝑀𝑆𝐸
17 99.4569696855697 𝑆𝑆𝐸
=
[𝑛 – (𝑘 + 1)]
99.4569696855697
=
17
= 5.8504099815041

Total 20 SST = SSE + SSR


– =
1 599.785500000005
=
19

● Regression
- Tìm phương trình hồi quy
● Ma trận X

Hình 4: Ma trận X
● Ma trận Y

10
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 5: Ma trận Y
● Bước 1: Tính 𝑋 bằng hàm Transpose trong Excel

Hình 6: Ma trận 𝑋
● Bước 2: Tính 𝑋 𝑋 bằng hàm Mmult trong Excel

Hình 7: Ma trận 𝑋 𝑋
● Bước 3: Tính (𝑋 𝑋) bằng hàm Minverse trong Excel

Hình 9: Ma trận (𝑋 𝑋)
● Bước 4: Tính (𝑋 𝑋) 𝑋 bằng hàm Mmult trong Excel

Hình 10: Ma trận (𝑋 𝑋) 𝑋


● Bước 5: Tính (𝑋 𝑋) 𝑋 𝑌 bằng hàm Mmult trong Excel

Hình 11: Ma trận (𝑋 𝑋) 𝑋 𝑌

11
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Ta thu được kết quả

Coefficients

Intercept 3.17393627

Experience 1.403902485

Score 0.250885448

● Phương trình:
𝑆𝑎𝑙𝑎𝑟𝑦 = 3.174 + 1.404 ∗ 𝐸𝑥𝑝𝑒𝑟𝑖𝑒𝑛𝑐𝑒 + 0.251 ∗ 𝑆𝑐𝑜𝑟𝑒
Trong đó:

▪ 𝛽1 = 1.404 : Lương sẽ tăng trung bình 1.404 $k/ năm đối với mỗi một năm kinh

nghiệm tăng thêm, với giả sử cùng một mức điểm đánh giá năng lực đầu vào.
▪ 𝛽2 = 0.251 : Lương sẽ tăng trung bình 0.251 $k/ năm đối với , với giả sử cùng số

năm kinh nghiệm.


- Standard error:

● Bước 1: Tính Cov:

Hình 12: Đường chéo của ma trận là phương sai của các biến
● Bước 2: Tìm Standard Error thông qua công thức
𝑆𝐸 = 𝑉𝑎𝑟(𝐵 )

12
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 13: Kết quả khi căn bậc hai các phương sai
● Ta được kết quả:

Coefficients Standard Error

Intercept 3.17393627 6.156067

Experience 1.403902485 0.198567

Score 0.250885448 0.077354

- t Stat
● Bước 1: Tính t-Stat bằng công thức
𝐶𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑠
𝑡=
𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝐸𝑟𝑟𝑜𝑟

Hình 14: Tính t-Stat

● Ta thu được

Coefficients Standard Error t Stat

Intercept 3.17393627 6.156067 0.083751

Experience 1.403902485 0.198567 35.606

Score 0.250885448 0.077354 41.92842

13
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

- P-value:
● Bước 1: Dùng hàm T.DIST.2T(t Stat; n-(k+1)) để tính giá trị p-value

Hình 15: Tìm p-value


● Ta được kết quả:

Coefficients Standard Error t Stat p-value

Intercept 3.17393627 6.156067 0.083751 0.612789

Experience 1.403902485 0.198567 35.606 1.88E-06

Score 0.250885448 0.077354 41.92842 0.00478

● Regression Statistics

R2 𝑆𝑆𝑅 500.3285303
𝑅 = =
𝑆𝑆𝑇 599.785500000005
= 0.834179102886667

Multiple R
𝑅2 = 0.834179102886667
= 0.91333405875762

14
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Adjusted R2 𝑆𝑆𝐸
[𝑛 − (𝑘 + 1)]
𝐴𝑑𝑗𝑢𝑠𝑡𝑒𝑑 𝑅2 = 1 −
𝑆𝑆𝑇
𝑛−1
99.4569696855697
= 1− 17
599.785500000005
19
= 0.814670762049805

Standard Error 𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝐸𝑟𝑟𝑜𝑟 = √𝑀𝑆𝐸 =


√5.8504099815041 = 2.41876207624977

Observations 𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛𝑠 = 𝑛 = 20

Trong đó:

● R2 = 0.8342: 83.42% biến động của lương được giải thích bởi số năm kinh
nghiệm và điểm đánh giá năng lực
● Trong bài toán trên, 2 biến độc lập đưa vào ảnh hưởng 81.467% sự thay đổi
của biến phụ thuộc, còn lại 18.533% là do các biến ngoài mô hình và sai số
ngẫu nhiên.
- Với mức ý nghĩa 5%, kiểm đinh ý nghĩa thống kê của các tham số hồi quy trong
mô hình.
● Giả thuyết:
▪ 𝐻 :𝛽 =0
▪ 𝐻 :𝛽 ≠0

15
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Trị giới hạn

𝛼 𝑑𝑓 = 𝑛 − (𝑘 + 1)

0.05 17

⇨ 𝑡 .
,
= 2.11 trong bảng phân phối Student
𝛼
⇨ Ta kiểm tra bằng excel thông qua hàm T.INV( , 𝑛 − (𝑘 + 1))

Hình 16: Tìm T.INV


● Trị thống kê:

Coefficients Standard t-stat p-value


Error

Experience 1.403902485 0.198566912 7.070173 1.88E-06

Score 0.250885448 0.077354127 3.243336 0.00478

● Quy tắc bác bỏ 𝐻 :


▪ Cách 1: 𝑡 𝑣à 𝑡 𝑛ằ𝑚 𝑛𝑔𝑜à𝑖 𝑘ℎ𝑜ả𝑛𝑔 (−2.11, 2.11) nên bác bỏ 𝐻
▪ Cách 2: p-value < 0.05 nên chấp nhận 𝐻
● Kết luận:
▪ Có đủ bằng chứng để kết luận số năm kinh nghiệm (experience) và
điểm thi (score) có ảnh hưởng đến lương (salary) với mức ý nghĩa
𝛼 = 0.05
- Khoảng ước lượng của các tham số hồi quy trong mô hình
● Experience: 𝛽 ∈ ( 1.403902485 ± 2.11 ∗ 0.198566912)
⇨ Khoảng tin cậy: 0.9849263007 < 𝛽 <1.822878669
16
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Score: 𝛽 ∈ ( 0.250885448 ± 2.11 ∗ 0.077354127)
⇨ Khoảng tin cậy 0.08766824003< 𝛽 <0.414102656
● Kết luận:
▪ Khi biến experience hoặc score tăng thì salary cũng tăng.
- Với mức ý nghĩa 0.05, mô hình có phù hợp hay không?
● Đặt giả thuyết:
▪ 𝐻 : 𝛽 = 𝛽 = 0 (𝑅 = 0): hệ số của số năm kinh nghiệm, điểm thi
đánh giá không giải thích cho biến lương.
▪ 𝐻 :𝛽 + 𝛽 ≠ 0 (𝑅 ≠ 0): hệ số của số năm kinh nghiệm, điểm thi
đánh giá giải thích cho biến lương.
● Trị giới hạn:

𝛼 𝑑𝑓 = 𝑘 𝑑𝑓 = 𝑛 − (𝑘 + 1)

0.05 2 17

⇨ 𝐹. , , = 3.59 trong bảng phân phối F.


⇨ Ta kiểm tra bằng excel thông qua hàm F.INV(1 - 𝛼 , 𝑘, 𝑛 − (𝑘 + 1) =
3.59

Hình 17: Tra F thông qua excel

17
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Trị thống kê:
.
▪ 𝐹= = = 42.76013
.

Hình 18: Tính F


● Quy tắc bác bỏ 𝐻 :
▪ Cách 1: 𝐹 > 𝐹 . , , nên bác bỏ 𝐻
▪ Cách 2: p-value < 0.05 nên chấp nhận 𝐻
● Kết luận:
▪ Có đủ bằng chứng để kết luận hàm hồi quy mẫu phù hợp hay có ít
nhất một biến độc lập tác động đến biến phụ thuộc Y (lương).

2. Hồi qui phi tuyến đa biến

a. Định nghĩa
- Hồi quy phi tuyến là một dạng phân tích hồi quy trong đó dữ liệu quan sát
được mô hình hóa bằng một hàm là một sự kết hợp phi tuyến tính của các
tham số mô hình và phụ thuộc vào một hay nhiều biến độc lập. Hồi quy
tuyến tính đơn giản liên hệ hai biến (X và Y) với một đường thẳng (y = mx
+ b), trong khi hồi quy phi tuyến tính liên hệ hai biến trong một mối quan
hệ phi tuyến (cong).
- Hồi quy đa biến là một phần mở rộng của hồi quy tuyến tính đơn giản. Nó
được sử dụng khi chúng ta muốn dự đoán giá trị của một biến dựa trên giá
trị của hai hoặc nhiều biến khác. Biến chúng ta muốn dự đoán được gọi là
biến phụ thuộc (hoặc đôi khi, biến kết quả, mục tiêu hoặc biến tiêu chí).
Các biến chúng ta đang sử dụng để dự đoán giá trị của biến phụ thuộc được
gọi là biến độc lập. Hồi quy đa biến cũng cho phép chúng ta xác định mức
độ đóng góp nhiều, ít, không đóng góp... của từng nhân tố vào sự thay đổi
của biến phụ thuộc
- Từ đó ta có thể hiểu Hồi quy phi tuyến đa biến là một dạng phân tích hồi quy trong
đó dữ liệu quan sát được mô hình hóa bằng một hàm (có thể là hàm mũ, hàm

18
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
logarit, hàm căn bậc hai, hàm đa thức,...) là một sự kết hợp phi tuyến tính của các
tham số mô hình và phụ thuộc vào nhiều biến độc lập.

- Trong hồi quy phi tuyến tính, một mô hình thống kê ở dạng:
y ~ f(𝒙𝒊 ,β)
 Liên quan đến mộc véctơ các biến độc lập, x, và các biến phụ thuộc
liên quan được quan sát của nó, y. Hàm f là phi tuyến tính ở các
thành phần của các tham số của véctơ β, nhưng không phải là hàm
tùy ý.
 Các hàm hồi quy phi tuyến tính gồm hàm mũ, hàm tăng trưởng
logarit, hàm lượng giác, hàm lũy thừa, gàm Gauss, và đường
cong Lorenz. Một vài hàm, chẳng hạn như các hàm lũy thừa và
logarit, có thể chuyển đổi thành dạng tuyến tính. Khi chuyển đổi,
hồi quy tuyến tính tiêu chuẩn có thể được thực hiện nhưng phải thận
trọng khi áp dụng.

b. Ví dụ minh họa
Nghiên cứu về quan hệ giữa số giường bệnh với số bác sĩ cũng như y sĩ của bệnh
viện.
Dữ liệu được trình bày như sau:

Hình 19: Dữ liệu số bác sĩ, y sĩ và giường bệnh của các tỉnh năm 2014
Trong đó:
 Số giường của bệnh viện phụ thuộc vào:
19
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
 Số bác sĩ
 Số y sĩ
=> Biến độc lập: Số bác sĩ, Số y sĩ
=> Biến phụ thuộc: Số giường bệnh
- Yêu cầu bài toán: Mức độ ảnh hưởng của số lượng bác sĩ và y sĩ của bệnh
viện đến số lượng giường bệnh.
- Mô hình hồi quy mẫu:
GiuongBenh= 0+ 1BacSi + 2Ysi
- Mối liên hệ giữa các biến độc lập và biến phụ thuộc:
 Mối quan hệ giữa Số lượng bác sĩ và Số lượng giường bệnh:

Hình 20: Mối quan hệ giữa bác sĩ và giường bệnh


Nhận xét: Khi số lượng bác sĩ tăng lên số giường bệnh cũng tăng theo nên mối
quan hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường
bệnh mang giá trị dương.
 Mối quan hệ giữa Số lượng Y sĩ và Số lượng giường bệnh:

20
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 21: Mối quan hệ giữa Y sĩ và giường bệnh


Nhận xét: Khi số lượng y sĩ tăng lên số giường bệnh cũng tăng theo nên mối quan hệ
giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường bệnh mang
giá trị dương.

- Dùng công cụ Data Analysis trong Excel ta được:

Hình 22: Kết quả dữ liệu được tính bằng công cụ Data Analysis trong Excel
- Từ bảng kết quả ta có các nhận xét rút ra như sau:
 R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mô hình
 R square Adjusted = 0,5689 => R square > 50% nghiên cứu được đánh giá
tốt.
 Vì giá trị p-Value = 0.038 < 0.05 và giá trị p-Value = 0.0456 < 0.05 . Nên
mô hình hồi quy phù hợp với tổng thể.
21
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
 Ta có mô hình:
GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)
- Tìm phương trình hồi quy :
 Ma trận X:

Hình 23: Ma trận X (số bác sĩ, số y sĩ)


 Ma trận Y:

22
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 24: Ma trận Y (số giường bệnh)


 Bước 1: Tính 𝑋 bằng hàm Transpose trong Excel

Hình 25: Ma trận 𝑋


 Bước 2: Tính 𝑋 𝑋 bằng hàm Mmult trong Excel

Hình 25: Ma trận 𝑋 𝑋

23
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
 Bước 3: Tính (𝑋 𝑋) bằng hàm Minverse trong Excel

Hình 26: Ma trận (𝑋 𝑋)


 Bước 4: Tính (𝑋 𝑋) 𝑋 bằng hàm Mmult trong Excel

Hình 27: Ma trận (𝑋 𝑋) 𝑋


 Bước 5: Tính (𝑋 𝑋) 𝑋 𝑌 bằng hàm Mmult trong Excel

Hình 28: Ma trận (𝑋 𝑋) 𝑋 𝑌


 Ta thu được kết quả:
Coefficients
Intercept 0.678821
Bác sĩ 0.785919
Y sĩ 0.209315

 Phương trình:
GiuongBenh = 0.678821 + 0.785919*ln(BacSi) + 0.209315*ln(YSi)

3. Hồi qui logistic

c. Định nghĩa:
 Phân tích hồi qui logistic là một kỹ thuật thống kê để xem xét mối liên hệ
giữa biến độc lập (biến số hoặc biến phân loại) với biến phụ thuộc là biến nhị phân(0
hoặc 1).
 Dạng biến độc lập x và biến phụ thuộc y liên hệ qua phương trình:

24
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
𝑦 = 𝛼 + 𝛽𝑥 + ℯ
- Trong đó:
+ 𝑦 là biến phụ thuộc nhị phân.
+ 𝑥 là biến độc lập.

d. Đặt vấn đề:


- Khi biến phụ thuộc ở dạng nhị phân thì không thể phân tích với dạng hồi quy
thông thường vì sẽ vi phạm các giả định, dễ thấy nhất là khi biến phụ thuộc chỉ
có hai biểu hiện như: Có gia đình/ chưa có gia đình, có việc làm/ thất nghiệp,
hút thuốc/ không hút thuốc… thì không phù hợp khi giả định rằng phần dư có
phân phối chuẩn, mà thay vào đó nó sẽ có phân phối nhị thức, điều này sẽ làm
mất hiệu lực thống kê của các kiểm định trong phép hồi quy thông thường.

e. Các bước thực hiện


- Nếu gọi P là xác suất để một biến cố A xảy ra, thì 1-p là xác suất để biến cố A
không xảy ra, theo luật phân phối nhị thức ta được :

𝑃
𝑂𝐷𝐷𝑠 =
1−𝑃

 Nếu ODDs > 1 xác suất biến cố A xảy ra khả năng cao hơn biến cố đối
của nó.

 Nếu ODDs <1 xác suất biến cố A xảy ra khả năng thấp hơn biến cố đối
của nó.

 Nếu ODDs = 1 xác suất biến cố A xảy ra khả năng bằng biến cố đối của

- Từ chỉ số ODDs, ta được phương trình hồi quy logistic như sau :

𝑃
log = 𝛼 + 𝛽𝑥 + ℯ
1−𝑃

25
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Trong đó :

+ 𝛼 là log p1-p của biến phụ thuộc khi x =0

+ 𝛽 là log(odds ratio) liên quan đến 1 đơn vị tăng của x

- Từ phương trình này, ta có thể tính xác suất tiên đoán P theo trị số của x.

𝑃
=𝑒
1−𝑃

𝑒
𝑃=
1+ 𝑒

f. Ví dụ minh họa : Graduate School Survey


- Bộ dữ liệu có các thông tin khảo sát bao gồm :
o Gender : giới tính ( 1: Nam , 0 : Nữ)
o Married : Tình trạng hôn nhân ( 1: Đã kết hôn, 2: Chưa kết hôn)
o Undergraduate GPA : Điểm trung bình tích lũy khi chưa tốt nghiệp đại
học
o Plan to attend graduate school : Có dự định học bậc sau đại học ( 1: Có,
0: Không)

Gender Married Undergraduate Plan to attend


GPA graduate
school
1 1 2.9 1
1 1 3.1 1
1 0 3 0
1 0 3.5 1
1 0 3.2 1

26
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

1 1 3.7 1
1 0 2.8 0
1 1 2.6 1
1 1 3.3 0
1 0 3.3 1
1 0 3.5 1
1 1 3.2 0
1 0 2.9 1
1 0 4 1
1 1 4 1
0 0 3.6 1
0 0 3.3 1
0 1 2.9 1
0 0 3.4 1
0 1 3 0
0 1 3.2 0
0 0 4 1
0 1 3 0
0 1 2.5 0
0 1 4 1
0 0 4 1
0 1 2.7 0
0 0 3.7 1
0 1 3.2 0
0 1 2.8 0
Bảng 2. Dữ liệu của Graduate School Survey

Trong đó :

27
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Biến độc lập : Gender, Married, Undergraduate GPA
- Biến phụ thuộc: Plan to attend graduate school.
 Câu hỏi đặt ra : Các biến trong khảo sát : giới tính (Gender), tình trạng hôn nhân
( Married), điểm trung bình tích lũy khi chưa tốt nghiệp đại học (Undergraduate
GPA) có liên quan như thế nào với dự định học bậc sau đại học?

 Cần tìm ra mức độ ảnh hưởng, liên quan giữa các biến độc lập (Gender, Married,
Undergraduate GPA) tới biến phụ thuộc ( Plan to attend graduate school)

- Vì biến phụ thuộc (Plan to attend graduate school) là một biến nhị phân nhận giá
trị 1 cho việc có dự định học sau đại học và 0 người không có dự định nên chúng
ta không thể áp dụng mô hình hồi quy tuyến tính ( mô hình hồi quy tuyến tính
áp dụng cho các biến phụ thuộc là biến liên tục).

 Để tìm mối liên hệ giữa biến phụ thuộc và biến độc lập trong trường hợp này
chúng ta sử dụng mô hình hồi quy logistic.

 Tiến hành phân tích

Gọi Y là dự định học bậc sau đại học

Y = 1: Có dự định học bậc sau đại học

Y = 0 : Không có dự định học bậc sau đại học

Gọi p là xác xuất một người có dự định học bậc sau đại học. Ta có p = Pr( Y = 1).

Odds là khả năng của một người có dự định học bậc sau đại học được định nghĩa bằng tỉ
số xác suất một người có dự định học bậc sau đại học trên xác suất một người không có
dự định học bậc sau đại học. Ta có:

odds = .[2]
28
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Odds ratio là tỷ số của 2 odds

odds(x = x + 1) e∝ ( )
= =e
odds(x = x ) e∝

 Ước lượng mô hình logit


- Để ước lượng tham số chúng ta sử dụng phương pháp hợp lý tối đa ( Maximum
likelihood). Phần mềm thống kê Exel có hỗ trợ phương pháp này.
- Chúng ta sẽ sử dụng package Real Statistics Resource Pack của Exel

Bước 1: Chọn Adds-in => Real Satistics => Data Analysis Tool => Reg => Chọn
Logistics and probit regression => OK

Hình 19. Hộp thoại Real Statistics

Bước 2 : Chọn Input Range => OK


29
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 20. Hộp thoại Logistic Regression

- Ta được kết quả phân tích như sau

30
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 21.1,2,3. Kết quả phân tích Real Statistics

31
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

 Diễn giải kết quả

Hình 4.Kết quả phân tích Real Statistics

- Từ bảng trên ta thấy hệ số biến điểm trung bình tích lũy ( Undergraduate GPA
cps p_value < alpha(=0.05)
 Biến có ý nghĩa thống kê và có mối liên quan đến biến dự định học bậc sau đại
học.
- Ngược lại hệ số các biến giới tính (Gender) và tình trạng hôn nhân ( Married)
có p-value > alpha
 Không có đủ bằng chứng để kết luận có mối liên quan giữa biến này với biến
dự định học bậc sau đại học, nên loại bỏ chúng khỏi mô hình.

Sau khi loại bỏ biến không liên qua ta có dữ liệu mới như sau:

Undergraduate Plan to attend


GPA graduate school
2.9 1
3.1 1
3 0
3.5 1
3.2 1
3.7 1

32
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

2.8 0
2.6 1
3.3 0
3.3 1
3.5 1
3.2 0
2.9 1
4 1
4 1
3.6 1
3.3 1
2.9 1
3.4 1
3 0
3.2 0
4 1
3 0
2.5 0
4 1
4 1
2.7 0
3.7 1
3.2 0
2.8 0
Bảng 3. Dữ liệu của Graduate School Survey sau khi lược bỏ các biến không có ý nghĩa thống kê

33
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Kết quả phân tích

Hình 22.1,2,3. Kết quả phân tích Real Statistics sau loại bỏ các biến không có ý nghĩa thống kê
34
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

 Diễn giải kết quả

Từ kết quả ta được phương trình hồi quy sau:

Ta có:

𝑝
log = −10.9095 + 3.593 ∗ 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 + 𝜀
1−𝑝

 = 𝑒 −10.9095+3.593∗𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴

Để phản ánh mức độ liên quan giữa biến giải thích với biến độc lập, ta đặt :

- là Odd
.
- Với 𝑂𝑑𝑑 ( 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 = 0) => 𝑂𝑑𝑑 = 𝑒
. ,
- Với 𝑂𝑑𝑑 ( 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 = 1) => 𝑂𝑑𝑑 = 𝑒
. ,
- Tỉ số = .
≈ 36,359

 Lúc này ta có thể diễn dịch, khi điểm trung bình tích lũy ( UndergraduateGPA)
Tăng lên một đơn vị thì khả năng có dự định học bậc sau đại học tăng lên 36,359
lần, nếu tăng lên 0.1 điểm GPA thì tỉ lệ có dự định học bậc sau đại học tăng lên
3,6359 lần.
 Cách tính các hệ số bằng Exel Solver
- Chọn giá trị bất kỳ cho 2 hệ số tương ứng với intercept, UndergraduateGPA

- Sau đó tiến hành tính các giá trị:


o L = 𝑏 + 𝑏 ∗ 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴

35
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

o p=

- Ta được kết quả như sau:

Hinh 23. Kết quả của L, p và LL

- Tiếp theo ta chọn tab Data => Solver => Điền các thông tin vào hộp thoại rồi
nhấn Solve.
 Kết quả thu được là giá trị các hệ số trong mô hình. Giá trị đúng với giá trị được
tính bằng real statisitc.

36
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hinh 24. Các hệ số được tính bằng Exel Solver

 Standard Error
 Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi
quy còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng
cách trung bình mà các giá trị quan sát rơi khỏi đường hồi quy. Các giá
trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ nằm gần đường hồi qui
hơn.

- Bước 1 : Tính Cov :


Đường chéo của ma trận là phương sai của các biến

Hình 23. Ma trận Covariance

- Bước 2: Tìm Standard Error thông qua công thức

𝑆𝐸 = 𝑉𝑎𝑟(𝐵 )

37
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 24. Kết quả Standard Error

 Wald và p-values
- Dùng để kiểm tra hệ số hồi quy

Wald test: 𝑊𝑎𝑙𝑑 𝑠𝑡𝑎𝑡𝑖𝑠𝑡𝑖𝑐 =

P – Values = CHISQ.DIST.RT(Wald Statistic, 1)

Hình 25. Kết quả của Wald, p-value

 Exp(b) – tỷ số odds
( ) ∝ ( )
- Là tỷ số odds :
( )
= ∝ =e

38
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

 Những thước đo về sự phù hợp của mô hình

Hình 26. Kết quả của LL statistics của mô hình

- Log likelihood với mô hình có đầy đủ biến giải thích (LL)

- Log likelihood với mô hình không có biến giải thích (LL0)

39
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 27. Kết quả của LL và LL0

 Pearson’s chi square (Chi-sq) và Df

- Chi-sq có giá trị càng thấp mô hình càng phù hợp với dữ liệu
- Df là số các biến giải thích trong mô hình : k= 1

 Pseudo R
Phản ánh mức độ phù hợp của mô hình. Pseudo R càng cao, mô hình càng
phù hợp với dữ liệu. Pseudo R luôn nằm trong khoảng [0; 1]. Giá trị Pseudo R
luôn tăng khi thêm các biến mới vào một mô hình. Do đó Pseudo R chỉ có thể

40
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
so sánh giữa các mô hình có cùng số lượng biến và định dạng dữ liệu giữa các
biến.
𝐿𝐿
𝑅 =1−
𝐿𝐿

( )
𝑅 =1−𝑒

𝑅
𝑅 =
1−𝑒

Ta được kết quả như sau

Hình 28. Kết quả

Ta thấy 𝑅 = 0.3854 có nghĩa là biến Plan to attend graduate school được


giải thích bởi 38,5% các biến độc lập ( UndergraduateGPA) và 61,5% bởi các
yếu tố khác.
 AIC, BIC
Dùng để so sánh các mô hình khác nhau. Giá trị AIC, BIC càng nhỏ mô
hình càng phù hợp với dữ liệu.

𝐴𝐼𝐶 = −2 ∗ 𝐿𝐿 + 2 ∗ 𝑘
𝐵𝐼𝐶 = −2 ∗ 𝐿𝐿 + ln(𝑁) ∗ 𝑘
với k là số biến quan sát được, N tổng số các quan sát

41
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 29. Kết quả

 Đường cong ROC


Đo lường khả năng phân loại của 1 mô hình bằng giá trị AUC ( area under
curve -diện tích dưới đường cong). Ta có bảng phân loại sau:

Hình 30. Bảng phân loại của mô hình

- Bảng phân loại giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loại
đúng/sai như thế nào. Ta thấy số lượng người được khảo sát có dự định học bậc
sau đại học là 19 người và trong số 19 người đó mô hình dự đoán 15 người có
dự định học và dự đoán 4 người không có dự định học.
- Còn số lượng người được khảo sát không có dự định học bậc sau đại học là 11
người trong đó mô hình dự đoán 4 người có dự định học và dự đoán 7 người
không có dự định học.
- Từ bảng phân loại ta tính được giá trị True Positive Rate(TPR) và Fale Positve
Rate(FPR), Accuracy

42
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 31. Bảng giá trị True Positive và Fale Positve

- Giá trị AUC = 0.827 có nghĩa là trong 100 người thì có 83 cặp quan sát (1 người
có dự định học bậc sau đại học và 1 người không có dự định học) có xác suất dự
báo của người có dự định học bậc sau đại học lớn hơn xác suất của người không
có dự định học AUC dùng để đánh giá mô hình có phân loại hiệu quả hay không.
Ta thấy AUC nằm trong khoảng 0.6 – 0.7 => mô hình dự báo phân loại không
tốt.

43
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 32. Bảng diễn giải ý nghĩa AUC

● Kết luận: Từ những kết quả trên chúng tôi cũng có thể thấy điểm trung bình tích
lũy ở đại học có liên quan và ảnh hưởng đến việc có dự định học bậc sau đại học.

4. Colleges and Universities


Mô hình thu thập dữ liệu của một mẫu gồm 49 dòng dữ liệu về điểm của các
trường. Người ta đề nghị sử dụng phân tích hồi quy để xác định xem điểmtrung bình
SAT (Median SAT) có mối liên hệ với tỷ lệ tốt nghiệp hay không? Điểm trung bình
SAT và tyr lệ tốt nghiệp được trình bày trong file Colleges and Universities được
trình bày ở bảng sau:

44
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 33. Bảng diễn giải ý nghĩa AUC

Trong đó:

- Điểm trung bình SAT phụ thuộc vào tỷ lệ tốt nghiệp.


 Biến độc lập: Graduation %
 Biến phụ thuộc: Median SAT
- Yêu cầu bài toán: Xác định mức độ ảnh hưởng của tỷ lệ tốt nghiệp đến điểm thi
trung bình của SAT.
- Mô hình hồi quy mẫu:
Medıan SAT = β + β Graduation %
- Mối quan hệ giữ các biến phụ thuộc và biến độc lập:
 Mối quan hệ giữa Graduation % và Median SAT:

45
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 34: Mối quan hệ giữa Graduation % và Median SAT

Nhận xét: Khi tỷ lệ tốt nghiệp ở các trường đại học tăng lên điểm trung bình
SAT cũng tăng theo nên mối quan hệ giữ hai thuộc tính là đồng biến, tức là hệ
số được dự đoán của Graduation % mang giá trị dương.

- Dùng công cụ Data Analysis trong Excel ta được:

Hình 35: Tính bằng công cụ Excel thông qua Data Analysis
- Tính toán lại và giải thích các giá trị:
 SSR: tổng bình phương biến thiên độ lệch tiên lượng và giá trị trung bình

𝑆𝑆𝑅 = 𝑌− 𝑌

46
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

 SSE: tổng bình phương biến thiên độ lệch tiên lượng và quan sát

𝑆𝑆𝐸 = 𝑌− 𝑌

 SST: tổng bình phương biến thiên độ lệch quan sát và giá trị trung bình.

𝑆𝑆𝑇 = (𝑌 − 𝑌) = 𝑆𝑆𝐸 + 𝑆𝑆𝑅

 Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó cũng được
dùng tương tự như R Square. Trong thực tế người ta dùng Adjusted R Square nhiều
R Square. Vì Adjusted R Square có thêm các tham số n và k nên độ chính xác sẽ cao
hơn R Square. Adjusted R Square càng gần 1 thì mô hình hồi qui càng phù hợp.
𝑆𝑆𝐸
[𝑛 − (𝑘 + 1)]
Adjusted R2 = 1 −
𝑆𝑆𝑇
𝑛−1
 MSR: trung bình chênh lệch tổng bình phương sai số giải thích được bằng
mô hình

 MSE: trung bình chênh lệch tổng bình phương các phần dư

 Các ma trận:

47
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

 n n

 nb 0  b1  x i   y i
i 1 i 1
 n n n
 b 0  x i  b1  x i   x i y i
2
 i 1 i 1 i 1

 ax  by  e

 cx  dy  f
a b  e x
A   
B    X   
 c d   f   y
AX  B  X  A 1 B
 Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi quy
còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng cách trung bình mà
các giá trị quan sát rơi khỏi đường hồi quy. Các giá trị càng nhỏ sẽ càng tốt vì các
biến quan sát sẽ nằm gần đường hồi qui hơn.

a. Tính bằng Excel


 Anova

df SS MS F Significane F
Regression k SSR MSR = SSR / k 𝑀𝑆𝑅 F.DIST.RT(F;k;n-
𝐹=
𝑀𝑆𝐸 (k+1))

Residual n – (k + 1) SSE MSE = SSE / [n – (k +


1)]
Total n-1 SST

48
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

df SS MS F Significane F
Regressio 1 MSR = SSR / k 𝐹 = = 0.000024259
𝑆𝑆𝑅 = 𝑌
n 𝑆𝑆𝑅 . 8392139932
𝑀𝑆𝑅 =
𝑘 .
− 𝑌 60011.5711124957
= 21.9414046510446
=
= 1
60011.5711124957 = 60011.5711124957

Residual 49 – (1 + 1) MSE = SSE / [n –


𝑆𝑆𝐸 = 𝑌
= 47 (k + 1)]
𝑀𝑆𝐸
− 𝑌
𝑆𝑆𝐸
= =
[n – (k + 1)]
128548.918683424 128548.918683424
=
47
= 2735.08337624306
Total 20 – 1 = 48 SST = SSE + SSR =
188560.48979592

 Regression
- Tìm phương trình hồi quy
 Ma trận A

49
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 36: Tính toán bằng ma trận

 Ta thu được kết quả


Coefficients
Intercept 867.931512
Graduation % 4.747084068

 Phương trình:

Median SAT = 867.932 + 4.747 ∗ Graduation %


Trong đó:
 β = 4.747 : Lương sẽ tăng trung bình 4.747 điểm đối với mỗi phần tram tỉ lệ tốt
nghiệp tăng thêm.
- Standard error:

 Bước 1: Tính Standard Error for Slope thông qua công thức:

Ta được:

50
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 37: Tính Standard Error for Slope.


 Bước 2: Tìm Standard Error of Intercept thông qua công thức

Ta được:

Hình 38: Kết quả khi tính Standard error của hệ số gốc.
 Ta được kết quả:
Coefficients Standard Error
Intercept 867.931512 84.69323628
Graduation % 4.747084068 1.013432224

- t Stat
 Bước 1: Tính t-Stat bằng công thức
𝐶𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑠
𝑡=
𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝐸𝑟𝑟𝑜𝑟
Ta được:

51
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 39: Tính t-Stat

 Ta thu được
Coefficients Standard Error t Stat
Intercept 867.931512 84.69323628 10.24794364
Graduation % 4.747084068 1.013432224 4.68416531

- P-value:
 Bước 1: Dùng hàm T.DIST.2T(t Stat; n-(k+1)) để tính giá trị p-value

Hình 40: Tìm p-value


 Ta được kết quả:
Coefficients Standard Error t Stat p-value
1.44418E-
Intercept 867.931512 84.69323628 10.24794364 13
2.42598E-
Graduation % 4.747084068 1.013432224 4.68416531 05

52
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

 Regression Statistics
R2 𝑆𝑆𝑅 60011.5711124957
𝑅 = =
𝑆𝑆𝑇 188560.48979592
= 0.318261642072773

Multiple R 𝑅 = √0.318261642072773
= 0.564146826697423
Adjusted R2 𝑆𝑆𝐸
[𝑛 − (𝑘 + 1)]
Adjusted R2 = 1 −
𝑆𝑆𝑇
𝑛−1
128548.918683424
= 1− 47
188560.48979592
48
= 0.303756570627512

Standard Error Standard Error = √MSE =


√2735.08337624306 =
52.2980245921685
Observations Observations = n = 49

Trong đó:

 R2 = 0.3182: 31.82% biến động của lương được giải thích bởi số năm kinh
nghiệm và điểm đánh giá năng lực
 Trong bài toán trên, biến độc lập đưa vào ảnh hưởng 34.82% sự thay đổi
của biến phụ thuộc, còn lại 68.18% là do các biến ngoài mô hình và sai số
ngẫu nhiên.

53
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Với mức ý nghĩa 5%, kiểm đinh ý nghĩa thống kê của các tham số hồi quy trong
mô hình.
 Giả thuyết:
 H :β =0
 H :β ≠0
 Trị giới hạn

α df = n − (k + 1)
0.05 47

 .
,

 Ta kiểm tra bằng excel thông qua hàm T.INV( , n − (k + 1))

Hình 41: Tìm T.INV


 Trị thống kê:

Coefficients Standard t-stat p-value


Error
Intercept 867.931512 84.69323628 10.24794364 1.44418E-13
Graduation % 4.747084068 1.013432224 4.68416531 2.42598E-05

 Quy tắc bác bỏ H :

54
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
 Cách 1: t và t nằm ngoài khoảng (−2.012, 2.012) nên bác bỏ
H
 Kết luận:
 Có đủ bằng chứng để kết luận tỷ lệ tốt nghiệp (Graduation %) có ảnh
hưởng đến điểm tủng bình SAT (Median SAT) với mức ý nghĩa α =
0.05
- Khoảng ước lượng của các tham số hồi quy trong mô hình
 Graduation %: β ∈ ( 4.74708406774471 ± 2.012 ∗
1.01343222401856)
 Khoảng tin cậy 2.70805843301936< β <6.78610970247006
 Kết luận:
 Khi biến Graduation % tăng thì Median SAT cũng tăng.
- Với mức ý nghĩa 0.05, mô hình có phù hợp hay không?
 Đặt giả thuyết:
 H : β = 0 (R = 0): hệ số của tỷ lệ tốt nghiệp không giải thích cho
biến điểm trung bình SAT.
 H :β ≠ 0 (R ≠ 0): hệ số của tỷ lệ tốt nghiệp giải thích cho biến
lương.
 Trị giới hạn:
α df = k df = n − (k + 1)
0.05 1 47
 F . , , = 4.047 trong bảng phân phối F.
 Ta kiểm tra bằng excel thông qua hàm F.INV(1 - α , k, n − (k + 1) =
4.047

55
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 42: Tra F thông qua excel

 Trị thống kê:


.
 F= = = 21.9414046510452
.

Hình 43: Tính F


 Quy tắc bác bỏ H :
 Cách 1: F > F . , , nên bác bỏ H
 Cách 2: p-value < 0.05 nên chấp nhận H
 Kết luận:
 Có đủ bằng chứng để kết luận hàm hồi quy mẫu phù hợp hay biến
Graduation % tác động đến biến Median SAT.
b. Tính bằng R
 Bước 1: Import dữ liệu

Hình: Import dữ liệu

 Bước 2: Kiểm tra dữ liệu vừa đọc

56
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 44: Kiểm tra dữ liệu

 Bước 3: Dùng hàm lm và chọn các giá trị phù hợp để biểu diễn mô hình hồi
quy tuyến tính

Hình 45: Lập bảng thông số trên R


57
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

 Bước 4: Nhận xét


 Nhìn vào Coefficients ta thấy Pr(>|t|) của các biến Graduation < 0.05
nên ta không cần loại bỏ các đặc trưng ảnh hưởng đến ý nghĩa của
mô hình.
 Nhìn vào độ tương quan R-squared và Adjusted R-squared, ta thấy
cả hai giá trị đều nhỏ hơn 0.5 nên mô hình sau yếu.
 Bước 5: Mô hình hồi quy tuyến tính

Ta được:

Hình 46: Mô hình hồi quy tuyến tính của trên R

 Bước 6: Kết luận:


 Kết quả tính toán trên R giống với Excel

58
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
c. Tính bằng Python
 Bước 1: Import các thư viện cần thiêt

Hình: Các thư viện cần dùng


 Bước 2: Import dữ liệu

Hình: Đọc dữ liệu từ dataset


 Bước 3: Kiểm tra dữ liệu

Hình 47: Hiển thị 5 dòng đầu tiên của tập dữ liệu
 Bước 4: Lấy ra biến phụ thuộc Median SAT và biến độc lập Graduation %

Hình: Tạo biến độc lập và biến phụ thuộc


 Bước 5: Dùng hàm Linear Regression() trong thư viện sklearn() để đưa ra
mô hình theo biến X và Y.

59
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 48: Xây dựng mô hình với biến độc lập Graduation % và biến phụ thuộc
Median SAT
 Bước 6: Lấy các giá trị thông dụng của mô hình hồi quy tuyến tính
 Hệ số chắn

Hình 49: Tung độ gốc


 Hệ số thành phần

Hình 50: Hệ số gốc riêng phần


 Giá trị R-squared

Hình 51: Giá trị R-squared


 Bước 7: Bảng thống kê

60
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 52: Cú pháp xây dựng bảng thống kê


Ta được:

Hình 53: Kết quả


 Bước 8: Kết luận:
 Kết quả tính toán của Python giống với R và Excel.

61
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

5. Hồi quy phi tuyến đa biến với dữ liệu thực tế tùy chọn về/của Việt Nam.

a. Phát biểu chung


Cho đến giờ ta mặc định hàm hồi quy là tuyến tính, nghĩa là tham số nghiêng
của hàm hồi quy là hằng số. Điều này hàm ý, ảnh hưởng lên YY của một đơn vị thay
đổi của XX không phụ thuộc vào giá trị của XX. Nếu ảnh hưởng này thật sự phụ thuộc
vào giá trị của XX, ta cần phải sử dụng hàm hồi quy phi tuyến.
● Mô tả bài toán:
Ai sinh ra trên đời cũng đều có riêng cho mình những mục đích sống khác nhau,
nhưng dù là mục đích, lý tưởng gì thì chúng ta đều cần có sức khỏe mới thực hiện
được. Đó là lý do vì sao chúng ta có thể nói sức khỏe là quan trọng nhất đối với cuộc
sống mỗi người.
Đặc biệt không chỉ thế giới mà chính đất nước chúng ta cũng đã trải qua một
cuộc đại dịch kéo dài nhiều năm từ trước đến nay. Có thể thấy được là tầm quan trọng
của đội ngũ y tế cũng như cơ sở vật chất khi điều trị cho một số lượng bệnh nhân lớn
vào những ngày thường. Và trong lúc đại dịch vừa qua số lượng giường bệnh và đội
ngũ y tế không đủ để chữa trị cho bệnh nhân. Cũng vì nếu không có đủ số lượng đội
ngũ thì sẽ không thể nhiều số lượng giường bệnh để chăm sóc cho bệnh nhân. Cho
nên, nhóm đã chọn dữ liệu số bác sĩ, y sĩ và giường bệnh của tổng cộng và từng tỉnh
thành của Việt Nam vào năm 2014.

Phát biểu bài toán: Với độ tin cậy là 95% có thể tìm ra mối quan hệ giữa số
giường bệnh với số bác sĩ cũng như y sĩ của bệnh viện được hay không? Dữ liệu được
trình bày ở dưới:

62
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 54: Dữ liệu

● Trong đó:
- Số giường bệnh của bệnh viện phụ thuộc vào:
● Bác sĩ
● Y sĩ
⇨ Biến độc lập: Bác sĩ, Y sĩ.
⇨ Biến phụ thuộc: Số giường bệnh.
- Yêu cầu bài toán: Mức độ ảnh hưởng của số lượng bác sĩ và y sĩ của bệnh viện đến
số lượng giường bệnh.
- Mô hình hồi quy mẫu:
𝐺𝚤𝑢𝑜𝑛𝑔𝐵𝑒𝑛ℎ = 𝛽 + 𝛽 𝐵𝑎𝑐𝑆𝑖 + 𝛽 𝑌𝑠𝑖

- Với độ tin cậy 95% nên có mức ý nghĩa ∝ = 0.05


- Giả thuyết 𝐻 : Mô hình hồi quy phi tuyến không phù hợp.
- Đối thuyết 𝐻 : Mô hình hồi quy phi tuyến phù hợp.

63
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
b. Thực hiện phép tính Hồi quy phi tuyến đa biến trên MS Excel
-Bước 1 : Từ dữ liệu về y tế của Việt Nam năm 2014, ta tiến hành tính giá trị ln()
cho các biến độc lập BacSi, Ysi bằng hàm log() để thể hiện logarithm.- Bước 2:
Chọn Data -> Data analyst. Tiếp đó chọn Regression. Nhập các giá trị X, Y đầu
vào và vị trí hiện đáp án như sau.

Hình 55: Cách nhập dữ liệu vào Excel

- Bước 3: Nhấn OK. Kết quả hiện ra như sau.

Hình 56: Kết quả dữ liệu


64
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

● R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mô hình

● R square Adjusted = 0,5689 => R square > 50% nghiên cứu được đánh giá tốt.

● Vì giá trị p-Value = 0.038 < 0.05 và giá trị p-Value = 0.0456 < 0.05 . Nên mô
hình hồi quy phù hợp với tổng thể.

● Ta có mô hình:
GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)
● Kết luận:
Có đủ bằng chứng để kết luận hàm hồi quy phi tuyến phù hợp hay có hai biến
độc lập tác động đến biến phụ thuộc Y (Số giường bệnh).
● Mối quan hệ giữa Bác sĩ và giường bệnh

Hình 57: Mối quan hệ giữa bác sĩ và giường bệnh


● Nhận xét: Khi số lượng bác sĩ tăng lên số giường bệnh cũng tăng theo nên mối
quan hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường
bệnh mang giá trị dương.

65
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Mối quan hệ giữa Bác sĩ và giường bệnh

Hình 58: Mối quan hệ giữa y sĩ và giường bệnh


● Nhận xét: Khi số lượng y sĩ tăng lên số giường bệnh cũng tăng theo nên mối quan
hệ giữa hai thuộc tính là đồng biến, tức là hệ số được dự đoán của số giường bệnh
mang giá trị dương.
Kiểm định fisher
- Với mức ý nghĩa 5%, kiểm đinh ý nghĩa thống kê của các tham số hồi quy trong
mô hình.
 Giả thuyết:
 H :β =0
 H :β ≠0
 Trị giới hạn
α df = n − (k + 1)
0.05 68
 t. , = 1.9955 trong bảng phân phối Student
 Ta kiểm tra bằng excel thông qua hàm T.INV( , n − (k + 1))

Hình 16: Tìm T.INV

66
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

 Trị thống kê:


Coefficients Standard t-stat p-value
Error
BacSi 12576.02998 5940.571333 2.116973146 0.0379234
YSi 12527.92038 6151.036997 2.036716798 0.045574357
 Quy tắc bác bỏ H :
 Cách 1: t và t nằm ngoài khoảng (−1.9955, 1.9955) nên bác
bỏ H
 Cách 2: p-value < 0.05 nên chấp nhận H
 Kết luận:
 Có đủ bằng chứng để kết luận BacSi và Ysi có ảnh hưởng đến số
GiuongBenh với mức ý nghĩa α = 0.05
- Khoảng ước lượng của các tham số hồi quy trong mô hình
 BacSi: β ∈ ( 12576.02998 ± 1.9955 ∗ 5940.571333)
 Khoảng tin cậy 721.62 < β < 24430.4
 Score: β ∈ ( 12527.92038 ± 1.9955 ∗ 6151.036997)
 Khoảng tin cậy 253.53< β <24802.31
 Kết luận:
 Khi biến BacSi hoặc YSi tăng thì GiuongBenh cũng tăng.
- Với mức ý nghĩa 0.05, mô hình có phù hợp hay không?
 Đặt giả thuyết:
 H : β = β = 0 (R = 0): hệ số của số năm kinh nghiệm, điểm thi
đánh giá không giải thích cho biến lương.
 H : β + β ≠ 0 (R ≠ 0): hệ số của số năm kinh nghiệm, điểm thi
đánh giá giải thích cho biến lương.
 Trị giới hạn:
α df = k df = n − (k + 1)
0.05 2 68
 F . , , = 3.13 trong bảng phân phối F.
 Ta kiểm tra bằng excel thông qua hàm F.INV(1 - α , k, n − (k + 1) =
3.13

Hình 17: Tra F thông qua excel

67
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

 Trị thống kê:


.
 F= = = 47.206
.

 Quy tắc bác bỏ H :


 Cách 1: F > F . , , nên bác bỏ H
 Cách 2: p-value < 0.05 nên chấp nhận H
 Kết luận:
 Có đủ bằng chứng để kết luận hàm hồi quy mẫu phù hợp hay có ít
nhất một biến độc lập tác động đến biến phụ thuộc GiuongBenh.

c. Thực hiện phép tính Hồi quy phi tuyến đa biến trên R.

Một cách khác để quy cách hàm số phi tuyến là dùng hàm logarithm lên biến
Y/(và)X.

● Trường hợp 1: Logarithm X, mô hình trở thành:

o Trong R ta dùng hàm log() để thể hiện logarithm:

68
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 59: Kết quả mô hình hồi quy dạng Logarithm
o R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mô hình

o R square Adjusted = 0,569 => R square > 50% nghiên cứu được đánh
giá tốt.

o Vì giá trị p-Value = 0.0379 < 0.05 và giá trị p-Value = 0.0356 <
0.05 => Từ chối H0. Nên mô hình hồi quy phi tuyến phù hợp với
tổng thể.
o Dựa vào bảng kết quả Coefficients

o Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các model.

▪ Ta có mô hình:
GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)
⇨ Kết luận: Chỉ cần tăng thêm 1 bác sĩ và y sĩ sẽ tăng được trung bình
12551 giường bệnh.

● Trường hợp 2: Logarithm Y, mô hình trở thành:

69
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 60: Kết quả mô hình hồi quy dạng Logarithm dạng 2
o R square = 0.5752 => Có 57,52% dữ liệu phù hợp với mô hình

o R square Adjusted = 0,5627 => R square > 50% nghiên cứu được đánh
giá tốt.

o Vì giá trị p-Value = 0.00775 < 0.05 và giá trị p-Value = 0.22033
< 0.05 => Từ chối H0. Nên mô hình hồi quy phi tuyến phù hợp
với tổng thể.
o Dựa vào bảng kết quả Coefficients

▪ Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các
model.

▪ Ta có mô hình:

ln(GiuongBenh) = (8.162e+00) + (1.941e-04)*BacSi +( -


8.650e-05)*Ysi

● Trường hợp 3: Logarithm X và Y, mô hình trở thành:


70
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 61: Kết quả mô hình hồi quy dạng Logarithm dạng 3

o R square = 0.9667 => Có 96,67% dữ liệu phù hợp với mô hình

o R square Adjusted = 0,9657 => R square > 50% nghiên cứu được đánh
giá tốt.

o Vì giá trị p-Value < 2e-16 và giá trị p-Value = 0.00026<0.05 =>
Từ chối H0. Nên mô hình hồi quy phi tuyến phù hợp với tổng
thể.
o Dựa vào bảng kết quả Coefficients

▪ Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các
model.

▪ Ta có mô hình:

ln(GiuongBenh) = (1.56304) + (0.78592)*ln(BacSi)


+(0.20932)*ln(YSi)

● Vẽ hình mối quan hệ giữa bác sĩ và giường bệnh trong R


71
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 62: Mối quan hệ giữa bác sĩ và giường bệnh

● Vẽ hình mối quan hệ giữa y sĩ và giường bệnh

72
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 63: Mối quan hệ giữa y sĩ và giường bệnh

73
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
d. Thực hiện phép tính Hồi quy phi tuyến đa biến trong Python
- Bước 1: Import thư viện.

- Bước 2: Nhập dữ liệu vào.

- Bước 3: Tính hàm log cho các biến độc lập như BacSi và Ysi.

- Bước 4: Lấy ra biến phụ thuộc GiuongBenh và biến độc lập BacSi và YSi

74
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Bước 5: Dùng hàm Linear Regression() trong thư viện sklearn() để đưa ra mô
hình theo biến X và Y.

- Bước 6: Lấy các giá trị thông dụng của mô hình hồi quy tuyến tính
● Hệ số chắn

● Hệ số thành phần

● Giá trị R-squared

- Bước 7: Xuất ra kết quả. Cú pháp xây dựng bảng thống kê.

75
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

● Kết quả:

● Bước 8: Kết luận:


● Kết quả tính toán của Python giống với R và Excel.

● Ta có mô hình:
GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)

76
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

● Kết luận: Từ kết luận trên chúng tôi cũng đưa ra được là các yếu tố về con người
và cơ sở vật chất của bệnh viện đều có liên quan và ảnh hưởng đến nhau. Cho nên
để có một chất lượng tốt hơn cũng như là cải thiện số lượng giường bệnh tại bệnh
viện, chúng ta nên tăng số lượng về đội ngũ y tế như là bác sĩ, y sĩ…

6. Hồi quy Logistic với dữ liệu thực tế tùy chọn về/của Việt Nam

a. Phát biểu bài toán (hay vấn đề) cần giải quyết
Mặc dù cộng đồng thế giới nói chung cũng như Việt Nam nói riêng đã cho
thấy những tín hiệu ổn định trở lại trong đại dịch Covid-19, tuy nhiên mối nguy
hiểm từ dịch bệnh này vẫn chưa dừng lại, cụ thể số người tử vong trung bình trong
bảy ngày qua tại Việt Nam ghi nhận con số là 7 người.

Hình 64: Bảng số liệu thống kê số người tử vong tại Việt Nam trong vòng 6 tháng, với số liệu
trung bình ghi nhận trong 7 ngày gần nhất 1.

Dù vậy, nhịp sống tù động do Covid cũng không kém phần nguy hiểm bởi nó
ảnh hưởng gián tiếp đến nền kinh tế và xã hội của đất nước. Vì thế, Việt Nam cũng
đã có nhiều chính sách bình thường hóa: Vừa đi làm trực tiếp vừa đi làm online,
cho mở cửa các siêu thị chợ nhưng vẫn khuyến khích các dịch vụ đặt đồ tại nhà,
vừa đi học online vừa đi học offline. Mặc dù hiển nhiên, các hoạt động diễn ra tại

1
https://www.google.com/search?sxsrf=APq-WBsC6Bvix-
JIW9Nw16BojY_2X7bviQ:1650720995255&q=s%E1%BB%91+ng%C6%B0%E1%BB%9Di+t%E1%BB%AD+v%E1%BB%8
Dng+covid+vi%E1%BB%87t+nam+h%C3%B4m+nay&lco=en:1&lr=lang_en&lrs=0&sa=X&ved=2ahUKEwjamK70pqr3
AhUYyYsBHTC4A8QQ-PEFKAB6BAgCEDQ
77
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

nhà và online còn nhiều bất cập khiến hiệu suất công việc lẫn kết quả sẽ bị nhiều
ảnh hưởng, tuy nhiên, sự lo sợ về tính mạng con người vẫn còn là một rào cản lớn
cho các quyết định của cá nhân hoặc tổ chức.
Vậy vấn đề đặt ra nếu chúng ta có thể nhận biết được tuýp người thuộc dạng
nào thì có nguy cơ, xác suất tử vong cao ta sẽ có cơ sở vững chắc hơn để đưa ra
quyết định ít sai lầm hơn.
Vì thế trong nghiên cứu này nhóm chúng tôi tiến hành xem xét tác động của
tuổi tác đối với sự tử vong của người Việt Nam. Trước hết chúng tôi thực hiện với
quy mô nhỏ dựa trên dữ liệu các ca mắc Covid-19 của Đà Nẵng được ghi nhận lần
cuối vào lúc 9h - 23/9/2020 tại Cổng dịch vụ dữ liệu của thành phố Đà Nẵng2. Về
công cụ, chúng tôi sẽ phân tích hồi quy logistic trên số tuổi của các ca Covid được
ghi nhận và xem xét xác suất tử vong của từng độ tuổi là bao nhiêu. Vì thế trong
dữ liệu chúng tôi đã lọc và xử lý để tạo thành hai cột cần thiết là tuổi (Age), tình
trạng tử vong/đã khỏi bệnh (Status).

Hình 65: Một số mẫu dữ liệu.

2
https://congdulieu.vn/dulieuchitiet/23242#
78
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Nêu các bước tiến hành và tính lại các giá trị trong bảng kết quả

b. Excel

Hình 66: Đầu tiên ta chọn Data Analysis, sau đó chọn Regression.

Hình 67: Tư bảng kết quả, ta lấy kết quả của hai hệ số intercept/age làm hệ số khởi tạo cho
phương trình tuyến tính của hàm log.

79
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 68: Dựa vào hệ số khởi tạo, ta lập phương trình tuyến tính, tính ra kết quả cho cột C.

Hình 69: Tiếp theo ta tính xác suất tử vong so với tuổi dựa trên phương trình tuyến tính được
khởi tạo.

Hình 10: Tiếp theo ta tính con số xác suất Likelihood dựa trên nhãn thực tế đã biết.

80
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 71: Tiếp theo ta tính log của likelihood.

Hình 72: Sau đó ta tính tổng của tất cả giá trị của dòng log likelihood này.

Hình 73: Ta dùng công cụng Solver trong Analysis trong Data để cập nhật lại hệ số từ hai hệ số
đã khởi tạo.

81
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 74: Dòng “Set Objective” ta bỏ vào giá trị của tổng giá trị log likelihood, dòng "By Changing
Variable Cells" ta kéo hai vị trí hai giá trị hệ số cần cập nhật

Hình 75: Hai hệ số của hàm Logistic đã được cập nhật thành 0;0. Chi tiết phân tích sẽ trình bày
ở phần sau.

82
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

c. Bằng R

Hình 76: Đầu tiên ta đọc file csv và đính kèm giá trị vừa đọc vào chương trình bằng lệnh attach.

Hình 77: Tiếp theo ta dùng hàm glm để thực hiện hồi quy logistic, với biến phụ thuộc là Status
và biến độc lập là Age. Sau đó ta dùng lệnh summary để in ra bảng kết quả.

Hình 78: Bảng kết quả sau khi thực hiện hồi quy logistic.

Hình 79: Dùng các lệnh sau để vẽ đường cong logistic theo các hệ số vừa tìm được .

83
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 80: Biểu diễn các điểm dữ liệu và đường cong logistic.

d. Bằng Python

Hình 81: Cài đặt các thư viện cần thiết và đọc file dữ liệu vào chương trình.

Hình 82: Đọc dữ liệu vào một biến dạng numpy array. Ta cũng phải tiến hình reshape dữ liệu
của biến độc lập thành mảng hai chiều để phù hợp với đầu vào của thuật toán.
84
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 83: Tạo model bằng hàm LogisticRegression, sau đó tiến hành huấn luyện bằng lệnh fit với
hai đối số là X và y.

Hình 84: Sau đó ta in hai giá trị hệ số của mô hình đã học ra.

e. Giải thích và kết luận


Trước hết ta có hàm logistic dùng để tính xác suất sảy ra của một biến cố
dựa trên một biến số nào đó. Trong bài toán này, chúng tôi đang xét biến
cố một người có tử vong hay không dữa trên biến số là tuổi tác của họ.
Vậy hàm logistic tính xác suất trên được phát biểu như sau:
.
𝑒
𝑝= .
1+𝑒
Với 𝑎 + 𝑏. 𝑥 là phương trình tuyến tính có x là giá trị tuổi của người mắc
Covid và 𝑎, 𝑏 là hai hệ số cần tìm.
Trong thực nghiệm hồi quy logistic với ngôn ngữ R, ta thu được hệ số với
a (intercept) là -6,43021 và b (age) là 0.08.

85
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 85: Bảng kết quả khi thực nghiệm trên ngôn ngữ R.

Khi thao tác với Python, chúng tôi nhận thấy với mỗi giá trị C khác nhau
ta thu được các hệ số khác nhau như sau:

Hình 86: Hệ số tìm được khi đặt giá trị C =10.0

86
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 2: Hệ số tìm được khi đặt giá trị C =20.0

Hình 87: Hệ số khi đặt C bằng 90 sẽ gần giống với kết quả khi thực nghiệm trên R.

Theo tìm hiểu, C sẽ là hệ số đảo ngược của regularization. Trong đó,


regularization là một dạng tham số phạt trong các mô hình máy học giúp hạn chế
tình trạng overfitting của mô hình đầu ra. Overfitting là tình trạng mô hình sau khi
được huấn luyện thể hiện quá tốt trên dữ liệu được huấn luyện trong khi đó lại thể
hiện quá kém trên dữ liệu thực tế.
Tiếp theo xét về giá trị hệ số tìm được bằng cách thực nghiệm trên Excel, cụ
thể chúng tôi nhận về hai giá trị đều bằng 0. Chúng tôi tiến hành áp thử hai hệ số đã
tìm được trong hai phương pháp thực nghiệm bằng ngôn ngữ R và Python ở trên
vào dữ liệu bảng của excel để xem xét. Sau khi nhìn nhận về xác suất trả về của
từng giá trị tuổi, chúng tôi nhận định trường hợp hệ số trả về của mô hình là (0,0)
này có thể giải thích do dữ liệu mà mô hình bị mất cần bằng nặng nề. Cụ thể trong
tất cả độ tuổi thu thập được (từ 1 đến 95) thì đến tận số tuổi là 84 mới có xác suất
tử vong vượt ngưỡng 50 và chỉ có 8/247 mẫu vượt qua ngưỡng này. Vậy nên dựa
trên dữ liệu đưa vào excel, mô hình đầu ra kết luận hai hệ số là (0,0) tương đương
87
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

với việc bất kì độ tuổi nào đưa vào khả năng tử vong cũng bằng 0 là khá hợp lý trên
những gì dữ liệu có được. Bởi chỉ có 8/247 trường hợp (theo hệ số mượn từ hai
phương pháp trên) bị phán đoán sai mà thôi còn lại 239 trường hợp vẫn được xem
là đúng trên mô hình có hệ số là (0,0) này.

Hình 88: Giá trị xác suất tử vong hay không phụ thuộc vào giá trị tuổi khi được áp dụng hệ số từ
hai phương pháp trước. Trong đó, dòng tô màu đỏ là dòng đầu tiên vượt ngưỡng 50%, dòng
xanh dương là dòng thử nghiệm chúng tôi đưa vào để xem ở mức tuối nào có khả năng 90% mắc
covid sẽ tử vong.

Từ kết luận trên chúng tôi cũng đưa ra được giải pháp để tăng tính khách
quan cũng như độ chính xác của mô hình đầu ra như sau: một là xem xét hệ số phạt
(regularization) để tránh được tình trạng mô hình chỉ nhìn được các trường hợp cụ
thể trên dữ liệu mà không có tính khách quan trên dữ liệu thực tế; hai là ta phải cố
gắng thu thập nhiều mẫu dữ liệu nhất có thể để mô hình không bị giới hạn trong một
phạm vi đặc tính cụ thể nào cả.

88
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14

Hình 89: Khi tăng 1 tuổi khả năng ta bị tử vong do covid sẽ tăng 1,08 lần.

7. Bảng phân công công việc


Ái Nhi Phương Thu Thanh Hữu Thắng
Uyên Phương Trúc
Câu 3a X
Câu 3b X
Câu 3c X
Câu 4d X X X X X
Câu 4e X
Câu 4f X

89
Phân tích dữ liệu kinh doanh – IS403.M22

You might also like