Professional Documents
Culture Documents
Đề tài:
BÁO CÁO LAB 3
MỤC LỤC
1. Hồi quy tuyến tính đa biến ......................................................................................... 1
a. Khái niệm hồi quy .................................................................................................... 1
b. Khái niệm hồi quy tuyến tính ................................................................................... 1
c. Khái niệm hồi quy tuyến tính đơn biến ................................................................... 1
d. Khái niệm hồi quy tuyến tính đa biến ..................................................................... 1
e. Ví dụ minh họa ......................................................................................................... 4
2. Hồi qui phi tuyến đa biến ......................................................................................... 18
a. Định nghĩa .............................................................................................................. 18
b. Ví dụ minh họa ....................................................................................................... 19
3. Hồi qui logistic ........................................................................................................... 24
c. Định nghĩa: ............................................................................................................. 24
d. Đặt vấn đề: .............................................................................................................. 25
e. Các bước thực hiện ................................................................................................ 25
f. Ví dụ minh họa : Graduate School Survey ........................................................... 26
4. Colleges and Universities.......................................................................................... 44
a. Tính bằng Excel ..................................................................................................... 48
b. Tính bằng R ............................................................................................................ 56
c. Tính bằng Python ................................................................................................... 59
5. Hồi quy phi tuyến đa biến với dữ liệu thực tế tùy chọn về/của Việt Nam. .......... 62
a. Phát biểu chung ...................................................................................................... 62
b. Thực hiện phép tính Hồi quy phi tuyến đa biến trên MS Excel ............................. 64
c. Thực hiện phép tính Hồi quy phi tuyến đa biến trên R. ....................................... 68
d. Thực hiện phép tính Hồi quy phi tuyến đa biến trong Python ............................ 74
6. Hồi quy Logistic với dữ liệu thực tế tùy chọn về/của Việt Nam ........................... 77
a. Phát biểu bài toán (hay vấn đề) cần giải quyết ..................................................... 77
b. Excel ........................................................................................................................ 79
c. Bằng R..................................................................................................................... 83
d. Bằng Python ........................................................................................................... 84
e. Giải thích và kết luận ............................................................................................. 85
Báo cáo Lab 3 – Nhóm 14
7. Bảng phân công công việc ........................................................................................ 89
Báo cáo Lab 3 – Nhóm 14
𝑌 = 𝛽 + 𝛽 𝑋 + 𝛽 𝑋 +⋯ + 𝛽 𝑋 + 𝜀
1
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Trong đó:
Ký hiệu Ý nghĩa
𝑒 = (𝑌 − 𝑌 )
Trong đó:
Ký hiệu Ý nghĩa
𝑒 Phần dư
2
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
o Cách 2:
𝐵á𝑐 𝑏ỏ 𝐻 𝑛ế𝑢 𝑝 − 𝑣𝑎𝑙𝑢𝑒 > 0.05
Trong đó:
Ký hiệu Ý nghĩa
𝑘 Số lượng tham số
o Cách 2:
3
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
𝐵á𝑐 𝑏ỏ 𝐻 𝑛ế𝑢 𝑝 − 𝑣𝑎𝑙𝑢𝑒 < 0.05
e. Ví dụ minh họa
Một Công ty phần mềm thu thập dữ liệu của một mẫu gồm 20 lập trình viên.
Người ta đề nghị sử dụng phân tích hồi qui để xác định xem lương có mối liên hệ với
số năm kinh nghiệm và điểm thi năng khiếu về lập trình do công ty tổ chức hay không?
Số năm kinh nghiệm, điểm thi năng khiếu Và mức lương hàng năm ($1000s) của 20
lập trình viên được trình bày ở bảng sau:
4 78 24
7 100 43
1 86 24
5 82 34
8 86 36
10 84 38
0 75 22
1 80 23
6 83 30
6 91 33
9 88 38
2 73 27
4
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
10 75 36
5 81 32
6 74 29
8 87 34
4 79 30
6 94 34
3 70 28
3 89 30
Trong đó:
- Mối quan hệ giữ các biến phụ thuộc và biến độc lập:
● Mối quan hệ giữa Experience và Salary:
5
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Nhận xét: Khi số năm kinh nghiệm của lập trình viên tăng lên thì lương của
nhân viên cũng tăng theo nên mối quan hệ giữ hai thuộc tính là đồng biến, tức
là hệ số được dự đoán của Experience mang giá trị dương.
6
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Nhận xét: Khi số điểm đánh giá năng lực của lập trình viên tăng lên thì lương
của nhân viên cũng tăng theo nên mối quan hệ giữ hai thuộc tính là đồng biến,
tức là hệ số được dự đoán của Score mang giá trị dương.
● Khái niệm:
● SSR: tổng bình phương biến thiên độ lệch tiên lượng và giá trị trung
bình
𝑆𝑆𝑅 = 𝑌− 𝑌
● SSE: tổng bình phương biến thiên độ lệch tiên lượng và quan sát
𝑆𝑆𝐸 = 𝑌− 𝑌
● SST: tổng bình phương biến thiên độ lệch quan sát và giá trị trung bình.
7
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó cũng
được dùng tương tự như R Square. Trong thực tế người ta dùng
Adjusted R Square nhiều R Square. Vì Adjusted R Square có thêm các
tham số n và k nên độ chính xác sẽ cao hơn R Square. Adjusted R
Square càng gần 1 thì mô hình hồi qui càng phù hợp.
𝑆𝑆𝐸
[𝑛 − (𝑘 + 1)]
𝐴𝑑𝑗𝑢𝑠𝑡𝑒𝑑 𝑅2 = 1 −
𝑆𝑆𝑇
𝑛−1
● MSR: trung bình chênh lệch tổng bình phương sai số giải thích được
bằng mô hình
● MSE: trung bình chênh lệch tổng bình phương các phần dư
● Các ma trận:
8
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi
quy còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng
cách trung bình mà các giá trị quan sát rơi khỏi đường hồi quy. Các giá
trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ nằm gần đường hồi qui
hơn.
● Anova
df SS MS F Significane F
df SS MS F Significane F
9
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
= = 𝑀𝑆𝐸
17 99.4569696855697 𝑆𝑆𝐸
=
[𝑛 – (𝑘 + 1)]
99.4569696855697
=
17
= 5.8504099815041
● Regression
- Tìm phương trình hồi quy
● Ma trận X
Hình 4: Ma trận X
● Ma trận Y
10
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 5: Ma trận Y
● Bước 1: Tính 𝑋 bằng hàm Transpose trong Excel
Hình 6: Ma trận 𝑋
● Bước 2: Tính 𝑋 𝑋 bằng hàm Mmult trong Excel
Hình 7: Ma trận 𝑋 𝑋
● Bước 3: Tính (𝑋 𝑋) bằng hàm Minverse trong Excel
Hình 9: Ma trận (𝑋 𝑋)
● Bước 4: Tính (𝑋 𝑋) 𝑋 bằng hàm Mmult trong Excel
11
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Ta thu được kết quả
Coefficients
Intercept 3.17393627
Experience 1.403902485
Score 0.250885448
● Phương trình:
𝑆𝑎𝑙𝑎𝑟𝑦 = 3.174 + 1.404 ∗ 𝐸𝑥𝑝𝑒𝑟𝑖𝑒𝑛𝑐𝑒 + 0.251 ∗ 𝑆𝑐𝑜𝑟𝑒
Trong đó:
▪ 𝛽1 = 1.404 : Lương sẽ tăng trung bình 1.404 $k/ năm đối với mỗi một năm kinh
nghiệm tăng thêm, với giả sử cùng một mức điểm đánh giá năng lực đầu vào.
▪ 𝛽2 = 0.251 : Lương sẽ tăng trung bình 0.251 $k/ năm đối với , với giả sử cùng số
Hình 12: Đường chéo của ma trận là phương sai của các biến
● Bước 2: Tìm Standard Error thông qua công thức
𝑆𝐸 = 𝑉𝑎𝑟(𝐵 )
12
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 13: Kết quả khi căn bậc hai các phương sai
● Ta được kết quả:
- t Stat
● Bước 1: Tính t-Stat bằng công thức
𝐶𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑠
𝑡=
𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝐸𝑟𝑟𝑜𝑟
● Ta thu được
13
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- P-value:
● Bước 1: Dùng hàm T.DIST.2T(t Stat; n-(k+1)) để tính giá trị p-value
● Regression Statistics
R2 𝑆𝑆𝑅 500.3285303
𝑅 = =
𝑆𝑆𝑇 599.785500000005
= 0.834179102886667
Multiple R
𝑅2 = 0.834179102886667
= 0.91333405875762
14
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Adjusted R2 𝑆𝑆𝐸
[𝑛 − (𝑘 + 1)]
𝐴𝑑𝑗𝑢𝑠𝑡𝑒𝑑 𝑅2 = 1 −
𝑆𝑆𝑇
𝑛−1
99.4569696855697
= 1− 17
599.785500000005
19
= 0.814670762049805
Observations 𝑂𝑏𝑠𝑒𝑟𝑣𝑎𝑡𝑖𝑜𝑛𝑠 = 𝑛 = 20
Trong đó:
● R2 = 0.8342: 83.42% biến động của lương được giải thích bởi số năm kinh
nghiệm và điểm đánh giá năng lực
● Trong bài toán trên, 2 biến độc lập đưa vào ảnh hưởng 81.467% sự thay đổi
của biến phụ thuộc, còn lại 18.533% là do các biến ngoài mô hình và sai số
ngẫu nhiên.
- Với mức ý nghĩa 5%, kiểm đinh ý nghĩa thống kê của các tham số hồi quy trong
mô hình.
● Giả thuyết:
▪ 𝐻 :𝛽 =0
▪ 𝐻 :𝛽 ≠0
15
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Trị giới hạn
𝛼 𝑑𝑓 = 𝑛 − (𝑘 + 1)
0.05 17
⇨ 𝑡 .
,
= 2.11 trong bảng phân phối Student
𝛼
⇨ Ta kiểm tra bằng excel thông qua hàm T.INV( , 𝑛 − (𝑘 + 1))
𝛼 𝑑𝑓 = 𝑘 𝑑𝑓 = 𝑛 − (𝑘 + 1)
0.05 2 17
17
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Trị thống kê:
.
▪ 𝐹= = = 42.76013
.
a. Định nghĩa
- Hồi quy phi tuyến là một dạng phân tích hồi quy trong đó dữ liệu quan sát
được mô hình hóa bằng một hàm là một sự kết hợp phi tuyến tính của các
tham số mô hình và phụ thuộc vào một hay nhiều biến độc lập. Hồi quy
tuyến tính đơn giản liên hệ hai biến (X và Y) với một đường thẳng (y = mx
+ b), trong khi hồi quy phi tuyến tính liên hệ hai biến trong một mối quan
hệ phi tuyến (cong).
- Hồi quy đa biến là một phần mở rộng của hồi quy tuyến tính đơn giản. Nó
được sử dụng khi chúng ta muốn dự đoán giá trị của một biến dựa trên giá
trị của hai hoặc nhiều biến khác. Biến chúng ta muốn dự đoán được gọi là
biến phụ thuộc (hoặc đôi khi, biến kết quả, mục tiêu hoặc biến tiêu chí).
Các biến chúng ta đang sử dụng để dự đoán giá trị của biến phụ thuộc được
gọi là biến độc lập. Hồi quy đa biến cũng cho phép chúng ta xác định mức
độ đóng góp nhiều, ít, không đóng góp... của từng nhân tố vào sự thay đổi
của biến phụ thuộc
- Từ đó ta có thể hiểu Hồi quy phi tuyến đa biến là một dạng phân tích hồi quy trong
đó dữ liệu quan sát được mô hình hóa bằng một hàm (có thể là hàm mũ, hàm
18
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
logarit, hàm căn bậc hai, hàm đa thức,...) là một sự kết hợp phi tuyến tính của các
tham số mô hình và phụ thuộc vào nhiều biến độc lập.
- Trong hồi quy phi tuyến tính, một mô hình thống kê ở dạng:
y ~ f(𝒙𝒊 ,β)
Liên quan đến mộc véctơ các biến độc lập, x, và các biến phụ thuộc
liên quan được quan sát của nó, y. Hàm f là phi tuyến tính ở các
thành phần của các tham số của véctơ β, nhưng không phải là hàm
tùy ý.
Các hàm hồi quy phi tuyến tính gồm hàm mũ, hàm tăng trưởng
logarit, hàm lượng giác, hàm lũy thừa, gàm Gauss, và đường
cong Lorenz. Một vài hàm, chẳng hạn như các hàm lũy thừa và
logarit, có thể chuyển đổi thành dạng tuyến tính. Khi chuyển đổi,
hồi quy tuyến tính tiêu chuẩn có thể được thực hiện nhưng phải thận
trọng khi áp dụng.
b. Ví dụ minh họa
Nghiên cứu về quan hệ giữa số giường bệnh với số bác sĩ cũng như y sĩ của bệnh
viện.
Dữ liệu được trình bày như sau:
Hình 19: Dữ liệu số bác sĩ, y sĩ và giường bệnh của các tỉnh năm 2014
Trong đó:
Số giường của bệnh viện phụ thuộc vào:
19
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Số bác sĩ
Số y sĩ
=> Biến độc lập: Số bác sĩ, Số y sĩ
=> Biến phụ thuộc: Số giường bệnh
- Yêu cầu bài toán: Mức độ ảnh hưởng của số lượng bác sĩ và y sĩ của bệnh
viện đến số lượng giường bệnh.
- Mô hình hồi quy mẫu:
GiuongBenh= 0+ 1BacSi + 2Ysi
- Mối liên hệ giữa các biến độc lập và biến phụ thuộc:
Mối quan hệ giữa Số lượng bác sĩ và Số lượng giường bệnh:
20
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 22: Kết quả dữ liệu được tính bằng công cụ Data Analysis trong Excel
- Từ bảng kết quả ta có các nhận xét rút ra như sau:
R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mô hình
R square Adjusted = 0,5689 => R square > 50% nghiên cứu được đánh giá
tốt.
Vì giá trị p-Value = 0.038 < 0.05 và giá trị p-Value = 0.0456 < 0.05 . Nên
mô hình hồi quy phù hợp với tổng thể.
21
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Ta có mô hình:
GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)
- Tìm phương trình hồi quy :
Ma trận X:
22
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
23
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Bước 3: Tính (𝑋 𝑋) bằng hàm Minverse trong Excel
Phương trình:
GiuongBenh = 0.678821 + 0.785919*ln(BacSi) + 0.209315*ln(YSi)
c. Định nghĩa:
Phân tích hồi qui logistic là một kỹ thuật thống kê để xem xét mối liên hệ
giữa biến độc lập (biến số hoặc biến phân loại) với biến phụ thuộc là biến nhị phân(0
hoặc 1).
Dạng biến độc lập x và biến phụ thuộc y liên hệ qua phương trình:
24
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
𝑦 = 𝛼 + 𝛽𝑥 + ℯ
- Trong đó:
+ 𝑦 là biến phụ thuộc nhị phân.
+ 𝑥 là biến độc lập.
𝑃
𝑂𝐷𝐷𝑠 =
1−𝑃
Nếu ODDs > 1 xác suất biến cố A xảy ra khả năng cao hơn biến cố đối
của nó.
Nếu ODDs <1 xác suất biến cố A xảy ra khả năng thấp hơn biến cố đối
của nó.
Nếu ODDs = 1 xác suất biến cố A xảy ra khả năng bằng biến cố đối của
nó
- Từ chỉ số ODDs, ta được phương trình hồi quy logistic như sau :
𝑃
log = 𝛼 + 𝛽𝑥 + ℯ
1−𝑃
25
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Trong đó :
- Từ phương trình này, ta có thể tính xác suất tiên đoán P theo trị số của x.
𝑃
=𝑒
1−𝑃
𝑒
𝑃=
1+ 𝑒
26
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
1 1 3.7 1
1 0 2.8 0
1 1 2.6 1
1 1 3.3 0
1 0 3.3 1
1 0 3.5 1
1 1 3.2 0
1 0 2.9 1
1 0 4 1
1 1 4 1
0 0 3.6 1
0 0 3.3 1
0 1 2.9 1
0 0 3.4 1
0 1 3 0
0 1 3.2 0
0 0 4 1
0 1 3 0
0 1 2.5 0
0 1 4 1
0 0 4 1
0 1 2.7 0
0 0 3.7 1
0 1 3.2 0
0 1 2.8 0
Bảng 2. Dữ liệu của Graduate School Survey
Trong đó :
27
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Biến độc lập : Gender, Married, Undergraduate GPA
- Biến phụ thuộc: Plan to attend graduate school.
Câu hỏi đặt ra : Các biến trong khảo sát : giới tính (Gender), tình trạng hôn nhân
( Married), điểm trung bình tích lũy khi chưa tốt nghiệp đại học (Undergraduate
GPA) có liên quan như thế nào với dự định học bậc sau đại học?
Cần tìm ra mức độ ảnh hưởng, liên quan giữa các biến độc lập (Gender, Married,
Undergraduate GPA) tới biến phụ thuộc ( Plan to attend graduate school)
- Vì biến phụ thuộc (Plan to attend graduate school) là một biến nhị phân nhận giá
trị 1 cho việc có dự định học sau đại học và 0 người không có dự định nên chúng
ta không thể áp dụng mô hình hồi quy tuyến tính ( mô hình hồi quy tuyến tính
áp dụng cho các biến phụ thuộc là biến liên tục).
Để tìm mối liên hệ giữa biến phụ thuộc và biến độc lập trong trường hợp này
chúng ta sử dụng mô hình hồi quy logistic.
Gọi p là xác xuất một người có dự định học bậc sau đại học. Ta có p = Pr( Y = 1).
Odds là khả năng của một người có dự định học bậc sau đại học được định nghĩa bằng tỉ
số xác suất một người có dự định học bậc sau đại học trên xác suất một người không có
dự định học bậc sau đại học. Ta có:
odds = .[2]
28
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Odds ratio là tỷ số của 2 odds
odds(x = x + 1) e∝ ( )
= =e
odds(x = x ) e∝
Bước 1: Chọn Adds-in => Real Satistics => Data Analysis Tool => Reg => Chọn
Logistics and probit regression => OK
30
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
31
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Từ bảng trên ta thấy hệ số biến điểm trung bình tích lũy ( Undergraduate GPA
cps p_value < alpha(=0.05)
Biến có ý nghĩa thống kê và có mối liên quan đến biến dự định học bậc sau đại
học.
- Ngược lại hệ số các biến giới tính (Gender) và tình trạng hôn nhân ( Married)
có p-value > alpha
Không có đủ bằng chứng để kết luận có mối liên quan giữa biến này với biến
dự định học bậc sau đại học, nên loại bỏ chúng khỏi mô hình.
Sau khi loại bỏ biến không liên qua ta có dữ liệu mới như sau:
32
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
2.8 0
2.6 1
3.3 0
3.3 1
3.5 1
3.2 0
2.9 1
4 1
4 1
3.6 1
3.3 1
2.9 1
3.4 1
3 0
3.2 0
4 1
3 0
2.5 0
4 1
4 1
2.7 0
3.7 1
3.2 0
2.8 0
Bảng 3. Dữ liệu của Graduate School Survey sau khi lược bỏ các biến không có ý nghĩa thống kê
33
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Kết quả phân tích
Hình 22.1,2,3. Kết quả phân tích Real Statistics sau loại bỏ các biến không có ý nghĩa thống kê
34
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Ta có:
𝑝
log = −10.9095 + 3.593 ∗ 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 + 𝜀
1−𝑝
= 𝑒 −10.9095+3.593∗𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴
Để phản ánh mức độ liên quan giữa biến giải thích với biến độc lập, ta đặt :
- là Odd
.
- Với 𝑂𝑑𝑑 ( 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 = 0) => 𝑂𝑑𝑑 = 𝑒
. ,
- Với 𝑂𝑑𝑑 ( 𝑈𝑛𝑑𝑒𝑟𝑔𝑟𝑎𝑑𝑢𝑎𝑡𝑒𝐺𝑃𝐴 = 1) => 𝑂𝑑𝑑 = 𝑒
. ,
- Tỉ số = .
≈ 36,359
Lúc này ta có thể diễn dịch, khi điểm trung bình tích lũy ( UndergraduateGPA)
Tăng lên một đơn vị thì khả năng có dự định học bậc sau đại học tăng lên 36,359
lần, nếu tăng lên 0.1 điểm GPA thì tỉ lệ có dự định học bậc sau đại học tăng lên
3,6359 lần.
Cách tính các hệ số bằng Exel Solver
- Chọn giá trị bất kỳ cho 2 hệ số tương ứng với intercept, UndergraduateGPA
35
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
o p=
- Tiếp theo ta chọn tab Data => Solver => Điền các thông tin vào hộp thoại rồi
nhấn Solve.
Kết quả thu được là giá trị các hệ số trong mô hình. Giá trị đúng với giá trị được
tính bằng real statisitc.
36
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Standard Error
Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi
quy còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng
cách trung bình mà các giá trị quan sát rơi khỏi đường hồi quy. Các giá
trị càng nhỏ sẽ càng tốt vì các biến quan sát sẽ nằm gần đường hồi qui
hơn.
𝑆𝐸 = 𝑉𝑎𝑟(𝐵 )
37
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Wald và p-values
- Dùng để kiểm tra hệ số hồi quy
Exp(b) – tỷ số odds
( ) ∝ ( )
- Là tỷ số odds :
( )
= ∝ =e
38
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
39
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Chi-sq có giá trị càng thấp mô hình càng phù hợp với dữ liệu
- Df là số các biến giải thích trong mô hình : k= 1
Pseudo R
Phản ánh mức độ phù hợp của mô hình. Pseudo R càng cao, mô hình càng
phù hợp với dữ liệu. Pseudo R luôn nằm trong khoảng [0; 1]. Giá trị Pseudo R
luôn tăng khi thêm các biến mới vào một mô hình. Do đó Pseudo R chỉ có thể
40
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
so sánh giữa các mô hình có cùng số lượng biến và định dạng dữ liệu giữa các
biến.
𝐿𝐿
𝑅 =1−
𝐿𝐿
( )
𝑅 =1−𝑒
𝑅
𝑅 =
1−𝑒
𝐴𝐼𝐶 = −2 ∗ 𝐿𝐿 + 2 ∗ 𝑘
𝐵𝐼𝐶 = −2 ∗ 𝐿𝐿 + ln(𝑁) ∗ 𝑘
với k là số biến quan sát được, N tổng số các quan sát
41
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Bảng phân loại giúp có cái nhìn rõ hơn về việc các điểm dữ liệu được phân loại
đúng/sai như thế nào. Ta thấy số lượng người được khảo sát có dự định học bậc
sau đại học là 19 người và trong số 19 người đó mô hình dự đoán 15 người có
dự định học và dự đoán 4 người không có dự định học.
- Còn số lượng người được khảo sát không có dự định học bậc sau đại học là 11
người trong đó mô hình dự đoán 4 người có dự định học và dự đoán 7 người
không có dự định học.
- Từ bảng phân loại ta tính được giá trị True Positive Rate(TPR) và Fale Positve
Rate(FPR), Accuracy
42
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Giá trị AUC = 0.827 có nghĩa là trong 100 người thì có 83 cặp quan sát (1 người
có dự định học bậc sau đại học và 1 người không có dự định học) có xác suất dự
báo của người có dự định học bậc sau đại học lớn hơn xác suất của người không
có dự định học AUC dùng để đánh giá mô hình có phân loại hiệu quả hay không.
Ta thấy AUC nằm trong khoảng 0.6 – 0.7 => mô hình dự báo phân loại không
tốt.
43
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Kết luận: Từ những kết quả trên chúng tôi cũng có thể thấy điểm trung bình tích
lũy ở đại học có liên quan và ảnh hưởng đến việc có dự định học bậc sau đại học.
44
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Trong đó:
45
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Nhận xét: Khi tỷ lệ tốt nghiệp ở các trường đại học tăng lên điểm trung bình
SAT cũng tăng theo nên mối quan hệ giữ hai thuộc tính là đồng biến, tức là hệ
số được dự đoán của Graduation % mang giá trị dương.
Hình 35: Tính bằng công cụ Excel thông qua Data Analysis
- Tính toán lại và giải thích các giá trị:
SSR: tổng bình phương biến thiên độ lệch tiên lượng và giá trị trung bình
𝑆𝑆𝑅 = 𝑌− 𝑌
46
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
SSE: tổng bình phương biến thiên độ lệch tiên lượng và quan sát
𝑆𝑆𝐸 = 𝑌− 𝑌
SST: tổng bình phương biến thiên độ lệch quan sát và giá trị trung bình.
Adjusted R Square hay còn gọi là R bình phương hiệu chỉnh, nó cũng được
dùng tương tự như R Square. Trong thực tế người ta dùng Adjusted R Square nhiều
R Square. Vì Adjusted R Square có thêm các tham số n và k nên độ chính xác sẽ cao
hơn R Square. Adjusted R Square càng gần 1 thì mô hình hồi qui càng phù hợp.
𝑆𝑆𝐸
[𝑛 − (𝑘 + 1)]
Adjusted R2 = 1 −
𝑆𝑆𝑇
𝑛−1
MSR: trung bình chênh lệch tổng bình phương sai số giải thích được bằng
mô hình
MSE: trung bình chênh lệch tổng bình phương các phần dư
Các ma trận:
47
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
n n
nb 0 b1 x i y i
i 1 i 1
n n n
b 0 x i b1 x i x i y i
2
i 1 i 1 i 1
ax by e
cx dy f
a b e x
A
B X
c d f y
AX B X A 1 B
Standard Error (Sai số tiêu chuẩn của hồi quy): Sai số tiêu chuẩn của hồi quy
còn được gọi là sai số tiêu chuẩn của ước lượng , thể hiện khoảng cách trung bình mà
các giá trị quan sát rơi khỏi đường hồi quy. Các giá trị càng nhỏ sẽ càng tốt vì các
biến quan sát sẽ nằm gần đường hồi qui hơn.
df SS MS F Significane F
Regression k SSR MSR = SSR / k 𝑀𝑆𝑅 F.DIST.RT(F;k;n-
𝐹=
𝑀𝑆𝐸 (k+1))
48
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
df SS MS F Significane F
Regressio 1 MSR = SSR / k 𝐹 = = 0.000024259
𝑆𝑆𝑅 = 𝑌
n 𝑆𝑆𝑅 . 8392139932
𝑀𝑆𝑅 =
𝑘 .
− 𝑌 60011.5711124957
= 21.9414046510446
=
= 1
60011.5711124957 = 60011.5711124957
Regression
- Tìm phương trình hồi quy
Ma trận A
49
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 36: Tính toán bằng ma trận
Phương trình:
Bước 1: Tính Standard Error for Slope thông qua công thức:
Ta được:
50
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Ta được:
Hình 38: Kết quả khi tính Standard error của hệ số gốc.
Ta được kết quả:
Coefficients Standard Error
Intercept 867.931512 84.69323628
Graduation % 4.747084068 1.013432224
- t Stat
Bước 1: Tính t-Stat bằng công thức
𝐶𝑜𝑒𝑓𝑓𝑖𝑐𝑖𝑒𝑛𝑡𝑠
𝑡=
𝑆𝑡𝑎𝑛𝑑𝑎𝑟𝑑 𝐸𝑟𝑟𝑜𝑟
Ta được:
51
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Ta thu được
Coefficients Standard Error t Stat
Intercept 867.931512 84.69323628 10.24794364
Graduation % 4.747084068 1.013432224 4.68416531
- P-value:
Bước 1: Dùng hàm T.DIST.2T(t Stat; n-(k+1)) để tính giá trị p-value
52
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Regression Statistics
R2 𝑆𝑆𝑅 60011.5711124957
𝑅 = =
𝑆𝑆𝑇 188560.48979592
= 0.318261642072773
Multiple R 𝑅 = √0.318261642072773
= 0.564146826697423
Adjusted R2 𝑆𝑆𝐸
[𝑛 − (𝑘 + 1)]
Adjusted R2 = 1 −
𝑆𝑆𝑇
𝑛−1
128548.918683424
= 1− 47
188560.48979592
48
= 0.303756570627512
Trong đó:
R2 = 0.3182: 31.82% biến động của lương được giải thích bởi số năm kinh
nghiệm và điểm đánh giá năng lực
Trong bài toán trên, biến độc lập đưa vào ảnh hưởng 34.82% sự thay đổi
của biến phụ thuộc, còn lại 68.18% là do các biến ngoài mô hình và sai số
ngẫu nhiên.
53
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Với mức ý nghĩa 5%, kiểm đinh ý nghĩa thống kê của các tham số hồi quy trong
mô hình.
Giả thuyết:
H :β =0
H :β ≠0
Trị giới hạn
α df = n − (k + 1)
0.05 47
.
,
54
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Cách 1: t và t nằm ngoài khoảng (−2.012, 2.012) nên bác bỏ
H
Kết luận:
Có đủ bằng chứng để kết luận tỷ lệ tốt nghiệp (Graduation %) có ảnh
hưởng đến điểm tủng bình SAT (Median SAT) với mức ý nghĩa α =
0.05
- Khoảng ước lượng của các tham số hồi quy trong mô hình
Graduation %: β ∈ ( 4.74708406774471 ± 2.012 ∗
1.01343222401856)
Khoảng tin cậy 2.70805843301936< β <6.78610970247006
Kết luận:
Khi biến Graduation % tăng thì Median SAT cũng tăng.
- Với mức ý nghĩa 0.05, mô hình có phù hợp hay không?
Đặt giả thuyết:
H : β = 0 (R = 0): hệ số của tỷ lệ tốt nghiệp không giải thích cho
biến điểm trung bình SAT.
H :β ≠ 0 (R ≠ 0): hệ số của tỷ lệ tốt nghiệp giải thích cho biến
lương.
Trị giới hạn:
α df = k df = n − (k + 1)
0.05 1 47
F . , , = 4.047 trong bảng phân phối F.
Ta kiểm tra bằng excel thông qua hàm F.INV(1 - α , k, n − (k + 1) =
4.047
55
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 42: Tra F thông qua excel
56
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Bước 3: Dùng hàm lm và chọn các giá trị phù hợp để biểu diễn mô hình hồi
quy tuyến tính
Ta được:
58
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
c. Tính bằng Python
Bước 1: Import các thư viện cần thiêt
Hình 47: Hiển thị 5 dòng đầu tiên của tập dữ liệu
Bước 4: Lấy ra biến phụ thuộc Median SAT và biến độc lập Graduation %
59
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 48: Xây dựng mô hình với biến độc lập Graduation % và biến phụ thuộc
Median SAT
Bước 6: Lấy các giá trị thông dụng của mô hình hồi quy tuyến tính
Hệ số chắn
60
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
61
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
5. Hồi quy phi tuyến đa biến với dữ liệu thực tế tùy chọn về/của Việt Nam.
Phát biểu bài toán: Với độ tin cậy là 95% có thể tìm ra mối quan hệ giữa số
giường bệnh với số bác sĩ cũng như y sĩ của bệnh viện được hay không? Dữ liệu được
trình bày ở dưới:
62
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Trong đó:
- Số giường bệnh của bệnh viện phụ thuộc vào:
● Bác sĩ
● Y sĩ
⇨ Biến độc lập: Bác sĩ, Y sĩ.
⇨ Biến phụ thuộc: Số giường bệnh.
- Yêu cầu bài toán: Mức độ ảnh hưởng của số lượng bác sĩ và y sĩ của bệnh viện đến
số lượng giường bệnh.
- Mô hình hồi quy mẫu:
𝐺𝚤𝑢𝑜𝑛𝑔𝐵𝑒𝑛ℎ = 𝛽 + 𝛽 𝐵𝑎𝑐𝑆𝑖 + 𝛽 𝑌𝑠𝑖
63
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
b. Thực hiện phép tính Hồi quy phi tuyến đa biến trên MS Excel
-Bước 1 : Từ dữ liệu về y tế của Việt Nam năm 2014, ta tiến hành tính giá trị ln()
cho các biến độc lập BacSi, Ysi bằng hàm log() để thể hiện logarithm.- Bước 2:
Chọn Data -> Data analyst. Tiếp đó chọn Regression. Nhập các giá trị X, Y đầu
vào và vị trí hiện đáp án như sau.
● R square Adjusted = 0,5689 => R square > 50% nghiên cứu được đánh giá tốt.
● Vì giá trị p-Value = 0.038 < 0.05 và giá trị p-Value = 0.0456 < 0.05 . Nên mô
hình hồi quy phù hợp với tổng thể.
● Ta có mô hình:
GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)
● Kết luận:
Có đủ bằng chứng để kết luận hàm hồi quy phi tuyến phù hợp hay có hai biến
độc lập tác động đến biến phụ thuộc Y (Số giường bệnh).
● Mối quan hệ giữa Bác sĩ và giường bệnh
65
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Mối quan hệ giữa Bác sĩ và giường bệnh
66
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
67
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
c. Thực hiện phép tính Hồi quy phi tuyến đa biến trên R.
Một cách khác để quy cách hàm số phi tuyến là dùng hàm logarithm lên biến
Y/(và)X.
68
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 59: Kết quả mô hình hồi quy dạng Logarithm
o R square = 0.5813 => Có 58,13% dữ liệu phù hợp với mô hình
o R square Adjusted = 0,569 => R square > 50% nghiên cứu được đánh
giá tốt.
o Vì giá trị p-Value = 0.0379 < 0.05 và giá trị p-Value = 0.0356 <
0.05 => Từ chối H0. Nên mô hình hồi quy phi tuyến phù hợp với
tổng thể.
o Dựa vào bảng kết quả Coefficients
o Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các model.
▪ Ta có mô hình:
GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)
⇨ Kết luận: Chỉ cần tăng thêm 1 bác sĩ và y sĩ sẽ tăng được trung bình
12551 giường bệnh.
69
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 60: Kết quả mô hình hồi quy dạng Logarithm dạng 2
o R square = 0.5752 => Có 57,52% dữ liệu phù hợp với mô hình
o R square Adjusted = 0,5627 => R square > 50% nghiên cứu được đánh
giá tốt.
o Vì giá trị p-Value = 0.00775 < 0.05 và giá trị p-Value = 0.22033
< 0.05 => Từ chối H0. Nên mô hình hồi quy phi tuyến phù hợp
với tổng thể.
o Dựa vào bảng kết quả Coefficients
▪ Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các
model.
▪ Ta có mô hình:
Hình 61: Kết quả mô hình hồi quy dạng Logarithm dạng 3
o R square Adjusted = 0,9657 => R square > 50% nghiên cứu được đánh
giá tốt.
o Vì giá trị p-Value < 2e-16 và giá trị p-Value = 0.00026<0.05 =>
Từ chối H0. Nên mô hình hồi quy phi tuyến phù hợp với tổng
thể.
o Dựa vào bảng kết quả Coefficients
▪ Ta có mỗi Model đều có sig < 0.05. Nên ta chấp nhận tất cả các
model.
▪ Ta có mô hình:
72
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
73
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
d. Thực hiện phép tính Hồi quy phi tuyến đa biến trong Python
- Bước 1: Import thư viện.
- Bước 3: Tính hàm log cho các biến độc lập như BacSi và Ysi.
- Bước 4: Lấy ra biến phụ thuộc GiuongBenh và biến độc lập BacSi và YSi
74
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
- Bước 5: Dùng hàm Linear Regression() trong thư viện sklearn() để đưa ra mô
hình theo biến X và Y.
- Bước 6: Lấy các giá trị thông dụng của mô hình hồi quy tuyến tính
● Hệ số chắn
● Hệ số thành phần
- Bước 7: Xuất ra kết quả. Cú pháp xây dựng bảng thống kê.
75
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Kết quả:
● Ta có mô hình:
GiuongBenh = -162565 + 12576*ln(BacSi) + 12528*ln(YSi)
76
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
● Kết luận: Từ kết luận trên chúng tôi cũng đưa ra được là các yếu tố về con người
và cơ sở vật chất của bệnh viện đều có liên quan và ảnh hưởng đến nhau. Cho nên
để có một chất lượng tốt hơn cũng như là cải thiện số lượng giường bệnh tại bệnh
viện, chúng ta nên tăng số lượng về đội ngũ y tế như là bác sĩ, y sĩ…
6. Hồi quy Logistic với dữ liệu thực tế tùy chọn về/của Việt Nam
a. Phát biểu bài toán (hay vấn đề) cần giải quyết
Mặc dù cộng đồng thế giới nói chung cũng như Việt Nam nói riêng đã cho
thấy những tín hiệu ổn định trở lại trong đại dịch Covid-19, tuy nhiên mối nguy
hiểm từ dịch bệnh này vẫn chưa dừng lại, cụ thể số người tử vong trung bình trong
bảy ngày qua tại Việt Nam ghi nhận con số là 7 người.
Hình 64: Bảng số liệu thống kê số người tử vong tại Việt Nam trong vòng 6 tháng, với số liệu
trung bình ghi nhận trong 7 ngày gần nhất 1.
Dù vậy, nhịp sống tù động do Covid cũng không kém phần nguy hiểm bởi nó
ảnh hưởng gián tiếp đến nền kinh tế và xã hội của đất nước. Vì thế, Việt Nam cũng
đã có nhiều chính sách bình thường hóa: Vừa đi làm trực tiếp vừa đi làm online,
cho mở cửa các siêu thị chợ nhưng vẫn khuyến khích các dịch vụ đặt đồ tại nhà,
vừa đi học online vừa đi học offline. Mặc dù hiển nhiên, các hoạt động diễn ra tại
1
https://www.google.com/search?sxsrf=APq-WBsC6Bvix-
JIW9Nw16BojY_2X7bviQ:1650720995255&q=s%E1%BB%91+ng%C6%B0%E1%BB%9Di+t%E1%BB%AD+v%E1%BB%8
Dng+covid+vi%E1%BB%87t+nam+h%C3%B4m+nay&lco=en:1&lr=lang_en&lrs=0&sa=X&ved=2ahUKEwjamK70pqr3
AhUYyYsBHTC4A8QQ-PEFKAB6BAgCEDQ
77
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
nhà và online còn nhiều bất cập khiến hiệu suất công việc lẫn kết quả sẽ bị nhiều
ảnh hưởng, tuy nhiên, sự lo sợ về tính mạng con người vẫn còn là một rào cản lớn
cho các quyết định của cá nhân hoặc tổ chức.
Vậy vấn đề đặt ra nếu chúng ta có thể nhận biết được tuýp người thuộc dạng
nào thì có nguy cơ, xác suất tử vong cao ta sẽ có cơ sở vững chắc hơn để đưa ra
quyết định ít sai lầm hơn.
Vì thế trong nghiên cứu này nhóm chúng tôi tiến hành xem xét tác động của
tuổi tác đối với sự tử vong của người Việt Nam. Trước hết chúng tôi thực hiện với
quy mô nhỏ dựa trên dữ liệu các ca mắc Covid-19 của Đà Nẵng được ghi nhận lần
cuối vào lúc 9h - 23/9/2020 tại Cổng dịch vụ dữ liệu của thành phố Đà Nẵng2. Về
công cụ, chúng tôi sẽ phân tích hồi quy logistic trên số tuổi của các ca Covid được
ghi nhận và xem xét xác suất tử vong của từng độ tuổi là bao nhiêu. Vì thế trong
dữ liệu chúng tôi đã lọc và xử lý để tạo thành hai cột cần thiết là tuổi (Age), tình
trạng tử vong/đã khỏi bệnh (Status).
2
https://congdulieu.vn/dulieuchitiet/23242#
78
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Nêu các bước tiến hành và tính lại các giá trị trong bảng kết quả
b. Excel
Hình 66: Đầu tiên ta chọn Data Analysis, sau đó chọn Regression.
Hình 67: Tư bảng kết quả, ta lấy kết quả của hai hệ số intercept/age làm hệ số khởi tạo cho
phương trình tuyến tính của hàm log.
79
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 68: Dựa vào hệ số khởi tạo, ta lập phương trình tuyến tính, tính ra kết quả cho cột C.
Hình 69: Tiếp theo ta tính xác suất tử vong so với tuổi dựa trên phương trình tuyến tính được
khởi tạo.
Hình 10: Tiếp theo ta tính con số xác suất Likelihood dựa trên nhãn thực tế đã biết.
80
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 72: Sau đó ta tính tổng của tất cả giá trị của dòng log likelihood này.
Hình 73: Ta dùng công cụng Solver trong Analysis trong Data để cập nhật lại hệ số từ hai hệ số
đã khởi tạo.
81
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 74: Dòng “Set Objective” ta bỏ vào giá trị của tổng giá trị log likelihood, dòng "By Changing
Variable Cells" ta kéo hai vị trí hai giá trị hệ số cần cập nhật
Hình 75: Hai hệ số của hàm Logistic đã được cập nhật thành 0;0. Chi tiết phân tích sẽ trình bày
ở phần sau.
82
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
c. Bằng R
Hình 76: Đầu tiên ta đọc file csv và đính kèm giá trị vừa đọc vào chương trình bằng lệnh attach.
Hình 77: Tiếp theo ta dùng hàm glm để thực hiện hồi quy logistic, với biến phụ thuộc là Status
và biến độc lập là Age. Sau đó ta dùng lệnh summary để in ra bảng kết quả.
Hình 78: Bảng kết quả sau khi thực hiện hồi quy logistic.
Hình 79: Dùng các lệnh sau để vẽ đường cong logistic theo các hệ số vừa tìm được .
83
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 80: Biểu diễn các điểm dữ liệu và đường cong logistic.
d. Bằng Python
Hình 81: Cài đặt các thư viện cần thiết và đọc file dữ liệu vào chương trình.
Hình 82: Đọc dữ liệu vào một biến dạng numpy array. Ta cũng phải tiến hình reshape dữ liệu
của biến độc lập thành mảng hai chiều để phù hợp với đầu vào của thuật toán.
84
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 83: Tạo model bằng hàm LogisticRegression, sau đó tiến hành huấn luyện bằng lệnh fit với
hai đối số là X và y.
Hình 84: Sau đó ta in hai giá trị hệ số của mô hình đã học ra.
85
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 85: Bảng kết quả khi thực nghiệm trên ngôn ngữ R.
Khi thao tác với Python, chúng tôi nhận thấy với mỗi giá trị C khác nhau
ta thu được các hệ số khác nhau như sau:
86
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 87: Hệ số khi đặt C bằng 90 sẽ gần giống với kết quả khi thực nghiệm trên R.
với việc bất kì độ tuổi nào đưa vào khả năng tử vong cũng bằng 0 là khá hợp lý trên
những gì dữ liệu có được. Bởi chỉ có 8/247 trường hợp (theo hệ số mượn từ hai
phương pháp trên) bị phán đoán sai mà thôi còn lại 239 trường hợp vẫn được xem
là đúng trên mô hình có hệ số là (0,0) này.
Hình 88: Giá trị xác suất tử vong hay không phụ thuộc vào giá trị tuổi khi được áp dụng hệ số từ
hai phương pháp trước. Trong đó, dòng tô màu đỏ là dòng đầu tiên vượt ngưỡng 50%, dòng
xanh dương là dòng thử nghiệm chúng tôi đưa vào để xem ở mức tuối nào có khả năng 90% mắc
covid sẽ tử vong.
Từ kết luận trên chúng tôi cũng đưa ra được giải pháp để tăng tính khách
quan cũng như độ chính xác của mô hình đầu ra như sau: một là xem xét hệ số phạt
(regularization) để tránh được tình trạng mô hình chỉ nhìn được các trường hợp cụ
thể trên dữ liệu mà không có tính khách quan trên dữ liệu thực tế; hai là ta phải cố
gắng thu thập nhiều mẫu dữ liệu nhất có thể để mô hình không bị giới hạn trong một
phạm vi đặc tính cụ thể nào cả.
88
Phân tích dữ liệu kinh doanh – IS403.M22
Báo cáo Lab 3 – Nhóm 14
Hình 89: Khi tăng 1 tuổi khả năng ta bị tử vong do covid sẽ tăng 1,08 lần.
89
Phân tích dữ liệu kinh doanh – IS403.M22