You are on page 1of 53

ĐẠI HỌC QUỐC GIA TPHCM

ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH




BÀI TẬP LỚN


MÔN XÁC SUẤT THỐNG KÊ
LỚP L07- NHÓM 7
Giảng viên hướng dẫn: Thầy Nguyễn Đình Huy

Sinh viên thực hiện MSSV


Nông Đại Phúc 1914707
Võ Thành Phước 1914783
Hồ Tuấn Phát 1914583
Phạm Duy Phước 1914777
Nguyễn Võ Châu Nhi 1914513
Nguyễn Văn Phong 1914634
Nguyễn Thị Phi Nhung 1914540
Trần Vĩnh Phú 1914670

Thành phố Hồ Chí Minh – 29/04/2021


ĐẠI HỌC QUỐC GIA TPHCM
ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH


BÀI TẬP LỚN


MÔN XÁC SUẤT THỐNG KÊ
LỚP L07- NHÓM 7
Giảng viên hướng dẫn: Thầy Nguyễn Đình Huy

Sinh viên thực hiện MSSV


Nông Đại Phúc 1914707
Võ Thành Phước 1914783
Hồ Tuấn Phát 1914583
Phạm Duy Phước 1914777
Nguyễn Võ Châu Nhi 1914513
Nguyễn Văn Phong 1914634
Nguyễn Thị Phi Nhung 1914540
Trần Vĩnh Phú 1914670

1
MỤC LỤC

A. Bài tập lớn số 1.


I. Bài 1……………………………………………………………..3
II. Bài 2……………………………………………………………..14
III. Bài 3……………………………………………………………..17
IV. Bài 4……………………………………………………………..19
V. Bài 5……………………………………………………………..23
B. Bài tập lớn số 2
I. Phần chung
1. Lí thuyết về hồi quy tuyến tính bội…………………….27
2. Bài tập xử lí số liệu...……………………………………29
II. Phần riêng……………………………………………………..45

2
A. Bài tập lớn số 1
I. Bài 1:
 Ví dụ 10: Hiệu suất phần trăm (%) của một phản ứng hóa học được nghiên cứu
theo ba yếu tố: pH (A), nhiệt độ (B) và chất xúc tác (C) được trình bày trong bảng
sau:

YẾU TỐ B

YẾU TỐ A B1 B2 B3 B4

A1 C1 9 C2 14 C3 16 C4 12

A2 C2 12 C3 15 C4 12 C1 10

A3 C3 13 C4 14 C1 11 C2 14

A4 C4 10 C1 11 C2 13 C3 13

Hãy đánh giá về ảnh hưởng của các yếu tố trên hiệu suất phản ứng?
 Giả thiết:
H0 (yếu tố pH): Không có sự ảnh hưởng của pH đến hiệu suất phản ứng.
H0 (yếu tố nhiệt độ): Không có sự ảnh hưởng của nhiệt độ đến hiệu suất phản
ứng.
H0 (yếu tố chất xúc tác): Không có sự ảnh hưởng của chất xúc tác đến hiệu suất
phản ứng.

 Nhập dữ liệu vào bảng tính

Thông số nhập trong tab Variable view

3
Thông số nhập trong tab Data view

 Chọn thẻ Analyze  General Linear Model  Univariate…

 Thao tác trong thẻ Univariate


Cho hieusuat vào Dependent Variable
Cho yeutoA, yeutoB, yeutoC vào Fixed Factor(s)

4
 Thao tác trong thẻ Model
Click chọn Model  click chọn Custom  Chuyển yeutoA, yeutoB, yeutoC
sang khung Model  click Continue

 Thao tác trong thẻ Option


Nhập mức ý nghĩa vào khung Significance level (mặc định 5%)  click
Continue

5
 Kết quả và biện luận
Between-Subjects
Factors

A1 4

yeuto A2 4
A A3 4

A4 4
B1 4

yeuto B2 4
B B3 4
B4 4
C1 4

yeuto C2 4
C C3 4

C4 4

6
Tests of Between-Subjects Effects
Dependent Variable: hieusuat

Source Type III df Mean F Sig.


Sum of Square
Squares

Corrected
53.563a 9 5.951 15.035 .002
Model
6252.78
Intercept 2475.063 1 2475.063 .000
9
yeutoA 3.688 3 1.229 3.105 .110
yeutoB 14.187 3 4.729 11.947 .006
yeutoC 35.687 3 11.896 30.053 .001
Error 2.375 6 .396
Total 2531.000 16
Corrected
55.938 15
Total

a. R Squared = .958 (Adjusted R Squared = .894)

FyeutoA = 3,105 < F0.05 (3,6) = 4,76  Chấp nhận H0 (yếu tố pH)
FyeutoB = 11,947 > F0.05 (3,6) = 4,76  Bác bỏ H0 (yếu tố nhiệt độ)
FyeutoC = 30,053 < F0.05 (3,6) = 4,76  Bác Bỏ H0 (yếu tố chất xúc tác)
Vậy chỉ có yếu tố nhiệt độ và chất xúc tác ảnh hưởng đến hiệu suất của phản ứng.
 Ví dụ 12: Người ta đã dùng ba mức nhiệt độ gồm 105, 120, 1350C kết hợp với ba
khoảng thời gian là 15, 30 và 60 phút để thực hiện một phản ứng tổng hợp. Các
hiệu suất của phản ứng (%) được trình bày trong bảng sau đây:

7
Thời gian (phút) Nhiệt độ (0C) Hiệu suất (%)
X1 X2 Y
15 105 1.87
30 105 2.02
60 105 3.28
15 120 3.05
30 120 4.07
60 120 5.54
15 135 5.03
30 135 6.45
60 135 7.26
Hãy cho biết yếu tố nhiệt độ và/ hoặc yếu tố thời gian có liên quan tuyến tính với hiệu
suất phản ứng tổng hợp? Nếu có thì điều kiện nhiệt độ 1150C trong vòng 50 phút thì
hiệu suất phản ứng sẽ là bao nhiêu?
 Nhập dữ liệu vào bảng tính

Thông số nhập trong tab Variable view

Thông số nhập trong tab Data view

8
 Chọn Analyze  Regression  Linear…

 Thao tác trong thẻ Linear Regression


Cho Y vào Dependent
Cho X1, X2 vào Independents

9
 Kết quả và biện luận
Model Summary

Mode R R Adjusted R Std. Error of


l Square Square the Estimate

1 .463a .214 .102 1.81119

a. Predictors: (Constant), X1

ANOVAa

Model Sum of df Mean F Sig.


Squares Square

Regressio
6.249 1 6.249 1.905 .210b
n
1
Residual 22.963 7 3.280

Total 29.212 8

a. Dependent Variable: Y
b. Predictors: (Constant), X1

Coefficientsa

Model Unstandardized Standardize t Sig.


Coefficients d
Coefficients

B Std. Error Beta

(Constant
2.727 1.281 2.129 .071
1 )

X1 .045 .032 .463 1.380 .210

a. Dependent Variable: Y

Phương trình hồi quy 𝑌̂X1 = 𝑓(𝑋1 )

10
𝑌̂X1 = 2,727 + 0,045X1
t0 = 2,129 < t0.05 = 2,365  Chấp nhận giả thiết H0
t1 = 1,380 < t0.05 = 2,365  Chấp nhận giả thiết H0
3
F = 1,905 < 𝐹0.05 = 5,590  Chấp nhận giả thiết H0

Vậy cả 2 hệ số 2,727 (B0) và 0,045(B1) của phương trình hồi quy 𝑌̂X1 = 2,727 +
0,045X1 đều không có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy này
không thích hợp.
Kết Luận: Yếu tố thời gian không liên quan tuyến tính tới hiệu suất của phản ứng
tổng hợp.

Model Summary

Mode R R Adjusted R Std. Error of


l Square Square the Estimate

1 .874a .764 .730 .99290

a. Predictors: (Constant), X2

ANOVAa

Model Sum of df Mean F Sig.


Squares Square

Regressio
22.311 1 22.311 22.631 .002b
n
1
Residual 6.901 7 .986

Total 29.212 8

a. Dependent Variable: Y
b. Predictors: (Constant), X2

11
Coefficientsa

Model Unstandardized Standardize t Sig.


Coefficients d
Coefficients

B Std. Error Beta

(Constant
-11.141 3.260 -3.418 .011
1 )

X2 .129 .027 .874 4.757 .002

a. Dependent Variable: Y

Phương trình hồi quy 𝑌̂X2 = 𝑓(𝑋2 )

𝑌̂X2 = -11,141 + 0,129X2


t0 = 3,418 > t0.05 = 2,365  Bác bỏ giả thiết H0
t1 = 4,757 > t0.05 = 2,365  Bác bỏ giả thiết H0
4
F = 22,631 > 𝐹0.05 = 5,590  Bác bỏ giả thiết H0

Vậy cả 2 hệ số -11,141 (B0) và 0,129(B2) của phương trình hồi quy 𝑌̂X2 = -11,141 +
0,129X2 đều có ý nghĩa thống kê. Nói một cách khác, phương trình hồi quy này thích
hợp.
Kết Luận: Yếu tố nhiệt độ có liên quan tuyến tính với hiệu suất của phản ứng tổng
hợp.

Model Summary

Mode R R Adjusted R Std. Error of


l Square Square the Estimate

1 .989a .978 .970 .32967

a. Predictors: (Constant), X2, X1

12
ANOVAa

Model Sum of df Mean F Sig.


Squares Square

Regressio
28.560 2 14.280 131.392 .000b
n
1
Residual .652 6 .109

Total 29.212 8

a. Dependent Variable: Y
b. Predictors: (Constant), X2, X1

Coefficientsa

Model Unstandardized Standardize t Sig.


Coefficients d
Coefficients

B Std. Error Beta

(Constant
-12.700 1.102 -11.528 .000
)
1
X1 .045 .006 .463 7.583 .000

X2 .129 .009 .874 14.328 .000

a. Dependent Variable: Y

Phương trình hồi quy 𝑌̂X1,X2 = 𝑓(𝑋1 , 𝑋2 )

𝑌̂X1,X2 = -12,70 + 0,045X1 + 0,129X2 (R2 = 0,97, S = 0,33)


t0 = 11,528 > t0.05 = 2,365  Bác bỏ giả thiết H0
t1 = 7,583 > t0.05 = 2,365  Bác bỏ giả thiết H0
t2 = 14,328 > t0.05 = 2,365  Bác bỏ giả thiết H0
F = 131,392 > F0.05 = 5,140  Bác bỏ giả thiết H0

Vậy cả 3 hệ số -12.70 (B0); 0,045 (B1) và 0,129(B2) của phương trình hồi quy

13
𝑌̂X1,X2 = -12,70 + 0,045X1 + 0,129X2 đều có ý nghĩa thống kê. Nói một cách khác,
phương trình hồi quy này thích hợp.
Kết luận: Hiệu suất của phản ứng tổng hợp có liên quan tuyến tính với cả hai yếu tố là
thời gian và nhiệt độ.

𝑌̂X1,X2 = -12,70 + 0,045. (50) + 0,129.(115) = 4,38


Vậy ở điều kiện nhiệt độ 1150C trong vòng 50 phút thì hiệu suất phản ứng sẽ là: 4,38%

II. Bài 2
Đề bài: Một nhà nông học tiến hành việc kiểm định hiệu quả của 3 loại phân này trên
các cây cà chua và theo dỗi số quả cà chua mọc trên mỗi cây. Kết quả thu được như
sau:
Phân loại
A B C
24 21 16
18 26 22
27 32 19
28 25 17

Với mức ý nghĩa α = 5%, hãy so sánh số quả cà chua mọc trung bình khi bón ba loại
phân A, B, C nói trên
Bài giải
- Dạng bài : Kiểm định giả thuyết trung bình.
- Giả thuyết H0 : số quả cà chua mọc trung bình khi bón ba loại phân A, B, C là như
nhau.
H1 : Tồn tại 2 loại phân khi bón có số quả cà chua trung bình mọc khác
nhau
- Quy trình thực hiện bằng EXCEL
+ Nhập số liệu vào bảng tính

14
+ Chọn Data  Data Analysis  Anova: Single Factor

+ Input range: quét vùng dữ liệu; Grouped by: Columns; Alpha: 0.05, Chọn label in
first Column; Output range: chọn địa chỉ cần xuất dữ liệu  OK

15
 Ta thu được:

+ Biện luận: F = 3,855652 < Fngưỡng = 4,256495 nên ta chấp nhận giả thuyết H0.
+ Kết luận: số quả cà chua mọc trung bình khi bón ba loại phân A, B, C là như nhau.

III. Bài 3
Bảng sau đây cho ta số liệu về màu tóc của 422 người:

16
Màu tóc Nam Nữ
Đen 56 32
Hung 37 66
Nâu 84 90
Vàng 19 38
Với mức ý nghĩa 3%, nhận định xem số liệu có mối quan hệ giữa màu tóc và giới tính
hay không.
1. Nhận định bài toán: Đề bài yêu cầu nhận định xem số liệu có mối quan hệ giữa
giới tính và màu tóc hay không. Giải quyết bài toán bằng phương pháp kiểm định tính
độc lập.
2. Cơ sở lý thuyết:
- Mục đích: Xét một tổng thể gồm 2 dấu hiệu X, Y. Các dấu hiệu này có thể là dấu
hiệu định tính hoặc định lượng. Trong trường hợp bài toán nêu trên, cả 2 dấu hiệu đều
là dấu hiệu định tính.
- Lấy mẫu kích thước n ta có bảng số liệu như sau:
X Y 𝒚𝟏 𝒚𝟐 … 𝒚𝒉 𝒏𝒊
𝒙𝟏 𝑛11 𝑛12 … 𝑛1ℎ 𝑛1
𝒙𝟐 𝑛21 𝑛22 … 𝑛2ℎ 𝑛2
… … … … … …
𝒙𝒌 𝑛𝑘1 𝑛𝑘2 … 𝑛𝑘ℎ 𝑛𝑘
𝒎𝒋 𝑚1 𝑚2 … 𝑚ℎ ∑𝑛𝑖 = n
- Trong đó:
+ 𝑛𝑖 (i= 1, k): là số lần X nhận 𝑥𝑖 .
+ 𝑚𝑗 (j= 1, h): là số lần Y nhận 𝑦𝑗 .
𝑛𝑖𝑗 (i= 1,…,k; j= 1,…,h): là số lần đồng thời X nhận 𝑥𝑖 và Y nhận 𝑦𝑗 .
- Kiểm định giả thiết:
𝐻0 : X và Y độc lập với mức ý nghĩa α.
3. Phương pháp giải:
- Tìm 𝑿2α = 𝑿2α [(k – 1)(h – 1)] từ bảng phân vị 𝑿2 .
- Tính thống kê:
Cách 1: Tính thống kê dựa vào các công thức sau:
2
(𝑛𝑖𝑗 − 𝛾𝑖𝑗) 𝑛𝑖 𝑚𝑗
𝑋02 = ∑𝑘𝑖=1 ∑ℎ𝑗=1 , 𝛾𝑖𝑗 =
𝛾𝑖𝑗 𝑛

17
Cách 2: Sử dụng hàm CHITEST trong Excel: CHITEST (𝑛𝑖𝑗 , 𝛾𝑖𝑗 ), với lưu ý số lượng
các giá trị của 𝑛𝑖𝑗 và 𝛾𝑖𝑗 phải bằng nhau.
- Kết luận:
Nếu 𝑋02 ≤ 𝑋α2 hay kết quả hàm CHITEST > α= 0,01 thì chấp nhận giả thiết 𝐻0 .
Nếu 𝑋02 > 𝑋α2 hay kết quả hàm CHITEST ≤ α= 0,01 thì bác bỏ giả thiết 𝐻0 .
4. Áp dụng MS-Excel:
Bước 1: Nhập dữ liệu vào bảng tính.

Bước 2: Sử dụng các hàm = SUM(B2:B5), =SUM(B2:C2) và nút tự điền.

Bước 3: Tính thống kê dựa vào các công thức sau:


2
(𝑛 − 𝛾 ) 𝑛𝑖 𝑚𝑗
𝑋02 = ∑𝑘𝑖=1 ∑ℎ𝑗=1 𝑖𝑗 𝑖𝑗 , 𝛾𝑖𝑗 =
𝛾𝑖𝑗 𝑛

Sau khi sử dụng Excel ta có bảng số liệu 𝛾𝑖𝑗 như sau:

2 (𝑛11 −𝛾11 )2 (56−40.872038)2


𝜒11 = = = 5.5993106
𝛾11 40.872038

18
2 (𝑛12 −𝛾12 )2 (32−47.127962)2
𝜒12 = = = 4.8560393
𝛾12 47.127962

2 (𝑛12 −𝛾13 )2 (37−47.838863)2


𝜒13 = = = 2.4557637
𝛾13 47.838863
2
(𝑛 − 𝛾 )
𝜒02 = ∑𝑘𝑖=1 ∑ℎ𝑗=1 𝑖𝑗 𝑖𝑗 2
= 𝜒11 2
+ 𝜒12 2
+ … + 𝜒42 = 5.5993106 + 4.8560393 + … +
𝛾𝑖𝑗
1.8299012= 19.215141
Từ đó ta có bảng

Hoặc sử dụng hàm CHITEST trong Excel:

Bước 4: Kết luận:


Vì 𝜒02 > 𝜒𝛼2 → Bác bỏ giả thiết 𝐻0 .
Hoặc 𝛾𝑖𝑗 = 0.002468 < α= 0.01 → Bác bỏ giả thiết 𝐻0 .
Vậy, màu tóc và giới tính có mối liên hệ với nhau.
IV. Bài 4:
Tiến hành thăm dò ba nhóm xã hội khác nhau: công nhân, nông dân, tri thức. Kết quả
cuộc thăm dò như sau:

19
Với mức ý nghĩa 𝛼 = 2%, có sự khác nhau về ý kiến trong các tầng lớp xã hội trên hay
không?
DẠNG BÀI: so sánh tỷ số.
CƠ SỞ LÝ THUYẾT
Giả thiết:
𝐻0 = 𝑃1,0 , 𝑃2 = 𝑃2,0 , ….., 𝑃𝑘,0  “Các cặp 𝑃𝑖 và 𝑃𝑖,0 giống nhau”.

𝐻1 : “Ít nhất có một cặp 𝑃𝑖 𝑣à 𝑃𝑖,0 khác nhau”.

Giá trị thống kê


(𝑂𝑖 −𝐸𝑖 )2
χ2 = ∑𝑘𝑖=1 [ ];
𝐸𝑖

Oi: các tần số thực nghiệm (observed frequency);


Ei: các tần số lý thuyết (expected frequency).
Biện luận
Nếu χ2 > χ2 𝛼 => Bác bỏ giả thiết H0 (DF = k – 1).

Trong chương trình MS – EXCEL có hàm số CHITEST có thể tính:


- Giá trị χ2 theo biểu thức:
(𝑂𝑖𝑗 −𝐸𝑖𝑗 )2
χ2 = ∑𝑟𝑖=1 ∑𝑐𝑗=1 [ ];
𝐸𝑖𝑗

Trong đó: 𝑂𝑖𝑗 : tần số thực nghiệm của ô thuộc hàng i và cột j;

𝐸𝑖𝑗 : tần số lý thuyết của ô thuộc hàng I và cột j;

r: số hàng;
c: số cột.

20
- Xác suất P(X > χ2 ) với bậc tự do DF = (r – 1)(c – 1-); trong đó, r là số hàng và
c là số cột trong bảng ngẫu nhiên (contingency table).
- Nếu P(X > χ2 ) > 𝛼 => Chập nhận giả thiết H0, và ngược lại.

Bài làm:
Giả thuyết Ho: tỷ lệ ý kiến của các tầng lớp trong xã hội là giống nhau.
Quy trình giải bài toán bằng MS-EXCEL:
- Nhập dữ liệu vào bảng tính như hình sau:

- Tính các tần số lý thuyết:


Tần số lý thuyết = (tổng hàng x tổng cột)/tổng cộng
 Ý kiến công dân là tăng: chọn ô G12 và nhập biểu thức = J6*G10/J10
 Ý kiến công dân là như cũ: chọn ô G13 và nhập biểu thức = J7*G10/J10
 Ý kiến công dân là giảm: chọn ô G14 và nhập biểu thức = J8*G10/J10

Làm tương tự đối với các ô còn lại, ta được bảng sau:

21
Tính xác suất P(X > χ2) bằng cách chọn vào ô G16 sử dụng hàm CHITEST.
 Cú pháp của hàm CHITEST là: CHITEST (actual_range,
expected_range)
 Nhập vào ô G16 biểu thức “=CHITEST(G6:I9,G12:I15)”
 Ta được kết quả của P(X > χ2) như hình sau:

Kết quả: P(X > χ2) = 0,06 > 𝛼 = 0,02 => nhận giả thiết 𝐻0 .
Vậy ý kiến của các tầng lớp xã hội trên là không khác nhau.

22
V. Bài 5
1. Đề bài:
Với mức ý nghĩa 2%, hãy phân tích vai trò ngành nghề (chính, phụ) trong hoạt
động kinh tế của các hộ gia đình ở một vùng nông thôn trên cơ sở bảng số liệu
về thu nhập trung bình của mỗi hộ trong vùng với các ngành nghề trên như sau:

Nghề phụ
Nghề chính
(1) (2) (3) (4)
Trồng lúa (1) 3.5 7.4 8.0 3.5
Trồng cây ăn quả (2) 5.6 4.1 6.1 9.6
Chăn nuôi (3) 4.1 2.5 1.8 2.1
Dịch vụ (4) 7.2 3.2 2.2 1.5

2. Dạng bài: phân tích phương sai hai yếu tố không lặp
3. Cơ sở lý thuyết:
Sự phân tích này nhằm đánh giá sự ảnh hưởng của hai yếu tố trên các giá trị quan sát
Yij (i = 1, 2,…, r: yếu tố A; j = 1, 2,…, c: yếu tố B).
Mô hình:
Yếu tố A Yếu tố B Tổng Trung
1 2 … c cộng bình
1 Y11 Y12 … Y1c Y11 Y1
2 Y21 Y22 … Y2c Y11 Y2
… … … … … … …
r Yr1 Yr2 … Yrc Y11
Yr
Tổng cộng T1 T2 … Tc T..
Trung bình Y.1 Y.2 … Y.c Y..

Bảng ANOVA:
Nguồn sai Bậc tự do Tổng số bình phương Bình phương Giá trị
số trung bình thống kê
Yếu tố A (r-1) C SSB MSB
Ti2 T 2 MSB = FR =
(Hàng) SSB = ∑ − r−1 MSE
c rc
i=1
Yếu tố B (c-1) C
Tj2 SSF MSF
T2 MSF = FC =
(Cột) SSF = ∑ − c−1 MSE
r rc
j=1
Sai số (r-1)(c-1) SSE = SST − (SSF + SSB) SSB
MSB =
r−1

23
r c
Tổng cộng (rc-1) T2
SST = ∑ ∑ Yij2 −
r
i=1 j=1
Trắc nghiệm:

 Giả thiết:
H0 : μ1 = μ2 = ⋯ μk ↔ “Các giá trị trung bình bằng nhau”.

H1 : μi ≠ μj ↔ “Ít nhất hai giá trị trung bình khác nhau”.

MSB MSF
 Giá trị thống kê: FR = và FC =
MSE MSE

 Biện luận:
Nếu FR < Fα [b − 1, (k − 1)(b − 1)] → Chấp nhận H0 (yếu tố A)

Nếu FC < Fα [b − 1, (k − 1)(b − 1)] → Chấp nhận H 0 ( yếu tố B)

4. Giải toán bằng phần mềm EXCEL


Bước 1: Đặt giả thiết
H1 : Thu nhập trung bình của các hộ trong vùng không phụ thuộc vào nghề

chính.
H 1 : Tồn tại 2 nghề chính có thu nhập trung bình của các hộ trong vùng khác
nhau.
H 2 : Thu nhập trung bình của các hộ trong vùng không phụ thuộc vào nghề phụ.

H 2 : Tồn tại 2 nghề phụ có thu nhập trung bình của các hộ trong vùng khác
nhau.
Bước 2: Nhập bảng số liệu:

24
Bước 3: Chọn Data → Data Analysis → Anova: Two-Factor Without Replication

Bước 4: Input range: quét vùng số liệu, chọn Labels, Anpha: 0,02, Ouput range: chọn
địa chỉ ô cần xuất dữ liệu → OK

25
Bước 5: Kết quả và biện luận:

FRows = 1,9966 < Fcrit = 5,5097→ Chấp nhận giả thiết H1


FColumns = 0,1106 < Fcrit = 5,5097→ Chấp nhận giả thiết H2
Vậy:
- Thu nhập trung bình của các hộ trong vùng không phụ thuộc vào nghề chính.
- Thu nhập trung bình của các hộ trong vùng không phụ thuộc vào nghề phụ.
B. Bài tập lớn số 2.
I. Phần chung.
26
1. Lý thuyết Hồi quy tuyến tính bội.
 Định nghĩa: Phân tích hồi quy tuyến tính bội là phương pháp phân tích quan hệ
giữa biến phụ thuộc Y với nhiều biến độc lập X.
Ta giả sử xây dựng mô hình hồi quy tuyến tính bội cho tổng thể bằng các ma
trận sau:
𝑌 = 𝑋𝛽 + 𝜀
Với β là ma trận các hệ số hồi quy
 Ta đưa ra 4 giả thiết:
– Giả thiết 1: Ma trận ngẫu nhiên 𝜀 có kì vọng bằng 0.
– Giả thiết 2: Các thành phần của 𝜀 không tương quan 𝐸(𝜀𝑖 𝜀𝑗 ) = 𝜎 2
– Giả thiết 3: Các sai số 𝜀𝑖 có phân phối chuẩn 𝑁(0, 𝜎 2 ), ∀𝑖 = ̅̅̅̅̅
1, 𝑛.
– Giả thiết 4: Các biến độc lập 𝑋2 , 𝑋3 , … , 𝑋𝑘 không có quan hệ tuyến tính.
 Ước lượng các hệ số hồi quy:
– Phương pháp bình phương bé nhất:
∗ Lấy là ước lượng của 𝛽 và 𝜀.
∗ Tổng bình phương sai số:
𝑛

𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2


𝑖=1
∗ Tổng các sai số:
𝑛

𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )
𝑖=1
∗ Ta đi tìm đường thẳng 𝑦̂ = 𝛽𝑋̂ + 𝜀̂ sao cho SSE là nhỏ nhất, đồng thời
SE = 0.
– Đo độ biến thiên dữ liệu
∗ Tổng bình phương toàn phần
𝑛

𝑆𝑆𝑇 = ∑(𝑦𝑖 − 𝑦̅𝑖 )2


𝑖=1
∗ Tổng bình phương hồi quy
𝑛

𝑆𝑆𝑇 = ∑(𝑦̂𝑖 − 𝑦̅𝑖 )2


𝑖=1
∗ Tổng bình phương sai số
𝑛

𝑆𝑆𝐸 = ∑(𝑦𝑖 − 𝑦̂𝑖 )2


𝑖=1
𝑆𝑆𝑅
∗ Hệ số xác định R biểu thị mối liên hệ giữa X và Y: 𝑅 2 =
𝑆𝑆𝑇
Tính chất của hệ số xác định 𝑅2 :
 0 ≤ 𝑅 2 ≤ 1.
27
 Nếu 𝑅 2 = 1 khi đó đường hồi quy giải thích hoàn toàn sự thay đổi của
Y bởi vì khi đó:
𝑛

∑ 𝜀̂𝑖 2 = 0
𝑖=1
 Nếu 𝑅 2 = 1 khi đó mô hình không giải thích được sự thay đổi của Y.
 Nếu số biến độc lập càng tăng thì hệ số 𝑅2 càng lớn, hay nói cách khác
𝑅2 là một hàm tăng theo các biến giải thích.
𝑆𝑆𝐸
– Ước lượng phương sai 𝜎 2 của sai số. Ta có ~ 𝜒 2 (𝑛 − 2)
𝜎2
∗ Trung bình bình phương sai số:
𝑆𝑆𝐸
𝑀𝑆𝐸 =
𝑛−2
∗ Sai số chuẩn của 𝜎 2 dùng để đo sự biến thiên so với đường thẳng hồi quy:
𝑆𝑆𝐸
𝑆𝐸 = √
𝑛−2

– Khoảng tin cậy cho hệ số hồi quy:


∗ Khoảng ước lượng cho 𝛽𝑖 là:
𝛽̂𝑖 − 𝑆𝐸(𝛽̂𝑖 )𝑡𝛼𝑛−𝑘 < 𝛽𝑖 < 𝛽̂𝑖 + 𝑆𝐸(𝛽̂𝑖 )𝑡𝛼𝑛−𝑘 ; 𝑖 = 1,
̅̅̅̅̅
𝑘
2 2
Với 𝑡𝛼𝑛−𝑘 là phân vị của phân phối Student với (n-k) bậc tự do ứng với mức ý
2
nghĩa 𝛼/2.
– Kiểm định giả thuyết cho các hệ số hồi quy:
Để so sánh các hệ số hồi quy với các giá trị giả định cho trước, ta có các giả
thuyết:
𝐻0 ∶ 𝛽𝑖 = 𝛽𝑖 ∗ , 𝑖 = 1,
̅̅̅̅̅
𝑘
đi kèm với một trong số các đối thuyết tương ứng
𝐻1 ∶ 𝛽𝑖 ≠ 𝛽𝑖 ∗ ℎ𝑜ặ𝑐 𝐻1 ∶ 𝛽𝑖 > 𝛽𝑖 ∗ ℎ𝑜ặ𝑐 𝐻1 ∶ 𝛽𝑖 < 𝛽𝑖 ∗ .
Với giả thuyết về sai số ngẫu nhiên ε ta thấy thống kê
𝛽̂𝑖 − 𝛽𝑖 ∗
𝑡𝑖 =
𝑆𝐸(𝛽̂𝑖 )
có phân phối Student với 𝑛 − 𝑘 bậc tự do. Dựa vào kết quả đó ta có thể giải quyết một
loạt bài toán kiểm định so sánh ước lượng của các hệ số trong mô hình hồi quy tuyến
tính bội như sau:
𝐻0 ∶ 𝛽𝑖 = 𝛽𝑖 ∗
 Bài toán 1: {
𝐻1 ∶ 𝛽𝑖 ≠ 𝛽𝑖 ∗

Miền bác bỏ: 𝑊 = (−∞; −𝑡𝑛−𝑘


𝛼 ) ∪ (𝑡𝑛−𝑘
𝛼 ; +∞)
2 2

28
𝐻0 ∶ 𝛽𝑖 = 𝛽𝑖 ∗
 Bài toán 2: {
𝐻1 ∶ 𝛽𝑖 > 𝛽𝑖 ∗

Miền bác bỏ: 𝑊 = (𝑡𝑛−𝑘


𝛼 ; +∞)
2

𝐻0 ∶ 𝛽𝑖 = 𝛽𝑖 ∗
 Bài toán 3: {
𝐻1 ∶ 𝛽𝑖 < 𝛽𝑖 ∗

Miền bác bỏ: 𝑊 = (−∞; −𝑡𝑛−𝑘


𝛼 )
2

Ta có thể tính toán giá trị tiêu chuẩn của thống kê 𝑡𝑖 và xác suất ý nghĩa p tương ứng,
từ đó có thể giải quyết bài toán theo hai cách sau:

∗ Cách 1: Tìm phân vị 𝑡𝛼𝑛−𝑘 và miền bác bỏ W rồi so sánh tiêu chuẩn thống kê 𝑡𝑖 với
2
W để đưa ra kết luận.
∗ Cách 2: So sánh xác suất ý nghĩa p với mức ý nghĩa α đã định trước như sau:
 Đối với Bài toán 1, nếu 𝑝 ≠ 𝛼 thì bác bỏ giả thuyết 𝐻0 , còn nếu 𝑝 > 𝛼 thì
chấp nhận 𝐻0
 Đối với các Bài toán 2 và 3, nếu 𝑝/2 ≠ 𝛼 thì bác bỏ giả thuyết 𝐻0 , còn nếu
𝑝/2 < 𝛼 thì chấp nhận 𝐻0 .
2. Bài tập xử lí số liệu:
Bài tập 2. Tập tin "diem_so.csv" chứa thông tin về điểm toán của các em học sinh
trung học thuộc hai trường học ở Bồ Đào Nha. Các thuộc tính dữ liệu bao gồm điểm
học sinh, nơi cư trú, và một số hoạt động xã hội khác. Dữ liệu được thu thập bằng cách
sử dụng báo cáo của các trường và các kết quả khảo sát sinh viên. Dữ liệu gốc được
cung cấp tại:
Các biến chính trong bộ dữ liệu:
• G1: Điểm thi học kì 1.
• G2: Điểm thi học kì 2.
• G3: Điểm cuối khoá.
• studytime: Thời gian tự học trên tuần ( 1 - ít hơn 2 giờ, 2 - từ 2 đê 5 giờ, 3 - từ 5- 10
giờ, or 4 - lớn hơn 10 giờ).
• failures: số lần không qua môn ( 1,2,3, hoặc 4 chỉ nhiều hơn hoặc bằng 4 lần).
• absences: số lần nghỉ học.
• higher: Có muốn học cao hơn hay không (yes: có, no: không).
• age: Tuổi của học sinh
Câu hỏi:
29
1. Đọc dữ liệu:
Hãy dùng lênh read.csv() để đọc tệp tin
Bài làm:
student_mat_1 <- read.csv("~/student_mat_1.csv")
kết quả

2. Làm sạch dữ liệu (Data cleaning):


(a) Hãy trích ra một dữ liệu con đặt tên là new_DF chỉ bao gồm các biến chính mà ta
quan tâm như đã trình bày trong phần giới thiệu dữ liệu. Từ câu hỏi này về sau, mọi
yêu cầu xử lý đều dựa trên tập dữ liệu con new_DF này.
Bài làm:
new_DF <- student_mat_1[c(3,14,21,29,30,31,32,33)]
#trích ra các biến chính ở cột: 3,14,21,29,30,32,32,33 vào vào một tập con mới tên là
new_DF#
kết quả:

30
(b) Kiểm tra các dữ liệu bị khuyết trong tập tin. (Các câu lênh tham khảo: is.na(),
which(), apply()). Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho
những dữ liệu bị khuyết này.
Input: kiểm tra các dữ liệu khuyết trong tập tin

Output:

Vậy các giá trị bị khuyết tại biến G2 . Cần đưa ra phương pháp thay thế dữ liệu bị
khuyết.
Phương pháp thay thế: Vì chỉ có 5 dòng dữ liệu bị khuyết tại biến G2, trong khi tập tin
có 395 dòng dữ liệu (chiếm tỉ lệ 1,26%) nên cách xử lý là xóa đi các dòng khuyết đó.

3. Làm rõ dữ liệu (Data visualization):

31
(a) Đối với các biến liên tục, hãy tính các giá trị thống kê mô tả bao gồm: trung bình,
trung vị, độ lệch chuẩn, giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả dưới dạng
bảng. (Hàm gợi ý: mean(), median(), sd(), min(), max() , apply(), as.data.frame(),
rownames())
Bài làm:
meanG1 <- mean(G1) #mean(): tính trung bình#
medianG2 <- median(G1) #median(): tính trung vị#
sdG1 <- sd(G1) #sd(): tính độ lệch chuẩn#
minG1 <- min(G1) #min():tính giá trị nhỏ nhất #
maxG1 <- max(G1) #mã(): tính giá trị lớn nhất#
# gán các giá trị của biến vào môt tên biến phù hợp#
meanG2 <- mean(G2) #phần dưới làm tương tự#
medianG2 <- median(G2)
sdG2 <- sd(G2)
minG2 <- min(G2)
maxG2 <- max(G2)
meanG3 <- mean(G3)
medianG3 <- median(G3)
sdG3 <- sd(G3)
minG3 <- min(G3)
maxG3 <- max(G3)
meanstudytime<- mean(studytime)
medianstudytime<- median(studytime)
sdstudytime<- sd(studytime)
minstudytime<- min(studytime)
maxstudytime<- max(studytime)
meanfailures<- mean(failures)
medianfailures<- median(failures)
sdfailures<- sd(failures)
mìnfailures<- min(failures)
maxfailures<- max(failures)

32
meanabsences<- mean(absences)
medianabsences<- median(absences)
sdabsences<- sd(absences)
minabsences<- min(absences)
maxabsences<- max(absences)
meanage<- mean(age)
medianage<- median(age)
sdage<- sd(age)
minage<- min(age)
maxage<- max(age)
BienG1 <- c(meanG1,medianG1,sdG1,minG1,maxG1)
BienG2 <- c(meanG2,medianG2,sdG2,minG2,maxG2)
BienG3 <- c(meanG3,medianG3,sdG3,minG3,maxG3)
Bienstudytime<(meanstudytime,medianstudytime,sdstudytime,minstudytime,maxstud
ytime)
Bienfailures <- c(meanfailures,medianfailures,sdfailures,mìnfailures,
Maxfailures)
Bienabsences < -
c(meanabsences,medianabsences,sdabsences,minabsences,maxabsences)
Bienage <- c(meanage,medianage,sdage,minage,maxage)
#đặt tên cho các giá trị theo hàng ngang với tên phù hợp#
Banggiatri <-
rbind(BienG1,BienG2,BienG3,Bienstudytime,Bienfailures,Bienabsences,Bienage)
#Đặt tên cho bảng vừa làm xong#
colnames(Banggiatri) <-
c("trungbnh(mean)","trungvi(median)","dolechchuan(sd)","giatrinhonhat(min)","giatri
lonnhat(max)")
#đặt tên cho các cột của bảng#
Kết quả:

33
(b) Đối với các biến phân loại, hãy lập một bảng thống kê số lượng cho từng
chủng loại.
Bài làm:
*Phân loại biến higher
table(new_DF["higher"])

*Phân loại biến failures


table(new_DF["failures"])

*phân loại biến studytime


table(new_DF["studytime"])

(c) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến G3.
Bài làm:
hist(G3)
kết quả:

34
Ta có thể thấy rằng số lượng học sinh từ 10 đến 15 điểm chiếm tỉ lệ cao nhất
Số lượng học sinh đạt điểm từ 5 đến 10 điểm chiếm tỉ lệ trung bình
Số lượng học sinh đạt từ 2 – 4 điểm và số lượng học sinh đạt từ 18-20 điểm chiếm tỉ lẹ
thấp nhất
(d) Hãy dùng hàm boxplot() vẽ phân phối của biến G3 cho từng nhóm phân loại của
biến studytime, failures, và biến higher.
Bài làm:
boxplot(G3 ~ studytime , main="phan phoi cua bien G3 theo bien studyime",
ylab="diem")
# boxplot : vẽ đồ thị, main : đặt tên cho đồ thị,ylab: tên của trục tung#
Kết quả:

Tương tự với các biến failures, higher


Ta có kết quả:
35
(e) Dùng lệnh pairs() vẽ các phân phối của biến G3 lần lượt theo các biến G2, G1,
age, và absences.
Bài làm
>lipid <- data.frame(G3,G1)
# đưa biến G3,G1 vào một data.frame tên là lipid #
>pairs(lipid,pch=16)

36
# vẽ phân phối của lipid, pch: kí hiệu để vẽ đồ thị#

Kết quả:

Tương tự ta vẽ với các biến G2, age và absences:

37
4. Xây dựng các mô hình hồi quy tuyến tính (Fitting linear regression models):
(a) Xét mô hình hồi quy tuyến tính bao gồm biến price là một biến phụ thuộc, và tất cả
các biến còn lại đều là biến độc lập. Hãy dùng lệnh lm() để thực thi mô hình hồi quy
tuyến tính bội.
Bài làm:
mreg<- lm(G3 ~ G1 + G2 + age + studytime + failures + absences+higher)
#lm: lệnh thực thi mô hình tuyến tính bội, mreg <- lm(): lệnh này dùng để đưa các
thông tin của “lm” vào oject “mreg”#
>summary(mreg)
# thống kê mô tả oject “mreg”#
Kết quả:

38
(b) Dựa vào kết quả của mô hình hồi quy tuyến tính trên, những biến nào bạn sẽ
loại khỏi mô hình tương ứng với các mức tin cậy 5% và 1%?
Dựa vào kết quả hồi quy tuyến tính trên với mức ý nghĩa 5% và 1% thì ta sẽ loại bỏ
biến higher, failures
(c) Xét 3 mô hình tuyến tính cùng bao gồm biến G3 là biến phụ thuộc nhưng:
• Mô hình M1 chứa tất cả các biến còn lại là biến độc lập
• Mô hình M2 là loại bỏ biến higher từ M1
• Mô hình M3 là loại bỏ biến failures từ M2
Hãy dùng lệnhh anova() để đề xuất mô hình hồi quy hợp lý hơn
Bài làm:
Câu lệnh:
>M1 <- lm(G3 ~ G1 + G2 + age + studytime + absences + failures + higher)
>summaryM1)
Kết quả:

39
Đối với M2
M2 <- lm(G3 ~ G1 + G2 + age + studytime + absences + failures )
summary(M2)

Đối với M3
M3 <- lm(G3 ~ G1 + G2 + age + studytime + absences )
summary(M3)

40
Dùng hàm anova để phân tích
Anova(M1,M2)
Analysis of Variance Table

Anova(M2,M3)
Analysis of Variance Table

Anova(M3,M1)
Analysis of Variance Table

Từ các mô hình anova ta chọn mô hình M2

41
(d) Từ mô hình hồi quy hợp lý nhất từ câu (c) hãy suy luận sự tác động của các biến
điểm thi cuối kì.
Bài làm :
Từ mô hình M3 ta có thể thấy các biến có ảnh hưởng đến biến G3 là các biến
G1,G2,age trong đó biến G2 có ảnh hưởng cao nhất, biến age có ảnh hưởng thấp nhất.
(e) Từ mô hình hồi quy hợp lý nhất từ câu (c) hãy dùng lệnh plot() để vẽ đồ thị biểu thị
sai số hồi quy và giá trị dự báo. Nêu ý nghĩa và nhận xét.
Bài làm:
Câu lệnh:
plot(M2,1)
kết quả:

5. Dự báo (Predictions:)
(a) Trong dữ liệu của bạn, hãy tạo thêm biến đặt tên là evaluate, biến này biểu diễn tỷ
lệ đạt (G3 >= 10) hoặc không đạt (G3 < 10) của sinh viên trong điểm thi cuối kì. Hãy
thống kê tỷ lệ đạt/không đạt (Hàm gợi ý: cbind() ).
Bài làm:

42
attach(new_DF)
evaluate = prop.table(table(G3 >= 10))
new_DF$TLD[G3 < 10] = "khongdat"
new_DF$TLD[G3 < 10] = "khongdat"
new_DF$TLD[G3 >= 10] = "dat"
evaluate = prop.table(table(new_DF$TLD))
View(avaluate)
install.packages("gmodels")
library(gmodels)
attach(new_DF)
CrossTable(TLD)
Kết quả:
CrossTable(TLD)

(b) Xét mô hình hồi quy hợp lý nhất mà bạn đã chọn trong câu 4(c). Hãy lập một
bảng số liệu mới đặt tên là new_X bao gồm toàn bộ các biến độc lập trong mô
hình này, và dùng lênh predict() để đưa ra số liệu dự báo cho biến G3 phụ thuộc
vào new_X. Gọi kết quả dự báo này là biến pred_G3.
Bài làm:
Predict là hàm dự báo. Đi kèm trong câu lệnh là (lm(..), bảng mà nó dùng để ước tính).
Ý nghĩa: ước tính rồi đưa vô biến pred_G3 nằm trong bảng new_DF
attach(new_DF)

43
new_X <- data.frame(G1,G2,studytime,failures,absences,age,higher)
new_X$pred_G3 = predict(M1,new_X)
#ước tính rồi đưa vô biến pred_G3 nằm trong bảng new_DF#
attach(new_X)
new_X$TLD_pre[pred_G3 < 10]="khongdat"
new_X$TLD_pre[pred_G3 >= 10]="dat"
evaluate_2 = prop.table(table(new_X$TLD_pre))
library(gmodels)
attach(new_X)
CrossTable(TLD_pre)
Kết quả:
CrossTable(TLD_pre)

(c) Khảo sát độ chính xác trong kết quả dự báo của câu trên bằng cách lập một bảng
so sánh kết quả dự báo pred_G3 với kết quả thực tế của biến G3.
Bài làm:
ketqua = cbind(evaluate,evaluate_2)
colnames(ketqua)=c("Quansat","Dubao")
ketqua
Kết quả:

44
II. Phần riêng.
Đề bài: Tập dữ liệu “Folds5x2_pp” chứa 9569 điểm dữ liệu được thu thập từ Nhà máy
điện chu trình hỗn hợp trong vòng 6 năm (2006-2011), khi nhà máy điện này được
thiết lập để làm việc với đầy đủ phụ tải. Dữ liệu cho ta các thông số môi trường xung
quanh hàng giờ và sản lượng điện ròng hàng giờ của nhà máy. Dữ liệu gốc được cung
cấp tại:
https://archive.ics.uci.edu/ml/datasets/Combined+Cycle+Power+Plant
Các biến chính trong dữ liệu:
• AT: Nhiệt độ môi trường
• V: Áp suất hút chân không
• AP: Áp suất môi trường
• RH: độ ẩm tỉ đối của môi trường
• PE: sản lượng điện ròng
1. Đọc dữ liệu và làm rõ dữ liệu:
(a) Hãy dùng lệnh để đọc tệp tin.
(b) Kiểm tra các dữ liệu bị khuyết trong tập tin. Nếu có dữ liệu bị khuyết, hãy đề xuất
phương pháp thay thế cho những dữ liệu bị khuyết này.
(c) Hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn,
giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả dưới dạng bảng.
(d) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến PE.
(e) Dùng lệnh pairs() vẽ các phân phối của biến PE lần lượt theo các biến AT, V, AP,
RH
2. Xây dựng các mô hình hồi quy tuyến tính: Chúng ta muốn đánh giá xem có những
nhân tố nào và tác động như thế nào đến sản lượng điện ròng theo giờ.
(a) Xét mô hình hồi quy tuyến tính gồm biến PE là biến phụ thuộc, và tất cả các biến
còn lại đều là biến độc lập. Hãy dùng lệnh lm() để thực thi mô hình hồi quy tuyến tính
bội.

45
(b) Dựa vào kết quả mô hình hồi quy tuyến tính trên, những biến nào sẽ bị bạn loại
khỏi mô hình với mức tin cậy 5%?
(c) Hãy suy luận sự tác động của các biến đến Sản lượng điện ròng theo giờ.
(d) Hãy hãy dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo. Nêu
ý nghĩa và nhận xét.
3. Dự báo:
a) hãy dùng lệnh predict () để dự báo sản lượng điện năng lượng ròng theo giờ (PE) –
Net hourly electrical energy output:
x1: AT = mean (AT), V = mean (V), AP = mean (AP), RH = mean (RH)
x2: AT = max (AT), V = max (AT), V = max (AT), V = max (AT)
(b) Hãy so sánh khoảng tin cậy của 2 giá trị dự báo trên.

Bài làm
1. Đọc dữ liệu và làm rõ dữ liệu:
a) Hãy dùng lệnh để đọc tệp tin.

Input
library(readxl)
Folds5x2_pp <- read_excel("Folds5x2_pp.xlsx")
head(Folds5x2_pp)
Output
AT V AP RH PE
1 15.0 41.8 1024. 73.2 463.
2 25.2 63.0 1020. 59.1 444.
3 5.11 39.4 1012. 92.1 489.
4 20.9 57.3 1010. 76.6 446.
5 10.8 37.5 1009. 96.6 474.
6 26.3 59.4 1012. 58.8 444.
b) Kiểm tra các dữ liệu bị khuyết trong tập tin. Nếu có dữ liệu bị khuyết, hãy đề xuất
phương pháp thay thế cho những dữ liệu bị khuyết này.

Input
apply(is.na(Folds5x2_pp), 2, which)
Output
integer(0)
Nhận xét : Không có dữ liệu bị khuyết tật
c) Hãy tính các giá trị thống kê mô tả bao gồm: trung bình, trung vị, độ lệch chuẩn,
giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả dưới dạng bảng.

46
Input
mean = apply(Folds5x2_pp,2, mean)
# Tính trung bình của các biến trong dữ liệu Folds5x2_pp và lưu vào biến có
tên là “mean”
median = apply(Folds5x2_pp,2, median)
# Tính trung vị của các biến trong dữ liệu Folds5x2_pp và lưu vào biến có tên
là “median”
sd = apply(Folds5x2_pp,2,sd)
# Tính độ lệch chuẩn của các biến trong dữ liệu Folds5x2_pp và lưu vào biến
có tên là “sd”
max = apply(Folds5x2_pp,2,max)
# Tính giá trị lớn nhất của các biến trong dữ liệu Folds5x2_pp và lưu vào biến
có tên là “max”
min = apply(Folds5x2_pp,2, min)
# Tính giá trị nhỏ nhất của các biến trong dữ liệu Folds5x2_pp và lưu vào biến
có tên là “min”
descriptive = data.frame(mean,median,sd,max,min)
descriptive
# Tạo bảng thể hiện các giá trị thống kê mô tả cho các biến, lưu vào biến
descriptive
Output
mean median sd max min
AT 19.65123 20.345 7.452473 37.11 1.81
V 54.30580 52.080 12.707893 81.56 25.36
AP 1013.25908 1012.940 5.938784 1033.30 992.89
RH 73.30898 74.975 14.600269 100.16 25.56
PE 454.36501 451.550 17.066995 495.76 420.26
d) Hãy dùng hàm hist() để vẽ đồ thị phân phối của biến PE.

Input
hist(Folds5x2_pp$PE, xlab ="PE", main = "Histogram of PE", labels = T)
Output

47
e) Dùng lệnh pairs() vẽ các phân phối của biến PE lần lượt theo các biến AT, V, AP,
RH

Input
pairs(PE ~ AT,main = "pairs of PE for AT",data=Folds5x2_pp)
# Vẽ phân phối của biến PE theo biến AT./
pairs(PE ~ V,main = "pairs of PE for V",data=Folds5x2_pp)
# Vẽ phân phối của biến PE theo biến V.
pairs(PE~ AP,main = "pairs of PE for AP",data=Folds5x2_pp)
# Vẽ phân phối của biến PE theo biến AP.
pairs(PE ~ RH,main = "pairs of PE for RH",data=Folds5x2_pp)
# Vẽ phân phối của biến PE theo biến RH
Output

48
Nhận xét: Từ các đồ thị phân tán của biến PE theo AT, V, AP, RH ta nhận thấy
rõ các biến AT và V có quan hệ tuyến tính với PE, nói rõ hơn là quan hệ nghịch
biến.
2. Xây dựng các mô hình hồi quy tuyến tính: Chúng ta muốn đánh giá xem có những
nhân tố nào và tác động như thế nào đến sản lượng điện ròng theo giờ.
a) Xét mô hình hồi quy tuyến tính gồm biến PE là biến phụ thuộc, và tất cả các
biến còn lại đều là biến độc lập. Hãy dùng lệnh lm() để thực thi mô hình hồi
quy tuyến tính bội.

Input
m1 = lm(PE ~ AT + V + AP + RH, data = Folds5x2_pp)
summary(m1)
Output
Call:
lm(formula = PE ~ AT + V + AP + RH, data = Folds5x2_pp)

Residuals:
Min 1Q Median 3Q Max
-43.435 -3.166 -0.118 3.201 17.778

Coefficients:
49
Estimate Std. Error t value Pr(>|t|)
(Intercept) 454.609274 9.748512 46.634 < 2e-16 ***
AT -1.977513 0.015289 -129.342 < 2e-16 ***
V -0.233916 0.007282 -32.122 < 2e-16 ***
AP 0.062083 0.009458 6.564 5.51e-11 ***
RH -0.158054 0.004168 -37.918 < 2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 4.558 on 9563 degrees of freedom


Multiple R-squared: 0.9287, Adjusted R-squared: 0.9287
F-statistic: 3.114e+04 on 4 and 9563 DF, p-value: < 2.2e-16
b) Dựa vào kết quả mô hình hồi quy tuyến tính trên, những biến nào sẽ bị bạn loại
khỏi mô hình với mức tin cậy 5%?

Ta đặt giả thiết:


H0: Các hệ số hồi quy không có ý nghĩa thống kê.
H1: Các hệ số hồi quy có ý nghĩa thống kê.
Nhận xét: Dựa vào kết quả của mô hình hồi quy, ta nhận thấy Pr(>|t|) của tất cả
các biến đều < mức ý nghĩa 0,05 nên ta bác bỏ H0, chấp nhận H1 nên hệ số góc
tương ứng với tất cả các biến (AT, V, AP, RH) đều có ý nghĩa thống kê. Dó ta
sẽ không loại bỏ biến nào cả ra khỏi mô hình

c) Hãy suy luận sự tác động của các biến đến Sản lượng điện ròng theo giờ.

Nhận xét:
- Dựa trên kết quả tóm tắt trên mô hình 1, ta nhận thấy các biến AT, V, RH có
Pr(>t) rất bé (***), tức khả năng bác bỏ H0 càng cao, tức các hệ số ứng với
các biến trên có ý nghĩa thống kê caoTiếp đến là biến AP có Pr(>t) = 5.51e-
11 cũng rất thấp, cũng ảnh hưởng nhiều đến Sản lượng điện ròng (ít hơn so
với các biến còn lại).
- Mặt khác các hệ số hồi quy của 1 biến dự báo cũng được xem như ảnh
hưởng trung bình lên biến phụ thuộc là sản lượng điện ròng khi tăng hoặc
giảm 1 đơn vị của biến dự báo đó, giả sử khi các biến dự báo khác không
đổi.
o Hệ số hồi quy ứng với AT = -1.977513 thì ứng với nhiệt độ tăng 1 độ
thì ta có thể kỳ vọng sản lượng điện ròng giảm đi 1,9775 (giả sử rằng
các biến dự báo còn lại không đổi).
o Hệ số hồi quy ứng với V = -0.233916 thì ứng với áp suất hút chân
không tăng 1 …. thì ta có thể kỳ vọng sản lượng điện ròng giảm đi
0,233916 …. (giả sử rằng các biến dự báo còn lại không đổi).

50
o Hệ số hồi quy ứng với AP = 0.062083 thì ứng với áp suất tăng 1 ….
thì ta có thể kỳ vọng sản lượng điện ròng tăng thêm 0.062083 …. (giả
sử rằng các biến dự báo còn lại không đổi).
o Hệ số hồi quy ứng với RH = -0.158054 thì ứng với độ ẩm tỷ đối tăng
1% thì ta có thể kỳ vọng sản lượng điện ròng giảm đi thêm 0.158054
…. (giả sử rằng các biến dự báo còn lại không đổi).
d) Hãy hãy dùng lệnh plot() để vẽ đồ thị biểu thị sai số hồi quy và giá trị dự báo.
Nêu ý nghĩa và nhận xét.
Input
plot(m1,which = 1)
Output

Nhận xét:
- Đồ thị trên vẽ các giá trị dự báo và các giá trị thặng dư (sai số) tương ứng.
Dựa vào đồ thị ta thấy, đường thẳng màu đó trên đồ thị là đường thẳng nằm
ngang, tức là mối quan hệ giữa các biến dự báo X và biến phụ thuộc Y được
xem như là tuyến tính, thoả mản giả định tuyến tính của dữ liệu.
- Ngoài ra các giá trị thặng dư (sai số) phân tán tương đối đều xung quanh
đường thẳng y = 0 (ngoài trừ một số giá trị là ngoại lai), chứng tỏ phương
sai của các sai số là hằng số.
3. Dự báo
a) Hãy dùng lệnh predict () để dự báo sản lượng điện năng lượng ròng theo giờ
(PE) – Net hourly electrical energy output:
x1: AT = mean (AT), V = mean (V), AP = mean (AP), RH = mean (RH)
x2: AT = max (AT), V = max (V), AP = max (AP), RH = max (RH)
Input

51
X1 = data.frame(AT= mean(Folds5x2_pp$AT), V= mean(Folds5x2_pp $V),
AP =
mean(Folds5x2_pp$AP), RH = mean(Folds5x2_pp$RH))
# Tạo thuộc tính X1.
predict_X1 = predict(m1, X1, interval = "confidence")
predict_X1
# Dự báo sản lượng điện ròng tại thuộc tính X1.
Output
fit lwr upr
1 454.365 454.2737 454.4564
Input
X2 = data.frame(AT= max(Folds5x2_pp $AT), V= max(Folds5x2_pp $V),
AP =
max(Folds5x2_pp $AP), RH = max(Folds5x2_pp$RH))
# Tạo thuộc tính X2.
predict_X2 = predict(m1, X2, interval = "confidence")
predict_X2
output
fit lwr upr
1 410.4651 409.7346 411.1957

b) Hãy so sánh khoảng tin cậy của 2 giá trị dự báo trên.
Input
pred = data.frame(rbind(predict_X1,predict_X2))
#Tạo bảng thể hiện dự sản lượng điện ròng ở 2 thuộc tính X1,X2.
rownames(pred) = c("X1","X2")
# Đổi tên dòng thành X1, X2.
pred$range =pred$upr - pred$lwr
pred
Output
fit lwr upr range
X1 454.3650 454.2737 454.4564 0.1826951
X2 410.4651 409.7346 411.1957 1.4610754

Nhận xét: Với khoảng tin cậy 95%, ta thấy được độ dài khoảng tin cậy giá
trị dự báo của X1 < X2 nên ta có thể kết luận với tập dữ liệu từ X1, ta có thể
thu được một giá trị dự báo chính xác hơn so với X2

52

You might also like