You are on page 1of 61

ĐẠI HỌC QUỐC GIA TP.

HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC BÁCH KHOA
KHOA KHOA HỌC ỨNG DỤNG



BÀI TẬP LỚN

MÔN HỌC: XÁC SUẤT VÀ THỐNG KÊ


(MT2013)

GVHD: Nguyễn Kiều Dung

TP.HCM, ngày... tháng 4 năm 2022


BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Sinh viên thực hiện


Nhóm: CK06
Khoa: Cơ Khí

Sinh viên thực hiện MSSV Lớp


Bùi Duy Nhựt 2014060 L13
Lư Hữu Thuận 2014646 L13
Nguyễn Thành Chung 2012742 L13
Nguyễn An Khang 2013427 L13
Tô Nghĩa Nhân 2013982 L07

1
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

MỤC LỤC
PHẦN ĐỀ BÀI ...............................................................................................................4
Hoạt động 1 (phần chung) .......................................................................................4
Hoạt động 2 (Khoa cơ khí): .....................................................................................5
NỘI DUNG BÁO CÁO .................................................................................................6
1. Cơ sở lí thuyết .....................................................................................................6
1.1. Giới thiệu mô hình hồi quy tuyến tính bội ..................................................6
1.2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội ......................7
1.2.1. Hàm hồi quy tổng thể (PRF – Population Regression Function) ...........7
1.2.2. Hàm hồi quy mẫu (SRF – Sample Regression Function): .....................7
1.2.3. Phương pháp bình phương nhỏ nhất (Ordinary Least Squares).............8
1.2.3.1. Các giả thiết của phương pháp bình phương nhỏ nhất cho mô hình
hồi quy tuyến tính bội ....................................................................................8
1.2.3.2. Ước lượng .........................................................................................9
1.2.4. Độ phù hợp của mô hình ......................................................................10
1.2.5. Khoảng tin cậy và kiểm định các hệ số hồi quy...................................11
1.2.5.1. Ước lượng khoảng tin cậy đối với các hệ số hồi quy .....................11
1.2.5.2. Kiểm định giả thiết đối với βj .........................................................11
1.2.6. Kiểm định ý nghĩa của mô hình ...........................................................12
1.3. Sơ lược về P (P-value)...............................................................................13
2. Hoạt động 1 .......................................................................................................14
2.1. Nhập và làm sạch dữ liệu: .........................................................................14
2.1.1. Nhập dữ liệu: ........................................................................................14
2.1.2. Làm sạch dữ liệu: .................................................................................15
2.1.2.1. Kiểm tra và xử lí dữ liệu khuyết : ...................................................15
2.2. Thống kê mô tả cho các biến: ....................................................................19
2.3. Chia bộ dữ liệu làm hai phần: ...................................................................23
2.4. Chọn mô hình để giải thích cho biến “mpg” .............................................24
2.5. Kiểm tra các giả định (giả thiết) của mô hình: ..........................................28
2.5.1. Nhắc lại các giả định: ...........................................................................28
2.5.2. Kiểm tra các giả định: ..........................................................................29
2.6. Ý nghĩa của mô hình đã chọn: ...................................................................32
2.7. Thực hiện dự báo (Prediction): .................................................................33
2.8. So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của “mpg”: .....34

2
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

3. Hoạt động 2 .......................................................................................................35


3.1. Nhập và làm sạch dữ liệu: .........................................................................35
3.1.1. Nhập dữ liệu: ........................................................................................35
3.1.2. Làm sạch dữ liệu: .................................................................................36
3.1.2.1. Kiểm tra và xử lí dữ liệu khuyết : ...................................................36
3.1.2.2. Tìm và xử lí dữ liệu ngoại lai:.........................................................37
3.2. Thống kê mô tả cho các biến .....................................................................39
3.3. Chọn mô hình để giải thích cho biến “windmill_generated_power” ........43
3.4. Kiểm tra các giả định (giả thiết) của mô hình: ..........................................46
3.4.1. Nhắc lại các giả định: ...........................................................................46
3.4.2. Kiểm tra các giả định: ..........................................................................46
3.5. Ý nghĩa của mô hình đã chọn: ...................................................................49
3.6. Thực hiện dự báo (Prediction) ...................................................................50
3.6.1. Xây dựng thuộc tính X1, X2: ...............................................................50
3.7. Mô hình ANOVA ......................................................................................51
3.7.1. Thực hiện kiểm tra giả định phân phối chuẩn:.....................................51
3.7.2. Thực hiện kiểm tra giả định tính đồng nhất của phương sai ................56
TÀI LIỆU THAM KHẢO...........................................................................................60

3
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

PHẦN ĐỀ BÀI
Hoạt động 1 (phần chung)

Dữ liệu được cho trong file “auto-mpg.csv” là bộ dữ liệu tiêu thụ nhiên liệu của
xe trong thành phố. Dữ liệu được lấy từ UCI Machine Learning Repository
(https://archive.ics.uci.edu/ml/datasets/Auto+MPG). Bộ dữ liệu gồm 398 quan
trắc trên 9 biến sau:

 “mpg”: (continuous) mức tiêu thụ nhiên liệu tính theo dặm trên galon
(miles/gallon);
 “cylinder”: (multi-valued discrete) số xy lanh;
 “displacement”: (continuous) kích thước động cơ;
 “horsepower”: (continuous) công suất động cơ;
 “weight”: (continuous) khối lượng;
 “acceleration”: (continuous) gia tốc xe;
 “model_year”: (multi-valued discrete) năm sản xuất model (2 số cuối);
 “origin”: (multi-valued discrete) nơi sản xuất: 1-North American, 2-Europe, 3-
Asia;
 “car name”: (multi-valued discrete) tên xe;

Yêu cầu:
1. Nhập và “làm sạch” dữ liệu (lưu ý, biến “horsepower” có 6 quan trắc thiếu dữ
liệu; xét xem có dữ liệu ngoại lai không?), thực hiện các thống kê mô tả. (chú ý các cột
của file “auto-mpg.csv” được phân tách bởi dấu “;”, khi đọc file dữ liệu dùng lệnh
“read.csv” cần thêm sep = “;”)
2. Chia bộ dữ liệu làm 2 phần: mẫu huấn luyện (training dataset) gồm 200 quan
trắc đặt tên “auto_mpg1” và mẫu kiểm tra (validation dataset) gồm các quan trắc còn
lại trong bộ dữ liệu ban đầu đã “làm sạch”, đặt tên “auto_mpg2”
3. Chọn mô hình tốt nhất giải thích cho biến phụ thuộc “mpg” thông qua việc
chọn lựa các biến độc lập phụ hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện

4
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

“auto_mpg1”. Cần trình bày từng bước phương pháp chọn, tiêu chuẩn chọn mô hình,
lý do chọn phương pháp đó.
4. Kiểm tra các giả định (giả thiết) của mô hình.
5. Nêu ý nghĩa của mô hình đã chọn.
6. Dự báo (Prediction): Sử dụng mẫu kiểm tra (validation dataset) “auto_mpg2”
và dựa vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biến phụ thuộc
“mpg”. Gọi kết quả dự báo này là biến “predict_mpg”.
7. So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của “mpg”. Rút ra
nhận xét?

Hoạt động 2 (Khoa cơ khí):

Tệp tin train_data chứa các thông số về điều kiện môi trường, cấu tạo và năng
lượng tạo ra từ các máy xoay gió. Dữ liệu được cung cấp tại trang web:
https://www.kaggle.com/synergystud/a-fine-windy-day-hackerearth-ml-
challenge
Các biến chính trong bộ dữ liệu:
 wind_speed: Tốc độ gió
 area_temperature: Nhiệt độ môi trường
 motor_torque: Công suất động cơ
 blade_breadth: chiều rộng cánh quạt
 turbine_status: Loại turbine
 could_level: Cấp độ mây
 windmill_generated_power: Năng lượng tạo ra từ cối xây gió
Yêu cầu:
1. Đọc dữ liệu (Import data):
2. Làm sạch dữ liệu (Data cleaning):
3. Làm rõ dữ liệu (Data visualization): Thống kê mô tả, dùng thống kê mẫu và dùng
đồ thị.
4. Mô hình hồi quy tuyến tính: phân tích các nhân tố ảnh hưởng đến năng lượng tạo
ra từ cối xây gió.
5. Dự báo: Thực hiện dự báo cho năng lượng gió tạo ra ở hai thuộc tính:

5
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

+ X1: wind_speed = mean(wind_speed), area_temperature = mean(area_temperature),


motor_torque=mean(motor_torque),blade_breadth=mean(blade_breadth),cloud_le
vel = “Low”.
+ X2: wind_speed = max(wind_speed), area_temperature = max(area_temperature),
motor_torque=max(motor_torque),blade_breadth=max(blade_breadth),cloud_leve
l = “Low”.
6. Mô hình anova: so sánh năng lượng gió trung bình tạo ra từ cối xây gió ở các điều
kiện cấp độ mây. Từ đó chỉ ra điều kiện cấp độ mây như thế nào có thể tạo ra
lượng gió tốt nhất.

NỘI DUNG BÁO CÁO

1. Cơ sở lí thuyết

Hồi quy chính là một phương pháp thống kê để thiết lập mối quan hệ giữa một
biến phụ thuộc và một nhóm tập hợp các biến độc lập. Mô hình với một biến phụ
thuộc với hai hoặc nhiều biến độc lập được gọi là hồi quy bội (hay còn gọi là hồi quy
đa biến).
Ví dụ: Chi tiêu của hộ gia đình về thực phẩm phụ thuộc vào quy mô hộ gia đình,
thu nhập, vị trí địa lý,…; Tỷ lệ tử vong trẻ em của một quốc gia phụ thuộc vào thu
nhập bình quân đầu người, trình độ giáo dục,…; Lương của một người phụ thuộc vào
chức vụ, kinh nghiệm, độ tuổi,…

1.1. Giới thiệu mô hình hồi quy tuyến tính bội

Mô hình hồi quy tuyến tính bội có dạng tổng quát như sau:
Y = β 1 + β 2 X2 + β 3 X3 + … + β k Xk + u
Trong đó:Y: biến phụ thuộc
Xi: biến độc lập
β1: hệ số tự do
βi: hệ số hồi quy riêng. βi đo lường tác động riêng phần của biến Xi lên Y
với điều kiện các biến số khác trong mô hình không đổi. Cụ thể hơn, nếu các biến khác
trong mô hình không đổi, giá trị kỳ vọng của Y sẽ tăng βi đơn vị nếu Xi tăng 1 đơn vị
u: sai số ngẫu nhiên.

6
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Như vậy, "Hồi quy tuyến tính" là một phương pháp để dự đoán giá trị biến phụ
thuộc (Y) dựa trên giá trị của biến độc lập (X). Thuật ngữ tuyến tính dùng để chỉ rằng
bản chất của các thông số của tổng thể β1 và βi là tuyến tính (bậc nhất). Nó có thể được
sử dụng cho các trường hợp chúng ta muốn dự đoán một số lượng liên tục. Ví dụ: dự
đoán thời gian người dùng dừng lại một trang nào đó hoặc số người đã truy cập vào
một website nào đó v.v... Bằng dữ liệu thu thập được, ta đi ước lượng hàm hồi quy của
tổng thể, đó là ước lượng các tham số của tổng thể: β1, β2,…, βk

1.2. Ước lượng các tham số của mô hình hồi quy tuyến tính bội
1.2.1. Hàm hồi quy tổng thể (PRF – Population Regression Function)
Với Y là biến phụ thuộc, X2, X3,…, Xk là biến độc lập, Y là ngẫu nhiên và có
một phân phối xác suất nào đó. Suy ra: Tồn tại E(Y|X2, X3,…, Xk) = giá trị xác định.
Do vậy, F(X2, X3,…, Xk) = E(Y|X2, X3,…, Xk) là hàm hồi quy tổng thể của Y theo X2,
X3,…, Xk.
Với một cá thể i, tồn tại (X2,i, X3,i, …, Xk,i, Yi)
Ta có: Yi ≠ F(X2, X3,…, Xk) ⇒ ui = Yi – F
Do vậy: Yi = E(Y|X2, X3,…, Xk) + ui
Hồi quy tổng thể PRF:

 Y = E(Y|X) + U
 E(Y|X) = F(X)

1.2.2. Hàm hồi quy mẫu (SRF – Sample Regression Function):


Do không biết tổng thể, nên chúng ta không biết giá trị trung bình tổng thể của
biến phụ thuộc là đúng ở mức độ nào. Do vậy chúng ta phải dựa vào dữ liệu mẫu để
ước lượng.
̂ = F̂(X2, X3,…, Xk) là hồi quy mẫu.
Trên một mẫu có n cá thể, gọi Y
Với một cá thể mẫu Yi ≠ F̂(X2,i, X3,i,…, Xk,i) sinh ra ei = Yi – F̂(X2, X3,…, Xk); ei
gọi là phần dư SRF.
Ta có hàm hồi quy mẫu tổng quát được viết dưới dạng như sau:
ŷi = β̂1 + β̂2x2,i + β̂3x3,i + … + β̂kxk,i
Phần dư sinh ra: ei = yi – ŷi
Ký hiệu: β̂m là ước lượng của βm. Chúng ta trông đợi β̂m là ước lượng không
chệch của βm, hơn nữa phải là một ước lượng hiệu quả.
7
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Ước lượng SRF: chọn một phương pháp nào đó để ước lượng các tham số của F
qua việc tìm các tham số của F̂ và lấy giá trị quan sát của các tham số này làm giá trị
xấp xỉ cho tham số của F.

1.2.3. Phương pháp bình phương nhỏ nhất (Ordinary Least Squares)
Phương pháp bình phương nhỏ nhất được đưa ra bởi nhà Toán học Đức Carl
Friedrich Gauss. Tư tưởng của phương pháp này là cực tiểu tổng bình phương của các
phần dư. Do đó có thể nói để có được hồi quy thích hợp nhất, chúng ta chọn các ước
lượng có tung độ gốc và độ dốc sao cho phần dư là nhỏ.

1.2.3.1. Các giả thiết của phương pháp bình phương nhỏ nhất cho mô
hình hồi quy tuyến tính bội

Phương pháp bình phương nhỏ nhất (OLS) là phương pháp rất đáng tin cậy trong
việc ước lượng các tham số của mô hình, tuy nhiên mô hình ước lượng phải thỏa mãn
7 giả thiết. Khi thỏa mãn các giả thiết, ước lượng bình phương nhỏ nhất (OLS) là ước
lượng tuyến tính không chệch có hiệu quả nhất trong các ước lượng. Vì thế phương
pháp OLS đưa ra ước lượng không chệch tuyến tính tốt nhất (BLUE).
Kết quả này được gọi là Định lý Gauss – Markov, theo lý thuyết này ước lượng
OLS là BLUE, nghĩa là trong tất cả các tổ hợp tuyến tính không chệch của Y, ước
lượng OLS có phương sai bé nhất. Các giả thiết như sau:
1/ Hàm hồi quy là tuyến tính theo các hệ số
Điều này có nghĩa là quá trình thực hành hồi quy trên thực tế được miêu tả bởi
mối quan hệ dưới dạng:
y = β1 + β2x2 + β3x3 + β4x4 + … + βkxk + u
hoặc mối quan hệ thực tế có thể được viết lại ví dụ như dưới dạng lấy loga cả hai
vế.
2/ E(ui) = 0 : Kỳ vọng của các yếu tố ngẫu nhiên ui bằng 0
Trung bình tổng thể sai số là bằng 0. Điều này có nghĩa là có một số giá trị sai số
mang dấu dương và một số sai số mang dấu âm. Do hàm xem như là đường trung bình
nên có thể giả định rằng các sai số ngẫu nhiên trên sẽ bị loại trừ nhau, ở mức trung
bình, trong tổng thể.
3/ Var(ui) = σ2 : Phương sai bằng nhau và thuần nhất với mọi ui
Tất cả giá trị u được phân phối giống nhau với cùng phương sai σ2, sao cho:
8
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Var(ui) = E(ui2) = σ2.


4/ ui phân phối chuẩn
Điều này rất quan trọng khi phát sinh khoảng tin cậy và thực hiện kiểm định giả
thuyết trong những phạm vi mẫu là nhỏ. Nhưng phạm vi mẫu lớn hơn, điều này trở
nên không mấy quan trọng.
5/ Giữa các ui thì độc lập với nhau

1.2.3.2. Ước lượng

Ta đặt: yi ký hiệu giá trị thực của biến y tại quan sát i ŷi ký hiệu giá trị của hàm
hồi quy mẫu
ei ký hiệu phần dư yi – ŷi

Do đó cực tiểu hóa Σ(yi – ŷi)2 sẽ tương đương với cực tiểu Σei2 từ đó tìm ra β̂0,
β̂1,…, β̂k
Ta có:
Σei2 = Σ(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i))2
Chúng ta có thiết lập các điều kiện bậc nhất cho phép tính tối thiểu này như sau:
∂Σe2i
̂1 = -2(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i)) xi = 0
∂β

∂Σe2i
̂2 = -2(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i)) x2i = 0
∂β


∂Σe2i
̂k = -2(yi – (β̂1 + β̂2x2,i + β̂3x3,i + β̂4x4,i + … + β̂kxk,i)) xki = 0
∂β

Hệ phương trình mà chúng ta có được gọi là hệ phương trình chuẩn của hồi quy
mẫu. Chúng ta có thể giải k phương trình chuẩn này để tìm k hệ số β" chưa biết. β̂1,
β̂2,…, β̂k được gọi là các ước lượng bình phương nhỏ nhất.

9
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

1.2.4. Độ phù hợp của mô hình


Để có thể biết mô hình giải thích được như thế nào hay bao nhiêu % biến động
của biến phụ thuộc, người ta sử dụng R2
Ta có: Σ(yi – ӯ)2 = Σ[(yi – ŷi) + (ŷi – ӯ)]2 = Σ[ei + (ŷi – ӯ)]2
= Σei2 + 2Σei(ŷi – ӯ) + Σ(ŷi – ӯ)2
Đặt:

 Σ(yi – ӯ)2 : TSS – Total Sum of Squares


 Σ(ŷi – ӯ)2 : ESS – Explained Sum of Squares
 Σei2 : RSS – Residual Sum of Squares

Do Σei(ŷi – ӯ) = 0 ⇐ (Σeiŷi = 0; Σeiӯ = 0) Ta có thể viết: TSS = ESS + RSS


Ý nghĩa của các thành phần:

 TSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Yi và
giá trị trung bình.
 ESS là tổng bình phương của tất cả các sai lệch giữa các giá trị của biến phụ
thuộc Y nhận được từ hàm hồi quy mẫu và giá trị trung bình của chúng. Phần
này đo độ chính xác của hàm hồi quy.
 RSS là tổng bình phương của tất cả các sai lệch giữa các giá trị quan sát Y và
các giá trị nhận được từ hàm hồi quy.
 TSS được chia thành 2 phần: một phần do ESS và một phần do RSS gây ra.

Từ TTS = ESS + RSS, ta chia cả hai vế cho TSS, ta có:


ESS RSS Σ(ŷi – ӯ)2 Σe2i
1= + = 2
+
TSS TSS Σ(yi – ӯ) Σ(yi – ӯ)2

2
ESS RSS (Σ(yi − ӯ)(yi − ŷ ))2
R = =1− =
TSS TSS (Σ(yi − ӯ)2 )(Σ(yi − ŷ )2 )
Tỷ số giữa tổng biến thiên được giải thích bởi mô hình cho tổng bình phương cần
được giải thích được gọi là hệ số xác định, hay là trị thống kê “good of fit”. Từ định
nghĩa R2 chúng ta thấy R2 đo tỷ lệ hay số % của toàn bộ sai lệch Y với giá trị trung
bình được giải thích bằng mô hình. Khi đó người ta sử dụng R2 để đo sự phù hợp của
hàm hồi quy:

0 ≤ R2 ≤ 1.

10
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

 R2 cao nghĩa là mô hình ước lượng được giải thích được một mức độ cao biến
động của biến phụ thuộc.
 Nếu R2 = 1, nghĩa là đường hồi quy giải thích 100% thay đổi của y.
 Nếu R2 = 0, nghĩa là mô hình không đưa ra thông tin nào về sự thay đổi của
biến phụ thuộc y. rong mô hình hồi quy đa biến tỷ lệ của toàn bộ sự khác biệt
của biến y do tất cả các biến x2 và x3 gây ra được gọi là hệ số xác định bội, ký
hiệu là R2 .
̂ 2Σ(yi −ӯ)(x2i − ̅̅̅)+β
β x2 ̂ 3Σ(yi −ӯ)(x3i − ̅̅̅)
x3 Σe2i
R2 = =1-
Σ(yi −ӯ)2 Σ(yi – ӯ)2

1.2.5. Khoảng tin cậy và kiểm định các hệ số hồi quy

1.2.5.1. Ước lượng khoảng tin cậy đối với các hệ số hồi quy

Mục đích của phân tích hồi quy không phải chỉ suy đoán về β1, β2,…, βk mà còn
phải kiểm tra bản chất sự phụ thuộc. Do vậy cần phải biết phân bố xác suất của β1,
β2,…, βk. Các phân bố này phụ thuộc vào phân bố của các ui.
Với các giả thiết OLS, ui có phân phối N (0, σ2). Các hệ số ước lượng tuân theo
phân phối chuẩn:
β̂j ~ N(βj, Se(β̂j))

̂ j − βj
β
̂ j) ~ T(n − k)
Se(β

Ước lượng phương sai sai số dựa vào các phần dư bình phương tối thiểu. Trong
đó k là số hệ số có trong phương trình hồi quy đa biến:
Σe2i
2 =
n− k

 Ước lượng 2 phía, ta tìm được t α (n − 3)= 1- thỏa mãn:


2

̂ j − βj
β
P(-t α (n − 3))  ̂ j)  P(t α (n − 3))
2 Se(β 2

 Khoảng tin cậy 1 - α của βj là:

[ β̂j − t α (n − 3) Se(β̂j)] ; [ β̂j + t α (n − 3) Se(β̂j)]


2 2

1.2.5.2. Kiểm định giả thiết đối với βj


11
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Kiểm định ý nghĩa thống kê của các hệ số hồi quy có ý nghĩa hay không: kiểm
định rằng biến giải thích có thực sự ảnh hưởng đến biến phụ thuộc hay không. Nói
cách khác là hệ số hồi quy có ý nghĩa thống kê hay không.
Có thể đưa ra giả thiết nào đó đối với βj, chẳng hạn βj = βj*. Nếu giả thiết này
đúng thì:
̂ j − βj
𝛽
T= ̂ j) ~ T(n − k)
Se(𝛽

Ta có bảng sau:

Kiểm định βj:

 H0: βj = 0 ⇔ xj không tác động


 H1: βj ≠ 0 ⇔ xj có tác động

βj < 0 ⇔ xj có tác động ngược


βj > 0 ⇔ xj có tác động thuận

1.2.6. Kiểm định ý nghĩa của mô hình


Trong mô hình hồi quy đa biến, giả thuyết “không” cho rằng mô hình không có ý
nghĩa được hiểu là tất cả các hệ số hồi quy riêng đều bằng 0.
Ứng dụng kiểm định Wald (thường được gọi là kiểm định F) được tiến hành cụ
thể như sau:

 Bước 1: Giả thuyết “không” là H0: β2 = β3 = … = βk = 0.

Giả thuyết đối là H1: “có ít nhất một trong những giá trị β khác không”.

 Bước 2: Trước tiên hồi quy Y theo một số hạng không đổi và X2, X3, …, Xk,
sau đó tính tổng bình phương sai số RSSU, RSSR. Phân phối F là tỷ số của hai
biến ngẫu nhiên phân phối khi bình phương độc lập. Điều này cho ta trị thống
kê:

Fc = ~ F(α, k – m, n – k)
12
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Vì H0: β2 = β3 = … = βk = 0, nhận thấy rằng trị thống kê kiểm định đối với giả
thuyết này sẽ là:
ESS/(k−1)
Fc = ~ F(α, k – 1, n – k)
RSS/(n−k)

 Bước 3: Tra số liệu trong bảng F tương ứng với bậc tự do (k – 1) cho tử số và
(n-k) cho mẫu số, và với mức ý nghĩa α cho trước.
 Bước 4: Bác bỏ giả thuyết H0 ở mức ý nghĩa α nếu Fc > F(α, k-1, n-k). Đối với
phương pháp giá trị p, tính giá trị p = P(F>Fc|H0) và bác bỏ giả thuyết H0 nếu p
< α.

1.3. Sơ lược về P (P-value)

Chúng ta nhìn lại bài toán kiểm định 2 phía: H0: a= a0 ; H1: a ≠ a0 với trường hợp
n ≥ 30 và chưa biết phương sai tổng thể. Giả sử mức ý nghĩa đang được xem xét là
α1=0,05 thì zα1 = 1,96 và miền bác bỏ tương ứng là Wα1 =(-∞; -1,96) ∪ (1,96; +∞).
Nếu từ một mẫu cụ thể ta tính được zqsA = 2,0 ∈ Wα1 thì giả thiết H0 tương ứng
bị bác bỏ. Giả thiết từ một mẫu cụ thể khác ta tính được zqsB = 10 chẳng hạn thì giả
thiết H0 cũng bị bác bỏ. Ta nhận thấy việc bác bỏ H0 trong trường hợp mẫu sau có vẻ
“thuyết phục” hơn.
Mặt khác, nếu thay đổi mức ý nghĩa đang được xem xét thành α2=0,02 thì
zα2=2,33 và miền bác bỏ tương ứng là Wα2 =(-∞; -2,33) ∪ (2,33; +∞). Lúc này ta vẫn
bác bỏ H0 nếu zqsB= 10 nhưng lại phải chấp nhận H0 nếu dùng zqsA = 2,0.
Qua đó ta thấy việc bác bỏ H0 với zqsB= 10 khá thuyết phục nhưng việc bác bỏ H0
với zqsB = 2,0 lại ít thuyết phục hơn.
Quá trình kiểm định như trên được gọi là kiểm định theo cách tiếp cận cổ điển.
Bây giờ ta tìm hiểu một cách tiếp cận khác bài toán kiểm định. Thay vì kiểm định giả
thiết với một mức ý nghĩa α định trước thì người ta cho rằng sau khi định rõ các giả
thiết kiểm định H0 và giả thiết đối H1, ta thu thập các số liệu mẫu và xác định mức độ
khẳng định việc bác bỏ giả thiết H0. Mức độ khẳng định này thường được gọi là giá trị
xác suất P hay P-value.
Ta nói rằng mức ý nghĩa nhỏ nhất tại đó giả thiết H0 bị bác bỏ được gọi là giá trị
P kết hợp với mẫu quan sát được. Người ta còn gọi giá trị P là mức ý nghĩa quan sát,

13
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

nó cho biết xác suất mắc sai lầm loại I tối đa khi bác bỏ giả thiết H0 với một mẫu quan
sát cụ thể.
Các phần mềm thống kê hiện nay đều đưa ra P-value cho mỗi bài toán kiểm định
để độc giả tự đánh giá kết quả. Ý tưởng chủ đạo là P-value càng nhỏ thì càng bác bỏ
giả thiết mạnh, P-value càng lớn thì càng chấp nhận giả thiết mạnh.
Thông thường người ta tiến hành kiểm định theo nguyên tắc:

 Nếu 0,1 ≤ P-value: ta thường thừa nhận H0.


 Nếu 0,05 ≤ P-value < 0,1: cân nhắc cẩn thận trước khi bác bỏ H0.Nếu 0,01 ≤ P-
value
 < 0,05: nghiêng về hướng bác bỏ H0 nhiều hơn.
 Nếu 0,001 ≤ P-value < 0,01: có thể ít băn khoăn khi bác bỏ H0.
 Nếu P-value < 0,001: có thể hoàn toàn yên tâm khi bác bỏ H0.

2. Hoạt động 1
2.1. Nhập và làm sạch dữ liệu:
2.1.1. Nhập dữ liệu:
Vào session / set working directory / choose directory / “ đường dẫn thư mục
chứa file auto_mpg.csv”
Sau đó nhập lệnh sau để thực hiện nhập dữ liệu:

Kết quả:

14
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

2.1.2. Làm sạch dữ liệu:

2.1.2.1. Kiểm tra và xử lí dữ liệu khuyết :

 Thay kí hiệu “?” của các dữ liệu bị khuyết bằng “NA”

Kết quả:

 Kiểm tra và xuất vị trí của dữ liệu khuyết trong tập dữ liệu:

Dùng lệnh:

Và nhận được kết quả như sau:

15
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Theo quan sát ta thấy có 6 vị trí dữ liệu nằm ở cột horsepower đó là các quan
trắc thứ: 33, 127, 331, 337, 355 và 375 và chiếm tỉ lệ khoảng 1,51%, do tỉ lệ dữ liệu
khuyết rất bé so với bộ dữ liệu đang xét nên ta xử lí bằng cách xóa các quan trắc chứa
dữ liệu khuyết.
Tiến hành xóa và kiểm tra lại dữ liệu khuyết:

Ta được kết quả:

Vậy các dữ liệu khuyết đã bị xóa khỏi tập dữ liệu.


2.1.3. Tìm và xử lí dữ liệu ngoại lai:
Trước tiên ta được cột horsepower về dạng dữ liệu số bằng lệnh:

Tiếp theo, ta kiểm tra biến horsepower có dữ liệu ngoại lai hay không
Vẽ boxplot cho các biến mpg, cylinders, horsepower, weight, acceleration,
model_year:

16
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Ta được boxplot sau:

17
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

18
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Dựa vào boxplot ta thấy biến horsepower và acceleration có các giá trị ngoại
lai, để xem cụ thể đó là những giá trị nào, ta nhập lệnh:

Và thu được các giá trị ngoại lai:

Ta sẽ xử lí bằng cách xóa các giá trị này ra khỏi tập dữ liệu, thực hiện như sau:
Trước hết ta thay các giá trị ngoại lai thành “NA”

Và xóa các quan trắc chứa “NA” để hoàn thành xóa các giá trị ngoại lai:

Kết quả:

Vậy là các giá trị ngoại lai đã được xử lí

2.2. Thống kê mô tả cho các biến:

Ta thực hiện thống kê mô tả cho các biến định lượng, ta xuất các giá trị thống kê

19
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

mô tả bao gồm: trung bình, trung vị, giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả
dưới dạng bảng.
Các biến định lượng bao gồm: mpg, displacement, horsepower, weight,
acceleration.
Thực hiện code sau:

Và được kết quả như sau:

Ta vẽ biểu đồ boxplot đối với biến phân loại và biểu đồ phân tán (plot) để nắm
rõ sự phân phối của biến “mpg” theo 8 biến còn lại.
Các boxplot:

20
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Các plot:

21
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

22
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Nhận xét: Dựa trên các đồ thị phân tán, ta thấy mpg mối quan hệ gần như tuyến
tính nghịch với các biến horsepower, displacement, weight và không có quan hệ
tuyến tính với biến acceleration (các điểm phân tán khá rộng và ngẫu nhiên). Ta dự
đoán rằng: các yếu tố horsepower, displacement, weight ít nhiều có ảnh hưởng đến
mức tiêu thụ nhiên liệu còn acceleration thì có thể không ảnh hưởng.

2.3. Chia bộ dữ liệu làm hai phần:

Để chia ngẫu nhiên bộ dữ liệu thành 2 phần, ta thực hiện nhập lệnh sau:

Kết quả thu được:


“auto_mpg1” (training dataset)

23
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

“auto_mpg2” (validation dataset)

2.4. Chọn mô hình để giải thích cho biến “mpg”

Để đánh giá sự ảnh hưởng các nhân tố lên biến phụ thuộc “mpg”, ta xem xét các
biến trong dữ liệu. Ở đây ta thấy các biến độc lập trong dữ liệu là các biến định lượng
và một số biến phân loại. Và ngoài ra ở đây ta có nhiều nhân tố độc lập để xem xét
đưa vào mô hình. Do đó nhóm chọn phương án phân tích ở đây là xây dựng mô hình
hồi quy tuyến tính bội.
Ở mô hình hồi quy tuyến tính ta sẽ không đưa biến car_name vào chương trình
vì đây là biến phân loại với rất nhiều giá trị, khi đưa vào sẽ làm cho mô hình phức tạp
hơn. Ngoài ra, ta có thể nhận thấy tên xe có thể không ảnh hưởng đến mức tiêu thụ
nhiên của xe. Do đó, ta xây dựng mô hình hồi quy hqtt_1 gồm biến phụ thuộc mpg và
các biến độc lập là các biến (cylinders, displacement, horsepower, weight,
acceleration, model_year, origin) từ mẫu huấn luyện auto_mpg1.
Mô hình được biểu diễn như sau:
𝐦𝐩𝐠 = 𝛃𝟎 + 𝛃𝟏 × 𝐜𝐲𝐥𝐢𝐧𝐝𝐞𝐫𝐬 + 𝛃𝟐 × 𝐝𝐢𝐬𝐩𝐥𝐚𝐜𝐞𝐦𝐞𝐧𝐭 + 𝛃𝟑 × 𝐡𝐨𝐫𝐬𝐞𝐩𝐨𝐰𝐞𝐫
+𝛃𝟒 × 𝐰𝐞𝐢𝐠𝐡𝐭 + 𝛃𝟓 × 𝐚𝐜𝐜𝐞𝐥𝐞𝐫𝐚𝐭𝐢𝐨𝐧 + 𝛃𝟔 × 𝐦𝐨𝐝𝐞𝐥_𝐲𝐞𝐚𝐫 + 𝛃𝟕 × 𝐨𝐫𝐢𝐠𝐢𝐧
Ta thực hiện ước lượng các hệ số βi , i = 0, … ,7.
Nhập các lệnh:

Kết quả thu được:

24
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Từ kết quả phân tích ta được:


̂0 = −16,631468
β
̂1 = 0,181597
β
̂2 = 0,003980
β
̂3 = −0,037378
β
̂4 = −0,005102
β
̂5 = −0,038849
β
̂6 = 0,724930
β
̂7 = 1,667806
β
Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
̂ = −16,631468 + 0,181597 × 𝐜𝐲𝐥𝐢𝐧𝐝𝐞𝐫𝐬 + 0,003980 × 𝐝𝐢𝐬𝐩𝐥𝐚𝐜𝐞𝐦𝐞𝐧𝐭
𝐦𝐩𝐠
− 0,037378 × 𝐡𝐨𝐫𝐬𝐞𝐩𝐨𝐰𝐞𝐫 − 0,005102 × 𝐰𝐞𝐢𝐠𝐡𝐭 − 0,038849
× 𝐚𝐜𝐜𝐞𝐥𝐞𝐫𝐚𝐭𝐢𝐨𝐧 + 0,724930 × 𝐦𝐨𝐝𝐞𝐥_𝐲𝐞𝐚𝐫 + 1,667806 × 𝐨𝐫𝐢𝐠𝐢𝐧
Ta thấy rằng P-value tương ứng với thống kê F bé hơn 2,2e – 16 là có ý nghĩa rất
cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích
rất cao cho biến mpg.
Giả thiết:
25
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

H0: “Hệ số βi không có ý nghĩa thống kê đối với mô hình”


H1: “Hệ số βi có ý nghĩa thống kê đối với mô hình”
Vì P-value ứng với các biến cylinders, displacement và acceleration lớn hơn
0,05 nên ta chưa bác bỏ được giả thiết H0 cho nên ta tạm chấp nhận rằng các biến
cylinders, displacement và acceleration không có ý nghĩa đối với mô hình hồi quy ta
vừa xây dựng, do đó ta có thể loại bỏ các biến này ra khỏi mô hình hồi quy.
Ta tiếp tục xây dựng các mô hình thông qua việc loại lần lượt từng biến:

 hqtt_2 bằng cách bỏ đi biến cylinders

 hqtt_3 bằng cách bỏ đi biến displacement từ hqtt_2

26
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

 hqtt_4 bằng cách bỏ đi biến acceleration từ hqtt_3

Ta sẽ so sánh các mô hình hqtt_1, hqtt_2, hqtt_3 và hqtt_4 với nhau để chọn ra
mô hình tốt nhất giải thích cho biến mpg:
Giả thuyết Ho: Hai mô hình hqtt_i và hqtt_j hiệu quả giống nhau
Đối thuyết H1: Hai mô hình hqtt_i và hqtt_j hiệu quả khác nhau
Với i,j = 1, 2, 3, 4 và i ≠ j trong từng cặp so sánh
Ta thực hiện lệnh:

Kết quả so sánh:


 hqtt_1 với hqtt_2:

Nhận xét: ta thấy P-value = 0.6576 > 0,1 nên theo phần lí thuyết về P ta thừa
nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mô hình hqtt_1 và hqtt_2
là giống nhau.

27
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

 hqtt_2 với hqtt_3:

Nhận xét: ta thấy P-value = 0,3319 > 0,1 nên theo phần lí thuyết về P ta thừa
nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mô hình hqtt_2 và hqtt_3
là giống nhau.

 hqtt_3 với hqtt_4:

Nhận xét: ta thấy p-value = 0,5889 > 0,1 nên theo phần lí thuyết về P ta thừa
nhận giả thuyết H0 vì vậy ta kết luận rằng hiệu quả của hai mô hình hqtt_3 và hqtt_4
là giống nhau.
Từ các so sánh trên ta nhận thấy hiệu quả của 4 mô hình là như nhau. Vậy ta sẽ
chọn mô hình dựa vào hệ số R2 hiệu chỉnh, xét thấy R2 hiệu chỉnh = 0,8481 ở mô
hình hqtt_4 là cao nhất.. Vậy để phù hợp nhất ta chọn mô hình hqtt_4.

2.5. Kiểm tra các giả định (giả thiết) của mô hình:
2.5.1. Nhắc lại các giả định:
Nhắc lại các giả định của mô hình hồi quy: Yi = β0 + β1 . X1 +. . . +βi X i + ϵi , i =
1,..n.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc
Y được giả sử là tuyến tính.
+ Sai số có phân phối chuẩn
+ Phương sai của các sai số là hằng số: ϵi ~N(0, σ2 )
+ Các sai số ϵ1 , … ϵn thì độc lập với nhau.

28
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

2.5.2. Kiểm tra các giả định:

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình
Vẽ các đồ thị cho mô hình đã chọn:

Đồ thị biểu diễn sai số của mô hình hồi quy tương ứng với các giá trị dự báo,
để kiểm tra các giả định về tính tuyến tính của dữ liệu, kỳ vọng của sai số bằng 0
và phương sai các sai số là hằng số:

Nhận xét:
+ Đường màu đỏ là đường cong nên giả định về tính tuyến tính của dữ liệu
không thỏa mãn.
+ Đường màu đỏ không sát với đường “0” nên giả định các sai số có kỳ vọng
bằng 0 là không thỏa mãn.

29
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Đồ thị vẽ các sai số được chuẩn hóa để kiểm tra giả định các sai số có phân
phối chuẩn:

Nhận xét:
Có một vài điểm sai số bị lệch khỏi đường phân phối chuẩn, tuy nhiên số điểm
này so với tổng số là rất ít nên ta tạm chấp nhận giả thuyết sai số có phân phối chuẩn.
Đồ thị biểu diễn căn bậc hai của sai số để kiểm tra giả thiết phương sai
các sai số là hằng số:

30
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Nhận xét:
Các điểm phân tán một cách khá ngẫu nhiên quanh đường màu đỏ nên ta tạm
chấp nhận giả thuyết phương sai của các sai số là hằng số.
Đồ thị biểu diễn những điểm ảnh hưởng cao trong bộ dữ liệu:

31
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Nhận xét:
Không xuất hiện đường đứt ở góc phải nên bộ dữ liệu không chứa các điểm ảnh
hưởng cao.

2.6. Ý nghĩa của mô hình đã chọn:

Mô hình hồi quy tuyến tính về sự ảnh hưởng của các nhân tố horsepower,
weight, acceleration, model_year và origin lên biến mpg:
̂ = −1.719e − 2.707e−2 × 𝐡𝐨𝐫𝐬𝐞𝐩𝐨𝐰𝐞𝐫 − 4.745e−3 × 𝐰𝐞𝐢𝐠𝐡𝐭 + 7.216e−1
𝐦𝐩𝐠
× 𝐦𝐨𝐝𝐞𝐥_𝐲𝐞𝐚𝐫 + 1.558 × 𝐨𝐫𝐢𝐠𝐢𝐧
Hệ số xác định hiệu chỉnh (adjusted R-squared): R2 hiệu chỉnh = 0,8481 nghĩa là
84,81% sự biến thiên trong mức tiêu thụ nhiên liệu được giải thích bởi các biến độc
lập.
Để xét sự ảnh hưởng của từng biến ta xét các hệ số hồi quy (βi ) và P-value tương
ứng. Hệ số hồi quy của một biến độc lập có thể được xem như ảnh hưởng trung bình
lên biến phụ thuộc mpg khi tăng một đơn vị của biến dự báo đó với giả sử rằng các
biến dự báo khác không đổi. Cụ thể rằng:
32
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Ứng với biến horsepower có β3 = −2.707e−2 thì với mỗi khi công suất động
cơ tăng 1 đơn vị ta có thể kì vọng rằng mức tiêu thụ nhiện liệu sẽ giảm đi 2.707e−2
đơn vị về mặt trung bình.
Ứng với biến weight có β4 = −4.745e−3 thì với mỗi khi khối lượng động cơ
tăng đơn vị ta có thể kì vọng rằng mức tiêu thụ nhiện liệu sẽ giảm đi 4.745e−3 đơn vị
về mặt trung bình.
Ứng với biến model_year có β6 = 7.216e−1 thì với mỗi khi năm sản xuất động
cơ tăng 1 đơn vị ta có thể kì vọng rằng mức tiêu thụ nhiện liệu sẽ tăng lên 7.216e−1
đơn vị về mặt trung bình.

2.7. Thực hiện dự báo (Prediction):

Sử dụng mẫu kiểm tra “auto_mpg2” và dựa vào mô hình tốt nhất được chọn để
dự báo cho biến phụ thuộc “mpg”. Gọi kết quả này là biến “predict_mpg”.
Tạo dữ liệu dự báo lấy từ mẫu kiểm tra

Kết quả như sau:

Thực hiện dự báo cho biến phụ thuộc mpg với tên predict_mpg
Thêm cột predict_mpg vào auto_mpg2
Nhập lệnh:

Kết quả thu được:

33
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

2.8. So sánh kết quả dự báo “predict_mpg” với giá trị thực tế của “mpg”:

Để so sánh một cách trực quan ta vẽ biểu đồ thể hiện giữa quan sát và dự báo.
Nhập lệnh sau:

Ta được biểu đồ sau:

Nhận xét:
Dựa vào đồ thị ta thấy có rất ít các điểm phân tán nằm trên đường thẳng màu đỏ
mà phần lớn là phân tán rộng xung quanh đường thẳng đó, chứng tỏ giá trị dự báo và
quan sát chưa phù hợp với nhau, cần có nhiều hơn các quan trắc và phương thức thống

34
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

kê hiệu quả hơn để có thể xây dựng được mô hình tốt nhất để dự báo cho biến phụ
thuộc mpg.
Bên cạnh việc dùng đồ thị để so sánh, ta có thể đánh giá dựa trên R2 hiệu chỉnh
như sau:

R2 hiệu chỉnh = 0,8083 < 0,9 nên phần nói lên sự kém hiệu quả của mô hình
qua đó ta có thể nhận thấy giá trị quan sát và giá trị dự báo chưa phù hợp với nhau.

3. Hoạt động 2

3.1. Nhập và làm sạch dữ liệu:

3.1.1. Nhập dữ liệu:

Vào session / set working directory / choose directory / “ đường dẫn thư mục
chứa file train_data.csv”
Sau đó nhập lệnh sau để thực hiện nhập dữ liệu và lọc lấy các cột cần khảo sát:

Kết quả:

35
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

3.1.2. Làm sạch dữ liệu:

3.1.2.1. Kiểm tra và xử lí dữ liệu khuyết :

+ Kiểm tra và xuất vị trí của dữ liệu khuyết trong tập dữ liệu:
Dùng lệnh:

Và nhận được kết quả như sau:

Theo quan sát ta thấy biến các biến wind_speed, motor_torque và


windmill_generated_power có lần lượt: 273, 24 và 207 dữ liệu khuyết, vậy tổng dữ
liệu khuyết ta có là 504 chiếm tỉ lệ khoảng 1,8%, do tỉ lệ dữ liệu khuyết rất bé so với
bộ dữ liệu đang xét nên ta xử lí bằng cách xóa các quan trắc chứa dữ liệu khuyết.
Tiến hành xóa và kiểm tra lại dữ liệu khuyết:

Ta được kết quả:

36
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Vậy các dữ liệu khuyết đã bị xóa khỏi tập dữ liệu.

3.1.2.2. Tìm và xử lí dữ liệu ngoại lai:

Tiếp theo, ta kiểm tra các biến có dữ liệu ngoại lai hay không
Vẽ boxplot cho các biến

Ta được các boxplot sau:

37
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Dựa vào boxplot ta thấy biến wind_speed, area_temperature và


windmill_generated_power có các giá trị ngoại lai.
Ta xử lí ngoại lai bằng cách xóa các quan trắc này đi
38
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Trước hết ta thay các giá trị ngoại lai thành “NA”

Và xóa các quan trắc chứa “NA” để hoàn thành xóa các giá trị ngoại lai:

Kết quả:

Vậy là các giá trị ngoại lai đã được xử lí.

3.2. Thống kê mô tả cho các biến

Ta thực hiện thống kê mô tả cho các biến định lượng, ta xuất các giá trị thống kê
mô tả bao gồm: trung bình, trung vị, giá trị lớn nhất và giá trị nhỏ nhất. Xuất kết quả
dưới dạng bảng.
Các biến định lượng bao gồm: wind_speed, area_temperature,
motor_torque, blade_breadth và windmill_generated_power.
Thực hiện code sau:

Và được kết quả như sau:

39
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Ta vẽ biểu đồ boxplot đối với biến phân loại và biểu đồ phân tán (plot) để nắm
rõ sự phân phối của biến “windmill_generated_power” theo 6 biến còn lại.
Các boxplot:

40
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Các plot:

41
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

42
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Nhận xét: Dựa trên các đồ thị phân tán, ta thấy windmill_generated_power có
mối quan hệ tuyến tính yếu với các biến wind_speed, area_temperature,
motor_torque và blade_breadth. Ta dự đoán rằng: các yếu tố trên ít nhiều có ảnh
hưởng đến năng lượng tạo ra từ cối xay gió.

3.3. Chọn mô hình để giải thích cho biến “windmill_generated_power”

Để đánh giá sự ảnh hưởng các nhân tố lên biến phụ thuộc
“windmill_generated_power”, ta xem xét các biến trong dữ liệu. Ở đây ta thấy các
biến độc lập trong dữ liệu là các biến định lượng, một số biến phân loại. Và ngoài ra ở
đây ta có nhiều nhân tố độc lập để xem xét đưa vào mô hình. Do đó nhóm chọn
phương án phân tích ở đây là xây dựng mô hình hồi quy tuyến tính bội.
Ta xây dựng mô hình hồi quy hqtt_1 với các biến độc lập là các biến
(wind_speed, area_temperature, motor_torque, blade_breadth, cloud_level và
turbine_status) từ dữ liệu ban đầu “đã làm sạch”.
Mô hình được biểu diễn như sau:
𝐰𝐢𝐧𝐝𝐦𝐢𝐥𝐥_𝐠𝐞𝐧𝐞𝐫𝐚𝐭𝐞𝐝_𝐩𝐨𝐰𝐞𝐫 = 𝛃𝟎 + 𝛃𝟏 × 𝐰𝐢𝐧𝐝_𝐬𝐩𝐞𝐞𝐝 + 𝛃𝟐 ×
𝐚𝐫𝐞𝐚_𝐭𝐞𝐦𝐩𝐞𝐫𝐚𝐭𝐮𝐫𝐞 + 𝛃𝟑 × 𝐦𝐨𝐭𝐨𝐫_𝐭𝐨𝐫𝐪𝐮𝐞
+𝛃𝟒 × 𝐛𝐥𝐚𝐝𝐞_𝐛𝐫𝐞𝐚𝐝𝐭𝐡 + 𝛃𝐢 × 𝐜𝐥𝐨𝐮𝐝_𝐥𝐞𝐯𝐞𝐥"𝐢" + 𝛃𝐣 × 𝐭𝐮𝐫𝐛𝐢𝐧𝐞_𝐬𝐭𝐚𝐭𝐮𝐬"𝐣"

43
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Ta thực hiện ước lượng các hệ số βi , i = 0, … , n.


Nhập các lệnh:

Kết quả thu được:

Từ kết quả phân tích ta được:


̂0 = −1,346
β
̂1 = −1,289e−2
β
̂2 = 7,363e−2
β
̂3 = 1,570e−3
β
̂4 = 1,298
β
Và các hệ số ứng với các trạng thái của mây và tua-bin

44
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Như vậy, đường thẳng hồi quy ước lượng cho bởi phương trình sau:
̂
𝐰𝐢𝐧𝐝𝐦𝐢𝐥𝐥_𝐠𝐞𝐧𝐞𝐫𝐚𝐭𝐞𝐝_𝐩𝐨𝐰𝐞𝐫
= −1,346 − 1,289e−2 × 𝐰𝐢𝐧𝐝_𝐬𝐩𝐞𝐞𝐝 + 7,363e−2
× 𝐚𝐫𝐞𝐚_𝐭𝐞𝐦𝐩𝐞𝐫𝐚𝐭𝐮𝐫𝐞 + 1,570e−3 × 𝐦𝐨𝐭𝐨𝐫_𝐭𝐨𝐫𝐪𝐮𝐞 + 1,298 ×
𝐛𝐥𝐚𝐝𝐞_𝐛𝐫𝐞𝐚𝐝𝐭𝐡 + 𝛃𝐢 × 𝐜𝐥𝐨𝐮𝐝_𝐥𝐞𝐯𝐞𝐥"𝐢" + 𝛃𝐣 × 𝐭𝐮𝐫𝐛𝐢𝐧𝐞_𝐬𝐭𝐚𝐭𝐮𝐬"𝐣"
Ta thấy rằng P-value tương ứng với thống kê F bé hơn 2,2e – 16 là có ý nghĩa rất
cao. Điều này chỉ ra rằng, ít nhất một biến dự báo trong mô hình có ý nghĩa giải thích
rất cao cho biến windmill_generated_power.
Giả thiết:
H0: “Hệ số βi không có ý nghĩa thống kê đối với mô hình”
H1: “Hệ số βi có ý nghĩa thống kê đối với mô hình”
Vì phần lớn P-value ứng với các biến trạng thái của turbines_status lớn hơn
0,05 nên ta chưa bác bỏ được giả thiết H0 cho nên ta tạm chấp nhận rằng biến
turbines_status không có ý nghĩa đối với mô hình hồi quy ta vừa xây dựng, do đó ta
có thể loại bỏ các biến này ra khỏi mô hình hồi quy.
Ta tiếp tục xây dựng mô hình hqtt_2 bằng cách bỏ đi biến turbine_status
Nhập lệnh:

Kết quả thu được

45
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

So sánh các mô hình hqtt_1, hqtt_2 với nhau:


Giả thuyết Ho: Hai mô hình hqtt_1 và hqtt_2 hiệu quả giống nhau
Đối thuyết H1: Hai mô hình hqtt_1 và hqtt_2 hiệu quả khác nhau
Ta thực hiện lệnh:

Kết quả so sánh:

Nhận xét: ta thấy 0,01 < P-value = 0,0131 < 0,05, nên theo lí thuyết ta nghiêng
về phương án bác bỏ H0 nhiều hơn do đó ta kết luận rằng hiệu quả của hai mô hình
hqtt_1 và hqtt_2 là khác nhau.
Mặc khác, như đã nói ở trên ta thấy biến turbine_status không có ý nghĩa đáng
kể với mô hình. Vậy để phù hợp nhất ta chọn mô hình hqtt_2.

3.4. Kiểm tra các giả định (giả thiết) của mô hình:

3.4.1. Nhắc lại các giả định:

Nhắc lại các giả định của mô hình hồi quy: Yi = β0 + β1 . X1 +. . . +βi X i + ϵi , i =
1,..n.
+ Tính tuyến tính của dữ liệu: mối quan hệ giữa biến dự báo X và biến phụ thuộc
Y được giả sử là tuyến tính.
+ Sai số có phân phối chuẩn
+ Phương sai của các sai số là hằng số: ϵi ~N(0, σ2 )
+ Các sai số ϵ1 , … ϵn thì độc lập với nhau.

3.4.2. Kiểm tra các giả định:

Ta thực hiện phân tích thặng dư để kiểm tra các giả định của mô hình
Vẽ các đồ thị cho mô hình đã chọn:

46
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Đồ thị biểu diễn sai số của mô hình hồi quy tương ứng với các giá trị dự báo,
để kiểm tra các giả định về tính tuyến tính của dữ liệu, kỳ vọng của sai số bằng 0
và phương sai các sai số là hằng số:

Nhận xét:
+ Đường màu đỏ là đường cong nên giả định về tính tuyến tính của dữ liệu
không thỏa mãn.
+ Đường màu đỏ không sát với đường “0” nên giả định các sai số có kỳ vọng
bằng 0 là không thỏa mãn.
+ Các điểm sai số phân tán tập trung rất nhiều gần đường màu đỏ nên giả định về
phương sai của các sai số là hằng số cũng không thỏa mãn.
Đồ thị vẽ các sai số được chuẩn hóa để kiểm tra giả định các sai số có phân
phối chuẩn:

47
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Nhận xét:
Có rất nhiều điểm sai số bị lệch khỏi đường phân phối chuẩn, nên giả thuyết sai
số có phân phối chuẩn không thỏa mãn.
Đồ thị biểu diễn căn bậc hai của sai số để kiểm tra giả thiết phương sai
các sai số là hằng số:

48
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Nhận xét:
Các điểm phân tán một cách không ngẫu nhiên mà tập trung rất nhiều quanh
đường màu đỏ nên giả thuyết phương sai của các sai số là hằng số không thỏa mãn.
Đồ thị biểu diễn những điểm ảnh hưởng cao trong bộ dữ liệu:

Nhận xét:
Không xuất hiện đường đứt ở góc phải nên bộ dữ liệu không chứa các điểm ảnh
hưởng cao vì mối quan hệ tuyến tính yếu đã dự đoán ở trên, tuy nhiên ta chưa nhận
thấy được các điểm vượt khỏi đường này vì các giá trị ngoại lai đã được xử lí trước đó.

3.5. Ý nghĩa của mô hình đã chọn:

Mô hình hồi quy tuyến tính về sự ảnh hưởng của các nhân tố wind_speed,
area_temperature, motor_torque, blade_breadth và cloud_level lên biến
windmill_generated_power.
𝐰𝐢𝐧𝐝𝐦𝐢𝐥𝐥_𝐠𝐞𝐧𝐞𝐫𝐚𝐭𝐞𝐝_𝐩𝐨𝐰𝐞𝐫
= −1,456 − 1,287e−2 × 𝐰𝐢𝐧𝐝_𝐬𝐩𝐞𝐞𝐝 + 7,361e−2
× 𝐚𝐫𝐞𝐚_𝐭𝐞𝐦𝐩𝐞𝐫𝐚𝐭𝐮𝐫𝐞 + 1,569e−3 × 𝐦𝐨𝐭𝐨𝐫_𝐭𝐨𝐫𝐪𝐮𝐞 + 1,290
× 𝐛𝐥𝐚𝐝𝐞_𝐛𝐫𝐞𝐚𝐝𝐭𝐡 + 2,604 × 𝐜𝐥𝐨𝐮𝐝_𝐥𝐞𝐯𝐞𝐥𝐇𝐢𝐠𝐡 + 2,766
× 𝐜𝐥𝐨𝐮𝐝_𝐥𝐞𝐯𝐞𝐥𝐋𝐨𝐰 + 2,838 × 𝐜𝐥𝐨𝐮𝐝_𝐥𝐞𝐯𝐞𝐥𝐌𝐞𝐝𝐢𝐮𝐦

49
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Hệ số xác định hiệu chỉnh (adjusted R-squared): R2 hiệu chỉnh = 0,3411 nghĩa là
34,11% sự biến thiên trong năng lượng tạo ra từ cối xay gió được giải thích bởi các
biến độc lập.
Để xét sự ảnh hưởng của từng biến ta xét các hệ số hồi quy (βi ) và p-value tương
ứng. Hệ số hồi quy của một biến độc lập có thể được xem như ảnh hưởng trung bình
lên biến phụ thuộc windmill_generated_power khi tăng một đơn vị của biến dự báo
đó với giả sử rằng các biến dự báo khác không đổi. Cụ thể rằng:
Ứng với biến motor_torque có β3 = 1,569e − 03 thì với mỗi khi momen xoắn
động cơ tăng 1 đơn vị ta có thể kì vọng rằng mức năng lượng tạo ra sẽ tăng lên 1,569e-
03 đơn vị về mặt trung bình.
Giải thích tương tự đối với các hệ số của những biến còn lại.

3.6. Thực hiện dự báo (Prediction)

3.6.1. Xây dựng thuộc tính X1, X2:

- Xây dựng và dự báo cho X1:

Kết quả thu được:

- Xây dựng và dự báo cho X2:

Kết quả thu được:


50
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Tạo bảng so sánh hai thuộc tính:

Kết quả:

Nhận xét: Dựa vào kết quả dự báo, chiều dài khoảng tin cậy cho năng lượng gió
tạo ra trung bình ở thuộc tính X1 = 0.0735 thấp hơn so với thuộc tính
X2 =0,2314 . Như vậy, đối với thuộc tính X1 cho kết quả dự báo chính xác hơn.

3.7. Mô hình ANOVA

Giả thuyết H0: Năng lượng gió tạo ra trung bình ở các điều kiện cấp độ mây bằng
nhau.
Giả thuyết H1: Có ít nhất hai cấp độ mây có năng lượng gió tạo ra trung bình
khác nhau.
Các giả định cần kiểm tra:
+ Giả định về phân phối chuẩn: Năng lượng gió tạo ra ở các điều kiện cấp độ
mây tuân theo phân phối chuẩn.
+ Giả định về tính đồng nhất của phương sai: Phương sai năng lượng gió tạo ra ở
các điều kiện cấp độ mây bằng nhau.

3.7.1. Thực hiện kiểm tra giả định phân phối chuẩn:

- Đối với điều kiện cấp độ mây (Extremely Low):

Ta có đồ thị sau:

51
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Nhận xét: Dựa trên đồ thị ta thấy các quan trắc không nằm trên đường thẳng kỳ
vọng phân phối chuẩn. Ta dự đoán Năng lượng gió tạo ra ở điều kiện cấp độ mây
(Extremely Low) không tuân theo phân phối chuẩn.
Hoặc kiểm tra bằng cách dùng hàm ad.test với:

+ Giả thuyết H0: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Extremely Low)
tuân theo phân phối chuẩn.
+ Giả thuyết H1: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Extremely Low)
không tuân theo phân phối chuẩn.
Ta nhập lệnh:

Kết quả:

Vì p-value = 8,929e-16 < mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1. Vậy
Năng lượng gió tạo ra ở điều kiện cấp độ mây (Extremely Low) không tuân theo phân
phối chuẩn.

- Đối với điều kiện cấp độ mây (Low):

Ta có đồ thị sau:

52
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Nhận xét: Dựa trên đồ thị ta thấy các quan trắc không nằm trên đường thẳng kỳ
vọng phân phối chuẩn. Ta dự đoán Năng lượng gió tạo ra ở điều kiện cấp độ mây
(Low) không tuân theo phân phối chuẩn.
Hoặc kiểm tra bằng cách dùng hàm ad.test với:

+ Giả thuyết H0: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Low) tuân theo
phân phối chuẩn.
+ Giả thuyết H1: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Low) không tuân
theo phân phối chuẩn.
Ta nhập lệnh:

Kết quả:

Vì p-value < 2.2e-16 < mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1. Vậy
Năng lượng gió tạo ra ở điều kiện cấp độ mây (Low) không tuân theo phân phối chuẩn.
- Điều kiện cấp độ mây (Medium):

53
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Ta có đồ thị sau:

Nhận xét: Dựa trên đồ thị ta thấy các quan trắc không nằm trên đường thẳng kỳ
vọng phân phối chuẩn. Ta dự đoán Năng lượng gió tạo ra ở điều kiện cấp độ mây
(Medium) không tuân theo phân phối chuẩn.

Hoặc kiểm tra bằng cách dùng hàm ad.test với:

+ Giả thuyết H0: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) tuân
theo phân phối chuẩn.
+ Giả thuyết H1: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) không
tuân theo phân phối chuẩn.
Ta nhập lệnh:

Kết quả:

54
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Vì p-value < 2.2e-16 < mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1. Vậy
Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) không tuân theo phân phối
chuẩn.

- Điều kiện cấp độ mây (High):

Ta có đồ thị sau:

Nhận xét: Dựa trên đồ thị ta thấy các quan trắc không nằm trên đường thẳng kỳ
vọng phân phối chuẩn. Ta dự đoán Năng lượng gió tạo ra ở điều kiện cấp độ mây
(High) không tuân theo phân phối chuẩn.

Hoặc kiểm tra bằng cách dùng hàm ad.test với:

+ Giả thuyết H0: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) tuân
theo phân phối chuẩn.
+ Giả thuyết H1: Năng lượng gió tạo ra ở điều kiện cấp độ mây (Medium) không
tuân theo phân phối chuẩn.
55
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Ta nhập lệnh:

Kết quả:

Vì p-value = 0,0001641 bé mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1.
Vậy Năng lượng gió tạo ra ở điều kiện cấp độ mây (High) không tuân theo phân phối
chuẩn.

3.7.2. Thực hiện kiểm tra giả định tính đồng nhất của phương sai

Nhập lệnh:

Kết quả:

Nhận xét:
Giả thuyết H0: Phương sai năng lượng gió tạo ra ở các điều kiện cấp độ mây bằng
nhau
Giả thuyết H1: Có ít nhất hai cấp độ mây có phương sai năng lượng gió tạo ra
khác nhau
Vì pvalue < 2.2e-16 < mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1. Vậy có ít
nhất hai cấp độ mây có phương sai năng lượng gió tạo ra khác nhau.

Mặc dù các giả định kiểm tra không thoả mãn, ta vẫn sẽ tiếp tục thực hiện Anova
và cân nhắc kết quả ta thực hiện.

56
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Kết quả:

Nhận xét:
Vì P-value < 2.2e-16 < mức ý nghĩa 5% nên ta bác bỏ H0, chấp nhận H1. Vậy có
ít nhất hai cấp độ mây có năng lượng gió tạo ra trung bình khác nhau.

Nhận xét:
57
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây High
và Extremely Low:
Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây High và
Extremely Low bằng nhau.
Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây High và
Extremely Low khác nhau.
Ta nhận thấy p adj = 0,0000000 < mức ý nghĩa 5%, nên ta bác bỏ giả thiết H0,
chấp nhận giả thuyết H1. Năng lượng gió trung bình ở điều kiện cấp độ mây High và
Extremely Low khác nhau.
Mặt khác ta dựa vào diff = 4,20863036 > 0 nên ta có thể kết luận năng lượng gió
trung bình ở điều kiện cấp độ mây High > năng lượng gió trung bình ở điều kiện cấp
độ mây Extremely Low.
Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây Low
và Extremely Low:
Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây Low và
Extremely Low bằng nhau.
Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây Low và
Extremely Low khác nhau.
Ta nhận thấy p adj = 0,0000000 < mức ý nghĩa 5%, nên ta bác bỏ giả thiết H0,
chấp nhận giả thuyết H1. Năng lượng gió trung bình ở điều kiện cấp độ mây Low và
Extremely Low khác nhau.
Mặt khác ta dựa vào diff = 4,35941436 > 0 nên ta có thể kết luận năng lượng gió
trung bình ở điều kiện cấp độ mây Low > năng lượng gió trung bình ở điều kiện cấp
độ mây Extremely Low.
Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây
Medium và Extremely Low:
Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và
Extremely Low bằng nhau.
Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và
Extremely Low khác nhau.

58
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Ta nhận thấy p adj = 0,0000000 < mức ý nghĩa 5%, nên ta bác bỏ giả thiết H0,
chấp nhận giả thuyết H1. Năng lượng gió trung bình ở điều kiện cấp độ mây Medium
và Extremely Low khác nhau.
Mặt khác ta dựa vào diff = 4,45020183 > 0 nên ta có thể kết luận năng lượng gió
trung bình ở điều kiện cấp độ mây Medium > năng lượng gió trung bình ở điều kiện
cấp độ mây Extremely Low.
Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây Low
và High:
Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây Low và High
bằng nhau.
Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây Low và High
khác nhau.
Ta nhận thấy p adj = 0,7890659 > mức ý nghĩa 5%, nên ta chưa bác bỏ được giả
thiết H0. Năng lượng gió trung bình ở điều kiện cấp độ mây Low và High bằng nhau.
Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây Medium và
High:
Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và High
bằng nhau.
Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và High
khác nhau.
Ta nhận thấy p adj = 0,4442614 > mức ý nghĩa 5%, nên ta chưa bác bỏ được giả
thiết H0. Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và High bằng
nhau.
Sự khác nhau giữa năng lượng gió trung bình ở điều kiện cấp độ mây
Medium và Low:
Giả thiết H0: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và Low
bằng nhau.
Giả thiết H1: Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và Low
khác nhau.

59
BTL Xác suất & Thống kê GVHD: Nguyễn Kiều Dung

Ta nhận thấy p adj = 0,0251436 > mức ý nghĩa 5%, nên ta chưa bác bỏ được giả
thiết H0. Năng lượng gió trung bình ở điều kiện cấp độ mây Medium và Low bằng
nhau.
Dựa trên việc so sánh bội sau anova, ta nhận thấy đối với điều kiện cấp độ mây
(Extremely Low) sẽ cho thấy năng lượng gió tạo ra thấp hơn so với điều kiện cấp độ
mây (Low, medium, High).

TÀI LIỆU THAM KHẢO


1. Nguyễn Kiều Dung, Bài giảng Xác suất Thống kê
2. Nguyễn Tiến Dũng (chủ biên), Nguyễn Đình Huy, Xác suất – Thống kê & Phân
tích số liệu, 2019
3. Nguyễn Đình Huy (chủ biên), Nguyễn Bá Thi, Giáo trình Xác suất và Thống kê,
2018
4. Introductory Statistics with R, J Jambers – D.Hand – W.Hardle
5. Applied Statistics with R, 2020
6. TS. Nguyễn Cảnh Huy, Bài giảng môn học Kinh tế Lượng.
7. Chu Nguyễn Mộng Ngọc, Hoàng Trọng, Thống kê Ứng dụng.

60

You might also like