You are on page 1of 29

BÀI 2

HỌC THUỘC TÊN BIẾN ĐI NHA


Đầu tiên từ bảng số liệu ban đầu ta vẽ đồ thị phân
phối điểm cuối khóa
Theo hình ta thấy điểm cuối khóa phân bố nhiều
nhất ở khoảng 8-10 điểm, ít nhất ở khoảng 2-4
điểm.
Và ta nhận thấy có 38 học sinh ở khoảng điểm từ 0-
2 điểm làm cho đồ thị nhìn mất đi hình dạng vốn
có, nên sẽ là yếu tố ảnh hưởng đến mô hình thống

Tiếp theo, ta dùng lệnh boxplot để vẽ phân
phối biến G3 thoe biến studytime, failure,
higher
Thì ta thấy các biến đều ảnh hưởng đến
biến G3 một cách khác nhau, nên ta nói
rằng các biến trên đều có ảnh hưởng đến
biến G3
Và tiếp theo ta dùng lệnh pairs để vẽ đồ thị phân tán giữa
biến G3 với các biến G2,G1,absences và age. Và thấy được
rằng biến G3 có quan hệ tuyến tính với các biến G1 và G2.
Còn biến age, absences ko có quan hệ tuyến tính với biến
G3 nên ta có thể xem là không có ảnh hưởng nhiều đến
biến G3
Tiếp theo ta xây dựng mô hình Hồi quy tuyến tính với biến G3 là
biến phụ thuộc, tất cả các biến còn lại là biến độc lập.
Trong các biến độc lập thì biến failures và studytime là biến phân
loại nên ta chuyển về dạng factor và đây là kết quả mô hình.
Ta nhận thấy giá trị P-value nhỏ hơn mức ý nghĩa nên ta bác bỏ
gải thuyết H0, và chấp nhận đối thuyết H1 tức là mô hình có ý
nghĩa thống kê.
Ta thấy giá trị p-value của các biến studytime2 và 3 failures 2 và 3
và higher lớn hơn lớn hơn mức ý nghĩa nên ko có ý nghĩa thống
kê.
Mô hình hồi quy M2 là mô hình loại bỏ biến higher từ mô
hình M1. Và đây là kết quả.
Mô hình hồi quy M3 là mô hình loại bỏ biến
failures từ M2, và đây là kết quả
Ta dung lệnh anova để so sánh hiệu quả của hai
phương trình.
So sánh mô hình M1 và M2 ta thấy rằng P-value >
mức ý nghĩa. Chấp nhận giả thuyết H0 là 2 mô hình
có hiệu quả như nhau.
Ta tiếp tục so sánh bằng R bình(độ xác định) hiệu
chỉnh thì R bình hiệu chỉnh của M2 lớn hơn M1 nên
mô hình M2 có hiệu quả hơn M1

So sánh mô hình M2 vs M3 ta thấy rằng P-value <


mức ý nghĩa nên ta bác bỏ giả thuyết H0 và chấp
nhận đối thuyết H1 là 2 mô hình có hiệu quả khác
nhau.
Tiếp tục so sánh R bình hiệu chỉnh thì R bình hiệu
chỉnh của M2 lớn hơn M3 nên ta chọn mô hình M2
là mô hình hiệu quả nhất.
Dùng lệnh plot để vẽ đồ thị sai số hồi quy
Nhận xét đồ thị:
Đường màu đỏ ko được thẳng và ngang cho nên giả
định về tính tuyến tính của dữ liệu không thỏa mãn
Đường màu đỏ ko sát đường residuals = 0 thì giả
định các sai số có kì vọng bằng 0 ko thỏa mãn
Các điểm thặng dư không phân bố đều theo đường
màu đỏ và có nhiều outlines thì phương sai các sai
số không là hằng số . Tính đồng nhất của các
phương sai không thỏa mãn
Lập bảng so sánh kết quả dự báo và quan sát. Ta
thấy kết quả dự báo và quan sát có sự sai lệch
lớn khẳng định mô hình không có hiệu quả.
Có thể nhận định rằng do biến G3 có nhiều
điểm outlines ảnh hưởng đến mô hình
BÀI 5
Vẽ đồ thị boxplot biểu diễn trọng lượng của gà
con theo từng loại thức ăn.
Ta thấy ở nhóm casein thì khối lượng gà con là
cao nhất, tuy nhiên phổ khối lượng của nó lại trải
khá dài. Và thấp nhất là nhóm horsebean đậu
răng ngựa.
Ta vẽ đồ thị qqplot để kiểm tra giả định về phân phối
chuẩn của khối lượng gà con theo từng nhóm thức ăn.
Nhận xét: do mẫu ở từng nhóm là quá ít nên qua đồ thị
qqplot ta chưa thể khẳng định dữ liệu có phân phối chuẩn.
Nên ta dùng kiểm định Shapiro-Wilk để kiểm tra phân phối chuẩn
Với các giá trị p-value > mức ý nghĩa thì ta không bác bỏ giả thuyết H0 là có phân phối chuẩn,
P-value< mức ý nghĩa thì bác bỏ giả thuyết H0 và chấp nhận đối thuyết H1 rằng khối lượng
của gà con theo từng nhóm thức ăn ko có phân phối chuẩn
Ta dung kiểm định Barlett để kiểm tra giả định về tính thống nhất của phương sai .
Ta thấy rằng p-value > mức ý nghĩa 5% thì chấp nhận giả thuyết H0, có nghĩa là thỏa
mãn giả định về tính thống nhất của phương sai.
Thực hiện mô hình anova một nhân tố cho biến weight
Và đây là kết quả
Ta nhận thấy P-value bé hơn mức ý nghĩa nên bác bỏ giả thuyết H0 và chấp nhận đối thuyết H1 rằng
khối lượng trung bình của của gà con ở các nhóm thức ăn là khác nhau
Để xác định rằng loại thức ăn nào ảnh hưởng nhất đối với khối
lượng trung bình của gà con thì ta sử dụng so sánh bội
Dựa trên kết quả ta thấy rằng
Giữa horsebean và linseed thì P-value > mức ý nghĩa 5% nên ta
chấp nhận giả thuyết H0 có nghĩa là khối lượng trung bình của gà
con ở hai nhóm thức ăn này là giống nhau.
Giữa nhóm soybean và horse bean thì P-value < mức ý nghĩa 5%
nên ta bác bỏ giả thuyết H0 có nghãi là khối lượng trung bình của
gà con ở hai nhóm soy bean và horsebean là khác nhau. Mặc
khác ta nhận thấy difference nhận giá trị dương khác 0 nên khối
lượng trung bình của gà con ở nhóm soybean là cao hơn nhóm
horsebean.
Tương tự ở các cặp còn lại thì ta sẽ đưa ra kết luận cuối cùng là
khối lượng trung bình của gà con ở nhóm sunflower là cao nhất.
Ngoài ra ta còn có thể thực hiện vẽ đồ thị so sánh bội, và
đây là kết quả, dựa trên đồ thị này thì ta nhận thấy nếu
các khoảng tin cậy cho chênh lệch trung bình giữa hai
nhóm có chứa số 0 ( bị đường difference=0 đi qua) thì
khối lượng trung bình của gà con ở hai nhóm đó là bằng
nhau
Nếu khoảng nào càng lệch về bên phải số 0 tức chứa toàn
số dương thì ta nói khối lượng trung bình của nhóm
trước lớn hơn nhóm sau. Và ngược lại
Từ việc vẽ đồ thị này ta cũng đưa ra kết luận là khối lượng
trung bình của gà con ở nhóm sunflower là cao nhất.
PHẦN RIÊNG
HỌC THUỘC TÊN BIẾN ĐI NHA
Nhận xét: Dựa trên đồ thị ta thấy kích thước của phần
cặn (hay phần kỵ nước) lớn nhất
nằm trong khoảng 1-3 A0 và thấp nhất là 21 A0 .
Tiếp theo, ta sử dụng lệnh pairs ( ) vẽ các phân phối của biế
RMSD lần lượt theo
các biến F1, F2, F3, F4, F5, F6, F8, F9.
Nhận xét: Dựa trên các đồ thị phân tán, ta nhận thấy RMSD có
vẻ có mối quan hệ tuyến
tính với F3 (như hình dưới), nói rõ hơn là mối quan hệ đồng
biến với nhau. Còn đối
với các biến còn lại thì không có quan hệ tuyến tính.
Xây dựng các mô hình hồi quy tuyến tính
Ở đây, chúng ta muốn biết rằng có những yếu tố nào và tác
động như thế nào đến
kích thước phần cặn. Ta xét mô hình hồi quy tuyến tính bao
gồm biến RSMD là một biến phụ thuộc và tất cả các biến còn
lại đều là biến độc lập, dùng lệnh lm( ) để thực thi mô hình
hồi quy tuyến tính bội

Nhận xét:
Ta nhận thấy giá trị P-value nhỏ hơn mức ý nghĩa nên ta bác bỏ
gải thuyết H0, và chấp nhận đối thuyết H1 tức là mô hình có ý
nghĩa thống kê.
Ta thấy rằng P-value ứng với từ F1-F9 < 2.10-6, nghĩa rằng ảnh
hưởng của các biến này có ý nghĩa rất lớn lên biến kích thước
phần cặn RMSD. Biến F5 cũng có ảnh hưởng lớn đến biến
RMSD nhưng ít hơn so với các biến còn lại.
Cuối cùng, từ mô hình hồi quy trên, ta tiến hành vẽ đồ thị biểu
thị sai số hồi quy và giá trị dự báo

Nhận xét:
Đường thẳng màu đỏ trên đồ thi không phải đường cong nên
chưa thỏa mãn giả định tuyến tính của dữ liệu.
Đường màu đỏ ko sát đường residuals = 0 thì giả định các sai số
có kì vọng bằng 0 ko thỏa mãn
Các giá trị thặng dư (sai số) phân tán không đều xung quang
đường thẳng y=0, chứng tỏ phương sai của các sai số không là
hằng số, vi phạm giả định trong mô hình hồi quy.

Ta có thể vẽ thêm các biểu đồ để kiểm tra các giả định của mô
hình hồi quy:
Nhận xét: Đồ thị kiểm tra giá trị về phân phối
chuẩn của các sai số. Nếu các điểm thặng
dư nằm trên cùng một đường thẳng thì điều kiện về
phân phối chuẩn được thỏa mãn.
Ta nhận thấy các giá trị thặng dư tập trung theo
những đường thẳng, ở khoảng đầu và
cuối có vài giá trị lệch ra khỏi đường thẳng. Tuy
nhiên, không đáng kể, ta xem như giả
định phân phối chuẩn của các sai số vẫn đáp ứng.
Dựa vào đồ thị ta thấy đường màu đỏ trên đồ thị là đường cong
và các giá trị thặng dư
không phân tán đều. Đồ thị cho ta thấy rằng giả định tính đồng
nhất về phương sai bị vi
phạm.
Dựa vào đồ thị, ta thấy quan trắc thứ 36240, 23637, 41818 có
thể là những điểm có ảnh
hưởng cao trong bộ dữ liệu. Tuy nhiên các điểm chưa vượt qua
đường khoảng cách
Cook. Do đó các điểm này chưa thật sự ảnh hưởng cao, do đó ta
không cần loại bỏ
chúng khi p
Nhận xét: với khoảng tin cậy 95% ta thấy được độ dài khoảng
tin cậy giá trị dự báo của X1 < X2 nên ta có thể kết luận với tập
dữ liệu X1, ta có thể thu được một giá trị dự báochính xác hơn
so với X2.
Từ mục (4) ta thấy mô hình ta xây dựng chưa thực sự phù hợp
ngoài việc vi phạm nhiều giả định hồi quy, hệ số R-Squared =
0,2823 cũng quá bé nên sự thay đổi của biến RMSDđược giải
thích bởi biến độc lập quá ít.
Do đó mô hình ta xây dựng chưa thực sự phùhợp để dự đoán
cho RMSD. Có thể khi phân tích bài toán ta nhận thấy các biến
F1, F2,F3, F4, F5, F6, F7, F8, F9 đều ảnh hưởng lớn đến biến
RMSD, dù vậy khi xây dựng mô hình hồi quy chưa thật sự tốt
dẫn đến kết quả dự báo sẽ không chính xác.

X1 là thuộc tính tính theo mean giá trị trung bình


X2 là theo max
Cái này so cái nào ok hơn

You might also like