Professional Documents
Culture Documents
Bai Tap Lon XSTK (Mt2013) - Hk211
Bai Tap Lon XSTK (Mt2013) - Hk211
Yêu cầu:
• Tất cả sinh viên không thuộc 2 khoa sau: Khoa Điện – Điện tử, Khoa Kỹ Thuật Địa
Chất và Dầu Khí, đều bắt buộc làm bài tập lớn này.
• Mõi nhóm sẽ phụ trách một đề tài bao gồm 2 hoạt động.
• Mõi nhóm phải nộp một báo cáo đề tài dài không quá 30 trang. Trên trang bìa của
bài báo cáo phải ghi rõ các thông tin sau: Họ tên sinh viên, MSSV, lớp, khoa, mã số
nhóm và mã số đề tài.
• Sinh viên dùng R/Rstudio để thực hiện việc phân tích số liệu trong bài tập lớn này.
• Bài báo cáo phải bao gồm tất cả các thông tin sau: mục lục, đề bài, bảng số liệu, hình
vẽ, R code, tài liệu tham khảo, và nguồn dữ liệu.
Khuyến khích:
• Sinh viên có thể sử dụng các mô hình xác suất thống kê mở rộng không được cung cấp
trong khoá học để phân tích dữ liệu trong đề tài của mình.
• Sinh viên có thể sử dụng các dữ liệu mới, có ý nghĩa cho chuyên môn mà sinh viên
đang học: dữ liệu từ thí nghiệm thực tế, dữ liệu do sinh viên tự thu thập được, ...
1
Đề tài 1
Hoạt động 1:
Tập tin "gia_nha.csv" chứa thông tin về giá bán ra thị trường (đơn vị đô la) của 21613
ngôi nhà ở quận King nước Mỹ trong khoảng thời gian từ tháng 5/2014 đến 5/2015. Bên
cạnh giá nhà, dữ liệu còn bao gồm các thuộc tính mô tả chất lượng ngôi nhà. Dữ liệu gốc
được cung cấp tại: https://www.kaggle.com/harlfoxem/housesalesprediction.
• condition: Điều kiện kiến trúc của ngôi nhà từ 1 − 5, 1: rất tệ và 5: rất tốt.
• view: Đánh giá cảnh quan xung quanh nhà theo mức độ từ thấp đến cao: 0-4.
4. Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến
giá nhà ở quận King.
Hoạt động 2:
• Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh
viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên
ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác
hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
• Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ
liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô
hình dữ liệu (model fitting).
2
Đề tài 2
Hoạt động 1:
Tập tin "diem_so.csv" chứa thông tin về điểm toán của các em học sinh trung học thuộc
hai trường học ở Bồ Đào Nha. Các thuộc tính dữ liệu bao gồm điểm học sinh, nơi cư
trú, và một số hoạt động xã hội khác. Dữ liệu được thu thập bằng cách sử dụng báo
cáo của các trường và các kết quả khảo sát sinh viên. Dữ liệu gốc được cung cấp tại:
https://archive.ics.uci.edu/ml/datasets/student+performance.
Hoạt động 2:
• Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh
viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên
ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác
hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
• Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ
liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô
hình dữ liệu (model fitting).
3
Đề tài 3
Hoạt động 1:
Tập tin Diet.csv (cung cấp bởi Đại học Sheffield, Anh) chứa thông tin về một thử nghiệm
về hiệu quả của các chế độ ăn kiêng trong việc giảm cân nặng đối với những người trưởng
thành. Một người tham gia sẽ được áp dụng một trong ba chế độ ăn kiêng khác nhau trong
vòng 6 tuần lễ. Cân nặng của người tham gia sẽ được ghi nhận trước và sau khi kết thúc
thử nghiệm để đánh giá hiệu quả của từng chế độ ăn kiêng.
Hoạt động 2:
• Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh
viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên
ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác
hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
• Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ
liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô
hình dữ liệu (model fitting).
4
Đề tài 4
Hoạt động 1:
Tập tin flights.rda cung cấp thông tin về 162049 chuyến bay đã khởi hành từ hai sân bay
lớn của vùng Tây bắc Thái Bình Dương của Mỹ, SEA ở Seattle và PDX ở Portland trong năm
2014. Dữ liệu cung cấp bởi Văn phòng Thống kê Vận tải, Mỹ (https://www.transtats.bts.gov/).
Dữ liệu này được dùng để phân tích các nguyên nhân gây ra sự khởi hành trễ hoặc hoãn các
chuyến bay. Chi tiết về bộ dữ liệu như sau:
Hoạt động 2:
• Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh
viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án,. . . trong chuyên
ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác
hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
• Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ
liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô
hình dữ liệu (model fitting).
5
Đề tài 5
Hoạt động 1:
Tập tin heat_data được thu thập với mục tiêu đánh giá các nhân tố ảnh hưởng đến mức
độ thu nhiệt và toả nhiệt của các ngôi nhà.
Hoạt động 2:
• Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh
viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên
ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác
hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
• Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ
liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô
hình dữ liệu (model fitting).
6
Đề tài 6
Hoạt động 1:
Dữ liệu được cho trong file "auto-mpg.csv" là bộ dữ liệu tiêu thụ nhiên liệu của xe trong
thành phố. Dữ liệu được lấy từ UCI Machine Learning Repository
(https://archive.ics.uci.edu/ml/datasets/Auto+MPG). Bộ dữ liệu gồm 398 quan trắc trên 9
biến sau:
• "mpg": (continuous) mức tiêu thụ nhiên liệu tính theo dặm trên galon (miles/gallon),
• "origin": (multi-valued discrete) nơi sản xuất: 1 - North American, 2 - Europe, 3 - Asia
Yêu cầu:
1. Nhập và "làm sạch" dữ liệu (lưu ý, biến "horsepower" có 6 quan trắc thiếu dữ liệu; xét
xem có dữ liệu ngoại lai không?), thực hiện các thống kê mô tả. (Chú ý các cột của file
"auto-mpg.csv" được phân tách bởi dấu ";", khi đọc file dữ liệu dùng lệnh "read.csv"
cần thêm sep = ";")
2. Chia bộ dữ liệu làm 2 phần: mẫu huấn luyện (training dataset) gồm 200 quan trắc
đặt tên "auto_mpg1" và mẫu kiểm tra (validation dataset) gồm các quan trắc còn lại
trong bộ dữ liệu ban đầu đã "làm sạch", đặt tên "auto_mpg2".
3. Chọn mô hình tốt nhất giải thích cho biến phụ thuộc "mpg" thông qua việc chọn lựa các
biến độc lập phụ hợp trong 8 biến độc lập còn lại từ mẫu huấn luyện " "auto_mpg1".
Cần trình bày từng bước phương pháp chọn, tiêu chuẩn chọn mô hình, lý do chọn
phương pháp đó.
6. Dự báo (Prediction): Sử dụng mẫu kiểm tra (validation dataset) "auto_mpg2" và dựa
vào mô hình tốt nhất được chọn trên đưa số liệu dự báo cho biến phụ thuộc "mpg".
Gọi kết quả dự báo này là biến "predict_mpg".
7. So sánh kết quả dự báo "predict_mpg" với giá trị thực tế của "mpg". Rút ra nhận
xét?
7
Hoạt động 2:
• Sinh viên tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình. Khuyến khích sinh
viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án, . . . trong chuyên
ngành của mình. Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác
hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
• Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ
liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu (data visualization) và mô
hình dữ liệu (model fitting).
Tài liệu
[1] Douglas C. Montgomery, George C. Runger. Hoboken. Applied Statistics and Probability
for Engineers. NJ: Wiley, (2007).
[3] Gareth, J., Daniela, W., Trevor, H. and Robert, T. An introduction to statistical
learning: with applications in R. Springer, (2013).