House Prices

KHOA QUẢN TRỊ KINH DOANH
BÁO CÁO CUỐI KÌ

MÔN HỌC: PHÂN TÍCH KINH DOANH
NGHIÊN CỨU MÔ HÌNH DỰ ĐOÁN GIÁ BẤT ĐỘNG

SẢN CỦA NGÔI NHÀ BẰNG AZURE MACHINE
LEARNING
Giảng viên bộ môn: Phạm Ngọc Bảo Duy

Nhóm sinh viên thực hiện:
1. Dương Bảo Ngọc – 207QT62629
2. Nguyễn Thị Huỳnh Như – 207QT62733
3. Nguyễn Thị Kim Huyền – 2173401010775
4. Nguyễn Hồng Quyền - 2173401010772
TP Hồ Chí Minh, Ngày 22 Tháng 03 Năm 2024.

NHẬN XÉT CỦA GIẢNG VIÊN.
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
2
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
3
MỤC LỤC
TÓM TẮT BÁO CÁO.......................................................................................................7
CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU..................................................................9
1.1 Lý do chọn đề tài........................................................................................................9
1.2 Mục tiêu nghiên cứu.................................................................................................11
1.2.1 Mục tiêu chung..................................................................................................11
1.2.2 Mục tiêu cụ thể...................................................................................................11
1.3 Câu hỏi nghiên cứu...................................................................................................11
1.4 Đối tượng, phạm vi nghiên cứu................................................................................11
1.4.1 Đối tượng nghiên cứu........................................................................................11
1.4.2 Phạm vi nghiên cứu............................................................................................11
1.5 Phương pháp nghiên cứu..........................................................................................11
1.6 Ý nghĩa của nghiên cứu............................................................................................12
1.6.1 Ý nghĩa lý thuyết................................................................................................12
1.6.2 Ý nghĩa thực tiễn................................................................................................12
1.7 Bố cục nghiên cứu....................................................................................................12
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT...............................................................................14
2.1 Giới thiệu bài mẫu....................................................................................................14
2.2 Một số định nghĩa.....................................................................................................15
2.2.1 Big Data là gì?...................................................................................................15
2.2.2 Big Data ứng dụng trong kinh doanh.................................................................15
2.2.3 Azure Machine Learning...................................................................................16
2.3 Mô hình nghiên cứu trước........................................................................................17
2.3.1 "Predicting House Prices Using Multiple Linear Regression Model"...............18
2.3.2 "Housing Price Prediction: A Machine Learning Approach"............................18
2.3.3"Predicting Real Estate Prices Using the Multiple Linear Regression Model and
Neural Networks"........................................................................................................18
2.3.4"Predicting Housing Prices in Beijing, China: A Comparative Study of Hedonic
Price Model, ARIMA Model, and LSTM Model"......................................................18
2.3.5"House Price Prediction Using Machine Learning Techniques"........................19
4
CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU..........20
3.1 Thiết kế nghiên cứu..................................................................................................20
3.2 Quy trình nghiên cứu................................................................................................21
3.3 Mô tả bộ dữ liệu.......................................................................................................21
3.3.1 Khái quát bộ dữ liệu...........................................................................................21
3.3.2 Định nghĩa các thuộc tính các biến....................................................................22
3.4 Xử lý dữ liệu.............................................................................................................23
3.5 Phương pháp nghiên cứu..........................................................................................24
3.5.1 Thuật toán Linear Regression............................................................................24
3.5.2 Thuật toán Random Forest.................................................................................25
CHƯƠNG 4 KẾT QUẢ NGHIÊN CỨU........................................................................27
4.1 Các tiêu chí đánh giá mô hình..................................................................................27
4.2 Kết quả nghiên cứu các mô hình..............................................................................27
4.2.1 Mô hình Decision Forest Regression.................................................................31
4.2.2 Mô hình Linear Regression................................................................................33
4.3.3 Mô hình Boosted Decision Tree Regression.....................................................35
4.3 So sánh kết quả nghiên cứu của các mô hình...........................................................38
4.4 Triển khai Web service và thử nghiệm.....................................................................39
CHƯƠNG 5 KẾT LUẬN................................................................................................43
5.1 Tóm tắt kết quả nghiên cứu......................................................................................43
5.2 Ý nghĩa nghiên cứu và hạn chế của đề tài................................................................43
5.2.1 Ý nghĩa của nghiên cứu.....................................................................................43
5.2.2 Hạn chế của đề tài..............................................................................................43
5.3 Hàm ý quản trị..........................................................................................................43
5.3.1 Xây dựng ứng dụng dự đoán giá nhà.................................................................43
5.3.2 Đề xuất hướng nghiên cứu tiếp theo..................................................................44
TÀI LIỆU THAM KHẢO...............................................................................................45
5
Doanh Mục Hình
Hình 1.1 Hiện thị 10 đặc điểm được mong muốn nhất đối với người mua nhà lần đầu.
Hình 3.2 Quy trình nghiên cứu.
Hình 3.3.1 Một phần bộ dữ liệu gốc từ Kaggle.com.
Hình 4.2a Mô tả 19 biến có hệ số tương quan từ cao đến thấp so với biến phụ thuộc.
Hình 4.2b Mô tả tách dữ liệu trong Split Data.
Hình 4.2c Mô tả hoàn chỉnh các bước đánh giá mô hình trong Azure Machine Learning.
Hình 4.2.1a Xây dựng mô hình dự đoán bằng mô hình Decision Forest Regression.
Hình 4.2.1b Kết quả đánh giá mô hình Decision Forest Regression.
Hình 4.2.1c Mô hình Decision Forest Regression khi triển khai Wed Service.
Hình 4.2.2a Xây dựng mô hình dự đoán bằng mô hình Linear Regression.
Hình 4.2.2b Kết quả đánh giá mô hình Linear Regression.
Hình 4.2.2c Mô hình Linear Regression khi triển khai Wed Service.
Hình 4.2.3a Xây dựng mô hình dự đoán bằng mô hình Boosted Decision Tree
Regression.
Hình 4.2.3b Kết quả đánh giá mô hình Boosted Decision Tree Regression.
Hình 4.2.3c Mô hình Boosted Decision Tree Regression khi triển khai Wed Service.
Hình 4.4a Mô hình dự giá bất động sản của ngôi nhà triển khai Wed Service.
Hình 4.4b : Giao diện trước khi bước vào thử nghiệm mô hình.
Hình 4.4c Mẫu thử nghiệm 1.
Hình 4.4d Mẫu thử nghiệm 2.
Doanh Mục Bảng

6
Bảng 3.3.2 Bảng mô tả các thuộc tính.
Bảng 4.3 Bảng so sánh kết quả nghiên cứu của các mô hình.
Doanh Mục Ký Hiệu – Các Chữ Cái Viết Tắt
NAHB - National Association of Home Builders.
7
TÓM TẮT BÁO CÁO
Bài báo cáo “Dự đoán giá bất động sản” được thực hiện nhằm xác định giá bán bất
động sản của một ngôi nhà dựa trên nhiều đặc điểm khác nhau của ngôi nhà bằng Azure
Machine Learning và yêu cầu người mua nhà mô tả ngôi nhà mơ ước của họ. Bộ dữ liệu
này bao gồm khoảng 81 biến và 1460 hàng giải thích mô tả gần như mọi khía cạnh của
nhà ở Ames, Iowa của một tập dữ liệu trên Kaggle. Mỗi hàng tương ứng mỗi ngôi nhà và
bao gồm nhiều các yếu tố nghiên cứu cho rằng nó ảnh hưởng đến giá của từng ngôi nhà.
Trong nghiên cứu này nhóm đã sử dụng các máy học như “Decision Forest
Regression”, “Boosted Decision Tree Regression” và “Linear Regression”. Dựa trên tập
dữ liệu cụ thể có trong bài báo nghiên cứu nhằm xác định, đo lường dựa trên các yêu cầu
của người mua mô tả ngôi nhà ước mơ của họ từ đó đưa ra được mức giá phù hợp và đáp
ứng yêu cầu của người mua. Sau khi xem xét kĩ lưỡng nhóm nhận thấy việc sử dụng phần
mềm Azure Machine Learning, dữ liệu từ Kaggle và Google Colaboratory cho bài nghiên
cứu lần này để có thể xây dựng được mô hình theo bài báo mẫu. Từ đó, xác định được tác
động của các biến độc lập lên các biến phụ thuộc, độ chính xác của từng mô hình áp dụng
và cuối cùng là đưa ra sự so sánh kết quả giữa các thuật toán khác nhau đưa ra các kểt
quả dự đoán khác nhau và chọn ra được con máy phù hợp nhất với nghiên cứu này.
Kết quả nghiên cứu tổng hợp cho ta thấy các nhân tố tác động đến giá của ngôi nhà
như SalePrice: giá bán tài sản bằng đô la. Đây là biến mục tiêu mà bạn đang cố gắng dự
đoán, MSSubClass: Lớp xây dựng, MSZoning: Phân loại phân vùng chung, LotFrontage:
Feet tuyến tính của đường phố kết nối với bất động sản, LotArea: Kích thước lô tính bằng
feet vuông, Street: Loại đường vào, Alley: Loại đường vào ngõ, LotShape: Hình dạng
chung của tài sản, LandContour: Độ bằng phẳng của bất động sản, Utilities: Loại tiện ích
sẵn có, LotConfig: Cấu hình lô, LandSlope: Độ dốc của tài sản, Neighborhood: Các vị trí
thực tế trong giới hạn thành phố Ames, …Hầu hết 81 biến trên tập dữ liệu Kaggle đều
ảnh hưởng đến giá của ngôi nhà.
8
Từ kết quả nghiên cứu, nhóm đề xuất mô hình dự đoán giá chính xác nhất trong các
mô hình nhằm giúp các doanh nghiệp dự đoán được giá bất động sản của ngôi nhà thông
qua nhu cầu khách hàng và tiết kiệm được chi phí cũng như thời gian. Không ít bài báo
đã nghiên cứu về vấn đề dự đoán giá bất động sản,… nhưng với kết quả qua những số
liệu được chạy khảo sát nhóm hy vọng sẽ góp phần giúp ích để các doanh nghiệp bất
động sản nói riêng mà trong cả ngành mua bán nhà nói chung xác định được các giá trị
của ngôi nhà một cách hiệu quả. Cuối cùng, nhóm đưa ra những hạn chế của đề tài
nghiên cứu để đưa ra những kiến nghị, hàm ý quản trị cho doanh nghiệp và giải pháp cho
người mua.
9
CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU
1.1 Lý do chọn đề tài.
Nghiên cứu về giá bất động sản của một ngôi nhà là quan trọng vì nó mang lại nhiều
lợi ích và thông tin hữu ích cho nhiều bên liên quan. Người mua và người bán nhà cần
thông tin chính xác về giá nhà để ra quyết định đầu tư và giao dịch. Nghiên cứu về giá
nhà cung cấp thông tin quan trọng về xu hướng thị trường, giá cả và các yếu tố ảnh
hưởng đến giá nhà.
Nghiên cứu gần đây của NAHB, Người mua nhà thực sự muốn gì, Phiên bản 2021,
đã yêu cầu những người mua lần đầu đánh giá hơn 200 đặc điểm của ngôi nhà và cộng
đồng bằng thang đo bốn bậc: thiết yếu, mong muốn, thờ ơ và không muốn.
Biểu đồ bên dưới hiển thị 10 đặc điểm “được mong muốn nhất” đối với người mua
nhà lần đầu, dựa trên tỷ lệ phần trăm người mua đánh giá một đặc điểm là đáng mong
muốn hoặc thiết yếu.
Hình 1.1 Hiện thị 10 đặc điểm được mong muốn nhất đối với người mua nhà lần đầu.
10
Phòng giặt là đứng đầu danh sách, được 83% người mua lần đầu đánh giá là cần
thiết hoặc mong muốn, tiếp theo là quạt trần và hệ thống chiếu sáng bên ngoài, mỗi loại
được 81% đánh giá là cần thiết hoặc mong muốn. Bốn trong số những tính năng được
người mua lần đầu mong muốn nhất là tính năng nhà bếp:
Bồn rửa đôi trong bếp và tủ đựng thức ăn không cửa ngăn (mỗi loại được 80% đánh
giá là thiết yếu hoặc mong muốn).
Lọc nước uống (78%).
Không gian bàn ăn (77%).
Hai là tính năng ngoài trời: sân hiên (được 78% đánh giá là cần thiết hoặc mong
muốn) và hệ thống chiếu sáng bên ngoài.
Nằm trong top 10 là sàn gỗ cứng cho không gian sinh hoạt ở tầng chính (80%) và
camera an ninh (78%).
Danh sách các tính năng được người mua lần đầu mong muốn nhất cũng tương tự
như danh sách dành cho người mua nhà nói chung, mặc dù người mua nói chung có xu
hướng xếp hạng các tính năng này cao hơn một chút. Ví dụ: phòng giặt là số 1 trong cả
hai danh sách, nhưng được 87% người mua nói chung đánh giá là thiết yếu hoặc mong
muốn, so với 83% ở những người mua lần đầu.
Tuy nhiên, khi dự định và tìm hiểu về giá bất động sản của một ngôi nhà , đại đa số
chúng ta sẽ quan tâm đến giá nhà, khu vực, thiết kế nhà đang hot mà vô tình bỏ qua
những tiêu chí khác và việc chọn nghiên cứu dự đoán giá bất động sản của ngôi nhà giúp
ta hiểu rỏ thêm nhiều vấn đề cần thiết hơn, nhanh gọn, đáp ưng được nhu cầu của người
mua nhanh chóng, hiệu quả và hơn hết có thể mang lại nhiều lợi ích từ cả mặt thị trường,
ứng dụng thực tiễn, phát triển công nghệ, quan tâm xã hội, và nghiên cứu và phát triển
tiếp theo.
11
1.2 Mục tiêu nghiên cứu.
1.2.1 Mục tiêu chung.
Xác đinh các nhân tố ánh hưởng đến giá bất động sản của ngôi nhà, từ đó giúp
doanh nghiệp tiết kiệm chi phí cũng như tiết kiệm thời gian của người bán và cả người
mua.
1.2.2 Mục tiêu cụ thể.

Mục tiêu 1: Xác định các nhân tố ảnh hưởng đến đến giá bất động sản của ngôi nhà.
Mục tiêu 2: Đánh giá mức độ ảnh hưởng của từng nhân tố đến đến giá bất động sản
của ngôi nhà.
Mục tiêu 3: Đề xuất một số giải pháp cho doanh nghiệp.
1.3 Câu hỏi nghiên cứu.

Câu 1: Những nhân tố nào ảnh hưởng đến đến giá bất động sản của ngôi nhà?
Câu 2: Mức độ tác động của các nhân tố đến giá bất động sản của ngôi nhà?
Câu 3: Giải pháp nào giúp ích cho doanh nghiệp kinh doanh bất động sản, người bán
và người mua?
1.4 Đối tượng, phạm vi nghiên cứu.

1.4.1 Đối tượng nghiên cứu.
Đối tượng nghiên cứu của đề tài: Các nhân tố ảnh hưởng đến giá bất động sản của
ngôi nhà.
Đối tượng khảo sát: Người bán, người mua hoặc doanh nghiệp.
1.4.2 Phạm vi nghiên cứu.

Nghiên cứu này được thực hiện tại nhiều doanh nghiệp, người bán và người mua
khác nhau.
12
1.5 Phương pháp nghiên cứu.
Bài nghiên cứu này sử dụng phương pháp nghiên cứu định lượng. Bộ dữ liệu này
bao gồm khoảng 81 biến và 1460 hàng giải thích mô tả gần như mọi khía cạnh của nhà ở
Ames, Iowa của một tập dữ liệu trên Kaggle. Mỗi hàng tương ứng mỗi ngôi nhà và bao
gồm nhiều các yếu tố nghiên cứu cho rằng nó ảnh hưởng đến giá của từng ngôi nhà.
1.6 Ý nghĩa của nghiên cứu.

1.6.1 Ý nghĩa lý thuyết.
Kiểm tra, khẳng định tính đúng đắn của mô hình và kết quả của bài nghiên cứu
trước liên quan tới các yếu tố ảnh hưởng đến giá của từng ngôi nhà. Hơn nữa, bài này còn
nghiên cứu mở rộng hơn việc đưa ra mô hình dự đoán giá của ngôi nhà thông qua các
thông số cũng như đưa ra lý thuyết về xu hướng phân phối phù hợp doanh nghiệp, người
bán và người mua nhằm tiết kiệm được thời gian và chi phí, thời gian.
1.6.2 Ý nghĩa thực tiễn.

Đưa ra mô hình hoàn thiện và đề xuất được các phương pháp hữu ích giúp cho
doanh nghiệp,người bán và người mua từ đó có thể biết được giá nhà tiềm năng, giúp cho
doanh nghiệp, người bán và người mua hoạt động tối ưu. Đồng thời, có thể giúp doanh
nghiệp, người bán và người mua có thể dựa vào đó đưa ra một số khắc phục để có thể
chốt một căn nhà nhanh chóng hơn.
1.7 Bố cục nghiên cứu.

Chương 1. Tổng quan đề tài.
Giới thiệu về lý do, mục tiêu nghiên cứu, đối tượng trong phạm vi nghiên cứu và
đóng góp của nghiên cứu.
Chương 2. Cơ sở lý thuyết.
Trình bày các kiến thức tổng quan về đề tài, giới thiệu về các biến được sử dụng:
biến độc lập và biến phụ thuộc, giới thiệu về công cụ, các mô hình và giải thích về các
nghiên cứu trước.
13
Chương 3. Các phương pháp nghiên cứu.
Mô tả các phương pháp nghiên cứu, chọn ra quy trình nghiên cứu: Nghiên cứu sơ
bộ, phương pháp định lượng. Sau đó là bước làm sạch dữ liệu, mô tả và chọn ra ba
phương pháp là: “Decision Forest Regression”,“Boosted Decision Tree Regression” và
“Linear Regression” để thực hiện nghiên cứu lần này.
Chương 4. Kết quả nghiên cứu.
Trình bày quá trình xây dựng mô hình, đánh giá và lựa chọn mô hình dự đoán, triển
khai Web service và thử nghiệm.
Chương 5. Kết luận nghiên cứu.
Tổng kết toàn bộ quá trình, đưa ra kết luận, hạn chế của nghiên cứu, đề xuất về
hướng nghiên cứu trong tương lai.
14
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Giới thiệu bài mẫu.
Bài mẫu mà nhóm tham khảo có tên là “Walmart Store Sales Forecasting” được
xuất bản ngày 6 tháng 12 năm 2016 bởi tác giả Dmitry Katson. Đây cũng là bài nghiên
cứu để nhóm có ý tưởng làm bài nghiên cứu về giá bất động sản của ngôi nhà.
Lấy dữ liệu từ kaggle và dự đoán doanh số bán hàng cho 45 cửa hàng Walmart ở các
khu vực khác nhau. Mỗi cửa hàng có nhiều gian hàng và dự đoán doanh số bán hàng cho
từng gian hàng trong mỗi cửa hàng.
Trong nghiên cứu này, tác giả sử dụng phương pháp nghiên cứu định tính nhằm
Phân tích và dự đoán doanh số bán hàng của các cửa hàng Walmart có thể được thực hiện
bằng nhiều phương pháp khác nhau trong lĩnh vực dự báo chuỗi thời gian (time series
forecasting) và phân tích dữ liệu. Sau đó, tiền xử lý dữ liệu bao gồm làm sạch dữ liệu, xử
lý dữ liệu bị thiếu, chuẩn hóa dữ liệu và chuyển đổi dữ liệu thành dạng phù hợp cho các
phương pháp phân tích và dự đoán.
Phân tích Exploratory Data Analysis (EDA): Thực hiện phân tích EDA để hiểu rõ
hơn về các đặc điểm của dữ liệu, quan hệ giữa các biến, và tìm ra các mẫu và thông tin
quan trọng trong dữ liệu.
Phân tích chuỗi thời gian: Sử dụng các phương pháp phân tích chuỗi thời gian để
xác định các mẫu, xu hướng và mùa vụ trong dữ liệu bán hàng của các cửa hàng
Walmart. Các phương pháp có thể bao gồm mô hình ARIMA, mô hình Holt-Winters,
hoặc mạng nơ-ron hồi quy dài hạn (Long Short-Term Memory - LSTM).
Xây dựng mô hình dự đoán: Dựa trên các phân tích chuỗi thời gian, xây dựng mô
hình dự đoán doanh số bán hàng cho các cửa hàng Walmart trong tương lai. Các mô hình
có thể được huấn luyện bằng cách sử dụng dữ liệu lịch sử và có thể điều chỉnh để tối ưu
hóa hiệu suất dự đoán.
15
Đánh giá mô hình: Đánh giá hiệu suất của các mô hình dự đoán bằng cách sử dụng
các phép đo như sai số trung bình (Mean Absolute Error - MAE), sai số bình phương
trung bình (Mean Squared Error - MSE), hoặc hệ số xác định (R2). Điều này giúp xác
định xem mô hình nào hoạt động tốt nhất cho dữ liệu cụ thể.
2.2 Một số định nghĩa.

2.2.1 Big Data là gì?
Big Data được hiểu sử dụng để mô tả việc khai thác các thông tin quan trọng từ
nhiều nguồn khác nhau, sau đó các thông tin này được tập hợp lại để phân tích. Nhà
nghiên cứu công nghiệp đã lần đầu tiên công bố định nghĩa cho khái niệm Big Data với
3V: Volume (khối lượng), Velocity (nhanh chóng, tức thời), Variety (đa dạng, không
đồng nhất về cấu trúc). Big Data không giới hạn ở bất cứ lĩnh vực nào, nhưng ở hệ thống
doanh nghiệp, công nghệ này có khả năng đem tới hiệu quả vượt trội bởi không một mô
hình dữ liệu nào đáp ứng đúng tiêu chí 3V của Big Data như khối dữ liệu trong doanh
nghiệp.
Cụ thể là, lượng dữ liệu khổng lồ được ghi lại trong suốt quá trình vận hành doanh
nghiệp có nhiều nguồn, đồng nghĩa có rất nhiều loại cấu trúc khác nhau và được cập nhật
nhanh chóng, tức thì lên hệ thống.
2.2.2 Big Data ứng dụng trong kinh doanh.

Nhiều doanh nghiệp chưa có chiến lược Big Data rõ ràng thường có xu hướng thu
thập được càng nhiều thông tin càng tốt, càng chi tiết, càng chính xác càng tốt. Lượng dữ
liệu này được hi vọng sẽ có thể giúp đội ngũ chuyên gia phân tích dữ liệu trong tương lai
đưa ra những thông tin có giá trị trong điều hành doanh nghiệp. Tuy nhiên, điều này gây
áp lực lên hệ thống hạ tầng công nghệ thông tin của doanh nghiệp, và cũng không giúp
được nhiều cho các chuyên gia phân tích. Vậy nên chiến lược xây dựng Big Data trong
doanh nghiệp nên bắt đầu từ việc đặt câu hỏi, những thông tin nào cần thiết, và có khả
năng đem lại giá trị trước khi bàn tới việc thu thập chúng từ đâu và như thế nào.
16
Tầm quan trọng của Big Data không nằm ở việc khối lượng data thu thập được mỗi
ngày, mà ở chiến lược sử dụng chúng để đem lại những thông tin có giá trị. Giá trị ở đây
thể hiện ở việc, nó giúp giảm chi phí, rút ngắn thời gian, hỗ trợ hoạt động nghiên cứu
phát triển sản phẩm mới và hỗ trợ nhà quản trị trong công tác ra quyết định.
Khi được kết hợp với một hệ thống phân tích dữ liệu mạnh mẽ, Big Data có thể giúp
doanh nghiệp thực hiện các tác vụ như: tìm hiểu về Big Data.
Xác định và cảnh báo về điểm nút có thể dẫn tới phát sinh gián đoạn sản xuất hay
lỗi sản phẩm gần với thời gian thực.
Xây dựng các chương trình khuyến mãi tại điểm bán dựa trên thói quen của khách
hàng.
Tính toán và tổng hợp nhanh chóng danh mục rủi ro.
Phát hiện hành vi gian lận trước khi nó có thể tác động xấu tới hoạt động của doanh
nghiệp.
Có một sự thật rằng, khoa học công nghệ là rất công bằng đối với mọi đối tượng, vì
vậy, kể cả khi bạn chỉ là doanh nghiệp SME, bạn vẫn nhận được rất nhiều lợi ích khi ứng
dụng Big Data như: tăng cường khả năng quản trị, giảm thiểu rủi ro và gian lận thương
mại, duy trì chất lượng, giảm giá thành, tăng năng suất, và cải thiện mối quan hệ khách
hàng.
2.2.3 Azure Machine Learning.

Microsoft Azure Machine Learning (ML) là một dịch vụ mà nhà phát triển có thể sử
dụng để xây dựng các mô hình phân tích dự đoán (sử dụng bộ dữ liệu đào tạo từ nhiều
nguồn dữ liệu khác nhau) và sau đó dễ dàng triển khai các mô hình đó để sử dụng dưới
dạng dịch vụ web trên đám mây. Azure ML Studio cung cấp chức năng phong phú để hỗ
trợ nhiều kịch bản quy trình công việc từ đầu đến cuối để xây dựng các mô hình dự đoán,
từ khả năng truy cập dễ dàng vào các nguồn dữ liệu phổ biến, công cụ trực quan hóa và
17
khám phá dữ liệu phong phú, ứng dụng thuật toán ML phổ biến cũng như đánh giá, thử
nghiệm mô hình và web mạnh mẽ công cụ xuất bản.
Sách điện tử này sẽ trình bày tổng quan về lý thuyết và nguyên tắc khoa học dữ liệu
hiện đại, quy trình làm việc liên quan, sau đó đề cập đến một số thuật toán học máy phổ
biến hơn đang được sử dụng ngày nay. Chúng tôi sẽ xây dựng nhiều mô hình phân tích
dự đoán khác nhau bằng cách sử dụng dữ liệu trong thế giới thực, đánh giá một số thuật
toán máy học khác nhau và chiến lược lập mô hình, sau đó triển khai các mô hình đã
hoàn thành dưới dạng dịch vụ web máy học trên Azure trong vòng vài phút. Cuốn sách
cũng sẽ mở rộng trên Azure đang hoạt động.
Ví dụ về mô hình dự đoán Machine Learning để khám phá các loại ứng dụng máy
khách và máy chủ mà bạn có thể tạo để sử dụng các dịch vụ web Azure Machine
Learning.
Các kịch bản và ví dụ toàn diện trong cuốn sách này nhằm cung cấp đủ thông tin để
bạn nhanh chóng bắt đầu tận dụng các khả năng của Azure ML Studio, sau đó dễ dàng
mở rộng các kịch bản mẫu để tạo các thử nghiệm phân tích dự đoán mạnh mẽ của riêng
bạn. Cuốn sách kết thúc bằng cách cung cấp thông tin chi tiết về cách áp dụng các kỹ
thuật “học tập liên tục” để “đào tạo lại” các mô hình dự đoán Azure ML theo chương
trình mà không cần bất kỳ sự can thiệp nào của con người.
Azure Machine Learning là một dịch vụ đám mây cho phép chúng ta có thể khởi
tạo, quản lý, triển khai các model machine learning. Azure Machine Learning cung cấp
các dịch vụ chính như:
Automated Machine Learning: Tạo nhanh các model từ dữ liệu.
Azure Machine Learning Designer: Một nền tảng low-code giúp trực quan hóa giao
diện khi khởi tạo model.
18
Lưu trữ và xử lý dữ liệu: Nơi lưu trữ và xử lý dự liệu đám mây một cách thuận tiện
có thể scale dễ dàng (Azure Machine Learning Workspace cho phép chúng ta có thể lưu
trữ, tạo máy ảo, thuê máy để train các model).
Notebook & Pipelines: Nơi mà các Data Scientist, Software Engineers, có thể viết
code, train, deploy và quản lý các tasks.
2.3 Mô hình nghiên cứu trước.

Để có thể xác định được một cách chính xác các yếu tố tác động đến giá bất động
sản, chúng ta cùng xem qua các bài báo nghiên cứu đã được phân tích, thiết lập và chứng
minh trước đó. Sau đây là một số bài báo nghiên cứu trước và một số bài báo nghiên cứu
có liên quan:
2.3.1 "Predicting House Prices Using Multiple Linear Regression Model".

Tác giả: Abdelkader Alkhaldi và Adham Atyat.
Tạp chí: International Journal of Computer Applications.
Tóm tắt: Nghiên cứu này sử dụng mô hình hồi quy tuyến tính đa biến để dự đoán giá
nhà dựa trên các yếu tố như diện tích, số lượng phòng, vị trí, và các yếu tố khác.
2.3.2 "Housing Price Prediction: A Machine Learning Approach".

Tác giả: Nitin Patel, Vishal Rajpurohit, và Ritesh Patel.
Tóm tắt: Bài báo này sử dụng các kỹ thuật học máy như mạng nơ-ron nhân tạo và
cây quyết định để dự đoán giá bất động sản dựa trên các biến như diện tích, vị trí, và tiện
ích xung quanh.
2.3.3"Predicting Real Estate Prices Using the Multiple Linear Regression Model and
Neural Networks".
Tác giả: K. K. Sharma và P. N. Chatur.
19
Tóm tắt: Nghiên cứu này so sánh hiệu suất giữa mô hình hồi quy tuyến tính đa biến
và mạng nơ-ron trong việc dự đoán giá bất động sản, và đưa ra kết luận về sự hiệu quả
của từng mô hình.
2.3.4"Predicting Housing Prices in Beijing, China: A Comparative Study of

Hedonic Price Model, ARIMA Model, and LSTM Model".
Tác giả: Hong Zhu và Jianjun Zhu.
Tạp chí: Sustainability.
Tóm tắt: Bài báo này so sánh hiệu suất của ba mô hình khác nhau (mô hình giá
hedonic, mô hình ARIMA, và mô hình LSTM) trong việc dự đoán giá nhà ở Bắc Kinh,
Trung Quốc.
2.3.5"House Price Prediction Using Machine Learning Techniques".

Tác giả: S. Fatima, S. Mahaboob, và M. A. Javeed.
Tạp chí: International Journal of Engineering Research & Technology.
Tóm tắt: Nghiên cứu này thử nghiệm và so sánh hiệu suất của nhiều phương pháp
học máy khác nhau trong việc dự đoán giá nhà, bao gồm k-Nearest Neighbors, Naive
Bayes, Support Vector Machines, và Decision Trees.
20
CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Chương này, sẽ mô tả khái quát bộ dữ liệu bao gồm phương pháp tìm kiếm bộ dữ
liệu, các đặc tính của mỗi biến trong bộ dữ liệu và các bước xử lý bộ dữ liệu trước khi
thực hiện phân tích mô hình nghiên cứu của đề tài. Đồng thời, nhóm cũng sẽ trình bày về
phương pháp nghiên cứu sử dụng mô hình hồi quy với ba máy học như : “Decision Forest
Regression”, “Boosted Decision Tree Regression” và “Linear Regression”
3.1 Thiết kế nghiên cứu.

Bài nghiên cứu của nhóm dựa trên nhu cầu hầu hết doanh nghiệp, người mua và
người bán. Để có cái nhìn tổng quát thì nhóm đã áp dụng các biện pháp nghiên cứu để có
được thành quả chính xác, sau đây một số phương pháp mà nhóm triển khai trong dự án
lần này.
Phương pháp nghiên cứu tài liệu: nhóm đã áp dụng phương pháp nghiên cứu dữ liệu
Big Data, các kiến thức nền tảng và chuyên môn về lĩnh vực logistics và quản trị chuỗi
cung ứng, các môn học bổ trợ về khả năng tìm hiểu lĩnh vực và một số nguồn thông tin tự
học khác trên google và một số bài báo của các nhà khoa học khác để có thêm nguồn kiến
thức áp dụng cho nghiên cứu lần này.
Phương pháp nghiên cứu các thuật toán trong Azure machine learning dựa trên
nhiều thử nghiệm trên nhiều con máy khác nhau thì nhóm có chọn ra ba máy học để so
sánh đưa ra các kết quá khác nhau giúp cho bài nghiên cứu lần này bao gồm “Decision
Forest Regression”, “Boosted Decision Tree Regression” và “Linear Regression”.
Phương pháp so sánh: Với việc phân loại dữ liệu thành nhiều biến khác nhau, từ đây
nhóm có thể tiến hành so sánh giữa những nguồn dữ liệu đó, từ đó rút ra được kết luận về
ra giá bất động sản của ngôi nhà giữa những dữ liệu khác nhau, cho ta thấy được tổng
quát về các biến dữ liệu khác nhau tác động lên khả năng ra giá cả của từng ngôi nhà ra
sao.
21
Phương pháp phân tích và đưa ra giải pháp: dựa vào các nguồn dữ liệu thu thập
được nhóm hình thành các cơ sở dữ liệu để đưa ra một con máy cơ bản xử lý được một số
vấn đề doanh nghiệp gặp phải hiện nay, Bên cạnh việc sử dụng phần mềm Microsoft
Excel để tổng hợp và xử lý nguồn dữ liệu thô đầu vào, nhóm chúng em còn áp dụng
Microsoft Azure để phân tích và dự đoán dữ liệu. Nhờ đó đưa ra được giải pháp giúp cho
doanh nghiệp.
3.2 Quy trình nghiên cứu.

Để xử lý dữ liệu một cách hiệu quả, nhóm đã xây dựng nên quy trình nghiên cứu thể
hiện trình tự giúp định hướng cho quá trình nghiên cứu của nhóm.
Hình 3.2 Quy trình nghiên cứu.
3.3 Mô tả bộ dữ liệu.
3.3.1 Khái quát bộ dữ liệu.
Bài nghiên cứu này, nhóm đã tìm kiếm và thu thập bộ dữ liệu này ở trên
Kaggle.com được tham khảo bởi Dean De Cock yêu cầu người mua nhà mô tả ngôi nhà
mơ ước của họ. Bộ dữ liệu này bao gồm khoảng 81 biến và 1460 hàng giải thích mô tả
gần như mọi khía cạnh của nhà ở Ames, Iowa. Mỗi hàng tương ứng mỗi ngôi nhà và bao
gồm nhiều các yếu tố nghiên cứu cho rằng nó ảnh hưởng đến giá của từng ngôi nhà.
22
Hình 3.3.1 Một phần bộ dữ liệu gốc từ Kaggle.com.
3.3.2 Định nghĩa các thuộc tính các biến.

Sau đây là bảng thuộc tính mà nhóm áp dụng vào trong nghiên cứu, bộ dữ liệu gốc
gồm 81 biến tính năng nhưng có một số biến có số % dự đoán thấp và dữ liệu bị thiếu nên
nhóm đã lọc ra còn lại 19 biến tính năng ngẫu nhiên sau cho bài nghiên cứu.
Bảng 3.3.2 Bảng mô tả các thuộc tính.

STT Tên biến Ý nghĩa
1. ID Số nhà
2. MSSubClass Lớp xây dựng
3. MSZoning Phân loại phân vùng chung
4. LotArea Kích thước lô tính bằng

feet vuông
5. Alley Loại đường vào ngõ

6. LotShape Hình dạng chung của tài
sản
7. LotConfig Cấu hình lô
23
8. Neighborhood Các vị trí thực tế trong giới
hạn thành phố Ames
9. Condition1 Gần đường chính hoặc

đường sắt
10. OverallQual Chất lượng vật liệu và
hoàn thiện tổng thể
11. OverallCond Đánh giá tình trạng tổng

thể
12. YearBuilt Ngày xây dựng ban đầu
13. YearRemodAdd Ngày sửa sang lại
14. RoofStyle Loại mái
15. Functional Đánh giá chức năng của
ngôi nhà
16. YrSold Năm bán
17. SaleType Loại hình bán hàng
18. SaleCondition Tình trạng bán hàng
19. SalePrice Giá bán tài sản bằng đô la
3.4 Xử lý dữ liệu.
Sau khi chọn ra các biến cần thiết cho đề tài, nhóm tiếp tục sử dụng phần mềm
Microsoft Excel cho các bước xử lý bộ dữ liệu của bài nghiên cứu, bao gồm các bước
như sau:
Bước 1: Lọc ra những biến có khả năng cho dự đoán cao cho bài nghiên cứu.
Bước 2: Nhóm tiếp tục làm sạch dữ liệu bằng cách lọc những dữ liệu trống mà
không có khả năng cao trong dự đoán ra, làm tăng độ chính xác cao cho phân tích.
24
3.5 Phương pháp nghiên cứu.
Phương pháp nghiên cứu: Theo phương thức học: Supervised Learning (Học có
giám sát): Supervised learning là thuật toán dự đoán đầu ra (outcome) của một dữ liệu
mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước. Cặp dữ liệu này còn
được gọi là (data, label), tức (dữ liệu, nhãn). Supervised learning là nhóm phổ biến nhất
trong các thuật toán Machine Learning. Trong đó, thuật toán được nhóm triển khai cho
dự án dự đoán giá bất động sản của ngôi nhà là Linear Regression và Random Forests.
Mọi dữ liệu sẽ được thu thập từ Kaggle.
3.5.1 Thuật toán Linear Regression.

Thuật toán Linear Regression là một trong những thuật toán cơ bản và phổ biến nhất
trong học máy và thống kê. Nó được sử dụng để dự đoán một biến liên tục dựa trên các
biến độc lập. Linear Regression tìm kiếm một mối quan hệ tuyến tính giữa các biến độc
lập và biến phụ thuộc.
Cụ thể, trong trường hợp dự đoán giá bất động sản, Linear Regression có thể được
áp dụng bằng cách tìm ra một mối quan hệ tuyến tính giữa các biến như diện tích, vị trí,
số phòng, và giá bán của bất động sản.
Công thức của mô hình Linear Regression có thể được biểu diễn như sau:
Trong đó:
Mục tiêu của Linear Regression là tìm các giá trị của các hệ số β sao cho sai số dự
đoán (ϵ) là nhỏ nhất có thể. Điều này thường được thực hiện thông qua việc tối ưu hóa
25
một hàm mất mát, như hàm bình phương của sai số (Mean Squared Error - MSE) hoặc
hàm trị tuyệt đối của sai số (Mean Absolute Error - MAE).
Linear Regression là một công cụ mạnh mẽ và linh hoạt được sử dụng rộng rãi trong
nhiều lĩnh vực như dự đoán giá bất động sản, dự báo tài chính, và phân tích kinh doanh.
3.5.2 Thuật toán Random Forest.

Random Forest là một thuật toán máy học phổ biến được sử dụng cho các bài toán
phân loại và hồi quy. Nó là một phương pháp kết hợp nhiều cây quyết định để tạo ra một
mô hình dự đoán mạnh mẽ.
Nguyên lý hoạt động:
Bootstrap Sampling (Lấy mẫu ngẫu nhiên lặp lại): Random Forest sử dụng phương
pháp Bootstrap Sampling để tạo ra các tập dữ liệu con khác nhau từ tập dữ liệu huấn
luyện bằng cách lấy mẫu với hoàn lại (có thể trùng lặp).
Random Feature Selection (Chọn đặc trưng ngẫu nhiên): Trong quá trình xây dựng
mỗi cây quyết định, Random Forest chọn một số lượng ngẫu nhiên các đặc trưng từ tập
dữ liệu huấn luyện. Điều này giúp tạo ra sự đa dạng giữa các cây.
Xây dựng Cây Quyết định: Trên mỗi tập dữ liệu con, một cây quyết định được xây
dựng bằng cách chia tập dữ liệu thành các nhóm dựa trên các đặc trưng được chọn. Quá
trình chia tiếp tục đến khi không thể chia được nữa hoặc đạt được điều kiện dừng khác.
Voting hoặc Average Prediction (Bỏ phiếu hoặc Dự đoán trung bình): Trong bước
cuối cùng, Random Forest kết hợp các dự đoán từ tất cả các cây trong tập hợp bằng cách
thực hiện bỏ phiếu (trong trường hợp phân loại) hoặc tính trung bình (trong trường hợp
hồi quy).
Ưu điểm:
Khả năng làm việc tốt với dữ liệu lớn và số lượng lớn các đặc trưng.
Tự động xử lý các giá trị còn thiếu và các đặc trưng phân loại không phải làm việc.
26
Độ chính xác cao và khả năng tự động chọn đặc trưng quan trọng.
Nhược điểm:
Có thể phức tạp và tốn kém về mặt tính toán so với một số thuật toán khác.
Không dễ giải thích như một số thuật toán khác như Linear Regression hoặc
Decision Trees đơn lẻ.
27
CHƯƠNG 4 KẾT QUẢ NGHIÊN CỨU
4.1 Các tiêu chí đánh giá mô hình.
Dựa theo bài báo mẫu và kết quả đánh giá sau khi chạy mô hình trên nền tảng Azure
Machine Learning , nhóm đã chọn ra hai tiêu chí đánh giá mô hình. Bài báo mẫu đã đánh
giá cả ba mô hình Decision Forest Regression, Boosted Decision Tree Regression và
Linear Regression bằng chỉ số trong bảng Evaluation results.
Khi so sánh và chọn ra mô hình dự đoán tốt nhất nhóm sẽ dựa vào Coefficient of
Determination (Hệ số xác định) trong bảng Evaluation results. Do đó, đây là phương
pháp ước tính tiêu chuẩn để đánh giá sự phù hợp của mô hình dữ liệu. Bên cạnh đó, nó
cũng thể hiện tỷ lệ đoán chính xác của mô hình. Hệ số xác định này càng cao thì mức độ
dự đoán của mô hình này càng cao.
Coefficient of Determination: Hệ số xác định này được sử dụng để đánh giá hoạt
động của mô hình. Hệ số xác định cao cho biết khả năng phân biệt độ tin cậy và những
trường hợp không đáng tin cậy một cách chính xác. Ngoài ra còn dựa vào các thông số
Negative Log Likelihood (NLL), Mean Absolute Error (MAE), Root Mean Squared Error
(RMSE), Relative Absolute Error (RAE), Relative Squared Error (RSE) để đánh giá mô
hình.
4.2 Kết quả nghiên cứu các mô hình.

Để bắt đầu xây dựng mô hình dự đoán giá bất động sản của ngôi nhà trên dữ liệu đã
thu thập, với ba con máy “Decision Forest Regression”, “Boosted Decision Tree
Regression” và “Linear Regression’, nhóm sẽ tiến hành chạy trên Azure Machine
Learning.
Đầu tiên, nhóm truy cập vào trang web https://studio.azureml.net/, đăng nhập và tải
tập dữ liệu “House Pricesxx” lên studio, sau đó chọn New -> Blank Experiment để bắt
đầu tiến hành xây dựng một mô hình học máy. Ở thanh công cụ bên tay trái, nhấp vào
mục “Saved Datasets” – “My Datasets”, nhấn chọn file data đã thêm vào đồng thời kéo
thả chuột vào thí nghiệm đào tạo để làm việc.
28
Tiếp theo, thêm ô lệnh “Edit Metadata”(Chỉnh sửa siêu dữ liệu) vào thí nghiệm đào
tạo, chọn “Launch Column Selector”(Khởi chạy bộ chọn cột) ở thanh công cụ bên phải,
nhóm sẽ tiến hành chọn các biến có định dạng ban đầu là “String”(sợi dây) và chuyển
thành “Make categorical” tại mục tùy chọn “Categorical”(phân loại) để chuyển kiểu dữ
liệu chữ (String) thành dữ liệu phân loại (Categorical).
Xây dựng mô hình trên Azure với bộ dữ liệu sau khi đã được làm sạch, không còn
dữ liệu trống gây nhiễu, với tổng cộng là 1460 mẫu ứng với 19 biến.
Bắt đầu phân tích dữ liệu và xây dựng mô hình.
Trước tiên, sẽ thêm ô lệnh “Filter Based Feature Selection”, lệnh này sẽ giúp máy
tìm ra những biến độc lập có tác động mạnh nhất đến biến phụ thuộc. Nhấp vào “Launch
Column Selector”, chọn biến “SalePrice” vì đây là biến phụ thuộc dùng để dự đoán. Sau
khi chạy bước này, kết quả nhận được 19 biến có hệ số tương quan cao nhất so với biến
phụ thuộc “SalePrice” là:
Hình 4.2a Mô tả 19 biến có hệ số tương quan từ cao đến thấp so với biến phụ thuộc.
Tiếp theo, dựa theo bài “Walmart Store Sales Forecasting”, nhóm sẽ tiến hành tách
dữ liệu để một phần dữ liệu dùng để đào tạo máy và phần còn lại dùng để kiểm tra mô
hình “Split Data” (chia dữ liệu) theo tỉ lệ lần lượt là 0.8 còn lại là 0.2 dữ liệu đào tạo sẽ
được sử dụng để phù hợp với mô hình dự đoán, nhóm để random seed sẽ là “12345” và
dữ liệu thử nghiệm sẽ được sử dụng để đánh giá hiệu suất của mô hình.
29
Hình 4.2b Mô tả tách dữ liệu trong Split Data.
Sau khi tách dữ liệu thành công, việc cần làm tiếp theo là bắt đầu chọn thuật toán để
chạy máy. Thêm ô lệnh “Train Model” và thuật toán cần chạy, ở đây nhóm lần lượt chọn
3 thuật toán đã có sẵn trong Azure là máy “Decision Forest Regression”, “Boosted
Decision Tree Regression” và “Linear Regression’. Ở ô lệnh “Train Model”, chọn biến
độc lập “SalePrice”.
30
Hình 4.2c Mô tả hoàn chỉnh các bước đánh giá mô hình trong Azure Machine Learning.
Cuối cùng, thêm lần lượt theo thứ tự 3 ô lệnh “Score Model” – để máy đưa ra các
kết quả dự đoán sau khi đã train model và “Evaluate Model” – để đánh giá độ chính xác
của kết quả ở “Score Model”. Mô hình chi tiết và kết quả đánh giá của từng mô hình sẽ
được trình bày cụ thể ở phần dưới đây.
31
4.2.1 Mô hình Decision Forest Regression.
Hình 4.2.1a Xây dựng mô hình dự đoán bằng mô hình Decision Forest Regression.
Sau khi hoàn tất việc chạy mô hình như trên, nhóm sẽ đánh giá độ chính xác của mô
hình dự đoán này qua bằng cách chọn “Visualize” ô lệnh “Evaluate Model”. Kết quả
đánh giá được thể hiện như hình sau:
Hình 4.2.1b Kết quả đánh giá mô hình Decision Forest Regression.
32
Hình 4.2.1c Mô hình Decision Forest Regression khi triển khai Wed Service.
33
4.2.2 Mô hình Linear Regression.
Hình 4.2.2a Xây dựng mô hình dự đoán bằng mô hình Linear Regression.
Tương tự, sau khi hoàn tất chạy mô hình, kết quả đánh giá mô hình được
“Visualize” như hình sau:
34
Hình 4.2.2b Kết quả đánh giá mô hình Linear Regression.
35
Hình 4.2.2c Mô hình Linear Regression khi triển khai Wed Service.
4.3.3 Mô hình Boosted Decision Tree Regression.

Đây cũng là mô hình cuối cùng mà nhóm thử nghiệm.
36
Hình 4.2.3a Xây dựng mô hình dự đoán bằng mô hình Boosted Decision Tree Regression.
Kết quả đánh giá mô hình được “Visualize” như hình sau:
37
Hình 4.2.3b Kết quả đánh giá mô hình Boosted Decision Tree Regression.
38
Hình 4.2.3 Mô hình Boosted Decision Tree Regression khi triển khai Wed Service.
4.3 So sánh kết quả nghiên cứu của các mô hình.

Mục tiêu của bài nghiên cứu là tìm ra mô hình dự đoán có độ chính xác cao nhất để
dự đoán quyết định của khách hàng. Do đó, cần so sánh các giá trị đo lường của cả ba mô
hình đã chạy trên để chọn ra mô hình có thuật toán tốt nhất, theo bảng dưới đây:
Bảng 4.3 Bảng so sánh kết quả nghiên cứu của các mô hình.
Mô hình Coefficient of Determination

Decision Forest Regression 0.769721
Linear Regression -0.338903
Boosted Decision Tree Regression 0.796244
39
Dựa trên kết quả đánh giá ta thấy kết quả đánh giá khá tốt, nhóm thấy cả ba mô hình
đều có những chỉ số tốt nhưng mô hình Boosted Decision Tree Regression có các chỉ số ở
mức vừa khá đồng đều nhau làm mô hình dự đoán. Các thông số cụ thể như sau:
Coefficient of Determination: 0.796244 (79%) được đánh giá tạm được trong cả ba
mô hình.
Relative Squared Error: 0.2 khá ổn định khi số này càng nhỏ hoặc bằng 0 thì tức là
mô hình hoàn hảo.
Relative Absolute Error: 0.4 tạm được, nếu nó bằng 0 thì nó cũng giống Relative
Squared Error là nó mô hình hoàn hảo.
Mean Absolute Error và Root Mean Squared Error: lần lượt là 56.51 và 74.96 tạm
ổn.
Cho thấy khả năng cao mô hình này dự đoán ở tầm trung và chuẩn hơn so với hai
mô hình còn lại.
4.4 Triển khai Web service và thử nghiệm.

Sau khi hoàn tất mô hình, nhóm tiến hành bấm Run để chạy mô hình Boosted
Decision Tree Regression. Sau khi chạy xong, nhóm sẽ bấm vào Set up Web Service ở
bên dưới và chọn Predictive Web Service [Recommended] nhóm nhận được giao diện
như sau:
40
Hình 4.4a Mô hình dự giá bất động sản của ngôi nhà triển khai Wed Service.
Để việc test mô hình được thực hiện tinh gọn hơn, nhóm kéo thả thêm 1 select
column vào mô hình. Select column đầu nhầm loại bỏ biến dự đoán “SalePrice” khi input
dữ liệu để test.
Sau khi hoàn tất chạy mô hình xong, ta tiến hành thử nghiệm như sau: Đầu tiên ta
bấm vào Deloy Web Service sau đó bấm chọn Test Preview như hình sau:
41
Hình 4.4b : Giao diện trước khi bước vào thử nghiệm mô hình.
Sau đây là mẫu test dự báo của nhóm:
Đầu tiên nhóm nhập vào các giá trị các biến theo yêu cầu mà nhóm muốn dự báo.
Hình 4.4c Mẫu thử nghiệm 1.
42
Hình 4.4d Mẫu thử nghiệm 2.
Sau hai lần thử nghiệm thì kết quả có thay đổi khi thay đổi id của ngôi nhà giá trị
cũng tăng theo. Từ đó ta có thể thay đổi theo yêu cầu của người mua cung cấp để đưa ra
được giá bất động sản của ngôi nhà.
43
CHƯƠNG 5 KẾT LUẬN
5.1 Tóm tắt kết quả nghiên cứu.
Trong bài nghiên cứu này, chúng tôi đã thực hiện một phân tích so sánh về hiệu suất
của các mô hình dự đoán giá của ngôi nhà sử dụng Azure Machine Learning. Dựa trên
một bộ dữ liệu mẫu về thông tin các ngôi nhà và giá bán tương ứng, chúng tôi đã xây
dựng và đánh giá ba mô hình: Decision Forest Regression, Boosted Decision Tree
Regression và Linear Regression. Kết quả cho thấy một số mô hình có tỷ lệ dự đoán cao
xấp xỉ 80%. Tuy nhiên, một trong số các mô hình đã thể hiện khả năng dự đoán ổn định
và chính xác hơn so với các mô hình khác. Do đó, chúng tôi kết luận rằng mô hình
Boosted Decision Tree Regression là lựa chọn được khuyến nghị để phát triển mô hình
dự đoán giá nhà.
5.2 Ý nghĩa nghiên cứu và hạn chế của đề tài.

5.2.1 Ý nghĩa của nghiên cứu.
Nghiên cứu này có ý nghĩa quan trọng trong việc hỗ trợ các nhà phát triển bất động
sản và nhà đầu tư hiểu rõ hơn về yếu tố ảnh hưởng đến giá của một ngôi nhà. Bằng cách
dự đoán giá của ngôi nhà một cách chính xác, các doanh nghiệp có thể thực hiện các
chiến lược kinh doanh hiệu quả hơn, giảm thiểu rủi ro và tối ưu hóa lợi nhuận.
5.2.2 Hạn chế của đề tài.

Một số hạn chế của nghiên cứu bao gồm việc giả định rằng giá nhà chỉ phụ thuộc
vào các biến được sử dụng trong mô hình, bỏ qua những yếu tố phức tạp khác như tình
trạng kinh tế, thị trường bất động sản địa phương và yếu tố xã hội. Ngoài ra, các mô hình
chỉ dựa trên dữ liệu có sẵn, có thể không phản ánh đầy đủ sự đa dạng của thị trường bất
động sản.
44
5.3 Hàm ý quản trị.
5.3.1 Xây dựng ứng dụng dự đoán giá nhà.
Kết quả của nghiên cứu có thể được áp dụng vào việc xây dựng ứng dụng dự đoán
giá nhà, giúp cho các nhà phát triển bất động sản và nhà đầu tư đưa ra quyết định đầu tư
thông minh và hiệu quả hơn.
5.3.2 Đề xuất hướng nghiên cứu tiếp theo.

Các nghiên cứu sau có thể mở rộng phạm vi bằng cách tích hợp các biến động khác
nhau như vị trí địa lý, tiện ích xung quanh, và thông tin về cơ sở hạ tầng. Ngoài ra, việc
áp dụng các kỹ thuật Machine Learning tiên tiến hơn cũng có thể cải thiện hiệu suất dự
đoán của mô hình.
45
TÀI LIỆU THAM KHẢO
Top 10 Features for First-Time Home Buyers.
https://www.nahb.org/blog/2022/03/top-10-features-for-first-time-home-buyers
Walmart Recruiting - Store Sales Forecasting.
https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting
Tô Nhung, Ligosoft “Tìm hiểu về big data trong doanh nghiệp”.
https://itgtechnology.vn/tim-hieu-ve-big-data-trong-doanh-nghiep/
International Journal of Computer Applications
https://www.ijcaonline.org/
Linear regression.
https://en.wikipedia.org/wiki/Linear_regression
Random forest.
https://en.wikipedia.org/wiki/Random_forest
International Journal of Engineering Research & Technology
https://ijsrm.net/index.php/ijsrm
46

House Prices

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

House Prices

Uploaded by

Copyright:

Available Formats

KHOA QUẢN TRỊ KINH DOANH

BÁO CÁO CUỐI KÌ

NGHIÊN CỨU MÔ HÌNH DỰ ĐOÁN GIÁ BẤT ĐỘNG

Giảng viên bộ môn: Phạm Ngọc Bảo Duy

TP Hồ Chí Minh, Ngày 22 Tháng 03 Năm 2024.

Hình 3.2 Quy trình nghiên cứu.

Hình 3.3.1 Một phần bộ dữ liệu gốc từ Kaggle.com.

Hình 4.2b Mô tả tách dữ liệu trong Split Data.

Hình 4.2.2b Kết quả đánh giá mô hình Linear Regression.

Hình 4.4c Mẫu thử nghiệm 1.

Hình 4.4d Mẫu thử nghiệm 2.

Doanh Mục Bảng

Doanh Mục Ký Hiệu – Các Chữ Cái Viết Tắt

NAHB - National Association of Home Builders.

Lọc nước uống (78%).

Không gian bàn ăn (77%).

1.2.2 Mục tiêu cụ thể.

Mục tiêu 3: Đề xuất một số giải pháp cho doanh nghiệp.

1.3 Câu hỏi nghiên cứu.

1.4 Đối tượng, phạm vi nghiên cứu.

1.4.2 Phạm vi nghiên cứu.

1.6 Ý nghĩa của nghiên cứu.

1.6.2 Ý nghĩa thực tiễn.

1.7 Bố cục nghiên cứu.

Chương 4. Kết quả nghiên cứu.

Chương 5. Kết luận nghiên cứu.

2.2 Một số định nghĩa.

2.2.2 Big Data ứng dụng trong kinh doanh.

2.2.3 Azure Machine Learning.

Automated Machine Learning: Tạo nhanh các model từ dữ liệu.

2.3 Mô hình nghiên cứu trước.

2.3.1 "Predicting House Prices Using Multiple Linear Regression Model".

Tạp chí: International Journal of Computer Applications.

2.3.2 "Housing Price Prediction: A Machine Learning Approach".

Tạp chí: International Journal of Computer Applications.

Tạp chí: International Journal of Computer Applications.

2.3.4"Predicting Housing Prices in Beijing, China: A Comparative Study of

Tạp chí: Sustainability.

2.3.5"House Price Prediction Using Machine Learning Techniques".

Tạp chí: International Journal of Engineering Research & Technology.

3.1 Thiết kế nghiên cứu.

3.2 Quy trình nghiên cứu.

Hình 3.2 Quy trình nghiên cứu.

3.3.2 Định nghĩa các thuộc tính các biến.

Bảng 3.3.2 Bảng mô tả các thuộc tính.

4. LotArea Kích thước lô tính bằng

5. Alley Loại đường vào ngõ

9. Condition1 Gần đường chính hoặc

11. OverallCond Đánh giá tình trạng tổng

3.5.1 Thuật toán Linear Regression.

3.5.2 Thuật toán Random Forest.

Nguyên lý hoạt động:

4.2 Kết quả nghiên cứu các mô hình.

Bắt đầu phân tích dữ liệu và xây dựng mô hình.

4.3.3 Mô hình Boosted Decision Tree Regression.

4.3 So sánh kết quả nghiên cứu của các mô hình.

Mô hình Coefficient of Determination

Boosted Decision Tree Regression 0.796244

4.4 Triển khai Web service và thử nghiệm.

Sau đây là mẫu test dự báo của nhóm:

Hình 4.4c Mẫu thử nghiệm 1.

5.2 Ý nghĩa nghiên cứu và hạn chế của đề tài.

5.2.2 Hạn chế của đề tài.

5.3.2 Đề xuất hướng nghiên cứu tiếp theo.