Professional Documents
Culture Documents
House Prices
House Prices
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
2
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
...........................................................................................................................................
3
MỤC LỤC
TÓM TẮT BÁO CÁO.......................................................................................................7
CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU..................................................................9
1.1 Lý do chọn đề tài........................................................................................................9
1.2 Mục tiêu nghiên cứu.................................................................................................11
1.2.1 Mục tiêu chung..................................................................................................11
1.2.2 Mục tiêu cụ thể...................................................................................................11
1.3 Câu hỏi nghiên cứu...................................................................................................11
1.4 Đối tượng, phạm vi nghiên cứu................................................................................11
1.4.1 Đối tượng nghiên cứu........................................................................................11
1.4.2 Phạm vi nghiên cứu............................................................................................11
1.5 Phương pháp nghiên cứu..........................................................................................11
1.6 Ý nghĩa của nghiên cứu............................................................................................12
1.6.1 Ý nghĩa lý thuyết................................................................................................12
1.6.2 Ý nghĩa thực tiễn................................................................................................12
1.7 Bố cục nghiên cứu....................................................................................................12
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT...............................................................................14
2.1 Giới thiệu bài mẫu....................................................................................................14
2.2 Một số định nghĩa.....................................................................................................15
2.2.1 Big Data là gì?...................................................................................................15
2.2.2 Big Data ứng dụng trong kinh doanh.................................................................15
2.2.3 Azure Machine Learning...................................................................................16
2.3 Mô hình nghiên cứu trước........................................................................................17
2.3.1 "Predicting House Prices Using Multiple Linear Regression Model"...............18
2.3.2 "Housing Price Prediction: A Machine Learning Approach"............................18
2.3.3"Predicting Real Estate Prices Using the Multiple Linear Regression Model and
Neural Networks"........................................................................................................18
2.3.4"Predicting Housing Prices in Beijing, China: A Comparative Study of Hedonic
Price Model, ARIMA Model, and LSTM Model"......................................................18
2.3.5"House Price Prediction Using Machine Learning Techniques"........................19
4
CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU..........20
3.1 Thiết kế nghiên cứu..................................................................................................20
3.2 Quy trình nghiên cứu................................................................................................21
3.3 Mô tả bộ dữ liệu.......................................................................................................21
3.3.1 Khái quát bộ dữ liệu...........................................................................................21
3.3.2 Định nghĩa các thuộc tính các biến....................................................................22
3.4 Xử lý dữ liệu.............................................................................................................23
3.5 Phương pháp nghiên cứu..........................................................................................24
3.5.1 Thuật toán Linear Regression............................................................................24
3.5.2 Thuật toán Random Forest.................................................................................25
CHƯƠNG 4 KẾT QUẢ NGHIÊN CỨU........................................................................27
4.1 Các tiêu chí đánh giá mô hình..................................................................................27
4.2 Kết quả nghiên cứu các mô hình..............................................................................27
4.2.1 Mô hình Decision Forest Regression.................................................................31
4.2.2 Mô hình Linear Regression................................................................................33
4.3.3 Mô hình Boosted Decision Tree Regression.....................................................35
4.3 So sánh kết quả nghiên cứu của các mô hình...........................................................38
4.4 Triển khai Web service và thử nghiệm.....................................................................39
CHƯƠNG 5 KẾT LUẬN................................................................................................43
5.1 Tóm tắt kết quả nghiên cứu......................................................................................43
5.2 Ý nghĩa nghiên cứu và hạn chế của đề tài................................................................43
5.2.1 Ý nghĩa của nghiên cứu.....................................................................................43
5.2.2 Hạn chế của đề tài..............................................................................................43
5.3 Hàm ý quản trị..........................................................................................................43
5.3.1 Xây dựng ứng dụng dự đoán giá nhà.................................................................43
5.3.2 Đề xuất hướng nghiên cứu tiếp theo..................................................................44
TÀI LIỆU THAM KHẢO...............................................................................................45
5
Doanh Mục Hình
Hình 1.1 Hiện thị 10 đặc điểm được mong muốn nhất đối với người mua nhà lần đầu.
Hình 4.2a Mô tả 19 biến có hệ số tương quan từ cao đến thấp so với biến phụ thuộc.
Hình 4.2c Mô tả hoàn chỉnh các bước đánh giá mô hình trong Azure Machine Learning.
Hình 4.2.1a Xây dựng mô hình dự đoán bằng mô hình Decision Forest Regression.
Hình 4.2.1b Kết quả đánh giá mô hình Decision Forest Regression.
Hình 4.2.1c Mô hình Decision Forest Regression khi triển khai Wed Service.
Hình 4.2.2a Xây dựng mô hình dự đoán bằng mô hình Linear Regression.
Hình 4.2.2c Mô hình Linear Regression khi triển khai Wed Service.
Hình 4.2.3a Xây dựng mô hình dự đoán bằng mô hình Boosted Decision Tree
Regression.
Hình 4.2.3b Kết quả đánh giá mô hình Boosted Decision Tree Regression.
Hình 4.2.3c Mô hình Boosted Decision Tree Regression khi triển khai Wed Service.
Hình 4.4a Mô hình dự giá bất động sản của ngôi nhà triển khai Wed Service.
Hình 4.4b : Giao diện trước khi bước vào thử nghiệm mô hình.
Bảng 4.3 Bảng so sánh kết quả nghiên cứu của các mô hình.
7
TÓM TẮT BÁO CÁO
Bài báo cáo “Dự đoán giá bất động sản” được thực hiện nhằm xác định giá bán bất
động sản của một ngôi nhà dựa trên nhiều đặc điểm khác nhau của ngôi nhà bằng Azure
Machine Learning và yêu cầu người mua nhà mô tả ngôi nhà mơ ước của họ. Bộ dữ liệu
này bao gồm khoảng 81 biến và 1460 hàng giải thích mô tả gần như mọi khía cạnh của
nhà ở Ames, Iowa của một tập dữ liệu trên Kaggle. Mỗi hàng tương ứng mỗi ngôi nhà và
bao gồm nhiều các yếu tố nghiên cứu cho rằng nó ảnh hưởng đến giá của từng ngôi nhà.
Trong nghiên cứu này nhóm đã sử dụng các máy học như “Decision Forest
Regression”, “Boosted Decision Tree Regression” và “Linear Regression”. Dựa trên tập
dữ liệu cụ thể có trong bài báo nghiên cứu nhằm xác định, đo lường dựa trên các yêu cầu
của người mua mô tả ngôi nhà ước mơ của họ từ đó đưa ra được mức giá phù hợp và đáp
ứng yêu cầu của người mua. Sau khi xem xét kĩ lưỡng nhóm nhận thấy việc sử dụng phần
mềm Azure Machine Learning, dữ liệu từ Kaggle và Google Colaboratory cho bài nghiên
cứu lần này để có thể xây dựng được mô hình theo bài báo mẫu. Từ đó, xác định được tác
động của các biến độc lập lên các biến phụ thuộc, độ chính xác của từng mô hình áp dụng
và cuối cùng là đưa ra sự so sánh kết quả giữa các thuật toán khác nhau đưa ra các kểt
quả dự đoán khác nhau và chọn ra được con máy phù hợp nhất với nghiên cứu này.
Kết quả nghiên cứu tổng hợp cho ta thấy các nhân tố tác động đến giá của ngôi nhà
như SalePrice: giá bán tài sản bằng đô la. Đây là biến mục tiêu mà bạn đang cố gắng dự
đoán, MSSubClass: Lớp xây dựng, MSZoning: Phân loại phân vùng chung, LotFrontage:
Feet tuyến tính của đường phố kết nối với bất động sản, LotArea: Kích thước lô tính bằng
feet vuông, Street: Loại đường vào, Alley: Loại đường vào ngõ, LotShape: Hình dạng
chung của tài sản, LandContour: Độ bằng phẳng của bất động sản, Utilities: Loại tiện ích
sẵn có, LotConfig: Cấu hình lô, LandSlope: Độ dốc của tài sản, Neighborhood: Các vị trí
thực tế trong giới hạn thành phố Ames, …Hầu hết 81 biến trên tập dữ liệu Kaggle đều
ảnh hưởng đến giá của ngôi nhà.
8
Từ kết quả nghiên cứu, nhóm đề xuất mô hình dự đoán giá chính xác nhất trong các
mô hình nhằm giúp các doanh nghiệp dự đoán được giá bất động sản của ngôi nhà thông
qua nhu cầu khách hàng và tiết kiệm được chi phí cũng như thời gian. Không ít bài báo
đã nghiên cứu về vấn đề dự đoán giá bất động sản,… nhưng với kết quả qua những số
liệu được chạy khảo sát nhóm hy vọng sẽ góp phần giúp ích để các doanh nghiệp bất
động sản nói riêng mà trong cả ngành mua bán nhà nói chung xác định được các giá trị
của ngôi nhà một cách hiệu quả. Cuối cùng, nhóm đưa ra những hạn chế của đề tài
nghiên cứu để đưa ra những kiến nghị, hàm ý quản trị cho doanh nghiệp và giải pháp cho
người mua.
9
CHƯƠNG 1: TỔNG QUAN NGHIÊN CỨU
1.1 Lý do chọn đề tài.
Nghiên cứu về giá bất động sản của một ngôi nhà là quan trọng vì nó mang lại nhiều
lợi ích và thông tin hữu ích cho nhiều bên liên quan. Người mua và người bán nhà cần
thông tin chính xác về giá nhà để ra quyết định đầu tư và giao dịch. Nghiên cứu về giá
nhà cung cấp thông tin quan trọng về xu hướng thị trường, giá cả và các yếu tố ảnh
hưởng đến giá nhà.
Nghiên cứu gần đây của NAHB, Người mua nhà thực sự muốn gì, Phiên bản 2021,
đã yêu cầu những người mua lần đầu đánh giá hơn 200 đặc điểm của ngôi nhà và cộng
đồng bằng thang đo bốn bậc: thiết yếu, mong muốn, thờ ơ và không muốn.
Biểu đồ bên dưới hiển thị 10 đặc điểm “được mong muốn nhất” đối với người mua
nhà lần đầu, dựa trên tỷ lệ phần trăm người mua đánh giá một đặc điểm là đáng mong
muốn hoặc thiết yếu.
Hình 1.1 Hiện thị 10 đặc điểm được mong muốn nhất đối với người mua nhà lần đầu.
10
Phòng giặt là đứng đầu danh sách, được 83% người mua lần đầu đánh giá là cần
thiết hoặc mong muốn, tiếp theo là quạt trần và hệ thống chiếu sáng bên ngoài, mỗi loại
được 81% đánh giá là cần thiết hoặc mong muốn. Bốn trong số những tính năng được
người mua lần đầu mong muốn nhất là tính năng nhà bếp:
Bồn rửa đôi trong bếp và tủ đựng thức ăn không cửa ngăn (mỗi loại được 80% đánh
giá là thiết yếu hoặc mong muốn).
Hai là tính năng ngoài trời: sân hiên (được 78% đánh giá là cần thiết hoặc mong
muốn) và hệ thống chiếu sáng bên ngoài.
Nằm trong top 10 là sàn gỗ cứng cho không gian sinh hoạt ở tầng chính (80%) và
camera an ninh (78%).
Danh sách các tính năng được người mua lần đầu mong muốn nhất cũng tương tự
như danh sách dành cho người mua nhà nói chung, mặc dù người mua nói chung có xu
hướng xếp hạng các tính năng này cao hơn một chút. Ví dụ: phòng giặt là số 1 trong cả
hai danh sách, nhưng được 87% người mua nói chung đánh giá là thiết yếu hoặc mong
muốn, so với 83% ở những người mua lần đầu.
Tuy nhiên, khi dự định và tìm hiểu về giá bất động sản của một ngôi nhà , đại đa số
chúng ta sẽ quan tâm đến giá nhà, khu vực, thiết kế nhà đang hot mà vô tình bỏ qua
những tiêu chí khác và việc chọn nghiên cứu dự đoán giá bất động sản của ngôi nhà giúp
ta hiểu rỏ thêm nhiều vấn đề cần thiết hơn, nhanh gọn, đáp ưng được nhu cầu của người
mua nhanh chóng, hiệu quả và hơn hết có thể mang lại nhiều lợi ích từ cả mặt thị trường,
ứng dụng thực tiễn, phát triển công nghệ, quan tâm xã hội, và nghiên cứu và phát triển
tiếp theo.
11
1.2 Mục tiêu nghiên cứu.
1.2.1 Mục tiêu chung.
Xác đinh các nhân tố ánh hưởng đến giá bất động sản của ngôi nhà, từ đó giúp
doanh nghiệp tiết kiệm chi phí cũng như tiết kiệm thời gian của người bán và cả người
mua.
Mục tiêu 2: Đánh giá mức độ ảnh hưởng của từng nhân tố đến đến giá bất động sản
của ngôi nhà.
Câu 2: Mức độ tác động của các nhân tố đến giá bất động sản của ngôi nhà?
Câu 3: Giải pháp nào giúp ích cho doanh nghiệp kinh doanh bất động sản, người bán
và người mua?
Đối tượng khảo sát: Người bán, người mua hoặc doanh nghiệp.
12
1.5 Phương pháp nghiên cứu.
Bài nghiên cứu này sử dụng phương pháp nghiên cứu định lượng. Bộ dữ liệu này
bao gồm khoảng 81 biến và 1460 hàng giải thích mô tả gần như mọi khía cạnh của nhà ở
Ames, Iowa của một tập dữ liệu trên Kaggle. Mỗi hàng tương ứng mỗi ngôi nhà và bao
gồm nhiều các yếu tố nghiên cứu cho rằng nó ảnh hưởng đến giá của từng ngôi nhà.
Giới thiệu về lý do, mục tiêu nghiên cứu, đối tượng trong phạm vi nghiên cứu và
đóng góp của nghiên cứu.
Chương 2. Cơ sở lý thuyết.
Trình bày các kiến thức tổng quan về đề tài, giới thiệu về các biến được sử dụng:
biến độc lập và biến phụ thuộc, giới thiệu về công cụ, các mô hình và giải thích về các
nghiên cứu trước.
13
Chương 3. Các phương pháp nghiên cứu.
Mô tả các phương pháp nghiên cứu, chọn ra quy trình nghiên cứu: Nghiên cứu sơ
bộ, phương pháp định lượng. Sau đó là bước làm sạch dữ liệu, mô tả và chọn ra ba
phương pháp là: “Decision Forest Regression”,“Boosted Decision Tree Regression” và
“Linear Regression” để thực hiện nghiên cứu lần này.
Trình bày quá trình xây dựng mô hình, đánh giá và lựa chọn mô hình dự đoán, triển
khai Web service và thử nghiệm.
Tổng kết toàn bộ quá trình, đưa ra kết luận, hạn chế của nghiên cứu, đề xuất về
hướng nghiên cứu trong tương lai.
14
CHƯƠNG 2: CƠ SỞ LÝ THUYẾT
2.1 Giới thiệu bài mẫu.
Bài mẫu mà nhóm tham khảo có tên là “Walmart Store Sales Forecasting” được
xuất bản ngày 6 tháng 12 năm 2016 bởi tác giả Dmitry Katson. Đây cũng là bài nghiên
cứu để nhóm có ý tưởng làm bài nghiên cứu về giá bất động sản của ngôi nhà.
Lấy dữ liệu từ kaggle và dự đoán doanh số bán hàng cho 45 cửa hàng Walmart ở các
khu vực khác nhau. Mỗi cửa hàng có nhiều gian hàng và dự đoán doanh số bán hàng cho
từng gian hàng trong mỗi cửa hàng.
Trong nghiên cứu này, tác giả sử dụng phương pháp nghiên cứu định tính nhằm
Phân tích và dự đoán doanh số bán hàng của các cửa hàng Walmart có thể được thực hiện
bằng nhiều phương pháp khác nhau trong lĩnh vực dự báo chuỗi thời gian (time series
forecasting) và phân tích dữ liệu. Sau đó, tiền xử lý dữ liệu bao gồm làm sạch dữ liệu, xử
lý dữ liệu bị thiếu, chuẩn hóa dữ liệu và chuyển đổi dữ liệu thành dạng phù hợp cho các
phương pháp phân tích và dự đoán.
Phân tích Exploratory Data Analysis (EDA): Thực hiện phân tích EDA để hiểu rõ
hơn về các đặc điểm của dữ liệu, quan hệ giữa các biến, và tìm ra các mẫu và thông tin
quan trọng trong dữ liệu.
Phân tích chuỗi thời gian: Sử dụng các phương pháp phân tích chuỗi thời gian để
xác định các mẫu, xu hướng và mùa vụ trong dữ liệu bán hàng của các cửa hàng
Walmart. Các phương pháp có thể bao gồm mô hình ARIMA, mô hình Holt-Winters,
hoặc mạng nơ-ron hồi quy dài hạn (Long Short-Term Memory - LSTM).
Xây dựng mô hình dự đoán: Dựa trên các phân tích chuỗi thời gian, xây dựng mô
hình dự đoán doanh số bán hàng cho các cửa hàng Walmart trong tương lai. Các mô hình
có thể được huấn luyện bằng cách sử dụng dữ liệu lịch sử và có thể điều chỉnh để tối ưu
hóa hiệu suất dự đoán.
15
Đánh giá mô hình: Đánh giá hiệu suất của các mô hình dự đoán bằng cách sử dụng
các phép đo như sai số trung bình (Mean Absolute Error - MAE), sai số bình phương
trung bình (Mean Squared Error - MSE), hoặc hệ số xác định (R2). Điều này giúp xác
định xem mô hình nào hoạt động tốt nhất cho dữ liệu cụ thể.
Cụ thể là, lượng dữ liệu khổng lồ được ghi lại trong suốt quá trình vận hành doanh
nghiệp có nhiều nguồn, đồng nghĩa có rất nhiều loại cấu trúc khác nhau và được cập nhật
nhanh chóng, tức thì lên hệ thống.
16
Tầm quan trọng của Big Data không nằm ở việc khối lượng data thu thập được mỗi
ngày, mà ở chiến lược sử dụng chúng để đem lại những thông tin có giá trị. Giá trị ở đây
thể hiện ở việc, nó giúp giảm chi phí, rút ngắn thời gian, hỗ trợ hoạt động nghiên cứu
phát triển sản phẩm mới và hỗ trợ nhà quản trị trong công tác ra quyết định.
Khi được kết hợp với một hệ thống phân tích dữ liệu mạnh mẽ, Big Data có thể giúp
doanh nghiệp thực hiện các tác vụ như: tìm hiểu về Big Data.
Xác định và cảnh báo về điểm nút có thể dẫn tới phát sinh gián đoạn sản xuất hay
lỗi sản phẩm gần với thời gian thực.
Xây dựng các chương trình khuyến mãi tại điểm bán dựa trên thói quen của khách
hàng.
Tính toán và tổng hợp nhanh chóng danh mục rủi ro.
Phát hiện hành vi gian lận trước khi nó có thể tác động xấu tới hoạt động của doanh
nghiệp.
Có một sự thật rằng, khoa học công nghệ là rất công bằng đối với mọi đối tượng, vì
vậy, kể cả khi bạn chỉ là doanh nghiệp SME, bạn vẫn nhận được rất nhiều lợi ích khi ứng
dụng Big Data như: tăng cường khả năng quản trị, giảm thiểu rủi ro và gian lận thương
mại, duy trì chất lượng, giảm giá thành, tăng năng suất, và cải thiện mối quan hệ khách
hàng.
17
khám phá dữ liệu phong phú, ứng dụng thuật toán ML phổ biến cũng như đánh giá, thử
nghiệm mô hình và web mạnh mẽ công cụ xuất bản.
Sách điện tử này sẽ trình bày tổng quan về lý thuyết và nguyên tắc khoa học dữ liệu
hiện đại, quy trình làm việc liên quan, sau đó đề cập đến một số thuật toán học máy phổ
biến hơn đang được sử dụng ngày nay. Chúng tôi sẽ xây dựng nhiều mô hình phân tích
dự đoán khác nhau bằng cách sử dụng dữ liệu trong thế giới thực, đánh giá một số thuật
toán máy học khác nhau và chiến lược lập mô hình, sau đó triển khai các mô hình đã
hoàn thành dưới dạng dịch vụ web máy học trên Azure trong vòng vài phút. Cuốn sách
cũng sẽ mở rộng trên Azure đang hoạt động.
Ví dụ về mô hình dự đoán Machine Learning để khám phá các loại ứng dụng máy
khách và máy chủ mà bạn có thể tạo để sử dụng các dịch vụ web Azure Machine
Learning.
Các kịch bản và ví dụ toàn diện trong cuốn sách này nhằm cung cấp đủ thông tin để
bạn nhanh chóng bắt đầu tận dụng các khả năng của Azure ML Studio, sau đó dễ dàng
mở rộng các kịch bản mẫu để tạo các thử nghiệm phân tích dự đoán mạnh mẽ của riêng
bạn. Cuốn sách kết thúc bằng cách cung cấp thông tin chi tiết về cách áp dụng các kỹ
thuật “học tập liên tục” để “đào tạo lại” các mô hình dự đoán Azure ML theo chương
trình mà không cần bất kỳ sự can thiệp nào của con người.
Azure Machine Learning là một dịch vụ đám mây cho phép chúng ta có thể khởi
tạo, quản lý, triển khai các model machine learning. Azure Machine Learning cung cấp
các dịch vụ chính như:
Azure Machine Learning Designer: Một nền tảng low-code giúp trực quan hóa giao
diện khi khởi tạo model.
18
Lưu trữ và xử lý dữ liệu: Nơi lưu trữ và xử lý dự liệu đám mây một cách thuận tiện
có thể scale dễ dàng (Azure Machine Learning Workspace cho phép chúng ta có thể lưu
trữ, tạo máy ảo, thuê máy để train các model).
Notebook & Pipelines: Nơi mà các Data Scientist, Software Engineers, có thể viết
code, train, deploy và quản lý các tasks.
Tóm tắt: Nghiên cứu này sử dụng mô hình hồi quy tuyến tính đa biến để dự đoán giá
nhà dựa trên các yếu tố như diện tích, số lượng phòng, vị trí, và các yếu tố khác.
Tóm tắt: Bài báo này sử dụng các kỹ thuật học máy như mạng nơ-ron nhân tạo và
cây quyết định để dự đoán giá bất động sản dựa trên các biến như diện tích, vị trí, và tiện
ích xung quanh.
2.3.3"Predicting Real Estate Prices Using the Multiple Linear Regression Model and
Neural Networks".
Tác giả: K. K. Sharma và P. N. Chatur.
19
Tóm tắt: Nghiên cứu này so sánh hiệu suất giữa mô hình hồi quy tuyến tính đa biến
và mạng nơ-ron trong việc dự đoán giá bất động sản, và đưa ra kết luận về sự hiệu quả
của từng mô hình.
Tóm tắt: Bài báo này so sánh hiệu suất của ba mô hình khác nhau (mô hình giá
hedonic, mô hình ARIMA, và mô hình LSTM) trong việc dự đoán giá nhà ở Bắc Kinh,
Trung Quốc.
Tóm tắt: Nghiên cứu này thử nghiệm và so sánh hiệu suất của nhiều phương pháp
học máy khác nhau trong việc dự đoán giá nhà, bao gồm k-Nearest Neighbors, Naive
Bayes, Support Vector Machines, và Decision Trees.
20
CHƯƠNG 3: KHÁI QUÁT DỮ LIỆU VÀ PHƯƠNG PHÁP NGHIÊN CỨU
Chương này, sẽ mô tả khái quát bộ dữ liệu bao gồm phương pháp tìm kiếm bộ dữ
liệu, các đặc tính của mỗi biến trong bộ dữ liệu và các bước xử lý bộ dữ liệu trước khi
thực hiện phân tích mô hình nghiên cứu của đề tài. Đồng thời, nhóm cũng sẽ trình bày về
phương pháp nghiên cứu sử dụng mô hình hồi quy với ba máy học như : “Decision Forest
Regression”, “Boosted Decision Tree Regression” và “Linear Regression”
Phương pháp nghiên cứu tài liệu: nhóm đã áp dụng phương pháp nghiên cứu dữ liệu
Big Data, các kiến thức nền tảng và chuyên môn về lĩnh vực logistics và quản trị chuỗi
cung ứng, các môn học bổ trợ về khả năng tìm hiểu lĩnh vực và một số nguồn thông tin tự
học khác trên google và một số bài báo của các nhà khoa học khác để có thêm nguồn kiến
thức áp dụng cho nghiên cứu lần này.
Phương pháp nghiên cứu các thuật toán trong Azure machine learning dựa trên
nhiều thử nghiệm trên nhiều con máy khác nhau thì nhóm có chọn ra ba máy học để so
sánh đưa ra các kết quá khác nhau giúp cho bài nghiên cứu lần này bao gồm “Decision
Forest Regression”, “Boosted Decision Tree Regression” và “Linear Regression”.
Phương pháp so sánh: Với việc phân loại dữ liệu thành nhiều biến khác nhau, từ đây
nhóm có thể tiến hành so sánh giữa những nguồn dữ liệu đó, từ đó rút ra được kết luận về
ra giá bất động sản của ngôi nhà giữa những dữ liệu khác nhau, cho ta thấy được tổng
quát về các biến dữ liệu khác nhau tác động lên khả năng ra giá cả của từng ngôi nhà ra
sao.
21
Phương pháp phân tích và đưa ra giải pháp: dựa vào các nguồn dữ liệu thu thập
được nhóm hình thành các cơ sở dữ liệu để đưa ra một con máy cơ bản xử lý được một số
vấn đề doanh nghiệp gặp phải hiện nay, Bên cạnh việc sử dụng phần mềm Microsoft
Excel để tổng hợp và xử lý nguồn dữ liệu thô đầu vào, nhóm chúng em còn áp dụng
Microsoft Azure để phân tích và dự đoán dữ liệu. Nhờ đó đưa ra được giải pháp giúp cho
doanh nghiệp.
3.3 Mô tả bộ dữ liệu.
3.3.1 Khái quát bộ dữ liệu.
Bài nghiên cứu này, nhóm đã tìm kiếm và thu thập bộ dữ liệu này ở trên
Kaggle.com được tham khảo bởi Dean De Cock yêu cầu người mua nhà mô tả ngôi nhà
mơ ước của họ. Bộ dữ liệu này bao gồm khoảng 81 biến và 1460 hàng giải thích mô tả
gần như mọi khía cạnh của nhà ở Ames, Iowa. Mỗi hàng tương ứng mỗi ngôi nhà và bao
gồm nhiều các yếu tố nghiên cứu cho rằng nó ảnh hưởng đến giá của từng ngôi nhà.
22
Hình 3.3.1 Một phần bộ dữ liệu gốc từ Kaggle.com.
23
8. Neighborhood Các vị trí thực tế trong giới
hạn thành phố Ames
3.4 Xử lý dữ liệu.
Sau khi chọn ra các biến cần thiết cho đề tài, nhóm tiếp tục sử dụng phần mềm
Microsoft Excel cho các bước xử lý bộ dữ liệu của bài nghiên cứu, bao gồm các bước
như sau:
Bước 1: Lọc ra những biến có khả năng cho dự đoán cao cho bài nghiên cứu.
Bước 2: Nhóm tiếp tục làm sạch dữ liệu bằng cách lọc những dữ liệu trống mà
không có khả năng cao trong dự đoán ra, làm tăng độ chính xác cao cho phân tích.
24
3.5 Phương pháp nghiên cứu.
Phương pháp nghiên cứu: Theo phương thức học: Supervised Learning (Học có
giám sát): Supervised learning là thuật toán dự đoán đầu ra (outcome) của một dữ liệu
mới (new input) dựa trên các cặp (input, outcome) đã biết từ trước. Cặp dữ liệu này còn
được gọi là (data, label), tức (dữ liệu, nhãn). Supervised learning là nhóm phổ biến nhất
trong các thuật toán Machine Learning. Trong đó, thuật toán được nhóm triển khai cho
dự án dự đoán giá bất động sản của ngôi nhà là Linear Regression và Random Forests.
Mọi dữ liệu sẽ được thu thập từ Kaggle.
Cụ thể, trong trường hợp dự đoán giá bất động sản, Linear Regression có thể được
áp dụng bằng cách tìm ra một mối quan hệ tuyến tính giữa các biến như diện tích, vị trí,
số phòng, và giá bán của bất động sản.
Công thức của mô hình Linear Regression có thể được biểu diễn như sau:
Trong đó:
Mục tiêu của Linear Regression là tìm các giá trị của các hệ số β sao cho sai số dự
đoán (ϵ) là nhỏ nhất có thể. Điều này thường được thực hiện thông qua việc tối ưu hóa
25
một hàm mất mát, như hàm bình phương của sai số (Mean Squared Error - MSE) hoặc
hàm trị tuyệt đối của sai số (Mean Absolute Error - MAE).
Linear Regression là một công cụ mạnh mẽ và linh hoạt được sử dụng rộng rãi trong
nhiều lĩnh vực như dự đoán giá bất động sản, dự báo tài chính, và phân tích kinh doanh.
Bootstrap Sampling (Lấy mẫu ngẫu nhiên lặp lại): Random Forest sử dụng phương
pháp Bootstrap Sampling để tạo ra các tập dữ liệu con khác nhau từ tập dữ liệu huấn
luyện bằng cách lấy mẫu với hoàn lại (có thể trùng lặp).
Random Feature Selection (Chọn đặc trưng ngẫu nhiên): Trong quá trình xây dựng
mỗi cây quyết định, Random Forest chọn một số lượng ngẫu nhiên các đặc trưng từ tập
dữ liệu huấn luyện. Điều này giúp tạo ra sự đa dạng giữa các cây.
Xây dựng Cây Quyết định: Trên mỗi tập dữ liệu con, một cây quyết định được xây
dựng bằng cách chia tập dữ liệu thành các nhóm dựa trên các đặc trưng được chọn. Quá
trình chia tiếp tục đến khi không thể chia được nữa hoặc đạt được điều kiện dừng khác.
Voting hoặc Average Prediction (Bỏ phiếu hoặc Dự đoán trung bình): Trong bước
cuối cùng, Random Forest kết hợp các dự đoán từ tất cả các cây trong tập hợp bằng cách
thực hiện bỏ phiếu (trong trường hợp phân loại) hoặc tính trung bình (trong trường hợp
hồi quy).
Ưu điểm:
Khả năng làm việc tốt với dữ liệu lớn và số lượng lớn các đặc trưng.
Tự động xử lý các giá trị còn thiếu và các đặc trưng phân loại không phải làm việc.
26
Độ chính xác cao và khả năng tự động chọn đặc trưng quan trọng.
Nhược điểm:
Có thể phức tạp và tốn kém về mặt tính toán so với một số thuật toán khác.
Không dễ giải thích như một số thuật toán khác như Linear Regression hoặc
Decision Trees đơn lẻ.
27
CHƯƠNG 4 KẾT QUẢ NGHIÊN CỨU
4.1 Các tiêu chí đánh giá mô hình.
Dựa theo bài báo mẫu và kết quả đánh giá sau khi chạy mô hình trên nền tảng Azure
Machine Learning , nhóm đã chọn ra hai tiêu chí đánh giá mô hình. Bài báo mẫu đã đánh
giá cả ba mô hình Decision Forest Regression, Boosted Decision Tree Regression và
Linear Regression bằng chỉ số trong bảng Evaluation results.
Khi so sánh và chọn ra mô hình dự đoán tốt nhất nhóm sẽ dựa vào Coefficient of
Determination (Hệ số xác định) trong bảng Evaluation results. Do đó, đây là phương
pháp ước tính tiêu chuẩn để đánh giá sự phù hợp của mô hình dữ liệu. Bên cạnh đó, nó
cũng thể hiện tỷ lệ đoán chính xác của mô hình. Hệ số xác định này càng cao thì mức độ
dự đoán của mô hình này càng cao.
Coefficient of Determination: Hệ số xác định này được sử dụng để đánh giá hoạt
động của mô hình. Hệ số xác định cao cho biết khả năng phân biệt độ tin cậy và những
trường hợp không đáng tin cậy một cách chính xác. Ngoài ra còn dựa vào các thông số
Negative Log Likelihood (NLL), Mean Absolute Error (MAE), Root Mean Squared Error
(RMSE), Relative Absolute Error (RAE), Relative Squared Error (RSE) để đánh giá mô
hình.
Đầu tiên, nhóm truy cập vào trang web https://studio.azureml.net/, đăng nhập và tải
tập dữ liệu “House Pricesxx” lên studio, sau đó chọn New -> Blank Experiment để bắt
đầu tiến hành xây dựng một mô hình học máy. Ở thanh công cụ bên tay trái, nhấp vào
mục “Saved Datasets” – “My Datasets”, nhấn chọn file data đã thêm vào đồng thời kéo
thả chuột vào thí nghiệm đào tạo để làm việc.
28
Tiếp theo, thêm ô lệnh “Edit Metadata”(Chỉnh sửa siêu dữ liệu) vào thí nghiệm đào
tạo, chọn “Launch Column Selector”(Khởi chạy bộ chọn cột) ở thanh công cụ bên phải,
nhóm sẽ tiến hành chọn các biến có định dạng ban đầu là “String”(sợi dây) và chuyển
thành “Make categorical” tại mục tùy chọn “Categorical”(phân loại) để chuyển kiểu dữ
liệu chữ (String) thành dữ liệu phân loại (Categorical).
Xây dựng mô hình trên Azure với bộ dữ liệu sau khi đã được làm sạch, không còn
dữ liệu trống gây nhiễu, với tổng cộng là 1460 mẫu ứng với 19 biến.
Trước tiên, sẽ thêm ô lệnh “Filter Based Feature Selection”, lệnh này sẽ giúp máy
tìm ra những biến độc lập có tác động mạnh nhất đến biến phụ thuộc. Nhấp vào “Launch
Column Selector”, chọn biến “SalePrice” vì đây là biến phụ thuộc dùng để dự đoán. Sau
khi chạy bước này, kết quả nhận được 19 biến có hệ số tương quan cao nhất so với biến
phụ thuộc “SalePrice” là:
Hình 4.2a Mô tả 19 biến có hệ số tương quan từ cao đến thấp so với biến phụ thuộc.
Tiếp theo, dựa theo bài “Walmart Store Sales Forecasting”, nhóm sẽ tiến hành tách
dữ liệu để một phần dữ liệu dùng để đào tạo máy và phần còn lại dùng để kiểm tra mô
hình “Split Data” (chia dữ liệu) theo tỉ lệ lần lượt là 0.8 còn lại là 0.2 dữ liệu đào tạo sẽ
được sử dụng để phù hợp với mô hình dự đoán, nhóm để random seed sẽ là “12345” và
dữ liệu thử nghiệm sẽ được sử dụng để đánh giá hiệu suất của mô hình.
29
Hình 4.2b Mô tả tách dữ liệu trong Split Data.
Sau khi tách dữ liệu thành công, việc cần làm tiếp theo là bắt đầu chọn thuật toán để
chạy máy. Thêm ô lệnh “Train Model” và thuật toán cần chạy, ở đây nhóm lần lượt chọn
3 thuật toán đã có sẵn trong Azure là máy “Decision Forest Regression”, “Boosted
Decision Tree Regression” và “Linear Regression’. Ở ô lệnh “Train Model”, chọn biến
độc lập “SalePrice”.
30
Hình 4.2c Mô tả hoàn chỉnh các bước đánh giá mô hình trong Azure Machine Learning.
Cuối cùng, thêm lần lượt theo thứ tự 3 ô lệnh “Score Model” – để máy đưa ra các
kết quả dự đoán sau khi đã train model và “Evaluate Model” – để đánh giá độ chính xác
của kết quả ở “Score Model”. Mô hình chi tiết và kết quả đánh giá của từng mô hình sẽ
được trình bày cụ thể ở phần dưới đây.
31
4.2.1 Mô hình Decision Forest Regression.
Hình 4.2.1a Xây dựng mô hình dự đoán bằng mô hình Decision Forest Regression.
Sau khi hoàn tất việc chạy mô hình như trên, nhóm sẽ đánh giá độ chính xác của mô
hình dự đoán này qua bằng cách chọn “Visualize” ô lệnh “Evaluate Model”. Kết quả
đánh giá được thể hiện như hình sau:
Hình 4.2.1b Kết quả đánh giá mô hình Decision Forest Regression.
32
Hình 4.2.1c Mô hình Decision Forest Regression khi triển khai Wed Service.
33
4.2.2 Mô hình Linear Regression.
Hình 4.2.2a Xây dựng mô hình dự đoán bằng mô hình Linear Regression.
Tương tự, sau khi hoàn tất chạy mô hình, kết quả đánh giá mô hình được
“Visualize” như hình sau:
34
Hình 4.2.2b Kết quả đánh giá mô hình Linear Regression.
35
Hình 4.2.2c Mô hình Linear Regression khi triển khai Wed Service.
36
Hình 4.2.3a Xây dựng mô hình dự đoán bằng mô hình Boosted Decision Tree Regression.
Kết quả đánh giá mô hình được “Visualize” như hình sau:
37
Hình 4.2.3b Kết quả đánh giá mô hình Boosted Decision Tree Regression.
38
Hình 4.2.3 Mô hình Boosted Decision Tree Regression khi triển khai Wed Service.
Bảng 4.3 Bảng so sánh kết quả nghiên cứu của các mô hình.
39
Dựa trên kết quả đánh giá ta thấy kết quả đánh giá khá tốt, nhóm thấy cả ba mô hình
đều có những chỉ số tốt nhưng mô hình Boosted Decision Tree Regression có các chỉ số ở
mức vừa khá đồng đều nhau làm mô hình dự đoán. Các thông số cụ thể như sau:
Coefficient of Determination: 0.796244 (79%) được đánh giá tạm được trong cả ba
mô hình.
Relative Squared Error: 0.2 khá ổn định khi số này càng nhỏ hoặc bằng 0 thì tức là
mô hình hoàn hảo.
Relative Absolute Error: 0.4 tạm được, nếu nó bằng 0 thì nó cũng giống Relative
Squared Error là nó mô hình hoàn hảo.
Mean Absolute Error và Root Mean Squared Error: lần lượt là 56.51 và 74.96 tạm
ổn.
Cho thấy khả năng cao mô hình này dự đoán ở tầm trung và chuẩn hơn so với hai
mô hình còn lại.
40
Hình 4.4a Mô hình dự giá bất động sản của ngôi nhà triển khai Wed Service.
Để việc test mô hình được thực hiện tinh gọn hơn, nhóm kéo thả thêm 1 select
column vào mô hình. Select column đầu nhầm loại bỏ biến dự đoán “SalePrice” khi input
dữ liệu để test.
Sau khi hoàn tất chạy mô hình xong, ta tiến hành thử nghiệm như sau: Đầu tiên ta
bấm vào Deloy Web Service sau đó bấm chọn Test Preview như hình sau:
41
Hình 4.4b : Giao diện trước khi bước vào thử nghiệm mô hình.
Đầu tiên nhóm nhập vào các giá trị các biến theo yêu cầu mà nhóm muốn dự báo.
42
Hình 4.4d Mẫu thử nghiệm 2.
Sau hai lần thử nghiệm thì kết quả có thay đổi khi thay đổi id của ngôi nhà giá trị
cũng tăng theo. Từ đó ta có thể thay đổi theo yêu cầu của người mua cung cấp để đưa ra
được giá bất động sản của ngôi nhà.
43
CHƯƠNG 5 KẾT LUẬN
5.1 Tóm tắt kết quả nghiên cứu.
Trong bài nghiên cứu này, chúng tôi đã thực hiện một phân tích so sánh về hiệu suất
của các mô hình dự đoán giá của ngôi nhà sử dụng Azure Machine Learning. Dựa trên
một bộ dữ liệu mẫu về thông tin các ngôi nhà và giá bán tương ứng, chúng tôi đã xây
dựng và đánh giá ba mô hình: Decision Forest Regression, Boosted Decision Tree
Regression và Linear Regression. Kết quả cho thấy một số mô hình có tỷ lệ dự đoán cao
xấp xỉ 80%. Tuy nhiên, một trong số các mô hình đã thể hiện khả năng dự đoán ổn định
và chính xác hơn so với các mô hình khác. Do đó, chúng tôi kết luận rằng mô hình
Boosted Decision Tree Regression là lựa chọn được khuyến nghị để phát triển mô hình
dự đoán giá nhà.
44
5.3 Hàm ý quản trị.
5.3.1 Xây dựng ứng dụng dự đoán giá nhà.
Kết quả của nghiên cứu có thể được áp dụng vào việc xây dựng ứng dụng dự đoán
giá nhà, giúp cho các nhà phát triển bất động sản và nhà đầu tư đưa ra quyết định đầu tư
thông minh và hiệu quả hơn.
45
TÀI LIỆU THAM KHẢO
Top 10 Features for First-Time Home Buyers.
https://www.nahb.org/blog/2022/03/top-10-features-for-first-time-home-buyers
Walmart Recruiting - Store Sales Forecasting.
https://www.kaggle.com/c/walmart-recruiting-store-sales-forecasting
Tô Nhung, Ligosoft “Tìm hiểu về big data trong doanh nghiệp”.
https://itgtechnology.vn/tim-hieu-ve-big-data-trong-doanh-nghiep/
International Journal of Computer Applications
https://www.ijcaonline.org/
Linear regression.
https://en.wikipedia.org/wiki/Linear_regression
Random forest.
https://en.wikipedia.org/wiki/Random_forest
International Journal of Engineering Research & Technology
https://ijsrm.net/index.php/ijsrm
46