You are on page 1of 25

ĐẠI HỌC UEH

TRƯỜNG KINH TẾ, LUẬT VÀ QUẢN LÝ NHÀ NƯỚC


KHOA KINH TẾ

ĐỒ ÁN HỌC PHẦN
PHÂN TÍCH CƠ SỞ DỮ LIỆU AUTO
MPG DỰA TRÊN ỨNG DỤNG ORANGE

BỘ MÔN KHOA HỌC DỮ LIỆU

Giảng viên hướng dẫn: Tiến sĩ Nguyễn An Tế

Nhóm sinh viên 3: Nguyễn Thế Hiển 31211024041


Lê Công Hiếu 31211023066
Nguyễn Nhất Hoàng 31211023293
Lê Huy Hoàng 31211021589
Nguyễn Thị Ngọc Huệ 31211026513
Lớp học phần: 23D1INF50905991
Khóa/ Hệ: K47 , Đại học chính quy

Thành phố Hồ Chí Minh, ngày 03 tháng 06 năm 2023


LỜI CẢM ƠN

Nhóm em muốn gửi lời cảm ơn chân thành đến Thầy Nguyễn An Tế vì
sự tâm huyết Thầy đặt vào trong từng buổi học, đã chỉ dạy và truyền đạt cho
chúng em những kiến thức hữu ích. Những kiến thức từ bộ môn Khoa học dữ
liệu chắc chắn sẽ giúp chúng em trên chặng đường sau này. Được học môn học
này giúp chúng em biết cách có thể thu được thông tin chuyên sâu, chọn lọc xử
lý nguồn thông tin bị khuyết từ lượng dữ liệu khổng lồ, nó gắn liền với kỷ
nguyên số hiện nay.

Bài tiểu luận của nhóm em có thể chưa được hoàn hảo, còn nhiều thiếu
sót do hạn chế về mặt kiến thức cũng như thiếu kinh nghiệm thực tế. Kính mong
Thầy có thể thông cảm và đưa ra nhận xét để nhóm em chỉnh sửa, bổ sung để
bài tiểu luận chính xác, đầy đủ và hoàn thiện nhất.

Chúc Thầy thật nhiều sức khỏe và giữ mãi tinh thần nhiệt huyết với “sự nghiệp
trồng người”
MỤC LỤC
Chương 1: Tổng Quan...................................................................................................................
1.1. Giới thiệu về khoa học dữ liệu........................................................................................1
1.1.1. Dữ liệu..................................................................................................................1
1.1.2. Tổng quan về khoa học dữ liệu............................................................................1
1.1.3. Ứng dụng của khoa học dữ liệu...........................................................................2
1.2. Giới thiệu đề tài...............................................................................................................3
Chương 2: Các mô hình phân lớp dữ liệu...................................................................................
2.1. Tổng quan về phần mềm Orange.....................................................................................4
2.1.1 Mô tả.....................................................................................................................4
2.1.2 Tính năng..............................................................................................................4
2.2 Quy trình phân lớp dữ liệu...............................................................................................6
2.2.1 Phương pháp hồi quy tuyến tính...........................................................................6
2.2.2 Phương pháp phân lớp dữ liệu..............................................................................6
2.2.3 Phương pháp phân cụm dữ liệu.............................................................................7
Chương 3:  Áp dụng bài toán qua các thuật toán trên Orange.................................................
3.1. Phân tích dữ liệu..............................................................................................................9
3.1.1. Mô tả dữ liệu........................................................................................................9
3.1.2. Tiền xử lý dữ liệu...............................................................................................10
3.2 Phân lớp dữ liệu..............................................................................................................11
3.2.1 Xây dựng mô hình...............................................................................................11
3.2.2 Đánh giá kết quả mô hình...................................................................................12
3.3 Dự báo............................................................................................................................14
3.4 Phân cụm dữ liệu............................................................................................................15
3.4.1 Phương pháp Hierarchical Clustering.................................................................16
3.4.2 Phương pháp K-means........................................................................................17
3.4.3. Kết quả phân cụm...............................................................................................18
Chương 4: Kết Luận....................................................................................................................
4.1 Các kết quả đạt được......................................................................................................20
4.2 Những hạn chế và hướng phát triển...............................................................................20
TÀI LIỆU THAM KHẢO...........................................................................................................
DANH MỤC HÌNH ẢNH
Hình 1 : Biểu tượng của phần mềm Orange.............................................................................4
Hình 2: Giao diện của nhóm Data............................................................................................5
Hình 3: Giao diện của nhóm Visualize.....................................................................................5
Hình 4: Giao diện của nhóm Unsupervised..............................................................................5
Hình 5: Giao diện của nhóm Model.........................................................................................5
Hình 6: Giao diện của nhóm Evaluate.....................................................................................6
Hình 7: Thông tin dữ liệu.......................................................................................................10
Hình 8: Type và Role của các thuộc tính................................................................................10
Hình 9: Kết quả sau khi thay đổi Role....................................................................................10
Hình 10: Tiền xử lý dữ liệu trên Orange................................................................................11
Hình 11: Kết quả sau khi tiền xử lý dữ liệu............................................................................11
Hình 12: Mô hình so sánh các thuật toán...............................................................................12
Hình 13: Kết qủa khi chia mẫu dữ liệu 10 phần ....................................................................13
Hình 14: Kết quả khi chia dữ liệu 5 phần...............................................................................13
Hình 15: Kết quả của 10 lần lặp và sử dụng 66% cho mô hình huẩn luyện..........................14
Hình 16: Bộ dữ liệu thử..........................................................................................................14
Hình 17: Mô hình dự báo.......................................................................................................15
Hình 18: Kết quả dự báo........................................................................................................15
Hình 19: Mô hình phân cụm dữ liệu.......................................................................................16
Hình 20: Kết quả của phương pháp Hierarchical Clustering................................................16
Hình 21: Bảng Silhouette Plot cho phương pháp Hierarchical Clusting...............................17
Hình 22: Phương pháp K-means............................................................................................18
Hình 23: Silhouette Plot cho phương pháp K-means.............................................................18
Hình 24: Kết quả phân cụm phương pháp Hierarchical Clustering......................................19
Hình 25: Kết quả phân cụm phương pháp K-means..............................................................19
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Chương 1: Tổng Quan


1.1. Giới thiệu về khoa học dữ liệu.
1.1.1. Dữ liệu
Dữ liệu là tập hợp các sự kiện, số liệu, hình ảnh, từ ngữ nhằm đo lường, quan sát hoặc
mô tả về sự vật. Sự phát triển trong lĩnh vực công nghệ, đặc biệt điện thoại thông minh,
laptop hay máy tính bảng đều dẫn đến việc các văn bản, video và âm thanh được đưa vào bộ
dữ liệu cùng với nhật ký trang web. Dữ liệu chia làm 2 phần: dữ liệu có cấu trúc và dữ liệu
không có cấu trúc. - Dữ liệu có cấu trúc:

• Thường được gọi là dữ liệu định lượng.

• Lá dụng dữ liệu và số liệu khách quan.

• Thưởng ở dạng số hoặc chữ. Được lưu trữ trong Excel. SOL, Google Sheet.

• Dễ dàng thu thập, truy xuất, lưu trữ và sắp xếp. Dễ dàng trích xuất thông tin.

- Dữ liệu không có cấu trúc:

• Thưởng được coi là dữ liệu định tỉnh.

Ý kiến chủ quan và đánh giá. Dụng văn bản.

• Lưu trữ trong các tài liệu Word, Elasticsearch hoặc Soir. Khó thu thập, xuất, lưu trữ
và sắp xếp.

Không thể kiểm tra bằng phương pháp và công cụ phân tích cụ thể. Big Data là tập
hợp dữ liệu có khối lượng lớn, đa dạng, thay đổi nhanh và phức tạp dẫn đến không có một
công cụ truyền thống nào có thể lưu trữ và xử lý hiệu quả số lượng dữ liệu khổng lồ tạo ra
mỗi phút. Với sự phát triển của công nghệ thông tin, việc thu thập thông tin ngày càng trở
nên đơn giản hơn. Cũng vì vậy nên lượng thông tin doanh nghiệp nhận được cũng trở nên lớn
hơn và tất nhiên hệ luỵ là việc trung lập thông tin ở những website, mạng xã hội hay internet.
Và để nắm bắt được hiệu quả nguồn thông tin vô tận này thì doanh nghiệp cần những công cụ
chọn lọc, phân tích những dữ liệu hữu ích nhất nhằm thúc đẩy kinh doanh, tiết kiệm chi phí
và tăng doanh thu, lợi nhuận

1.1.2. Tổng quan về khoa học dữ liệu


1.1.2.1. Data Science

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Là một trong những lĩnh vực mới trong thời đại 4.0, khoa học dữ liệu tìm cách cải
thiện cách mà chúng ta tương tác với khối lượng thông tin khổng lồ được cập nhật hằng ngày
cho chúng ta trong kỷ nguyên hiện đại ngày nay. Khoa học dữ liệu (ở cấp độ cơ bản) được
định nghĩa là sử dụng dữ liệu để có được thông tin chuyên sâu và có giá trị. Khoa học dữ liệu
(ở cấp độ cao hơn) chính là sự kết hợp phức tạp của các kỹ năng như lập trình, trực quan hóa
dữ liệu, công cụ dòng lệnh, cơ sở dữ liệu, thống kê, học máy và nhiều hơn nữa để phân tích
dữ liệu và thu thập thông tin giá trị từ số lượng lớn dữ liệu.

Chức danh Data Science tại Việt Nam được gọi là nhà khoa học dữ liệu, kỹ sư khoa
học dữ liệu,… Những người là công việc này phải làm công việc với các dữ liệu thu thập
được để giúp tổ chức nắm bắt tình hình hoạt động. Từ đó sắp xếp, phân tích, thống kê và trực
quan dữ liệu để mang đến những thông tin giá trị cho tổ chức đưa ra các dự báo xu hướng
nhằm đưa ra các quyết định quan trọng thúc đẩy hiệu quả hoạt động của doanh nghiệp.

1.1.2.2. Data Analytics

Phân tích dữ liệu là quá trình phát hiện, giải thích và truyền đạt các mô hình có ý
nghĩa trong dữ liệu. Đặc biệt có giá trị trong các lĩnh vực có nhiều thông tin được ghi lại,
phân tích dựa vào sự ứng dụng đồng thời của số liệu thống kê, lập trình máy tính và nghiên
cứu hoạt động để định lượng hiệu suất. Các tổ chức có thể áp dụng phân tích dữ liệu kinh
doanh để mô tả, dự đoán và cải thiện hiệu suất kinh doanh.

Cụ thể, các khu vực trong phân tích bao gồm phân tích dự đoán, phân tích theo quy
tắc, quản lý quyết định doanh nghiệp, phân tích mô tả, phân tích nhận thức, phân tích bán lẻ,
phân loại cửa hàng và tối ưu hoá lưu trữ đơn vị hàng hóa tồn kho, tối ưu hoá tiếp thị và các
mô hình tiếp thị kết hợp, phân tích web, phân tích cuộc gọi, phân tích giọng nói, nhân lực bán
hàng và tối ưu hoá, mô hình định giá bán và khuyến mãi, khóa học dự đoán, phân tích rủi ro
tín dụng và phân tích gian lận.

1.1.3. Ứng dụng của khoa học dữ liệu

Các công ty phụ thuộc vào nền tảng dữ liệu để cấu trúc, phát triển và cải tiến doanh
nghiệp. Các Data Scientist làm việc với các con số, phân tích một khối lượng lớn Data để
xuất ra những Insight ý nghĩa. Những insight này rất hữu ích khi phân tích công ty và các
hoạt động của công ty trên thị trường từ đó đưa ra các quyết định đúng đắn. Những ứng dụng
tiêu biểu của phân tích dữ liệu trong thời kỳ chuyển đổi số mạnh mẽ 4.0:

• Tối ưu hóa Marketing

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

• Phân tích dữ liệu về các trang Web

• Phân tích dữ liệu rủi ro

• Phân tích dữ liệu kỹ thuật số

• Phân tích dữ liệu an ninh

• Phân tích dữ liệu phần mềm

• Đặc biệt ứng dụng được quan tâm nhất: Phân tích dữ liệu nhân sự.

Trong bối cảnh cuộc cách mạng công nghiệp 4.0 đang phát triển mạnh mẽ, việc các
doanh nghiệp sản xuất phương tiện đi dại, các nhà kinh tế, các kỹ thuật sư,… ứng dụng công
nghệ mới sẽ mang lại hiệu quả trong hoạt động marketing, quản lý tài chính, phương thức
thanh toán, hỗ trợ khách hàng.

1.2. Giới thiệu đề tài

Sau khi tìm hiểu và thảo luận, nhóm chúng em đã thống nhất và chọn đề tài: “Phân
tích cơ sở dữ liệu Auto MPG dựa trên ứng dụng Orange” làm đồ án của nhóm. Đề tài này tập
trung vào việc phân tích một số cơ sở dữ liệu của Auto MPG (Miles Per Gallon) bằng cách sử
dụng ứng dụng Orange. Cơ sở dữ liệu Auto MPG sẽ bao gồm các thông tin về xe ô tô gồm
nhiều thuộc tính có thể kể đến như: Số dặm mà một xe hơi có thể đi được trên một gallon
nhiên liệu, số lượng xi-lanh trong động cơ của xe, dung tích động cơ,…

Trong đề tài này, chúng ta sẽ sử dụng ứng dụng Orange để khám phá và phân tích cơ
sở dữ liệu Auto MPG. Bằng cách trực quan hóa dữ liệu và áp dụng các kỹ thuật phân tích,
chúng ta có thể hiểu rõ hơn về mối quan hệ giữa các thuộc tính và hiệu suất nhiên liệu của
các xe ô tô. Các phương pháp phân lớp dữ liệu như SVM, Decision Tree, Logistic Regression
và phân cụm dữ liệu như KMean, Hierarchical clustering sẽ được nhóm chúng em áp dụng
trong đề tài này.

Qua việc phân tích cơ sở dữ liệu Auto MPG bằng ứng dụng Orange, ta có thể dự đoán
mức tiêu thụ nhiên liệu của một chiếc xe dựa trên các thuộc tính kỹ thuật của nó. Điều này có
thể giúp hỗ trợ các nhà sản xuất ô tô trong việc thiết kế xe tiết kiệm nhiên liệu hơn và người
tiêu dùng trong việc lựa chọn xe có hiệu suất nhiên liệu tốt.

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Chương 2: Các mô hình phân lớp dữ liệu

2.1. Tổng quan về phần mềm Orange

2.1.1 Mô tả

Khai phá dữ liệu (Data Mining) và Học máy (Machine Learning) là hai lĩnh vực rộng
lớn và vô cùng phức tạp, đòi hỏi cần có sự hiểu biết sâu sắc và nghiên cứu kỹ lưỡng. Để hỗ
trợ và giúp đỡ người dùng trong việc khám phá và nghiên cứu các bài toán trong lĩnh vực
này, đã có nhiều phần mềm ra đời và phát triển. Một trong số đó không thể nhắc đến chính là
phần mềm Orange.

Orange là một phần mềm mã nguồn mở và hoạt động mạnh


mẽ, được thiết kế để tối ưu hoá quá trình khai phá dữ liệu và học
máy. Với giao diện trực quan, tích hợp các công cụ thông minh,
phần mềm này đã giúp ích cho người dùng trong việc nghiên cứu và
phân tích dữ liệu một cách dễ dàng, chính xác và hiệu quả.

Hình 1 : Biểu tượng của phần mềm Orange

2.1.2 Tính năng

Một trong những ưu điểm nổi bật của Orange là việc sử dụng ngôn ngữ lập trình
Python. Python là một ngôn ngữ lập trình phổ biến và mạnh mẽ, có cộng đồng hỗ trợ lớn và
nhiều thư viện phong phú cho khai phá dữ liệu và học máy. Việc sử dụng Python làm ngôn
ngữ chính của Orange mang lại sự linh hoạt và khả năng mở rộng cao, cho phép người dùng
tận dụng toàn bộ sức mạnh của Python trong quá trình nghiên cứu và phân tích dữ liệu.

Orange cung cấp một loạt các công cụ (widgets) cơ bản để đọc dữ liệu, hiển thị dữ
liệu dưới dạng bảng, lựa chọn thuộc tính đặc trưng của dữ liệu, huấn luyện dữ liệu để dự
đoán, so sánh các thuật toán máy học và trực quan hóa các thành phần dữ liệu, và nhiều chức
năng khác.

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

- Tiện ích:

Hình 2: Giao diện của nhóm Data Hình 3: Giao diện của nhóm Visualize
Data: được sử dụng trong việc trích, biến đổi và nạp dữ liệu (ETL process)

+ Visualize: được dùng để biểu diễn biểu đồ (chart), giúp cho việc quan sát dữ liệu được tốt
và hiệu quả.

Hình 2: Giao diện của nhóm Unsupervised Hình 3: Giao diện của nhóm Model

+ Model: nhóm này gồm các máy học (machine learning), phân lớp dữ liệu với Tree,
Logictis, Regression, SVM,…

+ Evaluate: là các phương pháp được sử dụng cho việc đánh giá mô hình như: Test& Score,
Prediction, Confusion,…

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

+ Unsupervised: nhóm này bao gồm các hàm


máy học (machine learing) gom nhóm dữ liệu
như: Distance, K-means,…

Hình 4: Giao diện của nhóm Evaluate

2.2 Quy trình phân lớp dữ liệu

2.2.1 Phương pháp hồi quy tuyến tính

Mô hình hồi quy tuyến tính (Linear Regression Model) là một mô hình dự đoán được
sử dụng để xác định mối quan hệ tuyến tính giữa một biến phụ thuộc (đầu ra) và một hoặc
nhiều biến độc lập (đầu vào). Mô hình này dự đoán giá trị đầu ra dựa trên các hệ số tương
ứng với các biến đầu vào.

Phương trình tổng quát của mô hình hồi quy tuyến tính như sau:

y=β ₀+ β ₁ x ₁+ β ₂ x ₂+...+ β k x k

Trong đó:

y là biến phụ thuộc cần dự đoán,

x, x₂, ..., x k là các biến độc lập,

β, β₁, β₂, ..., β k là các hệ số tương ứng với các biến độc lập,

β là hệ số chặn (intercept).

2.2.2 Phương pháp phân lớp dữ liệu

Phân lớp dữ liệu là quá trình phân chia các mẫu dữ liệu vào các lớp hoặc nhãn khác
nhau dựa trên các đặc trưng và thuộc tính của chúng. Đây là một nhiệm vụ quan trọng trong
Machine Learning và Data Mining, giúp xây dựng mô hình dự đoán hoặc phân loại dữ liệu
mới dựa trên các mẫu đã được gán nhãn.

Có nhiều phương pháp phân lớp dữ liệu khác nhau, tùy thuộc vào đặc điểm của dữ
liệu và mục tiêu của bài toán. Dưới đây là một số phương pháp phân lớp phổ biến:

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

● Decision Trees (Cây quyết định): Xây dựng cây quyết định dựa trên các quy tắc if-
else để phân lớp dữ liệu. Cây quyết định phân lớp dựa trên các đặc trưng và thuộc tính
của dữ liệu và cho phép dự đoán nhãn cho các mẫu mới dựa trên quy tắc đã học.

● Naive Bayes: Dựa trên định lý Bayes, Naive Bayes giả định rằng các đặc trưng độc
lập với nhau và tính toán xác suất để phân lớp dữ liệu. Đây là một phương pháp nhanh
chóng và đơn giản, thường được sử dụng trong các bài toán phân lớp văn bản.

● Support Vector Machines (SVM): SVM tạo ra một siêu mặt phẳng để phân lớp dữ
liệu, tối đa hóa khoảng cách giữa các điểm dữ liệu thuộc các lớp khác nhau. Phương
pháp này thường hiệu quả trong các bài toán phân lớp hai lớp.

● Random Forest: Random Forest sử dụng nhiều cây quyết định ngẫu nhiên để phân
lớp dữ liệu. Kết quả cuối cùng là sự kết hợp của các dự đoán từ các cây quyết định
riêng lẻ, giúp cải thiện độ chính xác và khả năng tổng quát hóa.

● Neural Networks (Mạng nơ-ron): Mạng nơ-ron sử dụng các lớp nơron kết nối để
học và dự đoán các mẫu dữ liệu. Phương pháp này thường được sử dụng trong các bài
toán phân lớp phức tạp và có khả năng học các mối quan hệ phi tuyến.

2.2.3 Phương pháp phân cụm dữ liệu

Phân cụm dữ liệu (Clustering) là quá trình tổ chức các mẫu dữ liệu thành các nhóm
(cụm) dựa trên đặc trưng và mối tương đồng giữa chúng. Mục tiêu của phân cụm là tìm ra các
nhóm có tính chất tương tự bên trong và khác biệt giữa các nhóm. Điều này giúp hiểu và
khám phá cấu trúc tự nhiên hoặc tiềm ẩn của dữ liệu.

Dưới đây là một số phương pháp phân cụm phổ biến:

● K-Means: Phương pháp K-means là một phương pháp phân cụm dựa trên trung tâm
cụm. Nó chia dữ liệu thành K nhóm sao cho tổng bình phương khoảng cách giữa mỗi
mẫu dữ liệu và trung tâm của cụm tương ứng là nhỏ nhất.

● Phân cụm theo mô hình Gaussian (Gaussian Mixture Models - GMM): GMM xem
xét dữ liệu là một tổ hợp các phân phối Gaussian và cố gắng xác định trọng số và
tham số (trung bình và ma trận hiệp phương sai) cho mỗi phân phối để tạo ra một mô
hình phân cụm tốt nhất.

● Hình thái phân cụm (Hierarchical Clustering): Phương pháp này xây dựng một
cây phân cấp từ các mẫu dữ liệu, trong đó mỗi nút trên cây đại diện cho một cụm hoặc

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

một tập hợp các cụm. Hierarchical Clustering có thể được thực hiện theo hai cách:
phân cấp từ trên xuống (top-down) hoặc hợp nhất từ dưới lên (bottom-up).

● DBSCAN (Density-Based Spatial Clustering of Applications with Noise):


DBSCAN phân cụm dựa trên mật độ dữ liệu. Nó xác định các cụm dựa trên việc phát
hiện các khu vực dày đặc của mẫu dữ liệu trong không gian dữ liệu.

● Spectral Clustering: Phương pháp này sử dụng thông tin về mối liên kết giữa các
mẫu dữ liệu để phân cụm. Nó chuyển đổi dữ liệu thành không gian mới dựa trên ma
trận Laplacian của đồ thị kết nối giữa các mẫu dữ liệu và sử dụng thuật toán phân cụm
trên không gian mới.

● Fuzzy C-means: Fuzzy C-means là một biến thể của K-means, nơi mỗi mẫu dữ liệu
có thể thuộc vào các cụm với một mức độ xác định (điểm số) thay vì chỉ thuộc vào
một cụm duy nhất.

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Chương 3:  Áp dụng bài toán qua các thuật toán trên Orange

Nhu cầu sử dụng các loại xe hơi ngày càng nhiều làm cho nhiều người quan tâm hơn
về nguồn nhiên liệu của các xe. Bằng cách sử dụng bộ dữ liệu Auto MPG, ta có thể xây dựng
các mô hình Machine Learning để dự đoán mức tiêu thụ nhiên liệu của một chiếc xe dựa trên
các thuộc tính kỹ thuật của nó. Các phương pháp phân lớp dữ liệu như SVM, Decision Tree,
Logistic Regression và phân cụm dữ liệu như KMean, Hierarchical clustering sẽ được áp
dụng để đưa ra đánh giá về hiệu suất nhiên liệu của xe hơi và hỗ trợ trong quá trình thiết kế
và cải tiến các động cơ tiết kiệm nhiên liệu hơn.

Bộ dữ liệu mẫu “auto-mpg” được lấy từ thư viện StatLib của Đại học Carnegie
Mellon*. Bộ dữ liệu này đã được sử dụng trong Triển lãm Hiệp hội Thống kê Hoa Kỳ năm
1983. Tuy nhiên, tập dữ liệu này là phiên bản sửa đổi một chút của tập dữ liệu được cung cấp
trong thư viện StatLib. 8 trong số các trường hợp ban đầu đã bị xóa vì chúng có giá trị không
xác định cho thuộc tính "mpg". Dữ liệu liên quan đến mức tiêu thụ nhiên liệu trong chu kỳ
thành phố tính bằng dặm trên mỗi gallon, được dự đoán theo 3 thuộc tính rời rạc đa giá trị và
5 thuộc tính liên tục.

3.1. Phân tích dữ liệu

3.1.1. Mô tả dữ liệu

Bộ dữ liệu Auto MPG gồm các thuộc tính sau:

● MPG (Miles per Gallon): Số dặm mà một xe hơi có thể đi được trên một gallon
nhiên liệu. Đây là thuộc tính mục tiêu mà chúng ta muốn dự đoán.

● Cylinders: Số lượng xi-lanh trong động cơ của xe.

● Displacement: Dung tích động cơ, tính bằng đơn vị cubic inches (inch³).

● Horsepower: Công suất của động cơ, tính bằng đơn vị mã lực (horsepower).

● Weight: Trọng lượng của xe, tính bằng đơn vị pounds (lbs).

● Acceleration: Tốc độ gia tăng từ 0 đến 60 mph (miles per hour), tính bằng đơn vị
giây.

● Model Year: Năm sản xuất của xe (ví dụ: 70 cho năm 1970).

● Origin: Nguồn gốc sản xuất.

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

● Car Name: Tên của mẫu xe.

Hình 5: Thông tin dữ liệu

Bộ dữ liệu mẫu có 398 mẫu, 7 thuộc tính có thể xử lý và 0,2% dữ liệu bị thiếu:

3.1.2. Tiền xử lý dữ liệu

Từ 398 mẫu của bộ dữ liệu “auto-mpg”, ta có các Type và Role của 9 thuộc tính như sau:

Hình 6: Type và Role của các thuộc tính

Ta thực hiện xử lý dữ liệu nhằm mục đích dự báo cho biến đầu ra là mpg, cho
nên ta sẽ chuyển Role của các thuộc tính mpg từ Feature sang Target.

Hình 7: Kết quả sau khi thay đổi Role

Tiếp theo, ta sẽ tiến hành tiền xử lý dữ liệu theo mô hình sau:

GVHD: TS Nguyễn An Tế

Hình 8: Tiền xử lý dữ liệu trên Orange


Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Để xử lý các dữ liệu bị thiếu, ta chọn Preprocess -> Impute Missing Value -> Remove
rows with missing values để loại bỏ những dòng bị thiếu dữ liệu.

Kết quả sau khi tiền xử lý dữ liệu:

Hình 9: Kết quả sau khi tiền xử lý dữ liệu

3.2 Phân lớp dữ liệu

3.2.1 Xây dựng mô hình

Cùng với dữ liệu ban đầu, ta sẽ tiến hành phân lớp dữ liệu bằng 3 phương pháp sau:

● Hồi quy tuyến tính (Linear Regression) (Tuy nó không thuộc phương pháp phân
lớp dữ liệu nhưng ta có thể sử dụng để dự đoán và trả về các giá trị là số thực)

● Cây quyết định (Decision Tree)

● SVM (Support Vector Machine)

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Hình 10: Mô hình so sánh các thuật toán

3.2.2 Đánh giá kết quả mô hình

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Để kiểm tra tính đúng đắn của các thuật toán, ta sẽ sử dụng công cụ Test and Score.
Test and Score là công cụ cung cấp các phương pháp để đánh giá hiệu suất của các mô hình
học máy trên dữ liệu. Công cụ này giúp bạn đánh giá mô hình của mình bằng cách tính toán
các chỉ số đánh giá, tạo ra các biểu đồ và bảng tóm tắt kết quả. Dưới đây là một số kết quả
với từng kiểu chia khác nhau:

Hình 11: Kết qủa khi chia mẫu dữ liệu 10 phần

Hình 12: Kết quả khi chia dữ liệu 5 phần

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Hình 13: Kết quả của 10 lần lặp và sử dụng 66% cho mô hình huẩn luyện

Qua kết quả trên, ta có thể thấy chỉ số đánh giá của các mô hình Tree, SVM và Linear
Regression. Các chỉ số của SVM và Linear Regression tốt hơn rất nhiều so với Tree, đặc biệt
là SVM. MSE, RMSE và MAE là các phép đo thể hiện sự sai số và các chỉ số này của
phương pháp SVM là rất thấp và chỉ số R2 (chỉ số đo lường mức độ giải thích) của SVM
cũng rất gần 1. Vì vậy, thuật toán SVM là phương pháp phù hợp nhất khi so với 2 thuật toán
còn lại.

3.3 Dự báo

Ta sử dụng phương pháp SVM (Support Vector Machine) vì đây là phương pháp tốt
nhất khi ta so sánh với các mô hình khác.

Sau đây, ta sẽ tạo dữ liệu thử trong bộ dữ liệu “auto-mpg” và skip biến mpg:

Hình 14: Bộ dữ liệu thử

Ta có thể xây dựng mô hình dự báo như sau:

Ta có kết quả
dự báo như sau:

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Hình 16: Kết quả dự báo

3.4 Phân cụm dữ liệu

Hình 17: Mô hình phân cụm dữ liệu

3.4.1 Phương pháp Hierarchical Clustering

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Hình 18: Kết quả của phương pháp Hierarchical Clustering

Ta sử dụng Ward để tính toán khoảng cách giữa các cụm bằng cách đo lường sự gia
tăng của tổng biến thiên sau khi hợp nhất hai cụm so với tổng biến thiên trước khi hợp nhất.
Từ đó, cụm mới tạo ra có sự tương đồng lớn với các điểm dữ liệu trong cụm gốc. Sau khi
chạy thử các dữ liệu thì ta nên chia bộ dữ liệu làm 2 phân cụm.

Hình 19: Bảng Silhouette Plot cho phương pháp Hierarchical Clusting

Kết quả phân cụm càng gần 1 thì càng đáng tin cậy. Nhìn vào 2 cụm thì ta có thể thấy
nhiều điểm tương đồng ở chúng. Đối với cụm 1 (màu xanh dương), điểm Silhouette Plot có
giá trị âm nhưng chúng rất ít, giá trị cũng chỉ từ 0 đến -0.2. Đối với cụm còn lại, thì điểm

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Silhouette Plot tuy có giá trị nhiều nhưng những giá trị dương cũng rất nhiều, xét trên tỉ lệ thì
giá trị dương vượt trội hoàn toàn so với giá trị âm. Vì vậy, giá trị này có thể xem là đáng tin
cậy. Tuy chúng không thể xóa bỏ hoàn toàn giá trị âm nhưng nếu xét trên tỉ lệ thì điểm dương
vẫn áp đảo điểm âm.

3.4.2 Phương pháp K-means

Đối với phương pháp K-means, ta sẽ phân tích nên chia dữ liệu thành mấy cụm dựa
vào điểm Silhouette. Giá trị silhouette càng lớn thì kết quả phân cụm càng đáng tin cậy. Dựa
vào bảng điểm thì lần lượt từ 2 đến 8 thì 2 có số điểm cao nhất với 0.454. Vì vậy, ta sẽ chọn
chia bộ dữ liệu thành 2 phân cụm.

Hình 20: Phương pháp K-means

Hình 21: Silhouette Plot cho phương pháp K-means


GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Nhìn vào kết quả, ta có thể thấy tuy vẫn còn những điểm âm nhưng nếu xét trên tỉ lệ
những số âm trên số dương thì là rất nhỏ. Những số dương vượt trội hoàn toàn số với số âm
và khá giống với cách phân cụm của phương pháp Hierarchical Clustering. Vì vậy, với các
giá trị ở bảng Sihouette Plot thì kết quả phân cụm này là đáng tin cậy. Tuy không phải là
hoàn toàn có thể tin cậy như khi không có điểm âm nhưng kết quả này là có thể chấp nhận
được.

3.4.3. Kết quả phân cụm

Hình 22: Kết quả phân cụm phương pháp Hierarchical Clustering

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

Hình 23: Kết quả phân cụm phương pháp K-means

Chương 4: Kết Luận


4.1 Các kết quả đạt được

Từ các kết quả của mô hình trên, dựa vào các yếu tố khác nhau như dung tích động
cơ, công suất động cơ hay trọng lượng xe ảnh hưởng như thế nào tới số dặm mà 1 gallon
nhiên liệu có thể chạy. Người mua xe hoặc nhà đầu tư có thể dựa vào đó để đưa ra quyết định
phù hợp với bản thân có mua xe hay không, Nhà sản xuất nên chú trọng vào yếu tố nào khi
sản xuất xe hơi,... Theo kết quả dữ liệu đã đạt được, nhà sản xuất hoặc khách hàng sẽ chú
trọng vào những chiếc xe có ít xi – lanh hơn và có trọng lượng nhẹ để tối ưu hóa số dặm xe
có thể đạt được.

Trong bài nghiên cứu, nhóm đã áp dụng và xây dựng các mô hình xử lý dữ liệu từ thư
viện StatLib của Đại học Carnegie Mellon*, với số mẫu lớn là 392 mẫu. Kết quả nhận thấy
rằng mô hình chạy theo phương pháp SVM tối ưu nhất so với các mô hình khác. Đối với
phân cụm dữ liệu, phương pháp Hierarchical Clustering đáng tin cậy hơn và hiệu quả hơn so
với phương pháp K- means.

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

4.2 Những hạn chế và hướng phát triển

Orange là một trong những ứng dụng để dự báo dự đoán khá tốt cho người sử
dụng, ngoài ra vẫn còn những ứng dụng phân tích dữ liệu như Dataiku, IBM Watson
Studio,... Và để đánh giá được một mức độ chính xác cao hơn vẫn là một vấn đề cần cân nhắc
về bộ dữ liệu. Dựa vào động cơ, cân nặng cũng như thời gian ra đời của xe, chúng ta hoàn
toàn có thể đánh giá được tốc độ hoặc mức tiêu thụ nhiên liệu, công suất của nó qua Orange.

GVHD: TS Nguyễn An Tế
Báo cáo đồ án học phần Khoa học dữ liệu – Nhóm 3 23D1INF50905911

TÀI LIỆU THAM KHẢO


1. Nguyễn, Danh Minh Trí. "Tổng quan về khoa học dữ liệu." (2018).

2. Ha, Quang Thuy, and Tri Thanh Nguyen. "Khoa học dữ liệu, tiền hóa dữ liệu và khả
năng thực thi tại Việt Nam." Tạp chí Công Thương-Các kết quả nghiên cứu khoa học
và Ứng dụng công nghệ 3 (2018): 160-165.

3. Tình, Ngô Thị Thu, Đỗ Quang Hưng, and Nguyễn Phương Linh. "Ứng dụng phương
pháp khoa học dữ liệu để dự báo tuổi phát triển của sâm và phân tích các yếu tố ảnh
hưởng." Tạp chí điện tử Khoa học và Công nghệ Giao thông (2022): 25-38.

4. Ông Xuân Hồng. “Vọc thử Orange: phần mềm data mining”. (2018).

5. An Thuý. “Tổng quan về phần mềm Orange”. (2021).

6. Phạm Thị Hương. "Hồi quy bội tuyến tính, Hồi quy phi tuyến và ứng dụng”. Thư viện
số Đại học Quốc gia Hà Nội (2015): 42-43.

7. TS. Nguyễn An Tế (2023). “Chương 4 Phân lớp dữ liệu” [PowerPoint slides]

8. TS. Nguyễn An Tế (2023). “Chương 5 Phân cụm dữ liệu” [PowerPoint slides]

9. Bùi Thanh Hiếu. “Kĩ thuật phân lớp dữ liệu trong Khai phá dữ liệu”. Báo cáo thu
hoạch chuyên đề Khai phá dữ liệu & nhà kho dữ liệu.

10. Nguyễn Thị Họp. (2020). “Hierarchical clustering - Phân cụm dữ liệu”. Truy cập
ngày 28/5/2023 tại:

https://viblo.asia/p/hierarchical-clustering-phan-cum-du-lieu-maGK7q2elj2

GVHD: TS Nguyễn An Tế

You might also like