You are on page 1of 59

BỘ GIÁO DỤC VÀ ĐÀO TẠO

TRƯỜNG ĐẠI HỌC HOA SEN


KHOA CÔNG NGHỆ THÔNG TIN

ĐỒ ÁN CHUYÊN
NGÀNH HỆ THỐNG
THÔNG TIN QUẢN LÝ
Tên đề tài:

KHAI THÁC DỮ LIỆU ĐIỂM,


ĐƯA RA CẢNH BÁO VÀ GỢI Ý HỌC TẬP CHO SINH VIÊN

Giảng viên hướng dẫn : ThS. Bùi Ngọc Lê

: ThS. Nguyễn Thị Thanh Thanh

Lớp : HQ1911

Thời gian thực hiện : Từ 28/03/2022 đến 02/07/2022

Nhóm sinh viên thực hiện : Nguyễn Việt Nam MSSV: 2190354

: Lê Quỳnh Giang MSSV: 2198644

: Trịnh Chiến Thắng MSSV: 2197858

: Cao Thái Sơn MSSV: 2197602

Số nhóm :2

THÁNG 07 / 2022
TRÍCH YẾU

Đề án này được thực hiện nhằm xây dựng hai mô hình khai thác dữ liệu để đề xuất
học tập và đưa ra các cảnh báo học tập cho sinh viên Đại học Hoa Sen. Đồng thời với mô
hình này, chúng tôi muốn xây dựng một Thông qua quá trình thực hiện đề án, chúng tôi đã
hoàn tất việc xây dựng hai mô hình khai thác và thu nạp được các kết quả mang tính chất
tham khảo.

Đối với mô hình khai thác dữ liệu điểm để đưa ra đề xuất học tập cho sinh viên Hoa
Sen, chúng tôi thu được 36 luật kết hợp phù hợp với ngữ cảnh thực tế. Trong đó, có 8 luật kết
hợp liên quan đến các môn chuyên ngành Hệ thống thông tin quản lý mà chúng tôi cho rằng
là phù hợp để đề xuất.

Đối với mô hình khai thác dữ liệu điểm để đưa ra cảnh báo học tập cho sinh viên Hoa
Sen, chúng tôi thu được các môn học mà nếu như sinh viên rớt thì sẽ có nguy cơ trễ so với lộ
trình mẫu của ngành. Trong đó, chúng tôi ghi nhận được 1 kết quả là nếu sinh viên ngành Hệ
thống thông tin quản lý khoá 18 chưa hoàn thành Đề án chuyên ngành Hệ thống thông tin
quản lý thì sẽ bị trễ so với lộ trình mẫu của ngành.

i
LỜI CẢM ƠN

Nhóm chúng tôi xin dành lời cảm ơn chân thành nhất đến Thạc sĩ Nguyễn Thị Thanh
Thanh, Thạc sĩ Bùi Ngọc Lê vì đã tận tình hướng dẫn, hỗ trợ nhóm chúng tôi trong việc giải
đáp các thắc mắc trong quá trình thực hiện cũng như góp ý xây dựng đề án này.

Bên cạnh đó, chúng tôi cũng xin bày tỏ sự biết ơn đến các thầy cô thuộc Khoa Công
Nghệ Thông Tin vì đã hỗ trợ cung cấp dữ liệu điểm sinh viên ngành MIS K18 để giúp chúng
tôi có dữ liệu đầu vào để thực hiện đề án này.

ii
NHẬN XÉT CỦA GIẢNG VIÊN

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

..................................................................................................................................................

Thành Phố Hồ Chí Minh, Ngày … Tháng … Năm 2021

NGƯỜI NHẬN XÉT

iii
MỤC LỤC

TRÍCH YẾU.......................................................................................................................i

LỜI CẢM ƠN...................................................................................................................ii

NHẬN XÉT CỦA GIẢNG VIÊN....................................................................................iii

MỤC LỤC........................................................................................................................iv

DANH MỤC HÌNH ẢNH................................................................................................vi

NHẬP ĐỀ.......................................................................................................................viii

PHẦN 1: GIỚI THIỆU ĐỀ TÀI........................................................................................1

1.1 Bối cảnh thực tế......................................................................................................1

1.2 Phạm vi nghiên cứu.................................................................................................1

1.3 Mục tiêu đề tài.........................................................................................................1

1.4 Tổng quan mô hình khai thác..................................................................................2

PHẦN 2: CƠ SỞ LÝ THUYẾT........................................................................................3

2.1 Thuật toán Apriori...............................................................................................3

2.1.1 Giới thiệu thuật toán....................................................................................3

2.1.2 Nguyên lý hoạt động...................................................................................3

2.1.3 Ứng dụng của Apriori..................................................................................3

2.1.4 Một số mặt hạn chế của Apriori.......................................................................4

2.2 Thuật toán Decision Trees...................................................................................4

2.2.1 Giới thiệu thuật toán....................................................................................4

2.2.2 Nguyên lý hoạt động...................................................................................4

2.2.3 Một số mặt hạn chế của Decision Trees......................................................4

PHẦN 3: CÔNG CỤ SỬ DỤNG......................................................................................5

2.1 Giới thiệu sơ lược về công cụ..............................................................................5

2.2 Lý do chọn công cụ.............................................................................................5

iv
PHẦN 4: QUÁ TRÌNH KHAI THÁC DỮ LIỆU CHO MỤC ĐÍCH ĐỀ XUẤT HỌC TẬP
...........................................................................................................................................6

4.1 Trích xuất............................................................................................................6

4.2 Chuẩn hoá............................................................................................................6

4.3 Tải dữ liệu vào SQL Server...............................................................................10

4.4 Thực hiện khai thác...........................................................................................14

4.5 Xử lý, sàng lọc kết quả thu được.......................................................................21

PHẦN 5: QUÁ TRÌNH KHAI THÁC DỮ LIỆU CHO MỤC ĐÍCH ĐƯA RA CẢNH BÁO
HỌC TẬP CHO SINH VIÊN..........................................................................................25

5.1 Chuẩn hoá..............................................................................................................25

5.2 Tải dữ liệu vào SQL Server..................................................................................27

5.3 Thực hiện khai thác...............................................................................................30

PHẦN 6: ĐÁNH GIÁ KẾT QUẢ THỰC HIỆN & ĐỀ XUẤT MÔ HÌNH...................47

KẾT LUẬN.....................................................................................................................49

TÀI LIỆU THAM KHẢO...............................................................................................50

v
DANH MỤC HÌNH ẢNH

Hình 1. Tổng quan mô hình khai thác dữ liệu...................................................................2


Hình 2. Bảng dữ liệu thô ban đầu......................................................................................6
Hình 3. Bảng dữ liệu thô sau khi đã loại bỏ các trường dữ liệu không cần thiết..............6
Hình 4. Bảng dữ liệu thu được sau khi đã loại bỏ các hàng dữ liệu trùng lặp về giá trị trung
bình môn học.....................................................................................................................7
Hình 5. Bảng thông tin điểm trung bình của sinh viên......................................................7
Hình 6. Bảng thông tin môn học.......................................................................................8
Hình 7. Bảng lưu trữ thông tin sinh viên...........................................................................8
Hình 8. Bảng dữ liệu điểm trung bình đã được chuẩn hoá..............................................10
Hình 9. Bảng thông tin môn học sau khi được chuẩn hoá...............................................10
Hình 10. Tải dữ liệu lên Microsoft SQL Server - Bước 1...............................................11
Hình 11. Tải dữ liệu lên Microsoft SQL Server - Bước 2..............................................11
Hình 12. Tải dữ liệu lên Microsoft SQL Server - Bước 3..............................................12
Hình 13. Tải dữ liệu lên Microsoft SQL Server - Bước 4...............................................12
Hình 14. Tải dữ liệu lên Microsoft SQL Server – Bước 5..............................................13
Hình 15. Tải dữ liệu lên Microsoft SQL Server - Bước 5...............................................13
Hình 16. Điều chỉnh kiểu dữ liệu bảng DiemTB.............................................................13
Hình 17. Điều chỉnh kiểu dữ liệu bảng MonHoc............................................................14
Hình 18. Điều chỉnh kiểu dữ liệu bảng Sinhvien............................................................14
Hình 19. Giao diện chức năng khai thác dữ liệu của SQL Server Analysis Service.......14
Hình 20. Giao diện chọn phương pháp khai thác dữ liệu................................................15
Hình 21. Giao diện chọn thuật toán khai thác dữ liệu.....................................................15
Hình 22. Giao diện chọn nguồn dữ liệu để thực hiện khai thác......................................16
Hình 23. Giao diện chọn các bảng dữ liệu để tiến hành khai thác..................................16
Hình 24. Giao diện định nghĩa các giá trị đầu vào của thuật toán...................................17
Hình 25. Định nghĩa khoá cho các bảng dữ liệu.............................................................17
Hình 26. Giao diện thiết lập phần trăm dữ liệu được dùng để kiểm thử luật kết hợp.....18
Hình 27. Giao diện thiết lập tên của thuật toán...............................................................18
Hình 28. Mô hình quan hệ của hai bảng dữ liệu.............................................................19
Hình 29. Thiết lập thước đo cho thuật toán.....................................................................19
Hình 30. Thiết lập thước đo của thuật toán.....................................................................19
Hình 31. Tạo 1 dự án mới để thực hiện khai thác dữ liệu...............................................20
Hình 32. Giao diện thông báo thuật toán được triển khai thành công.............................20
Hình 33. Những luật kết hợp thu được từ thuật toán Apriori..........................................21
Hình 34. Chuẩn hoá kết quả thu được - Bước 2(1).........................................................22
Hình 35. Chuẩn hoá kết quả thu được - Bước 2(2).........................................................22
Hình 36. Công thức tìm tên môn học cho vế điều kiện...................................................22
Hình 37. Công thức tìm tên môn học cho vế điều kiện...................................................23
Hình 38. Bảng dữ liệu lưu thông tin điểm trung bình của sinh viên...............................25
Hình 39. Bảng thống kê tổng số tín chỉ của sinh viên và tiến độ so với lộ trình học của ngành
HQ Khoá 18.....................................................................................................................26
Hình 40. Bảng thông tin những môn học thuộc lộ trình của ngành MIS Khoá 18..........26
vi
Hình 41. Bảng dữ liệu đã được chuẩn hoá (chưa loại bỏ giá trị N/A).............................27
Hình 42. Bảng dữ liệu đã được chuẩn hoá cho mục đích khai thác (đã xử lý giá trị N/A)27
Hình 43. Chọn nguồn nơi chứa tệp Excel.......................................................................27
Hình 44. Đặt tên cho Database nơi sẽ chứa dữ liệu tải từ tệp Excel...............................28
Hình 45. Chọn hình thức tải dữ liệu lên SQL Server......................................................28
Hình 46. Chọn trang tính cần tải lên SQL Server............................................................29
Hình 47. Dữ liệu đã được đưa vào SQL Server..............................................................29
Hình 48. Bảng dữ liệu đã được tải lên SQL Server thành công......................................30
Hình 49. Thực hiện khai thác dữ liệu (Bước 1)...............................................................30
Hình 50. Thêm nguồn dữ liệu cho công đoạn khai thác dữ liệu (Bước 2)......................31
Hình 51. Thông tin cổng kết nối với SQL Server (Bước 2.1).........................................31
Hình 52. Định dạng cách thức kết nối dữ liệu với SQL Server (Bước 2.2)....................32
Hình 53. Đặt tên cho nguồn dữ liệu (Bước 2.3)..............................................................32
Hình 54. Tạo view cho nguồn dữ liệu.............................................................................33
Hình 55. Chọn nguồn dữ liệu đã được thêm vào Data Source Wizard...........................33
Hình 56. Chọn logic quan hệ giữa các trường dữ liệu.....................................................34
Hình 57. Thêm bảng dữ liệu từ nguồn dữ liệu vào View................................................34
Hình 58. Đặt tên cho View..............................................................................................35
Hình 59. Thiết lập Logical Primary Key cho thuộc tính MASV trong từng View.........35
Hình 60. View Mining Canh Bao 1.................................................................................36
Hình 61. View Mining Canh Bao 2.................................................................................36
Hình 62. Bắt đầu thực hiện khai thác dữ liệu (Bước 1)...................................................37
Hình 63. Chọn nguồn dữ liệu hiện có (Bước 2)..............................................................37
Hình 64. Chọn thuật toán khai thác dữ liệu – Decision Trees (Bước 3).........................38
Hình 65. Chọn view dữ liệu để tiến hành khai thác (Bước 4).........................................38
Hình 66. Chọn loại bảng (Bước 5)..................................................................................39
Hình 67. Thiết lập cài đặt cho các trường dữ liệu trong view được chọn (Bước 6)........39
Hình 68. Điều chỉnh kiểu dữ liệu cho từng trường dữ liệu (Bước 7)..............................40
Hình 69. Thiết lập chỉ số testing cho mô hình khai thác (Bước 8)..................................40
Hình 70. Đặt tên cho mô hình khai thác (Bước 9)..........................................................41
Hình 71. Thiết lập thước đo cho thuật toán (Bước 10)....................................................41
Hình 72. Các chỉ số thước đo cho thuật toán...................................................................42
Hình 73. Kết quả của mô hình khai thác.........................................................................42
Hình 74. Cây quyết định với 0% testing (chưa loại bỏ các môn học missing)...............43
Hình 75. Cây quyết định với 10% testing (chưa loại bỏ các môn học missing).............43
Hình 76. Cây quyết định với 20% testing (chưa loại bỏ các môn học missing).............43
Hình 77. Cây quyết định với 30% testing (chưa loại bỏ giá trị missing)........................44
Hình 78. Cây quyết định với 0% testing (đã loại bỏ giá trị missing)..............................44
Hình 79. Cây quyết định với 10% testing (đã loại bỏ giá trị missing)............................45
Hình 80. Cây quyết định với 20% testing (đã loại bỏ giá trị missing)............................45
Hình 81. Cây quyết định với 30% testing (đã loại bỏ giá trị missing)............................46
Hình 82. 36 luật kết hợp thu được sau khi đã sàng lọc hoàn toàn..................................47

vii
NHẬP ĐỀ
Cải thiện chất lượng giáo dục trong các trường đại học hiện đang là một vấn đề được
quan tâm bởi các nhà quản lý của các chương trình đào tạo. Trong đó, ở trường Đại học Hoa
Sen, việc nắm bắt được tình trạng học tập chung của sinh viên để đưa ra các đề xuất học tập
cũng như cảnh báo phù hợp hiện chưa thực sự hiệu quả dẫn đến tỉ lệ tốt nghiệp đúng hạn ở
trường Đại học Hoa Sen trong những năm gần đây tương đối thấp. Một phần là nơi đây chưa
có một hệ thống đề xuất và cảnh báo học tập thông minh để sinh viên có thể ý thức và kiểm
soát tình hình học tập của bản thân nhằm phục vụ cho quá trình học hiệu quả và có kết quả
học tập tốt hơn. Từ đó, giúp cải thiện tình trạng ra trường trễ hạn của sinh viên Hoa Sen.

viii
PHẦN 1: GIỚI THIỆU ĐỀ TÀI

1.1 Bối cảnh thực tế

Theo (Thanh, Le, & Tam, 2018), đánh giá được năng lực của sinh viên và chất lượng
của chương trình đào tạo hiện đang là một vấn đề lớn đang rất được quan tâm bởi các trường
Đại học Việt Nam. Đối với những người quản lý cấp cao phụ trách chất lượng chương trình
đào tạo thì cần thông tin dữ liệu tình hình học tập chung của sinh viên thuộc chương trình của
họ. Đối với sinh viên thì các bạn mong muốn có những đề xuất học tập hiệu quả cho các học
kì sau dựa trên kết quả học tập đã có của các bạn từ trước đó. Hiểu được những vấn đề đó,
nhóm chúng tôi quyết định thực hiện đề tài này nhằm góp phần đem lại giải pháp cho để giải
quyết các nhu cầu cấp thiết ấy.

1.2 Phạm vi nghiên cứu

Trong đề tài này, nhóm chúng tôi sẽ chủ yếu tập trung vào dữ liệu đầu vào là điểm
thành phần của sinh viên Hoa Sen trong các môn học. Chúng tôi sẽ loại trừ những yếu tố
khách quan khác như tình hình tài chính của sinh viên, các yếu tố gây ảnh hưởng đến trải
nghiệm sinh viên trong trường đại học Hoa Sen.

1.3 Mục tiêu đề tài

Thông qua đề tài này, chúng tôi mong muốn xây dựng được mô hình khai thác dữ liệu
điểm của sinh viên Đại học Hoa Sen nhằm hỗ trợ các giám đốc chương trình, các quản lý của
phòng đào tạo trường Đại học Hoa Sen để đưa ra các quyết định điều chỉnh chương trình học,
đề cương môn học nhằm mục đích mang lại những kết quả tốt nhất, hiệu quả nhất cho sinh
viên ngành MIS của Đại học Hoa Sen

1
Trong đề tài này, chúng tôi sử dụng dữ liệu đầu vào của báo cáo sẽ là bảng điểm
thành phần các môn học của các sinh viên ngành MIS khoá 18 để tiến hành áp dụng các mô
hình khai thác dữ liệu khác nhau để tìm ra:

1. Mô hình khai thác dữ liệu phù hợp với dữ liệu bảng điểm thành phần của sinh viên
Hoa Sen.
2. Rút trích ra được những đề xuất học tập dựa trên tập dữ liệu đầu vào.
3. Đưa ra được những cảnh báo học tập dựa trên đặc điểm chung của những sinh viên
MIS đang có nguy cơ trễ lộ trình học.

1.4 Tổng quan mô hình khai thác

Do đề tài bao gồm hai vế là khai thác dữ liệu để đề xuất học tập cho sinh viên và cảnh
báo học tập. Chúng tôi thực hiện hai mô hình khác nhau với các cách thức chuẩn hoá dữ liệu
khác nhau để phù hợp với mục đích khai thác. Chúng tôi sử dụng thuật toán Apriori để phục
vụ cho mục đích khai thác dữ liệu để đề xuất học tập, thuật toán Decision Trees để phục vụ
cho việc cảnh báo học tập cho sinh viên. Tuy vậy, cả hai mô hình đều tuân theo thứ tự tổng
quan như hình 1 bên dưới.

Hình 1. Tổng quan mô hình khai thác dữ liệu

2
PHẦN 2: CƠ SỞ LÝ THUYẾT

2.1 Thuật toán Apriori

2.1.1 Giới thiệu thuật toán


Theo (Agrawal & Ramakrishnan , 1994), thuật toán Apriori tạo ra candidate itemsets
(tập ứng viên) được đếm trong 1 lần quét bằng việc chỉ sử dụng itemsets (tập hạng mục) lớn
trong lần quét trước đó mà không cần xem xét đến các transactions (giao dịch) trong hệ
thống. Nói ngắn gọn, thuật toán Apriori cho rằng là bất kỳ subset (tập con) nào thuộc 1 large
itemset (tập hợp thường xuyên) thì đều được xem như là thường xuyên – tức các subset nào
thuộc 1 tập phổ biến thì nó đều là phổ biến. Ví dụ, tập ABCD => E, thì ABC => E, AB => E,
AD => E,… Trong trường hợp 1 tập con không phổ biến (thuộc 1 tập cha), thì tập cha đó
cũng không phổ biến. Quy trình này giúp giảm số lượng tập ứng viên được sinh ra, giảm
phạm vi tìm kiếm của thuật toán.

2.1.2 Nguyên lý hoạt động


Bước 1: Đặt k trong k-itemset = 1, sau đó đếm độ phủ của từng mục có trong tập dữ liệu =>
C1 (tập ứng cử viên).

Sau đó, so sánh số support của tập ứng viên với con số minsupp đã đặt ra ban đầu.

Nếu support_count của tập ứng viên nhỏ hơn min_supp thì sẽ xoá các tập đó.

Bước 2: Đặt k trong k-itemset = 2, sau đó thực hiện như bước 1. Để mà kết hợp 2 itemset thì
các tập cha đó phải có k-2 yếu tố chung (ở đây do k = 2 => k-2 = 2-2 =0 yếu tố chung)

Tiếp tục kiểm tra độ phủ của các tập ứng viên bên trên. Tập nào không thoả mãn min_supp
thì loại. Kết quả sẽ cho ra tập L2.

Bước 3: tiếp tục nâng k lên bằng 3 và thực hiện tương tự cho đến khi tập Cn không còn phần
tử nào nữa.

2.1.3 Ứng dụng của Apriori


Thuật toán Apriori được dùng để phân tích mô tả dữ liệu trong quá khứ, để đưa ra
nhận định tỉ lệ xảy ra của sự việc tiếp theo sẽ xảy ra. Ví dụ như việc dựa trên những luật kết
hợp được sinh ra từ Apriori như sữa, trứng -> bánh mì. Từ đó giúp cho các nhà kinh doanh dễ
dàng ra các khuyến mãi liên quan đến các sản phẩm trên để thúc đẩy doanh thu bán hàng.

3
2.1.4 Một số mặt hạn chế của Apriori
1. Phải duyệt cơ sở dữ liệu nhiều lần, ví dụ tập I = (a1, a2, a3,…a100) thì phải duyệt 100
lần.
2. Số lượng tập ứng viên lớn: 2^n – 1, ví dụ có 100 giá trị thì sẽ có 1.27*10^{30} tập
ứng viên.
2.2 Thuật toán Decision Trees

2.2.1 Giới thiệu thuật toán


Theo (Bramer, 2020) , cây quyết định (Decision Tree) là một cây phân cấp có cấu trúc
được dùng để phân lớp các đối tượng dựa vào dãy các luật. Các thuộc tính của đối tượng có
thể thuộc các kiểu dữ liệu khác nhau như Nhị phân (Binary) , Định danh (Nominal), Thứ tự
(Ordinal), Số lượng (Quantitative) trong khi đó thuộc tính phân lớp phải có kiểu dữ liệu là
Binary hoặc Ordinal.

2.2.2 Nguyên lý hoạt động


Cho dữ liệu về các đối tượng gồm các thuộc tính cùng với lớp (classes) của nó, cây
quyết định sẽ sinh ra các luật để dự đoán lớp của các dữ liệu chưa biết.

2.2.3 Một số mặt hạn chế của Decision Trees


Mặc dù được sử dụng rộng rãi, nhưng thuật toán cây quyết định vẫn còn nhiều mặt
hạn chế như những luật bắt nguồn từ cây quyết định có thể nhiều hơn so với mức cần thiết và
có thể chứa những thông tin dư thừa. Thuật toán Decision Trees phụ thuộc rất lớn vào dữ liệu
đầu vào, dữ liệu phải được định dạng cho phù hợp với thuật toán thì mới có thể áp dụng thuật
toán được. Chỉ cần một thay đổi nhỏ trong các giá trị của dữ liệu có thể ảnh hưởng đến toàn
bộ cây quyết định đầu ra. (Bramer, 2020)

4
PHẦN 3: CÔNG CỤ SỬ DỤNG

2.1 Giới thiệu sơ lược về công cụ

Theo (Microsoft, 2022), SQL Analysis Services là một công cụ phân tích dữ liệu được sử
dụng trong công tác hỗ trợ ra quyết định và phân tích dữ liệu doanh nghiệp. Công cụ này hỗ
trợ các mô hình bảng, mô hình đa chiều, khai thác dữ liệu và Power Pivot cho SharePoint.

2.2 Lý do chọn công cụ

Chúng tôi quyết định sử dụng chức năng SQL Server Analysis Service trong công cụ
Microsoft Visual Studio để thực hiện việc khai thác dữ liệu vì đây là công cụ vô cùng phổ
biến cho công tác khai thác dữ liệu. Đồng thời công cụ này cũng cung cấp kết nối đến
Microsoft SQL Server – nơi mà chúng tôi sử dụng để lưu trữ dữ liệu.

5
PHẦN 4: QUÁ TRÌNH KHAI THÁC DỮ LIỆU CHO MỤC ĐÍCH ĐỀ XUẤT HỌC
TẬP

4.1 Trích xuất

Chúng tôi thực hiện việc trích xuất dữ liệu bảng điểm thành phần của các sinh viên
ngành Hệ thống thông tin quản lý (MIS) từ hệ thống của trường Đại học Hoa Sen dưới sự
giúp đỡ của các thầy cô có liên quan. Sau khi thực hiện việc trích xuất dữ liệu từ hệ thống,
chúng tôi có được bảng dữ liệu thô như sau:

Hình 2. Bảng dữ liệu thô ban đầu

4.2 Chuẩn hoá

Chúng tôi bắt đầu thực hiện xoá các trường dữ liệu như Bậc, số hiệu lớp, lớp, hình
thức đánh giá, trọng số, điểm thành phần để chuẩn bị cho quá trình sàng lọc ra điểm trung
bình theo từng môn học mà sinh viên học.

Hình 3. Bảng dữ liệu thô sau khi đã loại bỏ các trường dữ liệu không cần thiết

Sau khi đã thực hiện hình việc loại bỏ các trường dữ liệu không cần thiết như ở hình
3, chúng tôi tiến hành loại bỏ các giá trị trùng lặp để thu được bảng thông tin điểm trung bình
môn học của sinh viên.

6
Hình 4. Bảng dữ liệu thu được sau khi đã loại bỏ các hàng dữ liệu trùng lặp về giá trị trung bình môn học

Từ bảng dữ liệu như hình 4, chúng tôi phân chia những thông tin đã trích xuất thành 3
bảng chính như sau:

Bảng thông tin lưu trữ thông tin điểm của sinh viên gồm: mã sinh viên, mã môn học,
tín chỉ, điểm trung bình từng môn học, mã học kỳ.

Hình 5. Bảng thông tin điểm trung bình của sinh viên

Bảng thông tin lưu trữ thông tin môn học gổm: mã môn học, tên môn học, số tín chỉ
mỗi môn học.

7
Hình 6. Bảng thông tin môn học

Bảng thông tin lưu trữ thông tin sinh viên gồm: mã sinh viên, tên sinh viên.

Hình 7. Bảng lưu trữ thông tin sinh viên

Sau khi đã trích xuất các trường dữ liệu cần thiết vào 3 bảng khác nhau. Chúng tôi
tiến hành chuẩn hoá dữ liệu đầu vào bằng việc bổ sung trường dữ liệu mới, loại bỏ đi những
giá trị, thông tin không cần thiết cho công tác khai thác dữ liệu. Cụ thể là ở bảng lưu trữ
thông tin điểm trung bình:

1. Bổ sung thêm trường ID cho từng hàng dữ liệu.

8
2. Chúng tôi loại bỏ những môn học không mang nhiều ý nghĩa cho việc khai thác như
tiếng anh giao tiếp quốc tế (EIC), các môn thể chất vì những dữ liệu này sẽ không cho
được những thông tin hữu ích. Ví dụ, luật kết hợp từ dữ liệu có thể cho ra các luật như
là qua môn EIC thì sẽ qua môn Nhập môn hệ thống thông tin quản lý hay qua môn
Bóng rổ thì sẽ qua môn Phân tích định lượng. Về cơ bản, đây đều là những môn học
không đóng góp gì vào 7 năng lực lõi của 1 sinh viên ngành MIS nói chung và khoá
18 nói riêng theo ma trận năng lực lõi của sinh viên MIS.
3. Chúng tôi chỉ lấy dữ liệu lần đầu mà sinh viên học 1 môn học cụ thể nhằm tránh việc
dữ liệu bị nhiễu. Đối với những sinh viên học lại môn, học cải thiện điểm thì chúng
tôi chỉ ghi nhận kết quả lần đầu của các bạn khi học môn đó mà không tính đến điểm
số mà các bạn có được sau khi học cải thiện.
4. Đối với các sinh viên chuyển từ ngành khác sang ngành MIS, chúng tôi chỉ ghi nhận
những môn học chuyên ngành MIS của tất cả các học viên và cắt bỏ đi những giá trị
gây nhiễu dữ liệu.
5. Thay thế cột mã môn học thành MAMHSHORT. Trong đó, chúng tôi cắt giảm 4 ký tự
cuối của mã môn học vì 4 ký tự cuối này mang ý nghĩa là phiên bản của môn học và
ngôn ngữ giảng dạy - điều mà không mang ý nghĩa gì đến quá trình khai thác dữ liệu
của chúng tôi. Ví dụ, môn học Thống kê trong kinh doanh có mã môn học là
KHTQ113DV01, chúng tôi sẽ loại bỏ 4 ký tự cuối là DV01 và chỉ giữ lại KHTQ113.
6. Bổ sung cột KETQUAFULL. Trong cột này, chúng tôi sẽ hiển thị kết quả đậu rớt
môn học của sinh viên. Nếu sinh viên đậu môn học đó, cột KETQUAFULL sẽ hiển
thị giá trị “PASS”, ngược lại là “FAIL”.
7. Bổ sung cột KETQUASHORT. Trong cột này, chúng tôi sẽ lấy ký tự đầu tiên của cột
KETQUAFULL để làm tiền đề cho trường dữ liệu mới là INPUT bên dưới
8. Tạo thêm một trường dữ liệu (INPUT) để làm dữ liệu đầu vào cho quy trình khai thác.
Đối với những sinh viên đã qua môn (Trung bình môn học lớn hơn hoặc bằng 5 điểm)
thì chúng tôi sẽ gắn thêm KETQUASHORT vào mã môn học mà sinh viên đó đã học
và đậu. Trong trường hợp mà sinh viên đó rớt môn (Trung bình môn học thấp hơn 5
điểm) thì chúng tôi sẽ gắn thêm KETQUASHORT vào mã môn học mà sinh viên đó
đã học và rớt. Ví dụ, sinh viên A đã học và đậu môn Kinh tế vi mô (mã môn học ngắn
là QT103DV01 thì chúng tôi sẽ ghi nhận thông tin cho trường dữ liệu INPUT là
QT103P và ngược lại là QT103F nếu sinh viên đó rớt môn.

9
Hình 8. Bảng dữ liệu điểm trung bình đã được chuẩn hoá.

Đối với bảng lưu thông tin môn học:

1. Đổi mã môn học thành MAMHFULL.


2. Bổ sung trường dữ liệu MAMHSHORT, giá trị trong cột này sẽ lấy giá trị mã môn
học của MAMHFULL và bỏ đi 4 ký tự cuối của trường MAMHFULL.

Hình 9. Bảng thông tin môn học sau khi được chuẩn hoá

4.3 Tải dữ liệu vào SQL Server

Chúng tôi thực hiện việc tải dữ liệu lên hệ quản trị cơ sở dữ liệu Microsoft SQL
Server để làm bước đệm cho việc khai thác dữ liệu bằng công cụ SQL Server Analysis
Service trên SQL Server.

Bước 1: Từ giao diện chính của Microsoft SQL Server, nhấp chuột phải vào cơ sở dữ
liệu đã tạo sẵn (của nhóm chúng tôi là BT) và chọn “Task” - “Import Data” như hình 10 bên
dưới.

10
Hình 10. Tải dữ liệu lên Microsoft SQL Server - Bước 1

Bước 2: Sau khi giao diện “SQL Server Import and Export Wizard” hiện ra, chúng tôi
chọn nguồn dữ liệu là “Excel” và thiết lập đường dẫn đến tệp Excel chứa dữ liệu đã được
chuẩn hoá – Hình 11.

Hình 11. Tải dữ liệu lên Microsoft SQL Server - Bước 2

Bước 3: Chọn cơ sở dữ liệu nơi mà dữ liệu sẽ được lưu trữ khi nhập vào SQL Server
– Hình 12.

11
Hình 12. Tải dữ liệu lên Microsoft SQL Server - Bước 3

Bước 4: Chọn sao chép dữ liệu từ các trang tính có trong tệp dữ liệu Excel tải lên –
Hình 13.

Hình 13. Tải dữ liệu lên Microsoft SQL Server - Bước 4

Bước 5: Chọn các trang tính từ tệp Excel cần tải vào SQL Server và thực hiện tải dữ
liệu vào – Hình 14. Sau đó kiểm tra kết quả các bảng dữ liệu, nội dung được tải vào – Hình
15.

12
Hình 14. Tải dữ liệu lên Microsoft SQL Server – Bước 5

Hình 15. Tải dữ liệu lên Microsoft SQL Server - Bước 5

Bước 6: Điều chỉnh kiểu dữ liệu tại các bảng dữ liệu sao cho phù hợp với nhu cầu sử
dụng.

Hình 16. Điều chỉnh kiểu dữ liệu bảng DiemTB

13
Hình 17. Điều chỉnh kiểu dữ liệu bảng MonHoc

Hình 18. Điều chỉnh kiểu dữ liệu bảng Sinhvien

4.4 Thực hiện khai thác

Từ nguồn dữ liệu đã được tạo ở trên, chúng tôi áp dụng nguồn dữ liệu này để thực
hiện thuật toán Apriori giúp khai thác những luật kết hợp trong trong tập dữ liệu đang có.

Hình 19. Giao diện chức năng khai thác dữ liệu của SQL Server Analysis Service

Ở giao diện chọn phương pháp khai thác dữ liệu, chúng tôi chọn sử dụng dữ liệu từ
mô hình cơ sở dữ liệu quan hệ hiện có vì chúng tôi đã có sẵn cơ sở dữ liệu để phục vụ cho
việc khai thác.

14
Hình 20. Giao diện chọn phương pháp khai thác dữ liệu

Ở giao diện chọn thuật toán khai thác dữ liệu, chúng tôi chọn phương pháp khai thác
là luật kết hợp. Vì thuật toán Apriori mà chúng tôi sử dụng là một trong số nhiều những thuật
toán thuộc phương pháp này.

Hình 21. Giao diện chọn thuật toán khai thác dữ liệu

Với cơ sở dữ liệu đã chuẩn bị sẵn cho việc khai thác, chúng tôi đưa hai bảng dữ liệu là
tbDiemTb (Bảng lưu trữ thông tin điểm trung bình của sinh viên theo từng môn học) và bảng
dữ liệu tbSinhVien (Bảng lưu trữ thông tin sinh viên) để xây dựng mô hình của thuật toán
Apriori.

15
Hình 22. Giao diện chọn nguồn dữ liệu để thực hiện khai thác

Hình 23. Giao diện chọn các bảng dữ liệu để tiến hành khai thác

16
Hình 24. Giao diện định nghĩa các giá trị đầu vào của thuật toán

Hình 25. Định nghĩa khoá cho các bảng dữ liệu

Ở giao diện thiết lập tỉ lệ dữ liệu được sử dụng để kiểm thử kết quả đạt được, chúng
tôi sẽ thực hiện thuật toán này 5 lần với 5 mức tỉ lệ dữ liệu dùng kiểm thử là 0%, 10%, 20%,
30% và 50% để tăng tính chính xác của các kết quả đầu ra. Với những luật kết hợp được trả
về khi thực hiện thành công thuật toán, chúng tôi sẽ chọn ra những luật tương đồng nhau của
5 lần chạy thuật toán tương ứng với 5 mức tỉ lệ kiểm thử khác nhau sau khi đã thực hiện xong
việc sàng lọc những kết quả phù hợp với thực tế. Việc thực hiện sàng lọc kết quả đầu ra sẽ
được trình bày ở mục 4.5 của đề án.

17
Hình 26. Giao diện thiết lập phần trăm dữ liệu được dùng để kiểm thử luật kết hợp

Hình 27. Giao diện thiết lập tên của thuật toán

Sau khi đã thực hiện xong việc thiết lập mô hình của dữ liệu cho việc sử dụng thuật
toán Apriori, chúng tôi thu được mô hình quan hệ của hai bảng dữ liệu như bên dưới.

18
Hình 28. Mô hình quan hệ của hai bảng dữ liệu

Sau khi đã có được mô hình quan hệ của hai bảng dữ liệu, chúng tôi tiến hành thiết
lập các thước đo cho thuật toán Apriori trước khi khởi chạy thuật toán.

Hình 29. Thiết lập thước đo cho thuật toán

Ở giao diện thiết lập thước đo cho thuật toán, chúng tôi sẽ thiết lập giá trị
“MAXIMUM_ITEMSET_SIZE” với giá trị (Value) là 0. Vì với giá trị bằng 0, sẽ không có
giới hạn nào cho kích thước của các tập hạng mục.

Hình 30. Thiết lập thước đo của thuật toán

Sau khi hoàn tất việc thiết lập thước đo của thuật toán, chúng tôi bắt đầu khởi tạo 1 dự
án mới để tiến hành chạy thuật toán với các dữ liệu đang có.
19
Hình 31. Tạo 1 dự án mới để thực hiện khai thác dữ liệu

Hình 32. Giao diện thông báo thuật toán được triển khai thành công

Sau khi hoàn tất việc khởi chạy thuật toán, chúng tôi thu được tập kết quả là những
luật kết hợp giữa các tập hạng mục có trong dữ liệu điểm của sinh viên ngành MIS với số
lượng luật là 211 luật.

Tuy nhiên, tuỳ theo mức thiết lập xác suất xuất hiện tối thiểu (Minimum Probability)
và độ hữu dụng tối thiểu của kết quả (Minimum Importance) sẽ cho ra số lượng luật khác
nhau. Các chỉ số này khi được thiết lập càng cao thì số lượng luật kết hợp được sinh ra sẽ
giảm đi đáng kể. Ở mô hình của chúng tôi, chúng tôi sẽ thiết lập mức xác suất xuất hiện tối
20
thiểu của luật kết hợp sinh ra là 1.00 - điều này có nghĩa là bất kì tập hạng mục nào cũng sẽ
xuất hiện luật này. Ngoài ra, chúng tôi sẽ thiết lập chỉ số hữu dụng tối thiểu của kết quả đầu
ra là 0 vì chúng tôi chỉ quan tâm đến chỉ số tỉ lệ xuất hiện (Probability), những kết quả được
sinh ra sẽ được chúng tôi xử lý thông qua các tiêu chuẩn sàng lọc luật kết hợp được trình bày
ở mục 4.5 của báo cáo.

Hình 33. Những luật kết hợp thu được từ thuật toán Apriori

4.5 Xử lý, sàng lọc kết quả thu được

Sau khi đã thu được những luật kết hợp từ hình số 33, chúng tôi sao chép những luật
này vào 1 trang tính trên Google Spreadsheet để thực hiện việc sàng lọc những luật kết hợp
có ý nghĩa.

Trước khi thực hiện việc sàng lọc, chúng tôi tiến hành chuẩn hoá lại kết quả thu được
để dễ dàng quan sát và sàng lọc.

Bước 1: Chúng tôi loại bỏ hoàn toàn các luật kết hợp không có ý nghĩa thực tiễn.
Chẳng hạn như có MIS211F thì có MIS212P – nghĩa là rớt môn MIS211 thì đậu môn
MIS212. Ngoài ra, những trường hợp ngược lại như là đậu môn A thì rớt môn B thì nhóm
chúng tôi sẽ loại bỏ trước để sàng lọc dễ dàng hơn.

Bước 2: Chúng tôi sử dụng các hàm Right, Left, Len kết hợp với hàm Find trong
Excel để tách điều kiện và kết quả của những luật kết hợp thu được. Trong công thức ở hình
số 34, hàm Find là hàm tìm vị trí của giá trị F xuất hiện đầu tiên trong cột C2 (kết quả thu
được), sau đó dùng hàm Left để lấy các giá trị từ bên trái đến vị trí đã tìm ở trên. Công thức
này có thể thay đổi giá trị Find từ “F” thành “P” để phù hợp với các luật như AP -> BP (Đậu
môn A sẽ đậu môn B).

21
Hình 34. Chuẩn hoá kết quả thu được - Bước 2(1)

Để tách kết quả thu được từ cột luật kết hợp, chúng tôi sử dụng hàm như hình 35. Để
xác định được vị trí của kết quả ở trong cột rules, chúng tôi sử dụng hàm Len (hàm đếm số ký
tự). Sau khi trừ tổng ký tự của cột rules với điều kiện nếu số giá trị còn lại nhỏ hơn hoặc bằng
10 thì chứng tỏ số ký tự của kết quả có giá trị bằng với số giá trị cần tìm và trừ đi thêm ra 3
ký tự “->” thì sẽ thu được vế kết quả. Trong trường hợp số giá trị còn lại lớn hơn 10 ký tự thì

Hình 35. Chuẩn hoá kết quả thu được - Bước 2(2)

Bước 3: Sau khi biết được mã môn học của hai vế điều kiện và kết quả được tách từ
kết quả thu được ở mục (x), chúng tôi sử dụng hàm VLOOKUP để tìm kiếm tên môn học để
thuận tiện hơn cho việc sàng lọc thủ công theo các tiêu chuẩn ở mục (x).

Đối với môn học của vế điều kiện, chúng tôi sử dụng hàm Left để lấy các ký tự từ bên
trái cột E2 (ngoại trừ ký tự cuối).

Hình 36. Công thức tìm tên môn học cho vế điều kiện

Đối với môn học của vế kết quả, chúng tôi sử dụng hàm Len để xác định số lượng ký
tự của vế kết quả. Trong trường hợp tổng số ký tự nhỏ hơn 7, chúng tôi kết hợp hàm
VLOOKUP và hàm LEFT để lấy các ký tự trong cột kết quả (ngoại trừ ký tự cuối). Ngược
lại, nếu tổng số ký tự lớn hơn 7, chúng tôi kết hợp ba hàm VLOOKUP, MID và FIND để tìm
các ký tự sau dấu khoảng trắng để lấy mã môn để tra tên môn học.

22
Hình 37. Công thức tìm tên môn học cho vế điều kiện

Bước 4: Áp dụng tiêu chí sàng lọc luật để tiến hành sàng lọc bước cuối, thứ tự sàng
lọc được thực hiện như sau:

 Bước 4.1: Chỉ lấy những môn có ý nghĩa đồng nhất. Chúng tôi sẽ loại bỏ những
luật kết hợp không có ý nghĩa đồng nhất về mặt ý nghĩa thự tế. Ví dụ như có
MIS201F thì sẽ có MK203P, tức là rớt môn MIS201 thì sẽ đậu môn MK203, điều
này trên thực tế không có ý nghĩa cho đề xuất.
 Bước 4.2: Chỉ lấy những môn thoả điều kiện theo lộ trình học tập của ngành MIS
khoá 18. Sau khi đã thu được kết quả từ bước 4.1, chúng tôi tiếp tục lọc theo lộ
trình ngành MIS khoá 18. Ví dụ, nếu ta có luật kết hợp là có MIS202P thì sẽ có
MIS201P (tức là nếu đậu môn MIS202 thì đậu môn MIS201). Nhưng thực tế, môn
MIS201 phải học trước môn MIS202 theo lộ trình học tập ngành MIS khoá 18. Do
đó, những luật kết hợp tương tự như thế này sẽ bị loại bỏ.
 Bước 4.3: Chọn ra các môn học có cùng đóng góp vào 1 năng lực lõi trong ma
trận năng lực lõi của ngành MIS. Ở bước cuối cùng này, chúng tôi sẽ xem xét để
loại bỏ những môn học không cùng đóng góp vào 1 trong 7 năng lực lõi của sinh
viên ngành MIS theo chương trình đào tạo ngành MIS. Ví dụ với cặp luật AP (đậu
môn A) -> BP (đậu môn B), môn A đóng góp vào năng lực lõi ngành MIS là
PL01, PL02, PL03, PL04, PL05 và môn B có đóng góp vào năng lực PL03, PL04,
PL05 thì khi đó chúng tôi sẽ giữ lại luật kết hợp AP -> BP vì chúng có cùng đóng
góp vào chung 1 năng lực lõi trong ma trận năng lực lõi.

Chúng tôi tiếp tục thực hiện lại quá trình khai thác (mục 4.4) với chỉ số kiểm thử dữ
liệu (testing) lần lượt là 0%, 10%, 20%, 30%, 50% và thực hiện các bước xử lý, sàng lọc kết
quả thu được và dùng những kết quả này để so trùng với những lần thực hiện với các chỉ số
kiểm thử dữ liệu khác để tăng tính chính xác của kết quả đầu ra.

Với từng chỉ số kiểm thử dữ liệu (testing), chúng tôi thu được các kết quả như sau:

 0% tỉ lệ kiểm thử: 561 luật được sinh ra, trong đó có 112 luật phù hợp.
 10% tỉ lệ kiểm thử: 562 luật được sinh ra, trong đó có 123 luật phù hợp.

23
 20% tỉ lệ kiểm thử: 577 luật được sinh ra, trong đó có 121 luật phù hợp.
 30% tỉ lệ kiểm thử: 533 luật được sinh ra, trong đó có 120 luật phù hợp.
 50% tỉ lệ kiểm thử: 651 luật được sinh ra, trong đó có 183 luật phù hợp.

Kết hợp tất cả những luật kết hợp trùng khớp từ 5 lần thực hiện khai thác, chúng tôi
thu được kết quả cuối cùng là 36 luật kết hợp.

24
PHẦN 5: QUÁ TRÌNH KHAI THÁC DỮ LIỆU CHO MỤC ĐÍCH ĐƯA RA CẢNH
BÁO HỌC TẬP CHO SINH VIÊN

Do mỗi tập dữ liệu cần được chuẩn hoá riêng theo các hình thức khác nhau để phục
vụ cho mục đích khai thác dữ liệu khác nhau. Tuy nhiên, giai đoạn trích xuất cho hai mô hình
khai thác là như nhau. Vì vậy, chúng tôi sẽ không trình bày lại giai đoạn trích xuất dữ liệu.

5.1 Chuẩn hoá

Từ bảng dữ liệu thô như hình 8, chúng tôi loại bỏ các trường dữ liệu như ID, INPUT,
KETQUASHORT để thu được bảng dữ liệu như sau:

Hình 38. Bảng dữ liệu lưu thông tin điểm trung bình của sinh viên

Chúng tôi tiếp tục thực hiện việc loại bỏ hai trường dữ liệu là TBMHSO và HOCKY
nhằm phục vụ cho mục đích tính tổng số tín chỉ của sinh viên. Sau đó, chúng tôi thực hiện
việc xoá các giá trị lặp lại để làm mịn dữ liệu. Khi một sinh viên khi rớt một môn học, điểm
của môn học đó mà sinh viên đạt được vẫn được lưu vào bảng điểm thành phần của sinh viên,
nhưng tín chỉ của môn học mà sinh viên rớt sẽ không được tính. Ngoài ra, một số sinh viên
cũng có xu hướng học cải thiện điểm số. Hai nguyên nhân trên là lý do chúng tôi thực hiện
việc xoá các giá trị trùng lặp và các hàng dữ liệu có KETQUA là “FAIL”, tức là nếu sinh viên

25
rớt môn nào, thì chúng tôi sẽ không tính môn đó vào số tín chỉ hiện tại của sinh viên. Trong
trường hợp sinh viên đó học cải thiện, chúng tôi sẽ chỉ lấy dữ liệu của lần học đầu tiên.

Hình 39. Bảng thống kê tổng số tín chỉ của sinh viên và tiến độ so với lộ trình học của ngành HQ Khoá 18

Nhóm chúng tôi sau khi thống kê lại tổng số tín chỉ của sinh viên HQ khoá 18, chúng
tôi thu được bảng thông tin như hình 39. Từ hình 39, chúng tôi có thể dễ dàng nhận thấy đâu
là những sinh viên đang đúng, trễ lộ trình học của ngành MIS khoá 18.

Từ bảng dữ liệu như hình 38, Chúng tôi tiếp tục thực hiện việc loại bỏ những môn học
không thuộc trong lộ trình của khoá 18. Cụ thể, chúng tôi chỉ giữ lại những hàng dữ liệu điểm
của những môn học sau đây:

Hình 40. Bảng thông tin những môn học thuộc lộ trình của ngành MIS Khoá 18

26
Chúng tôi tiếp tục tạo một trang tính Excel mới, sử dụng 12 lần hàm VLOOKUP để
lấy kết quả của những môn học của từng sinh viên tương ứng.

Hình 41. Bảng dữ liệu đã được chuẩn hoá (chưa loại bỏ giá trị N/A)

Như hình 41, những giá trị N/A không hề mang ý nghĩa là lỗi mà sẽ được hiểu là sinh
viên chưa học môn học đó. Bảng dữ liệu này hoàn toàn có thể được sử dụng để tiến hành khai
thác. Hoặc theo cách khác, chúng ta có thể loại bỏ các môn học có giá trị N/A trong đó để bộ
dữ liệu trông tinh gọn hơn (hình 42).

Hình 42. Bảng dữ liệu đã được chuẩn hoá cho mục đích khai thác (đã xử lý giá trị N/A)

5.2 Tải dữ liệu vào SQL Server

Ở giai đoạn này, chúng tôi chỉ cần lặp lại các bước như mục 4.3 của đề án.

Hình 43. Chọn nguồn nơi chứa tệp Excel

27
Hình 44. Đặt tên cho Database nơi sẽ chứa dữ liệu tải từ tệp Excel

Chúng tôi chọn hình thức tải dữ liệu lên SQL Server là Copy dữ liệu từ các bảng ở
Excel.

Hình 45. Chọn hình thức tải dữ liệu lên SQL Server

28
Hình 46. Chọn trang tính cần tải lên SQL Server

Ở đây, chúng tôi chọn trang tính “Mining” và “Mining2” để tải lên. Trang tính này là
nơi lưu trữ bảng dữ liệu như hình 41 và 42.

Hình 47. Dữ liệu đã được đưa vào SQL Server

29
Hình 48. Bảng dữ liệu đã được tải lên SQL Server thành công

5.3 Thực hiện khai thác

Chúng tôi thực hiện tạo 1 dự án sử dụng tính năng Analysis Services
Multidimensional and Data Mining Project của Microsoft Visual Studio.

Hình 49. Thực hiện khai thác dữ liệu (Bước 1)

30
Hình 50. Thêm nguồn dữ liệu cho công đoạn khai thác dữ liệu (Bước 2)

Ở bước này, chúng tôi thiết lập cổng kết nối dữ liệu từ Microsoft Analysis Services
đến SQL Server.

Hình 51. Thông tin cổng kết nối với SQL Server (Bước 2.1)

31
Hình 52. Định dạng cách thức kết nối dữ liệu với SQL Server (Bước 2.2)

Hình 53. Đặt tên cho nguồn dữ liệu (Bước 2.3)

Tiếp theo đó, chúng tôi bắt đầu lần lượt tạo view cho từng bảng dữ liệu để tiến hành
khai thác dữ liệu.

32
Hình 54. Tạo view cho nguồn dữ liệu

Hình 55. Chọn nguồn dữ liệu đã được thêm vào Data Source Wizard

33
Hình 56. Chọn logic quan hệ giữa các trường dữ liệu

Hình 57. Thêm bảng dữ liệu từ nguồn dữ liệu vào View

34
Hình 58. Đặt tên cho View

Hình 59. Thiết lập Logical Primary Key cho thuộc tính MASV trong từng View

Chúng tôi tiếp tục thực hiện tương tự với bảng dữ liệu “Mining(2)” để thu được 2 mô
hình như bên dưới.

35
Hình 60. View Mining Canh Bao 1

Hình 61. View Mining Canh Bao 2

Từ hai view thu được bên trên, chúng tôi tiến hành khai thác dữ liệu bằng thuật toán
Decision Trees như sau:

Bước 1: Mở giao diện Data Mining Wizard

Bước 2: Chọn phương pháp sử dụng dữ liệu - nguồn dữ liệu sẵn có

Bước 3: Tạo cấu trúc khai thác dữ liệu - chọn thuật toán Decision Trees

Bước 4: Chọn view dữ liệu muốn khai thác

Bước 5: Xác định kiểu của bảng dữ liệu

Bước 6: Xác định các Key, Input, Output của dữ liệu

Bước 7: Điều chỉnh kiểu dữ liệu

Bước 8: Thiết lập chỉ số testing cho mô hình khai thác

Bước 9: Đặt tên cho cấu trúc khai thác

Bước 10: Thiết lập các thước đo cho thuật toán


36
Hình 62. Bắt đầu thực hiện khai thác dữ liệu (Bước 1)

Hình 63. Chọn nguồn dữ liệu hiện có (Bước 2)

37
Hình 64. Chọn thuật toán khai thác dữ liệu – Decision Trees (Bước 3)

Hình 65. Chọn view dữ liệu để tiến hành khai thác (Bước 4)

38
Hình 66. Chọn loại bảng (Bước 5)

Hình 67. Thiết lập cài đặt cho các trường dữ liệu trong view được chọn (Bước 6)

39
Hình 68. Điều chỉnh kiểu dữ liệu cho từng trường dữ liệu (Bước 7)

Hình 69. Thiết lập chỉ số testing cho mô hình khai thác (Bước 8)

40
Hình 70. Đặt tên cho mô hình khai thác (Bước 9)

Hình 71. Thiết lập thước đo cho thuật toán (Bước 10)

41
Hình 72. Các chỉ số thước đo cho thuật toán

Hình 73. Kết quả của mô hình khai thác

Chúng tôi tiếp tục thử nghiệm nhiều lần mô hình này với bảng dữ liệu chưa loại bỏ
các môn học có các giá trị missing và bảng dữ liệu đã bỏ các giá trị missing tương ứng với
các chỉ số testing khác nhau lần lượt là 0%, 10%, 20%, 30% và thu được các cây quyết định
như sau:

Với 0% testing, chúng tôi thu được cây quyết định bên dưới. Ý nghĩa của cây quyết
định này là nếu sinh viên MIS Khoá 18 hiện tại vẫn chưa hoàn tất môn “Đồ án chuyên ngành
MIS” thì các bạn có nguy cơ cao là đang trễ so với lộ trình học. Còn những bạn đã đậu môn
học này thì sẽ không trễ so với lộ trình học.

42
Hình 74. Cây quyết định với 0% testing (chưa loại bỏ các môn học missing)

Với 10% testing, chúng tôi thu được cây quyết định bên dưới. Ý nghĩa của cây quyết
định tương tự với cây quyết định bên trên.

Hình 75. Cây quyết định với 10% testing (chưa loại bỏ các môn học missing)

Với 20% testing, chúng tôi vẫn thu được cây quyết định như hai trường hợp bên trên.

Hình 76. Cây quyết định với 20% testing (chưa loại bỏ các môn học missing)

43
Với 30% testing, chúng tôi thu được một cây quyết định khác với ba cây ở 3 trường
hợp trên. Ý nghĩa của cây quyết định này là nếu sinh viên Khoá 18 ngành MIS hiện tại vẫn
chưa hoàn tất môn học “Business System Analysis – Phân tích hệ thống nghiệp vụ” thì các
bạn đang trễ hơn so với lộ trình học và ngược lại.

Hình 77. Cây quyết định với 30% testing (chưa loại bỏ giá trị missing)

Với bảng dữ liệu đã loại bỏ các môn học có chứa giá trị missing, chúng tôi thu được
những cây quyết định như bên dưới.

Đối với 0% testing, cây quyết định này thể hiện ý nghĩa rằng nếu sinh viên MIS Khoá
18 rớt môn “Tin học dự bị” hoặc môn “Luật và đạo đức kinh doanh” hoặc môn “Thống kê
trong kinh doanh” thì sẽ có nguy cơ trễ so với lộ trình học. Với hai môn như “Kinh tế vi mô –
QT101” và môn “KT204 – Nguyên lý kế toán” thì chúng tôi sẽ loại bỏ hai nhánh này do giá
trị màu xanh (đúng lộ trình) lớn hơn so với giá trị màu đỏ (trễ so với lộ trình). Điều này khiến
cho luật của các nhánh cây quyết định không phù hợp so với thực tế.

Hình 78. Cây quyết định với 0% testing (đã loại bỏ giá trị missing)

44
Với 10% testing, chúng tôi thu được cây quyết định như bên dưới. Ý nghĩa của cây
quyết định này là nếu sinh viên MIS khoá 18 rớt môn “Kinh tế vi mô” hoặc “Tin học dự bị”
hoặc môn “Thống kê trong kinh doanh” thì các bạn có nguy cơ cao sẽ trễ so với lộ trình học.

Hình 79. Cây quyết định với 10% testing (đã loại bỏ giá trị missing)

Với 20% testing, chúng tôi thu được cây quyết định mang ý nghĩa rằng nếu sinh viên
MIS khoá 18 rớt môn “Luật và đạo đức kinh doanh” hoặc môn “Tin học dự bị” thì các bạn có
nguy cơ cao sẽ trễ so với lộ trình. Hai nhánh QT101 và KT204 ở trường hợp này sẽ bị loại bỏ
do không mang ý nghĩa phù hợp với thực tế.

Hình
80. Cây quyết định với 20% testing (đã loại bỏ giá trị missing)

Với 30% testing, chúng tôi thu được cây quyết định mang ý nghĩa rằng nếu inh viên
MIS khoá 18 rớt môn “Kinh tế vi mô” thì sẽ có nguy cơ cao trễ lộ trình so với lộ trình gốc.
Các nhánh còn lại như KT204, QT106 sẽ bị loại bỏ.

45
Hình 81. Cây quyết định với 30% testing (đã loại bỏ giá trị missing)

46
PHẦN 6: ĐÁNH GIÁ KẾT QUẢ THỰC HIỆN & ĐỀ XUẤT MÔ HÌNH

Sau khi đã hoàn tất việc khai thác dữ liệu ở cả hai mô hình, chúng tôi đúc kết lại kết
quả của từng mô hình như sau:

Đối với mô hình khai thác phục vụ cho đề xuất học tập, chúng tôi thu được 36 luật kết
hợp sau khi đã trải qua các giai đoạn sàng lọc. Trong đó, chúng tôi chọn ra 8 luật có liên quan
đến chuyên ngành MIS mà chúng tôi cảm thấy phù hợp nhất về mặt ý nghĩa (in đậm màu
xanh lá).

Hình 82. 36 luật kết hợp thu được sau khi đã sàng lọc hoàn toàn

Đối với mô hình khai thác phục vụ cho cảnh báo học tập, thông qua hai bảng dữ liệu
(đã loại bỏ giá trị môn học missing và chưa loại bỏ giá trị môn học missing) tương ứng với
các mức chỉ số testing lần lượt là 0%, 10%, 20%, 30%, 50% thì chúng tôi đúc kết được
những luật sau đây:

1. Với sinh viên MIS, nếu rớt các môn học như Phân tích hệ thống nghiệp vụ, Tin học
dự bị, luật và đạo đức kinh doanh, kinh tế vi mô thì nguy cơ cao các bạn sẽ trễ lộ trình
2. Ngoài ra, đối với Đề án chuyên ngành MIS thì luật đúc kết lại mang ý nghĩa rằng nếu
như hiện tại sinh viên MIS vẫn chưa thực hiện Đề án chuyên ngành MIS thì các bạn
cũng đang có nguy cơ cao trễ so với lộ trình.

47
Từ các kết quả thu được từ hai mô hình khai thác dữ liệu, chúng tôi cho rằng những
kết quả thu được này có thể đề xuất cho các khoá MIS với tính chất tham khảo. Mô hình này
đồng thời cũng có thể ứng dụng cho các ngành học khác với cách làm tương tự để cho ra
được những kết quả tương ứng.

48
KẾT LUẬN

Sau khi hoàn thành đề tài này, chúng tôi không chỉ thu được những kinh nghiệm về
quy trình chuẩn hoá, tải dữ liệu mà còn là cách ứng dụng những thuật toán khai thác dữ liệu
đã được học để giải quyết các vấn đề thực tiễn của xã hội. Kết quả thu được tuy chỉ mang ý
nghĩa tham khảo nhưng chúng vẫn là những tri thức được đúc kết từ quá trình khai thác dữ
liệu. Chúng tôi tin rằng mô hình này hoàn toàn có thể trở thành tiền đề để xây dựng một ứng
dụng đề xuất học tập cho các bạn sinh viên của trường Đại học Hoa Sen và kết quả thu được
từ đề án này có thể trở thành nguồn thông tin tham khảo cho các bạn sinh viên ngành MIS
của Đại học Hoa Sen các khoá sau.

49
TÀI LIỆU THAM KHẢO

1. Agrawal, R., & Ramakrishnan , S. (1994). Fast Algorithms for Mining Association
Rules in Large Databases. 20th International Conference on Very Large Databases
(pp. 487-499). San Jose: IBM.

2. Bramer, M. (2020). Principles of Data Mining. London: Springer-Verlag London Ltd.

3. Microsoft. (2022, 02 04). SQL Server Analysis Services overview. Retrieved from
https://docs.microsoft.com/: https://docs.microsoft.com/en-us/analysis-services/ssas-
overview?view=sql-analysis-services-2022

4. Thanh, N. T., Le, B. N., & Tam, N. T. (2018). Xây Dựng Bản Đồ Năng Lực và Gợi ý
Phát Triển Năng Lực cho Sinh Viên với Ứng Dụng VSC (Visualization of Student
Competency). Hội thảo quốc gia lần thứ XXI: Một số vấn đề chọn lọc của Công nghệ
thông tin và truyền thông – Thanh Hóa, 27- 28/7/2018, (p. 1). Thanh Hoá.

50

You might also like