You are on page 1of 44

TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

KHOA HTTT KINH TẾ & TMĐT

**********

BÀI THẢO LUẬN


MÔN: KHAI PHÁ DỮ LIỆU TRONG KINH DOANH
ĐỀ TÀI: PHÂN TÍCH DỮ LIỆU TRONG BÀI TOÁN KẾT QUẢ HỌC TẬP
CỦA SINH VIÊN TRƯỜNG ĐẠI HỌC THƯƠNG MẠI

Giảng viên hướng dẫn : ThS. Nghiêm Thị Lịch


Nhóm : 2
Mã lớp học phần : 2232INFO2111

Hà Nội, tháng 10 năm 2022

1
BẢNG DANH SÁCH THÀNH VIÊN VÀ PHÂN CÔNG NHIỆM VỤ

STT Mã sinh viên Họ và tên Nhiệm vụ

- Mô tả bài toán
6 20D190133 Hoàng Thị Hiền - Cây quyết định
- Chạy dữ liệu SPSS
- Phân tích độ tin cậy
7 20D210258 Đinh Thị Hoa Cronbach’s Alpha
- Phân tích nhân tố EFA
- Xây dựng theo cây quyết định

9 20D210022 Cao Văn Hùng x

- Chạy DL SPSS
10 20D190143 Bùi Thị Khánh (NT) - Cây quyết định
- Thống kê mô tả
- Word
- Tương quan person
18 20D210142 Nguyễn Thị Anh Thư - Hồi quy tuyến tính
- Xây dựng theo cây quyết định

NHÓM TRƯỞNG
Khánh
Bùi Thị Khánh

2
BẢNG ĐÁNH GIÁ THÀNH VIÊN NHÓM 2

STT MSV Họ và tên Tự đánh Nhóm đánh Ký tên


giá giá

6 20D190133 Hoàng Thị Hiền 9 9,5 Hiền

7 20D210258 Đinh Thị Hoa 8 8,5 Hoa

9 20D210022 Cao Văn Hùng x x x

10 20D190143 Bùi Thị Khánh (NT) 9 10 Khánh

18 20D210142 Nguyễn Thị Anh Thư 8 8 Thư

NHÓM TRƯỞNG
Khánh
Bùi Thị Khánh

3
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lâp – Tự do – Hạnh phúc
***
BIÊN BẢN HỌP NHÓM
( Lần thứ nhất)

I. Thời gian và địa điểm:


- Họp qua ứng dụng zoom
- Thời gian họp: 20h-21h30 ngày 14 tháng 9 năm 2022
II. Thành viên tham gia:
- Hoàng Thị Hiền
- Đinh Thị Hoa
- Bùi Thị Khánh
- Nguyễn Thị Anh Thư

Thành viên vắng mặt: Cao Văn Hùng


III. Mục tiêu buổi họp:
Đặt bài toán và xây dựng đề cương bài thảo luận, xây dựng quy trình phân tích và
khai phá dữ liệu cho bài toán “Phân tích dữ liệu trong bài toán kết quả học tập của sinh
viên trường Đại học Thương Mại”.
IV. Nội dung buổi họp:
1. Nhóm trưởng tạo vote để chọn ra tên đề tài
2. Nhóm trưởng thống nhất đề tài, giao nhiệm vụ cho thành viên: mô tả bài toán,
xây dựng các biến độc lập, biến quan sát, xây dựng bảng hỏi khảo sát.
3. Nhóm tiến hành khảo sát
4. Thư ký ghi lại những ý kiến của tất cả thành viên nhóm, ghi biên bản họp
nhóm.

V. Đánh giá buổi họp nhóm


Các thành viên tích cực tham gia đóng góp ý kiến cho bài thảo luận và nhận nhiệm
vụ được giao từ nhóm trưởng.

Hà Nội, ngày 14 tháng 9 năm 2022


Nhóm trưởng
(Ký, ghi rõ họ tên)
Khánh
Bùi Thị Khánh

4
CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM
Độc lâp – Tự do – Hạnh phúc
***
BIÊN BẢN HỌP NHÓM
(Lần 2)
I. Thời gian và địa điểm:
- Họp qua ứng dụng zoom
- Thời gian họp: 20h - 21h30 ngày 12 tháng 10 năm 2022
II. Thành viên tham gia:
- Hoàng Thị Hiền
- Đinh Thị Hoa
- Bùi Thị Khánh
- Nguyễn Thị Anh Thư

Thành viên vắng mặt: Cao Văn Hùng


III. Mục tiêu buổi họp:
Báo cáo những công việc trước đã làm từ những buổi trước, và triển khai các công
việc về phân tích và khai phá dữ liệu cho bài toán.
IV. Nội dung công việc:
1. Nhóm đã thu thập được dữ liệu cho bài toán, thực hiện các bước về tiền xử lý
dữ liệu, tiến hành chạy dữ liệu trên phần mềm SPSS để phân tích dữ liệu dựa
trên các bảng biểu.
2. Chạy dữ liệu SPSS, thì viết được các kết quả.
3. Thảo luận xây dựng cây quyết định và chia nhiệm vụ cho thành viên tính toán
số liệu để xây dựng cây quyết định.

V. Đánh giá buổi họp:


Các thành viên tích cực tham gia đóng góp ý kiến cho bài thảo luận và nhận nhiệm
vụ được giao từ nhóm trưởng.

Hà Nội, ngày 12 tháng 10 năm 2022


Nhóm trưởng
(Ký, ghi rõ họ tên)
Khánh
Bùi Thị Khánh

5
MỤC LỤC

LỜI MỞ ĐẦU................................................................................................................7
LỜI CẢM ƠN................................................................................................................8
CHƯƠNG 1: MÔ TẢ BÀI TOÁN...............................................................................9
1. Đặt vấn đề...............................................................................................................9
2. Dữ liệu đầu vào.......................................................................................................9
3. Mục tiêu bài toán...................................................................................................9
CHƯƠNG 2: THU THẬP VÀ TIỀN XỬ LÝ DỮ LIỆU..........................................10
1. Thu thập dữ liệu...................................................................................................10
2. Tiền xử lý dữ liệu..................................................................................................12
CHƯƠNG 3: KHAI PHÁ DỮ LIỆU.........................................................................14
1. Xử lý và phân tích dữ liệu thông qua SPSS.......................................................14
1.1 Thống kê mô tả...............................................................................................14
1.2 Phân tích độ tin cậy Cronbach’s Alpha........................................................19
1.3. Phân tích nhân tố EFA..................................................................................25
1.4. Phân tích tương quan Person.......................................................................28
1.5. Phân tích hồi quy tuyến tính.........................................................................30
2. Xây dựng cây quyết định.....................................................................................33
2.1. Tìm nút gốc.....................................................................................................34
2.2. Tìm nút lá.......................................................................................................35
2.3. Xây dựng theo cây quyết định......................................................................40
KẾT LUẬN..................................................................................................................43
TÀI LIỆU THAM KHẢO..........................................................................................44

6
LỜI MỞ ĐẦU

Trong những năm gần đây, công nghệ thông tin phát triển mạnh mẽ và việc ứng
dụng công nghệ thông tin trong nhiều lĩnh vực đời sống, kinh tế xã hội đã làm lượng
dữ liệu được thu thập và lưu trữ ở các hệ thống thông tin tăng lên một cách nhanh
chóng. Trước tình hình đó, việc khai thác và chọn lọc những dữ liệu có ích từ lượng dữ
liệu khổng lồ đó là việc cần thiết, đóng vai trò quyết định thành công trong mọi hoạt
động. Các dữ liệu chắt lọc đó sẽ giúp cải thiện hoạt động trong hiện tại hay đưa ra
những dự đoán giúp việc đưa ra quyết định trong tương lai sẽ chính xác hơn. Với
những lý do đó, nhu cầu phát triển các kỹ thuật thu thập, lưu trữ, phân tích dữ liệu,…
được đặt ra và nó đòi hỏi phải được xử lý thông minh và hiệu quả hơn. Từ đó làm phát
triển kỹ thuật mới và với kỹ thuật này cho phép ta khai thác được tri thức hữu dụng từ
cơ sở dữ liệu lớn được gọi là các kỹ thuật khai phá dữ liệu (Data Mining). Các kỹ thuật
khai phá dữ liệu được ứng dụng trong nhiều lĩnh vực như: kinh tế, tài chính, y tế, giáo
dục…
Trong việc ứng dụng khai phá dữ liệu vào nhiều lĩnh vực khác nhau của đời
sống, khai phá dữ liệu trong lĩnh vực giáo dục đang dần có được sự quan tâm đúng
mức. Chúng ta cần phải nhìn nhận rằng giáo dục là nhân tố quyết định sự phát triển
của đất nước về nhiều mặt. Mục tiêu phát triển xã hội một cách bền vững đang đặt ra
cho giáo dục những yêu cầu mới. Giáo dục đào tạo có nhiệm vụ định hướng và hoạch
định chính sách cho đối tượng chính của giáo dục là thế hệ trẻ, là lực lượng kế thừa
của việc xây dựng, bảo vệ và phát triển đất nước trong tương lai một cách đúng đắn và
kịp thời. Chính vì vậy, việc định hướng và xây dựng chính sách trong giáo dục đào tạo
cần phải được hỗ trợ bởi các công cụ khoa học để tránh những sai lầm đáng tiếc.
Trong số những công cụ đó, khai phá dữ liệu là một công cụ hữu ích và có tính khoa
học cao, giúp các nhà quản lý giáo dục có được những tri thức quý giá phục vụ cho
công tác quản lý và sinh viên cũng có thể sử dụng những kết quả hữu ích từ quá trình
chắt lọc dữ liệu trong khai phá dữ liệu.
Trước thực tế đó, nhóm chúng em đã lựa chọn và nghiên cứu đề tài “Phân tích dữ
liệu trong bài toán kết quả học tập của sinh viên trường Đại học Thương Mại” nhằm
tìm ra những nhân tố ảnh hưởng, quyết định đến kết quả học tập của sinh viên và tìm
ra những phát hiện mới, đề xuất một số giải pháp nhằm cải thiện và nâng cao chất
lượng học tập của sinh viên trong thời gian tới.

7
LỜI CẢM ƠN

Đầu tiên, nhóm xin gửi lời cảm ơn sâu sắc đến giảng viên ThS.Nghiêm Thị Lịch
đã dạy dỗ, truyền đạt những kiến thức quý báu cho chúng em trong suốt thời gian học
tập vừa qua. Trong thời gian học tập, chúng em đã có thêm cho mình nhiều kiến thức
bổ ích, tinh thần học tập hiệu quả, nghiêm túc. Đây chắc chắn sẽ là những kiến thức
quý báu, là hành trang để chúng em có thể vững bước sau này.
“Khai phá dữ liệu trong kinh doanh” là học phần rất thú vị, vô cùng bổ ích và có
tính thực tế cao. Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của
sinh viên. Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khả năng tiếp thu thực tế
còn nhiều bỡ ngỡ. Mặc dù nhóm đã cố gắng hết sức nhưng bài thảo luận khó có thể
tránh khỏi những thiếu sót và nhiều chỗ còn chưa chính xác, kính mong cô xem xét và
góp ý để bài thảo luận của nhóm được hoàn thiện hơn.

8
CHƯƠNG 1: MÔ TẢ BÀI TOÁN
1. Đặt vấn đề
Kết quả học tập của sinh viên luôn là một nhân tố quan trọng đánh giá chất lượng
đào tạo của một trường đại học. Kết quả học tập tốt sẽ tạo điều kiện giúp sinh viên có
nhiều cơ hội việc làm tốt hơn. Chính vì vậy, đây là một trong những vấn đề được nhà
trường và sinh viên đặc biệt quan tâm. Bên cạnh những sinh viên có kết quả học tập
xuất sắc, giỏi còn rất nhiều sinh viên có kết quả học tập chưa tốt, tỷ lệ sinh viên có kết
quả học tập trung bình và yếu vẫn còn tồn tại. Chính vì vậy, cần có nghiên cứu để chỉ
ra nguyên nhân gây ảnh hưởng đến kết quả học tập này. Có rất nhiều các nhân tố tác
động đến kết quả học tập của sinh viên nhưng có thể chia thành hai nhóm là nhân tố
chính là: nhân tố thuộc bản thân sinh viên và nhân tố bên ngoài ( môi trường, cơ sở vật
chất, năng lực giảng viên,…). Trong nghiên cứu này, nhóm sẽ phân tích yếu tố ảnh
hưởng của một số nhân tố ở cả bên trong và bên ngoài bản thân sinh viên qua công cụ
SPSS để tìm ra những nhân tố có ảnh hưởng đến kết quả học tập của sinh viên. Cùng
với việc sử dụng SPSS, nhóm sẽ tiến hành xây dựng cây quyết định dựa trên một số
thuộc tính thuộc bản thân sinh viên để dự đoán kết quả học tập của sinh viên. Thông
qua đó, sinh viên có thể chọn lựa những công việc, lên kế hoạch cho bản thân để cải
thiện kết quả học tập hoặc nâng cao kết quả học tập hơn.
2. Dữ liệu đầu vào
Để phục vụ cho bài toán khai phá dữ liệu trong học tập của sinh viên trường Đại
học Thương Mại, cần thu thập các loại thông tin như sau:
Thông tin cơ bản của sinh viên bao gồm: khoa, chuyên ngành, sinh viên khóa,
giới tính, điểm và các thông tin liên quan khác.
Thông tin về những yếu tố có thể gây ảnh hưởng đến kết quả học tập của sinh
viên: động cơ học tập, thái độ học tập, phương pháp học tập, giảng viên, cơ sở vật
chất,… .
3. Mục tiêu bài toán
 Tiếp cận hoạt động khai phá dữ liệu với mục tiêu giúp người đọc có cái nhìn
khái quát hơn về khai phá dữ liệu, không còn cảm thấy đây là một khái niệm xa vời,
mang nặng tính toán học, kỹ thuật.
 Đánh giá thực trạng và kết quả học tập của sinh viên Đại học Thương mại hiện
nay.
 Tìm hiểu, phân tích các yếu tố ảnh hưởng đến kết quả học tập của sinh viên
trường Đại học Thương Mại.
 Dự đoán được kết quả học tập của sinh viên dựa trên bộ dữ liệu thu thập được.
Từ đó đề xuất những giải pháp nhằm cải thiện và nâng cao kết quả học tập của sinh
viên.
9
CHƯƠNG 2: THU THẬP VÀ TIỀN XỬ LÝ DỮ LIỆU
1. Thu thập dữ liệu
Dữ liệu phục vụ khai phá trong bài toán chủ yếu sử sụng số liệu sơ cấp, được thu
thập với 175 mẫu khảo sát từ sinh viên đang theo học tại trường Đại học Thương Mại
ít nhất một năm trở lên. Tiến hành thông qua phiếu điều tra khuôn mẫu có sẵn bằng
hình thức khảo sát online. Chi tiết phiếu điều tra bao gồm những nội dung sau:
I. Thông tin cá nhân:
1. Giới tính
 Nữ
 Nam
2. Chuyên ngành
 Hệ thống thông tin kinh tế
 Quản trị nhân lực
 Thương mại điện tử
 Marketing
3. Khóa học
 K54
 K55
 K56
 K57
II. Nội dung khảo sát:
1. Điểm tuyển sinh đầu vào của bạn là bao nhiêu ?
 24 – 24.95
 25 – 25.95
 >26
2. Thời gian tự học trong một ngày của bạn là ?
 < 2 giờ
 Từ 2 – 4 giờ
 Từ 4 – 6 giờ
3. Bạn dành bao nhiêu thời gian cho việc lướt web trong một ngày ?
 < 2 giờ
 2 – 4 giờ
 4 – 6 giờ
4. Bạn có tham gia các hoạt động ngoại khóa không ?
10
 Có tham gia
 Không tham gia
5. Mức độ tham gia học trên lớp của bạn là ?
 Đầy đủ
 Không đầy đủ
6. Điểm GPA hiện tại của bạn là bao nhiêu ?

Mã Nội dung câu hỏi Mức độ đồng ý


(1) (2) (3) (4) (5)
Động cơ học tập
1 Học để nâng cao kiến thức cho bản thân
2 Học để không thua kém bạn bè
3 Học để thực hiện ước mơ, lý tưởng của bản thân
4 Học để đạt được học bổng học tập
Thái độ học tập
5 Tôi luôn cam kết hoàn thành việc học tại trường
6 Tôi sẵn sàng làm việc hết mình để đạt được mục
tiêu
7 Tôi thích thú với những thách thức trong học tập
8 Tôi có khả năng chịu áp lực cao trong học tập
Phương pháp học tập
9 Lập thời gian biểu cho việc học tập
10 Chuẩn bị bài trước khi đến lớp
11 Chủ động tìm đọc các tài liệu tham khảo môn học
12 Hăng hái phát biểu, thảo luận xây dựng bài trong
giờ học
13 Tìm ra phương pháp học tập phù hợp cho từng
môn học
14 Vận dụng các kiến thức đã học vào thực tiễn

Giảng viên
15 Giảng viên có phương pháp truyền đạt tốt, dễ hiểu
16 Giảng viên sẵn sàng chia sẻ kiến thức, kinh
nghiệm với sinh viên
17 Giảng viên có trình độ cao, sâu rộng về chuyên
môn giảng dạy

11
18 Giảng viên đảm bảo giờ lên lớp và kế hoạch giảng
dạy
19 Giảng viên đánh giá kết quả học tập chính xác và
công bằng
Cơ sở vật chất
20 Giáo trình, tài liệu học tập được cung cấp đầy đủ,
đa dạng
21 Phòng học đáp ứng được nhu cầu học tập trên lớp

22 Thư viện có nguồn tài liệu tham khảo phong phú,


đảm bảo không gian học tập
23 Dễ dàng sử dụng các ứng dụng tiện ích trực tuyến
– truy cập Internet, website phục vụ học tập
Kết quả học tập
24 Tôi đã đạt được điểm cao trong học tập
25 Tôi đã gặt hái được nhiều kiến thức mới

26 Tôi phát triển được nhiều kỹ năng từ các môn học


27 Tôi có thể ứng dụng những gì đã học vào thực tiễn

2. Tiền xử lý dữ liệu
Dữ liệu ban đầu bao gồm rất nhiều thuộc tính, sau quá trình tiền xử lý dữ liệu
(chuyển đổi, mã hóa, trích chọn thuộc tính), các thuộc tính được sử dụng để phục vụ
cho bài toán được mô tả như Bảng 1.
Bảng 1: Mô tả các thuộc tính
STT Tên thuộc tính Mã hóa Mô tả
1 Giới tính Gioi_tinh - Sinh viên nữ: 0
- Sinh viên nam: 1
2 Chuyên ngành Chuyen_nganh - Hệ thống thông tin: 1
- Quản trị nhân lực: 2
- Thương mại điện tử: 3
- Marketing: 4
3 Khóa Khoa - K54: 1
- K55: 2
- K56: 3
- K57: 4
4 Điểm tuyển sinh Diem_ts - 24 – 24.95: 1
12
- 25 – 25.95: 2
- > 26: 3
5 Thời gian tự học Tg_hoc - < 2 giờ: 1
- 2 – 4 giờ: 2
- 4 – 6 giờ: 3
6 Tham gia ngoại Tg_ngoaikhoa - Có tham gia: 1
khóa - Không tham gia: 0
7 Thời gian lướt web Tg_luot_web - < 2 giờ: 1
- 2 – 4 giờ: 2
- 4 – 6 giờ: 3
8 Tham gia học trên Tg_hoc_tren_lo - Đầy đủ: 1
lớp p - Không đầy đủ: 0
9 GPA GPA - 2.00 – 2.49: 1
- 2.5 – 3.19: 2
- 3.2 – 3.59: 3
- 3.6 – 4.0: 4
10 Động cơ học tập DCHT Gồm 5 biến quan sát được
mã hóa lần lượt theo thứ tự
là: DCHT1, DCHT2,
DCHT3, DCHT4
11 Phương pháp học PPHT Gồm 6 biến quan sát được
tập mã hóa lần lượt từ PPHT1
đến PPHT6
12 Thái độ học tập TDHT Gồm 4 biến quan sát được
mã hóa từ TDHT1 đến
TDHT4
13 Giảng viên GV Gồm 6 biến quan sát được
mã hóa: GV1, GV2, GV3,
GV4, GV5, GV6
14 Cơ sở vật chất CSVC Gồm 4 biến quan sát được
mã hóa lần lượt: CSVC1,
CSVC2, CSVC3, CSVC4
15 Kết quả học tập KQHT Gồm 4 biến quan sát được
mã hóa từ KQHT1 đến
KQHT4

13
CHƯƠNG 3: KHAI PHÁ DỮ LIỆU
1. Xử lý và phân tích dữ liệu thông qua SPSS
1.1 Thống kê mô tả

Statistics
Giới tính Khóa Chuyên ngành
N Valid 175 175 175
Missing 0 0 0

Thực hiện thống kê mô tả với 175 mẫu dữ liệu, không phát hiện giá trị Missing
trong 175 mẫu dữ liệu này.
1.1.1. Giới tính
Bảng 1.1: Bảng thống kê số sinh viên tham gia khảo sát theo giới tính

Giới tính
Cumulative
Frequency Percent Valid Percent Percent
Valid Nữ 89 50.9 50.9 50.9
Nam 86 49.1 49.1 100.0
Total 175 100.0 100.0

Hình 1.1: Biểu đồ thống kê số lượng sinh viên tham gia khảo sát theo giới tính

14
Qua bảng khảo sát có thể thấy được tỷ lệ sinh viên nữ được khảo sát là 50.9% và
tỷ lệ này đối với nam là 49.1%. Như vậy, không có sự chênh lệch lớn về số lượng sinh
viên được khảo sát theo giới tính.
1.1.2. Khóa
Bảng 1.2: Bảng thống kê số lượng sinh viên khảo sát theo các khóa

Khóa
Fre- Valid Per- Cumulative
quency Percent cent Percent
Valid K54 30 17.1 17.1 17.1
K55 65 37.1 37.1 54.3
K56 45 25.7 25.7 80.0
K57 35 20.0 20.0 100.0
Total 175 100.0 100.0

Hình 1.2: Biểu đồ thống kê số lượng sinh viên khảo sát theo các khóa

Qua quá trình phân tích, có thể thấy số lượng sinh viên được khảo sát nhiều nhất
là sinh viên thuộc khóa K55, chiếm 37.1%. Nhóm đã ưu tiên khảo sát đối tượng này vì
đây là nhóm sinh viên đã có thời gian học ở trường một khoảng thời gian dài, do đó sẽ
có cái nhìn khách quan hơn. Sinh viên khóa K56 chiếm 25.7%, K57 chiếm 20% và
khóa K54 chiếm 17.1%.

15
1.1.3. Chuyên ngành

Bảng 1.3: Bảng thống kê số lượng sinh viên khảo sát theo từng chuyên ngành

Chuyên ngành
Valid Per- Cumulative
Frequency Percent cent Percent
Valid Hệ thống thông tin 65 37.1 37.1 37.1
kinh tế
Quản trị nhân lực 45 25.7 25.7 62.9
Thương mại điện tử 30 17.1 17.1 80.0
Marketing 35 20.0 20.0 100.0
Total 175 100.0 100.0

Hình 1.3: Biểu đồ thống kê số lượng sinh viên khảo sát theo từng chuyên ngành

Với đề tài nghiên cứu này, nhóm tập trung khảo sát đối tượng sinh viên thuộc 4
chuyên ngành với số lượng sinh viên tham gia khảo sát là 175 sinh viên, cụ thể ở từng
chuyên ngành như sau: Hệ thống thông tin quản lý (37,1%), Quản trị nhân lực
(25.7%), Thương mại điện tử (17.1%) và ngành Marketing chiếm 20%.

16
1.1.4. Điểm tuyển sinh
Bảng 1.4: Bảng thống kê điểm tuyển sinh của sinh viên tham gia khảo sát

Điểm tuyển sinh


Fre- Valid Per- Cumulative
quency Percent cent Percent
Valid 24 - 24.95 42 24.0 24.0 24.0
25 - 25.95 73 41.7 41.7 65.7
> 26 60 34.3 34.3 100.0
Total 175 100.0 100.0

Hình 1.4: Biểu đồ thống kê điểm tuyển sinh của sinh viên tham gia khảo sát

Như vậy, trên 175 mẫu thu thập được, có đến 24.3% sinh viên có điểm tuyển sinh lớn
hơn 26, 41.7% sinh viên có điểm tuyển sinh từ 25 – 25.95 và còn lại là từ 24 – 24.95.
1.1.5. Thời gian tự học
Bảng 1.5: Bảng thống kê thời gian tự học của sinh viên tham gia khảo sát

Thời gian học


Fre- Valid Per- Cumulative
quency Percent cent Percent
Valid < 2 giờ 71 40.6 40.6 40.6
2 - 4 giờ 78 44.6 44.6 85.1
4 - 6 giờ 26 14.9 14.9 100.0
Total 175 100.0 100.0

17
Hình 1.5: Biểu đồ thống kê thời gian tự học của sinh viên tham gia khảo sát

Sinh viên giành chủ yếu từ 2 – 4 giờ để tự học (chiếm 44.6%), 14.9% sinh viên
có thời gian tự học là từ 4 – 6 giờ và số sinh viên học < 2 giờ chiếm đến 40.6%. Như
vậy, phần lớn sinh viên được khảo sát đều chú trọng và giành ra nhiều thời gian cho
việc tự học. Tuy nhiên vẫn còn số lượng không nhỏ sinh viên giành ít thời gian cho
việc tự học.
1.1.6. GPA

Bảng 1.6: Bảng kết quả học tập của sinh viên tham gia khảo sát

GPA
Fre- Valid Per- Cumulative
quency Percent cent Percent
Valid 2.00 - 2.49 10 5.7 5.7 5.7
2.50 - 3.19 86 49.1 49.1 54.9
3.20 - 3.59 51 29.1 29.1 84.0
3.60 - 4.00 28 16.0 16.0 100.0
Total 175 100.0 100.0

18
Hình 1.6: Biểu đồ kết quả học tập của sinh viên tham gia khảo sát

Qua phân tích, ta thấy số sinh viên đạt học lực khá chiếm nhiều nhất (49.1%), số
sinh viên đạt học lực giỏi là 29.1%, sinh viên đạt học lực xuất sắc chiếm 16%. Và vẫn
còn một phần sinh viên chỉ đạt mức học lực trung bình (5.7%).
1.2 Phân tích độ tin cậy Cronbach’s Alpha

Case Processing Summary


N %
Cases Valid 175 100.0
Excludeda 0 .0
Total 175 100.0

Thực hiện phân tích dữ liệu thông qua SPSS với cỡ mẫu là 175 (Valid = 175). Cả
175 mẫu này đều hợp lệ, không có số quan sát không hợp lệ (Excluded = 0).
1.2.1. Động cơ học tập

Reliability Statistics
Cronbach's Alpha N of Items
.829 4

19
Item-Total Statistics
Scale Vari- Corrected Cronbach's Al-
Scale Mean if ance if Item Item-Total pha if Item
Item Deleted Deleted Correlation Deleted
DCHT1 10.13 6.984 .694 .766
DCHT2 10.06 7.525 .620 .799
DCHT3 9.97 7.131 .642 .789
DCHT4 10.01 6.678 .669 .778

Nhận xét:
 Hệ số Cronbach’s Alpha của tổng thể là 0.829 > 0.6 nên đạt yêu cầu về độ tin
cậy.

 Hệ số tương quan qua biến tổng (Corrected Item-Toltal Corelation) của 4 biến
quan sát DCHT1, DCHT2, DCHT3 và DCHT4 đều phù hợp ( > 0.3).

Như vậy khi thực hiện kiểm định độ tin cậy của thang đo “Động cơ học tập” có 4
biến quan sát thỏa mãn yêu cầu là DCHT1, DCHT2, DCHT3, DCHT4 phù hợp để
thực hiện bước phân tích tiếp theo.
1.2.2. Phương pháp học tập

Reliability Statistics
Cronbach's Alpha N of Items
.906 6

Item-Total Statistics
Scale Vari- Corrected Cronbach's Al-
Scale Mean if ance if Item Item-Total pha if Item
Item Deleted Deleted Correlation Deleted
PPHT1 19.70 13.695 .802 .879
PPHT2 19.74 15.376 .661 .900
PPHT3 19.58 14.865 .694 .895
PPHT4 19.78 14.726 .733 .890
PPHT5 19.74 14.916 .754 .887
PPHT6 19.80 14.080 .798 .880

20
Nhận xét:
 Hệ số Cronbanh’s Alpha của tổng thể là 0.906 > 0.6 nên đạt yêu cầu về độ tin
cậy.

 Hệ số tương quan qua biến tổng (Corrected Item-Toltal Corelation) của 6 biến
quan sát PPHT1, PPHT2, PPHT3, PPHT4, PPHT5, PPHT6 đều phù hợp ( > 0.3 ).

Như vậy khi thực hiện kiểm định độ tin cậy của thang đo “ Phương pháp học tập
” có 6 biến quan sát thỏa mãn yêu cầu khi thực hiện kiểm định độ tin cậy của thang đo
là PPHT1, PPHT2, PPHT3, PPHT4, PPHT5, PPHT6 phù hợp để thực hiện bước phân
tích tiếp theo.
1.2.3. Thái độ học tập

Reliability Statistics
Cronbach's Alpha N of Items
.839 4

Item-Total Statistics
Scale Variance Corrected Cronbach's
Scale Mean if if Item De- Item-Total Alpha if Item
Item Deleted leted Correlation Deleted
TDHT1 10.21 6.647 .732 .768
TDHT2 10.10 6.962 .652 .805
TDHT3 10.06 7.404 .621 .817
TDHT4 10.07 6.943 .682 .791

Nhận xét:
 Hệ số Cronbanh’s Alpha của tổng thể là 0.839 > 0.6 nên đạt yêu cầu về độ tin
cậy.

 Hệ số tương quan qua biến tổng (Corrected Item-Toltal Corelation) của 4 biến
quan sát TDHT1, TDHT2, TDHT3, TDHT4 đều phù hợp ( > 0.3).

Như vậy khi thực hiện kiểm định độ tin cậy của thang đo “ Thái độ học tập ” có 4
biến quan sát thỏa mãn yêu cầu là TDHT1, TDHT2, TDHT3, TDHT4 phù hợp để thực
hiện bước phân tích tiếp theo.

21
1.2.4. Giảng viên

Reliability Statistics
Cronbach's Alpha N of Items
.853 6

Item-Total Statistics
Corrected Cronbach's
Scale Mean if Scale Variance Item-Total Alpha if Item
Item Deleted if Item Deleted Correlation Deleted
GV1 17.15 14.120 .609 .835
GV2 17.17 15.028 .571 .841
GV3 17.14 14.142 .625 .832
GV4 17.12 13.738 .645 .828
GV5 17.03 13.361 .697 .818
GV6 17.07 13.552 .689 .819

Nhận xét:
 Hệ số Cronbanh’s Alpha của tổng thể là 0.853 > 0.6, nên đạt yêu cầu về độ tin
cậy.

 Hệ số tương quan qua biến tổng (Corrected Item-Toltal Corelation) của 6 biến
quan sát GV1, GV2, GV3, GV4, GV5, GV6 đều > 0.3 (lớn hơn tiêu chuẩn cho phép)
nên thang đo đạt tiêu chuẩn chất lượng tốt.

Như vậy khi thực hiện kiểm định độ tin cậy của thang đo “ Phương pháp giảng
dạy ” có 6 biến quan sát thỏa mãn yêu cầu là GV1, GV2, GV3, GV4, GV5, GV6 phù
hợp để thực hiện bước phân tích tiếp theo.
1.2.5. Cơ sở vật chất

Reliability Statistics
Cronbach's Alpha N of Items
.860 4

22
Item-Total Statistics
Scale Vari- Corrected Cronbach's
Scale Mean if ance if Item Item-Total Alpha if Item
Item Deleted Deleted Correlation Deleted
CSVC1 9.97 6.597 .761 .798
CSVC2 9.83 6.587 .726 .813
CSVC3 9.89 7.258 .647 .845
CSVC4 9.96 7.085 .691 .827

Nhận xét:
 Hệ số Cronbanh’s Alpha của tổng thể là 0.860 > 0.6 nên đạt yêu cầu về độ tin
cậy.

 Hệ số tương quan qua biến tổng (Corrected Item-Toltal Corelation) của 4 biến
quan sát CSVC1, CSVC2, CSVC3, CSVC4 đều phù hợp ( > 0.3).

Như vậy khi thực hiện kiểm định độ tin cậy của thang đo “ Cơ sở vật chất ” có 4
biến quan sát thỏa mãn yêu cầu khi thực hiện kiểm định độ tin cậy của thang đo là
CSVC1, CSVC2, CSVC3, CSVC4 phù hợp để thực hiện bước phân tích tiếp theo.
1.2.6. Kết quả học tập

Reliability Statistics
Cronbach's Alpha N of Items
.944 4

Item-Total Statistics
Corrected Cronbach's
Scale Mean if Scale Variance Item-Total Alpha if Item
Item Deleted if Item Deleted Correlation Deleted
KQHT1 10.73 10.496 .877 .924
KQHT2 10.94 10.933 .863 .928
KQHT3 10.79 11.003 .853 .931
KQHT4 10.81 10.859 .871 .925

Nhận xét:

23
 Hệ số Cronbanh’s Alpha của tổng thể là 0.944 > 0.6 nên đạt yêu cầu về độ tin
cậy.

 Hệ số tương quan qua biến tổng (Corrected Item-Toltal Corelation) của 4 biến
quan sát KQHT1, KQHT2, KQHT3, KQHT4 đều phù hợp ( > 0.3).

Như vậy khi thực hiện kiểm định độ tin cậy của thang đo “Kết quả học tập” có 4
biến quan sát thỏa mãn yêu cầu khi thực hiện kiểm định độ tin cậy của thang đo
KQHT1, KQHT2, KQHT3, KQHT4 phù hợp để thực hiện bước phân tích tiếp theo.

Bảng 2.1: Kết quả phân tích độ tin cậy Cronbach’s Alpha

STT Thang đo Biến thỏa độ Cronbach’s Alpha Biến bị loại

SL biến Tên biến SL Tên


biến biến

A. Biến độc lập

1 Động cơ học tập 4 DCHT1, DCHT2, DCHT3, 0


DCHT4

2 Phương pháp học 6 PPHT1, PPHT2, PPHT3, 0


tập PPHT4, PPHT5, PPHT6,

3 Thái độ học tập 4 TDHT1, TDHT2, TDHT3, 0


TDHT4

4 Giảng viên 6 GV1, GV2, GV3, GV4, GV5, 0


GV6

5 Cơ sở vật chất 4 CSVC1, CSVC2, CSVC3, 0


CSVC4

B. Biến phụ thuộc

6 Kết quả học tập 4 KQHT1, KQHT2, KQHT3, 0


KQHT4

Tổng 28 0

1.3. Phân tích nhân tố EFA

24
 Biến độc lập:
1.3.1. Kiểm định tính thích hợp của mô hình phân tích nhân tố EFA

KMO and Bartlett's Test


Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .911
Bartlett's Test of Sphericity Approx. Chi-Square 2300.591
df 276
Sig. .000

Nhận xét:
Thước đo KMO ( Kaiser-Meyer-Olkin) có giá trị = 0.911 thỏa mãn điều kiện: 0.5
≤ KMO ≤ 1. Do đó phân tích nhân tố là phù hợp với tập dữ liệu nghiên cứu.
1.3.2. Kiểm định tính tương quan giữa các biến quan sát (Bartlett’s Test)

Sử dụng kiểm định Bartlett ( Barlett’s Test)

Kiểm định giả thuyết H0 : mức tương quan của các biến bằng 0.

KMO and Bartlett's Test


Kaiser-Meyer-Olkin Measure of Sampling Adequacy. .911
Bartlett's Test of Sphericity Approx. Chi-Square 2300.591
df 276
Sig. .000

Nhận xét:
 Kết quả kiểm định Barlett’s Test có giá trị Sig.= 0.000 < 0.05

 Kết luận: Các biến quan sát có tương quan với nhau trong mỗi nhóm nhân tố.

1.3.3. Kiểm định phương sai trích của các yếu tố (% Cumulative variance)

Total Variance Explained


Extraction Sums of Squared Rotation Sums of Squared
Initial Eigenvalues Loadings Loadings
% of % of % of
Vari- Cumulat- Vari- Cumu- Vari- Cumu-
Component Total ance ive % Total ance lative % Total ance lative %
1 9.216 38.401 38.401 9.216 38.401 38.401 4.222 17.590 17.590
2 2.423 10.097 48.498 2.423 10.097 48.498 3.609 15.036 32.626
3 1.668 6.949 55.447 1.668 6.949 55.447 2.878 11.991 44.617
25
4 1.468 6.117 61.563 1.468 6.117 61.563 2.743 11.430 56.048
5 1.302 5.424 66.987 1.302 5.424 66.987 2.625 10.939 66.987
6 .734 3.057 70.044
7 .665 2.769 72.813
8 .657 2.738 75.551
9 .584 2.433 77.984
10 .555 2.312 80.296
11 .522 2.176 82.472
12 .482 2.009 84.480
13 .458 1.907 86.387
14 .424 1.766 88.153
15 .389 1.619 89.772
16 .370 1.542 91.314
17 .356 1.482 92.796
18 .343 1.430 94.225
19 .292 1.216 95.441
20 .257 1.071 96.513
21 .235 .979 97.492
22 .221 .920 98.412
23 .200 .834 99.246
24 .181 .754 100.000

Nhận xét:
Có 5 nhân tố được trích dựa vào tiêu chí Eigenvalue lớn hơn một ( Eigevalue =
1.302), như vậy 5 nhân tố này tóm tắt thông tin của 24 biến quan sát đưa vào EFA một
cách tốt nhất. Tổng phương sai trích (Total Variance Explained) = 66.987% > 50%,
kết quả này cho thấy 5 nhân tố giải thích được 66.987% biến thiên dữ liệu của 24 biến
quan sát tham gia vào EFA.
1.3.4. Ma trận xoa
Vì mẫu chọn là 175 mẫu, nên ta chọn hệ số tải Factor Loading tiêu chuẩn là 0.5

Rotated Component Matrixa


Component
1 2 3 4 5
PPHT6 .832
PPHT5 .809
PPHT1 .807
PPHT4 .799
26
PPHT2 .733
PPHT3 .700
GV4 .742
GV5 .729
GV6 .720
GV3 .681
GV2 .668
GV1 .625
CSVC1 .810
CSVC2 .798
CSVC4 .701
CSVC3 .663
TDHT3 .792
TDHT1 .754
TDHT2 .698
TDHT4 .673
DCHT4 .776
DCHT2 .742
DCHT3 .708
DCHT1 .701

Nhận xét:
Kết quả ma trận xoay cho thấy, 24 biến quan sát được phân thành 5 nhóm nhân
tố, tất cả các biến quan sát đều có hệ số tải nhân tố Factor Loading lớn hơn 0.5 và
không xuất hiện các biến xấu.
Như vậy, phân tích nhân tố khám phá EFA cho các biến độc lập được thực hiện
một lần. Có 24 biến quan sát được đưa vào phân tích, 24 biến quan sát này hội tụ và
phân biệt thành 5 nhân tố.
 Biến phụ thuộc:

KMO and Bartlett's Test

27
Kaiser-Meyer-Olkin Measure of Sampling Ad- .867
equacy.
Bartlett's Test of Sphericity Approx. Chi-Square 646.422
df 6
Sig. .000

Total Variance Explained


Extraction Sums of Squared Load-
Initial Eigenvalues ings
Compon- % of Vari- Cumulative % of Vari- Cumulative
ent Total ance % Total ance %
1 3.427 85.680 85.680 3.427 85.680 85.680
2 .218 5.442 91.122
3 .197 4.923 96.045
4 .158 3.955 100.000
Extraction Method: Principal Component Analysis.

Component Matrixa
Component
1
KQHT1 .933
KQHT4 .929
KQHT2 .924
KQHT3 .918

Nhận xét:
 Hệ số KMO = 0,867 ( > 0.5) và kiểm định Bartlett có ý nghĩa thống kê (sig =
0.000 < 005)
 Kết quả cho thấy có một nhân tố được rút ra tại Eigenvalue bằng 3.427 > 1.
Nhân tố này giải thích được 85.680% biến thiên dữ liệu của 4 biến tham gia vào EFA.
1.4. Phân tích tương quan Person
Tiến hành phân tích tương quan Person để kiểm tra mối tương quan tuyến tính
chặt chẽ giữa biến phụ thuộc là “KQHT” và 5 biến độc lập “DCHT”, “TDHT”,
“PPHT”, “GV”, “CSVC”. Đồng thời có thể dự đoán vấn đề đa cộng tuyến khi các biến
độc lập cũng có tương quan mạnh với nhau.
28
Correlations
KQHT DCHT TDHT PPHT GV CSVC
** ** **
KQHT Pearson Correlation 1 .640 .647 .660 .633** .579**
Sig. (2-tailed) .000 .000 .000 .000 .000
N 175 175 175 175 175 175
DCHT Pearson Correlation .640** 1 .462** .426 **
.529** .476**
Sig. (2-tailed) .000 .000 .000 .000 .000
N 175 175 175 175 175 175
TDHT Pearson Correlation .647** .462** 1 .448** .498** .568**
Sig. (2-tailed) .000 .000 .000 .000 .000
N 175 175 175 175 175 175
PPHT Pearson Correlation .660** .426** .448** 1 .440** .423**
Sig. (2-tailed) .000 .000 .000 .000 .000
N 175 175 175 175 175 175
GV Pearson Correlation .633** .529** .498** .440** 1 .550**
Sig. (2-tailed) .000 .000 .000 .000 .000
N 175 175 175 175 175 175
CSVC Pearson Correlation .579** .476** .568** .423 **
.550** 1
Sig. (2-tailed) .000 .000 .000 .000 .000
N 175 175 175 175 175 175
**. Correlation is significant at the 0.01 level (2-tailed).

Nhận xét:
 Giá trị Sig. giữa các biến độc lập và biến phụ thuộc đều nhỏ hơn 0.05 ( cụ thể
Sig. đều = .000 ). Điều này cho thấy 5 biến độc lập đều có tương quan tuyến tính với
biến phụ thuộc. Hệ số tương quan Pearson r > 0.5 nên các biến độc lập đều có sự
tương quan mạnh với biến phụ thuộc.
 Đối với sự tương quan của các biến độc lập, các biến có sự tương quan với nhau
nhưng không quá mạnh nên có thể xem là nghiên cứu tạm thời không có hiện tượng đa
cộng tuyến giữa các biến độc lập với nhau.
 Ký hiệu ** cho biết rằng giữa các cặp biến độc lập và phụ thuộc đưa vào phân
tích có sự tương quan tuyến tính ở mức tin cậy đến 99% (tương quan mức ý nghĩa 1%
= 0.01).
1.5. Phân tích hồi quy tuyến tính
1.5.1. Bảng ANOVA

29
Đặt giả thuyết H0: R2 = 0. Phép kiểm định F phân tích để kiểm định giả thuyết
này.

ANOVAa
Sum of Mean
Model Squares df Square F Sig.
1 Regression 143.893 5 28.779 79.048 .000b
Residual 61.527 169 .364
Total 205.419 174
a. Dependent Variable: KQHT
b. Predictors: (Constant), CSVC, PPHT, DCHT, TDHT, GV

Kết quả kiểm định Sig. = .000b < 0.05. Bác bỏ giả thuyết H0, R2 ≠ 0 một cách có
ý nghĩa thống kê. Do đó mô hình hồi quy là phù hợp.

1.5.2. Bảng Model Summaryb

Model Summaryb
Adjusted R Std. Error of Durbin-Wat-
Model R R Square Square the Estimate son
1 .837a .700 .692 .60338 1.908
a. Predictors: (Constant), CSVC, PPHT, DCHT, TDHT, GV
b. Dependent Variable: KQHT

Giá trị R bình phương hiệu chỉnh bằng 0.692 cho thấy các biến độc lập đưa vào
phân tích hồi quy ảnh hưởn 69.2% sự biến thiên của biến phụ thuộc, còn lại 31,8% là
do các biến ngoài mô hình và sai số ngẫu nhiên.
Giá trị DW (Durbin – Wat – son) bằng 1.908 nằm trong khoảng 1.5 đến 2.5 nên
kết quả không vi phạm giả định tự tương quan chuỗi bậc nhất (Yahua Qiao, 2011).

1.5.3. Bảng Coefficients


Coefficientsa

30
Standard-
Unstandardized ized Coef- Collinearity Stat-
Coefficients ficients istics
Model B Std. Error Beta t Sig. Tolerance VIF
1 (Constant) -1.636 .275 -5.940 .000
DCHT .312 .067 .248 4.673 .000 .629 1.590
PPHT .469 .072 .327 6.509 .000 .702 1.425
TDHT .312 .070 .246 4.471 .000 .584 1.711
GV .283 .082 .192 3.445 .001 .569 1.759
CSVC .098 .072 .077 1.372 .172 .559 1.790
a. Dependent Variable: KQHT

Biến CSVC có giá trị Sig. kiểm định t bằng 0.172 > 0.05, do đó biến này không
có ý nghĩa trong mô hình hồi quy, hay nói cách khác, biến CSVC không có sự tác
động lên biến phụ thuộc KQHT.
Các biến còn lại có giá trị Sig. lần lượt là DCHT (Sig. = .000), PPHT (Sig.
= .000), TDHT (Sig. = .000) và GV (Sig. = .001). Các giá trị này đầu nhỏ hơn 0.05, do
đó các biến này đều có ý nghĩa thống kê, đều tác động lên biến phụ thuộc KQHT.
Kiểm tra hệ số Beta: Ta thấy giá trị tuyết đối Beta của biến PPHT là lớn nhất nên
nó tác động lớn nhất đến kết quả học tập của sinh viên trường Đại học Thương Mại. Vì
nó có giá trị dương nên nó sẽ tác động thuận chiều đến kết quả học tập.
Hệ số phóng đại phương sai (VIF) ở tất cả các biến đều cho kết quả < 2 nên
không xảy ra hiện tượng đa cộng tuyến trong mô hình hồi quy ( không vi phạm giả
định đa cộng tuyến ).
KẾT LUẬN
Các nhân tố DCHT, PPHT, TDHT, GV đều đạt yêu cầu về các tiêu chí. Nhân tố
CSVC bị loại vì có giá trị Sig. = 0.172 > 0.05.

Từ các hệ số hồi quy, các phương trình hồi quy chuẩn hóa và chưa chuẩn hóa
được xây dựng như sau:

- Phương trình hồi quy tuyến tính ( chưa chuẩn hóa ):

KQHT = 0.312 DCHT + 0.469 PPHT + 0.312 TDHT + 0.283 GV + Ɛ


- Phương trình hồi quy tuyến tính ( chuẩn hóa ):

KQHT = 0.248 DCHT + 0.327 PPHT + 0.246 TDHT + 0.192 GV + Ɛ

1.5.4. Đánh giá giả định hồi quy qua 3 biểu đồ:

Biểu đồ 1: Biều đồ tần số phần dư chuẩn hóa Histogram


31
Kết quả cho thấy: Mean = 9.66E – 16 = 9.66*10 -16 = 0.00000…. gần bằng 0, độ
lệch chuẩn là 0.986 gần bằng 1. Như vậy có thể nói, phân phối phần dư xấp xỉ chuẩn,
giả định phân phối chuẩn của phần dư không bị vi phạm.

Biểu đồ 2: Biều đồ phần dư chuẩn hóa Normal P-P Plot

Các điểm dữ liệu phần dư tập trung khá sát với đường chéo, như vậy, phần dư có
phân phối xấp xỉ chuẩn, giả định phân phối chuẩn của phần dư không bị vi phạm.

Biểu đồ 3: Biểu đồ Scatter Plot kiểm tra giả định liên hệ tuyến tính.

32
Các điểm dữ liệu phân bố tập trung xung quanh đường tung độ 0 và có xu hướng
tạo thành đường thẳng, do vậy giả định quan hệ tuyến tính không bị vi phạm.

2. Xây dựng cây quyết định


Xây dựng cây quyết định để xem xét một số các yếu tố thuộc bản thân sinh viên
như “Thời gian tự học”, “Tham gia ngoại khóa”, “Thời gian lướt web”, “Tham gia học
trên lớp” sẽ tác động đến kết quả học tập của sinh viên trường Đại học Thương Mại
như thế nào ( với các câu trả lời là “Tốt” hoặc “Không tốt” ). Ta lấy 20 dữ liệu đầu tiên
để xây dựng cây quyết định như sau:

ID Thời gian Tham gia Thời gian Tham gia học Kết quả
tự học ngoại khóa lướt web trên lớp học tập
1 4 - 6 giờ Có 2 - 4 giờ Không đầy đủ Tốt
2 2 - 4 giờ Không 2 - 4 giờ Đầy đủ Tốt
3 < 2 giờ Không 2 - 4 giờ Không đầy đủ Không tốt
4 2 - 4 giờ Có < 2 giờ Đầy đủ Tốt
5 2 - 4 giờ Không < 2 giờ Đầy đủ Tốt
6 < 2 giờ Không 2 - 4 giờ Đầy đủ Không tốt
7 < 2 giờ Không < 2 giờ Đầy đủ Không tốt
8 2 - 4 giờ Không 4 - 6 giờ Không đầy đủ Không tốt
9 < 2 giờ Không 4 - 6 giờ Đầy đủ Không tốt
10 2 - 4 giờ Có < 2 giờ Đầy đủ Tốt
11 4 - 6 giờ Có < 2 giờ Đầy đủ Tốt
33
12 2 - 4 giờ Không 2 - 4 giờ Không đầy đủ Không tốt
13 < 2 giờ Có 2 - 4 giờ Đầy đủ Tốt
14 < 2 giờ Không 4 - 6 giờ Đầy đủ Không tốt
15 2 - 4 giờ Không < 2 giờ Không đầy đủ Không tốt
16 < 2 giờ Có 2 - 4 giờ Không đầy đủ Không tốt
17 2 - 4 giờ Không < 2 giờ Đầy đủ Tốt
18 4 - 6 giờ Không 4 - 6 giờ Không đầy đủ Tốt
19 2 - 4 giờ Có < 2 giờ Không đầy đủ Tốt
20 < 2 giờ Có < 2 giờ Đầy đủ Tốt

2.1. Tìm nút gốc


 Tính entropy cho thuộc tính “Thời gian tự học”:
Thời gian tự học pi ni I(pi,ni)
< 2 giờ 2 6 0.811
2 – 4 giờ 6 3 0.918
4 – 6 giờ 3 0 0

Ta có: E (Thời gian tự học) = 8/20 * I(2,6) + 9/20 * I(6,3) + 3/20 * 0 = 0.7375
 Gain (Thời gian tự học) = I(11,9) – E (Thời gian tự học)
= 0.993 – 0.7375 = 0.2555
 Tính entropy cho thuộc tính “Tham gia ngoại khóa”:
Tham gia ngoại khóa pi ni I(pi,ni)
Có 7 1 0.543
Không 4 8 0.918

Ta có: E (Tham gia ngoại khóa) = 8/20 * I(7,1) + 12/20 * I(4,8) = 0.768
 Gain (Tham gia ngoại khóa) = I (11,9) – E (Tham gia ngoại khóa)
= 0.993 – 0.768 = 0.225
 Tính entropy cho thuộc tính “Thời gian lướt web”:
Thời gian lướt web pi ni I(pi,ni)
< 2 giờ 7 2 0.764
2 – 4 giờ 3 4 0.985
4 – 6 giờ 1 3 0.811

Ta có: E (Thời gian lướt web) = 9/20 * I(7,2) + 7/20 * I(3,4) + 4/20 * I(1,3) = 0.85
 Gain (Thời gian lướt web) = I(11,9) – E (Thời gian lướt web)

34
= 0.993 – 0.85 = 0.143
 Tính entropy cho thuộc tính “Tham gia học trên lớp”:
Tham gia học pi ni I(pi,ni)
trên lớp
Đầy đủ 8 4 0.918
Không đầy đủ 3 5 0.954

Ta có: E (Tham gia học trên lớp) = 12/20 * I(8,4) + 8/20 * I(3,5) = 0.9324
 Gain (Tham gia học trên lớp) = I(11,9) – E (Tham gia học trên lớp)
= 0.993 – 0.9324 = 0.0606
Ta thấy, thuộc tính “Thời gian tự học” có Gain lớn nhất, chọn thuộc tính này làm
nút gốc.

2.2. Tìm nút lá


2.2.1.Tìm nút lá ứng với “Thời gian tự học” là “< 2 giờ”
 Tính entropy cho thuộc tính “Tham gia ngoại khóa”:
Tham gia ngoại khóa pi ni I(pi,ni)
Có 2 1 0.918
Không 0 5 0

Ta có: E (Tham gia ngoại khóa) = 3/8 * I(2,1) + 5/8 * I(0,5) = 0.34425
 Gain (Tham gia ngoại khóa) = I(2,6) – E (Tham gia ngoại khóa)
= 0.811 – 0.34425 = 0.46675
 Tính entropy cho thuộc tính “Thời gian lướt web”:
Thời gian lướt web pi ni I(pi,ni)

35
< 2 giờ 1 1 1
2 – 4 giờ 1 3 0.811
4 – 6 giờ 0 2 0

Ta có: E (Thời gian lướt web) = 2/8 * I(1,1) + 4/8 * I(1,3) + 2/8 * I(0,2) = 0.6555
 Gain (Thời gian lướt web) = I(2,6) – E (Thời gian lướt web)
= 0.811 – 0.6555 = 0.1555
 Tính entropy cho thuộc tính “Tham gia học trên lớp”:
Tham gia học pi ni I(pi,ni)
trên lớp
Đầy đủ 2 4 0.918
Không đầy đủ 0 2 0

Ta có: E (Tham gia học trên lớp) = 6/8 * I(2,4) + 2/8 * I(0,2) = 0.6885
 Gain (Tham gia học trên lớp) = I(2,6) – E (Tham gia học trên lớp)
= 0.811 – 0.6885 = 0.1225
Ta thấy thuộc tính “Tham gia ngoại khóa” có Gain lớn nhất, chọn thuộc tính
này làm nút lá.

2.2.2. Tìm nút lá ứng với “Thời gian tự học” là “< 2 giờ”, “Tham gia ngoại khóa”
là “Có”.
 Tính entropy cho thuộc tính “Thời gian lướt web”:
Thời gian lướt web pi ni I(pi,ni)
< 2 giờ 1 0 0

36
2 – 4 giờ 1 1 1
4 – 6 giờ 0 0 0

Ta có: E (Thời gian lướt web) = 1/3 * I(1,0) + 2/3 * I(1,1) + 0 = 0.667
 Gain (Thời gian lướt web) = I(2,1) – E (Thời gian lướt web)
= 0.918 – 0.667 = 0.251
 Tính entropy cho thuộc tính “Tham gia học trên lớp”:
Tham gia học pi ni I(pi,ni)
trên lớp
Đầy đủ 2 0 0
Không đầy đủ 0 1 0

Ta có: E (Tham gia học trên lớp) = 0


 Gain (Tham gia học trên lớp) = I(2,1) – E (Tham gia học trên lớp)
= 0.918 – 0 = 0.918
Ta thấy thuộc tính “Tham gia học trên lớp” có Gain lớn nhất, chọn thuộc tính này
làm nút lá.

2.2.3. Tìm nút lá ứng với “Thời gian học tập” là “2 – 4 giờ”
 Tính entropy cho thuộc tính “Thời gian lướt web”:
37
Thời gian lướt web pi ni I(pi,ni)
< 2 giờ 5 1 0.65
2 – 4 giờ 1 1 1
4 – 6 giờ 0 1 0

Ta có: E (Thời gian lướt web) = 6/9 * I(5,1) + 2/9 * I(1,1) + 1/9 * I(0,1) = 0.655
 Gain (Thời gian lướt web) = I(6,3) – E (Thời gian lướt web)
= 0.918 – 0.655 = 0.263
 Tính entropy cho thuộc tính “Tham gia học trên lớp”:
Tham gia học pi ni I(pi,ni)
trên lớp
Đầy đủ 5 0 0
Không đầy đủ 1 3 0.811

Ta có: E (Tham gia học trên lớp) = 5/9 * I(5,0) + 4/9 * I(1,3) = 0.361
 Gain (Tham gia học trên lớp) = I(6,3) – E (Tham gia học trên lớp)
= 0.918 – 0.361 = 0.557
Ta thấy thuộc tính “Tham gia học trên lớp” có Gain lớn nhất, chọn thuộc tính này
làm nút lá.

2.2.4. Tìm nút lá ứng với “Thời gian tự học” là “2-4 giờ”, “Tham gia học trên lớp”
là “Không đầy đủ”.

38
 Tính entropy cho thuộc tính “Thời gian lướt web”:
Thời gian lướt web pi ni I(pi,ni)
< 2 giờ 1 1 1
2 - 4 giờ 0 1 0
4 - 6 giờ 0 1 0

Ta có: E (Thời gian lướt web) = 2/4 * I(1,1) = 0.5


 Gain (Thời gian lướt web) = I(1,3) – E (Thời gian lướt web)
= 0.811 – 0.5 = 0.311
 Tính entropy cho thuộc tính “Tham gia ngoại khóa”:
Tham gia ngoại khóa pi ni I(pi,ni)
Đầy đủ 1 0 0
Không đầy đủ 0 3 0

Ta có: E (Tham gia ngoại khóa) = 0


 Gain (Tham gia ngoại khóa) = I(1,3) – E (Tham gia ngoại khóa)
= 0.811
Thuộc tính “Tham gia ngoại khóa” có Gain lớn nhất, chọn thuộc tính này làm nút
lá.
Cuối cùng, xét xem đã làm đúng quy trình và không bỏ xót thuộc tính nào, ta kết
luận được mô hình cây quyết định tổng quát sau khi đã tìm được nút gốc và các nút lá
để giải quyết cho dữ liệu đầu vào về yếu tố ảnh hưởng đến kết quả học tập của sinh
viên như sau:

39
2.3. Xây dựng theo cây quyết định
Áp dụng cây quyết định để thực hiện dự đoán với các dữ liệu sau:

ID Thời gian tự Tham gia ngoại Thời gian Tham gia học Kết quả
học khóa lướt web trên lớp học tập
176 < 2 giờ Có 2 – 4 giờ Đầy đủ ?
177 4 – 6 giờ Không 2 – 4 giờ Đầy đủ ?
178 2 – 4 giờ Không < 2 giờ Không đầy đủ ?

Dưới đây là hình minh họa cho từng trường hợp theo cây quyết định:
 Với ID: 176

40
 Với ID: 177

 Với ID: 178

Ta có kết quả như sau:

ID Thời gian tự Tham gia ngoại Thời gian Tham gia học Kết quả
học khóa lướt web trên lớp học tập
176 < 2 giờ Có 2 – 4 giờ Đầy đủ Tốt
177 4 – 6 giờ Không 2 – 4 giờ Đầy đủ Tốt
178 2 – 4 giờ Không < 2 giờ Không đầy đủ Không tốt

41
Việc xây dựng cây quyết định luôn có mức độ chính xác khác nhau phụ thuộc
vào biến và câu hỏi yêu cầu. Cây quyết định là con đường đơn giản đi đến quyết định
cuối cùng của một cá nhân hay vấn đề. Xây dựng cây quyết định là phù hợp với dữ
liệu thu thập và cây quyết định đưa ra những lợi ích phù hợp với mong muốn nghiên
cứu của đề tài.

42
KẾT LUẬN
Như vậy với kết quả thu được qua quá trình nghiên cứu đề tài, bằng cách sử dụng
công cụ phân tích dữ liệu SPSS, chúng em nhận thấy có những yếu tố tác động đến kết
quả học tập của sinh viên đó là: Động cơ học tập, Phương pháp học tập, Thái độ học
tập và Giảng viên. Dựa trên kết quả phân tích, có thể thấy được các yếu tố nêu trên ảnh
hưởng đến kết quả học tập của sinh viên. Từ đó nhận thấy một số giải pháp để nâng
cao kết quả học tập của sinh viên là: Xác định động cơ học tập, mục tiêu học tập đúng
đắn, có phương pháp học tập hiệu quả và luôn giữ thái độ tích cực trong học tập,…
Thực hiện khai phá dữ liệu thông qua cây quyết định, đối với các yếu tố như
“Thời gian tự học”, “Tham gia ngoại khóa”, “Thời gian lướt web” và “Tham gia học
trên lớp” có thể phần nào dự đoán được kết quả học tập của sinh viên. Theo dõi cây
quyết định này, sinh viên có thể tự điều chỉnh hoạt động học tập, thời gian học tập cho
phù hợp để đạt được kết quả học tập tốt hơn. Môi trường đại học là một môi trường
mở, đòi hỏi sinh viên phải có ý thức tự học cao, do đó cần phải dành thời gian tự học
nhiều hơn, bên cạnh đó tích cực tham gia các hoạt động ngoại khóa để nâng cao kiến
thức, giảm thời gian lướt web và tham gia học tập đầy đủ, tích cực.

43
TÀI LIỆU THAM KHẢO
1. https://www.studocu.com/vn/document/truong-dai-hoc-kinh-te-dai-hoc-
quoc-gia-ha-noi/phuong-phap-nghien-cuu-kinh-te/cac-yeu-to-anh-huong-
den-ket-qua-hoc-tap-cua-sinh-vien-dai-hoc-kinh-te-dai-hoc-quoc-gia-ha-
noi/25100400

2. https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/295013/41649-
1333-131769-1-10-20190719.pdf

3. https://sti.vista.gov.vn/tw/Lists/TaiLieuKHCN/Attachments/295013/41649-
1333-131769-1-10-20190719.pdf

4. https://www.researchgate.net/publication/
309856233_Ung_dung_cac_ky_thuat_trong_khai_pha_du_lieu_ho_tro_sin
h_vien_lap_ke_hoach_hoc_tap

5. https://tailieuchung.com/vn/tlID1272655_du-doan-ket-qua-hoc-tap-cua-
sinh-vien-bang-ky-thuat-khai-pha-du-lieu.html

6. https://jte.hcmute.edu.vn/index.php/jte/article/download/322/266/299

7. https://websitehcm.com/data-mining-trong-giao-duc-educational/

8. https://csdlkhoahoc.hueuni.edu.vn/data/2021/1/9-_Giang-5743-Edited-
Final_(1).pdf

44

You might also like