KHDL

Thành phố Hồ Chí Minh, tháng 11 năm 2023
1
BẢNG ĐÁNH GIÁ CÔNG TÁC THÀNH VIÊN
TÊN THÀNH VIÊN NHIỆM VỤ ĐÁNH GIÁ CHẤT LƯỢNG

CÔNG TÁC
Lai Tâm Như 100%
Nguyễn Ngọc Bảo 100%

Phương
Lê Tiến Hiếu 100%
Võ Trần Tấn Thông 100%
Nguyễn Hoàng Trúc 100%

My
2
MỤC LỤC
LỜI MỞ ĐẦU...............................................................................................1
DANH MỤC BẢNG BIỂU...........................................................................2
Chương I: BUSINESS UNDERSTANDING - TÌM HIỂU VẤN ĐỀ/ CÁC
YẾU TỐ GÂY RA STRESS CỦA SINH VIÊN HIỆN NAY..............................3
1.1 Lý do chọn đề tài và thực trạng...........................................................3
1.2 Mục tiêu nghiên cứu............................................................................3
1.3 Đối tượng nghiên cứu và phương pháp nghiên cứu............................3
Chương II: DATA UNDERSTANDING - TÌM HIỂU DỮ LIỆU...............4
2.1. Giới thiệu bộ dữ liệu..........................................................................4
2.2. Mô tả dữ liệu:.....................................................................................5
Chương III: DATA PREPARATION- TIỀN XỬ LÝ DỮ LIỆU (trang 19) 8
3.1. Làm sạch dữ liệu................................................................................8
Chương IV: MODELING- MÔ HÌNH HÓA DỮ LIỆU.............................11
4.1 Lựa chọn mô hình, phương pháp, kỹ thuật.......................................11
4.2 Xây dựng các phương pháp..............................................................24
4.3. Xây dựng mô hình áp dụng..............................................................24
Chương V: EVALUATION- ĐÁNH GIÁ KẾT QUẢ...............................25
Chương VI:KẾT LUẬN/ ỨNG DỤNG......................................................26
6.1 Kết luận :...........................................................................................26
6.2 Ứng dụng/ cách khắc phục:...............................................................26
3
LỜI MỞ ĐẦU
Đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến Trường Đại học Kinh tế
Thành phố Hồ Chí Minh đã đưa môn học Khoa học dữ liệu vào chương trình giảng
dạy. Đặc biệt, nhóm chúng em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - Cô
Phạm Thị Thanh Tâm đã dạy dỗ và truyền đạt những kiến thức quý báu cho chúng em
trong suốt thời gian học tập vừa qua. Trong thời gian tham gia lớp học Khoa học dữ
liệu của Cô, chúng em đã có thêm cho mình nhiều kiến thức bổ ích, tinh thần học tập
hiệu quả và nghiêm túc. Đây chắc chắn sẽ là những kiến thức quý báu, là hành trang
để em có thể vững bước sau này.
Bộ môn Khoa học dữ liệu là môn học thú vị, vô cùng bổ ích và có tính thực tế cao.
Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên trong thời
đại công nghệ số hiện nay. Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khả năng
tiếp thu thực tế còn nhiều bỡ ngỡ. Mặc dù chúng em đã cố gắng hết sức nhưng chắc
chắn bài tiểu luận khó có thể tránh khỏi những thiếu sót và nhiều chỗ còn chưa chính
xác, kính mong Cô xem xét và góp ý để bài tiểu luận của chúng em được hoàn thiện
hơn. Chúng em xin chân thành cảm ơn!
1
DANH MỤC BẢNG BIỂU
Hình 1 Dữ liệu đầu vào 8

Hình 2 Sử dụng công cụ Preprocess 8
Hình 3 Impute missing value 9
Hình 4 Normalize Features 9
Hình 5 Discretize Continuous Variables 10
Hình 6 Data table 10
Hình 7 Dữ liệu sau khi làm sạch 11
Hình 8 Tệp dữ liệu 12
Hình 9 Lấy 75% mẫu dữ liệu sau đó lưu về dạng file exel 12
Hình 10 Train data 13
Hình 11 Lấy 25% mẫu còn lại làm tập thử nghiệm 14
Hình 12 test data 15
Hình 13 Mô hình lấy mẫu dữ liệu 15
Hình 14 Chọn biến stress level là biến phụ thuộc để dự đoán 16
Hình 15 Kết quả khi số Folds là 5 18
Hình 16 Kết quả khi số Folds là 10 19
Hình 17 Confusion Matrix( ma trận nhầm lẫn) 21
Hình 18 Đường cong ROC khi target là 0 22
Hình 19 Đường cong ROC khi target là 1 22
Hình 20 Nhập bộ dữ liệu thử nghiệm vào phần mềm Orange 23
Hình 21 Kết quả sau khi sử dụng chức năng Prediction để dự báo dữ liệu theo
SVM 24
Hình 22 Tổng quan mô hình 25
2
Chương I: BUSINESS UNDERSTANDING - TÌM HIỂU VẤN ĐỀ/ CÁC
YẾU TỐ GÂY RA STRESS CỦA SINH VIÊN HIỆN NAY
1.1 Lý do chọn đề tài và thực trạng
Một sự thật đáng buồn ở thế hệ các bạn trẻ hiện nay cụ thể là genZ đang dễ
mắc phải các bệnh về tâm lý học đường .Tâm lý trầm cảm ở học sinh và sinh viên có
thể là vấn đề nghiêm trọng, ảnh hưởng đến sức khỏe tinh thần và hiệu suất học tập của
họ. Các nguyên nhân có thể đa dạng, từ áp lực học tập quá lớn, lo lắng về tương lai,
cảm giác cô đơn, cho đến vấn đề gia đình hoặc sự thay đổi lớn trong cuộc sống.
Nhiều yếu tố như áp lực từ trường học, lo lắng về kỳ thi, cảm giác không tự
tin, hoặc cảm giác bất an có thể làm gia tăng tình trạng trầm cảm. Hơn nữa, các vấn đề
về tự giá, xã hội hóa, và sự phân vân về lựa chọn nghề nghiệp cũng có thể gây ra trầm
cảm ở sinh viên.
Từ những dữ kiện đã nêu ở trên thì nhóm chúng em quyết định chọn đề tài
này bởi việc nhận biết và hỗ trợ người học bị trầm cảm rất quan trọng. Giáo viên, cố
vấn học tập, hoặc các chuyên gia tâm lý có thể cung cấp sự hỗ trợ cần thiết. Ngoài ra,
việc tạo điều kiện cho học sinh và sinh viên cảm thấy thoải mái khi chia sẻ và tìm
kiếm sự giúp đỡ từ người thân, bạn bè cũng rất quan trọng để họ có thể vượt qua tình
trạng trầm cảm.
1.2 Mục tiêu nghiên cứu
Trước hết là xác định các yếu tố cụ thể có tác động đáng kể đến mức độ căng
thẳng của học sinh. Thông tin này rất quan trọng để hiểu rõ các yếu tố gây căng thẳng
chính ở học sinh.Trong bộ dữ liệu này, chúng em khám phá các khía cạnh khác nhau
trong cuộc sống của học sinh để hiểu điều gì gây ra căng thẳng. Bằng cách sử dụng
phân tích dự đoán, chúng em muốn tìm ra các mô hình và đưa ra dự đoán về mức độ
căng thẳng. Mục tiêu của chúng em là giúp tạo ra một môi trường tốt hơn và hỗ trợ
hơn cho học sinh. Xác định và ưu tiên các yếu tố chính ảnh hưởng đến mức độ căng
thẳng của học sinh để phát triển các biện pháp can thiệp và hệ thống hỗ trợ có mục tiêu
trong các tổ chức giáo dục.
1.3 Đối tượng nghiên cứu và phương pháp nghiên cứu
 Đối tượng nghiên cứu
Bộ dữ liệu Student Stress Factors: A Comprehensive Analysis được thu thập từ
trường đại học Tribhuvan University của Nepal được đăng tải trên trang web Kaggle.
Tập dữ liệu bao gồm 10.000 hàng dữ liệu ( sinh viên ) và 21 cột (đặc tính).
 Phương pháp nghiên cứu
- Phần mềm Orange:
Khai phá dữ liệu (Data Mining) là lĩnh vực tương đối khó để có thể khám phá và
nghiên cứu. Do đó, nhiều phần mềm đã ra đời với mục tiêu là giúp cho người dùng dễ
dàng hơn trong việc nghiên cứu các bài toán trong những lĩnh vực này. Một trong
những phần mềm đó chính là Orange.
Phần mềm Orange là phần mềm được tích hợp các công cụ khai phá dữ liệu mã
nguồn mở và được lập trình bằng Python với giao diện trực quan, dễ dàng tương tác.
Với việc có nhiều chức năng như vậy, phần mềm Orange có thể phân tích được các dữ
3
liệu khác nhau như từ đơn giản đến phức tạp và cho ra đồ họa vô cùng thu hút, đẹp
mắt.
- Phần mềm Excel:
Excel là một phần mềm phổ biến nằm trong bộ Microsoft Office. Phần mềm này
giúp người dùng ghi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý
thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn.
Excel có nhiều công dụng khác nhau và một số công dụng nổi bật như: Lưu dữ
liệu, tham gia vào việc tính toán, quản lý dữ liệu, tham gia và hỗ trợ các công cụ phân
tích, tìm kiếm..
Chương II: DATA UNDERSTANDING - TÌM HIỂU DỮ LIỆU

2.1. Giới thiệu bộ dữ liệu
Bộ dữ liệu này chứa khoảng 20 đặc tính tạo ra nhiều tác động nhất đến Căng
thẳng của Học sinh. Các đặc điểm được lựa chọn một cách khoa học dựa trên 5 yếu tố
chính, đó là các yếu tố Tâm lý, Sinh lý, Xã hội, Môi trường và Học thuật. Trong mỗi
yếu tố bao gồm
 Các yếu tố tâm lý => 'anxiety_level'(mức độ lo lắng), 'self_esteem'(lòng tự
trọng), 'mental_health_history'(lịch sử sức khoẻ tinh thần), 'depression'(trầm
cảm),
 Các yếu tố sinh lý => 'headache'(đau đầu), 'blood_pressure'(huyết
áp), 'sleep_quality'( chất lượng giấc ngủ), 'breathing_problem’(vấn đề hơi thở),
 Các yếu tố môi trường => 'noise_level'(mức độ tiếng ồn),
'living_conditions'(điều kiện sống), 'safety'(an toàn), 'basic_needs'(nhu cầu cơ
bản),
 Các yếu tố học thuật => 'academic_performance'(hiệu suất học thuật),
'study_load'(tải học tập), 'teacher_student_relationship'(mối quan hệ giữa giảng
viên và sinh viên), 'future_career_concerns'(mối quan tâm đến sự nghiệp trong
tương lai),
 Yếu tố xã hội => 'social_support'(hỗ trợ từ xã hội), 'peer_pressure'(áp lực từ
đồng nghiệp), 'extracurricular_activities'(hoạt động ngoại khoá), 'bullying'(bắt
nạt).
Tập dữ liệu của đi sâu vào các yếu tố căng thẳng mà học sinh phải đối mặt. Từ
các khía cạnh tâm lý như lo lắng và lòng tự trọng đến áp lực học tập và động
lực xã hội, bộ sưu tập này cung cấp một cái nhìn toàn diện về những thách thức
mà sinh viên ngày nay gặp phải.
Bộ dữ liệu được thu thập và tạo ra, đăng tải trên trang web kaggle bởi Chhabi
Acharya. Tập dữ liệu bao gồm thông tin dữ liệu của 1100 sinh viên và 20 cột
(đặc tính):
Các yếu tố tâm lý (Mô tả cột)
 anxiety_level: Đo lường mức độ lo lắng mà học sinh gặp phải, từ 0 (lo lắng
thấp) đến 21 (lo lắng cao). (Điểm HADS-A)
 self_esteem: Chỉ ra mức độ tự trọng của học sinh, từ 0 (tự trọng thấp) đến 30
(tự trọng cao).
 mental_health_history: Chỉ số nhị phân (0 hoặc 1) cho biết liệu học sinh có
tiền sử mắc các vấn đề về sức khỏe tâm thần hay không.
4
 depression: Đo lường mức độ trầm cảm mà học sinh đang phải đối mặt dựa
trên thang PHQ-09 , học sinh có số điểm từ 5 (trầm cảm mức độ tối thiểu) đến
27 (trầm cảm nặng).
Các yếu tố sinh lý:
 headache: Tần suất bị đau đầu của học sinh, từ 0 (không bị đau đầu) đến 5 (bị
đau đầu thường xuyên).
 blood_pressure: Mức huyết áp của học sinh, với các giá trị từ 1 (thấp) đến 3
(cao).
 sleep_quality: Đánh giá chất lượng giấc ngủ của học sinh trên thang điểm từ 0
(chất lượng kém) đến 5 (chất lượng tuyệt vời).
 breathing_problem: Cho biết liệu học sinh có gặp vấn đề về hô hấp hay
không, với các giá trị 0 (không) hoặc 1 (có).
Các yếu tố môi trường
 Noise Level: Cảm nhận của học sinh về mức độ tiếng ồn trong môi trường xung
quanh, từ 0 (tiếng ồn thấp) đến 5 (tiếng ồn cao).
 living_conditions: Đánh giá điều kiện sống của học sinh, với các giá trị từ 0
(điều kiện kém) đến 5 (điều kiện tuyệt vời).
 safety: Mức độ an toàn của môi trường xung quanh học sinh, từ 0 (không an
toàn) đến 5 (rất an toàn).
 basic_needs: Mức độ hài lòng với các nhu cầu cơ bản của học sinh, từ 0 (không
hài lòng) đến 5 (hoàn toàn hài lòng).
Các yếu tố học tập (Mô tả cột)
 academic_performance: Thành tích học tập của học sinh, với các giá trị từ 0
(kém) đến 5 (xuất sắc).
 study_load: Khối lượng học tập của học sinh, từ 0 (nhẹ) đến 5 (nặng).
 teacher_student_relationship: Chất lượng mối quan hệ với giáo viên, với các
giá trị từ 0 (kém) đến 5 (xuất sắc).
 future_career_concerns: Lo ngại về triển vọng nghề nghiệp trong tương lai, từ
0 (ít lo ngại) đến 5 (rất lo ngại).
Các yếu tố xã hội (Mô tả cột)
 social_support: Mức độ hỗ trợ xã hội mà học sinh trải nghiệm, từ 0 (hỗ trợ
thấp) đến 3 (hỗ trợ cao).
 peer_pressure: Ảnh hưởng của áp lực đồng trang lứa đối với học sinh, với các
giá trị từ 0 (áp lực thấp) đến 5 (áp lực cao).
 extracurricular_activities: Sự tham gia của học sinh vào các hoạt động ngoại
khóa, từ 0 (không tham gia) đến 5 (tham gia tích cực).
 bullying: Trải nghiệm bị bắt nạt của học sinh, với các giá trị từ 0 (không bị bắt
nạt) đến 5 (bị bắt nạt thường xuyên).
 stress_level: Mức độ căng thẳng tổng thể của học sinh báo cáo, với các giá trị
từ 0 (căng thẳng thấp) đến 2 (căng thẳng cao).
2.2. Mô tả dữ liệu:
Tên Biến Mô tả Các Giá trị của Loại biến

biến
5
anxiety_level mức độ lo lắng mà học 0-21 Định tính
sinh gặp phải
self_esteem mức độ tự trọng của học 0-30 Định tính
sinh
mental_health_history tiền sử mắc các vấn đề 0: không Định tính
về sức khỏe tâm thần 1: có
depression mức độ trầm cảm 0-27 Định tính
headache Tần suất bị đau đầu của 0-5 Định tính
học sinh
blood_pressure huyết áp của học sinh 1-3 Định tính
sleep_quality chất lượng giấc ngủ 0-5 Định tính
breathing_problem vấn đề về hô hấp 0: không Định tính
1: có
noise_level mức độ tiếng ồn trong 0-5 Định tính
môi trường xung quanh
living_conditions điều kiện sống của học 0-5 Định tính
sinh
safety Mức độ an toàn của môi 0-5 Định tính
trường xung quanh
basic_needs Mức độ hài lòng với các 0-5 Định tính
nhu cầu cơ bản
academic_performance Thành tích học tập của 0-5 Định tính
học sinh
study_load Khối lượng học tập 0-5 Định tính
teacher_student_relationship Chất lượng mối quan hệ 0-5 Định tính
với giáo viên
future_career_concerns Lo ngại về triển vọng 0-5 Định tính
nghề nghiệp trong
tương lai
social_support Mức độ hỗ trợ xã hội 0-5 Định tính
peer_pressure Ảnh hưởng của áp lực 0-5 Định tính
đồng trang lứa
extracurricular_activities Sự tham gia của học 0-5 Định tính
sinh vào các hoạt động
ngoại khóa
bullying Trải nghiệm bị bắt nạt 0-5 Định tính
của học sinh
stress_level Mức độ căng thẳng tổng 1-2 Định tính
thể
Yếu tố tâm lí
 Mức độ lo lắng trung bình của tất cả học sinh tham gia khảo sát là 11,1
 Có 542 học sinh chiếm 29,27% trên tổng 1100 học sinh tham gia khảo sát đã
báo cáo mình có tiền sử các vấn đề về sức khỏe tâm thần
6
 507 học sinh có lòng tự trọng dưới mức trung bình(<18)
 859 học sinh dấu hiệu trầm cảm từ mức độ tối thiểu đến trầm cảm nặng, chiếm
78% số học sinh tham gia khảo sát
Yếu tố sinh lí
 129 học sinh thường xuyên bị đau đầu(có số điểm là 5)
 2,18 là chỉ số huyết áp trung bình của học sinh
 550 học sinh đánh gía mình có giấc ngủ kém(dưới 3)
Nhân tố môi trường
 137 học sinh cho biết mình sống tại nơi có độ ồn cao(mức 5 trong bảng đánh
giá)
 29 học sinh chiếm 2,63% cảm thấy khu vực sống của mình không an toàn(mức
0)
 40 học sinh cảm thấy các nhu cầu cơ bản của họ không được đáp ứng các nhu
cầu cơ bản
Yếu tố học thuật
 561 học sinh tự đánh giá thành tích học tập của họ dưới mức trung bình(<2,77)
 Khối lượng học tập trung bình của học sinh tham gia khảo sát là 2,62
 880 học sinh có mối lo ngại nhất định về sự nghiệp trong tương lai, chỉ có số ít
30 học sinh còn lại cảm thấy không lo lắng về tương lai của họ.
Yếu tố xã hội
 173 học sinh thường xuyên bị bắt nạt, chỉ có số ít 39 học sinh cho biết mình
chưa từng bị bắt nạt.
 174 học sinh thường xuyên tham gia hoạt động ngoại khóa
7
Chương III: DATA PREPARATION- TIỀN XỬ LÝ DỮ LIỆU (trang 19)
3.1. Làm sạch dữ liệu
 Impute values
Hình 1 Dữ liệu đầu vào
Dữ liệu đầu vào có 1100 mẫu, trong đó có 21 biến và không có giá trị bị thiếu hụt hay
lỗi (0.0 %).
Hình 2 Sử dụng công cụ Preprocess
8
Để đi qua quy trình tiền xử lý dữ liệu, nhóm sẽ sử dụng công cụ Preprocess, dựa vào
phương pháp Average/Most frequent
 Impute Missing Values
Hình 3 Impute missing value
 Normalize Features
Hình 4 Normalize Features
9
 Discretize Continuos Varaiables
Hình 5 Discretize Continuous Variables
Hình 6 Data table
Kéo thả chuột từ Preprocess => Data Table, quan sát thông tin dữ liệu bên trong sau
tiền xử lý
10
Hình 7 Dữ liệu sau khi làm sạch
Nhận xét: Dữ liệu sau khi làm sạch bằng cách lấy trung bình toàn cục có 1100 mẫu, 20
biến và không có giá trị lỗi.
Chương IV: MODELING- MÔ HÌNH HÓA DỮ LIỆU

4.1 Lựa chọn mô hình, phương pháp, kỹ thuật
Nhóm sử dụng 4 phương pháp như sau:
 Logistic Regression
 Support Vector Machine (SVM)
 Decision Tree
 Neural Network
 Xây dựng mô hình
11
Hình 8 Tệp dữ liệu
Tệp dữ liệu bao gồm 1100 mẫu dữ liệu, 20 biến và 0 dữ liệu lỗi.
Hình 9 Lấy 75% mẫu dữ liệu sau đó lưu về dạng file exel
Lấy 75% mẫu dữ liệu từ bảng dữ liệu tiền xử lí, sau đó lưu dữ liệu về dạng file Exel
tên DATA_75.xl
12
Hình 10 Train data
Tập dữ liệu huấn luyện có 825 mẫu, bao gồm 20 biến và không có dữ liệu lỗi
13
Hình 11 Lấy 25% mẫu còn lại làm tập thử nghiệm
Thực hiện lấy 25% mẫu còn lại từ bảng dữ liệu tiền xử lí làm tập thử nghiệm và lưu
về dạng file Exel tên DATA_25.xlsx
14
Hình 12 test data
Tập dữ liệu thử nghiệm sau khi lấy mẫu có 275 mẫu dữ liệu, 20 biến và 0 dữ liệu lỗi.
Hình 13 Mô hình lấy mẫu dữ liệu
Quá trình phân tích và dự báo:

Sử dụng phương pháp Test Score để so sánh và đánh giá các thuật toán.
Với tập huấn luyện DATA_75.xlsx, nhóm nghiên cứu chọn biến stress_level là biến
phụ thuộc (target) để dự đoán xem
15
Hình 14 Chọn biến stress level là biến phụ thuộc để dự đoán
16
17
Chọn tỉ lệ lấy mẫu ở Cross Validation
Hình 15 Kết quả khi số Folds là 5
Chọn tỉ lệ lấy mẫu ở Cross Validation
18
Hình 16 Kết quả khi số Folds là 10
Nhận xét:
SVM: chiếm lợi thế hơn hẳn so với các thuật toán còn lại
Khi thiết lập số lượng folds là 10, kết quả cho thấy các chỉ số gần như cao hơn so với
khi chia thành 5 folds
19
Ma trận nhầm lẫn
Kiểm tra sự phù hợp của thuật toán SVM đối với nghiên cứu này
20
Hình 17 Confusion Matrix( ma trận nhầm lẫn)
Kết luận: Phương pháp SVM cho ra mô hình phù hợp nhất.
21
Đường cong ROC
Hình 18 Đường cong ROC khi target là 0
Hình 19 Đường cong ROC khi target là 1
22
Nhận xét:
Khi Target là 0, đường cong ROC của SVM tiệm cận với điểm (0;1) nhất và điều
tương tự cũng xảy ra với Target là 1.
Mô hình SVM sẽ được ứng dụng để dự báo phản ứng của khách hàng với chiến dịch
marketing của công ty
Hình 20 Nhập bộ dữ liệu thử nghiệm vào phần mềm Orange

Trước khi tiến hành phân tích, thực hiện nhập bộ dữ liệu thử nghiệm DATA_25.xlsx
vào phần mềm Orange
Dùng chức năng Prediction để dự báo dữ liệu theo SVM
23
Hình 21 Kết quả sau khi sử dụng chức năng Prediction để dự báo dữ liệu theo SVM
Sử dụng tính năng Save Data để xuất kết quả dự báo thành một tệp Excel
Kết hợp việc sử dụng hàm COUNTIF để phân tích dữ liệu trong tệp Excel này, thu
được kết quả với trong số 5 học sinh được dự báo, có:
1 học sinh (chiếm 20%) thuộc phân lớp "Mức độ trầm cảm thấp".
1 học sinh (chiếm 20%) thuộc phân lớp "Mức độ trầm cảm trung bình".
3 học sinh (chiếm 60%) thuộc phân lớp “Mức độ trầm cảm cao”
4.2 Xây dựng các phương pháp
4.3. Xây dựng mô hình áp dụng
24
Chương V: EVALUATION- ĐÁNH GIÁ KẾT QUẢ
Tổng quan mô hình Orange
Hình 22 Tổng quan mô hình

Kết quả phân LỚP dựa trên bộ dữ liệu Stress Level
 Kết quả phân lớp dựa trên các chỉ số đánh giá
 Kết quả phân lớp dựa trên ma trận nhầm lẫn
 Kết quả phân lớp dựa trên ROC
Kết luận: Phương pháp SVM là phương pháp phù hợp nhất cho bộ dữ liệu
Đánh giá mô hình phân lớp

Độ chính xác (precision)
25
Độ truy hồi (recall)
Độ đo F (F-measure)
Ma trận nhầm lẫn (confusion matrix)
Đường cong ROC (Receiver Operating Characteristic Curve)
Miền AUC (Area Under the [ROC] Curve)
Chương VI:KẾT LUẬN/ ỨNG DỤNG

6.1 Kết luận :
Trong dự án phân tích dữ liệu dự đoán này, chúng tôi đã đi sâu vào một bộ dữ liệu
toàn diện khám phá nhiều khía cạnh trong cuộc sống của học sinh, nhằm mục đích giải
mã mạng lưới phức tạp các yếu tố góp phần vào mức độ căng thẳng của họ. Thông qua
phân tích dữ liệu khám phá, phân tích tương quan và mô hình hồi quy decision tree,
chúng tôi đã có được những hiểu biết có giá trị về các khía cạnh ảnh hưởng đến căng
thẳng của học sinh.
6.2 Ứng dụng/ cách khắc phục:

Can thiệp và hỗ trợ: Các trường học nên tập trung vào việc thúc đẩy tham gia hoạt
động ngoại khóa, nâng cao lòng tự trọng và cung cấp các nguồn lực để đáp ứng nhu
cầu cơ bản của học sinh.
Hỗ trợ sức khỏe tâm lý: Các trường học nên cung cấp dịch vụ tư vấn để giải quyết
các yếu tố tâm lý và đối phó với các yếu tố gây căng thẳng trong học tập.
Phòng ngừa bắt nạt: Thực hiện các chương trình chống bắt nạt và tạo ra một môi
trường hỗ trợ để giảm bớt áp lực xã hội.
Tư vấn nghề nghiệp: Cung cấp hướng dẫn và tư vấn nghề nghiệp toàn diện để
giảm bớt lo lắng của học sinh về tương lai của họ.
Xây dựng chính sách: Các tổ chức giáo dục nên xem xét những phát hiện này khi
xây dựng các chính sách nhằm giảm căng thẳng cho học sinh, tạo ra môi trường học
tập lành mạnh hơn.
26

KHDL

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

KHDL

Uploaded by

Copyright:

Available Formats

Thành phố Hồ Chí Minh, tháng 11 năm 2023

TÊN THÀNH VIÊN NHIỆM VỤ ĐÁNH GIÁ CHẤT LƯỢNG

Lai Tâm Như 100%

Nguyễn Ngọc Bảo 100%

Lê Tiến Hiếu 100%

Võ Trần Tấn Thông 100%

Nguyễn Hoàng Trúc 100%

Hình 1 Dữ liệu đầu vào 8

Chương II: DATA UNDERSTANDING - TÌM HIỂU DỮ LIỆU

Tên Biến Mô tả Các Giá trị của Loại biến

Hình 1 Dữ liệu đầu vào

Hình 2 Sử dụng công cụ Preprocess

 Impute Missing Values

Hình 3 Impute missing value

Hình 4 Normalize Features

Hình 5 Discretize Continuous Variables

Hình 6 Data table

Chương IV: MODELING- MÔ HÌNH HÓA DỮ LIỆU

Hình 13 Mô hình lấy mẫu dữ liệu

Quá trình phân tích và dự báo:

Hình 15 Kết quả khi số Folds là 5

Chọn tỉ lệ lấy mẫu ở Cross Validation

Hình 18 Đường cong ROC khi target là 0

Hình 19 Đường cong ROC khi target là 1

Hình 20 Nhập bộ dữ liệu thử nghiệm vào phần mềm Orange

4.2 Xây dựng các phương pháp

4.3. Xây dựng mô hình áp dụng

Tổng quan mô hình Orange

Hình 22 Tổng quan mô hình

Đánh giá mô hình phân lớp

Chương VI:KẾT LUẬN/ ỨNG DỤNG

6.2 Ứng dụng/ cách khắc phục:

You might also like