Professional Documents
Culture Documents
1
BẢNG ĐÁNH GIÁ CÔNG TÁC THÀNH VIÊN
2
MỤC LỤC
LỜI MỞ ĐẦU...............................................................................................1
DANH MỤC BẢNG BIỂU...........................................................................2
Chương I: BUSINESS UNDERSTANDING - TÌM HIỂU VẤN ĐỀ/ CÁC
YẾU TỐ GÂY RA STRESS CỦA SINH VIÊN HIỆN NAY..............................3
1.1 Lý do chọn đề tài và thực trạng...........................................................3
1.2 Mục tiêu nghiên cứu............................................................................3
1.3 Đối tượng nghiên cứu và phương pháp nghiên cứu............................3
Chương II: DATA UNDERSTANDING - TÌM HIỂU DỮ LIỆU...............4
2.1. Giới thiệu bộ dữ liệu..........................................................................4
2.2. Mô tả dữ liệu:.....................................................................................5
Chương III: DATA PREPARATION- TIỀN XỬ LÝ DỮ LIỆU (trang 19) 8
3.1. Làm sạch dữ liệu................................................................................8
Chương IV: MODELING- MÔ HÌNH HÓA DỮ LIỆU.............................11
4.1 Lựa chọn mô hình, phương pháp, kỹ thuật.......................................11
4.2 Xây dựng các phương pháp..............................................................24
4.3. Xây dựng mô hình áp dụng..............................................................24
Chương V: EVALUATION- ĐÁNH GIÁ KẾT QUẢ...............................25
Chương VI:KẾT LUẬN/ ỨNG DỤNG......................................................26
6.1 Kết luận :...........................................................................................26
6.2 Ứng dụng/ cách khắc phục:...............................................................26
3
LỜI MỞ ĐẦU
Đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến Trường Đại học Kinh tế
Thành phố Hồ Chí Minh đã đưa môn học Khoa học dữ liệu vào chương trình giảng
dạy. Đặc biệt, nhóm chúng em xin gửi lời cảm ơn sâu sắc đến giảng viên bộ môn - Cô
Phạm Thị Thanh Tâm đã dạy dỗ và truyền đạt những kiến thức quý báu cho chúng em
trong suốt thời gian học tập vừa qua. Trong thời gian tham gia lớp học Khoa học dữ
liệu của Cô, chúng em đã có thêm cho mình nhiều kiến thức bổ ích, tinh thần học tập
hiệu quả và nghiêm túc. Đây chắc chắn sẽ là những kiến thức quý báu, là hành trang
để em có thể vững bước sau này.
Bộ môn Khoa học dữ liệu là môn học thú vị, vô cùng bổ ích và có tính thực tế cao.
Đảm bảo cung cấp đủ kiến thức, gắn liền với nhu cầu thực tiễn của sinh viên trong thời
đại công nghệ số hiện nay. Tuy nhiên, do vốn kiến thức còn nhiều hạn chế và khả năng
tiếp thu thực tế còn nhiều bỡ ngỡ. Mặc dù chúng em đã cố gắng hết sức nhưng chắc
chắn bài tiểu luận khó có thể tránh khỏi những thiếu sót và nhiều chỗ còn chưa chính
xác, kính mong Cô xem xét và góp ý để bài tiểu luận của chúng em được hoàn thiện
hơn. Chúng em xin chân thành cảm ơn!
1
DANH MỤC BẢNG BIỂU
2
Chương I: BUSINESS UNDERSTANDING - TÌM HIỂU VẤN ĐỀ/ CÁC
YẾU TỐ GÂY RA STRESS CỦA SINH VIÊN HIỆN NAY
1.1 Lý do chọn đề tài và thực trạng
Một sự thật đáng buồn ở thế hệ các bạn trẻ hiện nay cụ thể là genZ đang dễ
mắc phải các bệnh về tâm lý học đường .Tâm lý trầm cảm ở học sinh và sinh viên có
thể là vấn đề nghiêm trọng, ảnh hưởng đến sức khỏe tinh thần và hiệu suất học tập của
họ. Các nguyên nhân có thể đa dạng, từ áp lực học tập quá lớn, lo lắng về tương lai,
cảm giác cô đơn, cho đến vấn đề gia đình hoặc sự thay đổi lớn trong cuộc sống.
Nhiều yếu tố như áp lực từ trường học, lo lắng về kỳ thi, cảm giác không tự
tin, hoặc cảm giác bất an có thể làm gia tăng tình trạng trầm cảm. Hơn nữa, các vấn đề
về tự giá, xã hội hóa, và sự phân vân về lựa chọn nghề nghiệp cũng có thể gây ra trầm
cảm ở sinh viên.
Từ những dữ kiện đã nêu ở trên thì nhóm chúng em quyết định chọn đề tài
này bởi việc nhận biết và hỗ trợ người học bị trầm cảm rất quan trọng. Giáo viên, cố
vấn học tập, hoặc các chuyên gia tâm lý có thể cung cấp sự hỗ trợ cần thiết. Ngoài ra,
việc tạo điều kiện cho học sinh và sinh viên cảm thấy thoải mái khi chia sẻ và tìm
kiếm sự giúp đỡ từ người thân, bạn bè cũng rất quan trọng để họ có thể vượt qua tình
trạng trầm cảm.
1.2 Mục tiêu nghiên cứu
Trước hết là xác định các yếu tố cụ thể có tác động đáng kể đến mức độ căng
thẳng của học sinh. Thông tin này rất quan trọng để hiểu rõ các yếu tố gây căng thẳng
chính ở học sinh.Trong bộ dữ liệu này, chúng em khám phá các khía cạnh khác nhau
trong cuộc sống của học sinh để hiểu điều gì gây ra căng thẳng. Bằng cách sử dụng
phân tích dự đoán, chúng em muốn tìm ra các mô hình và đưa ra dự đoán về mức độ
căng thẳng. Mục tiêu của chúng em là giúp tạo ra một môi trường tốt hơn và hỗ trợ
hơn cho học sinh. Xác định và ưu tiên các yếu tố chính ảnh hưởng đến mức độ căng
thẳng của học sinh để phát triển các biện pháp can thiệp và hệ thống hỗ trợ có mục tiêu
trong các tổ chức giáo dục.
1.3 Đối tượng nghiên cứu và phương pháp nghiên cứu
Đối tượng nghiên cứu
Bộ dữ liệu Student Stress Factors: A Comprehensive Analysis được thu thập từ
trường đại học Tribhuvan University của Nepal được đăng tải trên trang web Kaggle.
Tập dữ liệu bao gồm 10.000 hàng dữ liệu ( sinh viên ) và 21 cột (đặc tính).
Phương pháp nghiên cứu
- Phần mềm Orange:
Khai phá dữ liệu (Data Mining) là lĩnh vực tương đối khó để có thể khám phá và
nghiên cứu. Do đó, nhiều phần mềm đã ra đời với mục tiêu là giúp cho người dùng dễ
dàng hơn trong việc nghiên cứu các bài toán trong những lĩnh vực này. Một trong
những phần mềm đó chính là Orange.
Phần mềm Orange là phần mềm được tích hợp các công cụ khai phá dữ liệu mã
nguồn mở và được lập trình bằng Python với giao diện trực quan, dễ dàng tương tác.
Với việc có nhiều chức năng như vậy, phần mềm Orange có thể phân tích được các dữ
3
liệu khác nhau như từ đơn giản đến phức tạp và cho ra đồ họa vô cùng thu hút, đẹp
mắt.
- Phần mềm Excel:
Excel là một phần mềm phổ biến nằm trong bộ Microsoft Office. Phần mềm này
giúp người dùng ghi lại dữ liệu, trình bày thông tin dưới dạng bảng, tính toán, xử lý
thông tin nhanh chóng và chính xác với một lượng dữ liệu lớn.
Excel có nhiều công dụng khác nhau và một số công dụng nổi bật như: Lưu dữ
liệu, tham gia vào việc tính toán, quản lý dữ liệu, tham gia và hỗ trợ các công cụ phân
tích, tìm kiếm..
4
depression: Đo lường mức độ trầm cảm mà học sinh đang phải đối mặt dựa
trên thang PHQ-09 , học sinh có số điểm từ 5 (trầm cảm mức độ tối thiểu) đến
27 (trầm cảm nặng).
Các yếu tố sinh lý:
headache: Tần suất bị đau đầu của học sinh, từ 0 (không bị đau đầu) đến 5 (bị
đau đầu thường xuyên).
blood_pressure: Mức huyết áp của học sinh, với các giá trị từ 1 (thấp) đến 3
(cao).
sleep_quality: Đánh giá chất lượng giấc ngủ của học sinh trên thang điểm từ 0
(chất lượng kém) đến 5 (chất lượng tuyệt vời).
breathing_problem: Cho biết liệu học sinh có gặp vấn đề về hô hấp hay
không, với các giá trị 0 (không) hoặc 1 (có).
Các yếu tố môi trường
Noise Level: Cảm nhận của học sinh về mức độ tiếng ồn trong môi trường xung
quanh, từ 0 (tiếng ồn thấp) đến 5 (tiếng ồn cao).
living_conditions: Đánh giá điều kiện sống của học sinh, với các giá trị từ 0
(điều kiện kém) đến 5 (điều kiện tuyệt vời).
safety: Mức độ an toàn của môi trường xung quanh học sinh, từ 0 (không an
toàn) đến 5 (rất an toàn).
basic_needs: Mức độ hài lòng với các nhu cầu cơ bản của học sinh, từ 0 (không
hài lòng) đến 5 (hoàn toàn hài lòng).
Các yếu tố học tập (Mô tả cột)
academic_performance: Thành tích học tập của học sinh, với các giá trị từ 0
(kém) đến 5 (xuất sắc).
study_load: Khối lượng học tập của học sinh, từ 0 (nhẹ) đến 5 (nặng).
teacher_student_relationship: Chất lượng mối quan hệ với giáo viên, với các
giá trị từ 0 (kém) đến 5 (xuất sắc).
future_career_concerns: Lo ngại về triển vọng nghề nghiệp trong tương lai, từ
0 (ít lo ngại) đến 5 (rất lo ngại).
Các yếu tố xã hội (Mô tả cột)
social_support: Mức độ hỗ trợ xã hội mà học sinh trải nghiệm, từ 0 (hỗ trợ
thấp) đến 3 (hỗ trợ cao).
peer_pressure: Ảnh hưởng của áp lực đồng trang lứa đối với học sinh, với các
giá trị từ 0 (áp lực thấp) đến 5 (áp lực cao).
extracurricular_activities: Sự tham gia của học sinh vào các hoạt động ngoại
khóa, từ 0 (không tham gia) đến 5 (tham gia tích cực).
bullying: Trải nghiệm bị bắt nạt của học sinh, với các giá trị từ 0 (không bị bắt
nạt) đến 5 (bị bắt nạt thường xuyên).
stress_level: Mức độ căng thẳng tổng thể của học sinh báo cáo, với các giá trị
từ 0 (căng thẳng thấp) đến 2 (căng thẳng cao).
2.2. Mô tả dữ liệu:
6
507 học sinh có lòng tự trọng dưới mức trung bình(<18)
859 học sinh dấu hiệu trầm cảm từ mức độ tối thiểu đến trầm cảm nặng, chiếm
78% số học sinh tham gia khảo sát
Yếu tố sinh lí
129 học sinh thường xuyên bị đau đầu(có số điểm là 5)
2,18 là chỉ số huyết áp trung bình của học sinh
550 học sinh đánh gía mình có giấc ngủ kém(dưới 3)
Nhân tố môi trường
137 học sinh cho biết mình sống tại nơi có độ ồn cao(mức 5 trong bảng đánh
giá)
29 học sinh chiếm 2,63% cảm thấy khu vực sống của mình không an toàn(mức
0)
40 học sinh cảm thấy các nhu cầu cơ bản của họ không được đáp ứng các nhu
cầu cơ bản
Yếu tố học thuật
561 học sinh tự đánh giá thành tích học tập của họ dưới mức trung bình(<2,77)
Khối lượng học tập trung bình của học sinh tham gia khảo sát là 2,62
880 học sinh có mối lo ngại nhất định về sự nghiệp trong tương lai, chỉ có số ít
30 học sinh còn lại cảm thấy không lo lắng về tương lai của họ.
Yếu tố xã hội
173 học sinh thường xuyên bị bắt nạt, chỉ có số ít 39 học sinh cho biết mình
chưa từng bị bắt nạt.
174 học sinh thường xuyên tham gia hoạt động ngoại khóa
7
Chương III: DATA PREPARATION- TIỀN XỬ LÝ DỮ LIỆU (trang 19)
3.1. Làm sạch dữ liệu
Impute values
Dữ liệu đầu vào có 1100 mẫu, trong đó có 21 biến và không có giá trị bị thiếu hụt hay
lỗi (0.0 %).
8
Để đi qua quy trình tiền xử lý dữ liệu, nhóm sẽ sử dụng công cụ Preprocess, dựa vào
phương pháp Average/Most frequent
Normalize Features
9
Discretize Continuos Varaiables
Kéo thả chuột từ Preprocess => Data Table, quan sát thông tin dữ liệu bên trong sau
tiền xử lý
10
Hình 7 Dữ liệu sau khi làm sạch
Nhận xét: Dữ liệu sau khi làm sạch bằng cách lấy trung bình toàn cục có 1100 mẫu, 20
biến và không có giá trị lỗi.
11
Hình 8 Tệp dữ liệu
Tệp dữ liệu bao gồm 1100 mẫu dữ liệu, 20 biến và 0 dữ liệu lỗi.
Hình 9 Lấy 75% mẫu dữ liệu sau đó lưu về dạng file exel
Lấy 75% mẫu dữ liệu từ bảng dữ liệu tiền xử lí, sau đó lưu dữ liệu về dạng file Exel
tên DATA_75.xl
12
Hình 10 Train data
Tập dữ liệu huấn luyện có 825 mẫu, bao gồm 20 biến và không có dữ liệu lỗi
13
Hình 11 Lấy 25% mẫu còn lại làm tập thử nghiệm
Thực hiện lấy 25% mẫu còn lại từ bảng dữ liệu tiền xử lí làm tập thử nghiệm và lưu
về dạng file Exel tên DATA_25.xlsx
14
Hình 12 test data
Tập dữ liệu thử nghiệm sau khi lấy mẫu có 275 mẫu dữ liệu, 20 biến và 0 dữ liệu lỗi.
15
Hình 14 Chọn biến stress level là biến phụ thuộc để dự đoán
16
17
Chọn tỉ lệ lấy mẫu ở Cross Validation
18
Hình 16 Kết quả khi số Folds là 10
Nhận xét:
SVM: chiếm lợi thế hơn hẳn so với các thuật toán còn lại
Khi thiết lập số lượng folds là 10, kết quả cho thấy các chỉ số gần như cao hơn so với
khi chia thành 5 folds
19
Ma trận nhầm lẫn
Kiểm tra sự phù hợp của thuật toán SVM đối với nghiên cứu này
20
Hình 17 Confusion Matrix( ma trận nhầm lẫn)
Kết luận: Phương pháp SVM cho ra mô hình phù hợp nhất.
21
Đường cong ROC
22
Nhận xét:
Khi Target là 0, đường cong ROC của SVM tiệm cận với điểm (0;1) nhất và điều
tương tự cũng xảy ra với Target là 1.
Mô hình SVM sẽ được ứng dụng để dự báo phản ứng của khách hàng với chiến dịch
marketing của công ty
23
Hình 21 Kết quả sau khi sử dụng chức năng Prediction để dự báo dữ liệu theo SVM
Sử dụng tính năng Save Data để xuất kết quả dự báo thành một tệp Excel
Kết hợp việc sử dụng hàm COUNTIF để phân tích dữ liệu trong tệp Excel này, thu
được kết quả với trong số 5 học sinh được dự báo, có:
1 học sinh (chiếm 20%) thuộc phân lớp "Mức độ trầm cảm thấp".
1 học sinh (chiếm 20%) thuộc phân lớp "Mức độ trầm cảm trung bình".
3 học sinh (chiếm 60%) thuộc phân lớp “Mức độ trầm cảm cao”
24
Chương V: EVALUATION- ĐÁNH GIÁ KẾT QUẢ
25
Độ truy hồi (recall)
Độ đo F (F-measure)
Ma trận nhầm lẫn (confusion matrix)
Đường cong ROC (Receiver Operating Characteristic Curve)
Miền AUC (Area Under the [ROC] Curve)
26