Professional Documents
Culture Documents
Thuyết Minh Kim Ngan 2024
Thuyết Minh Kim Ngan 2024
Họ và tên thủ trưởng đơn vị: PGS. TS. Ngô Thanh PhongTên đơn vị:
7. CHỦ NHIỆM ĐỀ TÀI
Họ và tên: Trần Nguyễn Kim Ngân MSSV: B2203769
Ngày tháng năm sinh: 29/02/2004 Lớp: KH22D3A1
Điện thoại di động: 0911792669 Khóa: 48
E-mail: nganb2203769@student.ctu.edu.vn
8. NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI
Nội dung nghiên cứu
TT Họ và tên MSSV, Lớp, Khóa Chữ ký
cụ thể được giao
Chủ nhiệm đề tài,
MSSV: B2203769
Trần Nguyễn Kim thực hiện Nội dung 1,
1 Lớp: KH22D3A1
Ngân 2 và viết báo cáo
Khóa: 48
phân tích
2 Lê Đông Phương MSSV: B2203777 Thực hiện Nội dung
Lớp: KH22D3A1 1 và Nội dung 2
Khóa: 48
3 Nguyễn Thị Anh MSSV: B2203786 Thực hiện Nội dung
Thư Lớp: KH22D3A1 3 và Nội dung 4
Khóa: 48
Lê Thanh Tâm MSSV: B2203834 Thực hiện Nội dung
Lớp: KH22D3A2 3 và Nội dung 4
Khóa: 48
Cán bộ hướng dẫn sinh viên thực hiện đề tài
Họ và tên, MSVC Đơn vị công tác và lĩnh Nhiệm vụ Chữ ký
vực chuyên môn
PGS.TS. Võ Văn Tài, Khoa Khoa học Tự nhiên Hướng dẫn nội dung
khoa học và Hướng
MSCB: 0007 Thống kê và khoa học dữ
dẫn lập dự toán kinh
liệu
phí đề tài
9. ĐƠN VỊ PHỐI HỢP CHÍNH
Tên đơn vị Họ và tên người đại
Nội dung phối hợp nghiên cứu
trong và ngoài nước diện đơn vị
Không
10. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC CỦA ĐỀ TÀI Ở TRONG
VÀ NGOÀI NƯỚC
10.1. Ngoài nước
Nhận dạng cho các phần tử gồm có ba thuật toán chính: nhận dạng không được giám sát
(un-supervised recoginition), nhận dạng được giám sát (supervised recoginition) và nhận dạng
bán giám sát (semi-supervised recoginition). Nhận dạng được giám sát là việc việc phân loại
một phần tử vào trong các tổng thể đã biết một cách thích hợp nhất dựa vào các biến quan sát
của nó. Do đó, nó thường được gọi là bài toán phân loại (Pham-Gia et al., 2007; Nhu et al., 2020) .
Phân loại là một hướng phát triển quan trọng của thống kê nhiều chiều và khoa học dữ liệu. Nó
cũng là nền tảng trong xử lý dữ liệu lớn và trí tuệ nhân tạo ngày nay, nên được rất nhiều nhà
thống kê và công nghệ thông tin quan tâm. Tuy nhiên có thể khẳng định rằng cho đến nay bài toán
phân loại vẫn chưa có lời giải cuối cùng.
Bài toán phân loại được phát triển theo hai hướng chính: Theo hướng thống kê và theo hướng học
máy, học sâu. Có nhiều phương pháp phân loại theo hướng thống kê được sử dụng phổ biến ngày nay.
Theo thống kê, các phương pháp được sử dụng phổ biến ngày nay là Fisher (Fisher, 1938), Hồi quy
logistic (Kung, 2010), Naive Bayes, Bayes cải tiến (Pham-Gia et al., 2008; Nhu et al. 2020). Phương
pháp Fisher có thể phân loại cho hai hay nhiều hơn hai tổng thể nhưng phải giả thiết ma trận hiệp
phương sai của các tổng thể bằng nhau nên có nhiều hạn chế khi áp dụng cho các dữ liệu thực tế.
Phương pháp hồi qui logistic được sử dụng rất phổ biến, nhưng chỉ hiệu quả khi dữ liệu có sự tách rời
tốt của các nhóm và biến phụ thuộc là nhị phân (Jan et al. 2010). Phương pháp Naive Bayes đơn giản
về lý thuyết nhưng khó thực hiện trong thực tế vì phải giả sử các biến cố độc lập. Phương pháp Bayes
cải tiến không đòi hỏi điều kiện dữ liệu, có thể phân loại cho nhiều tổng thể nên có nhiều ưu điểm về lý
thuyết. Phương pháp Bayes được đánh giá có nhiều tiềm năng trong mở rộng lý thuyết và ứng dụng, vì
vậy nó đang được sự quan tâm của các nhà thống kê và công nghệ thông tin. Trong phân loại bằng
phương pháp Bayes, hai vấn đề quyết định đến kết quả phân loại là xác suất tiên nghiệm và hàm mật
độ xác suất. Xác suất tiên nghiệm thường được xác định dựa vào kinh nghiệm, sự hiểu biết của người
thực hiện, hoặc cập nhật một kết luận thống kê trước đó về đối tượng được quan sát. Một số xác suất
tiên nghiệm đề xuất dựa vào thống kê đã được xem xét và áp dụng như phân phối đều, tỉ lệ mẫu,
phương pháp Laplace. Tuy nhiên chúng chỉ phù hợp cho từng bộ dữ liệu mà không tốt nhất cho tất cả
(Pham-Gia et al. 2006, Miller et al. 2001). Bên cạnh xác suất tiên nghiệm, khi thực hiện bài toán phân
loại bằng phương pháp Bayes, chúng ta phải ước lượng hàm mật độ xác suất đại diện cho mỗi tổng thể.
Mặc dù có nhiều cải tiến trong những năm gần đây, nhưng cho đến nay nó vẫn còn nhiều hạn chế.
Ngoài hai vấn đề trên, những phức tạp trong tính toán như tìm hàm cực đại, tính tích phân trong không
gian nhiều chiều cũng là cản trở chính trong áp dụng thực tế của phương pháp này.
Bên cạnh các phương pháp thống kê trên, chúng ta cũng có nhiều phương pháp phân loại dựa trên
học máy và học sâu như multi-Supported vector machine (Multi-SVM), Random Forest, k-NN,
XGBoost, Convolutional Neural Network (CNN), (Chen et al., 2009; Cristianini et al., 2009; Pham et
al., 2016; Huang et al., 2018; Zhao et al., 2019) và transformer (learning Yang et al., 2022). Các
phương pháp có nhiều lợi thế trong sự phát triển mạnh của công nghệ thông tin ngày nay. Tuy nhiên
việc xây dựng mô hình dựa trên quá trình huấn luyện nên đòi hỏi dữ liệu lớn và chi phí thời gian. Kết
quả của chúng cũng phụ thuộc nhiều vào tính chất riêng của dữ liệu. Tất cả các phương pháp được đề
xuất ở trên đều thực hiện cho dữ liệu rời rạc. Theo sự hiểu biết của chúng tôi, mô hình phân loại cho
hàm mật độ xác suất chưa được quan tâm và đề xuất từ các nhà nghiên cứu.
Phân loại ảnh là việc xác định nhãn cho ảnh từ mô hình phân loại được xây dựng dựa vào tập huấn
luyện. Việc xác định nhãn của ảnh từ mô hình huấn luyện thường được thực hiện qua hai bước: trích
xuất đặc trưng ảnh và xây dựng mô hình phân loại cụ thể từ các đặc trưng được trích xuất này. Trích
xuất ảnh là bước đầu tiên rất quan trọng để thực hiện bài toán phân loại. Việc trích xuất ảnh được xem
là tối ưu nếu nó đặc trưng được cho ảnh, dễ nhận dạng và giảm chi phí tính toán. Một ảnh thông
thường được trích xuất dựa vào đặc trưng màu sắc, kết cấu, hình dạng (Vijaya et al., 2016). Mặc dù có
nhiều thảo luận về vấn đề này nhưng cho đến nay chưa một đặc trưng nào được xem là tối ưu cho tất cả
các trường hợp. Khi các đặc trưng được trích xuất, để áp dụng vào bài toán phân loại chúng ta phải
chọn lựa phần tử đại diện cho ảnh. Việc chọn lựa này rất quan trọng bởi vì nhận dạng ảnh chính là
nhận dạng các phần tử đại diện này. Hiện nay các đối tượng chính được sử dụng để đại diện cho ảnh là
các phần tử rời rạc, hàm mật độ xác suất và khoảng (Haraclick, 1979; Erbug and Adil, 2000; Hiremath
et al., 2007; Tan et al. 2011; Park et al. 2014). Các tác giả Garg et al. (2021) đã kết hợp ma trận đồng
hiện mức xám (GLCM) nhằm giảm chiều và trích xuất đặc trưng kết cấu để tạo dữ liệu rời rạc cho bài
toán phân loại ảnh. Ha và cộng sự (2020) đã sử dụng hàm cực đại của các hàm mật độ xác suất được
xây dựng từ trích xuất đặc trưng ảnh cho bài toán nhận diện gương mặt. Mỗi loại trích xuất này đều có
những ưu điểm riêng cho những trường hợp cụ thể, chưa có kiểu trích xuất nào được xem là tối ưu cho
mọi trường hợp (Zhang et al., 2018). Mặc dù việc trích xuất ảnh thành hàm mật độ xác suất để thực
hiện bài toán phân tích chùm đã được một số nghiên cứu gần đây thực hiện [], tuy nhiên sử dụng cho
bài toán phân loại vẫn chưa được xem xét.
Các nội dung, công việc Sản phẩm Thời gian Người thực hiện và
STT thực hiện (bắt đầu-kết thúc) số ngày thực hiện
1. Nội dung 1. Phân tích các phương pháp phân loại phổ biến
1.1 Tổng kết các phương pháp phân Báo cáo phân 01/3/2024 – Trần Nguyễn Kim
loại từ thống kê tích 10/3/2024 Ngân
(2 ngày)
Lê Đông Phương
(2 ngày)
Trần Nguyễn Kim
1.2 Tổng kết các phương pháp phân Báo cáo phân 11/3/2024 –
Ngân
loại dựa vào học máy và học sâu tích 20/3/2024
(2 ngày)
Lê Đông Phương
(2 ngày)
Trần Nguyễn Kim
1.3 Nhận xét và so sánh các ưu điểm Bảng nhận xét 21/3/2024 –
Ngân
và nhược điểm của các phương và đánh giá 30/3/2024
(2 ngày)
pháp trong áp dụng thực tế Lê Đông Phương
(2 ngày
Nội dung 2. Nghiên cứu thuật toán phân loại cho hàm mật độ xác suất
2.
Trần Nguyễn Kim
2.1 Phân tích các độ đo trong đánh Báo cáo phân 01/4/2024 –
Ngân
giá sự tương tự của hai và nhiều tích 10/4/2024
(2 ngày)
hơn hai hàm mật độ xác suất. Lê Đông Phương
(2 ngày
Trần Nguyễn Kim
2.2 Đề xuất phương pháp xác định Biểu thức về 11/4/2024 –
Ngân
hàm mật độ xác suất đại diện của PDF đại diện 20/4/2024
(2 ngày)
Lê Đông Phương
một nhóm và độ đo đánh giá sự cho một nhóm
(2 ngày
tương tự của một PDF với một và các độ đo
nhóm. giữa hai PDF.
Trần Nguyễn Kim
2.3 Tổng kết các phương pháp tìm Thuật toán tìm 21/4/2024 –
Ngân
xác suất tiên nghiệm đã tồn tại xác suất tiên 30/4/2024
(2 ngày)
cho dữ liệu rời rạc từ đó đề xuất nghiệm Lê Đông Phương
thuật toán tìm xác suất tiên (2 ngày
nghiệm cho PDF
Trần Nguyễn Kim
Đề xuất thuật toán phân loại cho Thuật toán 01/5/2024 –
Ngân
1 PDF dựa vào Nội dung 2.3 và phân loại cho 10/5/2024
(2 ngày)
nguyên tắc phân loại Bayes. PDF Lê Đông Phương
(2 ngày
Trần Nguyễn Kim
2.4 Giải quyết một số vấn đề liên Code Matlab 11/5/2024 –
Ngân
quan đến thuật toán đề nghị như 20/5/2024
(2 ngày)
sự hội tụ, vấn đề tính toán. Lê Đông Phương
(2 ngày
Trần Nguyễn Kim
2.5 Thực hiện ví dụ số minh hoạ cho Các bước cụ 21/5/2024 –
Ngân
thuật toán đề nghị và một số ứng thể trong phân 30/5/2024
(2 ngày)
dụng cụ thể. loại cho một Lê Đông Phương
ví dụ số (2 ngày
Nội dung 3. Nghiên cứu thuật toán phân loại ảnh dựa vào hàm mật độ xác suất đại diện
3
Nguyễn Thị Anh
3.1 Phân tích các phương pháp tham Phương pháp 01/6/2024 –
Thư
số và phi tham số trong ước ước lượng 10/6/2024
(2 ngày)
lượng PDF, các phương pháp PDF Lê Thanh Tâm
dựa trên sự độc lập và phụ thuộc (2 ngày)
giữa các biến.
Nguyễn Thị Anh
3.2 Phân tích các phương pháp trích Phương pháp 11/6/2024 –
Thư
xuất đặc trưng của ảnh dựa vào ước lượng 20/3/2024
(2 ngày)
màu sắc, kết cấu và hình dạng, PDF đại diện Lê Thanh Tâm
từ đó đề xuất một PDF hoặc cho một ảnh (2 ngày)
nhiều PDF đại diện cho 1 ảnh.
Nguyễn Thị Anh
3.3 Đề xuất thuật toán nhận dạng Thuật toán 21/6/2024 –
Thư
ảnh từ Nội dung 2 và Mục 3.2. phân loại ảnh 30/6/2024
(2 ngày)
Lê Thanh Tâm
(2 ngày)
Nguyễn Thị Anh
3.4 Phân tích vấn đề tính toán và Code Matlab 01/7/2024 –
Thư
viết code cho thuật toán đề nghị 10/7/2024
(2 ngày)
Lê Thanh Tâm
(2 ngày)
Nguyễn Thị Anh
3.5 Thực hiện một ví dụ chi tiết cho Một ví dụ 11/7/2024 –
Thư
thuật toán phân loại ảnh đề nghị phân loại ảnh 20/7/2024
(2 ngày)
cụ thể
Lê Thanh Tâm
(2 ngày)
4 Nội dung 4. Một số ứng dụng trong y học
Nguyễn Thị Anh
4.1 Khảo sát các metric đánh giá Biểu thức cho 21/7/2024 –
Thư
hiệu quả của các phương pháp metric đánh 30/7/2024
(2 ngày)
phân loại. giá của các Lê Thanh Tâm
phương pháp (2 ngày)
phân loại.
Nguyễn Thị Anh
4.2 Thực Thực hiện trên các tập dữ Các bước cụ 01/8/2024 –
Thư
liệu ảnh cụ thể: thể tiến hành 10/8/2024
(2 ngày)
- Chia mỗi tập dữ liệu thành 2 thực hiện Lê Thanh Tâm
trong ứng (2 ngày)
phần: Tập huấn luyện và tập
kiểm tra với tỷ lệ lần lượt là dụng cho các
tập dữ liệu
80% và 20%.
ảnh.
- Sử dụng tập huấn luyện để xây
dựng mô hình đề nghị và các mô
hình được so sánh.
- So sánh các mô hình thực hiện
cho dữ liệu của tập kiểm tra qua
các metric đánh giá.
Nguyễn Thị Anh
4.3 Thực hiện một số phân loại cụ Metric đánh 11/8/2024 –
Thư
thể cho các tập dữ liệu ảnh y giá cụ thể của 20/8/2024
(2 ngày)
học, đánh giá tiềm năng và khả các phương Lê Thanh Tâm
năng ứng dụng trong thực tế. pháp trên các (2 ngày)
ứng dụng.
5 Nội dung 5: Viết báo cáo phân tích đề tài
Trần Nguyễn Kim
5.1 Viết báo cáo phân tích tổng kết Báo cáo phân 21/8/2024 – Ngân
và nghiệm thu đề tài tích của đề tài 30/8/2024 (5 ngày)
16. SẢN PHẨM
Yêu cầu chất lượng sản phẩm
(mô tả chi tiết chất lượng sản phẩm
Stt Tên sản phẩm Số lượng đạt được như nội dung, hình thức,
các chỉ tiêu, thông số kỹ thuật,...)
I Xuất bản phẩm (Các công trình khoa học sẽ được công bố: sách, bài báo khoa học...)
Tạp chí thuộc danh mục của Hội
1.1 Bài báo khoa học trong nước 01
đồng Giáo sư Nhà nước
II Sản phẩm đào tạo (Luận văn tốt nghiệp đại học):
Hỗ trợ luận văn đại học theo hướng
2.1 Luận văn đại học 02
nghiên cứu của đề tài
III Sản phẩm khoa học và công nghệ: Không
IV. Sản phẩm theo quy định của
Trường Đại học Cần Thơ
Theo đúng quy định của Trường Đại
4.1 Bản tin 01
học Cần Thơ
Theo đúng quy định của Trường Đại
4.2 Báo cáo tóm tắt 01
học Cần Thơ
Tối đa 02 phút. Đầy đủ thông tin
4.3 Video clips 01
trọng tâm của đề tài.
17. PHƯƠNG THỨC CHUYỂN GIAO KẾT QUẢ NGHIÊN CỨU VÀ ĐỊA CHỈ ỨNG DỤNG
17.1. Phương thức chuyển giao
Công bố kết quả nghiên cứu trên 1 bài báo khoa học, báo cáo phân tích sẽ được lưu trữ tại Bộ
môn Toán Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ như một tài liệu tham khảo.
17.2. Địa chỉ ứng dụng
Bộ môn Toán thuộc Khoa Khoa học Tự nhiên
18. TÁC ĐỘNG VÀ LỢI ÍCH MANG LẠI CỦA KẾT QUẢ NGHIÊN CỨU
18.1. Đối với lĩnh vực giáo dục và đào tạo
- Báo cáo đề tài sẽ là tài liệu tham khảo cho các giảng viên giảng dạy môn Nhận dạng và phân
tích chùm, Thống kê Bayes.
- Tài liệu để các sinh viên ngành Thống kê và Toán ứng sử dụng cho học tập và xây dựng cơ sở lý
thuyết cho luận văn tốt nghiệp.
18.2. Đối với lĩnh vực khoa học và công nghệ có liên quan
Kết quả nghiên cứu có thể tiếp tục phát triển để áp dụng cho nhiều vấn đề thực tế khác nhau liên
quan đến nhận dạng ảnh
18.3. Đối với phát triển kinh tế-xã hội
Góp phần phát triển hướng nghiên cứu về nhận dạng và phân loại hình ảnh không chỉ trong nội
tại Toán học mà được ứng dụng đa ngành, đa thiết bị thông minh vốn đang là một nền tảng quan trọng
không thể thiếu của cách mạng số hiện nay.
18.4. Đối với tổ chức chủ trì và các cơ sở ứng dụng kết quả nghiên cứu
- Đề tài góp phần khuyến khích phong trào nghiên cứu khoa học của sinh viên ngành Thống kê và
Toán ứng dụng có thể áp dụng kiến thức đã được học trong chương trình đào tạo nói chung và phân
môn thống kê nói riêng.
- Góp phần nâng cao chất lượng chất lượng đào tạo ngành Thống kê và Toán ứng của Trường Đại
học Cần Thơ.
19. KINH PHÍ THỰC HIỆN ĐỀ TÀI VÀ NGUỒN KINH PHÍ
Kinh phí thực hiện đề tài: 15 000 000 đồng.
Trong đó:
Kinh phí Trường cấp: 15 000 000 đồng.
Các nguồn khác: 0 đồng.
Đơn vị tính: đồng
Nguồn kinh phí
Stt Khoản chi, nội dung chi Tổng kinh phí Kinh phí Các nguồn
Trường cấp khác
1 Chi mua vật tư, nguyên, nhiên, vật liệu 0 0 0
2 Chi tiền công lao động trực tiếp 11.730.000 11.100.000 0
3 Chi văn phòng, phẩm, thông tin liên lạc, in ấn 545.000 425.000 0
4 Chi họp hội đồng đánh giá, nghiệm thu 2.725.000 2.725.000 0
Tổng cộng 750.000 750.000 0
15.000.000 15.000.000 0
KHOA KHOA HỌC TỰ NHIÊN CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM ĐỀ TÀI
TL.HIỆU TRƯỞNG
TRƯỞNG PHÒNG QUẢN LÝ KHOA HỌC