Thuyết Minh Kim Ngan 2024

THUYẾT MINH ĐỀ TÀI
NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ

(do sinh viên thực hiện)
1. TÊN ĐỀ TÀI 2. MÃ SỐ ĐỀ TÀI
Phân loại mật độ xác suất và áp dụng cho dữ liệu ảnh TSV2024-…
Lĩnh vực ưu tiên (đánh dấu X)
X 1. Khoa học cơ bản
2. Công nghệ cao trong nông nghiệp, thủy sản và phát triển bền vững
3. Môi trường, tài nguyên thiên nhiên và biến đổi khí hậu
4. Công nghê, công nghệ thông tin và chuyển đổi số
5. Khoa học giáo dục, luật và xã hội nhân văn
6. Phát triển kinh tế, thị trường và nông thôn
7. Công nghệ sinh học và thực phẩm
Không thuộc 7 Lĩnh vực ưu tiên
3. LĨNH VỰC NGHIÊN CỨU (đánh dấu X)
X Khoa học Tự nhiên
Khoa học Kỹ thuật và Công nghệ
Khoa học Y, dược
Khoa học Nông nghiệp
Khoa học Xã hội
Khoa học Nhân văn
4. LOẠI HÌNH NGHIÊN CỨU (đánh dấu X)
X Cơ bản
Ứng dụng
Triển khai
5. THỜI GIAN THỰC HIỆN 06 tháng
Từ tháng 3 năm 2024 đến tháng 8 năm 2024
6. ĐƠN VỊ CỦA CHỦ NHIỆM ĐỀ TÀI
Tên đơn vị: Khoa Khoa học Tự nhiên
Điện thoại: (0292) 3832 062
E-mail: kkhtn@ctu.edu.vn
Địa chỉ: Đại học Cần Thơ, Khu II, đường 3/2, P. Xuân Khánh, Q. Ninh Kiều, TP. Cần Thơ
Họ và tên thủ trưởng đơn vị: PGS. TS. Ngô Thanh PhongTên đơn vị:
7. CHỦ NHIỆM ĐỀ TÀI
Họ và tên: Trần Nguyễn Kim Ngân MSSV: B2203769
Ngày tháng năm sinh: 29/02/2004 Lớp: KH22D3A1
Điện thoại di động: 0911792669 Khóa: 48
E-mail: nganb2203769@student.ctu.edu.vn
8. NHỮNG THÀNH VIÊN THAM GIA NGHIÊN CỨU ĐỀ TÀI
Nội dung nghiên cứu
TT Họ và tên MSSV, Lớp, Khóa Chữ ký
cụ thể được giao
Chủ nhiệm đề tài,
MSSV: B2203769
Trần Nguyễn Kim thực hiện Nội dung 1,
1 Lớp: KH22D3A1
Ngân 2 và viết báo cáo
Khóa: 48
phân tích
2 Lê Đông Phương MSSV: B2203777 Thực hiện Nội dung
Lớp: KH22D3A1 1 và Nội dung 2
Khóa: 48
3 Nguyễn Thị Anh MSSV: B2203786 Thực hiện Nội dung
Thư Lớp: KH22D3A1 3 và Nội dung 4
Khóa: 48
Lê Thanh Tâm MSSV: B2203834 Thực hiện Nội dung
Lớp: KH22D3A2 3 và Nội dung 4
Khóa: 48
Cán bộ hướng dẫn sinh viên thực hiện đề tài
Họ và tên, MSVC Đơn vị công tác và lĩnh Nhiệm vụ Chữ ký
vực chuyên môn
PGS.TS. Võ Văn Tài, Khoa Khoa học Tự nhiên Hướng dẫn nội dung
khoa học và Hướng
MSCB: 0007 Thống kê và khoa học dữ
dẫn lập dự toán kinh
liệu
phí đề tài
9. ĐƠN VỊ PHỐI HỢP CHÍNH
Tên đơn vị Họ và tên người đại
Nội dung phối hợp nghiên cứu
trong và ngoài nước diện đơn vị
Không
10. TỔNG QUAN TÌNH HÌNH NGHIÊN CỨU THUỘC LĨNH VỰC CỦA ĐỀ TÀI Ở TRONG
VÀ NGOÀI NƯỚC
10.1. Ngoài nước
Nhận dạng cho các phần tử gồm có ba thuật toán chính: nhận dạng không được giám sát
(un-supervised recoginition), nhận dạng được giám sát (supervised recoginition) và nhận dạng
bán giám sát (semi-supervised recoginition). Nhận dạng được giám sát là việc việc phân loại
một phần tử vào trong các tổng thể đã biết một cách thích hợp nhất dựa vào các biến quan sát
của nó. Do đó, nó thường được gọi là bài toán phân loại (Pham-Gia et al., 2007; Nhu et al., 2020) .
Phân loại là một hướng phát triển quan trọng của thống kê nhiều chiều và khoa học dữ liệu. Nó
cũng là nền tảng trong xử lý dữ liệu lớn và trí tuệ nhân tạo ngày nay, nên được rất nhiều nhà
thống kê và công nghệ thông tin quan tâm. Tuy nhiên có thể khẳng định rằng cho đến nay bài toán
phân loại vẫn chưa có lời giải cuối cùng.
Bài toán phân loại được phát triển theo hai hướng chính: Theo hướng thống kê và theo hướng học
máy, học sâu. Có nhiều phương pháp phân loại theo hướng thống kê được sử dụng phổ biến ngày nay.
Theo thống kê, các phương pháp được sử dụng phổ biến ngày nay là Fisher (Fisher, 1938), Hồi quy
logistic (Kung, 2010), Naive Bayes, Bayes cải tiến (Pham-Gia et al., 2008; Nhu et al. 2020). Phương
pháp Fisher có thể phân loại cho hai hay nhiều hơn hai tổng thể nhưng phải giả thiết ma trận hiệp
phương sai của các tổng thể bằng nhau nên có nhiều hạn chế khi áp dụng cho các dữ liệu thực tế.
Phương pháp hồi qui logistic được sử dụng rất phổ biến, nhưng chỉ hiệu quả khi dữ liệu có sự tách rời
tốt của các nhóm và biến phụ thuộc là nhị phân (Jan et al. 2010). Phương pháp Naive Bayes đơn giản
về lý thuyết nhưng khó thực hiện trong thực tế vì phải giả sử các biến cố độc lập. Phương pháp Bayes
cải tiến không đòi hỏi điều kiện dữ liệu, có thể phân loại cho nhiều tổng thể nên có nhiều ưu điểm về lý
thuyết. Phương pháp Bayes được đánh giá có nhiều tiềm năng trong mở rộng lý thuyết và ứng dụng, vì
vậy nó đang được sự quan tâm của các nhà thống kê và công nghệ thông tin. Trong phân loại bằng
phương pháp Bayes, hai vấn đề quyết định đến kết quả phân loại là xác suất tiên nghiệm và hàm mật
độ xác suất. Xác suất tiên nghiệm thường được xác định dựa vào kinh nghiệm, sự hiểu biết của người
thực hiện, hoặc cập nhật một kết luận thống kê trước đó về đối tượng được quan sát. Một số xác suất
tiên nghiệm đề xuất dựa vào thống kê đã được xem xét và áp dụng như phân phối đều, tỉ lệ mẫu,
phương pháp Laplace. Tuy nhiên chúng chỉ phù hợp cho từng bộ dữ liệu mà không tốt nhất cho tất cả
(Pham-Gia et al. 2006, Miller et al. 2001). Bên cạnh xác suất tiên nghiệm, khi thực hiện bài toán phân
loại bằng phương pháp Bayes, chúng ta phải ước lượng hàm mật độ xác suất đại diện cho mỗi tổng thể.
Mặc dù có nhiều cải tiến trong những năm gần đây, nhưng cho đến nay nó vẫn còn nhiều hạn chế.
Ngoài hai vấn đề trên, những phức tạp trong tính toán như tìm hàm cực đại, tính tích phân trong không
gian nhiều chiều cũng là cản trở chính trong áp dụng thực tế của phương pháp này.
Bên cạnh các phương pháp thống kê trên, chúng ta cũng có nhiều phương pháp phân loại dựa trên
học máy và học sâu như multi-Supported vector machine (Multi-SVM), Random Forest, k-NN,
XGBoost, Convolutional Neural Network (CNN), (Chen et al., 2009; Cristianini et al., 2009; Pham et
al., 2016; Huang et al., 2018; Zhao et al., 2019) và transformer (learning Yang et al., 2022). Các
phương pháp có nhiều lợi thế trong sự phát triển mạnh của công nghệ thông tin ngày nay. Tuy nhiên
việc xây dựng mô hình dựa trên quá trình huấn luyện nên đòi hỏi dữ liệu lớn và chi phí thời gian. Kết
quả của chúng cũng phụ thuộc nhiều vào tính chất riêng của dữ liệu. Tất cả các phương pháp được đề
xuất ở trên đều thực hiện cho dữ liệu rời rạc. Theo sự hiểu biết của chúng tôi, mô hình phân loại cho
hàm mật độ xác suất chưa được quan tâm và đề xuất từ các nhà nghiên cứu.
Phân loại ảnh là việc xác định nhãn cho ảnh từ mô hình phân loại được xây dựng dựa vào tập huấn
luyện. Việc xác định nhãn của ảnh từ mô hình huấn luyện thường được thực hiện qua hai bước: trích
xuất đặc trưng ảnh và xây dựng mô hình phân loại cụ thể từ các đặc trưng được trích xuất này. Trích
xuất ảnh là bước đầu tiên rất quan trọng để thực hiện bài toán phân loại. Việc trích xuất ảnh được xem
là tối ưu nếu nó đặc trưng được cho ảnh, dễ nhận dạng và giảm chi phí tính toán. Một ảnh thông
thường được trích xuất dựa vào đặc trưng màu sắc, kết cấu, hình dạng (Vijaya et al., 2016). Mặc dù có
nhiều thảo luận về vấn đề này nhưng cho đến nay chưa một đặc trưng nào được xem là tối ưu cho tất cả
các trường hợp. Khi các đặc trưng được trích xuất, để áp dụng vào bài toán phân loại chúng ta phải
chọn lựa phần tử đại diện cho ảnh. Việc chọn lựa này rất quan trọng bởi vì nhận dạng ảnh chính là
nhận dạng các phần tử đại diện này. Hiện nay các đối tượng chính được sử dụng để đại diện cho ảnh là
các phần tử rời rạc, hàm mật độ xác suất và khoảng (Haraclick, 1979; Erbug and Adil, 2000; Hiremath
et al., 2007; Tan et al. 2011; Park et al. 2014). Các tác giả Garg et al. (2021) đã kết hợp ma trận đồng
hiện mức xám (GLCM) nhằm giảm chiều và trích xuất đặc trưng kết cấu để tạo dữ liệu rời rạc cho bài
toán phân loại ảnh. Ha và cộng sự (2020) đã sử dụng hàm cực đại của các hàm mật độ xác suất được
xây dựng từ trích xuất đặc trưng ảnh cho bài toán nhận diện gương mặt. Mỗi loại trích xuất này đều có
những ưu điểm riêng cho những trường hợp cụ thể, chưa có kiểu trích xuất nào được xem là tối ưu cho
mọi trường hợp (Zhang et al., 2018). Mặc dù việc trích xuất ảnh thành hàm mật độ xác suất để thực
hiện bài toán phân tích chùm đã được một số nghiên cứu gần đây thực hiện [], tuy nhiên sử dụng cho
bài toán phân loại vẫn chưa được xem xét.
Tài liệu tham khảo

1. Erbug C., Adil A. (2000). Clustering of texture features for content-based image retrieval.
Lecture Notes in Computer Science, 1909, 216-225.
2. Cristianini N. (2000). An introduction to support vector machines and other kernel-based
learning methods, Cambridge University press.
3. Fisher, R. A. (1938) The statistical utilization of multiple measurements, Annals of Eugenics, 8,
376–386.
4. Garg M. and Gaurav D. (2021). A novel content-based image retrieval approach for
classification using GLCM features, and texture fused LBP variants. Neural Computing and
Applications, 33, 1311-1328.
5. Ha C. N., Thao N. T., Tran N. B., Trung N. T., Tai V. V. (2020). A new approach for face
detection using the maximum function of probability density functions. Annals of Operations
Research, https://doi.org/10.1007/s10479-020-03823-1.
6. Huang, S., N. Cai, P. P. Pacheco, S. Narrandes, Y. Wang, W. Xu. (2018). Applications of
support vector machine (SVM) learning in cancer geometrics. Cancer Genomics-Proteomics,
15, 41–51.
7. Haraclick R. M. (1979). Statistical and structural approaches to texture. Proceedings of the
IEEE, 67, 786–804.
8. Kung, J. Y., Wu C. Hsu C., Lee S. Y. S., Yang C. W. (2010). Application of logistic regression
analysis of home mortgage loan prepayment and default risk. ICIC Express Letters, 4, 325–331.
9. Miller G., Inkret W., Little T., Martz H., Schillaci M. (2001). Bayesian prior probability
distributions for internal dosimetry. Radiation Protection Dosimetry, 94, 347–352.
10. Nhu V. H., Zandi D., Shahabi H., Chapi K., Shirzadi A., Al-Ansari N., Singh S. K., Dou J.,
Nguyen, H. (2020). Comparison of support vector machine, Bayesian logistic regression, and
alternating decision tree algorithms for shallow landslide susceptibility mapping along a
mountainous road in the west of Iran. Applied Sciences, 10, 5047.
11. Pham-Gia T., Turkkan N., Bekker A. (2007). Bounds for the Bayes error in classification: a
bayesian approach using discriminant analysis. Statistical Methods and Applications, 16, 7–26.
12. Pham B.T., Pradhan B., Bui D. T., Prakash I., Dholakia M. (2016). A comparative study of
different machine learning methods for landslide susceptibility assessment: A case study of
uttarakhand area (India). Environmental Modelling & Software, 84, 240–250.
13. Pham-Gia T., Turkkan N., Vovan T. (2008). Statistical discrimination analysis using the
maximum function. Communications in Statistics – Simulation and Computation, 37, 320–336.
14. Tan, W. R., Chan, C. S., Yogarajah, P., Condell, J. (2011). A fusion approach for efficient
human skin detection, IEEE Transactions on Industrial Infor- matics, 8, 138 – 147.
15. Zhao, D., Liu, H., Zheng, Y., He, Y., Lu, D., Lyu, C. (2019). A reliable method for colorectal
cancer prediction based on feature selection and support vector machine. Medical & Biological
Engineering & Computing, 57, 901–912.
16. Zhang, N., Ruan, S., Lebonvallet, S., Liao, Q., Zhu, Y. (2018). Kernel feature selection to fuse
multi-spectral MRI images for brain tumor segmentation. Computer Vision and Image
Understanding, 155, 256–269.
17. Chen J, Shan S, He C et al. (2009) Wld: Arobust local image descriptor. IEEE transactions on
pattern analysis and machine intelligence 32(9): 1705–1720
18. Hiremath P, Pujari J (2007) Content based image retrieval based on color, texture and shape
features using image and its complement. Int J of Computer Science and Security 1(4): 25–35
19. Park S., Lee J. W., Kim S. K. (2014). Content-based image classification using a neural
network. Pattern Recognition Letters, 25.3: 287-300.
20. Vijaya L. Balasub R., Mohan V. (2016). Kernel-based PSO and FRVM: An automatic plant
leaf type detection using texture, shape, and color features. Computers and Electronics in
Agriculture, 125: 99-112.
21. Yang, B., Hu, S., Guo, Q., Hong, D. (2022). Multisource domain transfer learning based on
spectral projections for hyperspectral image classification. IEEE Journal of Selected Topics in
Applied Earth Observations and Remote Sensing, 15: 3730-3739
10.1. Trong nước
Về lý thuyết, bài toán phân loại chủ yếu được phát triển bởi phương pháp Bayes dựa trên việc cải
tiến xác suất tiên nghiệm và ước lượng hàm mật độ xác suất với các công trình tiêu biểu là (Tai, 2017;
Tai et al., 2018; Tai, 2019; Thao and Tai, 2017; Tai et al., 2021). Một số nghiên cứu cũng đề cập đến
việc trích xuất ảnh thành dữ liệu rời rạc hoặc khoảng dựa trên màu sắc hoặc ma trận đồng hiện mức
xám để thực hiện bài toán phân tích chùm (Dinh et al., 2021; Ngoc et al., 2021).
Về ứng dụng, có nhiều ứng dụng cụ thể được thực hiện dựa trên các phương pháp phân loại phổ
biến và các phần mềm có sẵn để thực hiện. Vương Qưân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu
(2008), Tai (2017) đã áp dụng bài toán phân loại trong kinh tế. Một số tác giả khác cũng đã áp dụng bài
toán phân loại trong y học, trong ngân hàng và trong nhận dạng ảnh (Nghi, 2015; Tai 2017). Chúng tôi
cũng chưa tìm thấy ứng dụng phân loại ảnh dựa vào hàm mật độ xác suất được trích xuất.
Tài liệu tham khảo
1. Vương Quân Hoàng, Đào Gia Hưng, Nguyễn Văn Hữu (2008), Phương pháp thống kê xây
dựng mô hình định mức tín nhiệm khách hàng thế nhân, Tạp chí ứng dụng toán học 4(2): 1-16.
2. Dinh P. T., Khanh N. H., Tai V. V. (2021). Fuzzy clustering algorithm for outlier-interval data
based on the robust exponent distance. Applied Intelligence. https://doi.org/10.1007/s10489-
021-02773-
3. Đổng Yến Nghi (2015). Một số ứng dụng của bài toán phân loại trong y học. Đề tài cấp cơ sở.
Trường Đại học Cần Thơ.
4. Ngoc L. T. K., Tuan, L. H., Tai V. V. (2021). Automatic clustering algorithm for interval data
based on overlap distance. Communications in Statistics - Simulation and Computation.
https://doi.org//10.1080/03610918.2021.1900248
5. Tai, V.V. (2017). L1 – distance and classification problem by Bayesian method. Journal of
Applied Statistics, 44, 385–401.
6. Tai V.V., Loc, T.P., Ha, C.N. (2018). Classifying two populations by Bayesian method and
applications. Communications in Mathematics and Statistics, 7, 141 – 161.
7. Tai, V.V. (2019). Some results of classification problem by Bayesian method and application in
credit operation. Statistical Theory and Related Fields, 2, 150 – 157.
8. Tai V. V., Ha C. N., Thao N. T. (2021). A New Strategy for Short-Term Stock Investment
Using Bayesian Approach. Computational Economics, 1-25
9. Thao, N. T., Tai, V. V. (2017). A new approach for determining the prior probabilities in the
classification problem by Bayesian method. Advances in Data Analysis and Classification, 11,
629–643.
10. Võ Văn Tài (2017) Phân loại bằng phương pháp Bayes và bài toán đánh giá khả năng trả nợ
vay ngân hàng. Tạp chí Ứng dụng toán học, 10(2): 25-43.
11. Võ Văn Tài, Nguyễn Trang Thảo, Chế Ngọc Hà (2017). Nhận dạng kết cấu bề mặt của các hình
ảnh bằng phương pháp phân loại Bayes. Tạp chí Ứng dụng toán học 10(2): 85-97.
10.3. Danh mục các công trình đã công bố thuộc lĩnh vực của đề tài của chủ nhiệm và những thành
viên tham gia nghiên cứu
a) Của chủ nhiệm đề tài
Không
b) Của các thành viên tham gia nghiên cứu
Không
11. TÍNH CẤP THIẾT CỦA ĐỀ TÀI
Từ các phân tích trên ta có thể khẳng định rằng phân loại là bài toán chưa có lời giải cuối cùng. Vì nó
là nền tảng cho cách mạng số, trí tuệ nhân tạo nên được rất nhiều nhà thống kê, khoa học dữ liệu và
công nghệ thông tin quan tâm. Hiện có rất nhiều phương pháp theo hướng thống kê, học máy và học
sâu được cải tiến liên tục các năm qua, tuy nhiên còn rất nhiều khe hở cần phải giải quyết. Cụ thể bài
toán phân loại hàm mật độ xác suất và ứng dụng cho dữ liệu ảnh vẫn chưa được quan tâm. Phân loại
cho đối tượng này hứa hẹn tiềm năng mở rộng lý thuyết và tăng hiệu quả ứng dụng thực tế. Cụ thể các
vấn đề sau cần được phát triển:
- Cải tiến việc tìm xác suất tiên nghiệm dựa vào kỹ thuật phân tích chùm mờ cho PDF, tìm kiếm
một độ đo thích hợp đánh giá sự tương tự của của một phần tử được phân loại với các nhóm đã
cho, từ đó đề xuất một nguyên tắc phân loại mà nó có ưu điểm hơn các phương pháp khác qua
các tiêu chuẩn đánh giá trên nhiều tập dữ liệu đối chứng.
- Ứng dụng phương pháp phân loại đề nghị cho dữ liệu ảnh khi các đặc trưng của chúng được đại
diện bởi các PDF. So sánh sự hiệu quả của thuật toán phân loại đề nghị với các thuật toán khác
của thống kê truyền thống, học máy, học sâu trên những tập dữ liệu ảnh lớn của y học, kinh tế
và môi trường.
Đề tài thực hiện có thể đóng góp thêm về mặt lý thuyết cho bài toán phân loại và có thể cải tiến kết quả
phân loại cho một số trường hợp cụ thể. Ngoài các ứng dụng trong y học của đề tài, kết quả nghiên cứu
này có thể áp dụng cho nhiều lĩnh vực khác được đòi hỏi ngày nay trong sự phát triển kinh tế của đất
nước.
12. MỤC TIÊU ĐỀ TÀI
- Đề nghị thuật toán phân loại cho hàm mật độ xác suất dựa trên sự cải tiến phương pháp tìm xác suất
tiên nghiệm, độ đo đánh giá sự tương tự và phương pháp Bayes.
- Ứng dụng thuật toán đề nghị cho dữ liệu ảnh có hiệu quả hơn một số thuật toán phổ biến cho một số
trường hợp cụ thể.
13. ĐỐI TƯỢNG, PHẠM VI NGHIÊN CỨU
13.1. Đối tượng nghiên cứu
- Bài toán phân loại.
- Ứng dụng của bài toán phân loại.
13.2. Phạm vi nghiên cứu
- Thuật toán phân loại dành cho đối tượng là hàm mật độ xác suất.
- Dữ liệu ảnh và dữ liệu số thứ cấp trong lĩnh vực y học được lấy từ các nguồn được phép.
14. CÁCH TIẾP CẬN, PHƯƠNG PHÁP NGHIÊN CỨU
14.1. Cách tiếp cận
Nghiên cứu lý thuyết – thử nghiệm – ứng dụng
- Sử dụng ma trận đồng hiện để trích xuất đặc trưng ảnh, ước lượng hàm mật độ xác suất theo phương
pháp hàm hạt nhân và Copula để tìm hàm mật độ biểu diễn cho một ảnh.
- Sử dụng công cụ phân tích chùm mờ để tìm xác suất tiên nghiệm, kết hợp phương pháp Bayes và bài
toán phân tích chùm để đề xuất thuật toán phân loại.
14.2. Phương pháp nghiên cứu
- Tổng hợp tài liệu gần đây về các phương pháp phân loại cho dữ liệu ảnh, phân tích hạn chế của
các phương pháp này. Nghiên cứu trước trường hợp một chiều, dữ liệu nhỏ để mở rộng cho trường hợp
nhiều chiều với số lượng dữ liệu lớn.
- Sử dụng phần mềm Matlab thực hiện việc lập trình và tính toán.
- Sử dụng các metric đánh giá mô hình phân loại để lựa chọn mô hình phù hợp nhất.
15. NỘI DUNG NGHIÊN CỨU VÀ TIẾN ĐỘ THỰC HIỆN
15.1. Nội dung nghiên cứu:
Nội dung 1. Phân tích các phương pháp phân loại bổ biến
1.1. Tổng kết các phương pháp phân loại từ thống kê.
1.2. Tổng kết các phương pháp phân loại dựa vào học máy và học sâu
1.3. Nhận xét và so sánh các ưu điểm và nhược điểm của các phương pháp trong áp dụng
thực tế
Nội dung 2. Nghiên cứu thuật toán phân loại cho hàm mật độ xác suất
2.1. Phân tích các độ đo trong đánh giá sự tương tự của hai và nhiều hơn hai hàm mật độ xác
suất.
2.2. Đề xuất phương pháp xác định hàm mật độ xác suất đại diện của một nhóm và độ đo
đánh giá sự tương tự của một PDF với một nhóm.
2.3. Tổng kết các phương pháp tìm xác suất tiên nghiệm đã tồn tại cho dữ liệu rời rạc từ đó
đề xuất thuật toán tìm xác suất tiên nghiệm cho PDF
2.4. Đề xuất thuật toán phân loại cho 1 PDF dựa vào Nội dung 2.3 và nguyên tắc phân loại
Bayes.
2.5. Giải quyết một số vấn đề liên quan đến thuật toán đề nghị như sự hội tụ, vấn đề tính
toán.
2.6. Thực hiện ví dụ số minh hoạ cho thuật toán đề nghị và một số ứng dụng cụ thể.
Nội dung 3. Nghiên cứu thuật toán phân loại ảnh dựa vào hàm mật độ xác suất đại diện
3.1. Phân tích các phương pháp tham số và phi tham số trong ước lượng PDF, các phương
pháp dựa trên sự độc lập và phụ thuộc giữa các biến.
3.2. Phân tích các phương pháp trích xuất đặc trưng của ảnh dựa vào màu sắc, kết cấu và
hình dạng, từ đó đề xuất một PDF hoặc nhiều PDF đại diện cho 1 ảnh.
3.3. Đề xuất thuật toán nhận dạng ảnh từ Nội dung 2 và Mục 3.2.
3.4. Phân tích vấn đề tính toán và viết code cho thuật toán đề nghị
3.5. Thực hiện một ví dụ chi tiết cho thuật toán phân loại ảnh đề nghị
Nội dung 4. Một số ứng dụng trong y học
4.1. Khảo sát các metric đánh giá hiệu quả của các phương pháp phân loại.
4.2. Thực hiện trên các tập dữ liệu ảnh cụ thể:
- Chia mỗi tập dữ liệu thành 2 phần: Tập huấn luyện và tập kiểm tra với tỷ lệ lần lượt là
80% và 20%.
- Sử dụng tập huấn luyện để xây dựng mô hình đề nghị và các mô hình được so sánh.
- So sánh các mô hình thực hiện cho dữ liệu của tập kiểm tra qua các metric đánh giá.
4.3. Thực hiện một số phân loại cụ thể cho các tập dữ liệu ảnh y học, đánh giá tiềm năng và
khả năng ứng dụng trong thực tế.
15.2. Tiến độ thực hiện
Các nội dung, công việc Sản phẩm Thời gian Người thực hiện và
STT thực hiện (bắt đầu-kết thúc) số ngày thực hiện
1. Nội dung 1. Phân tích các phương pháp phân loại phổ biến
1.1 Tổng kết các phương pháp phân Báo cáo phân 01/3/2024 – Trần Nguyễn Kim
loại từ thống kê tích 10/3/2024 Ngân
(2 ngày)
Lê Đông Phương
(2 ngày)
Trần Nguyễn Kim
1.2 Tổng kết các phương pháp phân Báo cáo phân 11/3/2024 –
Ngân
loại dựa vào học máy và học sâu tích 20/3/2024
(2 ngày)
Lê Đông Phương
(2 ngày)
Trần Nguyễn Kim
1.3 Nhận xét và so sánh các ưu điểm Bảng nhận xét 21/3/2024 –
Ngân
và nhược điểm của các phương và đánh giá 30/3/2024
(2 ngày)
pháp trong áp dụng thực tế Lê Đông Phương
(2 ngày
Nội dung 2. Nghiên cứu thuật toán phân loại cho hàm mật độ xác suất
2.
Trần Nguyễn Kim
2.1 Phân tích các độ đo trong đánh Báo cáo phân 01/4/2024 –
Ngân
giá sự tương tự của hai và nhiều tích 10/4/2024
(2 ngày)
hơn hai hàm mật độ xác suất. Lê Đông Phương
(2 ngày
Trần Nguyễn Kim
2.2 Đề xuất phương pháp xác định Biểu thức về 11/4/2024 –
Ngân
hàm mật độ xác suất đại diện của PDF đại diện 20/4/2024
(2 ngày)
Lê Đông Phương
một nhóm và độ đo đánh giá sự cho một nhóm
(2 ngày
tương tự của một PDF với một và các độ đo
nhóm. giữa hai PDF.
Trần Nguyễn Kim
2.3 Tổng kết các phương pháp tìm Thuật toán tìm 21/4/2024 –
Ngân
xác suất tiên nghiệm đã tồn tại xác suất tiên 30/4/2024
(2 ngày)
cho dữ liệu rời rạc từ đó đề xuất nghiệm Lê Đông Phương
thuật toán tìm xác suất tiên (2 ngày
nghiệm cho PDF
Trần Nguyễn Kim
Đề xuất thuật toán phân loại cho Thuật toán 01/5/2024 –
Ngân
1 PDF dựa vào Nội dung 2.3 và phân loại cho 10/5/2024
(2 ngày)
nguyên tắc phân loại Bayes. PDF Lê Đông Phương
(2 ngày
Trần Nguyễn Kim
2.4 Giải quyết một số vấn đề liên Code Matlab 11/5/2024 –
Ngân
quan đến thuật toán đề nghị như 20/5/2024
(2 ngày)
sự hội tụ, vấn đề tính toán. Lê Đông Phương
(2 ngày
Trần Nguyễn Kim
2.5 Thực hiện ví dụ số minh hoạ cho Các bước cụ 21/5/2024 –
Ngân
thuật toán đề nghị và một số ứng thể trong phân 30/5/2024
(2 ngày)
dụng cụ thể. loại cho một Lê Đông Phương
ví dụ số (2 ngày
Nội dung 3. Nghiên cứu thuật toán phân loại ảnh dựa vào hàm mật độ xác suất đại diện
3
Nguyễn Thị Anh
3.1 Phân tích các phương pháp tham Phương pháp 01/6/2024 –
Thư
số và phi tham số trong ước ước lượng 10/6/2024
(2 ngày)
lượng PDF, các phương pháp PDF Lê Thanh Tâm
dựa trên sự độc lập và phụ thuộc (2 ngày)
giữa các biến.
Nguyễn Thị Anh
3.2 Phân tích các phương pháp trích Phương pháp 11/6/2024 –
Thư
xuất đặc trưng của ảnh dựa vào ước lượng 20/3/2024
(2 ngày)
màu sắc, kết cấu và hình dạng, PDF đại diện Lê Thanh Tâm
từ đó đề xuất một PDF hoặc cho một ảnh (2 ngày)
nhiều PDF đại diện cho 1 ảnh.
Nguyễn Thị Anh
3.3 Đề xuất thuật toán nhận dạng Thuật toán 21/6/2024 –
Thư
ảnh từ Nội dung 2 và Mục 3.2. phân loại ảnh 30/6/2024
(2 ngày)
Lê Thanh Tâm
(2 ngày)
Nguyễn Thị Anh
3.4 Phân tích vấn đề tính toán và Code Matlab 01/7/2024 –
Thư
viết code cho thuật toán đề nghị 10/7/2024
(2 ngày)
Lê Thanh Tâm
(2 ngày)
Nguyễn Thị Anh
3.5 Thực hiện một ví dụ chi tiết cho Một ví dụ 11/7/2024 –
Thư
thuật toán phân loại ảnh đề nghị phân loại ảnh 20/7/2024
(2 ngày)
cụ thể
Lê Thanh Tâm
(2 ngày)
4 Nội dung 4. Một số ứng dụng trong y học
Nguyễn Thị Anh
4.1 Khảo sát các metric đánh giá Biểu thức cho 21/7/2024 –
Thư
hiệu quả của các phương pháp metric đánh 30/7/2024
(2 ngày)
phân loại. giá của các Lê Thanh Tâm
phương pháp (2 ngày)
phân loại.
Nguyễn Thị Anh
4.2 Thực Thực hiện trên các tập dữ Các bước cụ 01/8/2024 –
Thư
liệu ảnh cụ thể: thể tiến hành 10/8/2024
(2 ngày)
- Chia mỗi tập dữ liệu thành 2 thực hiện Lê Thanh Tâm
trong ứng (2 ngày)
phần: Tập huấn luyện và tập
kiểm tra với tỷ lệ lần lượt là dụng cho các
tập dữ liệu
80% và 20%.
ảnh.
- Sử dụng tập huấn luyện để xây
dựng mô hình đề nghị và các mô
hình được so sánh.
- So sánh các mô hình thực hiện
cho dữ liệu của tập kiểm tra qua
các metric đánh giá.
Nguyễn Thị Anh
4.3 Thực hiện một số phân loại cụ Metric đánh 11/8/2024 –
Thư
thể cho các tập dữ liệu ảnh y giá cụ thể của 20/8/2024
(2 ngày)
học, đánh giá tiềm năng và khả các phương Lê Thanh Tâm
năng ứng dụng trong thực tế. pháp trên các (2 ngày)
ứng dụng.
5 Nội dung 5: Viết báo cáo phân tích đề tài
Trần Nguyễn Kim
5.1 Viết báo cáo phân tích tổng kết Báo cáo phân 21/8/2024 – Ngân
và nghiệm thu đề tài tích của đề tài 30/8/2024 (5 ngày)
16. SẢN PHẨM
Yêu cầu chất lượng sản phẩm
(mô tả chi tiết chất lượng sản phẩm
Stt Tên sản phẩm Số lượng đạt được như nội dung, hình thức,
các chỉ tiêu, thông số kỹ thuật,...)
I Xuất bản phẩm (Các công trình khoa học sẽ được công bố: sách, bài báo khoa học...)
Tạp chí thuộc danh mục của Hội
1.1 Bài báo khoa học trong nước 01
đồng Giáo sư Nhà nước
II Sản phẩm đào tạo (Luận văn tốt nghiệp đại học):
Hỗ trợ luận văn đại học theo hướng
2.1 Luận văn đại học 02
nghiên cứu của đề tài
III Sản phẩm khoa học và công nghệ: Không
IV. Sản phẩm theo quy định của
Trường Đại học Cần Thơ
Theo đúng quy định của Trường Đại
4.1 Bản tin 01
học Cần Thơ
Theo đúng quy định của Trường Đại
4.2 Báo cáo tóm tắt 01
học Cần Thơ
Tối đa 02 phút. Đầy đủ thông tin
4.3 Video clips 01
trọng tâm của đề tài.
17. PHƯƠNG THỨC CHUYỂN GIAO KẾT QUẢ NGHIÊN CỨU VÀ ĐỊA CHỈ ỨNG DỤNG
17.1. Phương thức chuyển giao
Công bố kết quả nghiên cứu trên 1 bài báo khoa học, báo cáo phân tích sẽ được lưu trữ tại Bộ
môn Toán Khoa Khoa học Tự nhiên, Trường Đại học Cần Thơ như một tài liệu tham khảo.
17.2. Địa chỉ ứng dụng
Bộ môn Toán thuộc Khoa Khoa học Tự nhiên
18. TÁC ĐỘNG VÀ LỢI ÍCH MANG LẠI CỦA KẾT QUẢ NGHIÊN CỨU
18.1. Đối với lĩnh vực giáo dục và đào tạo
- Báo cáo đề tài sẽ là tài liệu tham khảo cho các giảng viên giảng dạy môn Nhận dạng và phân
tích chùm, Thống kê Bayes.
- Tài liệu để các sinh viên ngành Thống kê và Toán ứng sử dụng cho học tập và xây dựng cơ sở lý
thuyết cho luận văn tốt nghiệp.
18.2. Đối với lĩnh vực khoa học và công nghệ có liên quan
Kết quả nghiên cứu có thể tiếp tục phát triển để áp dụng cho nhiều vấn đề thực tế khác nhau liên
quan đến nhận dạng ảnh
18.3. Đối với phát triển kinh tế-xã hội
Góp phần phát triển hướng nghiên cứu về nhận dạng và phân loại hình ảnh không chỉ trong nội
tại Toán học mà được ứng dụng đa ngành, đa thiết bị thông minh vốn đang là một nền tảng quan trọng
không thể thiếu của cách mạng số hiện nay.
18.4. Đối với tổ chức chủ trì và các cơ sở ứng dụng kết quả nghiên cứu
- Đề tài góp phần khuyến khích phong trào nghiên cứu khoa học của sinh viên ngành Thống kê và
Toán ứng dụng có thể áp dụng kiến thức đã được học trong chương trình đào tạo nói chung và phân
môn thống kê nói riêng.
- Góp phần nâng cao chất lượng chất lượng đào tạo ngành Thống kê và Toán ứng của Trường Đại
học Cần Thơ.
19. KINH PHÍ THỰC HIỆN ĐỀ TÀI VÀ NGUỒN KINH PHÍ
Kinh phí thực hiện đề tài: 15 000 000 đồng.
Trong đó:
Kinh phí Trường cấp: 15 000 000 đồng.
Các nguồn khác: 0 đồng.
Đơn vị tính: đồng
Nguồn kinh phí
Stt Khoản chi, nội dung chi Tổng kinh phí Kinh phí Các nguồn
Trường cấp khác
1 Chi mua vật tư, nguyên, nhiên, vật liệu 0 0 0
2 Chi tiền công lao động trực tiếp 11.730.000 11.100.000 0
3 Chi văn phòng, phẩm, thông tin liên lạc, in ấn 545.000 425.000 0
4 Chi họp hội đồng đánh giá, nghiệm thu 2.725.000 2.725.000 0
Tổng cộng 750.000 750.000 0
15.000.000 15.000.000 0
Ngày 05 tháng 9 năm 2023
KHOA KHOA HỌC TỰ NHIÊN CÁN BỘ HƯỚNG DẪN CHỦ NHIỆM ĐỀ TÀI
Võ văn Tài Trần Nguyễn Kim Ngân
TL.HIỆU TRƯỞNG
TRƯỞNG PHÒNG QUẢN LÝ KHOA HỌC

Thuyết Minh Kim Ngan 2024

Uploaded by

Document Information

Original Title

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Thuyết Minh Kim Ngan 2024

Uploaded by

Copyright:

Available Formats

THUYẾT MINH ĐỀ TÀI

NGHIÊN CỨU KHOA HỌC CẤP CƠ SỞ

Tài liệu tham khảo

Ngày 05 tháng 9 năm 2023

Võ văn Tài Trần Nguyễn Kim Ngân

You might also like