Professional Documents
Culture Documents
Do An Tot Nghiep D11CNPM
Do An Tot Nghiep D11CNPM
ĐỒ ÁN TỐT NGHIỆP
ĐỀ TÀI: ÁP DỤNG PHẢN HỒI LIÊN QUAN TRONG
NÂNG CAO CHẤT LƯỢNG TRA CỨU ẢNH DỰA VÀO NỘI
DUNG
0
PHIẾU CHẤM ĐIỂM
1
Mục lục
LỜI CAM ĐOAN..........................................................................................4
Lời cảm ơn....................................................................................................5
Lời nói đầu....................................................................................................6
Chương 1. Tổng quan về tra cứu ảnh dựa vào nội dung...............................8
1.1. Bài toán tra cứu ảnh.........................................................................8
1.2. Các đặc trưng trong tra cứu ảnh......................................................9
1.2.1. Đặc trưng màu sắc.....................................................................9
1.2.2. Đặc trưng kết cấu....................................................................11
1.2.3. Đặc trưng hình dạng................................................................12
1.2.4. Đặc trưng không gian..............................................................12
1.3. Các độ đo sử dụng trong tra cứu ảnh.............................................14
1.3.1. Khoảng cách Minkoski...........................................................14
1.3.2. Khoảng cách Mahalanobis:.....................................................14
1.3.3. Khoảng cách Cosine................................................................15
1.3.4. Khoảng cách Kullback-Leibler và Jeffrey divergence............15
1.3.5. Khoảng cách Hamming...........................................................15
1.3.6. Khoảng cách Earth Mover......................................................16
1.3.7. Khoảng cách Euclid................................................................17
1.4. Kết luận chương 1.........................................................................18
Chương 2. Phản hồi liên quan và ứng dụng trong tra cứu ảnh dựa vào nội
dung.....................................................................................................................19
2.1. Tra cứu khởi tạo...............................................................................21
2.2. Chiến lược phản hồi liên quan.........................................................23
2.3. Ứng dụng phản hồi liên quan trong tra cứu ảnh dựa vào nội dung..25
2
2.4. Kết luận chương 2............................................................................25
Chương 3. Cài đặt và đánh giá hệ thống.....................................................26
3.1. Môi trường thực nghiệm..................................................................26
3.2. Giao diện hệ thống...........................................................................26
3.3. Đánh giá và kết quả thực nghiệm.....................................................27
3.4. Kết luận chương 3............................................................................27
Kết luận và hướng nghiên cứu trong tương lai...........................................28
1. Kết quả đạt được...............................................................................28
2. Những hạn chế và hướng phát triển.................................................28
3. Kết luận............................................................................................28
Tài liệu tham khảo.......................................................................................29
Hình 1.1. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung.........................9
Hình 2.1. Mô hình hoạt động hệ thống tra cứu ứng dụng phản hồi liên quan.
.............................................................................................................................20
3
LỜI CAM ĐOAN
Tôi xin cam đoan đồ án “Áp dụng phản hồi liên quan trong nâng cao
chất lượng tra cứu ảnh dựa vào nội dung” là do chính tôi thực hiện dưới sự
hướng dẫn của giảng viên hướng dẫn ThS Phương Văn Cảnh
Tất cả những tham khảo từ các nghiên cứu liên quan đều được nêu nguồn
gốc một cách rõ ràng từ danh mục tài liệu tham khảo trong đồ án. Trong đồ án,
không có việc sử dụng tài liệu, công trình nghiên cứu của người khác mà không
chỉ rõ về tài liệu tham khảo. Các chương trình thực nghiệm đều là do tôi thực
hiện mà có được, không sao chép từ bất cứ nguồn nào.
4
Lời cảm ơn
Trong lời đầu tiên của báo cáo đồ án tốt nghiệp “Áp dụng phản hồi liên
quan trong nâng cao chất lượng tra cứu ảnh dựa vào nội dung” này, em
muốn gửi những lời cám ơn và biết ơn chân thành nhất của mình tới tất cả
những người đã hỗ trợ, giúp đỡ em về kiến thức và tinh thần trong quá trình thực
hiện đồ án.
Trước hết, em xin chân thành cám ơn Thầy Giáo - Ths. Phương Văn Cảnh,
Giảng viên Khoa Công Nghệ Thông Tin, Trường Đại học Điện Lực, người đã
trực tiếp hướng dẫn, nhận xét, giúp đỡ em trong suốt quá trình thực hiện đồ án.
Xin chân thành cảm ơn các thầy cô trong Khoa Công Nghệ Thông Tin và
các phòng ban nhà trường đã tạo điều kiện tốt nhất cho em cũng như các bạn
khác trong suốt thời gian học tập và làm tốt nghiệp.
Cuối cùng em xin gửi lời cảm ơn đến gia đình, bạn bè, người thân đã giúp
đỡ động viên em rất nhiều trong quá trình học tập và làm Đồ án Tốt Nghiệp.
Do thời gian thực hiện có hạn, kiến thức còn nhiều hạn chế nên Đồ án thực
hiện chắc chắn không tránh khỏi những thiếu sót nhất định. Em rất mong nhận
được ý kiến đóng góp của thầy cô giáo và các bạn để em có thêm kinh nghiệm
và tiếp tục hoàn thiện đồ án của mình.
Em xin chân thành cảm ơn!
Sinh viên thực hiện
Kiên
Nguyễn Trọng Kiên
5
Lời nói đầu
Ngày nay, lĩnh vực tra cứu ảnh nhận được sự quan tâm ngày càng lớn. Lý
do một phần là sự phát triển của công nghệ chế tạo thiết bị thu nhận và lưu trữ
ảnh cũng như sự phát triển mạnh mẽ của mạng Internet. Người sử dụng trong
nhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các kho lưu trữ ảnh
thuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau.
Phương pháp tra cứu ảnh theo nội dung (Content-Based Image Retrieval)
sử dụng các nội dung trực quan của ảnh như màu sắc, hình dạng, kết cấu
(texture) và phân bố không gian để thể hiện và đánh chỉ số các ảnh. Trong một
hệ thống tra cứu ảnh theo nội dung điển hình các nội dung trực quan của ảnh
được trích chọn và mô tả bằng những véctơ đặc trưng nhiều chiều.
Tập hợp các véctơ đặc trưng của các ảnh trong một cơ sở dữ liệu ảnh tạo
thành cơ sở dữ liệu đặc trưng. Hệ thống sẽ chuyển những mẫu này thành các véc
tơ đặc trưng và tính toán sự giống nhau (hay độ tương tự) giữa véc tơ đặc trưng
của ảnh mẫu và véc tơ đặc trưng của các ảnh trong cơ sở dữ liệu. Sau cùng việc
tra cứu được tiến hành với sự trợ giúp của các sơ đồ đánh chỉ số. Sử dụng sơ đồ
đánh chỉ số là cách hiệu quả để tìm kiếm trong các cơ sở dữ liệu ảnh.
Cấu trúc đề tài:
Chương 1. Tổng quan về tra cứu ảnh dựa vào nội dung.
1.1. Bài toán tra cứu ảnh.
1.2. Các đặc trưng trong tra cứu ảnh.
1.3. Các độ đo sử dụng trong tra cứu ảnh.
1.4. Kết luận chương 1.
Chương 2. Phản hồi liên quan và ứng dụng trong tra cứu ảnh dựa vào
nội dung.
2.1. Tra cứu khởi tạo.
2.2. Chiến lược phản hồi liên quan.
2.3. Ứng dụng phản hồi liên quan trong tra cứu ảnh dựa vào nội dung.
6
2.4. Kết luận chương 2.
Chương 3. Cài đặt và đánh giá hệ thống.
3.1. Môi trường thực nghiệm.
3.2. Giao diện hệ thống.
3.3. Đánh gia và kết quả thực nghiệm
3.4. Kết luận chương 3.
Kết luận và hướng nghiên cứu trong tương lai.
- Những kết quả đạt được.
- Những hạn chế và hướng phát triển.
- Kết luận.
7
Chương 1. Tổng quan về tra cứu ảnh dựa vào nội dung.
1.1. Bài toán tra cứu ảnh.
Ngày nay, lĩnh vực tra cứu ảnh nhận được sự quan tâm ngày càng lớn. Lý
do một phần là sự phát triển của công nghệ chế tạo thiết bị thu nhận và lưu trữ
ảnh cũng như sự phát triển mạnh mẽ của mạng Internet. Người sử dụng trong
nhiều lĩnh vực khác nhau có cơ hội để truy cập và sử dụng các kho lưu trữ ảnh
thuộc đủ loại chủ đề và với nhiều kiểu định dạng ảnh khác nhau.
Các dạng nguồn đa phương tiện khác nhau (văn bản, tiếng nói, ảnh, video)
đang tăng lên nhanh chóng, chẳng hạn dữ liệu được trực quan trong các điện
thoại thông minh, các ứng dụng 2D/3D, nội dung web... Thế giới đang chứng
kiến một sự tiến hóa về lượng, sự sẵn có, độ phức tạp, sự đa dạng và sự quan
trọng của các ảnh trong tất cả các lĩnh vực.
Nhu cầu về các dịch vụ ảnh trở nên quan trọng hơn bao giờ hết. Các ảnh
đóng một vai trò quan trọng trong một phạm vi rộng các ứng dụng và các lĩnh
vực như giáo dục, chăm sóc y tế, dự báo thời tiết, nghiên cứu về tội phạm, quảng
cáo, thiết kế nghệ thuật, web, phương tiện xã hội và giải trí. Tuy nhiên, phương
tiện trực quan yêu cầu một lượng xử lý và lưu trữ đáng kể, cần có các phương
pháp hiệu quả cao để đánh chỉ số, lưu trữ, phân tích và tra cứu thông tin trực
quan từ các cơ sở dữ liệu ảnh. Do đó, tra cứu các ảnh nhanh, chính xác và hiệu
quả cho tất cả các loại tập ảnh trở thành một trong những nhiệm vụ thách thức
nhất.
CBIR là một ứng dụng của các kỹ thuật thị giác máy tính đối với bài toán
tra cứu ảnh. Mục tiêu của hệ thống CBIR là sử dụng nội dung trực quan của các
ảnh để tìm các ảnh quan tâm từ một cơ sở dữ liệu ảnh lớn. “Tra cứu ảnh dựa vào
nội dung có nghĩa là tra cứu sẽ phân tích nội dung của ảnh hơn là các siêu dữ
liệu như từ khóa, thẻ và các mô tả văn bản đi kèm với ảnh. Thuật ngữ nội dung ở
đây được hiểu là màu, hình dạng, kết cấu hoặc bất cứ một thông tin nào mà có
thể lấy ra từ bản thân ảnh.
8
Trong CBIR, các ảnh có thể được tra cứu hoặc sử dụng các đặc trưng mức
thấp hoặc sử dụng các đặc trưng mức cao hay các đặc trưng ngữ nghĩa. Kiến
trúc của hệ thống tra cứu ảnh dựa vào nội dung được chỉ ra trên Hình 1.1.1.
Hình 1.1. Kiến trúc hệ thống tra cứu ảnh dựa vào nội dung.
Trong đó:
Ci : là màu của điểm ảnh
n(ID) : Tổng số điểm ảnh trong ảnh
m(ID, Ci) : Biểu diễn số điểm ảnh có giá trị màu Ci
H : Lược đồ màu của ảnh
13
1.3. Các độ đo sử dụng trong tra cứu ảnh.
Việc lựa chọn xác định loại độ đo khoảng cách mà sử dụng để so sánh độ
tương tự của từng cặp ảnh còn phụ thuộc vào cấu trúc của các véc tơ đặc trưng
mô tả chúng. Độ đo khoảng cách được áp dụng chỉ ra độ tương tự giữa truy vấn
và mỗi ảnh trong cơ sở dữ liệu. Để thu được tra cứu chính xác hơn và hiệu năng
tốt hơn, hệ thống CBIR nên tận dụng độ đo đối sánh tương tự hiệu quả, mô tả và
định lượng tốt các tương tự nhận thức.
14
1.3.3. Khoảng cách Cosine.
Với hai ảnh X và Y được cho mà biểu diễn trong không gian dữ liệu bởi hai
véc tơ n chiều, khoảng cách được cho bởi góc giữa các véc tơ sử dụng tích vô
hướng và độ lớn là:
𝑑(𝑋, 𝑌) = 1 − 𝑐𝑜𝑠𝜃 = 1 − 𝑋.𝑌 ‖𝑋‖.‖𝑌‖
Tuy nhiên, phân kỳ K-L nhạy cảm với việc tạo lược đồ và không đối xứng.
Phân kỳ Jeffrey có nguồn gốc thực nghiệm là một sự điều chỉnh của phân kỳ K-
L đối xứng về số, ổn định và mạnh với nhiều và kích thước của các bin lược đồ.
Khoảng cách này đo lường mức độ khó có thể xảy ra khi một phân phối được
lấy ra từ quần thể biểu diễn bởi một phân phối khác và được xác định như sau:
15
giá trị thực. Với các giá trị thực 𝑥 và 𝑦, mức độ khác nhau giữa 𝑥 và 𝑦, được
điều chỉnh bởi >0, biểu thị bởi 𝑑𝛼(𝑥, 𝑦) được xác định bởi:
Ràng buộc (1) cho phép dịch chuyển các nguồn cung theo một cách từ P
đến Q; Ràng buộc (2) giới hạn lượng nguồn cung mà có thể được gửi đến các
16
trọng số của nó bởi các cụm trong P; Ràng buộc (3) giưới hạn các cụm trong Q
không nhận nhiều nguồn cung hơn trọng số của chúng; và ràng buộc (4) buộc
phải di chuyển lượng nguồn cung tối đa mà được gọi là luồng tổng. Ngay khi
luồng tối ưu F được tìm thấy và bài toán vận chuyển được giải, khoảng cách
Earth Mover được xác định như sau:
Khoảng cách Earth Mover mạnh hơn các kỹ thuật đối sánh dựa vào lược đồ
và có nhiều ưu điểm so với các xác định khác của các khoảng cách phân bố. 21
Đầu tiên, khoảng cách Earth Mover áp dụng đối với các dấu hiệu mà gộp các
lược đồ nào đó. Điều này giữ được các ưu điểm của nén và mềm dẻo của dấu
hiệu cũng như lợi ích của việc xử lý các cấu trúc có cỡ thay đổi bởi một độ đo
khoảng cách. Thứ hai, chi phí của Earth Mover phản ảnh đúng khái niệm gần
mà không cần sự tồn tại của các vấn đề lượng tử hóa của hầu hết các độ đo khác.
Thứ ba, khoảng cách Earth Mover đưa ra đối sánh từng phần, chẳng hạn, để xử
lý với các hỗn loạn và đút nút trong các ứng dụng tra cứu ảnh. Thứ tư, nếu
khoảng cách nền là một độ đo và với tổng các trọng số ngang bằng của hai dấu
hiệu, khoảng cách Earth Mover cho phép các không gian ảnh với một cấu trúc
độ đo.
Dạng chuẩn Euclid là khoảng cách của một điểm đến điểm gốc trong
không gian Euclid:
17
trong đó phương trình sau cùng là tích vô hướng. Đây là chiều dài của p,
khi ta xem nó là một Véc-tơ Euclid có gốc nằm ở gốc tọa độ. Khoảng cách khi
đó bằng
18
Chương 2. Phản hồi liên quan và ứng dụng trong tra cứu
ảnh dựa vào nội dung.
19
Hình 2.1. Mô hình hoạt động hệ thống tra cứu ứng dụng phản hồi liên quan.
20
2.1. Tra cứu khởi tạo.
Một hệ thống tra cứu dựa vào nội dung tiêu biểu được chia thành hai pha:
trích rút đặc trưng ngoại tuyến và tra cứu ảnh trực tuyến. Trong pha ngoại tuyến,
hệ thống trích rút tự động các thuộc tính trực quan ở mức thấp (mầu, kết cấu và
hình dạng). Trong pha tra cứu ảnh, người dùng có thể cung cấp một ảnh mẫu
cho hệ thống tra cứu để tìm kiếm các ảnh mong muốn. Hệ thống tra cứu ảnh
biểu diễn ảnh mẫu này bởi véc tơ đặc trưng và khoảng cách (hoặc độ tương tự)
giữa các véc tơ đặc trưng của ảnh mẫu và của ảnh trong cơ sở dữ liệu đặc trưng
được tính toán. Cuối cùng hệ thống phân hạng các ảnh theo thứ tự tăng dần của
khoảng cách hay giảm dần của độ tương tự và trả về cho người dùng. Nếu không
thỏa mãn với kết quả tra cứu, người dùng có thể cung cấp phản hồi liên quan
cho hệ thống tra cứu, hệ thống sẽ học nhu cầu thông tin của người dùng. Hình
21
22
Tiến hành tra cứu khởi tạo với tập ảnh dataset và ảnh truy vấn có kích
thước 120x80 pixels. Các ảnh sử dụng ba đặc trưng cơ bản là màu sắc
(histogram), hình dạng (hu moment), kết cấu (haralick) để phân tích ngữ nghĩa.
Kết quả phân tích trả về dưới dạng vector có 531 chiều, trong đó đặc trưng màu
sắc chiếm 512 chiều, đặc trưng hình dạng chiếm 7 chiều, đặc trưng kết cấu
chiếm 13 chiều. Sau khi phân tích ta được một vector trích chọn đặc trưng của
ảnh truy vấn và một mảng n vector trích chọn đặc trưng của tập ảnh dataset (với
n là số ảnh trong tập dataset).
Sau khi có được kết quả phân tích, tiến hành tính trung bình các trích
chọn đặc trưng trong tập dataset với trích chọn đặc trưng của ảnh truy vấn. Việc
tính khoảng cách sẽ biết được độ tương tự giửa các ảnh trong tập dataset với ảnh
truy vấn, từ đó ta có thể xác định được những ảnh có khả năng mang ngữ nghĩa
giống với ảnh truy vấn. Độ đo Euclid là phương pháp có thể tính nhanh chóng,
chính xác và thuận tiện với công thức:
Sau khi tính toán khoảng cách, ta sẽ có tập ảnh kết quả với độ tương tự
giảm dần (hay khoảng cách so với ảnh truy vấn là tăng dần). Đây chính là tập
truy vấn khởi tạo.
23
các tham số vừa được học, tra cứu ảnh được thực hiện. Quá trình được lặp lại
cho đến khi người dùng thỏa mãn. Hình 1.1.2 chỉ ra cơ chế hoạt động của phản
hồi liên quan trong CBIR
Hình 2.2. Cơ chế hoạt động của phản hồi liên quan trong CIBR.
Để bắt chước hành vi của con người, thực nghiệm thực hiện mô phỏng
phản hồi liên quan trong thử nghiệm. Đầu tiên, một truy vấn khởi tạo sẽ được
thực hiện để tạo ra kết quả truy vấn khởi tạo. Tiếp theo, để mô phỏng tương tác
người dùng bằng việc chọn k ảnh liên quan từ kết quả tra cứu khởi tạo dựa vào
tập thực sự. Những ảnh liên quan từ việc phản hồi sẽ phân thành các cụm và
trọng tâm của các cụm được dùng để hình thành truy vấn tiếp theo và được thực
hiện theo cách tiếp cận truy vấn đa điểm lõm, sau đó những kết quả tra cứu được
gộp lại để tạo ra một danh sách kết quả tổng hợp.
Phản hồi liên quan được thực hiện theo chiến lược chọn những ảnh liên
quan đầu tiên (dựa vào tập thực sự) trong danh sách kết quả. Trong chiến lược
24
này, trường hợp xấu nhất là không có ảnh liên quan nào ngoài ảnh truy vấn và
trường hợp tốt nhất là có k-1 ảnh liên quan ngoài ảnh truy vấn. Do đó, số lượng
ảnh liên quan có thể dao động từ 1 đến k ảnh (bao gồm cả ảnh truy vấn). Chiến
lược này được sử dụng để mô phỏng người dùng thực tế trong thực nghiệm đánh
giá phương pháp đề xuất.
Từ k ảnh được gán nhãn, tiếp tục trích chọn đặc trưng các ảnh này thu
được k vector. Tiến hành tính trung bình k vector, thu được một vector đặc trưng
của k ảnh đã được gán nhãn gọi là Vtb. Vector Vtb này sẽ thay cho vector ảnh
truy vấn ban đầu, thực hiện truy vấn phản hồi liên quan lại tập dataset với vector
Vtb.
Từ danh sách kết quả thu được sau hai lần truy vấn có thể thấy số lượng
độ chính xác đã được cải thiện, số lượng ảnh có độ tương tự với ảnh truy vấn
tăng lên.
2.3. Ứng dụng phản hồi liên quan trong tra cứu ảnh dựa vào nội dung.
OpenCV là một thư viện mã nguồn mở hàng đầu cho thị giác máy tính
(computer vision), xử lý ảnh và máy học, và các tính năng tăng tốc GPU trong
hoạt động thời gian thực. OpenCV là một thư viện mạnh mẽ trong việc hỗ trợ xử
lý phân tích hình ảnh.
Lược đồ histogram được tính toán bằng hàm calcHist() với đầu vào là 1 ma
trận ảnh HSV cùng các tham số khác. Kết quả trả về là một vector 512 chiều.
Đặc trung hình dạng được tính bằng hàm HuMoments(). Kết quả trả về là
một vector 7 chiều.
25
Đặc trưng kết cấu
26
Chương 3. Cài đặt và đánh giá hệ thống.
3.1. Môi trường thực nghiệm.
- Cơ sở dữ liệu ảnh:
Cơ sở dữ liệu được sử dụng cho thử nghiệm là tập con của Corel. Tập này
gồm 34 loại2, mỗi loại có 100 ảnh, cụ thể là: 290, 700, 750, 770, 840, 1040,
1050, 1070, 1080, 1090, 1100, 1120, 1340, 1350, 1680, 2680, 2890, 3260, 3510,
3540, 3910, 4150, 4470, 4580, 4990, 5210, 5350, 5530, 5810, 5910, 6440, 6550,
6610, 6840. Tất cả các ảnh trong tập ảnh này có tính chất là đều chứa đối tượng
tiền cảnh nổi bật. Cỡ của các ảnh có max(chiều rộng, chiều cao)=384 và
min(chiều rộng, chiều cao)=256
- Véc tơ đặc trưng: Sử dụng 3 đặc trưng ảnh là đặc trưng màu, đặc trưng
kết cấu, đặc trưng hình dạng.
27
Tải ảnh truy vẫn và tập dataset
28
Kết luận và hướng nghiên cứu trong tương lai
1. Kết quả đạt được.
- Thực hiện được các truy vấn khởi tạo.
- Thực hiện được truy vấn phản hồi.
3. Kết luận
29
Tài liệu tham khảo
- [CT1] Quynh Dao Thi Thuy, Quynh Nguyen Huu, Canh Phuong Van,
Tao Ngo Quoc (2017), An efficient semantic –Related image retrieval method,
Expert Systems with Applications, Volume 72, pp. 30-41. (SCIE)
- [CT2] Quynh Nguyen Huu, Quynh Dao Thi Thuy, Canh Phuong Van,
Can Nguyen Van, Tao Ngo Quoc, An efficient image retrieval method using
adaptive weights,Applied Intelligence,Volume 48,pp 3807–3826, (SCI)
30
Ý kiến người hướng dẫn Sinh viên thực hiện
31