You are on page 1of 27

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA

-------------------oo0oo------------------

TIỂU LUẬN MÔN HỌC XỬ LÝ ẢNH SỐ NÂNG CAO


Đề tài: TÁCH ĐỐI TƯỢNG NỔI BẬT SỬ DỤNG PHƯƠNG PHÁP LSMD
(Salient object detection via Low-rank and Structured sparse Matrix Decomposition)

Học viên thực hiện : PHẠM QUỐC CƯỜNG


Lớp : K35DTCH
Giảng viên hướng dẫn : TS. HỒ PHƯỚC TIẾN

Đà Nẵng, 4-2018

1
MỤC LỤC

DANH MỤC HÌNH ẢNH ................................................................................................................ 3


CHƯƠNG 1: BÀI TOÁN TÁCH ĐỐI TƯỢNG NỔI BẬT......................................................... 4
1.1. Giới thiệu .... ……………………………………………………………………………………………………………………………….4
1.2. Bài toán tách đối tượng nổi bật ................................................................................................. 4
1.3. Các phương pháp tách đối tượng nổi bật ................................................................................. 5
1.4. Kết luận ..................................................................................................................................... 6
CHƯƠNG 2: PHƯƠNG PHÁP TÁCH ĐỐI TƯỢNG NỔI BẬT SỬ DỤNG MA TRẬN THƯA
CÓ CẤU TRÚC VÀ HẠNG THẤP ................................................................................................. 7
2.1. Giới thiệu ................................................................................................................................... 7
2.2. Cơ sở lý thuyết của phương pháp ............................................................................................. 7
2.2.1. Tổng quan ........................................................................................................................... 7
2.2.2. Phân tích ma trận thưa có cấu trúc và hạng thấp ............................................................. 9
2.2.3. Mô hình LSMD ..................................................................................................................10
2.2.4. Tối ưu sử dụng thuật toán ALM .......................................................................................12
2.2.5. Tách đối tượng nổi bật dựa trên LSMD ...........................................................................13
2.2.6. Phát hiện đối tượng nổi bật cấp độ thấp ...........................................................................13
2.3. Kết luận ....................................................................................................................................14
CHƯƠNG 3: MÔ PHỎNG – ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM ...............................15
3.1 Giới thiệu chương ......................................................................................................................15
3.2. Quy trình chạy mô phỏng ........................................................................................................15
3.3. Kết quả mô phỏng ....................................................................................................................15
3.4. Kết luận ....................................................................................................................................24
KẾT LUẬN .....................................................................................................................................25
TÀI LIỆU THAM KHẢO ..............................................................................................................26
PHỤ LỤC ........................................................................................................................................27

2
DANH MỤC HÌNH ẢNH

Hình 1.1. Minh họa về bài toán tách đối tượng nổi bật……………………………………5
Hình 1.2. Kết quả benchmark một số phương pháp tách đối tượng nổi bật…………….7
Hình 2.1. Các bản đồ vùng nổi bật được tính toán dựa trên mô hình LR và mô hình
LSMD được đề xuất……………………………………………………………………………10
Hình 2.2. Minh họa về cây chỉ số……………………………………………………………13
Hình 2.3. Framework của mô hình LSMD trong quá trình đối tượng nổi bật………...14

3
CHƯƠNG 1: BÀI TOÁN TÁCH ĐỐI TƯỢNG NỔI BẬT
1.1 Giới thiệu
Chương này trình bày sơ lược về bài toán tách đối tượng nổi bật trong một bức
ảnh và các phương pháp hiện tại được sử dụng để giải quyết vấn đề này.
1.2. Bài toán tách đối tượng nổi bật
Từ khi xuất hiện loài người, việc khám phá môi trường xung quanh diễn ra liên
tục. Cho đến nay, không gian sống của con người đã được mở rộng lớn hơn và những
thông tin về đi kèm cũng tăng lên đáng kể. Trong suốt quá trình nhận kiến thức về môi
trường, nhận thức là khả năng cơ bản của con người mô tả quá trình biết thông tin
xung quanh. Khả năng nhận thức của con người có thể được xem là hoàn hảo bằng
cách sử dụng thông tin tiếp nhận được từ môi trường xung quanh thông qua hệ thống
thị giác (HVS – Human Vision System) và hệ thống thính giác của con người (HHS –
Human Hearing System). Hai hệ thống này đại diện cho hai các kênh nhận thức chính
của con người. Nhìn chung, hệ thống nhận thức của con người rất thông minh, nhanh
nhẹn và có thể nhận ra môi trường cùng với sự tồn tại các đối tượng được cung cấp
thông tin không đồng nhất cùng một lúc.

Hình 1.1. Minh họa về bài toán tách đối tượng nổi bật
Các nghiên cứu khoa học đã chỉ ra rằng bộ não con người là một hệ thống mạng
thần kinh phức tạp bao gồm rất nhiều nơ-ron chúng sẽ hỗ trợ HVS và HSS xử lý thông
tin. Tất cả thông tin đạt được bằng mắt và tai của chúng ta sẽ được xử lý bởi mạng nơ-
ron một cách đồng thời bất chấp dữ liệu đầu vào là đồng nhất hay không đồng nhất.
Do đó, việc phát hiện ra một đối tượng nổi bật trong một bức hình có nhiều vật thể
khác nhau tương đối đơn giản đối với con người nhưng các kỹ thuật xử lý ảnh đang
được đưa ra để giải quyết bài toán tách đối tượng nổi bật một cách hiệu quả và toàn
diện nhất.

4
1.3. Các phương pháp tách đối tượng nổi bật
Trong thời gian vừa qua, các nghiên cứu chủ yếu trong lĩnh vực xử lý ảnh tập
trung vào chủ đề tách đối tượng nổi bật (saliency object detection).Với mục tiêu là để
phát hiện và phân đoạn và tách toàn bộ đối tượng nổi bật trên bức ảnh. Có rất nhiều
ứng dụng trong thực tế mà quá trình tách đối tượng nổi bật là một bước tiền xử lý quan
trọng trước các nhiệm vụ phân tích giống như: giám sát video (video-based
monitoring), nén (compression), cắt ảnh tự động (automatic image cropping), tách nền
(foreground detection), mã hóa (coding), theo dõi (tracking), nhận dạng đối tượng
(object recognition), …
Các yêu cầu quan trọng đặt ra trong bài toán tách đối tượng là thuật toán phải tối
ưu, có tốc độ xử lý nhanh vì quá trình này hoạt động như một bước tiền xử lý để phân
tích dữ liệu trực quan nhằm giảm tải tính toán tổng thể. Có nhiều phương pháp tách
đối tượng nổi bật được đề xuất, có thể kể đến như:
o Saliency Detection via Dense and Sparse Reconstruction
o Hierarchical Saliency Detection
o Minimum Barrier Salient Object Detection
o Global Contrast based Salient
o Region Detection
o Saliency Optimization from Robust Background Detection
o Saliency Detection via Graph Based Manifold Ranking
o Saliency Detection via Absorbing Markov Chain
o Quantum Cuts, …

5
Hình 1.2. Kết quả benchmark một số phương pháp tách đối tượng nổi bật
Việc giữ nguyên thuật ngữ tiếng Anh của các phương pháp để đảm bảo tính
khoa học và toàn vẹn về mặt ngữ nghĩa kỹ thuật. Trong tiểu luận này sẽ đề cập đến
phương pháp tách đối tượng nổi bật sử dụng phương pháp LSMD (Salient object
detection via Low-rank and Structured sparse Matrix Decomposition)
1.4. Kết luận
Bài toán tách đối tượng nổi bật trong lĩnh vực xử lý ảnh số và thị giác máy tính
đã được trình bày ở mức khái lược nhất cũng như các yêu cầu về thuật toán xử lý đi
kèm cũng được đưa ra. Có nhiều phương pháp tách đối tượng khác nhau tùy theo mục
đích của các ứng dụng để có thể thỏa hiệp về tradeoff để đi đến quyết định chọn cách
nào để giải quyết vấn đề đặt ra.

6
CHƯƠNG 2: PHƯƠNG PHÁP TÁCH ĐỐI TƯỢNG NỔI BẬT SỬ DỤNG MA
TRẬN THƯA CÓ CẤU TRÚC VÀ HẠNG THẤP
2.1. Giới thiệu
Chương này trình bày về cơ sở lý thuyết cũng như các công thức toán học của
phương pháp tách đối tượng nổi bật sử dụng ma trận thưa có cấu trúc và hạng thấp.
2.2. Cơ sở lý thuyết của phương pháp
2.2.1. Tổng quan
Tách đối tượng nổi bật là một chủ đề mới nổi trong lĩnh vực thị giác máy máy
tính (computer vision) và xử lý ảnh số nâng cao vì nó cung cấp giải pháp thay thế cho
các tác vụ ‘hiểu biết ngữ nghĩa hình ảnh’ khác nhau chẳng hạn như phát hiện đối tượng
(object detection), phục hồi hình ảnh dựa trên miền (region-based image retrieval) và
nén ảnh thích nghi (adaptive image compression), ... Quy trình thực hiện tách đối
tượng nổi bật bao gồm việc phát hiện và chiết xuất phần nổi bật nhất từ hình ảnh nền.
Đầu ra bài toán thường là ‘bản đồ vùng nổi bật’ (saliency map) mà tại đó cường
độ của mỗi điểm ảnh đại diện cho xác suất của pixel đó thuộc về đối tượng nổi bật.
Nhiều mô hình tính toán đã được đề xuất để tính toán bản đồ vùng nổi bật của
một hình ảnh cho trước. Hai loại mô hình nổi bật là: từ dưới lên trên (bottom-up) và từ
trên xuống dưới (top-down). Các mô hình từ dưới lên trên điển hình trích xuất các đặc
trưng cấp thấp như màu sắc, cường độ và định hướng để xây dựng một bản đồ dễ hình
dung (conspicuity map) trong mỗi không gian đặc trưng độc lập. Những bản đồ dễ
hình dung sau đó được kết hợp để tạo thành bản đồ vùng nổi bật cuối cùng nhờ vào
một chiến lược hợp nhất được xác định trước.
Phân tích trên miền tần số và mô hình dựa trên sự tương phản toàn cục (global
contrast-based model) cũng được giới thiệu để tính mức độ nổi bật hiếu ở cấp độ thấp.
Giới hạn chính của các phương pháp tiếp cận này là các vùng nổi bật được phát hiện
chỉ có thể chứa các phần của đối tượng đích, hoặc có thể dễ dàng sáp nhập với nền.
Mặt khác, các mô hình từ trên xuống khai thác kiến thức đã biết trước chẳng hạn
như màu sắc, vị trí và bối cảnh để hướng dẫn cách phát hiện và ước lượng vùng nổi
bật. Tuy nhiên, nhiều loại đối tượng giới hạn sự tổng quát và khả năng mở rộng những
phương pháp này. Gần đây, một xu hướng mới nổi là kết hợp và tận dụng ưu điểm của
cả hai mô hình thành một framework duy nhất. Dựa trên nền tảng đó, một nghiên cứu

7
đã đưa ra lý thuyết khôi phục ma trận hạng thấp (LR) để ứng dụng trong việc phát hiện
đối tượng nổi bật. Ví dụ, phương pháp hợp nhất dựa trên LR (ULR) để kết hợp các đặc
trưng truyền thống cấp độ thấp với hiểu biết kiến thức trước đó ở cấp độ cao đã được
đề xuất. Sau đó phương pháp theo dõi thưa thớt đa nhiệm MTSP (Multi-Task Sparsity
Pursuit) kết hợp nhiều loại đặc trưng để phát hiện sự nổi bật.
Các mô hình phát hiện đối tượng nổi bật sử dụng kỹ thuật LR hiện có dựa trên
hiện tại sử dụng chung giả định rằng một hình ảnh có thể được biểu diễn gồm một
phần thông tin dư thừa lớn (ví dụ: các vùng nền) và một phần nổi bật (ví dụ: đối tượng
nền) bao gồm nhiều vùng đồng nhất. Phần thông tin dư thừa thường nằm trong một
không gian con (sub-space) có đặc trưng về chiều thấp và có thể được xấp xỉ như một
ma trận đặc trưng hạng thấp, trong khi đó phần nổi bật có thể được được xem như một
ma trận thưa. Trên cơ sở đó nếu cho trước ma trận đặc trưng F của một ảnh đầu vào,
nó có thể được phân tích thành một ma trận hạng thấp L tương ứng với nền không nổi
bật và một ma trận thưa S tương ứng với đối tượng nổi bật từ đó hình thành nên bài
toán ma trận hạng thấp.
min L *   S 1
với F  L  S (1)
L,S

phép toán nuclear norm . * là phép khôi phục lồi của hàm hạng ma trận. . 1 là

l1  norm đóng vai trò trong quá trình làm thưa ma trận, còn  tham số là tradeoff giữa

hai phép toán trên.

Hình 2.1. Các bản đồ vùng nổi bật được tính toán dựa trên mô hình LR và mô hình
LSMD được đề xuất

8
Từ góc độ của xử lý tín hiệu thống kê, khi sử dụng phép l1  norm để thúc đẩy sự
thưa thớt trên ma trận S trong công thức (1) thì được giả định rằng mỗi phần tử trong S
là độc lập bất kể các mối quan hệ và các cấu trúc tiềm ẩn trong đó như sự liên tục về
mặt không gian và sự nhất quán về mẫu.
Giả định này chắc chắn mang lại hai hạn chế cho quá trình phát hiện đối tượng
nổi bật: (i) Bản đồ vùng nổi bật được tạo ra có xu hướng là các điểm ảnh (pixel) nổi
bật rải rác hoặc các patch thay vì các vùng tiếp giáp không gian. (ii) Các phương pháp
dựa trên LR hiện tại không thể đồng nhất làm nổi bật toàn bộ đối tượng nổi bật dẫn
đến kết quả không tách được đầy đủ đối tượng nổi bật. Một số ví dụ điển hình về hai
giới hạn này được thể hiện trong Hình 2.1.
Để giải quyết những vấn đề trên, mô hình phân tích ma trận thưa có cấu trúc và
hạng thấp LSMD (Low rank and Structured sparse Matrix Decomposition) được đưa
ra, mô hình có khả năng nắm bắt được cấu trúc cơ bản phần nổi bật của đối tượng.
Tóm lại, (i) một phép norm gây ra sự thưa thớt cho một cấu trúc có dạng cây và được
tạo ra để ràng buộc ma trận về khía cạnh tương đương đặc trưng cũng như kết nối
không gian đa tỉ lệ. (ii) l  norm được nhúng vào bên trong phép norm gây ra sự thưa
thớt cho một cấu trúc có dạng cây để thay thế l  norm đơn giản với mục đích làm cho
các điểm ảnh trong cùng một đối tượng có các giá trị nổi bật tương tự nhau.
Thuật toán tối ưu hóa hiệu quả cho mô hình LSMD cũng được đưa ra bằng cách
mở rộng thuật toán các số nhân Augment Lagrange ALM (Augment Lagrange
Multipliers). Kết quả thử nghiệm dựa trên cơ sở dữ liệu benchmark cho thấy phương
pháp LSMD là phương pháp hiện đại và có thể trích xuất toàn bộ đối tượng nổi bật
một cách hiệu quả.
2.2.2. Phân tích ma trận thưa có cấu trúc và hạng thấp
Xây dựng vấn đề: Để nâng cao tính hiệu quả của phương pháp, hình ảnh được
phân vùng thành các patch không trùng lặp được xem như các yếu tố hình ảnh cơ bản
trong quá trình ước lượng sự nổi bật. Giả sử một ảnh đầu vào được phân chia thành N
patch  Pi i 1 . Đối với mỗi patch Pi sẽ được trích xuất đặc trưng D  dimension và sử
N

dụng vector fi  R D để biểu diễn. Toàn bộ các vectơ đặc trưng hình thành nên biểu

diễn ma trận của toàn bộ hình ảnh đầu vào như hàm F   f1 , f 2 ,..., f N   R DN . Sau đó,

9
nhiệm vụ phát hiện đối tượng nổi bật là đi thiết kế một thuật toán hiệu quả để phân
giản ma trận đặc trưng F thành phần thông tin dư thừa L và phần nổi bật có cấu trúc
S được xây dựng dưới công thức:
min L *    S  với F  L  S (2)
L, S

trong đó  . là một quy tắc chuẩn hóa chỉ số giảm độ thưa có cấu trúc để bảo tồn cấu

trúc liên quan và mối quan hệ tiềm ẩn các patch bên trong S .
2.2.3. Mô hình LSMD
Cấu trúc cây đã tồn tại và được sử dụng rộng rãi trong lĩnh vực xử lý ảnh tự
nhiên. Ví dụ, biến đổi wavelet có cấu trúc cây, phân đoạn hình ảnh dựa trên cấu trúc
cây, … Những tiến bộ gần đây trong nghiên cứu biểu diễn thưa tập trung khai thác cấu
trúc cây để tận dụng tính chất thưa có cấu trúc về các mối quan hệ giữa các mẫu. Xét
một phép norm có cấu trúc cây và tính chất gây ra sự thưa, về cơ bản có thể xem phép
norm này là một nhóm thưa phân cấp để biểu diễn cho cấu trúc bên dưới của các hình
cơ bản trong không gian đặc trưng.
Đầu tiên, định nghĩa về cây chỉ số được đưa ra: Đối với cây chỉ số T có độ sâu


d , đặt G ij là node thứ j tại cấp độ i và Ti  G1i ,..., Gij ,...,G ini  chứa tất cả các node
tương ứng với độ sâu i , trong đó ni là số node ở cấp độ thứ i của T . Trường hợp đặc
biệt, đối với node gốc n1  1 và T1  G11  1, 2,..., N  ( N là số lượng patch). Ngoài ra,

các node trong cây thỏa mãn các điều kiện sau: (i) các node cùng độ sâu có chỉ số
không chồng lấn lên nhau nghĩa là đối với bất kỳ 1  j , k  ni và j  k thì ta có

Gij  Gki   . (ii) Đặt Gij01 là node cha của node không phải là node gốc G ij , Gij  Gij01

và j Gij  Gij01 . Hình 2.2 minh họa cây chỉ số mẫu với tám chỉ số ( N  8 ).

Giả sử ta có một cây chỉ số hợp lệ lưu trữ thông tin cấu trúc bên dưới của một
hình ảnh tự nhiên và đặt nó trên S như một ràng buộc có cấu trúc. Do đó, một quy tắc
chung làm thưa cây có cấu trúc thể được viết như sau:
d ni
  S    wij SGi (3)
j
i 1 j 1 p .q

10
D G ij
với wij  0 là trọng số cho node G ij , SG  R i là ma trận con của S tương ứng với
j

node G ij . . p ,q
là l  norm hỗn hợp. Do đó,  . bản chất là sự thưa thớt nhóm trọng số

với một cấu trúc cây nhất định và nó thể kết hợp các patch hình ảnh tương tự thành các
nhóm giống nhau cũng như biểu diễn mối quan hệ giữa các nhóm.
l p , q  norm hỗn hợp trên SGi trong công thức (3) bao gồm hai thành phần:
j

(i) l p  norm trên mỗi cột của ma trận SG cho biết tính toán giá trị nổi bật của các
i
j

patch tương ứng. Sử dụng l2  norm ( p  2 ) để đo đạc sự nổi bật của từng patch.
(ii) lq  norm trên các giá trị kết quả là để thể hiện mối quan hệ giữa các giá trị tương

ứng với các patch trong cùng một nhóm. Bởi vì các giá trị nổi bật tương đương được
mong đợi sẽ hình thành nên các patch trong cùng một nhóm nên l  norm ( q   )
được sử dụng. Đối với trường hợp l  norm , nó là giá trị nổi bật tối đa của các patch
trong một nhóm và quyết định xem nhóm có được thiết lập để trở thành nhóm nổi bật
hay là không.

Hình 2.2. Minh họa về cây chỉ số, Depth1: G11  1, 2,3, 4,5,6,7,8 , Depth2:

G22  1, 2,3, 4 , G22  5,6 , G32  7,8 . Depth3: G13  1, 2 , G23  3, 4 , G33  5 ,

G43  6 .

Sau khi đưa ra quy tắc thưa có dạng cấu trúc cây với l2,  norm hỗn hợp, mô

hình LSMD có thể là được viết lại dưới dạng công thức sau:
d ni
min L *    wij SGi với F  L  S (4)
L,S
i 1 j 1
j
2, 

11
Nếu thiết lập cây chỉ số là một lớp đơn duy nhất với d  1 , wij  1 và q  1 thì

công thức (4) sẽ trở thành thành công thức (1). Do đó, LSMD có thể được xem như
một sự tổng quát hóa mô hình LR chuẩn.
2.2.4. Tối ưu sử dụng thuật toán ALM
Sử dụng thuật toán hệ số nhân Augment Lagrange (ALM) để tối ưu các phép
norm, công thức (4) được viết lại dựa trên hàm Lagrangian:
d ni

Lagrangian  L, S , Y , u   L *    wij SGi  Y,F  L  S  F LS
2
F
(5)
i 1 j 1
j
2,  2
trong đó Y là hệ số nhân Lagrange và   0 là một tham số điều chỉnh. Để giải
phương trình (5), thực chất là đi tìm giá trị tối ưu của các giá trị L , S và Y bằng
phương pháp lặp. Cách cập nhật các tham số trong từng vòng lặp như sau:
Cập nhật L : Để cập nhật giá trị Lk 1 tại tại vòng lặp thứ  k  1 , giá trị L và S

được cố định, giá trị Lk 1 được cập nhật theo công thức (6) dưới đây
k
Lk 1  arg min Lagrangian  L, S k , Y k ,  k   arg min L *  Y k , F L  Sk 
2 1
F  L  Sk  arg min  L *  L  ML
2
F
L L 2 F L 2

1 1
với   và M L  F  S k  Yk.
 k
 k

Phương trình (6) được giải như sau:


Lk 1  UT  V T với U , ,V   SVD  M 
T
L (7)

Lưu ý rằng  là ma trận giá trị đơn của M L . Toán tử T . là toán tử ngưỡng giá trị

đơn được định nghĩa bởi ngưỡng  của  .


Ví dụ: diag T      t  1  , t  2  ,..., t    với hạng rank     r , mỗi giá trị được

xác định bởi:


   ,   

t       ,   
0

Cập nhật S : Để cập nhật S k 1 , từ công thức (5) cố định giá trị L và Y thì giá trị
S k 1 được tính như sau:
ni
 arg min Lagrangian  L , S , Y ,    arg min   w
d
k 1 k 1 1
 S  MS
k k ' i 2
S j SG i F
i 1 j 1
j
2,  2
S
S

12
 1
với  '  và M S  F  Lk 1  k Y k .
 k

2.2.5. Tách đối tượng nổi bật dựa trên LSMD
Phần này mô tả về việc phát hiện đối tượng nổi bật bằng cách sử dụng mô hình
LSMD đã được đề xuất. Việc phát hiện về cơ bản được triển khai trên các đặc trưng
cấp độ, tiếp đó kiến thức ưu tiên cấp cao được đưa vào trong mô hình LSMD, như
được thảo luận trong phần thứ hai. Hình 2.3 minh họa framwork tách đối tượng nổi bật
dựa trên mô hình LSMD.

Hình 2.3. Framework của mô hình LSMD trong quá trình đối tượng nổi bật
2.2.6. Phát hiện đối tượng nổi bật cấp độ thấp
Framework của quá trình tách đối tượng nổi bật cấp độ thấp gồm có 4 bước:
Tóm tắt hình ảnh:
Trong bước đầu tiên, hình ảnh đầu vào được phân đoạn thành các phần tử nhỏ
gọn và đồng nhất. Tiếp đó, trích xuất các tính năng cấp thấp bao gồm màu RGB, hình
chóp có thể điều khiển được và bộ lọc Gabor để xây dựng không gian đặc trưng có 53
chiều. Sau đó, tiếp tục thực hiện dịch theo cluster trong không gian đặc trưng để phân
đoạn hình ảnh thành N patch cơ bản  Pi i 1 . Mỗi patch được biểu diễn bởi fi , toàn bộ
N

các patch sẽ tạo nên ma trận đặc trưng:


F   f1 , f 2 ,..., f N   R DN

Xây dựng cây:


Bước thứ hai là xây dựng một cây chỉ số để biểu diễn cấu trúc hình ảnh thông
qua phân chia cluster phân cấp k-mean. Trong quá trình xây dựng cây, đối với mỗi
patch hình ảnh Pi sẽ có được vị trí tọa độ pi biểu diễn đặc trưng fi .Tất cả các patch từ

13

một hình ảnh là một tập hợp gồm N điểm dữ liệu W  wi i 1   p , fi  
N N
. Tiếp theo,
i
i 1

quá trình phân cụm cluster phân cấp bắt đầu với tất cả các điểm trong một cluster đơn
và sau đó phân chia đệ quy từng cluster thành k cluster con bằng thuật toán k-means.
Quá trình đệ quy chấm dứt khi tất cả các cluster chứa ít hơn k điểm dữ liệu. Trong
tiểu luận này sẽ khai thác cấu trúc k = 4.
Phân tích ma trận
Sau khi có được biểu diễn ma trận đặc trưng và cây chỉ số cấu trúc tương ứng
của hình ảnh đầu vào, bước này sẽ sử dụng mô hình LSMD được định nghĩa trong
công thức (4) để phân tích F thành một ma trận hạng thấp L và một ma trận có cấu
trúc thưa thớt S . Bằng cách đưa ra quy trình chuẩn hóa thưa thớt có cấu trúc cây vào
mô hình LSMD, ta có thể nhóm các patch đồng nhất của đối tượng nền trước, trong
khi loại bỏ nền không nổi bật.
Gán vùng nổi bật
Bước cuối cùng là biến đổi biểu diễn ảnh từ miền đặc trưng sang miền không
gian. Sử dụng hàm gán đơn giản trên ma trận cấu trúc S để điền các giá trị nổi bật
tương ứng với mỗi patch Pi :

Sal  Pi   si 2

với là cột thứ i của ma trận S . Giá trị Sal  Pi  lớn có nghĩa là độ nổi bật cao trên patch

ảnh tương ứng. Bản đồ vùng nổi bật có được bằng cách hợp nhất kết quả vùng nổi bật
của tất cả các patch lại với nhau. Sau đó chuẩn hóa và lọc Gaussian trên mỗi điểm ảnh
có tọa độ  x, y  thì sẽ thu được bản đồ vùng nổi bật mức điểm ảnh Map  x, y   Sal  Pi 

với  x, y   Pi .

2.3. Kết luận


Chương này đã trình bày cơ sở lý thuyết của phương pháp LSMD trong ứng
dụng phát hiện đối tượng nổi bật, trên cơ sở đó để xây dựng chương trình mô phỏng và
tính toán hiệu năng của phương pháp bằng Matlab/Simulink.

14
CHƯƠNG 3: MÔ PHỎNG – ĐÁNH GIÁ KẾT QUẢ THỰC NGHIỆM
3.1 Giới thiệu chương
Nội dung chương trình bày về chương trình và cách mô phỏng phương pháp tách
đối tượng nổi bật sử dụng ma trận có cấu trúc và hạng thấp bằng Matlab/Simulink của
hãng Mathworks sau đó đưa ra những nhận xét kết luận.
3.2. Quy trình chạy mô phỏng
o Bước 1: Đưa ảnh định dạng .jpg cần xử lý vào thư mục ‘Input_Image’,
o Bước 2: Chạy file main.m trên IDE Matlab/Simulink
o Bước 3: Các bản đồ khu vực nổi bật được lưu ở thư mục ‘Saliency_Output’
o Bước 4: Các kết quả đánh giá được lưu tại thư mục ‘Results’  Nhấn Enter ở
cửa sổ Command Window để xử lý ảnh tiếp theo trong tập Input_Image
3.3. Kết quả mô phỏng
Thực hiện đánh giá phương pháp với đầu vào gồm 10 hình ảnh định dạng .jpg,
các kết quả chạy chương trình được lưu tại thư mục đính kèm của tiểu luận.
 Hình 1

15
 Hình 2

 Hình 3

 Hình 4

16
 Hình 5

 Hình 6

 Hình 7

17
 Hình 8

 Hình 9

18
 Hình 10

19
 Hình 11

20
 Hình 12

21
 Hình 13

22
 Hình 14

Đánh giá:
Với các hình ảnh đầu vào khác nhau cụ thể là đối tượng nổi bật tương đối rõ ràng
trên ảnh nền và đối tượng nổi bật cần tách không quá rõ ràng (cùng màu nền ở một
mức độ nào đó) thì phương pháp LSMD vẫn tách được đối tượng nổi bật một cách
hiệu quả.
Phương pháp dựa trên nền tảng xử lý ma trận rất tối ưu khi chạy trên platform
của phần mềm mô phỏng Matlab (Matrix laboratory), cho tốc độ xử lý nhanh theo
thời gian thực real-time của hệ thống.

23
3.4. Kết luận
Với các kết quả mô phỏng phương pháp LSMD để tách đối tượng nổi bật thì có
thể thấy rằng đây là một giải pháp khả thi có thể áp dụng trong các ứng dụng xử lý ảnh
số cơ bản và nâng cao với tốc độ thực thi nhanh chóng.

24
KẾT LUẬN
Trong phạm vi tiểu luận, mô hình sử dụng ma trận cấu trúc thưa và hạng thấp
để tách đối tượng nổi bật đã được trình bày ở mức cơ bản. Trong mô hình được đề
xuất, phép norm có tính chất gây thưa có dạng cấu trúc cây phân cấp được đề xuất để
biểu diễn cấu trúc bên dưới của các patch hình ảnh trong không gian đặc trưng. Phép
được nhúng vào quá trình làm thưa cấu trúc cây để làm cho các patch trong cùng một
đối tượng có các giá trị nổi bật tương tự nhau. Các thực nghiệm cho thấy phương pháp
LSMD được đề xuất liên tục đạt được hiệu suất vượt trội khi benchmark trên một tập
dữ liệu.
Thời gian tới, mô hình được đề xuất có thể mở rộng từ phân tích ma trận đến
phân tích tensor sẽ nâng cao độ phức tạp của thuật toán nhưng bù lại việc tách đối
tượng nổi bật sẽ đạt được hiệu quả cao hơn.

25
TÀI LIỆU THAM KHẢO
[1] Shen, X., and Wu, Y. 2012. A unified approach to salient object detection via
low rank matrix recovery. In Proc. of CVPR, 2296–2303.
[2] H. Peng, B. Li, R. Ji, W. Hu, W. Xiong, and C. Lang, “Salient object detection
via low-rank and structured sparse matrix decomposition,” in AAAI, 2013.
[3] P. Felzenszwalb and D. Huttenlocher, “Efficient graph-based image
segmentation,” International Journal of Computer Vision, vol. 59, no. 2, pp.
167–181, 2004.
[4] W. Zhu, S. Liang, Y. Wei, and J. Sun, “Saliency optimization from robust
background detection,” CVPR, Columbus, OH, USA, June 23-28, 2014, 2014,
pp. 2814–2821.
[5] Chang, K.Y., Liu, T.L., Chen, H.T., Lai, S.H.: Fusing generic objectness and
visual saliency for salient object detection. In: ICCV. (2011)
[6] Goferman, S., Manor, L.Z., Tal, A.: Context-aware saliency detection. In:
CVPR. (2010)
[7] Jiang, H., Wang, J., Yuan, Z., Liu, T., Zheng, N., Li, S.: Automatic salient
object segmentation based on context and shape prior. In: BMVC. (2011)
[8] MC: B. Jiang, L. Zhang, H. Lu, C. Yang, and M.-H. Yang,
“Saliency detection via absorbing markov chain,” in ICCV, (2013).
[9] X. Li, H. Lu, L. Zhang, X. Ruan, and M.-H. Yang, “Saliency detection via
dense and sparse reconstruction,” in ICCV, (2013).
[10] J. Kim, D. Han, Y. Tai, and J. Kim, “Salient region detection via high-
dimensional color transform,” in CVPR, (2014).

26
PHỤ LỤC
Code chương trình

-Contact: cuongphamquoc@outlook.com
-Tel: 090 170 4156

27

You might also like