Professional Documents
Culture Documents
Báo Cáo KPDL - Giua Ky
Báo Cáo KPDL - Giua Ky
Self-driving car
Surveillance
NHẬN DIỆN
VẬT THỂ
Ứng dụng trong Cuộc
sống
Medical Augmented
Imaging Reality
Giới thiệu về bài báo
=> Tiêu tốn chi phí cho việc thu thập dữ liệu do
phải gán nhãn một cách thủ công.
Supervised Self-Supervised
Learning Learning
Đặc điểm: Đặc điểm:
Toàn bộ tập dữ liệu là các dữ liệu được Một nhánh phát triển của học không giám sát
gán nhãn. (Unsupervised Learning).
Sử dụng làm Downstream Task. Chỉ cần sử dụng một lượng nhỏ dữ liệu có nhãn để học
cách phân tích thuộc tính. Qua đó sinh ra được các nhãn
Khó khăn: giả cho dữ liệu không nhãn.
• Các nhãn được gán một cách thủ
công. Thường được sử dụng để thực hiện các Pretext Task
• Lượng dữ liệu nhiều. chuẩn bị cho Downstream Task.
=> Tiêu tốn chi phí cho việc thu thập => Tiết kiệm chi phí cho việc thu thập dữ liệu và gán
dữ liệu. nhãn khi sử dụng Supervised Learning.
Giới thiệu về bài báo
Ý tưởng của nhóm tác giả:
• Ảnh Depth sẽ chứa rất nhiều thông tin về địa hình, độ tương phản, cấu
trúc, ... có ích cho nhận diện vật thể.
• Sử dụng mô hình học tự giám sát để khai thác được các thuộc tính từ ảnh RGB
và ảnh Depth, giúp đồng nhất và tăng cường thuộc tính của các luồng.
• Kết hợp thuộc tính giữa các luồng và các độ phân giải bằng khối CDA.
Giải pháp:
• 5 khối mã hoá. mỗi khối khai thác thuộc tính ở các độ phân giải khác nhau.
• Cho phép các cặp dữ liệu RGB và Depth dự đoán lẫn nhau.
• Tức là từ ảnh RGB sinh ra Deptp map và từ Depth map tái cấu trúc RGB.
=> Các luồng có thể học được các thuộc tính của nhau. Do đó, không bị
xung đột giữa các thuộc tính. Qua đó, việc kết hợp dữ liệu cũng thuận tiện
hơn.
Các khối giải mã
• Kết hợp các thuộc tính ở từng cấp độ
phân giải khác nhau ở các khối CDA.
• Truyền các thuộc tính kết hợp đó vào
khối CDA để kết hợp thuộc tính giữa
các cấp độ.
• Truyền các thuộc tính kết hợp cuối
cùng vào bộ giải mã để ước tính độ
sâu đường viền.
=> Tăng cường thêm cho quá trình kết
hợp, cung cấp các thuộc tính về đường
viền, giúp dự đoán chính xác hơn.
Khối CDA • Input: Thuộc tính RGB , Depth và ground truth Y.
• Tính toán thuộc tính chung Fa và Fb.
• Tăng cường các thuộc tính đó rồi kết hợp lại thành thuộc
tính chung nhất.
• Tính toán các điểm khác nhau Fjd.
• Kết hợp hai thuộc tính chung nhất và thuộc tính khác nhau
để tạo nên thuộc tính kết hợp sau cùng.
GIÁM SÁT
Tổng độ mất mát: Là tổng của Binary Cross Total loss
Entropy loss và IoU loss.
utils_downstream:
• config.py: cấu hình các file dữ liệu.
• dataset_rgbd_strategy2.py: xử lí dữ liệu.
• saliency_metric.py: tính toán các số liệu thống kê.
• ssim_loss.py: Tính toán SSIM loss.
• test_data.py: Kiểm tra các test.
• utils.py: Một số hàm tiện ích khác. Các file utils_downstream
utils_ssl:
• data_stage1.py và data_stage2.py: Đọc dữ liệu cho
model 1 và 2.
• joint_transform.py: chứa các hàm biến đổi ảnh.
Các file utils_ssl
Liên hệ và mở rộng
Nhận xét phương pháp của nhóm tác giả:
• Sử dụng khối CDA để kết hợp thuộc tính.
=> Khắc phục được vấn đề trong việc kết hợp thuộc tính: xung đột, không đồng nhất giữa
các luồng và các độ phân giải, chất lượng Depth map không tốt.
• Sử dụng Self-Supervised Learning để khai thác các thuộc tính.
=> Giảm chi phí khi thu thập dữ liệu, khiến cho các dữ liệu đồng nhất với nhau, thuận lợi
cho kết hợp.
Nhược điểm:
• Thời gian training là rất lâu.
• Cần cải thiện về cấu hình máy (GPU).
• Cần có cách xử lý dữ liệu tốt hơn do ngày càng có nhiều dữ liệu.
Mở rộng
Progressively Guided Alternate Refinement Network for RGB-D Salient Object Detection là bài báo đã
truyền cảm hứng cho tác giả.
• Khai thác thông tin từ Depth Map.
• Dùng các module để kết hợp thuộc tính
Kiến trúc tổng quan:
• Luồng RGB: sử dụng cấu
trúc VGG16.
• Luồng Depth: Sử dụng
lightweight network.
• Khối MSR.
• 8 Khối GR.
Mở rộng
Cách thức hoạt động:
• Nguyên tắc: "Coarse-to-fine".
• Sử dụng mạng VGG16 để trích
xuất thuộc tính từ luồng RGB.
• Dùng khối MSR để cho ra dự
đoán ban đầu.
• Sử dụng lightweight network
để trích xuất thuộc tính của
luồng Depth.
• Điều chỉnh prediction thông qua các khối GR bằng các side-output features từ các layer
của luồng RGB và Depth.
Mở rộng
Luồng RGB:
• Mạng VGG16, 5 lớp tích chập để trích xuất thuộc tính của luồng RGB, đồng thời trả ra các
thuôc tính side-output để điều chỉnh dự đoán.
• Sử dụng khối MSR để sinh ra kết quả dự đoán ban đầu.
Luồng Depth:
• Sử dụng Lightweight Network để trích xuất thuộc tính của luồng Depth., gồm 4 lớp tích
chập, 3 lớp cuối trả ra các thuộc tính side-output.
• Nhỏ gọn và hiệu quả hơn so với các model khác.
Mở rộng
MSR Block:
• Sau khối pool5.
• 3 nhánh song song, mỗi nhánh có cấu trúc dữ
khác nhau ở tỉ lệ giãn.
• Lặp lại N1 lần các nhánh thay vì xếp chồng.
=> Giảm lượng tham số cần thiết.
• Kết hợp 3 nhánh và cho ra kết quả dự đoán
ban đầu.