Chương 4 Xu Li Video

Bộ môn: Tín hiệu và Hệ thống
10/05/2019 1
4.1 Giới thiệu chung
– Khái niệm về video và xử lý video
– Các mô hình mầu
– Các khuôn dạng video
4.2 Kỹ thuật mã hóa video
– Mã hóa video
– Mã hóa video bù chuyển động
4.3 Phân tích chuyển động
4.4 Kỹ thuật so khớp khối
4.5 Chuẩn mã hóa video
10/05/2019 2
4.1.1- Khái niệm về video & xử lý video
a)- Khái niệm về video:
• Bối cảnh thế giới thực là một tín hiệu 3D thay đổi theo thời gian
f(x,y,z,t) (một tín hiệu không gian liên tục 4D)
- (x,y,z) là tọa độ không gian 3D, t là thời gian
• Video là một phép chiếu bối cảnh động lên mặt phẳng camera 2D
f(x,y,t) (một tín hiệu không gian liên tục 3D)
– (x,y) là phép chiếu điểm 3D (x,y,z) lên mặt phẳng ảnh 2D
– Tại t xác định, f(x,y,t) là một khung 2D (ảnh)
• Các mẫu video số miền 3D (x,y,t) hình thành một tín hiệu không
gian rời rạc 3D f(m,n,k)
- Tốc độ khung (độ phân giải thời gian): số khung/giây (fps hoặc Hz)
- Kích thước khung (độ phân giải không gian): số pixel/khung
• Video mầu có 3 giá trị mầu tại mỗi pixel (m,n,k)

10/05/2019 3
• Tần số không gian:
– Tần số không gian đo cường độ ảnh thay đổi nhanh như thế nào trong mặt
phẳng ảnh
– Tần số không gian có thể được mô tả hoàn toàn bằng các tần số biến đổi theo
hai chiều trực giao (ngang và dọc)
• fx: số chu kì/khoảng cách đơn vị chiều ngang
• fy: số chu kì/khoảng cách đơn vị chiều dọc
– Nó cũng được xác định theo độ lớn và góc biến đổi
10/05/2019 4
• Tần số góc:
– Tần số không gian cảm nhận (số chu kì/góc nhìn hoặc cpd) phụ thuộc vào
khoảng cách quan sát
10/05/2019 5
• Tần số thời gian:
– Tần số đo sự biến đổi về thời gian (số chu kì/s)
– Trong một video, tần số thời gian biến đổi về không gian: mỗi điểm trong không
gian có tần số thời gian của nó.
– Tần số thời gian khác không có thể xuất phát từ sự chuyển động của camera
hoặc đối tượng
10/05/2019 6
b)- Xử lý video số:
 Xử lý video số liên quan đến xử lý máy tính để
– Trích xuất thông tin
– Phục hồi, tăng cường ảnh video
– Chuyển đổi tiêu chuẩn
– Phân tích chuyển động
– Nén video cho việc lưu trữ và truyền thông
 Xử lý video:
− Xử lý chuỗi ảnh, mỗi ảnh được xử lý độc lập
− Xử lý đa khung (liên khung)
 Khai thác tương quan thời gian giữa các khung

− Lọc bù chuyển động
10/05/2019 − Dự đoán bù chuyển động 7
4.1.2- Không gian mầu
 Trong mã hóa xử lý video sử dụng không gian mầu YCbCr
10/05/2019 8
Lấy mẫu video
 Cơ chế lấy mẫu
– Tất cả thực hiện lấy mẫu theo thời gian (đặc trưng bởi tốc độ khung)
– Các camera cũ bắt các khung liên tục trên film
– Các camera video tương tự lấy mẫu theo chiều dọc sử dụng chế độ quét liên tiếp
hoặc xen kẽ
– Các camera số lấy mẫu theo cả hai chiều ngang và chiều dọc thu được các pixel
với tọa độ 3D rời rạc
 Cách xác định tốc độ khung
– Phụ thuộc kích thước màn hình, khoảng cách nhìn, tần số tối đa trong tín hiệu cơ
bản, tần số tối đa để HVS có thể phát hiện (ngưỡng tần số nhìn thấy), tính khả thi
về kỹ thuật và chi phí.
– Nếu khả thi về kỹ thuật nên lấy mẫu gấp hai lần ngưỡng tần số nhìn thấy
10/05/2019 9
Lấy mẫu video
 Tốc độ khung
– Mắt người có thể thấy lên tới 60 Hz
– Thâm chí cao hơn để giải thích cho sự chuyển động mắt theo đuổi mượt mà
– Các đối tượng chuyển động nhanh có thể lên tới tần số > 60 Hz
– Video nên được lấy mẫu tại 120 Hz
 Tốc độ đường (số đường/khung)
– Nên ghi hình tại tần số góc ít nhất 30 cpd, đòi hỏi lấy mẫu tại >= 60 mẫu/góc
quan sát.
– Phụ thuộc kích thước màn hình, khoảng cách nhìn
 Số pixel/đường
– Phụ thuộc tỉ lệ màn ảnh mong muốn
– Số pixel/đường = tốc độ đường * độ rộng/chiều cao
– Tỉ lệ màn ảnh rộng (16:9, HDTV) hiện được ưu tiên hơn so với tiêu chuẩn (4:3,
10/05/2019
SDTV, TV tương tự) 10
Lấy mẫu thành phần video số
10/05/2019 11
4.1.3- Khuôn dạng video
Video số
• Các khung video số được hiển thị tại một tốc độ khung quy định. Ví
dụ: tốc độ khung 30 khung/s được sử dụng trong chuẩn NTSC.
• Định dạng Common Intermediate Format (CIF) có 352x288 pixels và
định dạng Quarter CIF (QCIF) có 176x144 pixels.
• Độ phân giải điểm ảnh (số điểm trên mỗi đường)

– Độ phân giải SD: 640 x 480 (720p)
– Độ phân giải SD: 1280 x 720 (720p)/ 1920 x 1080 (1080p)
10/05/2019 12
Các kiểu khung video
• Có 3 kiểu khung video: I-frame, P-frame và B-frame. I kí hiệu cho khung mã
hóa trong, P kí hiệu cho khung dự đoán và B kí hiệu cho khung dự đoán hai
chiều.
• Các I-frame được mã hóa mà không có bất kì bù chuyển động và được sử
dụng như một tham chiếu cho các khung kiểu P và B được dự đoán tương
lai. Tuy nhiên các khung I đòi hỏi một số lượng bit tương đối lớn để mã hóa.
• Các khung P được mã hóa sử dụng dự đoán bù chuyển động từ một khung
tham chiếu cái có thể hoặc là khung I hoặc khung P. Các khung P hiệu quả
hơn về số lượng bit được yêu cầu so với khung I, nhưng vẫn đòi hỏi nhiều
bit hơn khung B. Các khung B đòi hỏi số lượng bit thấp nhất so với cả hai
khung I và P nhưng chịu độ phức tạp tính toán lớn.
10/05/2019 13
Một số định dạng video
• Hệ thống TV tương tự
– NTSC: 60 trường/s (60i), 525 đường/khung (chỉ 480 đường tích cực)
– PAL/SECAM: 50 trường/s (50i), 625 đường/khung (chỉ 576 đường tích cực)
• Video số BT601 (Phiên bản số của NTSC/PAL)
– NTSC  60i, 720x480, tốc độ dữ liệu = 720x480x30x24 = 249 Mb/s
– PAL/SECAM  50i, 720x576, tốc độ dữ liệu = 720x576x50x24 = 249 Mb/s
• Định dạng video SD
– 4CIF: 60 khung/s, 720x480/khung, tốc độ dữ liệu = 720x480x60x24 = 498 Mb/s
• HDTV
– 1980p: 60 khung/s, 1920x1080/khung, tốc độ dữ liệu = 3 Gb/s
• Ultra HD
– 4K: 60 khung/s, 4096x2180/khung, tốc độ dữ liệu = 12,9 Gb/s
10/05/2019 14
Một số định dạng video
10/05/2019 15
4.2.1- Các phương pháp mã hóa video
• Mã hóa trong khung (Intraframe coding)
- Loại bỏ phần dư không gian với một khung nhìn chung được gọi là mã hóa trong
khung. Phần dư không gian trong một khung được giảm tối thiểu bằng cách sử
dụng phép khai triển. Phép khai triển thường được sử dụng là DCT.
• Mã hóa liên khung (Interframe coding)
– Phần dư thời gian giữa các khung liên tiếp bị loại bỏ bằng mã hóa liên khung.
Mã hóa liên khung khai thác sự tương quan của các khung video. Mã hóa liên
khung dựa vào sự thật rằng các ảnh liền kề trong một chuỗi video có sự tương
quan cao về thời gian.
• Intra (I-coding)
– MB (Macro Block) được mã hóa không có bù chuyển động.
– DCT, tiếp sau là lượng tử hóa, zig-zag, RLE, mã hóa Huffman.
• Inter (P- và B-coding)
– Bù chuyển động so khớp khối.
– Phần dư chuyển động dự đoán từ khối khớp tốt nhất sẽ được mã hóa DCT
10/05/2019 (tương tự kiểu Intra) 16
– Vector chuyển động được mã hóa vi sai.
• Nhóm ảnh (Group of Pictures - GOP)
10/05/2019 17
• Phân chia các khối ảnh trong mã hóa
− Phân chia ảnh thành các khối ảnh lớn
(macroblock)
• Ảnh được phân chia thành các
macroblock kích thước cố định, gồm
16x16 mẫu độ sáng và các vùng
tương ứng trong các thành phần sắc
độ
• Trong định dạng lấy mẫu 4:2:0, một
macroblock tương ứng
• Một khối độ sáng 16x16
• Hai khối sắc độ 8x8
− Mã hóa các macroblock:
• Các mode mã hóa khác nhau, cũng
liên quan đến các mode macroblock
• Ảnh Intra: 2 mode mã hóa
• Intra
• Intra + Q (lượng tử hóa thay đổi)
• Intra mode: Mã hóa khai triển cho tất
10/05/2019 cả 6 khối 8x8 của một macroblock (4 18
khối độ sáng và 2 khối sắc độ)
• Intraframe coding
10/05/2019 19
4.2.2- Mã hóa video bù chuyển động
• Inter coding
10/05/2019 20
• Ảnh và chuỗi video
• Intra picture (I-Picture)

– Mã hóa không có tham chiếu các ảnh khác
– Tất cả MB được mã hóa trong khung
• Inter Picture (P-Picture, B-Picture)

– Mã hóa có sự tham chiếu các ảnh khác
– Một số MB được mã hóa trong khung, và một số khác được mã hóa liên khung
10/05/2019 21
• Mã hóa I-Picture
10/05/2019 22
• Mã hóa P-Picture
10/05/2019 23
4.3.1- Phân tích chuyển động
• Phân tích hay ước tính chuyển động liên quan đến:
– Ước tính chuyển động mặt phẳng ảnh (chuyển động 2-D)
– Ước tính chuyển động đối tượng (chuyển động 3-D)
• Phân loại ước tính chuyển động 2-D
– Luồng quang (Optical flow)
– Các phương pháp không tham số
• Các kĩ thuật ước tính chuyển động 2-D

– Tương quan
– Đệ qui
– Vi sai
• Kĩ thuật sử dụng phổ biến

– Kĩ thuật so khớp khối ảnh
10/05/2019 24
4.3.2- Dự đoán bù chuyển động
Tính tương tự giữa các ảnh liên tiếp trong một chuỗi video
10/05/2019 25
Nguyên tắc
Sự dự đoán cho tín hiệu mầu bên trong đối tượng dịch chuyển:
10/05/2019 26
Mã hóa video lai ghép bù chuyển động
• Mã hóa video lai ghép
– Kết hợp hai kỹ thuật:
• Dự đoán bù chuyển động
• Mã hóa khai triển sai số dự đoán
– Tất cả các tiêu chuẩn mã hóa video ITU-T và ISO/IEC đều theo nguyên lý này
• Dự đoán bù chuyển động
– Kỹ thuật then chốt cho mã hóa video
– Giảm tốc độ bit đáng kể so với mã hóa trong khung
• Mã hóa video lai ghép thực tế
– Không phải tất cả các phần của ảnh có thể được dự đoán hiệu quả từ một ảnh tham chiếu
• Không phải tất cả các thay đổi giữa các ảnh gây ra bởi chuyển động
• Một số phần có thể bị hấp thụ trong ảnh tham chiếu
• Chuyển động phức tạp không thể được bù tốt bằng mô hình chuyển động sử dụng
– Đối với một số phần, dự đoán bù chuyển động có thể giảm hiệu quả mã hóa
– Các bộ mã hóa video lai ghép thực tế cho phép chuyển mạch giữa dự đoán bù chuyển động
10/05/2019 và dự đoán trong khung 27
Cấu trúc bộ mã hóa video lai ghép bù chuyển động
10/05/2019 28
Cấu trúc bộ giải mã video lai ghép bù chuyển động
10/05/2019 29
Ví dụ dự đoán bù chuyển động
Khung khôi phục trước Khung hiện tại Phân chia khung hiện tại
10/05/2019
Tín hiệu dự đoán Tín hiệu sai số dự đoán Vị trí các khối tham chiếu 30
với các vector chuyển động trong khung trước
• Độ chính xác các tham số chuyển động
– Các vector (các tham số) chuyển động độ chính xác nguyên mẫu hoặc nhỏ hơn mẫu
– Đối với độ chính xác nhỏ hơn mẫu, một bộ lọc nội suy cần đến
• Các mô hình chuyển động cho mô tả chuyển động trong một vùng
– Mô hình đơn giản nhất: mô hình dịch chuyển  được sử dụng trong tất cả các chuẩn mã
hóa video
– Các mô hình chuyển động tham số bậc cao (vd: mô hình chuyển động affine)
• Sự lựa chọn các vùng có chuyển động không đổi (sử dụng cùng mô hình c/động)
– Về nguyên tắc, các vùng có hình dạng bất kì  cần phát sự phân vùng
– Trong các tiêu chuẩn mã hóa: các khối hình vuông hoặc chữ nhật (kích thước cố định hoặc
thay đổi)
• Sự lựa chọn ảnh tham chiếu
– Luôn sử dụng ảnh mã hóa/giải mã trước
– Lựa chọn một ảnh ngoài tập ảnh mã hóa/giải mã trước
• Số lượng giả thuyết chuyển động
– Dự đoán một vùng trong một khung hiện tại sử dụng một giả thuyết chuyển động đơn, tức
một ảnh tham chiếu với một vector chuyển động (hoặc tập tham số chuyển động)
10/05/2019
– Dự đoán có trọng số nhiều giả thuyết chuyển động
Mô hình phân tích
Ước tính dịch chuyển
10/05/2019
Dịch chuyển thực Sai số dịch chuyển 32
Mô hình sự phụ thuộc thời gian của chuỗi ảnh
• Mô hình tín hiệu liên tục
− Tín hiệu bị dịch chuyển có nhiễu trắng cộng
− Dự đoán bù chuyển động
− Gần đúng tốc độ cao:
Với là số hãng nhiễu

bị dịch (cùng tính chất thống kê)
− Tín hiệu sai số dự đoán sinh ra cho khung hiện tại
(bỏ qua chỉ số thời gian t)
10/05/2019 33
• Phân tích lý thuyết cho thấy
– Dự đoán bù chuyển động cải thiện hiệu suất mã hóa
– Hiệu suất dự đoán bù chuyển động tăng theo sự tăng độ chính xác vector dịch
chuyển
– Sự tăng độ chính xác chủ yếu hữu ích cho các tín hiệu video nhiễu thấp
• Dự đoán bù chuyển động trong thực tế

– Tốc độ bit yêu cầu phát các vector dịch chuyển tăng theo sự tăng độ chính xác
 Có một độ chính xác vector dịch chuyển tối ưu tại một mức nhiễu xác định
 Đối với chuỗi điển hình, một độ chính xác cao hơn sự dịch chuyển phần tư mẫu
không cung cấp độ lợi hiệu suất mã hóa đáng kể (đối với dữ liệu nhiễu thấp: độ
chính xác phần tám có thể cho thấy độ lợi)
– Các bộ lọc nội suy được yêu cầu cho MCP độ chính xác nhỏ hơn mẫu
 Các bộ lọc nội suy có tác động lớn đến hiệu suất mã hóa
10/05/2019  Các bộ lọc nội suy độ chính xác cao hơn đòi hỏi độ phức tạp lớn hơn 34
Độ chính xác vector dịch chuyển trong các chuẩn mã hóa video
• H.262 | MPEG-2 Video, H.263 và MPEG-4 Visual (Ver.1)
– Các vector dịch chuyển độ chính xác nửa mẫu
– Tín hiệu dự đoán tại các vị trí nửa mẫu thu được bằng phép nội suy song tuyến
• Chuẩn đơn giản nâng cấp của MPEG-4 Visual
– Các vector dịch chuyển độ chính xác phần tư mẫu
– Tín hiệu dự đoán tại các vị trí nửa mẫu: Bộ lọc FIR 8 nhánh tách biệt
– Tín hiệu dự đoán tại các vị trí phần tư mẫu: nội suy song tuyến các vị trí nguyên lần và nửa
mẫu
• H.264 | MPEG-4 AVC
– Tín hiệu dự đoán tại các vị trí nửa mẫu: Bộ lọc FIR 6 nhánh tách biệt
– Tín hiệu dự đoán tại các vị trí phần tư mẫu: trung bình hai vị trí nguyên lần và nửa mẫu
• H.265 | MPEG-H HEVC
– Tín hiệu dự đoán tại các vị trí nửa và phần tư mẫu: Bộ lọc FIR 8 và 7 nhánh tách biệt (phụ
10/05/2019 thuộc dịch nhỏ hơn mẫu) 35
Hiệu suất dự đoán bù chuyển động
So sánh mã hóa trong khung HEVC và mã hóa bù chuyển động dựa trên HEVC tại độ
chính xác vector chuyển động khác nhau
• Tiết kiệm tốc độ bit tại một giá trị PSNR thu được bằng nội suy đường cong r-d
• Tiết kiệm tốc độ bit trung bình thu được bằng tính trung bình mức tiết kiệm cho 100
giá trị PSNR
10/05/2019 36
Mô hình chuyển động cho dự đoán bù chuyển động
• Mô hình dịch chuyển trong mặt phẳng ảnh
– Chuyển động của một vùng được mô tả bởi vector dịch chuyển 2-D
– Được sử dụng trong tất cả các chuẩn mã hóa video của ITU-T và ISO/IEC
– Chỉ có thể mô tả lượng nhỏ của chuyển động thực
• Mô hình chuyển động bậc cao
– Chuyển động trong mặt phẳng ảnh gây ra bởi chuyển động trong không gian 3-D
– Giả sử các hạn chế hợp lí cho chuyển động trong không gian 3-D (vd: chuyển động cơ thể
cứng), chuyển động trong mặt phẳng ảnh có thể được mô tả bởi một mô hình tham số
với a là một vector tham số không đổi
– Ưu điểm của các mô hình chuyển động bậc cao
 Gần đúng tốt hơn chuyển động thực so với mô hình dịch chuyển
– Nhược điểm của các mô hình chuyển động bậc cao
 Tốc độ bit tăng lên để phát các tham số chuyển động
 Độ phức tạp tăng lên và khả năng ước tính chuyển động giảm xuống
10/05/2019 37
Sự phân chia ảnh cho dự đoán bù chuyển động
• Phân chia thành các khối vuông kích thước cố
định
− Sự phân chia không cần truyền đi
− Độ linh hoạt thấp
− H.262 | MPEG-2 Video
• Một vector chuyển động trên mỗi MB 16x16
• Phân chia thành các khối vuông kích thước biến
đổi
− Sự phân chia cần phải truyền đi
− Tiếp cận đơn giản: phân chia dạng cây phần tư
− Tăng độ linh hoạt
− H.263 | MPEG-4 Visual
• Các khối 16x16 hoặc 8x8 cho MCP
− H.264 | MPEG-4 AVC
• Các khối 16x16 tới 4x4 + các khối không vuông
−
10/05/2019 H.265 | MPEG-H HEVC 38
• Các khối 64x64 tới 8x8 + các khối không vuông
Các khối không vuông cho dự đoán bù chuyển động
• Phân chia thành các khối chữ nhật kích thước thay đổi
– Điển hình kết hợp với phân chia dựa trên quadtree thành các khối vuông
– Các khối vuông cũng có thể được phân chia thành 2 khối chữ nhật
– Mức độ linh hoạt tăng lên (tốc độ thông tin bổ sung cũng tăng thêm)
– H.264 | MPEG-4 AVC:
• Phân chia chiều dọc và ngang đối xứng (cho các khối 16x16 và 8x8)
– H.264 | MPEG-4 AVC:
• Phân chia đối xứng và bất đối xứng (cho các khối 64x64 đến 16x16/8x8)
10/05/2019 39
Sự lựa chọn ảnh tham chiếu cho dự đoán bù chuyển động
• Nhiều ảnh tham chiếu
– MCP không bị giới hạn để sử dụng ảnh giải mã trước
– Nhiều ảnh giải mã có thể được lưu trong một bộ đệm ảnh tham chiếu
– Ảnh tham chiếu sử dụng được chỉ ra bằng mã hóa một chỉ số
– Tốc độ thông tin bổ sung tăng lên nhưng dự đoán sẽ được cải thiện
– Được hỗ trợ trong H.263++, H.264/AVC và H.265/HEVC
10/05/2019 40
4.4.1- Giới thiệu
• Nguyên lý so khớp khối ảnh
• Phân chia khung hiện tại thành các khối
• Xác định một vector dịch chuyển cho mỗi khối
• Tìm so khớp tốt nhất trong khung tham chiếu
bằng tối thiểu hóa chi phí Lagrange D + .R
D: méo SSD cho khối ảnh
R: số bit cho khối ảnh khi mã hóa
• Đo méo so khớp khối ảnh

– Điển hình: méo SAD
– Độ đo thay thế:
• Méo SSD
• SAD trong miền khai triển
• Tương quan chéo
• Khó khăn trong xác định các tham số dịch chuyển bởi so khớp khối
– Không khả thi để đánh giá tất cả các vector chuyển động có thể (có quá nhiều)
 Đòi hỏi các chiến lược tìm kiếm thông minh (chỉ kiểm tra các vector chuyển động có
10/05/2019 41
khả năng nhất)
Tiêu chí so khớp
• Tổng độ lệch bình phương (SSD) để xác định sự tương tự
• Tiêu chuẩn so khớp thay thế: SAD (Tổng độ lệch tuyệt đối), tương quan
chéo
10/05/2019 42
• Mô tả giải thuật so khớp khối
Cửa sổ đo được so sánh với các khối bị Khối mẫu được xem xét trong khung hiện tại
dịch khác trong khung tham chiếu và khung được lựa chọn như một cửa sổ đo.
khớp nhất sẽ được xác định.
10/05/2019 43
• Mô tả giải thuật so khớp khối
Khối ảnh được so sánh với mảng pixel bị dịch Khối pixel được xem xét.
trong khung tham chiếu để xác định so khớp tốt
nhất.
10/05/2019 44
• Các giá trị đo chi phí bên trong một cửa sổ tìm kiếm
Vector chuyển động độ chính xác

nguyên lần mẫu được ước tính.
10/05/2019 45
4.4.2- Các thuật toán tìm kiếm
a. Tìm kiếm đầy đủ
• Tìm kiếm toàn bộ:
 Đánh giá tất cả các vector chuyển động có
thể (các dịch chuyển) bên trong một cửa sổ
tìm kiếm hình vuông
 Tính toán rất phức tạp
 Có khả năng thực hiện song song, đều đặn
• Sự lựa chọn cửa sổ tìm kiếm:

– Thường đặt trung tâm quanh vector chuyển động zero
– Cũng có thể đặt trung tâm quanh bộ dự đoán vector chuyển động
– Kích cỡ có thể được thích ứng trong quá trình mã hóa một ảnh
10/05/2019
– Kích cỡ có thể được tăng lên dưới các điều kiện xác định 46
b. Các phương pháp giảm mức độ phức tạp
• Độ phức tạp của so khớp khối ảnh
– Đánh giá phép đo sai số phức tạp cho nhiều ứng cử
• Hai tiếp cận để giảm độ phức tạp bộ mã hóa

Độ phức tạp phép đo sai số Số lượng các ứng cử viên tìm kiếm
 Gần đúng nhanh  Bỏ qua các vùng không khả năng
 Kết thúc sớm trong tìm kiếm
 Loại trừ các ứng cử viên  Tăng hoặc giảm thích ứng khoảng
cách giữa các ứng cử viên tìm kiếm
• Kết hợp cả hai tiếp cận

– Chọn điểm bắt đầu vầ trật tự tìm kiếm để tối đa hóa khả năng gần đúng hiệu
quả, kết thúc sớm và loại trừ các ứng cử viên.
10/05/2019 47
c. Tính gần đúng nhanh
• Tiếp cận cơ bản: Dừng tìm kiếm nếu so khớp đủ tốt
– Phép đo méo D nhỏ hơn một ngưỡng
– Chi phí Lagrange D + .R nhỏ hơn một ngưỡng
• Phương pháp thực tế trong hội nghị truyền hình (nền tĩnh)
– Đánh giá vector zero và dừng tìm kiếm nếu so khớp đủ tốt
10/05/2019 48
d. Kết thúc nhanh
• So sánh các phép đo chi phí từng phần
– Phép đo méo từng phần cho kích thước khối với
– So sánh phép đo chi phí từng phần với chi phí nhỏ nhất được xác định trước
– Kết thúc sớm không có tổn thất
Dừng nếu:
– Kết thúc sớm có tổn thất (nhưng tốc độ cao hơn)
Dừng nếu:
Hàm trọng số:
10/05/2019 49
d. Loại trừ sớm các ứng cử viên
• Tăng tốc cho so sánh khối ảnh
– Bất đẳng thức tam giác cho các mẫu trong một khối (cho SAD)
– Chiến lược cơ bản

1. Tính tổng giá trị các mẫu cho tất cả các vị trí khối trong khung tham chiếu (tính
trung bình cửa sổ trượt có thể được tính theo một cách dễ dàng)
2. Tính tổng giá trị các mẫu cho khối hiện tại
3. Bỏ qua tính toán méo hoàn toàn nếu độ lệch giữa tổng các giá trị mẫu thu được
phép đo chi phí lớn hơn giá trị nhỏ nhất trước đó.
– Kết hợp với các khối dự đoán kích thước biến đổi (H.264/AVC, H.265/HEVC)
• Bắt đầu bằng tính toán tổng mẫu cho kích thước khối được hỗ trợ nhỏ nhất
• Tổng cho các khối lớn hơn thu được bằng cộng các tổng của các khối nhỏ hơn
10/05/2019 50
 Tăng tốc độ cho kích thước khối lồng nhau
e. Tìm kiếm logarith 2-D
• So sánh lặp lại các phép đo chi phí
tại 5 điểm (các góc và trung tâm)
của một mẫu dạng kim cương.
• Mẫu chuyển động ở trung tâm
quanh vị trí so khớp tốt nhất
– Không nhiều hơn 3 ứng cử viên mới
• Sàng lọc logarith mẫu tìm kiếm (4
ứng cử viên mới) nếu
– So khớp tốt nhất là ở trung tâm của mẫu
– Hoặc ở biên của phạm vi tìm kiếm
• Tìm kiếm chuyển động được kết
thúc nếu
– So khớp tốt nhất là ở trung tâm của mẫu
– Và kích thước mẫu nhỏ nhất được sử
10/05/2019 51
dụng
f. Tìm kiếm 3 bước (TSS)
• So sánh lặp lại các phép đo chi phí
tại 9 điểm (các góc và trung tâm).
• Các bước thực hiện
– Bước 1: Bắt đầu vị trí tìm kiếm tại tâm
với cỡ bước S = 4. Tìm kiếm tại 8 vị trí
+/-S pixel quanh vị trí (0,0)
– Bước 2: Điểm có chi phí nhỏ nhất được
đặt làm tâm tìm kiếm mới và đặt cỡ bước
S = S/2.
– Bước 3: Lặp lại tìm kiếm tương tự cho
đến S = 1. Vị trí có hàm chi phí nhỏ nhất
và MB tại vị trí đó là khớp tốt nhất.
• Giảm mức độ tính toán 9 lần
10/05/2019 52
f. Tìm kiếm dạng kim cương
• Tìm kiếm lặp với 9 điểm của một mẫu kim cương
• Chiến lược tìm kiếm tương tự như tìm kiếm logarith 2-D
Bắt đầu với mẫu Nếu so khớp tốt Nếu so khớp tốt nhất không
kim cương lớn tại nhất là ở tâm của nằm ở tâm của mẫu kim
vector chuyển động kim cương lớn, tiếp cương, đặt tâm mẫu kim
(0,0) hoặc tại một tục với một mẫu cương tiếp theo tại điểm so
vector dự đoán kim cương nhỏ hơn khớp tốt nhất
10/05/2019 53
g. So khớp phân cấp
• Bắt đầu bằng các ảnh giảm mẫu
• Tinh chỉnh vector chuyển động từ mức phân cấp này sang mức
phân cấp kế tiếp
10/05/2019 54
Lựa chọn điểm bắt đầu
• Lựa chọn điểm bắt đầu không thích ứng
– Sử dụng vector chuyển động (0,0) như điểm bắt đầu của tìm kiếm chuyển động
 Phù hợp cho các ứng dụng như hội nghị truyền hình
 Có vấn đề nếu các chuyển động lớn xảy ra trong chuỗi video
– Sử dụng bộ dự đoán vector chuyển động như điểm bắt đầu tìm kiếm chuyển
động
 Tạo ra kết thúc tìm kiếm chuyển động nhanh hơn
• Lựa chọn điểm bắt đầu thích ứng
− Ý tưởng chung: Chuyển động của một khối tương
tự ít nhất một trong các khối lân cận
− Đầu tiên đánh giá các vector chuyển động của các
khối lân cận đã được tính
• Ví dụ: Các khối A, B, C và D
• Các ứng viên cũng có thể bao gồm một vector
chuyển động được dự đoán về thời gian
− Chọn so khớp tốt nhất trong các ứng cử như điểm
10/05/2019 55
bắt đầu của tìm kiếm chuyển động
Ước tính vector chuyển động độ chính xác nhỏ hơn mẫu
• Vector chuyển động độ chính xác nhỏ hơn mẫu
− Các vector chuyển động thường không bị giới
hạn về các dịch chuyển độ chính xác nguyên
lần mẫu
− Các độ chính xác điển hình nhỏ hơn mẫu: Một
nửa và một phần tư mẫu
• Ước tính phép dịch nhỏ hơn mẫu
− Điển hình: Sự tinh chỉnh nhỏ hơn mẫu lặp lại sử
dụng sự dịch nguyên lần mẫu tốt nhất
• Kiểm tra 8 ứng cử viên nửa mẫu quanh so
khớp nguyên lần mẫu tốt nhất
• Kiểm tra 8 ứng viên phần tư mẫu quanh so
khớp nửa mẫu tốt nhất
− Yêu cầu nội suy các giá trị mẫu tại các vị trí nhỏ
hơn mẫu
10/05/2019 56
4.5.1- Chuẩn H261-H263
• Mã hóa lai ghép bù chuyển động:
10/05/2019 57
4.5.1- Chuẩn H261-H263
• Tổ chức ITU và các nhóm liên quan đến video:
10/05/2019 58
4.5.1- Chuẩn H261-H263
• Tổ chức ISO/IEC và các nhóm liên quan đến video:
10/05/2019 59
4.5.1- Chuẩn H261-H263
• Các yêu cầu cho một tiêu chuẩn mã hóa video:
 Khả năng tương tác: cần đảm bảo rằng các bộ mã hóa và giải mã từ
các nhà sản xuất khác nhau làm việc được với nhau một cách trơn tru.
 Sự đổi mới: cần thực hiện sự cải thiện tốt hơn đáng kể chuẩn trước.
 Sự cạnh tranh: cần đủ linh hoạt để cho phép sự cạnh tranh giữa các
nhà sản xuất dựa trên chỉ tiêu kĩ thuật. Chỉ tiêu chuẩn hóa cú pháp
luồng bit và bộ giải mã tham chiếu.
 Sự độc lập với môi trường truyền dẫn và lưu trữ: cần đủ linh hoạt để
được sử dụng cho nhiều ứng dụng khác nhau.
 Khả năng tương thích trước: cần giải mã được các luồng bit từ tiêu
chuẩn trước.
 Khả năng tương thích ngược: các bộ giải mã thế hệ trước cần có thể
giải mã một phần các luồng bit mới.
10/05/2019 60
4.5.1- Chuẩn H261-H263
• Quá trình phát triển tiêu chuẩn:
10/05/2019 61
4.5.1- Chuẩn H261-H263
• ITU-T Rec. H.261:
 Tiêu chuẩn quốc tế cho các hệ thống điện thoại có hình ISDN và
hội thảo truyền hình (1990).
 Định dạng ảnh: CIF (352 x 288 mẫu Y) hoặc QCIF (176 x 144
mẫu Y), tốc độ khung 7,5 – 30 fps
 Tốc độ bit: nguyên lần 64 Kb/s (= kênh ISDN), điển hình 128
Kb/s bao gồm cả audio.
 Chất lượng hình ảnh: có thể chấp nhận được ở 128 Kb/s với sự
chuyển động trong bối cảnh bị giới hạn.
 Hệ thống hội thảo truyền hình độc lập hoặc hệ thống hội thảo
truyền hình để bàn tích hợp với máy tính.
10/05/2019 62
4.5.1- Chuẩn H261-H263
• Các định dạng ảnh:
10/05/2019 63
4.5.1- Chuẩn H261-H263
• Các khối ảnh lớn H.261:
 Khối ảnh lớn (MB) cỡ 16x16 pixels
 Khuôn dạng lấy mẫu: 4:2:0
 MB bao gồm 4 khối độ sáng và 2 khối sắc độ
10/05/2019 64
4.5.1- Chuẩn H261-H263
• Dự đoán bù chuyển động H.261:
 Độ chính xác nguyên lần pel
 Một vector dịch chuyển cho mỗi MB
 Vector dịch chuyển cực đại nằm trong dải +/- 16 chiều ngang và
chiều dọc.
 Bộ lọc vòng lặp thích ứng, có thể tách biệt đáp ứng xung 1D
chiều ngang và chiều dọc: [1/4, 1/2, 1/4]
 Mã hóa vi sai các vector chuyển động
10/05/2019 65
4.5.1- Chuẩn H261-H263
• Mã hóa phần dư trong H.261:
 8x8 DCT
 Lượng tử hóa
• Bộ lượng tử hóa đều (=8) cho các hệ số DC trong chế độ mã hóa trong
khung
• Bộ lượng tử hóa ngưỡng đều (=2,4,…,62) cho các hệ số AC trong chế độ
mã hóa trong và tất cả các hệ số trong chế độ mã hóa liên khung
 Quét zig-zag.
 Mã hóa độ dài chạy cho mã hóa entropy
• Các ký hiệu (độ dài chạy zero, giá trị)
• Độ dài chạy zero: số lượng các hệ số được lượng tử hóa về 0 tính từ hệ số
khác không cuối cùng.
• Giá trị: biên độ của hệ số khác không hiện tại
10/05/2019 66
4.5.1- Chuẩn H261-H263
• Các kiểu khối ảnh lớn trong H.261 (Bảng VLC):
10/05/2019 67
4.5.1- Chuẩn H261-H263
• ITU-T Rec. H.263:
 Tiêu chuẩn quốc tế cho điện thoại có hình trên đường dây thuê
bao analog (1995)
 Định dạng ảnh: CIF, QCIF hoặc Sub-QCIF, tốc độ khung luôn
dưới 10 fps
 Tốc độ bit: bất kì, điển hình 20 Kb/s cho PSTN
 Chất lượng hình ảnh: có các lựa chọn mới tốt như H.261 (tại
một nửa tốc độ)
 Điện thoại video PC hoặc TV set-top box
 Được sử dụng rộng rãi như phương tiện nén cho phát video trực
tuyến trên mạng Internet
 H.263 cũng là lõi nén video của chuẩn MPEG-4
10/05/2019 68
4.5.1- Chuẩn H261-H263
• H.261 vs. H.263:
 Bù chuyển động được cải thiện
 VLC 3-D được cải thiện cho các hệ số DCT
 Mào đầu được rút gọn
 Hỗ trợ nhiều định dạng ảnh hơn
 Các đặc trưng tùy chọn được định nghĩa trong các phụ lục
• Các vector chuyển động không bị giới hạn (Phụ lục D)
• Mã hóa số học dựa trên cú pháp (Phụ lục E)
• Chế độ dự đoán tiên tiến (Phụ lục F)
– Bù chuyển động khối xếp chồng (OBMC)
– Chuyển mạch giữa 1 hoặc 4 vector chuyển động trên mỗi MB
• Các ảnh PB (Phụ lục G)
10/05/2019  Các đặc trưng tùy chọn bổ sung trong H.263++ (2001) 69
4.5.1- Chuẩn H261-H263
• Hiệu năng của H.263 và H.261:
10/05/2019 70
4.5.1- Chuẩn H261-H263
• H.263: Bù chuyển động khối xếp chồng (OBMC)
10/05/2019 71
4.5.1- Chuẩn H261-H263
• H.263: Bù chuyển động khối xếp chồng (OBMC)
 Ý tưởng: xếp chồng một số tín hiệu dự đoán, sử dụng các vector
chuyển động từ các khối lân cận
Hàm cửa sổ cho

khối b
10/05/2019 72
4.5.1- Chuẩn H261-H263
• Hàm cửa sổ OBMC:
 Hàm cửa sổ luôn giống nhau cho mỗi khối,
Điểm tham chiếu của các khối i,j, vd: trung tâm khối
 Hàm cửa sổ được tối ưu cho MSE nhỏ nhất
10/05/2019 73
4.5.1- Chuẩn H261-H263
10/05/2019 74
Phân bố sai số không dùng OBMC
4.5.1- Chuẩn H261-H263
10/05/2019 75
Phân bố sai số sử dụng OBMC
4.5.1- Chuẩn H261-H263
• Trọng số OBMC:
Đối với vector chuyển động của khối độ sáng hiện

tại
Cho vector chuyển

động xa của khối độ
sáng đỉnh/đáy
Cho vector chuyển động xa của

khối độ sáng trái/phải
10/05/2019 76
4.5.1- Chuẩn H261-H263
• Hiệu năng của H.263 chế độ PB:
10/05/2019 77
4.5.1- Chuẩn H261-H263
• Các hệ thống truyền thông nghe nhìn: H.320/H.323/H.324
10/05/2019 78
4.5.1- Chuẩn H261-H263
• Các đầu cuối đa phương tiện H.324
10/05/2019 79
4.5.2- Chuẩn MPEG
 Tiêu chuẩn MPEG-1 (1991) (ISO/IEC 11172)
• Tốc độ bit mục tiêu khoảng 1,5 Mb/s
• Định dạng ảnh điển hình CIF, không có xen kẽ
• Tốc độ khung 24 … 30 fps
• Ứng dụng chính: lưu trữ video trong đa phương tiện (VD: trên CD-ROM)
• Mở rộng cho xen kẽ, tối ưu cho độ phân giải TV (NTSC: 704x480 pixel)
• Chất lượng ảnh tương tự NTSC, PAL, SECAM tại 4 – 8 Mb/s
• HDTV tại 20 Mb/s
• Mã hóa dựa trên đối tượng
• Dải rộng các ứng dụng, có các lựa chọn về tính tương tác, khả năng mở
rộng, chịu lỗi, .v.v.
10/05/2019 80
4.5.2- Chuẩn MPEG
• MPEG-1/2: Cấu trúc GOP
 Nhóm ảnh = GOP, cấu trúc GOP rất linh hoạt
10/05/2019 81
4.5.2- Chuẩn MPEG
• Bộ mã hóa MPEG-1:
10/05/2019 82
4.5.2- Chuẩn MPEG
• MPEG-1: mã hóa ảnh I
 I-Picture: mã hóa trong khung
 DCT 8x8
 Ma trận trọng số tùy biến cho các hệ số
 Mã hóa vi sai các hệ số DC
 Lượng tử hóa đều
 Quét zig-zag, mã hóa độ dài chạy
 Mã hóa entropy
 Không phải giống JPEG hoàn toàn

10/05/2019 83
4.5.2- Chuẩn MPEG
• MPEG-1: mã hóa ảnh P
 Dự đoán bù chuyển động từ một I-Picture hoặc P-Picture
(DPCM)
 Độ chính xác nửa pel của bù chuyển động, nội suy song tuyến
 Một vector dịch chuyển trên mỗi macroblock
 Mã hóa vi sai các vector dịch chuyển
 Mã hóa sai số dự đoán với DCT 8x8, lượng tử hóa ngưỡng đều,
quét zig-zag như trong I-Picture
10/05/2019 84
4.5.2- Chuẩn MPEG
• MPEG-1: mã hóa ảnh B
 Dự đoán bù chuyển động từ hai I-Picture hoặc P-Picture liên tiếp
• Hoặc
 Chỉ dự đoán thuận (1 vector/macroblock)
• Hoặc
 Chỉ dự đoán ngược (1 vector/macroblock)
• Hoặc
 Trung bình của dự đoán thuận và ngược = nội suy (2 vectors/macroblock)
 Độ chính xác nửa pel của bù chuyển động, nội suy song tuyến
 Mã hóa sai số dự đoán với DCT 8x8, lượng tử hóa ngưỡng đều,
10/05/2019
quét zig-zag như trong I-Picture 85
4.5.2- Chuẩn MPEG
• MPEG-2 vs. MPEG-1:
 Nén hiệu quả video số xen kẽ ở mức chất lượng quảng bá
• Các ảnh trường/khung
• Lấy mẫu sắc độ
• Các chế độ dự đoán mới
• DCT trường/khung
• Các mẫu quét bổ sung cho các hệ số DCT
• Bù chuyển động với các khối có kích thước 16x8 pels
 Hiệu suất mã hóa được cải thiện bằng các bảng lượng tử hóa,
VLC khác nhau
10/05/2019
 Các chế độ định cỡ khác nhau 86
4.5.2- Chuẩn MPEG
• Mã hóa video xen kẽ:
Các cấu trúc

ảnh khung
và trường
10/05/2019 87
4.5.2- Chuẩn MPEG
Dự đoán
trường cho
các ảnh
trường
10/05/2019 88
4.5.2- Chuẩn MPEG
Dự đoán trường cho các ảnh khung
10/05/2019 89
4.5.2- Chuẩn MPEG
Nguyên tố kép cho các ảnh P
10/05/2019 90
4.5.2- Chuẩn MPEG
 DCT khung/trường
 Quét luân phiên
10/05/2019 91
4.5.2- Chuẩn MPEG
• MPEG-4:
 Hỗ trợ các ứng dụng đa phương tiện tính tương tác cao cũng như cả
các ứng dụng truyền thống
 Các chức năng tiên tiến: tính tương tác, tính định cỡ, chống lỗi,…
 Mã hóa audio và video tự nhiên và tổng hợp, cũng như cả đồ họa
 Cho phép ghép các đối tượng nghe nhìn và thành phần trong một bối
cảnh
• Video trên mạng LAN, video internet
• Video không dây
• Cơ sở dữ liệu video
• Bán hàng tương tác
• Thư điện tử có hình, xem phim theo yêu cầu
• Trò chơi thực tại ảo, mô phỏng bay, đào tạo
10/05/2019 92
đa góc nhìn
4.5.2- Chuẩn MPEG
• MPEG-4: Bối cảnh có các đối tượng nghe nhìn
10/05/2019 93
4.5.2- Chuẩn MPEG
• MPEG-4: Mã hóa video
 Mã hóa video cơ bản
• Định nghĩa đối tượng video (VO), lớp đối tượng video (VOL), mặt phẳng đối tượng
video (VOP)
• Hiệu suất mã hóa được cải thiện vs. MPEG-1/2
– Dựa trên đường cơ sở H.263
– Bù chuyển động toàn cục
– Các họa tiết
– Bù chuyển động 1/4 pixel
 Mã hóa video dựa trên đối tượng

• Mã hóa dạng nhị phân
• Mã hóa dạng sơ đồ 
• Chèn cho DCT dựa trên khối của phần kết cấu
• DCT thích ứng hình dạng
 DWT cho mã hóa kết cấu dừng

10/05/2019  Hiệu ứng cử động lưới, cử động mặt và cơ thể 94
4.5.2- Chuẩn MPEG
• MPEG-4: DCT thích ứng hình dạng
10/05/2019 95

Chương 4 Xu Li Video

Uploaded by

Document Information

Copyright

Available Formats

Share this document

Share or Embed Document

Sharing Options

Did you find this document useful?

Is this content inappropriate?

Copyright:

Available Formats

Chương 4 Xu Li Video

Uploaded by

Copyright:

Available Formats

Bộ môn: Tín hiệu và Hệ thống

• Video mầu có 3 giá trị mầu tại mỗi pixel (m,n,k)

– Nó cũng được xác định theo độ lớn và góc biến đổi

 Khai thác tương quan thời gian giữa các khung

• Độ phân giải điểm ảnh (số điểm trên mỗi đường)

• Intra picture (I-Picture)

• Inter Picture (P-Picture, B-Picture)

• Các kĩ thuật ước tính chuyển động 2-D

• Kĩ thuật sử dụng phổ biến

Ước tính dịch chuyển

− Dự đoán bù chuyển động

− Gần đúng tốc độ cao:

Với là số hãng nhiễu

• Dự đoán bù chuyển động trong thực tế

• Đo méo so khớp khối ảnh

Vector chuyển động độ chính xác

• Sự lựa chọn cửa sổ tìm kiếm:

• Hai tiếp cận để giảm độ phức tạp bộ mã hóa

• Kết hợp cả hai tiếp cận

– Chi phí Lagrange D + .R nhỏ hơn một ngưỡng

Hàm trọng số:

– Chiến lược cơ bản

Hàm cửa sổ cho

 Hàm cửa sổ được tối ưu cho MSE nhỏ nhất

Đối với vector chuyển động của khối độ sáng hiện

Cho vector chuyển

Cho vector chuyển động xa của

 Ma trận trọng số tùy biến cho các hệ số

 Mã hóa vi sai các hệ số DC

 Lượng tử hóa đều

 Quét zig-zag, mã hóa độ dài chạy

 Không phải giống JPEG hoàn toàn

 Một vector dịch chuyển trên mỗi macroblock

 Mã hóa vi sai các vector dịch chuyển

 Chỉ dự đoán thuận (1 vector/macroblock)

 Chỉ dự đoán ngược (1 vector/macroblock)

 Trung bình của dự đoán thuận và ngược = nội suy (2 vectors/macroblock)

• Lấy mẫu sắc độ

• Các chế độ dự đoán mới

• Các mẫu quét bổ sung cho các hệ số DCT

• Bù chuyển động với các khối có kích thước 16x8 pels

Các cấu trúc

 Quét luân phiên

 Mã hóa video dựa trên đối tượng

 DWT cho mã hóa kết cấu dừng

You might also like