You are on page 1of 39

XỬ LÝ ÂM THANH & HÌNH ẢNH

CHƯƠNG 4
KỸ THUẬT XỬ LÝ VIDEO
BÀI GIẢNG MÔN

XỬ LÝ ÂM THANH & HÌNH ẢNH


Chương 4: Kỹ thuật xử lý Video

05/05/2021 2
Chương 4- Kỹ thuật xử lý Video
4.1 Giới thiệu chung
4.2 Mã hóa Video bù chuyển động
4.3 Phân tích chuyển động
4.4 Kỹ thuật so khớp khối
– Tiêu chí so khớp khối
– Các thủ tục tìm kiếm
4.5 Dự đoán ảnh (bù chuyển động)
4.6 Một số chuẩn mã hóa Video ứng dụng trong truyền
thông
– Các chuẩn nén video H26x của ITU
– Chuẩn nén video MPEG
05/05/2021 3
4.1- Giới thiệu chung
4.1.1- Khái niệm cơ bản về Video và xử lý Video
a) Khái niệm:
- Video là một chuỗi các ảnh/ khung hình tạo cảm giác về sự
chuyển động khi được trình chiếu/ hiện thị một cách liên
tiếp.
- Video là kết hợp của chuyển động và âm thanh.

05/05/2021 4
4.1- Giới thiệu chung
4.1.1- Khái niệm về video & xử lý video
b)- Xử lý video số
 Xử lý video số liên quan đến xử lý máy tính để
– Trích xuất thông tin
– Phục hồi, tăng cường ảnh video
– Chuyển đổi tiêu chuẩn
– Phân tích chuyển động
– Nén video cho việc lưu trữ và truyền thông
 Xử lý video:
− Xử lý chuỗi ảnh, mỗi ảnh được xử lý độc lập
− Xử lý đa khung (liên khung)
 Khai thác tương quan thời gian giữa các khung
− Lọc bù chuyển động
05/05/2021 − Dự đoán bù chuyển động 5
4.1- Giới thiệu chung
4.1.2- Các mô hình màu trong Video
- Các ảnh trước khi truyền, được quét với 3 thiết bị quang,
mỗi một trong số chúng đều có một bộ lọc màu khác
nhau đặt ở phía trước của thiết bị.
- Ba kênh (R, G, B) được hiệu chỉnh sao cho nếu một
vùng trắng đều được quét, thì cả 3 đầu ra phải có điện
áp cân bằng nhau.
- Vì mắt người có độ nhạy khác nhau đối với các màu có
cùng cường độ, nên độ chói phải được bổ sung thêm
các trọng số. Độ chói của t/h Y:
Y= 0.299R+0.587G+0.114B (4.1)
- Do một sắc màu đc xác định: nếu hai trong số ba màu
cơ bản được biết, nên chỉ cần truyền đi thông tin của 2
t/h. Màu thứ 3 sẽ được tính toán lại tại phía thu  đưa
05/05/2021ra mô hình màu khác nhau trong truyền dẫn t/h video. 6
4.1- Giới thiệu chung
4.1.2- Các mô hình màu trong Video
+ Mô hình YUV:
(được sử dụng cho tín hiệu video tương tự hệ PAL)

- T/h màu U, V:

(4.2)

- Chuyển đổi RGB thành YUV:


(4.3)

05/05/2021 7
4.1- Giới thiệu chung
4.1.2- Các mô hình màu trong Video
+ Mô hình YIQ: (được sử dụng cho t/h video màu NTSC)
- Do U và V không biểu thị hết phân cấp bậc thấp nhất về
độ nhạy hiển thị của người. NTSC đã sử dụng I và Q
thay thế.
- YIQ được xem như là một phiên bản của YUV, với cùng
một Y nhưng với U và V được quay đi góc 33 °
- T/h màu U, V:

(4.4)

- Chuyển đổi RGB thành YIQ:


(4.5)
05/05/2021 8
4.1- Giới thiệu chung
4.1.2- Các mô hình màu trong Video
+ Mô hình YCbCr:
- Chuẩn quốc tế cho các tín hiệu video số (ITU-R BT.601-
4). Tiêu chuẩn này dùng một không gian màu YCbCr.
Biến đổi YCbCr được sử dụng trong nén ảnh JPEG và
nén video MPEG
- T/h màu Cb, Cr:
(4.6)

- Chuyển đổi RGB thành YCbCr:


(3.7)
05/05/2021 9
4.1- Giới thiệu chung
4.1.2- Các mô hình màu trong Video

+ Bài tập 1:

The conversion between RGB and YCbCr


coordinate is shown below:
a) Determine the YCbCr coordinate for a color that
is specified in (R,G,B) coordinate with R=100,
G=200, B=50.
b) Determine the (R,G,B) coordinate for a color
specified in the YCbCr coordinate with Y=100,
Cb=50, Cr=30.
05/05/2021 10
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Lấy mẫu thành phần video số
– 4:4:4; 4:2:2; 4:1:1; 4:2:0

05/05/2021 11
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Tiêu chuẩn 4:4:4
- Tổng cộng: 12 mẫu, 4 cho Y, CB, CR.
- Tổng cộng: 12 x 8 = 96 bits, trung bình 96/4 = 24 bits/pixel.
- Tần số lấy mẫu cho các thành phần Y, CB, CR là 13,5MHz.
- Số hóa tín hiệu video có độ phân giải 720x576 (hệ PAL), 8
bit lượng tử/pixel, 25 f/s. Luồng dữ liệu số nhận được sẽ có
tốc độ : 3 x 720 x 576 x 8 x 25= 249 Mbits/s

05/05/2021 12
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Tiêu chuẩn 4:2:2
- Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên
dòng tích cực của tín hiệu video.
- Tín hiệu màu trên mỗi dòng được lấy mẫu với tần số = 1/2
tần số lấy mẫu tín hiệu chói.
- Tần số lấy mẫu cho các thành phần Y= 13,5MHz, Cb =
6,75MHz, Cr = 6,75MHz.

05/05/2021 13
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Tiêu chuẩn 4:2:0
- Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên
dòng tích cực của tín hiệu video.
- Nếu tần số lấy mẫu tín hiệu chói là fD, tần số lấy mẫu tín
hiệu màu sẽ là fD/2. Tần số lấy mẫu cho các thành phần Y=
13,5MHz; CB = CR = 6,75MHz.
- Chỉ sử dụng 6 mẫu: 4 cho Y và 1 cho mỗi Cb và Cr, yêu cầu
tổng cộng 6 x 8 = 48 bits, trung bình 48/4 = 12 bits/ điểm
ảnh.

05/05/2021 14
4.1- Giới thiệu chung
4.1.3- Các khuôn dạng lấy mẫu YCbCr
• Tiêu chuẩn 4:1:1
- Tín hiệu chói được lấy mẫu tại tất cả các điểm lấy mẫu trên
dòng tích cực của tín hiệu video.
- Tín hiệu màu trên mỗi dòng được lấy mẫu với tần số bằng
một phần tư tần số lấy mẫu tín hiệu chói .
- Nếu tần số lấy mẫu tín hiệu chói là f D, thì tần số lấy mẫu tín
hiệu màu CR và CB sẽ là fD/4. Tần số lấy mẫu cho các thành
phần Y= 13,5MHz; CB = CR = 3,375MHz.
Tiêu chuẩn
4:1:1

Điểm lấy mẫu tín


hiệu chói

Điểm lấy mẫu tín


hiệu CR

Điểm lấy mẫu tín


05/05/2021 hiệu CB 15
4.1- Giới thiệu chung
4.1.4- Khuôn dạng video
Video số
• Các khung được hiển thị tại một tốc độ khung quy định. Ví dụ: tốc
độ khung 30 khung/s được sử dụng trong chuẩn NTSC.
• Định dạng Common Intermediate Format (CIF) có 352x288 pixels
và định dạng Quarter CIF (QCIF) có 176x144 pixels.

• Độ phân giải điểm ảnh (số điểm trên mỗi đường)


– Độ phân giải SD: 640 x 480 (720p)
05/05/2021 – Độ phân giải SD: 1280 x 720 (720p)/ 1920 x 1080 (1080p) 16
4.1- Giới thiệu chung
4.1.4- Khuôn dạng video
Các kiểu khung video
• Có 3 kiểu khung video: I-frame, P-frame và B-frame. I kí hiệu cho khung mã
hóa trong, P kí hiệu cho khung dự đoán và B kí hiệu cho khung dự đoán hai
chiều.
• Các I-frame được mã hóa mà không có bất kì bù chuyển động và được sử
dụng như một tham chiếu cho các khung kiểu P và B được dự đoán tương
lai. Tuy nhiên các khung I đòi hỏi một số lượng bit tương đối lớn để mã hóa.
• Các khung P được mã hóa sử dụng dự đoán bù chuyển động từ một khung
tham chiếu cái có thể hoặc là khung I hoặc khung P. Các khung P hiệu quả
hơn về số lượng bit được yêu cầu so với khung I, nhưng vẫn đòi hỏi nhiều
bit hơn khung B. Các khung B đòi hỏi số lượng bit thấp nhất so với cả hai
khung I và P nhưng chịu độ phức tạp tính toán lớn.

05/05/2021 17
4.1- Giới thiệu chung
4.1.4- Khuôn dạng video
Một số định dạng video
• Hệ thống TV tương tự
– NTSC: 60 trường/s (60i), 525 dòng/khung (chỉ 480 dòng tích cực)
– PAL/SECAM: 50 trường/s (50i), 625 dòng/khung (chỉ 576 dòng
tích cực)
• Video số BT601 (Phiên bản số của NTSC/PAL)
– NTSC  60i, 720x480, tốc độ dữ liệu=720x480x30x24 = 249 Mb/s
– PAL/SECAM  50i, 720x576, tốc độ dữ liệu = 720x576x50x24 =
249 Mb/s
• Định dạng video SD
– 4CIF: 60 khung/s, 720x480/khung, tốc độ dữ liệu =
720x480x60x24 = 498 Mb/s
• HDTV
– 1980p: 60 khung/s, 1920x1080/khung, tốc độ dữ liệu = 3 Gb/s
• Ultra HD
05/05/2021 18
– 4K: 60 khung/s, 4096x2180/khung, tốc độ dữ liệu = 12,9 Gb/s
4.2- Mã hóa video
4.2.1- Các phương pháp mã hóa video
• Mã hóa trong khung (Intraframe coding)
- Là loại bỏ phần dư không gian trong một khung. Phần dư không
gian được giảm tối thiểu bằng cách sử dụng phép khai triển
(thường là DCT).
• Mã hóa liên khung (Interframe coding)
– Là loại bỏ phần dư thời gian giữa các khung liên tiếp. Mã hóa
liên khung khai thác sự tương quan của các khung video (do
các ảnh liền kề trong một chuỗi video có sự tương quan cao về
(t)).
• Intra (I-coding)
– MB (Macro Block) được mã hóa không có bù chuyển động.
– DCT, tiếp sau là lượng tử hóa, zig-zag, RLE, mã hóa Huffman.
• Inter (P- và B-coding)
– Bù chuyển động so khớp khối.
05/05/2021
– Phần dư chuyển động dự đoán từ khối khớp tốt nhất sẽ được
20
mã hóa DCT (tương tự kiểu Intra)
4.2- Mã hóa video
4.2.2- Mã hóa video bù chuyển động
• Ngoài kỹ thuật mã hóa dự đoán sai khác ảnh (kỹ thuật bù
khung), một kỹ thuật khác trong nén video cũng được phát triển
là kỹ thuật mã hóa dự đoán dựa trên chuyển động.
• Trong một mô hình chuyển động: những thay đổi giữa các ảnh
liên tiếp được xem là do sự chuyển dịch của các đối tượng
chuyển động trong các mặt phẳng ảnh.
• Do vậy, trước hết cần phải ước lượng được các vector chuyển
động của các đối tượng. Sau đó thực hiện mã hóa vector này.
• Cách tiếp cận như vậy được gọi là mã hóa dự đoán bù chuyển
động.

05/05/2021 21
4.2- Mã hóa video
4.2.2- Mã hóa video bù chuyển động
• Các bước thực hiện của mã hóa bù chuyển động trong nén
video:
- Bước 1: ước lượng chuyển động (motion estimation)
Phân tích chuyển động, phải ước lượng được vector chuyển
động hoặc của mỗi pixel hoặc của một tập các pixel.
- Bước 2: Dự đoán và phân biệt
Dự đoán ảnh hiện tại dựa trên các vector chuyển động ước
lượng được và ảnh trước đó. Quá trình này được gọi là dự đoán bù
chuyển động. Sau đó, sai số dự đoán được tính toán.
- Bước 3: Mã hóa.
Sai số dự đoán (sự sai khác giữa ảnh hiện tại và ảnh dự đoán
hiện tại) và các vector chuyển động được mã hóa.
05/05/2021 22
4.3- Phân tích chuyển động
4.3.1- Phân tích chuyển động
• Phân tích hay ước tính chuyển động liên quan đến:
– Ước tính chuyển động mặt phẳng ảnh (chuyển động 2-D)
– Ước tính chuyển động đối tượng (chuyển động 3-D)
• Phân loại ước tính chuyển động 2-D
– Luồng quang (Optical flow)
– Các phương pháp không tham số
• Các kĩ thuật ước tính chuyển động 2-D
– Tương quan
– Đệ qui
– Vi sai
• Kĩ thuật sử dụng phổ biến
– Kĩ thuật so khớp khối ảnh
05/05/2021 23
4.4- Kỹ thuật so khớp khối
4.4.1- Giới thiệu
• Nguyên lý so khớp khối ảnh
- Phân chia khung hiện tại thành các khối\
- Xác định một vector dịch chuyển cho mỗi khối
- Tìm so khớp tốt nhất trong khung tham chiếu
bằng tối thiểu hóa chi phí Lagrange D + .R
D: méo SSD cho khối ảnh
R: số bit cho khối ảnh khi mã hóa
• Đo méo so khớp khối ảnh
– Điển hình: méo SAD
– Độ đo thay thế: Méo SSD/ SAD trong miền khai triển/ Tương quan chéo
• Khó khăn trong xác định các tham số dịch chuyển bởi so
khớp khối
– Không khả thi để đánh giá tất cả các vector chuyển động có thể
 Đòi hỏi các chiến lược tìm kiếm thông minh (chỉ kiểm tra các vector
chuyển động có khả năng nhất)
05/05/2021 24
4.4- Kỹ thuật so khớp khối
4.4.1- Giới thiệu
Tiêu chí so khớp
• Tổng độ lệch bình phương (SSD-Sum of Square Difference)
để xác định sự tương tự

(4.8)

05/05/2021 25
4.4- Kỹ thuật so khớp khối
4.4.1- Giới thiệu
Tiêu chí so khớp
• Tiêu chuẩn so khớp thay thế:
SAD- Sum of Absolute Difference (Tổng độ lệch tuyệt đối),
tương quan chéo

(4.9)

Lưu ý: Sai số tuyệt đối trung bình (Mean Absolute Error)


MAE =SAD/(NxN)

• Vector dịch chuyển được xác định như sau:

05/05/2021 (4.10)
26
4.4- Kỹ thuật so khớp khối
4.4.1- Giới thiệu
• Mô tả giải thuật so khớp khối

Cửa sổ đo được so sánh với các khối Khối mẫu được xem xét trong khung
bị dịch khác trong khung tham chiếu và hiện tại được lựa chọn như một cửa
05/05/2021 27
khung khớp nhất sẽ được xác định. sổ đo.
4.4- Kỹ thuật so khớp khối
4.4.2- Bài tập
1- Giả thiết MB 2x2 được sử dụng. Với MB:

Tương ứng các cường độ chói trong khung tham chiếu cho
như sau:

Hãy tính vector chuyển động với thực hiện tìm kiếm trong
phạm vi ±1 pixel

05/05/2021 28
4.4- Kỹ thuật so khớp khối
4.4.2- HD Bài tập
+ B1: Tính SAD cho tất cả các khả năng

+ B2: Xác định Min SAD  vector chuyển động


Min SAD= 3  vector chuyển động (0,1)

05/05/2021 29
4.5- Dự đoán ảnh (bù chuyển động)
4.5.1- Giới thiệu
• Cấu trúc GOP (Group of Picture): một GOP chứa 3 loại
ảnh/khung I/P/B,
+ I: Intra-picture
+ P:Predicted picture
+ B:Bi-directional picture

• Thứ tự khung:
I1 BB P1 BBB P2 …

• Thứ tự mã hóa:
I1 P1 BB P2 BBB …
• Cấu trúc của một GOP được mô tả bởi hai tham số: N là số ảnh
05/05/2021trong GOP và M là khoảng cách giữa các ảnh P-pictures 30
4.5- Dự đoán ảnh (bù chuyển động)
4.5.2- Cấu trúc Video
• Thường có 5 lớp: (Cho chuẩn MPEG và H.26X)
1. GOP (Group of pictures); 2. Picture
3. Slice; 4. Marcoblock; 5. Block

05/05/2021 31
4.5- Dự đoán ảnh (bù chuyển động)
4.5.2- Cấu trúc Video
• Kiến trúc dòng dữ liệu MPEG

05/05/2021 32
4.5- Dự đoán ảnh (bù chuyển động)
4.5.4- Bài tập
Bài 1: Chuẩn mã hóa Video MPEG 1 với tốc độ mã hóa 1,15
Mbit/s tần số quét 25 Hz với M= 4 và N= 16. Nếu khung I có
số bít gấp 4 lần khung P và khung P có số bít gấp 5 lần
khung B. Tính số bít trung bình cho mỗi macroblock (MB)
tương ứng với mỗi kiểu khung giả sử mỗi khung có 396
macroblock.

05/05/2021 33
4.5- Dự đoán ảnh (bù chuyển động)
4.5.4- HD Bài tập
Bài 1:
+ B1: Xác định cấu trúc GOP
. M=4 : là khoảng cách giữa I và P, giữa P và P
. N=16: chiều dài khung
Thứ tự các khung I, P, B trong GOP là: I BBB P BBB P BBB P BBB
Vậy một GOP có: 1 khung I, 12 khung B và 3 khung P
+ B2: Xác định số bit trong các khung I, P, B
Gọi x là số bit khung P  Số bit khung I: 4x, số bit khung B: x/5
Tốc độ mã hóa là: [(4x.1+x.3+12.x/5)/(1+12+3)].25=1,15.106
 x=78298 bit
+ B3: Tính số bít trung bình cho mỗi macroblock (mỗi kiểu khung)
Số bit trung bình của khung P trong mỗi macroblock=x/396=197,7 bit
Số bit trung bình của khung I trong mỗi macroblock=4x/396=790,8 bit
Số bit trung bình của khung B trong mỗi macroblock=x/5.396=39.5 bit34
05/05/2021
4.6- Một số chuẩn nén Video
4.6.1- Giới thiệu

05/05/2021 35
4.6- Một số chuẩn nén Video
4.6.2- Chuẩn nén MPEG/ H.26x (đọc tài liệu)

05/05/2021 36
Bài tập chương 4
Bài 1: Xét chuỗi video được mã hóa sử dụng H.263 ở chế độ PB,
có kích cỡ ảnh 4CIF, tốc độ 30 fps. Chuỗi video được trình chiếu
trong 90 phút. Các tham số nén được cho như sau: trung bình có
2 ảnh I được mã hóa trong 1 giây. Chuỗi video ở chất lượng yêu
cầu có tỉ lệ nén trung bình ảnh I, P, B tương ứng là 10:1, 20:1,
40:1. Tính dung lượng của chuỗi video trên sau khi mã hóa? Tính
thời gian để tải đoạn video đó trong trường hợp sử dụng
ADSL2+?

05/05/2021 37
Bài tập chương 4
Bài 2: Dựa vào kỹ thuật ánh xạ khối xác định véc tơ chuyển động MB
in đậm trong hình vẽ. Biết rằng cửa số tìm kiếm có kích thước 4x4.

05/05/2021 38
Bài tập chương 4
Bài 3: Xét chuẩn mã hóa video MPEG-1 có M=3 và N=12, tần số quét
25Hz. Nếu khung I có số bit gấp 3 lần khung P và khung P có số bit gấp
4 lần khung B. Mỗi macroblock của khung B sử dụng 50 bit. Xác định
tốc độ bit của luồng video, biết mỗi khung có 396 macroblock.

05/05/2021 39
C2- Mã hóa âm thanh
Hướng dẫn BT chương 2
Bài 6:
- Bước 1: Tính số pixel trên 1 dòng
1125x(16/9)=2000 (pixel/dòng)
- Bước 2: Tính tổng số pixel trên toàn bộ ảnh
1125x2000 (pixel/ảnh)
- Bước 3: Tính tổng số bit được tạo ra trong 1s
1125x2000x8x3x(1/(1/30) (bit/s)
- Bước 2: Tính tổng số bít được tạo ra trong 2h (7200 s)
1125x2000x8x3x(1/(1/30)x7200=1,166x1013(bit)=1,458x1012 (Byte)
=1,5 TB

05/05/2021 40

You might also like