You are on page 1of 25

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

KHOA: KỸ THUẬT ĐIỆN, ĐIỆN TỬ

---------------------------------------

TRÌNH BÀY TỔNG QUAN VỀ NÉN MPEG-2

Giảng viên hướng dẫn: Nguyễn Thị Hương
Thảo
Nhóm sinh viên: 10
Thành viên: Hoàng Văn Huynh
Phan Văn Nam

Vũ Huy Hoàng

Năm học: 2017-2018

MỤC LỤC

MỤC LỤC................................................................................................................................................................1

I.Hiển thị và ứng dụng video 3D...............................................................................................................................2

II.Định dạng dữ liệu video 3D...................................................................................................................................3

1.Video lập thể và Multi-View...............................................................................................................................3

2.Định dạng video 3D tương thích với khung.......................................................................................................4

3.Video lập thể và Multi-View...............................................................................................................................4

4.Định dạng video 3D tương thích với khung.......................................................................................................5

5.Định dạng video 3D tương thích với dịch vụ......................................................................................................7

6.Định dạng video nâng cao độ sâu......................................................................................................................7

III.Mã hóa nghệ thuật của video 3D..........................................................................................................................9

1.Cấu hình Multiview MPEG-2..............................................................................................................................9

2.Tín hiệu tương thích khung hình MPEG-2........................................................................................................10

3.Tín hiệu tương thích khung AVC......................................................................................................................11

4.Phần mở rộng MVC-Multiview của AVC...........................................................................................................11

IV.Các giải pháp Video MPEG-2 / AVC lai................................................................................................................13

1.Cấu hình đa nhìn MPEG-2................................................................................................................................16

2.Sắp xếp đóng gói khung...................................................................................................................................16

3.Định dạng ứng dụng video lập thể trong ISO / IEC 23000-11...........................................................................18

4.Mã hóa đa khung nhìn (MVC) trên các hệ thống MPEG-2...............................................................................19

Tài liệu tham khảo..................................................................................................................................................22

1

Điều này được thực hiện bằng cách phân cực thụ động hoặc các kỹ thuật chụp hoạt động. Có rất nhiều loại hệ thống hiển thị 3D bao gồm các hệ thống âm thanh nổi cổ điển đòi hỏi những chiếc kính đặc biệt với các màn hình hiển thị tự động đa năng phức tạp hơn mà không cần kính [8]. Trong một số trường hợp. Các màn hình như vậy có thể được thực hiện. nó có thể được mong muốn hoặc thậm chí cần thiết để điều chỉnh nhận thức chiều sâu trong trung bình tự động hoặc thông qua một tương tác với người dùng cuối. Mỗi mẫu video phụ thuộc xem có thể được coi là phát ra một số lượng nhỏ các tia sáng trong một tập hợp các hướng xem rời rạc . Vì nhận thức chiều sâu được biết là phụ thuộc vào các yếu tố như kích thước hiển thị và / hoặc khoảng cách xem. vì 3D đạt được bằng cách phát ra nhiều mảng mẫu video hoàn chỉnh để tạo thành các ảnh phụ thuộc vào khung nhìn. cùng một nội dung lập thể được xem trong môi trường xem khác nhau có thể cung cấp mức độ nhận thức sâu khác nhau [15]. Thông thường các hướng này được phân bố trong mặt 2 . sử dụng các màn hình độ phân giải cao thông thường và các rào cản sai lệch.thường là từ tám đến vài chục cho màn hình hiển thị tự động. Các hệ thống này yêu cầu hai chế độ xem (video âm thanh nổi). trong đó chế độ xem mắt trái được hiển thị cho mắt trái của người xem và chế độ xem mắt phải được hiển thị cho mắt phải của người xem. I. có thể tìm thấy một đánh giá toàn diện hơn về các công nghệ hiển thị 3D trong [13]. các công nghệ khác bao gồm các lớp phủ lenticular và màn hình ba chiều. ví dụ. Màn hình lập thể là loại màn hình video 3D được sử dụng phổ biến nhất. Màn hình multiview có yêu cầu thông lượng dữ liệu lớn hơn nhiều so với màn hình stereo thông thường để hỗ trợ độ phân giải hình ảnh nhất định. Phần này cung cấp một bản tóm tắt về công nghệ hiển thị. nơi nhận thức chiều sâu 3D của một cảnh trực quan được cung cấp bởi hệ thống hiển thị 3D.Hiển thị và ứng dụng video 3D Kịch bản sử dụng chính cho video 3D là hỗ trợ các ứng dụng video 3D. Công nghệ hiển thị 3D và kính đảm bảo rằng các tín hiệu thích hợp được xem bằng mắt chính xác.

1.Định dạng dữ liệu video 3D Phần này mô tả các định dạng biểu diễn khác nhau cho video 3D và thảo luận về giá trị và giới hạn của từng định dạng trong ngữ cảnh của hệ thống âm thanh nổi và đa kênh. II. Một ví dụ về đại diện như vậy cho 2 trường hợp xem (âm thanh nổi) được thể hiện trong hình 1. Biểu diễn kết quả bao gồm một chuỗi video riêng biệt với độ phân giải đầy đủ cho từng điểm xem và tốc độ dữ liệu bắt buộc cho dữ liệu thô được thu thập thực tế được nhân với số lượt xem được chụp. Ở định dạng như vậy.phẳng ngang. thông tin video từ mỗi điểm xem được chụp ở độ phân giải không gian đầy đủ với một mảng camera đồng bộ theo thời gian. Hình 1: Một ví dụ về biểu diễn cảnh 3D với video stereo ở độ phân giải không gian đầy đủ [10]. sao cho hiệu ứng thị sai được giới hạn trong chuyển động ngang của người quan sát.Video lậậậ p theể vậà Multi-View Một cảnh 3D có thể được thể hiện bằng định dạng dữ liệu video chỉ truyền thống. 3 .

Biểu diễn kết quả bao gồm một chuỗi video riêng biệt với 4 . Trong cách tiếp cận này. các khung nhìn bên trái và bên phải sẽ được xen kẽ như các khung xen kẽ hoặc các trường của chuỗi video được mã hóa. một nửa các mẫu được mã hóa đại diện cho khung nhìn bên trái và một nửa khác đại diện cho khung nhìn bên phải. Ghép kênh tạm thời cũng có thể. Hai khung nhìn có độ phân giải nửa như vậy có thể xen kẽ trong các mẫu xen kẽ của mỗi cột hoặc hàng.Video lậậậ p theể vậà Multi-View Một cảnh 3D có thể được thể hiện bằng định dạng dữ liệu video chỉ truyền thống. Phần này mô tả các định dạng biểu diễn khác nhau cho video 3D và thảo luận về giá trị và giới hạn của từng định dạng trong ngữ cảnh của hệ thống âm thanh nổi và đa kênh. Định dạng dữ liệu video 3D. Bao bì ở trên cùng cũng đôi khi được gọi là đóng gói quá mức. 3. Do đó. tương ứng. hoặc có thể được đặt cạnh nhau trong các sắp xếp được gọi là các bao bì cạnh nhau và trên cùng (xem Hình 2). Trong một định dạng như vậy. với hai khung nhìn xen kẽ trong các mẫu xen kẽ ở cả chiều ngang và chiều dọc (như trong Hình 2). Ngoài ra. Ví dụ: mỗi chế độ xem có thể có độ phân giải ngang một nửa hoặc độ phân giải dọc một nửa. có thể áp dụng lấy mẫu "checkerboard" (quincunx) cho mỗi khung nhìn. tức là các khung nhìn bên trái và bên phải được đóng gói cùng nhau trong các mẫu của một khung hình video duy nhất.2. Ở định dạng như vậy.Điậnh dậậ ng video 3D tương thíích vơíi khung Các định dạng tương thích với khung hình tham chiếu đến một lớp các định dạng video stereo trong đó hai chế độ xem âm thanh chủ yếu được ghép thành một khung hoặc chuỗi khung được mã hóa đơn. Có nhiều tùy chọn có sẵn để biết cách đóng gói có thể được thực hiện. thông tin video từ mỗi điểm xem được chụp ở độ phân giải không gian đầy đủ với một mảng camera đồng bộ theo thời gian. Tốc độ khung hình của mỗi chế độ xem có thể giảm xuống sao cho lượng dữ liệu tương đương với số lượng của một lượt xem. . Các định dạng này được gọi là chuỗi tuần tự và trường tuần tự. mỗi chế độ xem được mã hóa có một nửa độ phân giải của khung được mã hóa đầy đủ.

Hình 1: Một ví dụ về biểu diễn cảnh 3D với video stereo ở độ phân giải không gian đầy đủ [10]. mỗi chế độ xem được mã hóa có một nửa độ phân giải của khung được mã hóa đầy đủ. 4.độ phân giải đầy đủ cho từng điểm xem và tốc độ dữ liệu bắt buộc cho dữ liệu thô được thu thập thực tế được nhân với số lượt xem được chụp. một nửa các mẫu được mã hóa đại diện cho khung nhìn bên trái và một nửa khác đại diện cho khung nhìn bên phải. Hai khung nhìn có độ phân 5 . tức là các khung nhìn bên trái và bên phải được đóng gói cùng nhau trong các mẫu của một khung hình video duy nhất. Có nhiều tùy chọn có sẵn để biết cách đóng gói có thể được thực hiện. Do đó. Một ví dụ về đại diện như vậy cho 2 trường hợp xem (âm thanh nổi) được thể hiện trong hình 1. Ví dụ: mỗi chế độ xem có thể có độ phân giải ngang một nửa hoặc độ phân giải dọc một nửa. Trong một định dạng như vậy.Điậnh dậậ ng video 3D tương thíích vơíi khung Các định dạng tương thích với khung hình tham chiếu đến một lớp các định dạng video stereo trong đó hai chế độ xem âm thanh chủ yếu được ghép thành một khung hoặc chuỗi khung được mã hóa đơn.

hoặc có thể được đặt cạnh nhau trong các sắp xếp được gọi là các bao bì cạnh nhau và trên cùng (xem Hình 2). Ngoài ra. Ghép kênh tạm thời cũng có thể. giải mã và cơ sở hạ tầng hiện có là lợi thế chính của định dạng này. Đại diện cho video âm thanh nổi theo cách tối đa tương thích với mã hóa. tương ứng. Bao bì ở trên cùng cũng đôi khi được gọi là đóng gói quá mức. Các định dạng này được gọi là chuỗi tuần tự và trường tuần tự. .giải nửa như vậy có thể xen kẽ trong các mẫu xen kẽ của mỗi cột hoặc hàng. với hai khung nhìn xen kẽ trong các mẫu xen kẽ ở cả chiều ngang và chiều dọc (như trong Hình 2). được truyền qua các kênh hiện có 6 . Trong cách tiếp cận này. Tốc độ khung hình của mỗi chế độ xem có thể giảm xuống sao cho lượng dữ liệu tương đương với số lượng của một lượt xem. Video có thể được nén bằng các bộ mã hóa hiện tại. Hình 2: Các định dạng tương thích khung phổ biến trong đó ‘x’ đại diện cho các mẫu từ một chế độ xem và ‘o’ đại diện cho các mẫu từ chế độ xem khác. có thể áp dụng lấy mẫu "checkerboard" (quincunx) cho mỗi khung nhìn. các khung nhìn bên trái và bên phải sẽ được xen kẽ như các khung xen kẽ hoặc các trường của chuỗi video được mã hóa. Lợi ích chính của các định dạng tương thích khung là chúng tạo thuận lợi cho việc giới thiệu các dịch vụ lập thể thông qua cơ sở hạ tầng và thiết bị hiện có.

ví dụ: thông tin chuyên sâu. 2/3.Điậnh dậậ ng video 3D tương thíích vơíi diậch vuậ Định dạng video 3D tương thích với dịch vụ đề cập đến một lớp định dạng video lập thể trong đó một trong hai chế độ xem lập thể có độ phân giải đầy đủ có thể được sử dụng cho các thiết bị 2D kế thừa. Lợi ích của các định dạng video 3D tương thích với dịch vụ là nó có thể được tiêu thụ đồng thời bởi cả thiết bị 2D và thiết bị 3D kế thừa với chất lượng video 3D cao. các chế độ xem trái và phải được truyền dưới dạng luồng tiểu học video độc lập. các thiết bị cũ được thiết kế cho nội dung đơn thể có thể không nhận ra định dạng và do đó có thể hiển thị video được đóng khung (ví dụ: cả hai chế độ xem cạnh nhau). trong khi chế độ xem khác có cùng độ phân giải với chế độ xem cơ sở hoặc 3 / 4. Tuy nhiên. Các thông tin như vậy có sẵn ở phía hiển thị có thể cho phép tạo ra các khung nhìn ảo thông qua các kỹ thuật dựng hình ảnh dựa trên chiều sâu [14]. 5. Ở định dạng này. và sẽ tạo điều kiện cho việc triển khai các 7 . Hình 3a: Ví dụ về định dạng video 3D tương thích với dịch vụ 6.và được giải mã bằng các bộ thu hiện có [12]. 1/2 độ phân giải của chế độ xem cơ sở (xem Hình 3).Điậnh dậậ ng video nậậ ng cậo đoậậ sậậ u Có thể tăng cường đại diện video cảnh 3D bằng dữ liệu bổ sung.

định dạng video đa chiều cộng với độ sâu với số lượng giới hạn chế độ xem đầu vào ban đầu và độ sâu pixel được liên kết đã được giới thiệu. tức là người nhận sẽ được yêu cầu tạo chế độ xem thứ hai từ video 2D cùng với dữ liệu độ sâu cho màn hình âm thanh nổi. tức là người nhận sẽ được yêu cầu tạo chế độ xem thứ hai từ video 2D cùng với dữ liệu độ sâu cho màn hình âm thanh nổi. ví dụ: dưới dạng định dạng chiều sâu 2D cộng (xem hình 3). 8 . Tuy nhiên. nó cho phép truyền tín hiệu cho các luồng bản đồ độ sâu để hỗ trợ các ứng dụng video 3D. Để khắc phục những hạn chế của định dạng 2D + độ sâu. Tuy nhiên. ISO / IEC 23002-3 (còn được gọi là MPEG-C Phần 3) chỉ định sự đại diện của video 2D bổ sung và thông tin bổ sung. Ngoài ra. như trong Hình 4.màn hình hiển thị đa năng tự động [9] [10] và / hoặc hiển thị với độ sâu có thể điều chỉnh nhận thức. Hình 3b: Hình dung khái niệm định dạng 2D và chiều sâu. Đặc biệt. không phải là quy ước trong màn hình hiện có. không phải là quy ước trong màn hình hiện có. tín hiệu âm thanh nổi hoặc đa kênh không được định dạng này hỗ trợ. định dạng chiều sâu 2D cộng thêm đã được tìm thấy để chỉ cho phép hiển thị chế độ xem ảo trong một góc xem hạn chế và không thể xử lý các lỗ và lỗ do hiển thị các chế độ xem khác. tín hiệu âm thanh nổi hoặc đa kênh không được định dạng này hỗ trợ. định dạng chiều sâu 2D cộng thêm đã được tìm thấy để chỉ cho phép hiển thị chế độ xem ảo trong một góc xem hạn chế và không thể xử lý các lỗ và lỗ do hiển thị các chế độ xem khác. Ngoài ra.

Do đó. III. Trong thiết kế này. 1. Tiêu chuẩn này khai thác các dư thừa liên quan trong video stereo. trong đó mỗi chế độ xem được mã hóa độc lập.Cậấ u híành Multiview MPEG-2 Sự hỗ trợ đầu tiên cho việc mã hóa video multiview trong một tiêu chuẩn quốc tế là sửa đổi tiêu chuẩn mã hóa video MPEG 2 [1] được sản xuất vào năm 1996. như được tóm tắt trong phần này. khung nhìn bên trái được 9 . Hình 4: Video đa chiều cộng với định dạng độ sâu cho 2 chế độ xem (MVD2) Dữ liệu video và phạm vi có sẵn từ nhiều góc nhìn cho phép các thuật toán dựng hình ảo ảo tinh vi hơn và cũng cung cấp thêm thông tin để lấp đầy tắc nghẽn và / hoặc lỗ khi hiển thị lượt xem mới. đạt được một mã hóa đáng kể so với cách tiếp cận mã hóa simulcast.Mã hóa nghệ thuật của video 3D Một số kỹ thuật mã hóa video 3D đã được thiết kế trong những năm gần đây. Cấu hình Multiview MPEG-2 cho phép mã hóa hai chế độ xem (chỉ âm thanh nổi).

Ví dụ: hình ảnh tham chiếu của chế độ xem nâng cao có thể là hình ảnh từ bên trong chế độ xem nâng cao hoặc hình ảnh từ chế độ xem cơ sở. dự đoán đền bù chuyển động trong các khung nhìn nâng cao đã được mở rộng để khai thác các dư thừa liên kết.gọi là "chế độ xem cơ bản" và mã hóa của nó tương thích với các bộ giải mã đơn nhìn thông thường. Một ví dụ về cấu trúc dự đoán trong hồ sơ multiview MPEG-2 được hiển thị trong Hình 5. Việc mở rộng tiêu chuẩn hiện có để hỗ trợ sắp xếp đóng gói khung bổ sung được thực hiện trong nhóm MPEG Video và FDAM của phần mở rộng này dự kiến sẽ diễn ra vào tháng 10 năm 2012. Các mũi tên trong hình cho biết hình ảnh tham chiếu cho mã hóa tiên đoán của hình ảnh khác. 10 . đã có yêu cầu chuẩn hóa MPEG để cung cấp hỗ trợ MPEG-2 cho định dạng dữ liệu 3D tương thích với khung với bao bì Quincunx. Hồ sơ này xác định rằng khung nhìn cơ sở và nâng cao được mã hóa bằng một bộ công cụ mã hóa giống hệt được định nghĩa trong MPEG-2.Tíín hieậậ u tương thíích khung híành MPEG-2 Gần đây. Chế độ xem phù hợp được mã hóa dưới dạng "chế độ xem nâng cao" sử dụng hình ảnh của chế độ xem bên trái làm hình ảnh tham chiếu cho dự đoán giữa các lần xem. 2. Tuy nhiên. Hình 5: Minh họa về dự đoán liên quan trong MPEG-2.

cung cấp độ phân giải và chất lượng cao hơn so với các định dạng tương thích với khung. được gọi là cờ khép kín hạn chế phỏng đoán phỏng vấn của xem nâng cao từ hình ảnh của xem cơ sở. Để đạt hiệu 11 . FPA SEI cung cấp chức năng bổ sung. MVC cung cấp một đại diện nhỏ gọn cho nhiều chế độ xem của cảnh video. Cuối cùng.Phậầ n mơở roậậ ng MVC-Multiview cuở ậ AVC MVC được phát triển như một phần mở rộng mã hóa đa khung nhìn cho tiêu chuẩn mã hóa AVC đơn điệu. thông điệp SEI cho biết mẫu trên cùng bên trái của khung được đóng gói cho chế độ xem trái hay phải và nó cũng hỗ trợ cú pháp bổ sung để chỉ ra vị trí căn chỉnh lưới tương đối chính xác của các mẫu của khung nhìn trái và phải. 4. chẳng hạn như phản chiếu / lật hình ảnh ở một trong hai bên cạnh sắp xếp bên và trên cùng và báo hiệu cho việc áp dụng mẫu quincunx (bàn cờ) vào một trong các khung nhìn được mã hóa. Nó được quy định trong một sửa đổi của chuẩn MPEG-4 AVC [7] và được đưa vào phiên bản mới nhất [6]. do đó cho phép giải mã độc lập của lớp nâng cao. được hiển thị trong Hình 2. Video được ghép nối âm thanh nổi để xem 3D là một trường hợp đặc biệt quan trọng của MVC. Thông điệp SEI mới này là cách thức hiện tại của việc báo hiệu thông tin video stereo tương thích với khung cho tất cả các sắp xếp đóng gói khung.Tíín hieậậ u tương thíích khung AVC Tín hiệu cho một bộ hoàn chỉnh các định dạng tương thích khung đã được chuẩn hóa trong chuẩn MPEG-4 AVC dưới dạng thông báo tăng cường thông tin bổ sung (SEI). sử dụng độ chính xác của một phần mười sáu khoảng cách lưới mẫu giữa các hàng và cột của mảng video đã giải mã. Một phiên bản trước đó của tiêu chuẩn đã được hoàn thành vào năm 2004 đã chỉ định thông báo video âm thanh nổi (SVI) SEI có thể xác định hai loại mã hóa tương thích khung cho các chế độ xem trái và phải: ghép xen kẽ hàng và ghép kênh thời gian. Bộ giải mã hiểu thông điệp SEI có thể giải thích định dạng của video được giải mã và hiển thị nội dung âm thanh nổi một cách thích hợp. Thông điệp SI SEI cũng đã giới thiệu thêm cờ giới hạn liên kết xem. Hỗ trợ cho đại diện video stereo được mở rộng đáng kể với một SEI mới được gọi là sắp xếp đóng gói khung (FPA). Vì vậy.3.

là khai thác cả dư thừa không gian và thời gian để nén. mà còn từ các tham chiếu liên-xem. Khái niệm cơ bản của dự đoán liên quan. trong khi các bộ nhận 3D mới hơn có thể giải mã luồng bit 3D hoàn chỉnh bao gồm cả các khung nhìn không phải cơ sở. nó là bắt buộc đối với luồng multiview nén để bao gồm bitstream cơ sở.quả nén cao hơn. Hình ảnh không chỉ được dự đoán từ các tham chiếu thời gian. khung nhìn cơ sở có thể được trích xuất và giải mã bởi các bộ thu thừa. Một cấu trúc dự đoán mẫu được hiển thị trong Hình 6. Nói cách khác. sao cho dự đoán tốt nhất trong các tham chiếu thời gian và liên-xem được tự động chọn theo chi phí biến dạng tỷ lệ trên cơ sở khối. Yêu cầu này cho phép nhiều trường hợp sử dụng cần phiên bản 2D của nội dung để dễ dàng trích xuất và giải mã. được mã hóa độc lập từ tất cả các chế độ xem khác theo cách tương thích với bộ giải mã cho cấu hình đơn xem chuẩn. Vì các máy ảnh của một kịch bản multiview thường chụp cùng một cảnh từ các quan điểm gần đó. trong chương trình phát sóng truyền hình. tiêu chuẩn cho phép dự đoán liên kết ngoài dự đoán thời gian và không gian. Dự đoán có chọn lọc. Hình 6: Minh họa về dự đoán liên quan trong MVC. chẳng hạn như cấu hình Cao. sự thừa dự phòng đáng kể có mặt. Ví dụ. cũng được sử dụng trong thiết kế MPEG-2 cho mã hóa video đa nhiệm. MVC sử dụng cấu trúc loại đơn vị NAL để cung cấp khả năng 12 . Một khía cạnh quan trọng khác của thiết kế MVC là nó cung cấp khả năng tương thích ngược với các hệ thống kế thừa hiện tại sao cho một bitstream MVC bao gồm một khung nhìn cơ sở tương thích.

Giải pháp này đã được thông qua như là tiêu chuẩn trong nước của Hàn Quốc trong năm 2011. nhưng không hỗ trợ các công cụ mã hóa xen kẽ. Chế độ xem thứ hai được mã hóa bằng AVC 'cấp Tiểu sử chính 4. IV.Các giải pháp Video MPEG-2 / AVC lai Đối với dịch vụ phát sóng 3DTV tương thích với dịch vụ trên mặt đất dựa trên tiêu chuẩn ATSC. • Cấu hình Stereo High được giới hạn ở hai chế độ xem. và đang trong quá trình tiêu chuẩn hóa ATSC. khung nhìn cơ bản có thể được mã hóa bằng cách sử dụng cấu hình Cao của MPEG-4 AVC hoặc một cấu hình hạn chế hơn được gọi là cấu hình cơ sở hạn chế được thêm vào tiêu chuẩn gần đây hơn. chế độ xem cơ sở được mã hóa bằng cách sử dụng MPEG-2 ‘Cấp tiểu sử chính @ Cấp chính hoặc Cao cấp’ và luồng video MPEG-2 hiện tại (giá trị 0x02). với một vài khác biệt. Để cung cấp khả năng tương thích ngược với bộ thu DTV kế thừa.0 hoặc Cao cấp 4. Có hai cấu hình hiện được xác định bởi MVC với hỗ trợ cho nhiều chế độ xem: cấu hình Cao hơn nhiều và cấu hình Stereo High.0' và luồng video AVC mới được xác định (giá trị 0x23) cho dịch vụ 3DTV tương thích với dịch vụ.tương thích ngược cho video đa nhiệm. • Cấu hình Multiview High hỗ trợ nhiều khung nhìn và không hỗ trợ các công cụ mã hóa xen kẽ. Bạn có thể tìm thấy thêm chi tiết về thiết kế này trong [8]. Cũng như với các chuẩn mã hóa video trước. Đối với một trong các cấu hình này. Cả hai đều dựa trên cấu hình Cao của MPEG-4 AVC. các cấu hình xác định tập hợp con của các công cụ mã hóa phải được hỗ trợ bởi các bộ giải mã phù hợp. giải pháp video MPEG-2 / AVC lai được sử dụng để phục vụ các chương trình phát sóng 3DTV sử dụng codec MPEG-2 và AVC độc lập. 13 .

với các phản ứng do vào tháng 10 năm 2012.Khả năng mở rộng âm thanh nổi / Đa năng Đối với mã hóa video đơn. do đó việc hoàn tất không thể dự kiến sớm hơn cuối năm 2014 hoặc đầu năm 2015. Do đó. ứng dụng đặc biệt có khả năng mở rộng và khả năng mở rộng không gian được xem là có lợi trong sự phát triển của dịch vụ 3D. nhóm chung hiện đang xác định thông số cơ sở cho HEVC). khả năng mở rộng không gian có khả năng mở rộng các định dạng tương thích khung (“MFC”) hiện đang được điều tra. Một cuộc gọi cho đề xuất về công nghệ như vậy đã được đưa ra bởi nhóm yêu cầu MPEG. có khả năng các công cụ mà JCT-VC sẽ phát triển để mã hóa khả năng mở rộng của video đơn điệu tương tự áp dụng cho dàn âm thanh nổi tương thích và MV-HEVC. MPEG-2 hệ thống & định dạng tập tin cho vận chuyển và tín hiệu của video 3D lập thể Các hệ thống MPEG-2 cung cấp các cơ chế truyền tải video 3D lập thể. Hệ thống MPEG-2 bao gồm các luồng chương trình và luồng truyền tải. Đối với AVC. Các luồng chương trình đã được sử dụng trong các ứng dụng như VCD và DVD trong 14 . Dòng thời gian cho hoạt động này sẽ cần phải tuân theo phần mở rộng HEVC có thể mở rộng. Nếu các định nghĩa bổ sung cụ thể là cần thiết cho mục đích này. vì chúng cho phép các phần mở rộng tương thích ngược cho nhiều lượt xem hơn và / hoặc tăng cường độ phân giải theo cách giải mã bằng thiết bị cũ có khả năng. quản lý bộ đệm dựa trên các chức năng tương đương trong tiêu chuẩn nén video và báo hiệu các loại 3D lập thể khác nhau các sơ đồ nén. Ở đây. kế hoạch tồn tại để phát triển một bộ công cụ cho khả năng mở rộng mã hóa cho HEVC (sẽ được thực hiện bởi JCT-VC. điều này sẽ được thực hiện bởi JCT-3V phối hợp chặt chẽ với JCT-VC. thêm dòng thời gian và các thông số khác để đồng bộ video với các thành phần khác như âm thanh và phụ đề.

mỗi chương trình thường chứa video. Các cơ chế báo hiệu này được sử dụng bởi các ứng dụng phát sóng bao gồm nhiều chương trình (còn được gọi là kênh). Các gói PAT và PMT là một phần của multiplex luồng truyền tải và chúng xuất hiện một khoảng thời gian thường xuyên dựa trên các yêu cầu ứng dụng. loại thành phần âm thanh cũng như các thành phần khác. chẳng hạn như 1 giây để hỗ trợ kênh nhanh hoặc thu thập chương trình. một 'tiêu đề thích ứng' tùy chọn cung cấp dữ liệu cơ sở thời gian như 'Tham chiếu đồng hồ chương trình (PCR) ) 'và tiêu đề' Dòng tiểu học Chương trình '(PES) cung cấp dữ liệu định thời cho quản lý và đồng bộ hóa đệm được gọi là' Dấu thời gian giải mã (DTS) 'và' Dấu thời gian trình bày '(PTS)'.khi luồng truyền tải đã được sử dụng trong các ứng dụng phát và phân phối. Các tín hiệu có mặt trong PMT và nó bao gồm các loại thành phần video hoặc các thành phần (nếu video 3D lập thể được mã hóa dưới dạng hai luồng video riêng biệt). Mỗi thành phần video (được gọi là chuỗi video) được đóng gói thành một loạt các gói 188 byte và được ghép với các thành phần thích hợp khác dựa trên ứng dụng. Cơ chế vận chuyển và tín hiệu cho cả chương trình và luồng vận chuyển là phổ biến với một số chức năng bổ sung được cung cấp bởi các luồng truyền tải. các ứng dụng phát sóng yêu cầu các ứng dụng này vào khoảng thời gian thường xuyên. Vận chuyển MPEG-2 được tạo thành từ các gói kích thước không đổi 188 byte mỗi gói. Các hệ thống MPEG-2 cũng cung cấp cơ chế báo hiệu cho các gói có giá trị PID duy nhất được gọi là 'Bảng Hiệp hội Chương trình (PAT)' và 'Bảng Bản đồ Chương trình (PMT)'. Ví dụ về thông tin được truyền đạt trong bộ mô tả bao gồm ngôn ngữ luồng âm thanh. Phiên bản thứ tư của các hệ thống MPEG-2 (ISO / IEC 13818-1: 2012) chứa các cơ chế truyền tải và báo hiệu cho tất cả các đặc tả mã hóa video 3D được phát triển bởi MPEG bắt đầu từ 1995 15 . Mỗi gói được tạo thành một tiêu đề 4 byte bao gồm một ID duy nhất cho thành phần là một phần của tải trọng (được gọi là Mã định danh chương trình PID). sử dụng sắp xếp "đóng khung" trong chuỗi video và những thứ khác. PMT cũng truyền tải thông tin khác về chuỗi video có thể có hoặc không có mặt trong chính luồng video thông qua cơ chế được gọi là ‘Bộ mô tả’. một số thành phần âm thanh bằng các ngôn ngữ khác nhau cũng như phụ đề. sự hiện diện của hình ảnh tĩnh trong video. Thông thường.

• Phần mở rộng cho video AVC được gọi là Mã hóa đa khung nhìn (MVC). 1. Phần này cung cấp một số thông tin về tín hiệu và vận chuyển từng tiêu chuẩn video 3D. báo hiệu video MPEG-2 stream profile. frame rate và các tham số khác.đến 2012. bộ mô tả này cũng được sử dụng để báo hiệu video 3D sử dụng profile đa view khi hồ sơ đã được thêm vào video MPEG-2. Không cần stream_type mới để báo hiệu thành phần video MPEG-2 3D bằng ‘Hồ sơ đa chế độ xem’ và nội dung này cũng được báo hiệu bằng cách sử dụng stream_type video MPEG-2 hiện tại (giá trị 0x02). Công nghệ video 3D được phát triển bởi MPEG bao gồm những thứ sau (theo thứ tự lịch): • MPEG-2 ‘hồ sơ đa xem’ trong ISO / IEC 13818-2. 2. level. Máy thu video MPEG-2 đã được triển khai sử dụng bộ mô tả này để xác định xem video có phải là 2D hay 3D và đã chọn hỗ trợ dựa trên khả năng của chúng.Sậắ p xeấ p đoí ng goí i khung Một phương pháp mới để đóng gói hai khung nhìn của một video 3D lập thể (ở độ phân giải thấp hơn cho mỗi chế độ xem) thành một khung 2D được phát triển bởi MPEG để các công nghệ 16 . Khi các hệ thống MPEG-2 đã bao gồm một bộ mô tả được gọi là 'video stream descriptor'. Hồ sơ này đã thêm tiện ích ‘thông số máy ảnh’ vào video để báo hiệu dữ liệu bổ sung. Đây là một phần của ISO / IEC 13818-2 và ISO / IEC 14496-10. trong đó 2 chế độ xem riêng biệt được mã hóa bằng cách sử dụng chế độ xem phụ thuộc lẫn nhau. • Video MPEG-2 và AVC có 'sắp xếp đóng gói khung' trong đó mỗi khung 2D mang theo 2 khung nhìn. • Video 2D cộng với bản đồ độ sâu trong ISO / IEC 23002-3 còn được gọi là MPEG-C.Cậấ u híành đậ nhíàn MPEG-2 Tiêu chuẩn video 3D đầu tiên là MPEG-2 "Multi-view profile" và hồ sơ này bao gồm tất cả các định dạng video thông qua cơ chế mức (thấp. chính và cao 1440).

Tuy nhiên. một bộ mô tả mới được gọi là 'bộ mô tả định dạng video lập thể MPEG-2' được thêm vào thành phần video MPEG-2 để báo hiệu việc sử dụng khung đóng gói trong video cơ bản các hệ thống nhận được khả năng 3D có thể sử dụng thông tin này để hiển thị khung đã giải mã trên màn hình 3DTV. có các triển khai cá nhân trong đó một trong các khung nhìn từ hình ảnh đóng gói khung được giải mã và được lấy mẫu bởi các máy thu chỉ 2D để tạo ra các hình ảnh 2D có ý nghĩa. 17 . Video 2D cộng với bản đồ độ sâu trong ISO / IEC 23002-3 (còn được gọi là MPEG-C) ISO / IEC 23002-3 sử dụng thông tin phụ trợ để truyền đạt ‘bản đồ độ sâu’ và ‘bản đồ thị sai’ được sử dụng để tạo ra khả năng 3D bằng cách sử dụng chế độ xem 2D được mã hóa bằng các công nghệ nén video MPEG hiện có.nén video hiện có và các công cụ có thể được sử dụng mà không có thay đổi đối với phần mở rộng 3D. Các hệ thống MPEG-2 không phân bổ giá trị stream_type mới để báo hiệu việc sử dụng "đóng gói khung hình" trong video cơ bản như những người nhận chỉ 2D hiện có có thể giải mã những luồng này mà không cần thêm bất kỳ tài nguyên giải mã nào. Giá trị stream_type hiện tại cho video MPEG-2 (giá trị 0x02) và video AVC (giá trị 0x1B) được báo hiệu luồng có sắp xếp đóng gói khung. Phần mở rộng này được thêm vào cả video AVC (sử dụng thông điệp SEI cho báo hiệu) và video MPEG-2 (sử dụng phần mở rộng user_data). bộ mô tả video AVC hiện có được mở rộng (sử dụng giá trị 1 bit) để báo hiệu việc sắp xếp đóng gói khung trong video cơ bản sao cho hệ thống nhận có khả năng 3D có thể sử dụng thông tin này để hiển thị khung đã giải mã Hiển thị 3DTV. Vì bộ mô tả video MPEG-2 hiện tại không có bất kỳ móc nối nào để thêm phần mở rộng. Thông tin phụ trợ cũng có thể được nén bằng các công nghệ video MPEG hiện có. Lược đồ mã hóa video 3D này được coi là một phần của công nghệ 'tương thích khung' vì hệ thống nhận có khả năng 2D chỉ có thể không hiển thị hình ảnh 2D có ý nghĩa từ dữ liệu đóng gói được đóng khung. Đối với video AVC có bố cục đóng khung. Tín hiệu video bổ sung duy nhất bao gồm thông tin về việc sử dụng ‘đóng gói khung’ và loại bao bì.

hình ảnh và siêu dữ liệu liên quan trong môi trường 3DTV di động và cố định chất lượng cao . Như vậy. Sơ đồ video 3D này được coi là một phần của công nghệ 'tương thích dịch vụ' như bộ giải mã có khả năng giải mã 2D và có thể giải mã thành phần 2D-video trong chương trình và bỏ qua thành phần thông tin phụ trợ trong khi bộ giải mã hỗ trợ công nghệ này sử dụng cả 2D thành phần video và thành phần dữ liệu phụ trợ để hiển thị video 3D. PMT bao gồm thành phần video 2D và thành phần dữ liệu phụ được báo hiệu trong các giá trị PID riêng biệt cũng như ‘bộ mô tả luồng video phụ trợ’ cung cấp thông tin bổ sung về thông tin phụ trợ như loại nén. được coi là rào cản đối với thị trường 3D nhập vai. điện thoại di động và SMART 3DTV kỹ thuật số có sẵn để chụp và hiển thị nội dung video lập thể trên thị trường. Thành phần thông tin phụ trợ cũng được thực hiện trong PES như thành phần video 2D với giá trị tem thời gian (PTS / DTS) được sử dụng để đồng bộ hóa các đơn vị truy cập luồng 2D và phụ trợ. phát thanh và truyền thông. Tuy nhiên. các nội dung lập thể này gặp khó khăn trong lưu trữ. Tiêu chuẩn này cung cấp các tính năng khác nhau như i) 18 . quản lý. video ISO / IEC 14496-2 hoặc video AVC).Các hệ thống MPEG đã thêm tín hiệu bổ sung cho thành phần dữ liệu phụ trợ ISO / IEC 23002-3 bằng cách phân bổ luồng dữ liệu mới (0x1E) để sử dụng trong PMT. trao đổi. chỉnh sửa và trình bày do thiếu định dạng tệp phổ biến. Thị trường áp dụng các nội dung video lập thể trên các thiết bị số được mở rộng và trưởng thành trong các lĩnh vực phim. 3. MPEG đã hoàn thành việc phát triển định dạng chuẩn ứng dụng mới được gọi là “AF video lập thể”. các dịch vụ nội dung ba chiều được coi là một trong những ứng dụng hứa hẹn nhất trên thị trường.Điậnh dậậ ng ưíng duậ ng video lậậậ p theể trong ISO / IEC 23000-11 Trong lĩnh vực công nghệ ngày nay. cung cấp định dạng tệp cho định dạng lưu trữ tương thích của video lập thể và âm thanh. Hiện đã có nhiều loại thiết bị kỹ thuật số như máy tính xách tay. Bộ mô tả mới được gọi là "bộ mô tả luồng video phụ" cũng được thêm vào (giá trị 47) để báo hiệu công nghệ nén được sử dụng bởi thông tin phụ trợ (chẳng hạn như video MPEG-2. ISO / IEC 23000-11 được sử dụng như một định dạng tệp phổ biến để phát và lưu trữ nội dung lập thể trên các thiết bị 3D khác nhau.

Thành phần video 2D hiện tại được gọi là "chế độ xem cơ sở" và hoàn toàn tương thích với công nghệ video AVC. MVC video phụ bitstream cũng được thực hiện trong PES với tem thời gian (PTS và DTS) được sử dụng để đồng bộ hóa các quan điểm với các thành phần cơ sở xem video. 4.Mậã hoí ậ đậ khung nhíàn (MVC) treậ n cậí c heậậ thoấ ng MPEG-2 Phần mở rộng này đã được thêm vào tiêu chuẩn video AVC để hỗ trợ video lập thể 3D cũng như hệ thống video nhiều chế độ xem. Các hệ thống MPEG-2 bổ sung một số thay đổi cho việc vận chuyển và báo hiệu video MVC để hỗ trợ các trường hợp sử dụng ứng dụng khác nhau. Chế độ xem cơ sở được báo hiệu bằng giá trị loại luồng video AVC hiện có là 0x1B trong khi chế độ xem bổ sung mã hóa MVC được báo hiệu bằng cách sử dụng giá trị loại luồng mới là 0x20. trong khi chế độ xem bổ sung được nén bằng cách sử dụng phụ thuộc liên kết để nén tốt hơn. Việc sử dụng hệ thống cho phép các ứng dụng ghép các khung nhìn (theo thứ tự tăng dần) thành một thành phần luồng video (được gọi là tiểu video MVC phụ) cũng như sử dụng nhiều video con bitstream trong cùng một chương trình. Một bộ mô tả mới được gọi là "mô tả mở rộng MVC" được thêm vào để sử dụng bởi thành phần phụ bitstream và điều này báo hiệu thông tin như các giá trị xem trong các thành phần này cũng như cấu trúc của các đơn vị truy cập để hỗ trợ các hệ thống bộ giải mã MVC. iii) Tương tác người dùng bằng cách trình bày cảnh cho nội dung lập thể. iv) Hỗ trợ khả năng tương thích với định dạng tệp cũ như định dạng tệp phương tiện cơ sở ISO. ii) Phát lại và lưu trữ nội dung hỗn hợp âm thanh đơn-âm. 19 .Phát lại và lưu trữ các nội dung lập thể bao gồm các loại thành phần lập thể khác nhau. v) Hỗ trợ thông tin an toàn trực quan cho nội dung lập thể. Các hệ thống MPEG mở rộng mô hình quản lý bộ đệm (gọi là bộ giải mã mục tiêu hệ thống STD) cần thiết để hỗ trợ lắp ráp lại các bit phụ video và video cơ sở để hỗ trợ hệ thống giải mã video MVC và hiển thị video 3D hoặc nhiều chế độ xem.

các hệ thống MPEG đã thêm khả năng kết hợp tín hiệu giữa 2 chế độ xem và mắt trái hoặc phải để hỗ trợ hiển thị 3D.Đối với các ứng dụng video 3D lập thể MVC video bao gồm chế độ xem cơ sở và một chế độ xem bổ sung (trong video phụ bitstream). Các giá trị Stream_type đã tồn tại để báo hiệu video MPEG-2 (0x02) và video AVC (0x1B) và các giá trị này được sử dụng để báo hiệu lớp cơ sở của các thành phần tương thích dịch vụ (trong PMT) mà không có thay đổi. Video 3D lập thể sử dụng simulcast của chế độ xem nén độc lập Trường hợp sử dụng ứng dụng này chỉ được hỗ trợ thông qua đặc tả hệ thống MPEG khi nén chế độ xem độc lập sử dụng các công nghệ nén video MPEG hiện có như video MPEG-2 hoặc video AVC (chứ không phải MVC video hoặc công nghệ ISO / IEC 23002-3). Gần đây. Lược đồ mã hóa MVC cũng là một phần của công nghệ 'tương thích dịch vụ' vì chế độ xem cơ sở luôn có thể giải mã được bằng bộ thu AVC 2d chỉ có sẵn có sử dụng tín hiệu có sẵn trong PMT. Lớp cơ sở cũng được chỉ định là lớp tương thích 2D có độ phân giải đầy đủ. Tín hiệu bổ sung được cung cấp thông qua các bộ mô tả để cho phép các bộ thu có khả năng 3D kết hợp các chế độ xem nén độc lập này để trình bày dữ liệu được giải mã trên một hệ thống hiển thị 3DTV. Lược đồ tín hiệu hệ thống MPEG-2 hỗ trợ phân phối nội dung video 3D lập thể nơi luồng video xem cơ sở (thường tương thích 2D) và luồng video bổ sung được mã hóa độc lập bằng cách sử dụng video MPEG-2 hoặc AVC hoặc bất kỳ kết hợp nào của chúng. Tín hiệu này được thực hiện thông qua phần mở rộng của bộ mô tả mở rộng MVC. Bộ mô tả mở rộng MVC cũng được kết hợp với khung nhìn bổ sung để truyền tải thêm thông tin. Trường hợp sử dụng này là cần thiết bởi các ứng dụng có băng thông dữ liệu mạng hạn chế (chẳng hạn như phát sóng trên mặt đất) và có các quy định bắt buộc mã hóa video MPEG-2 cho chế độ xem cơ sở. Lược đồ nén cho khung nhìn thứ hai được báo hiệu bằng hai giá trị stream_type 20 . PMT báo hiệu hai thành phần video với giá trị loại luồng 0x1B cho chế độ xem cơ sở và chế độ xem bổ sung sử dụng giá trị loại luồng 0x20 .

một cho chế độ xem thứ hai được nén bằng video MPEG-2 (0x22) và một cho chế độ xem thứ hai được nén bằng video AVC (0x23). hai bộ mô tả ('bộ mô tả thông tin chương trình lập thể' và 'mô tả thông tin video lập thể') được chỉ định để báo hiệu thông tin bổ sung hỗ trợ việc nhận dạng các dịch vụ ở cấp chương trình cũng như các thành phần xem bổ sung cho các dịch vụ 3DTV tương thích dịch vụ. 21 . 'Bộ mô tả thông tin chương trình lập thể' cung cấp thông tin ở cấp chương trình liên quan đến việc xác định 2D (chỉ đơn). liên kết chế độ xem này với mắt trái hay phải để hiển thị và bất kỳ yếu tố lấy mẫu nào cần thiết nếu chế độ xem bổ sung được nén ở độ phân giải thấp hơn. Lược đồ báo hiệu được xác định rõ ràng cho các ứng dụng sử dụng ‘simulcast’ của hai chế độ xem lập thể và không bao gồm các cải tiến có thể mở rộng hoặc theo thời gian.mới. Ngoài ra. ‘Bộ mô tả thông tin video lập thể’ cung cấp thông tin cho người nhận 3D. 3D lập thể tương thích khung cũng như các dịch vụ 3D lập thể tương thích dịch vụ. Lược đồ báo hiệu này cũng được coi là một phần của công nghệ “tương thích với dịch vụ” vì khung nhìn cơ bản có thể giải mã bằng một bộ thu có khả năng chỉ 2D. chẳng hạn như chế độ xem này là chế độ xem cơ sở.

Puri. vol. Proc. 745–756. [2] A. R. "Final Draft Amendment 3". Proc. N1366. San Diego. USA. Sept. 212-223. SPIE Conf. 2501. pp. "Stereoscopic video compression using temporal scalability". February 1997. "MPEG-2 multi-view profile and its application in 3DTV". Amendment 3 to ITU-T Recommendation H. [3] X. V. 22 . Kollarits. pp. 3021. 1996. Haskell. Luthra. Visual Communications and Image Processing. Chen and A. Vol.262 and ISO/IEC 13818-2 (MPEG-2 Video). G. 1995. ISO/IEC JTC 1/SC 29/WG 11 (MPEG) Doc. and B. SPIE IS&T Multimedia Hardware Architectures.Tài liệu tham khảo [1] ITU-T and ISO/IEC JTC 1.

[13] J. San Diego. Ohm. K. Tourapis. IEEE Transactions on Broadcasting. Yamakage. [8] A.[4] J. 2010. "Advanced video coding for generic audiovisual services". [12] A. “3-D Video Representation Using Depth Maps. Proc. Aug. Wiegand. vol. [7] G. United Kingdom. 57. Vol. pp. ICIP2010. A.” Proceedings of the IEEE. Schierl. Issue 4. Konrad and M. Issue 4. S. [11] T. [10] A. ITU-T Recommendation H. "Overview of the Stereo and Multiview Video Coding Extensions of the H. Müller. 6.J. S. Issue 2. Stereo High profile. 99.643-656. J. July 2009.. Issue 4. "Frame Compatible Formats for 3D Video Distribution".264 and ISO/IEC 14496-10 (MPEG-4 AVC). In Proc. pp. Sullivan. Applications of Digital Image Processing XXXII.M. Wiegand. and frame packing SEI message". Tourapis. C. Lim. "Standards-based approaches to 3D and multiview video coding". June 2011. A. CA. Muller. Sullivan. 24. Sullivan. Narasimhan. Vol. Proc. eds. Merkle. IEEE Signal Processing Magazine.” Proceedings of the IEEE. Vetro. San Jose. “Transport and Storage Systems for 3-D Video Using MPEG-2 Systems. "Stereo/Multiview Video Encoding Using the MPEG Family of Standards". RTP. 23 . pp. JVT-AE204. “3-D Displays and Signal Processing – An Answer to 3-D Ills?”. pp. P. Halle.264/MPEG-4 AVC Standard".671-683. London. April 2011.-R. 99. 2007. [6] ITU-T and ISO/IEC JTC 1. CA. April 2011. "3D-TV Content Storage and Transmission". [9] K. 2010. Joint Video Team (JVT) Doc. T. Part 2. Vol. Jan. 384-394.. April 2011. 1999. [5] G. 2009. "Draft AVC amendment text to specify Constrained Baseline profile. M. G.626-642. SPIE Conf. no. Chen. Vetro. 99. Stereoscopic Displays and Virtual Reality Systems VI. J. T. T. Vol. and ISO File Format. Nov. SPIE Conf. Vetro. Proceedings of the IEEE. T.

2007. O. 24 . N. Signal Processing: Image Communication. T. 1992. Hewitt. M. Human Factors. Müller. Atzpadin. Fehn. 34(6):655–667. L.[14] P. Moe. [15] R."Factors that affect depth perception in stereoscopic displays". Patterson. “Depth Map Creation and Image Based Rendering for Advanced 3DTV Services Providing Interoperability and Scalability”. Kauff. C. Special Issue on 3DTV. Smolic. and R. Feb. Schreer. A. Tanger.