Nhóm 4: 6.5. Mpeg, trang 661 – 683 và 6.6. Mpeg4, trang 683 - 688 1. 2. 3. 4. 5. 6. 7. 6.

5 MPEG Bắt đầu vào năm 1988, dự án MPEG đã được phát triển bởi một nhóm của hàng trăm chuyên gia dưới sự tài trợ của ISO (Tổ chức Tiêu chuẩn quốc tế) và IEC (Uỷ ban điện quốc tế). MPEG là tên viết tắt của Moving Pictures Experts Group. MPEG là một phương pháp để nén video, trong đó liên quan đến việc nén hình ảnh kỹ thuật số và âm thanh, cũng như đồng bộ cả hai. Hiện tại đang có một số tiêu chuẩn MPEG. MPEG-1 là dành cho dữ liệu tốc độ trung bình, về trình tự là 1,5 Mbit / s. MPEG-2 là để dành cho dữ liệu cao ít nhất là 10 Mbit / s. MPEG-3 được thiết kế để nén HDTV nhưng đã được tìm thấy là dự phòng và được sáp nhập với MPEG-2. MPEG-4 là dành cho dữ liệu rất thấp tỷ lệ ít hơn 64 Kbit/s. ITU-T đã tham gia thiết kế cả MPEG-2 và MPEG-4. Phần này tập trung vào MPEG-1 và chỉ thảo luận về các tính năng nén hình ảnh của mình. Tên chính thức của MPEG-1 là tiêu chuẩn quốc tế cho việc tự động nén hình ảnh video, IS11172-2. Giống như các tiêu chuẩn khác được phát triển bởi ITU và ISO, hệ thống hồ sơ mô tả MPEG-1 có các mục văn bản tiêu chuẩn và thông tin. Một tiêu chuẩn là một phần của đặc tả kỹ thuật. Nó được thiết kế để thực hiện, được viết bằng một ngôn ngữ chính xác, và cần được thực hiện một cách nghiêm ngặt trên một nền tảng máy tính thật. Một thông tin, mặt khác, khái niệm minh họa thảo luận ở nơi khác, giải thích những lý do dẫn đến sự lựa chọn nhất định và quyết định, và chứa vật liệu nền. Một ví dụ về một tiêu chuẩn là các bảng khác nhau mã số biến sử dụng trong MPEG. Một ví dụ về một thông tin là các thuật toán được sử dụng bởi MPEG để ước lượng chuyển động và phù hợp với các khối. MPEG không cần bất kỳ thuật toán riêng biệt, và một bộ mã hóa MPEG có thể sử dụng bất kỳ phương pháp với các khối phù hợp.Các phần mô tả chính nó chỉ đơn giản mô tả sự lựa chọn khác nhau. Các cuộc thảo luận về MPEG trong phần này là không chính thức. Các tiểu mục đầu tiên (thành phần chính) mô tả tất cả các điều khoản quan trọng, nguyên tắc, và mã số được sử dụng trong MPEG-1.Các phần phụ theo sau đi vào chi tiết hơn, đặc biệt là trong các mô tả và niêm yết các tham số khác nhau và biến đổi kích thước mã. Tầm quan trọng của một tiêu chuẩn chấp nhận rộng rãi cho việc nén video là rõ rang từ thực tế rằng nhiều nhà sản xuất (trong trò chơi máy tính, đĩa CD-ROM phim, kỹ thuật số truyền hình, và kỹ thuật số máy ghi âm, trong số những người khác) bắt đầu thực hiện và sử dụng MPEG-1 ngay cả trước khi được sự chấp thuận cuối cùng của Ủy ban MPEG. Điều này cũng là một lý do tại sao MPEG-1 đã ổn định ở giai đoạn đầu và MPEG-2 đã được phát triển để chứa các ứng dụng video với dữ liệu cao. Phạm Tuấn Anh Nguyễn Tuấn Anh (Nhóm trưởng) Lê Thị Hằng Dương Thị Anh An Thị Thùy Nguyễn Quang Phúc Lê Việt Anh

Có rất nhiều nguồn thông tin về MPEG. [Mitchell et al. 97] là một trong nguồn chi tiết cho MPEG-1, và các tập đoàn MPEG [MPEG 98] có danh sách nguồn tài nguyên khác. Ngoài ra, có rất nhiều trang web với các mô tả, giải thích, và câu trả lời thường gặp về MPEG. Để hiểu được ý nghĩa của từ "intermediate data rate" chúng ta xem xét một ví dụ điển hình của video với độ phân giải 360 × 288, độ sâu 24 bit / pixel, và một tốc độ làm tươi của 24 khung hình / giây. Phần hình ảnh của video này đòi hỏi 360 × 288 × 24 × 24 = 59719680 bit / s. Đối với phần âm thanh, chúng tôi giả định hai âm thanh bài nhạc (âm thanh stereo âm thanh), từng lấy mẫu tại 44 KHz với 16 mẫu bit. Tốc độ dữ liệu là 2 × 44.000 × 16 = 1.408.000 bit / s. Tổng số là khoảng 61,1 Mbit / s và đây là được nén bằng MPEG-1 với một tốc độ dữ liệu trung gian của khoảng 1,5 Mbit / s (kích thước theo dõi âm thanh của một mình), một yếu tố nén của hơn 40! Khía cạnh khác là giải mã tốc độ. An MPEG-nén phim có thể sẽ được lưu trữ trên đĩa CD-ROM hoặc DVD và phải được giải mã và chơi trong thời gian thực. MPEG sử dụng vốn từ vựng riêng của mình. Một bộ phim thống nhất được coi như là một bộ phim lien tục.Nó bao gồm hình ảnh, mỗi cái có ba thành phần, độ sáng một (Y) và hai màu (CB và Cr). Các thành phần độ sáng (mục 4.1) có các hình ảnh đen trắng, và các thành phần sắc độ của màu sắc cung cấp các màu sắc và độ bão hòa (xem [Salomon 99] cho một cuộc thảo luận chi tiết). Mỗi thành phần là một mảng hình chữ nhật mẫu, và mỗi hàng của mảng được gọi là dòng mành.Một pixel là tập hợp của ba mẫu. Mắt là nhạy cảm với các biến thể nhỏ không gian của độ chói, nhưng là ít nhạy cảm với những thay đổi tương tự trong sắc độ. Kết quả là, MPEG-1 mẫu các sắc độ các thành phần ở độ phân giải của một nửa thành phần độ sáng. Các thuật ngữ được sử dụng trong nội bộ,nhưng inter và nonintra được sử dụng thay thế cho nhau. Các đầu vào cho một bộ mã hóa MPEG được gọi là dữ liệu nguồn, và đầu ra của một MPEG bộ giải mã là các dữ liệu tái tạo. Các nguồn dữ liệu được tổ chức trong gói (Hình 6.16b), nơi mà mỗi gói bắt đầu với một mã số bắt đầu (32 bit) tiếp theo là tiêu đề một, kết thúcvới một mã kết thúc 32-bit, và chứa một số gói dữ liệu ở giữa. Một gói chứa dữ liệu nén, hoặc âm thanh hoặc video. Kích thước của một gói được xác định bởi các định dạng MPEG.Bộ mã hóa theo yêu cầu của các phương tiện lưu trữ hoặc truyền dẫn, đó là tại sao một gói tin không nhất thiết là hình ảnh video hoàn chỉnh. Nó có thể được bất kỳ một phần của một video hình ảnh hoặc một phần của âm thanh. Các bộ giải mã MPEG có ba phần chính, được gọi là các lớp, để giải mã âm thanh,video và dữ liệu hệ thống. Các hệ thống lớp đọc và diễn giải các mã khác nhau và tiêu đề trong dữ liệu nguồn, và các tuyến đường các gói tin cho một trong hai âm thanh hoặc video lớp (Hình 6.16a) được đệm và sau đó giải mã. Mỗi hai lớp bao gồm một số bộ giải mã làm việc cùng một lúc. 6.5.1 Các thành phần chính của MPEG-1 MPEG sử dụng hình ảnh I, P, và B, như được thảo luận trong Phần 6.4. Chúng được sắp xếp theo nhóm, nơi một nhóm có thể được mở hoặc đóng. Những hình ảnh được sắp xếp theo một số trật tự, gọi là trình tự mã hóa, nhưng đầu ra, sau khi giải mã, và được gửi đến màn hình theo một thứ tự khác nhau, được gọi là thứ tự hiển thị. Trong một nhóm đóng, hình ảnh P và B được giải mã chỉ từ các hình ảnh khác trong nhóm. Trong một nhóm mở, chúng có thể được giải mã từ hình ảnh bên ngoài nhóm. Các khoảng khác nhau của một hình ảnh B có thể sử dụng khác nhau cho việc giải mã chúng. Khoảng có thể được giải mã từ một số hình ảnh trước, từ một số hình ảnh sau đây, từ cả hai loại, hoặc từ không có. Tương tự, một khu

và làm tròn được thực hiện khác nhau. Xây dựng khối cơ bản của một hình ảnh MPEG là macroblock (Hình 6. Hình 6. gây ra nhiều macroblocks giáp có cùng một màu xám. trong đó trường hợp nó được giải mã bằng cách sử dụng phương pháp nội bộ của MPEG. Mỗi hình vuông trong hình ảnh là một macroblock.17a). sau đó lượng tử và mã hóa các kết quả.vực trong một P hình ảnh có thể sử dụng một số hình ảnh trước cho giải mã của nó. mà tạo ra các giá trị decorrelated.Khái niệm về ý nghĩa slices bởi vì một hình ảnh thường có thể thống nhất với khoảng lớn. Chú ý rằng một phần có thể tiếp tục từ dòng quét để quét dòng. hoặc sử dụng không có gì cả.17b cho thấy một hình ảnh MPEG giả thuyết và làm thế nào nó được chia thành lát. Những nén MPEG của macroblock một bao gồm chủ yếu trong đi qua mỗi trong số sáu khối thông qua một cosin rời rạc biến đổi. . độ sáng thành phần). Nó bao gồm một khối 16 × 16 của độ sáng (màu xám) mẫu (chia thành bốn khối 8 × 8) và hai 8 × 8 khối của các mẫu sắc độ phù hợp. Một hình ảnh trong MPEG được tổ chức trong lát. nơi từng lát là một bộ giáp của macroblocks (trong raster thứ tự) là có cùng một màu xám (ví dụ.8). sự khác biệt chủ yếu là bảng lượng tử hóa khác nhau và các bảng mã khác nhau được sử dụng trong MPEG cho nội và nonintra.Nó rất giống với JPEG nén (mục 4.

.Ví dụ. nó được mã hóa bằng phương tiện khác hình ảnh.và lượng tử hóa trong mã hóa nonintra có thể được khá sâu. một mẫu được nhân cô sin. Những hình ảnh MPEG giả của 6. bởi vì sự khác biệt đã được loại bỏ tương quan. Trong trường hợp này. Kết quả số tiền gấp đôi. Tuy nhiên.MPEG quy định cụ thể các bảng lượng tử hóa mặc định. Đó là trong lượng tử hóa và làm tròn những thông tin đó là vĩnh viễn các file bị mất. 416. trong khi ở nonintra làm tròn được làm bằng cách cắt xén một số nguyên đến số nguyên nhỏ hơn gần nhất. Kết quả là một số nguyên và có để được làm tròn. nhưng các bảng tùy chỉnh cũng có thể được sử dụng. trong khi ở nonintra chúng là số nguyên 9-bit ký. có thể dẫn đến một số âm. Trong làm tròn mã hóa được thực hiện theo cách thông thường. DCT không đóng góp nhiều cho việc nén. đến số nguyên gần nhất. Điều này là do một mẫu trong nonintra là sự khác biệt của hai số nguyên không dấu. Số nguyên này sau đó nhân với hệ số CiCj / 4 đó là ít nhất 1 / 8. Trong những phép cộng. DCT là hữu dụng ngay cả trong trường hợp này.1 cho một trường hợp tương tự). MPEG mẫu trong nội bộ mã hóa được 8-bit số nguyên không dấu.17b hình gồm 18 × 18 macroblock và mỗi macroblock tạo thành sáu khối mẫu 8 × 8. Tổng số các mẫu có được là 18 × 18 × 6 × 64 = 124. kể từ khi nó được theo sau bởi lượng tử hóa. Đây là số nguyên 12-bit sau đó lượng bằng cách chia nó bằng cách lượng hóa một hệ số (QC) được lấy từ một bảng lượng tử hóa. và do đó có thể được tiêu cực. do đó làm giảm kết quả cho một bit-12 ký số nguyên.15). phương trình (4. sau đó áp dụng các DCT đến sự khác biệt. thông thường của người tiền nhiệm). Hai phép cộng của DCT hai chiều. Khi một hình ảnh được mã hóa trong chế độ nonintra (tức là.Do đó. Độ chính xác của các số được xử lý bởi DCT trong MPEG cũng phụ thuộc vào mã hóa nonintra được sử dụng. có thể ở hầu hết các nhân một mẫu bằng 64 = 26 và do đó có thể dẫn đến một số nguyên 8 +6=14bit (xem tập 4. các bộ mã hóa MPEG tạo ra sự khác biệt giữa hình ảnh. một số nguyên 15-bit được ký.

được nhạy cảm với giá trị của quantizer_scale.18a. bởi Q các QC từ quantization bảng. và bởi DCT thequantizedvalueof QDCT.Hình 6.Chúng tôi biểu thị bởi hệ số DCT.Chúng phụ thuộc vào quy mô yếu tố gọi là quantizer_scale.18a. Các bộ mã hóa có thể thay đổi giá trị từ thời gian để thời gian và đã để chèn một đoạn mã đặc biệt trong dòng nén để cho biết điều này. một tham số MPEG đó là một số nguyên trong khoảng[1.2) được giảm đến đơn giản biểu thức . Các kết quả của lượng tử. Các tule lượng tử cho nội bộ mã hóa là Lần thứ hai của phương trình (6. b cho thấy kết quả đồ họa. 31]. và vì thế mà có hiệu suất nén. Trong trường hợp này.2) được gọi là thời hạn làm tròn và chịu trách nhiệm hình thức đặc biệt làm tròn số minh họa bằng hình 6. Đây là khu vực chết. Điều này cũng dễ nhìn thấy khi chúng ta xem xét trường hợp của một DCT tích cực.DCT được lượng tử. phương trình (6. Các bước lượng tử hóa và làm tròn rất phức tạp và liên quan đến hoạt động nhiều hơn chỉ phân chia một DCT hệ số của một hệ lượng tử. Thông báo khoảng rộng trong khoảng không nonintra mã hóa.

tất cả các các mục trong các bảng mã được khởi tạo 1 trước khi bất kỳ số liệu thống kê được thu thập. vì hình ảnh khá phổ biến. nhưng các mã Huffman là các số nguyên và do đó có thể không thể ngắn hơn một chút. xảy ra mỗi 10-15 hình ảnh. là nghịch đảo của lượng tử hóa. Trong một chuỗi các hình ảnh liên. một hiện tượng được gọi là IDCT không khớp. Nếu xác suất cao hơn. Điều này có thể dẫn đến biến dạng trong trường hợp một hình ảnh được mã hóa bởi một thực hiện và giải mã khác. Nếu xác suất của một biểu tượng là 0. Các số lượng QDCT được mã hoá Huffman.8 phần giải thích rằng phương pháp Huffman trở nên kém hiệu quả khi các dữ liệu chứa các ký hiệu với xác suất lớn. Trong thực tế. Các một phần khác là tạo ra một bộ ký hiệu để tận dụng các tính chất của Huffman mã hóa. Để tránh các biểu tượng với xác suất cao. buộc phải cập nhật là rất hiếm.Thời hạn làm tròn là loại bỏ cho mã hóa nonintra. Để tránh vấn đề xác suất bằng không (Phần 2. nơi IDCT được thực hiện khác nhau. và cho nonintra nó là nghịch đảo của phương trình Cách chính xác để tính toán IDCT là không quy định tại MPEG. Điều này buộc phải cập nhật hastobedoneatleastonce cho mỗi 132 P hình ảnh trong trình tự. trong đó mỗi hình ảnh được giải mã bằng phương tiện của các nước láng giềng. biểu tượng phải được chỉ định một mã số ngắn hơn. Đối với nội bộ mã hóa nó được thực hiện bởi (thông báo rằng không có hạn làm tròn số). bằng cách tính toán khác nhau PEL) là một phần của mô hình thống kê của MPEG. điều này có thể dẫn đến tích tụ các lỗi. Bảng mã đặc biệt được sử dụng phụ thuộc vào loại hình ảnh được mã hóa. nó tốt nhất nên được giao một mã 1bit.18). nơi mà lượng hóa được thực hiện bằng Dequantization. Decorrelating các pels gốc của tính toán DCT (hoặc. MPEG sử dụng một bảng chữ cái nơi mà một số biểu tượng cũ (tức . trong trường hợp lien mã hóa. sử dụng Huffman nonadaptive phương pháp và các bảng mã Huffman được tính theo số liệu thống kê thu thập từ nhiều đào tạo các chuỗi hình ảnh. được thực hiện bằng cách giải mã để chuẩn bị cho IDCT.5. Đây là lý do tại sao MPEG yêu cầu định kỳ trong nội bộ mã hóa của mỗi một phần của hình ảnh. 2.

được mã hóa riêng biệt trong một dòng. Mỗi thể loại kích thước được chỉ định một mã. và nhiều Huffman mã số cần thiết như vậy.20 cho thấy làm thế nào ba loại hệ số DC.19 là hệ số lượng tử hóa mặc định bảng cho các mẫu sang trong nội bộ mã hóa. và phạm vi của sự khác biệt ΔDC cho mỗi kích thước. một Cb. nhiều người trong số kết quả là số không. (2) nếu ΔDC là tiêu cực.4). Bảng 6. căn hộ). nonintra mã hóa là hoàn toàn khác nhau. Trong một bức ảnh tôi. sự khác biệt nhiều PEL hoặc hệ số DCT lượng tử) là kết hợp để hình thành một biểu tượng mới. tương tự như những gì được thực hiện trong JPEG (mục 4. Một ví dụ là chạy dài của số không.là. và Cr của các hình ảnh tôi.5. và một khối Cr. cho các thành phần Y.21 kích thước. mặc dù tùy chỉnh bảng lượng tử cũng có thể được chỉ định. và sau đó sự khác biệt là mã hóa bởi mã hóa một loại kích thước theo sau bởi các bit cho độ lớn và dấu hiệu của sự khác biệt. Bảng tóm tắt các loại 6. Ba bước cần thiết để mã hóa một ΔDC khác biệt DC: (1) Các loại kích thước đầu tiên xác định và mã của nó được phát ra. và là một trong hệ số của một trong hai loại khác. tuy nhiên. Chú ý rằng các loại kích thước của số không được định nghĩa là 0. kể từ khi số lượng bị lượng tử hóa sự khác biệt PEL. Các tài liệu MPEG "giải thích" bảng này bằng cách nói rằng. một 1 là trừ 2 của nó là bổ sung đại diện. Phương pháp này tạo ra một số lượng lớn các biểu tượng mới. Một DCI hệ số là lần đầu tiên được sử dụng để tính toán sự khác biệt ΔDC = DCI P (trong đó P là DC trước đó hệ số của cùng một loại). Nén hiệu quả. Mỗi macroblock bao gồm bốn khối Y. "Bảng này có một phân bố của lượng tử hóa các giá trị đó là khoảng năm phù hợp với tần số lại sponse của mắt người. Hình 6. nó góp phần bốn DC hệ số của các loại đầu tiên. Các xác suất của một số không cao và do đó có thể dễ dàng vượt quá 0. Các loại kích cỡ là số bit cần thiết để mã hóa các ký và độ lớn của ΔDC sự khác biệt. và (3) kích thước bit kém quan trọng của sự khác biệt được phát ra. . và họ không có bất kỳ tần số không gian. Mỗi chạy trở thành một biểu tượng mới và được giao một Mã Huffman. được đưa ra một khoảng cách nhìn của màn hình khoảng sáu lần chiều rộng và một hình ảnh PEL 360 × 240 "lượng tử ở. do đó. CB. Sau khi lượng tử 64 hệ số DCT của một khối. được cải thiện. mã số của họ. Loại lượng hóa được thực hiện bằng cách chia các hệ số DCT sự khác biệt của 16 (bảng lượng tử hóa mặc định là như vậy.8. các hệ số DC của macroblocks được mã hoá riêng AC hệ số. Giải pháp là đối phó với chạy của số không liên tiếp.

trong đó có 101. Khi 1 là trừ con số này. các loại kích thước là 2. Để minh hoạ thêm chúng tôi tính toán mã của độ sáng ΔDC = 0 và mã các sắc độ ΔDC = 4.1101.Bảng này sẽ được so sánh với 4. Các trình tự kết quả của các hệ số . trong đó liệt kê các mã tương ứng sử dụng JPEG. Số 5 có thể được thể hiện trong ba bit. Ví dụ: (1) Một ΔDC độ sáng của 5. (2) Một sắc độ ΔDC của -3. mã 100 là phát ra. và mã 10 là lần đầu tiên được phát ra. Các -3 khác biệt được thể hiện trong hai bổ sung như . Theo sau là ba quan trọng nhất-bit 5. các loại kích thước là 3. Các loại kích thước của 4 là 3.8b. 2 bit có ý nghĩa nhất là 00... đó là 100. và mã số 101 được phát ra đầu tiên. Các loại kích thước của không là 0. do đó. tiếp theo ba quan trọng nhất-bit của 4. và mã này được phát ra kế tiếp. tiếp theo bởi không bit. do đó. Các hệ số AC của một hình ảnh tôi (trong nội bộ mã hóa) được mã hóa bằng cách quét chúng trong thứ tự chữ chi thể hiện trong hình 1. do đó. vì vậy mã 110 được phát ra đầu tiên.67 bảng. Số lượng 3 có thể được thể hiện trong 2 bit.

-2). 1. và mức độ đề cập đến kích thước tuyệt đối của C. 0. 0.23 liệt kê các mã EOB và các mã chạy cấp cho các giá trị chung của chạy và cấp. vì vậy mã cuối cùng là (thông báo đăng ký mã số bit sau chạy cấp) 0100 0|000110 1|00100000 1|10.23 cho thấy các mã này (thông báo các bit dấu hiệu sau đây các mã chạy cấp) (không có các thanh dọc). (1.Table 6. tiếp theo là mã EOB. Một mã chạy cấp là đầu ra cho mỗi khác không hệ số C. mà chạy là số của hệ số không trước C. 0. Như một bài tập đơn giản.22a cho thấy một ví dụ của một khối 8 × 8 / hệ số lượng tử. 0.22b hình. Các ương cấp mã cho hệ số cuối cùng khác không được theo sau bởi một 2-bit cuối cùng đặc biệt-khối-of (EOB) code. (3.AC bao gồm hệ số khác không và độ dài chạy hệ số bằng không. Bảng 6. −1. không có . 2). nơi mà 127 là hệ số DC. 1). Các ngoằn ngoèo trình tự của các hệ số là 127. chúng ta tính tự chạy ngoằn ngoèo và cấp mã số cho AC hệ số của 6. Câu trả lời là không có hệ số khác không. các hệ số AC được mã hoá bởi ba chạy cấp mã số (2. 0. 2). tiếp theo là mã 6-bit cho độ dài chạy và mã một 8 hoặc 16 bit-cho cấp. (1. Hình 6. -1). và (13. Sự kết hợp của các cấp điều hành và không được trong bảng được mã hóa bởi mã thoát. Vì vậy. 0. -1). Trình tự ngoằn ngoèo là Các cặp chạy cấp là (0. 2. tự người đọc nên cố gắng tìm hiểu làm thế nào với một khối 63 số không hệ số AC được mã hóa. Mỗi mã chạy cấp cho một hệ số khác không C được theo sau bởi các dấu hiệu 1-bit của C (1 cho âm và 0 cho dương). Ví dụ.

mà có thể xung đột với mã EOB. .chạy cấp mã số. Một tính năng đặc biệt của Bảng 6. 1). Tuy nhiên. trong nonintra mã hóa. Ngoài ra. chỉ là EOB 2-bit.23 là nó liệt kê hai cấp mã số cho chạy (0.đầu tiên của những mã số (có tên "đầu tiên") là số 1. như một khối mã hóa trong một cách đặc biệt.

Một số không khối được xác định là như vậy của CBP bit tương ứng. 1) được mã hóa bằng cách sử dụng "bên cạnh" mã. không cần mã hóa riêng biệt của DC và AC hệ số. Phải có ít nhất một hệ số khác không trong số 64 hệ số lượng trong khối. mà là "11s".23. Quá trình mã hóa bắt đầu bằng cách tìm kiếm chạy của macroblocks được hoàn toàn bằng không. một số trong sáu khối thành phần của nó vẫn có thể hoàn toàn không. nơi một khối tất cả các hệ số DCT-số không được mã hóa theo một cách đặc biệt. P và B hình ảnh) tình hình khác nhau. mã hóa biết rằng nó không thể được tất cả các số không. 1). và lợi thế chính của DCT trong nonintra mã hóa là lượng tử hóa.Deep lượng tử hóa của DCT hệ số nén tăng lên. Các mã đầu tiên. là bình thường sử dụng. Khi đó một khối khác không được mã hóa. 6. Một tính năng của DCT trong nonintra mã hóa là DC và hệ số AC không đáng kể khác nhau. Đây là một biến 6-bit nơi mà mỗi bit xác định xem một trong sáu khối là hoàn toàn không hay không.5. Có đó. do đó. Quá trình dự đoán một hình ảnh từ hình ảnh khác đã decorrelates các mẫu.Giải thích là các thứ hai của những mã số (có tên là "bên cạnh"). Nếu một macroblock không phải tất cả số không. 11. và thậm chí mặc một căn hộ quantization bảng (mà không tận dụng lợi thế của các thuộc tính của tầm nhìn của con người) là hiệu quả trong trường hợp này. vì chúng là các biến đổi DCT sự khác biệt. nó được ký hiệu là "số 1" và không có xung đột với mã EOB kể từ khi mã EOB không thể là mã đầu tiên trong khối như vậy. Bất kỳ hệ số khác không khác với một mã chạy cấp của (0. Chạy như vậy được mã hóa bởi một tăng địa chỉ macroblock. Đối với nonintra mã hóa (ví dụ.2 Cú pháp video MPEG-1 . Một khối khác không được mã hóa sử dụng các mã của bảng 6. và điều này không gây ra xung đột. Nếu hệ số khác không đầu tiên có một mã chạy cấp (0. Đối với các macroblocks mã hóa chuẩn bị một mô hình mã hóa khối (CBP). số 1. chỉ được sử dụng trong nonintra mã hóa. Cuộc thảo luận cho đến nay đã tập trung về mã hoá các hệ số DCT lượng cho nội bộ mã hóa (tôi hình ảnh).

Mỗi lát. Mỗi bức ảnh trong một GOP bắt đầu với một tiêu đề hình ảnh.24 cho thấy định dạng của các dòng MPEG nén và làm thế nào nó được tổ chức trong sáu lớp.Một số nhiều tham số được sử dụng bởi MPEG để xác định và kiểm soát nén của một chuỗi video được mô tả trong phần này một cách chi tiết. hình ảnh. Độc giả quan tâm chỉ trong những mô tả chung của MPEG có thể bỏ qua phần này. bao gồm một tiêu đề lát tiếp theo một hoặc nhiều macroblocks của mã hóa. và ngăn chặn đã được thảo luận. Các khái niệm của video trình tự. và trình tự kết thúc bằng một mã trình tự cấp. Hình 6. Phần tùy chọn được kèm theo trong hộp tiêu tan. Một nhóm các hình ảnh (GOP) bắt đầu với một tiêu đề GOP. lần lượt. các bộ phận hệ thống bị bỏ qua. tiếp theo một hoặc nhiều hình ảnh. tiếp theo một hoặc một lát. theo sau là một nhóm các hình ảnh(GOP). Trình tự video bắt đầu với một tiêu đề trình tự. macroblock. hệ số DCT lượng. Mỗi khối được mã hoá trong nội bộ hoặc nonintra Một khối nội bắt đầu với một sự khác biệt giữa hệ số DC và DC trước hệ số (cùng loại). Có thể có tiêu đề trình tự khác tiếp theo bởi GOPs nhiều hơn. Một số khối có thể hoàn toàn không và có thể không được mã hóa. bốn khối mẫu sáng và hai khối mẫu sắc độ. tiếp theo mã số chạy cấp cho các hệ số AC . Chú ý rằng chỉ có các chuỗi video của dòng nén được hiển thị. slice. Macroblock A là một tập hợp sáu 8 × 8 khối. nhưng hầu hết của các tham số trong tiêu đề trình tự bổ sung phải còn lại không thay đổi từ đầu tiên tiêu đề. Trình tự phụ tiêu đề có thể được bao gồm để giúp đỡ trong phát truy cập ngẫu nhiên hay biên tập video. và tùy chọn của GOPs nhiều hơn nữa.

Mã EOB chấm dứt các khối. Hình ảnh này chỉ chứa DC thông tin hệ số. và cắt tất cả bắt đầu với một-byte liên kết 32-bit bắt đầu code. có tồn tại trong MPEG một loại thứ tư. Các tiêu đề của một chuỗi. Các thông số horizontal_size và vertical_size được 12-bit các thông số để xác định chiều rộng và chiều cao của hình ảnh. 16 giá trị của nó được liệt kê trong Bảng 6. một hình ảnh D (đối với DC mã hóa).khác không và không chạy.25 bảng liệt kê tất cả các đầu video mã số. Không được phép được không. Nó sẽ được đề cập rằng ngoài các I. GOP hình ảnh.error" là đối với trường hợp bộ mã hóa các phát hiện ra không thể khôi phục lỗi trong một chuỗi video và không thể mã hóa nó như là một kết quả. không có mã số chạy cấp hoặc EOB được bao gồm. do đó. 6. dữ liệu người dùng. và các loại hình B. Trong một khối nonintra. Video trình tự lớp: Điều này bắt đầu với 000001B3 mã bắt đầu. D hình ảnh không được phép được trộn lẫn với các loại hình ảnh. Thông số picture_rate là một tham số 4-bit chỉ định một trong 16 làm mới hình ảnh . vì vậy họ rất hiếm và sẽ không được thảo luận thêm. tiếp theo là một chút của 1. Một mã bắt đầu bắt đầu với 23 số không bit. tiếp theo là một byte duy nhất. Tuy nhiên. và gắn thẻ lỗi. Các mã "sequence.26. một số không bit bình thường phải được nối vào các dòng video trước khi một mã bắt đầu. Thông số pel_aspect_ratio là một 4-bit tham số mà xác định tỉ lệ của mức PEL. cả DC và Hệ số AC được điều hành cấp mã. Ngoài những số bắt đầu video có mã số bắt đầu khác các lớp hệ thống. để đảm bảo mã bắt đầu trên một ranh giới byte. Các mã chạy cấp có độ dài biến. tiếp theo chin độ dài cố định các yếu tố dữ liệu. và vertical_size cần phải có. P.

.

Kích thước bộ đệm.27. Điều này tham số đã được tích cực và có liên quan đến tỷ lệ R đúng bit của bit_rate = [R/400] Tiếp đến một marker_bit.28. . time_code_hours (5 bit.97 Hz. mà bao gồm sáu dữ liệu các yếu tố: drop_frame_flag (1 bit) là bằng không trừ khi tỷ lệ hình ảnh là 29. Constrained_parameter_flag là một tham số 1-bit đó là bình thường 0. theo bit. được cho bởi B =8×2048×vbv_buffer_size. Nó chỉ đến bộ giải mã càng thấp ràng buộc với kích thước của bộ đệm dữ liệu nén. trong khoảng [0. cho dù tín hiệu load_non_intra_quantizer_matrix bảng lượng tử non_intra_quantizer_matrix sau đó hoặc cho dù mặc định nên được sử dụng GOP lớp: lớp này bắt đầu với chín yếu tố bắt buộc. nó có nghĩa là nó được theo sau bởi 64 QCs 8-bit của intra_quantizer_matrix. tùy theo bởi phần mở rộng và dữ liệu người dùng. Khi load_intra_quantizer_matrix được thiết lập để 1. Marker bit là phổ biến ở định dạng MPEG. Điều này chút của 1 ngăn cản tình cờ của một thế hệ mã bắt đầu trong trường hợp một số bit bị hỏng. yếu tố dữ liệu time_code_minutes (6 bit. Khi đặt là 1. phút. Nhóm 32-bit bắt đầu 000001B8 mã được theo sau bởi các time_code 25-bit. giây trong khoảng thời gian từ bắt đầu trình tự để hiển thị các hình ảnh đầu tiên trong đảng Cộng hòa. Tương tự như vậy. và là bội số của 2K byte.tỷ giá. và bởi các hình ảnh (nén) bản thân mình. Tám của nó giá trị nonreserved được liệt kê trong Bảng 6. The 18-bit dữ liệu bit_rate yếu tố xác định tỷ lệ nén dữ liệu để các bộ giải mã (trong đơn vị của 400 bit / s). hình ảnh của nó có thể được giải mã mà không tham khảo đến hình ảnh từ bên ngoài nhóm). nó thể hiện rằng một số các thông số khác các giá trị được liệt kê trong Bảng 6. Các vbv_buffer_size 10-bit sau bit đánh dấu. trong khoảng [0. Có một marker_bit giữa time_code_minutes và time_code_seconds. trong phạm vi tương tự) cho biết giờ. 59]). Cờ broken_link được thiết lập để 1 nếu chỉnh sửa đã bị phá vỡ các trình tự ban đầu của các nhóm của hình ảnh. Các 6-bit time_code_pictures tham số cho biết số hình ảnh trong một giây. Các closed_gop cờ là thiết lập nếu đảng Cộng hòa là đóng cửa (ví dụ. Hai yếu tố dữ liệu mới nhất được 1-bit mỗi và kiểm soát việc nạp các nội và nonintra lượng tử hóa các bảng. Sau time_code có hai thông số 1-bit. 23]). và time_code_seconds (6 bit.

Slice Layer: Có thể có nhiều lát trong một bức ảnh. Macroblock lớp: lớp này xác định vị trí của các macroblock sự liên quan đến vị trí của các macroblock hiện hành. Giá trị này xác định hàng macroblock nơi bắt đầu cắt (một hình ảnh do đó có thể có đến 175 hàng macroblocks). 175]. và điều này Tiếp theo là các vbv_delay 16-bit mà nói với các bộ giải mã bao nhiêu bit phải ở bộ đệm dữ liệu đã nén trước khi hình ảnh có thể được giải mã.29). sau đó điều này được theo sau bởi các vector chuyển động về phía trước thông tin về quy mô. hoặc chỉ số. tiếp theo là mã thích hợp từ bảng 6. thảo luận trước đó kết hợp với làm tròn của các hệ số DCT lượng. nó được mã hóa như là một trình tự của các mã acroblock_escape. trong hình. Mỗi macroblock có địa chỉ. đó là số hình ảnh (modulo 1024) trong trình tự. mỗi incrementing địa chỉ macroblock bởi 33. Sau này. có giá trị thập lục phân là 00000100. có sự lạc hậu sau các vector chuyển động thông tin về quy mô.Picture Layer: Tham số trong lớp này chỉ định loại hình (I. một tham số 3-bit gọi là backward_f_code.34). Tham số tiếp theo là các picture_coding_type 3-bit (bảng 6. vì vậy mã bắt đầu của một lát kết thúc với một giá trị trong phạm vi [1. các macroblocks mã hóa được viết. Các quantizer_scale (5 bit) khởi tạo các yếu tố quy mô lượng tử. Nó mã các vector chuyển động cho các macroblock. Lớp này bắt đầu với 32-bit picture_start_code. Nếu các loại hình ảnh là P hoặc B. P.bit temporal_reference tham số. một tham số 3-bit được gọi là forward_f_code (xem Bảng 6. nó thiết lập địa chỉ macroblock để -1. Các macroblock_address_increment tham số có số tiền cần thiết để tăng sự macroblock địa chỉ để đạt được các macroblock được mã hóa. Khi các vicoder bắt đầu mã hóa một hình ảnh mới. . Itisfollowedbya10. Chỉ số giá trị bắt đầu từ 0 ở góc trên bên trái của hình ảnh và tiếp tục để raster. Nếu macroblock_address_increment lớn hơn 33. và xác định các khối không và khác không trong macroblock này. Tham số này sẽ giúp ngăn chặn tràn bộ đệm và tràn dưới. Các extra_bit_slice cờ sau nó luôn luôn là 0 (giá trị 1 được dành cho các tiêu chuẩn ISO trong tương lai). hoặc D) và các vector chuyển động cho hình ảnh. Đối với B hình ảnh.30. B. Các ngang vị trí mà slice bắt đầu tại đó hàng macroblock được xác định bởi các thông số khác. Tham số này là thông thường 1.

macroblock_intra.Macroblock_type là một tham số biến kích thước. và các khối có nhãn "c" được mã hoá).Những sáu bit xác định được sáu khối macroblock như hoàn toàn không hay không. macroblock_pattern.32 sau để mã các bit pattern_code sáu của CBP thảo luận tai biến lier (khối có nhãn trong bảng ". macroblock_motion_backward. macroblock_quant." được bỏ qua. Các tương ứng giữa sáu bit và các khối được thể hiện trong hình 6. Mỗi giá trị của mã này thay đổi kích thước được giải mã thành 5 bit mà trở thành các giá trị của năm cờ sau đây: 1. Nếu được đặt.33. một vector ngược chuyển động được gửi đi. 5. giữa 1 và 6 bit dài. Nếu được đặt. . Nếu được đặt. Nếu được đặt. 4. 2. 3. trong đó khối 0 tương ứng với các bit có ý nghĩa nhất của pattern_code này. macroblock_motion_forward. mã coded_block_pattern (chiều dài thay đổi) được niêm yết trong Bảng 6.Ifset. Những năm cờ xác định phần còn lại của các bước xử lý cho các macroblock này. một 5-bit mới có quy mô lượng tử được gửi đi. có giá trị được liệt kê trong Bảng 6.31. sáu khối macroblock này được mã hoá như trong nội bộ. một vector chuyển động về phía trước được gửi.

.

.

MPEG không yêu cầu việc sử dụng bất kỳ kết hợp đặc biệt thuật toán. do đó. Sự khác biệt giữa các hình ảnh hiện tại và tham khảo một thường gây ra bởi chuyển động (hoặc chuyển động máy ảnh hoặc chuyển động cảnh). nó cũng được chọn là khu vực tiểu bồi thường chuyển động. hoặc bởi các biến thể của ánh sáng. lượng. -4) cho một M macroblock thường có nghĩa là M đã được di chuyển từ hình tham chiếu với ảnh hiện thời bằng cách dịch chuyển nó 15 pels bên phải và 4 pels lên (một di tích cực dọc là xuống).3 Chuyển động bù Một yếu tố quan trọng của MPEG là chuyển động bồi thường. và các tín hiệu mã hóa các quyết định này để giải mã bởi một tham số trong tiêu đề hình ảnh (thông số này có thể thể khác với hình ảnh sang hình ảnh). và mã hóa.Một khi các bit pattern_code được biết. Sự khác biệt giữa các hình ảnh liên tiếp cũng có thể được gây ra bởi tiếng ồn ngẫu nhiên trong máy quay video. Trong MPEG-1. Từ macroblock một là như vậy quan trọng đơn vị trong MPEG. và từng khu vực kết thúc lên được xuất hiện với các khu vực cùng một không gian trong hình tham chiếu. được sử dụng trong liên mã hóa chỉ. Một xem xét quan trọng là độ chính xác của các vector chuyển động.4 cho ví dụ về các thuật toán phù hợp). bởi những người của một hình ảnh tham khảo sau này). Đây là lý do tại sao các bộ mã hóa MPEG mã hóa một vector chuyển động bằng cách trừ nó từ chuyển động vector của các macroblock trước và mã hóa sự khác biệt.và điều này có nghĩa là các vector chuyển động của macroblocks lân cận là tương quan. Họ có thể. trong khi tình hình ngược lại đơn giản hóa các thuật toán được sử dụng để tìm các khu vực phù hợp và cũng dẫn đến chuyển động ít hơn vectơ và đôi khi để nén tốt hơn. họ không phải được mã hóa. Pels được trừ. tuy nhiên. độ chính xác của các vector chuyển động có thể là toàn PEL PEL hoặc một nửa. Nếu sự khác biệt giữa các hình ảnh liên tiếp là do máy ảnh chuyển động. và sự khác biệt (mà phải được số lượng nhỏ) được chuyển đổi DCT. Các thành phần của vector nằm trong các đơn vị của pels. . ngăn chặn được hoàn toàn không được bỏ qua. hoặc thậm chí nhỏ hơn. Các mã phụ thuộc vào việc các khối có độ sáng hoặc mẫu sắc độ và vào việc macroblock là nội hay nonintra.5. tuy nhiên. một trong chuyển động vector là đủ cho toàn bộ hình ảnh. Trong chế độ này. 6. để mô tả chuyển động của các khu vực khác nhau trong hình. đó cũng là cảnh chuyển động và chuyển động của bóng tối. Khối lớp: lớp này là thấp nhất trong chuỗi video.Ifitisset. Cờ macroblock_intra được giá trị của nó từ macroblock_type. Thảo luận ở đây tập trung về hoạt động của bộ giải mã. và thực hiện bất kỳ có thể sử dụng phương pháp riêng của mình cho phù hợp macroblocks (xem Phần 6. các DC hệ số của khối được mã hoá riêng rẽ với các hệ số AC. có thể thay đổi độ sáng trong một cách không đều. Thông thường. Trong nonintra mã hóa. các pels của bức tranh hiện nay được dự đoán bởi những người của một tham chiếu hình ảnh (và có thể. bồi thường chuyển động không được sử dụng. được các đơn vị của PEL một nửa. Trong trường hợp này. các khối tương ứng với 1 bit là mã hóa. Một chuyển động vector chẳng hạn như (15. một số vectơ chuyển động là cần thiết. Kích thước của các vùng là rất quan trọng. Nó thường xảy ra mà lớn các khu vực của một di chuyển hình ảnh tại giống hệt nhau hoặc với tốc độ tương tự. Một lượng lớn số khu vực nhỏ cải thiện độ chính xác dự báo. do đó tốt nhất trước ngôn phap thu được bằng cách kết hợp một khu vực trong hình hiện tại với một khu vực khác ́ nhau trong hình tham chiếu. Nó chứa các mã hóa 8 × 8 khối lượng của hệ số DCT.

Trong một bỏ qua macroblock. từ vector bao gồm hai thành phần. ence DMD = MD-PMD. AB hình ảnh có thể sử dụng chuyển động về phía trước hay phía sau đền bù. như trong hình ảnh P. sau đó hai vectơ chuyển động được tính bằng cách mã hóa cho các macroblock hiện tại. Khi một vector chuyển động cho một MD macroblock được xác định (MD là viết tắt của chuyển động. và khi tham số block_motion_forward là số không. nếu cả hai được sử dụng. PMD được thiết lập lại bằng không khi bắt đầu một lát. Chúng ta nói rằng P sử dụng hình ảnh chuyển động về phía trước. Các full_pel_forward_vector tham số 1-bit trong tiêu đề hình ảnh xác định độ chính xác của các vector chuyển động (1 = full-PEL. Đây là cách dự đoán được thực hiện trong trường hợp của cả hai dự đoán về phía trước và lạc hậu. 5. 0 = nửa PEL).AP sử dụng một hình ảnh trước đó. Hai thành phần của một vector chuyển động (các chuyển vị chuyển động) được cho chính xác một của một trong hai PEL-đầy đủ hoặc một nửa-PEL. tôi hình ảnh hoặc hình ảnh P như một bức tranh tham khảo. 2. các MDs lạc hậu được dự đoán từ trước macroblock trong slice. như quy định trong tiêu đề hình ảnh. Khi motion_vector_backward là số không. Các quy tắc sau áp dụng trong mã hóa các vector chuyển động trong hình B: 1. khi macroblock được bỏ qua. Các PMD số lượng được thiết lập lại bằng không khi bắt đầu một lát và sau khi macroblock làbỏ qua. và mỗi vector được mã hóa bằng cách đầu tiên tính toán sự khác biệt. Giả sử rằng bộ mã hóa có xác định rằng macroblock M trong hình hiện tại phù hợp macroblock MB trong sau đây hình ảnh và MF macroblock trong hình trước đó. Khi motion_vector_forward là số không. MPEG biểu thị chuyển động vector của các macroblock trước trong slice của PMD và tính toán khác nhau. Tham số 3-bit cho ward_f_code xác định phạm vi. sau đó dự đoán là mức trung bình của cả hai. 3. 4. Ngoài ra. MD được dự đoán từ trước macroblock trong slice. Nếu cả hai đều được sử dụng. có hai tham số tương ứng (đối với lạc hậu) full_pel_backward_vector và ackward_f_code. 6. dự báo bồi thường. chuyển vị ngang và dọc). sau khi được nội macroblock mã hóa. Mỗi PEL M [i. các MDs mong được dự đoán từ trước nhượng macroblock trong slice. AB hình ảnh được dự đoán bằng các phương tiện của tôi và P hình ảnh nhưng không phải bởi một hình ảnh B. Ngoài ra. j] trong macroblock M trong hình hiện nay được dự đoán bằng cách tính toán sự khác biệt nơi thương của phép chia cho 2 được làm tròn đến số nguyên gần nhất. Tham số full_pel_forward_vector và forward_f_code có cùng một nghĩa. .như đối với một hình ảnh P.

và f.36 Bảng liệt kê các phạm vi giá trị của motion_r như là một chức năng của f_code.Điều này được . giá trị của tham số motion_code cho sự chuyển đi của một macroblock được cho bởi nơi mà các thương được làm tròn như vậy mà × motion_code f ≥ DMD. và 6. Đây là một số nguyên ký kết mà được cho bởi sản phẩm dMDp = motion_code×f. 6. được xác định bởi r = |dMDp|−|dMD|..Điều này được thực hiện bằng cách đọc các mã số của một khối từ các dòng nén. Đối với khối nonintra trong P và B hình ảnh. nơi f_code là một tham số 3-bit với giá trị trong khoảng [1. 64]. Các rsize số nguyên đơn giản chỉ là f_code . bao gồm trong nén dòng bằng một mã biến-chiều dài. Sau khi r máy tính. 6. Mỗi di động có hai phần. 8. giải mã chúng. 4. 7]. Phần còn sót lại được ký hiệu là r và là một số nguyên dương. 2.1. Các phần việc chính là biểu hiện bằng dMDp. bộ mã hóa mã hóa nó bằng cách ghép những cái-bổ sung của r và motion_r vào mã chiều dài biến cho motion_code tham số. Khi e đã được lựa chọn. chủ yếu và một còn lại. và f nên được chọn là giá trị nhỏ nhất là đáp ứng các bất đẳng thức sau đây để các (tích cực hay tiêu cực) lớn nhất phân chuyển trong toàn bộ hình ảnh −(16×f) ≤ dMD < (16×f). Điều này có nghĩa rằng rsize có giá trị [0.. 6] và f là một phạm vi [1.34 danh sách các thông số tiêu đề cho tính toán vector chuyển động ("p" là viết tắt cho hình ảnh tiêu đề và "mb"là tiêu đề macroblock). Các tham số motion_r có liên quan đến r bằng motion_r =(f − 1) − r. 16].5. nơi motion_code là một tham số số nguyên trong khoảng [-16.Chuyển chính và dư: Hai thành phần của một vector chuyển động được chuyển vị chuyển động.bộ giải mã có thêm dự đoán chuyển động bồi thường cho các kết quả của IDCT này. là một sức mạnh của 2 do .dequantizing họ. các yếu tố rộng.35 Bảng liệt kê các chung họ và tên của các tham số được đề cập ở đây.. Bảng 6.4 PEL tái thiết Nhiệm vụ chính của bộ giải mã theMPEG là để tái tạo lại PEL của chuỗi toàn bộ video.. và tính IDCT.

tạo ra một chuỗi số 63 hệ số AC. giải mã các lần đọc mã vi sai của hệ số DC và sử dụng giá trị giải mã của hệ số DC trước đó (cùng loại) để giải mã DC hệ số của khối hiện hành. Trình tự được giải mã toàn bộ hình ảnh của hình ảnh. được gọi là IDCT không phù hợp. và trong mỗi hình ảnh. . Sau đó nó đọc các mã chạy cấp cho đến khi một EOB mã là bắt gặp. mà có thể dẫn đến tích tụ các lỗi. Nó đã được đề cập rằng IDCT không phải là cứng nhắc quy định tại MPEG. nếu một số khối là hoàn toàn không) trong sáu khối của một macroblock.lặp lại sáu lần (hoặc ít hơn. và giải mã chúng. trong quá trình giải mã Đối với các khối nội bộ mã hóa. macroblock bởi macroblock.

không có sự phân biệt giữa các DC và AC và hệ số giữa các khối độ sáng và sắc độ. 6.6 MPEG-4 . ngay cả những người hoàn toàn không).Bình thường với hệ số khác không ít và chạy các số không giữa chúng. khối kết quả sẽ trở thành một trong sáu các khối tạo nên một macroblock (trong nội bộ mã hóa tất cả sáu khối luôn luôn được mã hóa. Sau khi dequantization và tính toán DCT ngược. Các DC và 63 hệ số AC sau đó được thu thập trong chữ chi để tạo ra một 8block × 8. Đối với khối nonintra. Họ là tất cả được giải mã trong cùng một cách.

MPEG-4 là một tiêu chuẩn mới cho các dữ liệu nghe nhìn. Các bài học kinh nghiệm từ MPEG-1 và MPEG-2 đã không bị mất trên MPEG-ủy ban thành viên và góp phần định dạng tư duy của họ cho MPEG-4.") Ngoài việc sản xuất một bộ phim trong cách truyền thống với . trong khi làm cho nó có thể cho người tiêu dùng để tạo ra. mặt khác. đĩa CD tương tác. không phải là một lỗi thiết kế duy nhất đã được tìm thấy trong ông thực hiện thuật toán này phức tạp và nó làm việc như mong đợi. Mặt khác tay. Chúng ta bắt đầu với một chút lịch sử. Thêm mô tả có thể đọc được có thể được tìm thấy trong [Pereira và Ebrahimi 02] và [Symes 03]. như một chiếc xe di chuyển. Theo truyền thống. truyền âm thanh kỹ thuật số đã có chút thành công thương mại. tiêu chuẩn này bao gồm nhiều hơn là chỉ compression của dữ liệu. công nghệ cao. có sửa đổi cách tiếp cận của họ. MPEG-1 đã được phát triển như là một tiêu chuẩn nén cho video tương tác trên đĩa CD và cho phát sóng âm thanh kỹ thuật số. Các ủy ban MPEG-4 bắt đầu nghĩ về những phát triển trong tương lai và cố gắng đoán những tính năng cần được bao gồm trong MPEG-4 để đáp ứng chúng. Dự án MPEG-4 đợc bắt đầuvào tháng 5 năm 1991 và ban đầu các cách để nén dữ liệu báo chí đa phương tiện có tỷ lệ bit rất thấp với độ biến dạng tối thiểu. Nó đã được yêu cung cấp dữ liệu video hợp lý trong chỉ một vài nghìn bit / giây. đáp ứng với sự phát triển của công nghệ nghe nhìn. (The-proposals được cho là địa chỉ trong tám chức năng chính của MPEG-4. đã phát triển ra tỷ lệ và thường được được sử dụng ngày hôm nay cho âm thanh. Một mặt. phương pháp nén video đều dựa trên điểm ảnh. điều này đã được thay đổi đáng kể. cộng với các sửa đổi mới. Thay vì một tiêu chuẩn nén. Một khía cạnh của MPEG-1 mà được cho là nhỏ. Họ hy vọng rằng như vậy sẽ khuyến khích ngành công nghiệp thiết lập để đầu tư vào những ý tưởng mới. nó có sẵn từ [ISO 03] bao gồm 10 bộ phận. được liệt kê dưới đây. o MPEG-1 được sử dụng ngày hôm nay để nén video nói chung. Mô hình nén áp dụng cho MPEG-4. Nhiều đề xuất được chấp nhận cho nhiều khía cạnh của MPEG-4. Mô tả chính thức được xuất bản vào năm 1999 với nhiều sửa đổi tiếp tục sắp ra. Thông tin chi tiết không được cung cấp. và mô tả chính thức. giữa khung hình. MPEG-4 được thiết kế theo tiêu chuẩn ISO / IEC 14496. Như vậy nén quan trọng cho điện thoại video hoặc để nhận được video trong một thiết bị nhỏ cầm tay. các thành viên ủy ban. và sản phẩm trong sự tự tin. Mỗi video là một bộ khung hình chữ nhật của điểm ảnh và thuật toán tìm kiếm mối tương quan giữa các điểm ảnh trong một khung. đặc biệt là trong môi trường di động. Mặt khác. Các dự án MPEG-4 dự án đã bắt đầu như là một tiêu chuẩn để nén video các bit rất thấp. MPEG-4 là rất lớn và phần này chỉ có thể mô tả các chức năng chính của nó. dựa trên các đối tượng. cụ thể là MP3. việc xác minh mô hình đầu tiên đã được quy định. Nó bật ra được một chiến thắng công nghệ nhưng một thất bại nhìn xa trông rộng. MPEG-2 đã được thiết kế đặc biệt cho các kỹ thuật số elevision và sản phẩm này đã có thành công thương mại lớn. và chu kỳ của các cuộc gọi đã được đề xuất. Hiện nay (giữa năm 2003). phân phối.) Các cuộc kiểm tra các đề xuất được bắt đầu thực hiện vào cuối năm 1995. và phiên bản đầu tiên của MPEG-4 đã được chấp nhận và phê duyệt vào cuối năm 1998. họ quyết định để phát triển bộ công cụ (một hộp công cụ) để đối phó với các sản phẩm nghe nhìn ngày nay nói chung và trong tương lai. Mặc dù video và âm thanh nén vẫn còn một tính năng trung tâm của MPEG-4. Sau khi làm việc trong dự án này trong hai năm. Một cuộc gọi cho các đề xuất được ban hành vào tháng Bảy năm 1995 và câu trả lời đã nhận được tháng Mười của năm đó. (Tên của dự án MPEG-4 cũng được thay đổi ở điểm này để "mã hóa của các đối tượng nghe nhìn. nhận ra rằng sự phát triển nhanh chóng của các ứng dụng truyền thông đa phương tiện và dịch vụ sẽ yêu cầu tiêu chuẩn nén nhiều hơn và nhiều hơn. Vào tháng Giêng năm 1996. và nhận được các loại dữ liệu đa phương tiện một cách dễ dàng và chi phí hợp lý. và việc xác minh được lặp lại nhiều lần vào năm 1997 và năm .Tháng 7 năm 1994. Kết quả là.

cung cấp. Một tính năng quan trọng của MPEG-4 là khả năng tương tác. Một cảnh tự nhiên là bình thường sản xuất bởi một máy quay video.một máy ảnh hoặc với sự giúp đỡ của hoạt hình máy tính. Một cảnh tổng hợp bao gồm văn bản và đồ họa. vì vậy bất kỳ sự dư thừa cần được loại bỏ bằng phương tiện của eo nén Écient rằng sẽ đưa vào tài khoản của các mẫu giống hệt nhau tại các điểm khác nhau. Hãy tưởng tượng một trường hợp nghe nhìn dữ liệu đã được truyền đi qua một băng thông thấp kênh (ví dụ như đường dây điện thoại) và được lưu trữ trong một thiết bị công suất thấp như là một thông minh thẻ. đồ họa. và tỷ lệ nén cao (Hoặc tương đương. 3. một mặt. áo ¨ Äect phần lớn các bài thuyết trình nghe nhìn. Điều này cũng đúng cho phần âm thanh (các bản nhạc). nơi mà ngay cả những lỗi nhỏ nhất có thể được chú ý và có thể tuyên truyền. Cải thiện thời gian truy cập ngẫu nhiên. MPEG-4 phải cung cấp lỗi điều chỉnh mã số cho trường hợp dữ liệu nghe nhìn được truyền qua một kênh ồn ào. hay một chiếc xe. có thể là văn bản. hay âm thanh. một mặt có thể chuyển. Hybrid tự nhiên và tổng hợp dữ liệu mã hóa. Nội dung đa phương tiện dựa trên các công cụ truy cập. bitrate thấp) thường liên quan đến một  · oo thương mại dưới hình thức của hình ảnh giảm kích thước. hiển thị. Mã hóa dữ liệu đồng thời nhiều dòng. Rõ ràng. 7. chẳng hạn như một bông hoa. Thuật ngữ này đề cập đến khả năng trao đổi bất kỳ loại dữ liệu. và xóa chúng. sau đó mô tả cách mỗi đối tượng cần được di chuyển và thao tác trong khung hình kế tiếp. một cá nhân tạo ra một phần dữ liệu nghe nhìn có thể bắt đầu bằng cách xác định đối tượng. Trong cuộc họp quan trọng năm 1994 July. Có vẻ như trong tương lai-audiovi sual ứng dụng sẽ cho phép người sử dụng không chỉ để xem và nghe mà còn để tương tác với hình ảnh. công cụ này có thể bao gồm lập chỉ mục. MPEG-4 tiêu chuẩn bao gồm các thẻ để làm cho nó dễ dàng tiếp cận bất kỳ điểm nào trong tập tin. 4. và tiêu thụ (chơi. Kết quả là. Một người dùng có thể chọn một đối tượng và sửa đổi nó trong file nén mà không cần giải nén toàn bộ tập tin. 2. Người dùng có thể muốn truy cập một phần của nén tập tin. kết nối. cho phép người dùng lựa chọn bất kỳ của họ để xem và để thay đổi quan điểm tại sẽ. Điều này có thể chỉ khi dữ liệu được nén tốt. 1. MPEG-4 cần công cụ để nén những cảnh tự nhiên và tổng hợp và kết hợp chúng tương tác. truy vấn. Tính năng này chỉ có nghĩa là cải tiến cách nén. Họ đã đưa ra tám điểm mà họ coi là chức năng quan trọng đối với MPEG-4. Một cú pháp và một cá tuyếting chương trình nên là một phần của MPEG-4 cho phép người dùng thao tác và chỉnh sửa nén tập tin (bitstreams) mà không có đầy đủ giải nén chúng. Điều này đặc biệt quan trọng đối với bitrate thấp suối. Một bông hoa có thể mở từ từ. trên một kênh truyền thông chậm. 5. giao trả hồ sơ. và chất lượng giảm. Tất cả các thiết bị sản xuất dữ liệu. chỉ có thể có khả năng tương tác với sự có mặt của tiêu chuẩn. các MPEG-4 nén dòng có thể bao gồm một số quan điểm cùng một cảnh. Các tiêu chuẩn MPEG-4 nên cung cấp công cụ để truy cập và tổ chức dữ liệu nghe nhìn. và mờ dần. nụ cười. một xe có thể di chuyển về phía người xem và trở nên lớn hơn. Mạnh mẽ trong môi trường dễ bị lỗi. Các chính các công cụ hiện đang tồn tại được liệt kê sau đó trong phần này. do đó. video. 6. Nội dung dựa trên thao tác và chỉnh sửa bitstream. duyệt. giảm độ phân giải (điểm ảnh / inch). hoặc in) thì phải tuân theo quy tắc tương tự và đọc và viết cấu trúc file như nhau. Đây có thể là quan trọng khi tập tin được lưu trữ trong một vị trí trung tâm và người dùng đang cố gắng điều khiển nó từ xa. . MPEG-4 ủy ban quyết định sửa đổi Mục tiêu ban đầu của nó và cũng bắt đầu nghĩ về những phát triển trong tương lai trong lĩnh vực nghe nhìn và các tính năng cần được bao gồm trong MPEG-4 để đáp ứng chúng. Cải thiện mã hóa hiệu quả. MPEG-4 bao gồm một đối tượng ngôn ngữ mô tả cung cấp cho một mô tả nhỏ gọn của cả hai đối tượng và họ chuyển động và tương tác. Vấn đề là các Dio ¨ xem Äerent có thể tương tự.

phân phối. chất lượng. Điều này cho phép chỉnh sửa sau này. dữ liệu nghe nhìn bao gồm những cảnh hai chiều. tương tác thay đổi kích thước. nó được sản xuất với một máy ảnh và micro và chứa các đối tượng tự nhiên. và được làm hoạt động trong giai đoạn tiêu thụ có thể. Những người xem xem bản đồ thời tiết của khu vực địa lý của địa phương (một hình ảnh máy tính tạo ra) mà có thể phóng to thu nhỏ và xoay. Các MPEG-4 phương pháp tiếp cận là để giúp cho cả hai đối tượng hai chiều và ba chiều và cho những cảnh tự nhiên và tổng hợp. Điều này đã thực thi các ứng dụng quân sự và pháp luật. và văn bản (một cảnh tổng hợp) cũng có thể xuất hiện từ thời gian gian. nội dung nghe nhìn đi qua ba giai đoạn: sản xuất. chẳng hạn như mạng cục bộ và truyền hình vệ tinh. hoặc trong trường hợp người sử dụng là vội vàng và thích nhìn thấy một hình ảnh thô ráp hơn là chờ đợi một giải mã đầy đủ. Trong một phiên tin tức trên truyền hình. AOS nén. và tiêu thụ. Khi tám chức năng trên cơ bản đã được identiÔ ¨ AED và được liệt kê. Các dòng nén có thể bao gồm nghe nhìn Ô dữ liệu trong độ phân giải ¨ Ane và chất lượng cao. và hiển thị (tiêu thụ). và biến mất. Thành phần của các đối tượng là rõ ràng speciÔ ¨ AED do sản xuất trong thời gian sản xuất bằng phương tiện của một ngôn ngữ đặc biệt. và nói (một cảnh tự nhiên).và độ phân giải của các bộ phận bị theo dõi. chỉ. Những người được liệt kê ở đây chỉ là một vài quan trọng ví dụ. một vài giây có thể được dành cho thời tiết. Đồ họa hình ảnh của mặt trời. Nó là rất rõ ràng rằng nén một yêu cầu trung tâm trong MPEG-4. 1. Theo truyền thống. xem các bộ phận duy nhất của nó. Các phương pháp truyền thống là để truyền dữ liệu nghe nhìn trên một vài mạng công trình. giữa các xe và / hoặc cá nhân. 2. Tất cả pha trộn của các đối tượng (thành phần của hình ảnh) được thực hiện trong thời gian sản xuất.8. Truyền thông. cả hai hình ảnh và âm thanh. tiêu chuẩn này dự kiến sẽ có nhiều ứng dụng. An MPEG-4 tác giả phải đối mặt với một ứng dụng đã xác định được yêu cầuments của ứng dụng và chọn công cụ thích hợp. Một ví dụ có thể dùng để minh họa khái niệm của các đối tượng tự nhiên và tổng hợp. Tiêu thụ. truyền qua đường (trên truyền hình cáp. hoặc vào Internet). hoặc cầu vồng (Tổng hợp cảnh) xuất hiện. Các MPEG-4 phương pháp là cho phép người sử dụng như là tự do nhiều thành phần càng tốt. Mọi thứ đều precomposed. Mỗi giai đoạn được tóm tắt dưới đây để các phương pháp truyền thống và đối với các phương pháp tiếp cận MPEG-4. Người sử dụng có thể tương tác với các dữ liệu nghe nhìn. vào không khí. giải nén. MPEG-4 ủy ban bắt đầu quá trình phát triển công cụ riêng biệt để đáp ứng các chức năng. Nghị định thư tồn tại để truyền tải nghe nhìn dữ liệu trên bất kỳ kiểu mạng. nhưng không yêu cầu duy nhất. Đây là một quá trình liên tục mà vẫn tiếp tục cho đến ngày nay và sẽ tiếp tục trong tương lai. giọt mưa. Bởi vì trong những mục tiêu rộng và đa dạng phong phú của các công cụ có sẵn như là một phần của MPEG-4. mây. Sản xuất. Tất cả những cảnh được phối bởi các nhà sản xuất thành một bài thuyết trình nghe nhìn rằng. nhưng bất kỳ bộ giải mã MPEG-4 có thể giải mã nó ở độ phân giải thấp và chất lượng thấp. Tính năng này rất hữu ích trong trường hợp dữ liệu được giải mã và hiển thị trên một màn hình nhỏ độ phân giải thấp. . Giao hàng tận nơi. di chuyển. Các MPEG-4 phương pháp tiếp cận là để cho thực tế bất kỳ mạng dữ liệu mang dữ liệu nghe nhìn. Điều này quan trọng là để giải trí và giáo dục. người xem chỉ có thể xem video và nghe kèm theo âm thanh. nhận được bởi các máy tính hoặc máy truyền hình. Theo truyền thống. Một người đang chuyển động. Truyền dữ liệu đa phương tiện qua Internet hoặc qua mạng nội bộ. như nó đã được cho MPEG-1 và MPEG-2. Nội dung dựa trên khả năng mở rộng. Nhìn chung.

Mô tả của đối tượng (OD) cung cấp thông tin về tiểu dòng có sẵn để đại diện cho một MPEG-4 đối tượng. hiển thị và phát âm thanh) của suối. Một người dùng có thể sử dụng các ngôn ngữ lập trình Java để thực hiện một số bộ phận của một nội dung MPEG-4. Nó chỉ rõ cách vùng đệm của thu nên được khởi tạo và quản lý trong quá trình truyền và tiêu dùng. Video nén. cho phép tác giả để trao đổi MPEG-4 nội dung với các tác giả khác. bộ phim A. Công cụ này là một định dạng. Nó bao gồm các chức năng được sử dụng để mô tả các đối tượng hai chiều và ba chiều và các phong trào của họ. để người tiêu dùng không thể sao chép phim gốc. truyền hình. XMT có thể được mô tả như là một khuôn khổ mà sử dụng một cú pháp văn bản để đại diện cho MPEG de cảnh-4scriptions. 7. nhưng đối với cảnh để làm cho tinh thần. chẳng hạn như văn bản và đồ họa. Điều này. Nó cũng cung cấp nhiều cách để mô tả và thao tác những cảnh tổng hợp. Đối tượng mô tả khuôn khổ. Thấp chất lượng video và âm thanh có thể được nén và xuyên mitted từ một camera giám sát để theo dõi vị trí trung tâm trên một không tốn kém. An MPEG-4 cảnh bao gồm các đối tượng. Giao thông vận tải công cụ. Nó đã được đề cập mà chỉ là một nén của nhiều MPEG-4 bàn thắng. có thể được theo dõi chỉ khi nó đã được trả tiền cho. Dựa trên bối cảnh lưu trữ và phục hồi. MPEG-J cũng định nghĩa một cung cấp cơ chế cho phép MPEGlets và Java các lớp khác sẽ được xem trực tiếp đến sản lượng một cách riêng biệt. chậm kênh truyền thông. 4. Công cụ này quan trọng (BIFs cho ngắn) có trách nhiệm mô tả một cảnh. Một bộ phim ban đầu được sản xuất bằng tiếng Anh có thể được phiên dịch sang các ngôn ngữ khác bằng cách lồng tiếng hay phụ đề. tín hiệu điều khiển có thể được gửi lại cho máy ảnh thông qua cùng một kênh để xoay hoặc phóng to nó để thực hiện theo các chuyển động của các nghi phạm. cả về không gian và tạm thời.3. Có một MPEG-4 đối tượng đại diện cho cá nhân này và có video và âm thanh kết hợp với đối tượng này. và tiêu thụ có thể được giới hạn chỉ streaming. Studio và hậu kỳ. MPEG-J. MP4 và FlexMux. trong khi sau này được sử dụng để đan xen nhiều luồng lại thành một dòng duy nhất. Hệ thống giải mã mô hình.ép lấy mẫu và giao hoặc tiêu thụ. ví dụ. có nhiều giải trí giáo dục các ứng dụng. Hãy tưởng tượng một cá nhân tham gia trong một video hội nghị. Ngoài ra. Các cuộc họp ảo. Hai công cụ này. một lần nữa. được định nghĩa để giúp người dùng vận tải đa phương tiện nội dung. 6. Các công cụ nén video bao gồm các thuật toán khác nhau có thể nén dữ . mô tả ngắn gọn của chúng tôi MPEG-4 kết thúc với một danh sách các công cụ chính quy định theo tiêu chuẩn MPEG-4. Mở rộng MPEG-4 định dạng văn bản. Nhị phân định dạng cho các cảnh. MPEG-J cho phép người dùng viết MPEGlets đó và nó cũng bao gồm các API Java hữu ích giúp các giao diện người dùng với các thiết bị đầu ra và với các mạng lưới được sử dụng để cung cấp nội dung. 5. Phát thanh truyền hình kỹ thuật số đa phương tiện. các đối tượng phải được đặt tại những vị trí bên phải và di chuyển và thao tác đúng lúc. bao gồm cả thời gian thông tin. Nó cũng bao gồm các chi tiết kỹ thuật để xác định thời gian và cơ chế để thu hồi từ lỗi. Một ví dụ phổ biến của giới hạn là cần phải trả tiền trước khi một đối tượng có thể được tiêu thụ. Một số đối tượng đặt các hạn chế về tiêu thụ của họ. và đây là cũng bao gồm trong các OD của đối tượng. viết tắt XMT. dữ liệu nghe nhìn có thể được lưu trữ trong com. Giám sát. Tất cả các đồng bộ hóa cơ bản và các tính năng streaming của tiêu chuẩn MPEG-4 được bao gồm trong công cụ này. Ứng dụng này tiết kiệm thời gian là yêu thích của giám đốc điều hành bận rộn. Các OD cũng có thông tin về vị trí nguồn của các dòng (URL có thể là một) và trên các bộ giải mã MPEG-4 có sẵn để tiêu thụ (tức là. Điều thứ nhất ghi MPEG-4 nội dung trên một tập tin.

MPEG-4 bao gồm các công cụ để thêm vững mạnh. Nhiều MPEG-4 đối tượng bao gồm các mắt lưới hình đa giác. và (3) dòng điều hòa và cá nhân cộng với tiếng ồn (HILN. Công cụ mạnh mẽ. Âm thanh mã hóa. Ví dụ như (1) mã hóa âm thanh tiên tiến (AAC. Các chính thuật toán để nén bài phát biểu là CELP.11 là một ví dụ của một phương pháp. cũng được bao gồm trongnhững công cụ này. có thể sản xuất bitrate thấp như 6 kbit / s / kênh). nhưng điều này cũng làm cho các dữ liệu dễ bị lỗi. phổ biến với người sử dụng âm nhạc máy tính. Thông thường. Tổng hợp âm thanh mã hóa. và một số cũng hỗ trợ video tiến bộ và xen kẽ. một MPEG-4 file có chứa khuôn mặt của con người và cơ quan. dựa trên ngân hàng ap lọc proach). Các thuật toán được cung cấp để tạo ra những âm thanh của quen thuộc-IAR nhạc cụ. Những công cụ rất quan trọng trong ứng dụng mà dữ liệu đã đến thể lây truyền qua đường không đáng tin cậy. . Bài phát biểu mã hóa. Một số thuật toán có sẵn như MPEG-4 công cụ cho âm thanh-nén. ngụ ý độ phân giải thấp và video chất lượng thấp) và 1 Gbit / s. Các tiêu chuẩn MPEG-4 do đó cung cấp công cụ để xây dựng và hoạt họa bề mặt như vậy. Text-to-speech công cụ cho phép tác giả để viết văn bản sẽ được phát âm khi các nội dung MPEG-4 được tiêu thụ. Chúng có thể được sử dụng để tạo ra âm nhạc tổng hợp trong nénđịnh dạng. ở dạng mã sửa lỗi. Khi MPEG-4 nội dung được xem trực tiếp. một tham số âm thanh coder). Đây là chức năng của các khả năng mở rộng tốt hạt (FGS) công cụ. Mỹ-hạt khả năng mở rộng. sau đó cải thiện chất lượng hình ảnh của mình bằng cách thêm vào các lớp thêm thông tin. Vững mạnh cũng đã được thêm vào rất thấp bitrate MPEG-4 suối bởi vì những đau khổ nhất từ những sai sót. Văn bản này có thể bao gồm thông số như sân đường đồng mức và thời gian đơn âm đó nâng cao chất lượng bài phát biểu. phương pháp nén khác nhau từ rất mất dữ liệu lên gần lossless. nhưng đó cũng là một coder tham số. Tất cả các phương pháp để phát hiện lỗi và sửa chữa được dựa vào việc tăng dự phòng của dữ liệu. Mục 8. và chúng phải được hoạt hình.liệu video bitrate trong khoảng từ 5 kbits / s (bitrate rất thấp. Bài phát biểu thường có thể là một phần của nội dung MPEG-4 và các công cụ đặc biệt được cung cấp để nén nó một cách hiệu quả ở bitrate từ 2 kbit / s lên đến 24 kbit / s. nén dữ liệu dựa vào việc loại bỏ dư thừa từ các dữ liệu ban đầu. hầu hết các nén video các công cụ được thiết kế để nén lưới đó. (2) chuyển hóa-miền trọng xen kẽ vector quantization (Twin VQ. đôi khi desirable đến đầu tiên gửi một hình ảnh thô. Khuôn mặt và hình ảnh động cơ thể. Các định dạng MIDI. để nội dung nén. do đó.