You are on page 1of 4

Image compression using the Haar wavelet transform Image compression

using the Haar wavelet transform


Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT

Colm Mulcahy, Ph.D.


ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT
Image compression using the Haar wavelet transform
Colm Mulcahy, Ph.D.
ABSTRACT

Nén hình ảnh bằng cách sử dụng biến đổi


sóng con Haar.
Biến đổi sóng con là một cái mới trong lĩnh vực toán học. Chúng tôi sẽ giới thiệu ngắn gọn về chủ đề
này bằng cách chỉ ra cách biến đổi sóng con Haar cho phép mã hóa thông tin theo "các cấp độ chi
tiết". Một khía cạnh của điều này tương tự cách chúng ta thường xử lý thông tin trong cuộc sống hàng
ngày. Cuộc nghiên cứu của chúng tôi cho phép chúng tôi trình bày hai ứng dụng thú vị của phương
pháp sóng con đối với hình ảnh kỹ thuật số: nén và truyền tải dần.
Yêu cầu toán học sẽ được giữ ở mức tối thiểu; thực tế, các khái niệm chính có thể được hiểu dựa trên
phép cộng, phép trừ và phép chia cho hai. Chúng tôi cũng trình bày một cài đặt đại số tuyến tính của
biến đổi sóng con Haar và đề cập đến các tổng quát quan trọng gần đây.
Nội dung này phù hợp cho nghiên cứu cấp độ đại học của cả ngành toán học và khoa học máy tính, và
đã được sử dụng thành công tại Trường Đại học Spelman từ năm 1995.
Mục 1: Quá nhiều thông tin.
Trong thế giới thực, chúng ta luôn phải đối mặt với việc quyết định cần hấp thụ hoặc truyền thông
bao nhiêu thông tin.
Ví dụ 1: Một cuộc bầu cử đang đến gần, và bạn và người bạn thân nhất của bạn vẫn chưa quyết định
sẽ bỏ phiếu cho ai. Bạn của bạn hài lòng dựa quyết định của mình chỉ dựa trên liên kết chính trị của
các ứng cử viên có sẵn, trong khi bạn tốn thời gian để tìm hiểu cách các ứng cử viên đứng trên một
loạt các vấn đề, và kiểm tra hồ sơ của họ về tính trung thực, hiệu quả và tầm nhìn.
Ví dụ 2: Em trai của bạn đang ở phía bên kia phòng, làm việc trên một dự án cho Tháng Lịch sử Người
Mỹ da đen. Từ nơi bạn ngồi, bạn có thể thấy anh ta đang đặt một chú thích cho một bức tranh. "Ai
đang ở trong bức tranh đó?" bạn hỏi. "Một người ngồi trên xe buýt," anh ta trả lời một cách tránh né.
"Tôi có thể thấy điều đó," bạn đáp lại một cách nói thất vọng, "Nhưng đó là ai?" "Một người phụ nữ,"
anh ta nói, cười đầy trò đùa. "Đó có phải là tất cả bạn sẽ nói cho tôi?" bạn nói trong tình trạng tức
giận, đứng dậy. "Một người phụ nữ trẻ," anh ta góp ý thêm nhanh chóng. Thấy vẻ không hài lòng trên
khuôn mặt của bạn, anh ta nhanh chóng thêm, "Đó là Rosa Parks."
Những ví dụ này có điểm chung là truyền thông thông tin ở các cấp độ chi tiết khác nhau. Trong ví dụ
đầu tiên, mỗi người nhận thông tin đến một mức độ cụ thể nào đó, nhưng không vượt quá mức đó. Ví
dụ thứ hai minh họa sự truyền thông thông tin dần dần: chúng ta bắt đầu với một sự gần đúng thô, và
theo thời gian càng ngày càng có thêm chi tiết, cho đến khi cuối cùng một "hình ảnh đầy đủ" nổi lên.
Hình 1 minh họa điều này dưới hình ảnh: nhìn từ trái sang phải, chúng ta thấy ngày càng nhiều hình
ảnh có thể nhận biết hơn về Rosa Parks.

Hình 1: Người trên xe buýt - Phụ nữ trên xe buýt - Phụ nữ trẻ trên xe buýt - Rosa Parks trên xe buýt
Dr. Colm Mulcahy là Giáo sư Khoa học toán tại Trường Đại học Spelman, nơi ông đã giảng dạy từ năm
1988. Trong những năm gần đây, sở thích toán học của ông đã mở rộng để bao gồm các vấn đề liên
quan đến tính toán và hình ảnh, chẳng hạn như thiết kế hình học hỗ trợ máy tính (CAGD), đồ họa máy
tính, xử lý hình ảnh và sóng con, và ông đã hướng dẫn nghiên cứu sinh viên cấp đại học về tất cả các
chủ đề này.
22/ Spelman Science and Math Journal: Tạp chí Khoa học và Toán học của Trường
Đại học Spelman.
Có hai quan sát đáng chú ý ở đây. Đầu tiên, có những tình huống dưới đó, bất kỳ một trong những sự
gần đúng này đều đủ cho mục đích ngay lập tức của chúng ta. Ví dụ, nếu nhìn từ khoảng cách đủ xa,
tất cả chúng trông giống nhau. Do đó, nếu một trong chúng được sử dụng để tạo thành một phần nhỏ
của một bức tranh lớn hơn nhiều, ví dụ như một bức ảnh trên bếp hoặc một hình ảnh ngắn trong một
video, không cần phải hiển thị phiên bản chất lượng cao.
Thứ hai, việc truyền tải liên tục một chuỗi các sự gần đúng ngày càng tốt đẹp đến "bức tranh thực sự"
là tự nhiên: đó là cách nhiều người trong chúng ta truyền đạt thông tin và học về các chủ đề mới. Đây
cũng là cách trình duyệt Netscape World Wide Web phổ biến cung cấp hình ảnh cho người dùng web:
khi chúng ta gọi một URL (địa chỉ WWW) chứa một hình ảnh, hình ảnh đó xuất hiện dưới dạng các
phần, bắt đầu từ sự gần đúng và tiến đến hình ảnh hoàn chỉnh cuối cùng. Tất cả các hình thức truyền
thông thông tin liên tục đều có một lợi ích chính: người nhận có thể dừng quá trình và chuyển sang
việc khác nếu cô quyết định, dựa trên thông tin ban đầu, rằng cô không muốn "bức tranh đầy đủ".
Điều này cũng áp dụng cho việc tìm hiểu về một ứng cử viên trong cuộc bầu cử, lắng nghe người kể lại
kinh nghiệm du lịch của họ hoặc lấy một hình ảnh trên World Wide Web bằng cách sử dụng Netscape.
Sóng con cung cấp một cách toán học để mã hóa thông tin số học (dữ liệu) theo cách mà nó được lớp
trên cơ sở mức độ chi tiết. Cách lớp này không chỉ hỗ trợ truyền thông dữ liệu liên tục như đã đề cập
ở trên, mà còn bao gồm các sự gần đúng ở các giai đoạn trung gian khác nhau. Điểm quan trọng là
những sự gần đúng này có thể được lưu trữ bằng ít không gian hơn so với dữ liệu gốc, và trong các
tình huống có không gian hạn chế, nén dữ liệu này rất đáng giá.
Phần 2: Biến đổi sóng con
Trong phần này, chúng ta sẽ giới thiệu biến đổi sóng con đơn giản nhất, được gọi là biến đổi sóng con
Haar, và giải thích cách nó có thể được sử dụng để tạo ra các hình ảnh giống như ba hình ảnh đầu tiên
trong Hình 1, dựa trên hình ảnh cuối cùng và hoàn chỉnh của Rosa Parks (hình ảnh này được trích xuất
từ tệp .gif tải về từ World Wide Web.) Phần mềm số học và trực quan hóa Matlab đã được sử dụng để
thực hiện tất cả các tính toán và tạo ra và hiển thị tất cả các hình ảnh trong bài viết này.
Mỗi hình ảnh kỹ thuật số trong Hình 1 được biểu diễn toán học bằng một ma trận (mảng) 128 x 128
số, có giá trị từ 0 (đại diện cho màu đen) đến một số nguyên dương nào đó (đại diện cho màu trắng).
Hình ảnh cuối cùng sử dụng 32 = 25 sắc màu xám khác nhau và do đó được gọi là hình ảnh 5 bit. Các
số trong ma trận cụ thể mà chúng tôi sử dụng để biểu diễn hình ảnh này nằm trong khoảng từ 0 đến
1984, với khoảng cách 64 (các số cụ thể này không quan trọng; chúng được chọn để tránh số thập
phân trong các tính toán sau này).
Mỗi mục trong ma trận tạo ra một hình vuông nhỏ được tô màu xám đồng nhất dựa trên giá trị số học
của nó. Chúng tôi gọi những hình vuông nhỏ này là điểm ảnh; chúng trở nên rõ ràng hơn khi xem hình
ảnh ở một tỷ lệ lớn hơn, ví dụ như trong Hình 2(a). Khi có đủ số lượng chúng trong một vùng cụ thể
trên giấy, như trong hình ảnh 256 x 256 pixel 8-bit của Nelson Mandela trong Hình 2(b), chúng ta có
ấn tượng về một bức ảnh đang dần thay màu liên tục.

Hình 2: Rosa Parks (1955) và Nelson Mandela (1990)


Các ma trận xác định những hình ảnh này có lẽ 128^2 = 16.384 và 256^2 = 65.536 phần tử, tương
ứng. Sự thật này đặt ra vấn đề lưu trữ ngay lập tức. Hình ảnh màu còn lớn hơn, tuy nhiên, ở một khía
cạnh, chúng có thể được xử lý bằng cách phân tách thành ba mảng "màu xám" tương tự, một cho mỗi
màu sắc đỏ, xanh và lam. Một đĩa mềm có dung lượng cao 1,44 MB chỉ có thể chứa một số ít hình ảnh
màu chất lượng cao lớn (ví dụ: 1024 x 1024 pixel); hơn nữa, như nhiều người trong số chúng ta đã có
trải nghiệm cá nhân, việc tải xuống những hình ảnh này tốn rất nhiều thời gian trên World Wide Web.
Chúng tôi chỉ xem xét hình ảnh xám ở đây.
Chúng tôi mô tả một kế hoạch để biến đổi các mảng số lớn như vậy thành các mảng có thể được lưu
trữ và truyền tải một cách hiệu quả hơn; sau đó, hình ảnh ban đầu (hoặc sự gần đúng tốt) có thể được
xây dựng lại bằng máy tính một cách tương đối dễ dàng. Để đơn giản, chúng tôi xem xét trước hết
hình ảnh 8 x 8 = 64 pixel trong Hình 3(b), đó là một phần được phóng to xung quanh mũi trong
Hình 2. Vùng được trích xuất được đen thui trong Hình 3(a).
Hình ảnh này được biểu diễn bởi các hàng từ 60 đến 67 và cột từ 105 đến 112 của ma trận xác định
Hình 2. Bây giờ chúng tôi sẽ hiển thị và đặt tên cho ma trận con này:

(Chúng tôi đã làm căng độ tương phản trong Hình 3(b) để làm nổi bật sự biến đổi tinh tế thường
xuyên giữa các cấp độ màu xám: giá trị nhỏ nhất và lớn nhất trong ma trận, 448 và 1600, được thể
hiện là màu đen và màu trắng, tương ứng, điều này không phải là cách chúng xuất hiện trong Hình
2(a).)
Để minh họa cách biến đổi sóng con cho một ma trận như vậy, chúng tôi trước tiên mô tả một
phương pháp để biến đổi chuỗi dữ liệu, gọi là phép trung bình và phép chênh lệch. Sau đó, chúng tôi
sẽ sử dụng kỹ thuật này để biến đổi một ma trận toàn bộ như sau: Xem xét mỗi hàng như một chuỗi
dữ liệu và thực hiện phép trung bình và phép chênh lệch trên mỗi hàng để có được một ma trận mới,
sau đó áp dụng chính xác các bước giống nhau trên mỗi cột của ma trận mới này, cuối cùng có được
một ma trận được biến đổi theo hàng và cột.
Để hiểu rõ phép trung bình và phép chênh lệch làm gì với một chuỗi dữ liệu, ví dụ như hàng đầu tiên
trong ma trận P ở trên, xem xét bảng dưới đây. Các hàng liên tiếp của bảng hiển thị kết quả ban đầu,
trung gian và cuối cùng.

You might also like