92 trang 27 lượt tải

Lý thuyết cơ sở nén ảnh và cảm thụ màu sắc môn Đa phương tiện và các ứng dụng giải trí | Trường Đại học Bách Khoa Hà Nội

Ánh sáng từ nguồn sáng được chiếu tới vật thể quan sát được. Tuỳ theo tính chất của vật thể mà vật thể có thể hấp thụ một số bước sóng và phản xạ các bc sóng còn lại. Tài liệu được sưu tầm gồm 92 trang, giúp các bạn ôn luyện và phục vụ cho việc học tập, đạt kết quả tốt. Mời các bạn đón xem!

Môn: Đa phương tiện và các ứng dụng giải trí 10 tài liệu

Trường: Đại học Bách Khoa Hà Nội 4.7 K tài liệu

Tác giả:

My Lữ

3 tháng trước

Tải xuống Báo cáo

Danh sách Quiz

Đa phương ện

Phần 1. Lý thuyết cơ sở nén ảnh

I.1 Sự cảm thụ màu sắc của người:

3 yếu tố cơ bản:

- Nguồn ánh sáng

+ là các ánh sáng mắt người cảm nhận được: bước sóng từ 380 đến 780nm

+ tự nhiên/nhân tạo

+ Chùm hạt photon. Có nh chất vật lý giống nhau nhưng mang các năng lượng khác nhau (tần số

khác nhau), năng lượng càng lớn bước sóng càng nhỏ

ℎ𝑐

+ Năng lượng: 𝐸 =

𝜆

- Vật thể được quan sát

+ Ánh sáng từ nguồn sáng được chiếu tới vật thể quan sát được. Tuỳ theo nh chất của vật thể mà

vật thể có thể hấp thụ một số bước sóng và phản xạ các bc sóng còn lại.

+ Ánh sáng phản xạ trên vật thể đi tới mắt chúng ta mà ta có thể cảm thụ về màu sắc và hình dạng

của vật thể được quan sát.

- Mắt người quan sát

I.2 Đặc trưng của màu sắc

- Màu sắc quang học

+ Màu sắc có 2 đặc trưng cơ bản: Sắc màu (Hue) và độ sáng (Brightness)

+ sắc màu phụ thuộc các bước sóng trội (dominant), là các bước sóng mang năng lượng vượt trội

hơn mức năng lượng trung bình

+ Độ sáng phụ thuộc giá trị năng lượng (càng lớn càng sáng)

+ Ví dụ về phổ quang trong tự nhiên:

+ Ví dụ về phổ quang học của 1 số nguồn sáng:

I.3 Đặc trưng mắt người

- Mắt người quan sát

+ Sở dĩ mắt người ta cảm nhận các hình ảnh, màu sắc quang học do trong mắt chúng ta có rất nhiều

tế bào nhạy (cảm thụ) ánh sáng.

+ 2 loại tế bào cảm thụ ánh sáng: tế bào hình que (red cell)

và tế bào hình nón (cone cell)

+ 15 triệu cell hình que (cảm nhận độ sáng) và 5 triệu cell

hình nón(cảm nhận màu sắc) trong mắt người + Mắt ng

thường có nhiều cell hình nón và thường cảm nhận màu sắc

tốt hơn

+ Cell hình nón có 3 loại: S(short – bước sóng ngắn vùng

phổ lam – Blue cone), M(medium – bước sóng

trung bình với phổ lục – Green cone), L(Long – bước sóng dài với phổ đỏ - Red cone) wavelength. Các

loại cell này nhạy cảm với các vùng phổ màu sắc khác nhau

+ Hình minh hoạ độ nhạy (tương đối) của các cell hình nón. Mắt ng có khả năng cảm nhận tất cả các

bước sóng trong vùng ánh sáng nhìn thấy và đặc biệt nhạy cảm với các phổ màu lam, lục, đỏ (B – G – R).

I.4 Lý thuyết ba màu

NTSC video

PAL (SECAM) Video

525 scan lines per frame, 30fps

(33.37msec/frame)

Đan nhau, mỗi frame đc chia làm 2 trường, mỗi trường

262,5 line

20 line được bỏ trống để điều khiển n hiệu ở thời điểm

bắt đầu của mỗi eld

Như vậy có tối đa 485 lines của data có thể thấy:

+ Laserdisc and S-VHS có resoluon thực tế là

~420 lines

+ TV: ~320 lines

+ Mỗi line cần 64.5 us để scan

Sử dụng hệ màu YIQ

625 scan lines mỗi fram, 25 fram mỗi s (40ms/frame)

Đan xen, mỗi fram chia là 2 trường, mỗi trường gồm

312.5 lines

Sử dụng hệ màu YUV

Nguyên lí quét hình:

- Zigzag - Đường ngang

Bài tập ví dụ:

Xét ảnh chói Y: truyền chuẩn NTSC

∑ 𝑝𝑖𝑥𝑒𝑙/𝑠 30.525.525. 4/3

→ 30fps, 525 dòng/hình, tỉ lệ 4:3 → 𝑓

𝑚𝑎𝑥

=5,5MHz

NÉN ẢNH

Khái niệm nén:

Khái niệm nén được đề cập là phương pháp mã hoá nguồn. Mục đích chủ yếu của nó là giảm kích

thước dữ liệu

Original Image Decoded Image

Bitstream

Nguyễn tắc chính của các kỹ thuânt nén là giảm thông n dư thừa, và không cần thiết trong các n

hiệu nhưng vẫn đảm bảo được chất lượng của n hiệu

Tỷ số nén: được xác định bằng tỷ số kích thước của dữ liệu trước nén và sau nén

Tỷ số nén càng cao thì kích thước sau nén càng nhỏ nhưng đồng thời chất lượng n hiệu cũng giảm

đi Một số chuẩn nén ảnh nh

- JPG: Joint Photographic Expert Group

- GIF: Graphics Interchange Format - PNG:

Portable Network Graphics

Đây là ba loại định dạng ảnh số phổ biến nhất

Chuẩn lấy mẫu 4:4:4, 4:2:2, 4:2:0

Ví dụ: Cho một ảnh màu kích thước 288x352 pixel, lấy mẫu 4:2:2, giá

trị mỗi điểm ảnh cần 8bit biểu diễn.

Mã hóa JPEG cho ảnh trên, biết tỷ số nén cho ảnh chói Y là 10 lần, tỷ

số nén cho các n hiệu hiệu màu Cb,Cr là 20 lần.

Tính tỷ số nén của ảnh?

Kích thước ảnh chưa mã hóa: 288 x 352 x 8bit x(1+0,5+0,5)

Kích thước ảnh sau mã hóa:

288 x 352 x 8bit x(1/10+0,5/20+0,5/20)

Tỷ số nén: 40/3 (lần)

Nén ảnh JPEG: nén tổn háo (lossless) và không tổn hao (lossy)

Nén RLC: aaaaaaabbbbccccddef → 7a4b4c2d1e1f

Nén VLC: tuỳ theo số lần xuất hiện trong chuỗi bit, mã hoá với chiều dài bản mã cố định Với chiều dài

k cố định, sử dụng cây nhị phân humanm.

DPCM:

DCT: biến đổi miền thời gian – miền tần số DCT 1 chiều: 𝑁 – số mẫu của n hiệu

𝑁

𝐹 ], 𝑎

𝑥

Encoder

Decoder

0101100111...

(

𝑢

)

√

𝑁

𝑢

√

𝑢

≠

𝑁

DCT 2 chiều:

𝑁

𝐹

] , 𝑎

𝑥

Các bước mã hoá JPEG:

Quát zigzag

Mã hoá MPEG: Moving picture Experts Group, 1988. Chuẩn nén video Mpeg-1, -2, -4 Moving JPEG

(M-JPEG): chuẩn JPEG động:

- Chất lượng tốt nhưng đòi hỏi tốc độ cao (~50Mbps), không thích hợp truyền dẫn - Lưu

trữ, studio

(

𝑢

)

√

𝑁

𝑢

√

𝑁

𝑢

≠

Chuẩn MPEG ra đồi, dùng cho truyền dẫn. Loại bỏ các thông n dư thừa: dư thừa không gina, dư

thừa thời gian

Mã hoá MPEG – dùng 4:2:0

Thuật toán m Moon Vector

- Sequenal search

- 2D Logarthmic search

- Hierarchical search

- Mean Absoblute Dierence

Mã hoá MPEG

Group of Pictures (GoP):

- I-frames: (Intra) Ảnh I - ảnh mã hoá nguyên

- P-frames: (Predicted) Ảnh P-ảnh dự đoán, ảnh được mã hoá dựa vào thông n của ảnh trước

đó.

- B-frames: (Bidireconal Predicted) Ảnh B-ảnh dự đoán 2 chiều, ảnh được mã hoá dựa vào

thông n của ảnh trước và sau nó

Bài tập:Đoạn video độ dài 60 phút được mã hóa theo chuẩn MPEG-2, với các tham số: cấu trúc truyền IBBPBBPBBP, kích thước ảnh CIF

(352x288 pixel, 4:2:0, 8 bit/mẫu), tốc độ 25 hình/s. Biết các tham số nén sau đây:

Tỷ lệ nén trung bình của ảnh I,P và B lần lượt là 8, 16 và 32 lần.(Giả thiết tham số nén đã bao gồm các header cần thiết)

Tính kích thước (dung lượng) đoạn dữ liệu video sau khi mã hóa.

Gợi ý:

Kích thước ảnh chưa nén: 352 x 288 x 8bit x (1+0,25+0,25)=X Trung bình 1s có: 2,5 ảnh I ;7,5 ảnh P và 15 ảnh B.

Tốc độ Video sau mã hóa: 2,5 x X/8 + 7,5 x X/16 + 15 x X/32

Dung lượng đoạn Video là: 652MB

Audio

Dao động cơ học f = 20 – 20kHz lan truyền trong môi trường đàn hồi (không khí)

- Tiếng nói: 300Hz – 4kHz

- Amm thanh (Audio, Music): 20-20kHz

Micro: Điện động (dynamic) và điện dung (tụ điện, condenser)

Dynamic có độ nhạy thấp, dải tần có hạn (từ 50Hz đến 16kHz). Microphone dynamic thường dùng cho

ca hát, sân khấu, karaoke, hát solo, thuyết giảng, hội họp,…

Condenser có độ nhạy rất cao, bắt âm chính xác, nên thường phục vụ cho các lĩnh vực như thu âm phòng

thu, thu âm nhạc cụ, phỏng vấn truyền hình, làm phim, hát hợp xướng, hát opera,… các lĩnh vực cần thu

âm ở khoảng cách xa người nói

Điện động: nam châm

Từ cảm B, chiều dài dây l

𝐹 𝐸

𝐹 = 𝐵. 𝑙. 𝑖 → = 𝐵. 𝑙 = 𝑐𝑜𝑛𝑠𝑡 (tạo loa) → 𝐸 = 𝐵. 𝑙. 𝑣 → = 𝐵. 𝑙 (toạ micro)

𝑖 𝑣

Số hoá Audio

Nyquist: 𝑓

𝐿𝑀

≥ 2𝑓

𝑀

- Tiếng nói phổ 300Hz – 4KHz (𝑓

𝐿𝑀

= 8𝐾𝐻𝑧)

- Âm thanh phổ 20-20KHz (𝑓

𝐿𝑀

= 32; 44,1; 48𝐾𝐻𝑧)

Tiếng nói: PCM, mono, 𝑓

𝐿𝑀

= 8𝐾𝐻𝑧, 8𝑏𝑖𝑡/mẫu, 𝑅 = 64𝑘𝑏𝑝𝑠

Âm thanh: 𝑓

𝐿𝑀

= 44,1𝐾𝐻𝑧, 16𝑏𝑖𝑡/mẫu, 𝑅 = 2x44100 mẫu/s x 16bit/mẫu=1,41Mbit/s

Số hoá ếng nói:

PCM, mono, 𝑓

𝐿𝑀

= 8𝐾𝐻𝑧, 8𝑏𝑖𝑡/mẫu, 𝑅 = 64𝑘𝑏𝑝𝑠

DPCM: Diferenal PCM, mã hoá vi sai. R=48kbps

ADPCM: Adapve DPCM, mã hoá vi sai thích nghi, R=16-32kbps

Câu 1:

a. I-frame (Intra): ảnh mã hoá nguyên

P-frame (Predicted): ảnh dự đoán, đc mã hoá dựa theo ảnh trước đó

B-frame (Bidireconal Predicted): ảnh dự đoán 2 chiều, ảnh đc mã hoá dựa vào thông n ảnh trước và

sau nó.

Múc đích sử dụng ảnh B:

- Sử dụng cả ảnh trước và sau để dự đoán nội dung ảnh B giúp nén dữ liệu

- Giúp MPEG-2 giảm dung lượng dữ liệu cần lưu trữ

- Giảm số lượng bit cần thiết để mã hoá khung hình

- Giảm thiểu lỗi dự đoán và cải thiện chất lượng hình ảnh

b. Cấu trúc truyền ảnh:

Frame 1

Frame 2

(1)

(2)

(3)

(4)

(5)

(6)

(7)

(8)

(9)

(10)

…

Thứ tự truyền bên phát: 1 → 4 → 2 → 3 → 7 → 5 → 6 → 10 → 8 → 9 → ⋯

Bên thu sau khi nhận được sẽ sắp xếp lại theo đúng thứ tự c.

Kích thước ảnh chưa nén là: 352 . 288 .8 . (1 + 0,5) = 1216512 𝑏𝑖𝑡

Trung bình 1s có: 30/6=5 khung → 5 ảnh I, 5 ảnh P và 20 ảnh B

Tốc độ video sau mã hoá: 5 . + 5 . + 20 . = 1900,8𝐾𝑏𝑝𝑠

Tốc độ video (bao gồm cả phần âm thanh): 1900,8 + 100 = 200,8𝐾𝑏𝑝𝑠 Câu 2:

Áp dụng DCT-1D cho từng hàng:

1 (2𝑖 + 1). 𝑣𝜋 1

𝐹 ) → 𝐹 , 𝐹(𝑢) = 0, ∀𝑢

≠ 0

𝑖=0

(

𝑢

)

𝐶

(

𝑢

)

∑

𝑓

(

𝑖

)

cos

(

)

√

Câu 3: Đặc điểm và ứng dụng của các chuẩn nén video

MPEG-2 (Moving Picture Experts Group - 2):

Đặc điểm: MPEG-2 là chuẩn nén video được phát triển ban đầu cho việc lưu trữ và truyền phát video

chất lượng cao. Nó hỗ trợ nhiều tỷ lệ bit khác nhau và có khả năng xử lý video với độ phân giải khác

nhau.

Ứng dụng: Được sử dụng rộng rãi trong các định dạng video như DVD, video truyền hình số (DVB), và

video trực tuyến.

MPEG-4:

Đặc điểm: MPEG-4 được thiết kế để hỗ trợ nén video, âm thanh và dữ liệu với nhiều mức độ phân giải

khác nhau. Nó cũng hỗ trợ nh năng tương tác và nâng cao cho video.

Ứng dụng: Được sử dụng trong nhiều ứng dụng như video kỹ thuật số, phim hoạt hình, video di động và

hội nghị truyền hình.

H.264/AVC (Advanced Video Coding):

Đặc điểm: H.264 là chuẩn nén video hiệu suất cao, cung cấp chất lượng hình ảnh tốt với kích thước le

nhỏ hơn so với các chuẩn trước đó. Nó hỗ trợ nhiều cấp độ nén và các nh năng như ết kiệm băng

thông và chất lượng video cao.

Ứng dụng: Phổ biến trong phim Blu-ray, video trực tuyến, video di động và các ứng dụng gọi hình.

H.265/HEVC (High Eciency Video Coding):

Đặc điểm: H.265 là chuẩn nén video ếp theo sau H.264, cải ến đáng kể hiệu suất nén so với H.264. Nó

cho phép giảm đáng kể kích thước le video với cùng mức chất lượng hình ảnh.

Ứng dụng: Được sử dụng trong các ứng dụng yêu cầu băng thông cao như video 4K và 8K, video phát

trực ếp và truyền hình siêu cao cấp.

Câu 4: Loại thông n dư thừa trong mã hóa video

Trong mã hóa video, có 4 loại thông n dư thừa chính:

Thông n không cần thiết (Redundant informaon): Là các phần của dữ liệu video có thể được loại bỏ

mà không làm mất đi chất lượng hình ảnh, chẳng hạn như các bit dự báo, bit trung gian.

Thông n không thực sự quan trọng (Non-crical informaon): Là các phần của dữ liệu video mà có thể

được lược bỏ mà không làm ảnh hưởng nghiêm trọng đến chất lượng hình ảnh, ví dụ như một số bit bù

trùng hoặc bit đánh dấu.

Thông n đơn giản (Simple informaon): Là các đặc điểm của dữ liệu video có thể được mô tả bằng các

mô hình đơn giản hơn mà không cần tới chi ết phức tạp.

Thông n dư (Extraneous informaon): Là các phần của dữ liệu video không liên quan đến nội dung

chính, như dữ liệu phụ, phần êu đề, hoặc thông n quản lý dữ liệu.

Câu 5: Phương pháp m kiếm vector chuyển động và ưu nhược điểm

Phương pháp m kiếm vector chuyển động (Moon Vector Search) là kỹ thuật quan trọng trong mã hóa

video để m ra vector chuyển động cho các khối ảnh. Phương pháp này thường được áp dụng trong các

chuẩn nén video như MPEG và H.264/HEVC.

Phương pháp: Thực hiện so khớp các khối ảnh trong khung hiện tại với khung tham chiếu trước đó để

xác định vector chuyển động có thể giảm thiểu sai lệch.

Ưu điểm:

Hiệu quả về mặt nh toán.

Giúp giảm lượng dữ liệu cần truyền đi bằng cách chỉ truyền vector chuyển động và các sai lệch.

Nhược điểm:

Có thể dẫn đến sai lệch nếu sự chuyển động quá lớn so với khoảng cách m kiếm.

Yêu cầu tài nguyên nh toán khá cao, đặc biệt là khi áp dụng cho video có độ phân giải cao và tốc độ

khung hình nhanh.

Lý thuyết tổng hợp

Đặc điểm

MPEG-1

MPEG-2

MPEG-4

Ra đời

1993

1995

Cuối những năm 1990

Phương pháp nén

Nén với tổn thất dựa

trên DCT, mã hóa

khối 8x8

Nén với tổn thất dựa

trên DCT, cải tiến mã

hóa khối 8x8

DCT, biến đổi sóng con, mã hóa

dự đoán chuyển động

Cấu trúc GOP

I-frame, P-frame

I-frame, P-frame,

Bframe

I-frame, P-frame, B-frame, dự

đoán giữa đối tượng và khung

hình

Độ phân giải

Tối đa 352x240

(NTSC), 352x288

(PAL)

Tối đa 720x480

(NTSC), 720x576

(PAL), hỗ trợ HD

Linh hoạt từ thấp đến 4K

Bitrate

Thường khoảng 1.5

Mbps

2-10 Mbps, tối đa 40

Mbps

Vài kbps đến hàng chục Mbps

Chất lượng

Trung bình, phù hợp

cho VCD

Cao, phù hợp cho DVD

và truyền hình số

Rất cao, phù hợp cho nhiều ứng

dụng hiện đại

Tính năng

Nén video và âm thanh

cho VCD, âm thanh

stereo MPEG-1 Layer

Nén đa luồng video và

âm thanh, truyền hình

số, DVD

Tích hợp đa phương tiện, SVC,

AVC/H.264, truyền tải trực

tuyến, lưu trữ video, phát sóng

truyền hình

Ưu điểm

Tương thích rộng rãi,

dễ mã hóa/giải mã

Chất lượng cao hơn

MPEG-1, ứng dụng

rộng rãi

Tỷ lệ nén cao, hỗ trợ đa phương

tiện, độ phân giải linh hoạt

Nhược điểm

Chất lượng và tỷ lệ nén

hạn chế

Tỷ lệ nén không cao

như MPEG-4, yêu cầu

phần cứng mạnh hơn

Phức tạp, yêu cầu phần cứng và

phần mềm tiên tiến, chi phí giấy

phép

Sequential Search

Sequential Search là một phương pháp tìm kiếm motion vector đơn giản và dễ hiểu. Thuật toán

này kiểm tra từng vị trí trong phạm vi tìm kiếm theo một thứ tự tuần tự cho đến khi tìm thấy vị

trí có độ sai lệch (error) nhỏ nhất giữa khối hiện tại và khối tham chiếu.

- Phương pháp:

- Bắt đầu từ một điểm gốc trong khung hình tham chiếu.

- Di chuyển qua từng vị trí một cách tuần tự trong phạm vi tìm kiếm đã xác định.

- Tính toán lỗi (thường là sai số bình phương trung bình - Mean Squared Error hoặc tổng độ

chênh lệch tuyệt đối - Sum of Absolute Differences) cho từng vị trí.

- Chọn vị trí có lỗi nhỏ nhất làm motion vector.

- Ưu điểm:

- Dễ triển khai.

- Đảm bảo tìm được vị trí tối ưu (tuyệt đối) trong phạm vi tìm kiếm.

- Nhược điểm:

- Rất tốn thời gian và tài nguyên tính toán, đặc biệt với phạm vi tìm kiếm lớn.

- Không hiệu quả cho các ứng dụng thời gian thực.

2D Logarithmic Search

2D Logarithmic Search là một phương pháp tìm kiếm motion vector hiệu quả hơn Sequential

Search, sử dụng kỹ thuật tìm kiếm theo hàm logarithmic để giảm số lượng phép tính toán cần

thiết.

- Phương pháp:

- Bắt đầu từ trung tâm của phạm vi tìm kiếm.

- Sử dụng một bước nhảy lớn để tìm kiếm các vị trí lân cận (theo hình chữ thập).

- Nếu không tìm thấy vị trí tối ưu, giảm kích thước bước nhảy (thường bằng cách chia đôi bước

nhảy) và tiếp tục tìm kiếm từ vị trí có lỗi nhỏ nhất trong các bước trước đó.

- Lặp lại quá trình cho đến khi kích thước bước nhảy nhỏ hơn một ngưỡng nhất định.

- Ưu điểm:

- Tốc độ tìm kiếm nhanh hơn nhiều so với Sequential Search.

- Tương đối dễ triển khai và hiệu quả với các phạm vi tìm kiếm lớn.

- Nhược điể:

- Có thể bỏ lỡ các vị trí tối ưu nếu bước nhảy ban đầu quá lớn hoặc nếu khối chuyển động quá

nhanh. - Không đảm bảo tìm kiếm được vị trí tối ưu tuyệt đối.

Hierarchical Search

Hierarchical Search (hay còn gọi là Multi-resolution Search) là một phương pháp tìm kiếm

motion vector bằng cách sử dụng các mức độ phân giải khác nhau của khung hình.

- Phương pháp:

- Khung hình được chia thành nhiều mức phân giải khác nhau (từ mức thấp đến mức cao).

- Bắt đầu tìm kiếm motion vector ở mức phân giải thấp nhất.

- Sử dụng kết quả tìm kiếm ở mức phân giải thấp để xác định phạm vi tìm kiếm cho mức phân

giải cao hơn.

- Lặp lại quá trình cho đến khi đạt mức phân giải cao nhất (phân giải gốc).

- Ưu điểm:

- Rất hiệu quả về mặt tính toán, vì tìm kiếm ở mức phân giải thấp cần ít phép tính hơn.

- Giảm thiểu khả năng bỏ sót vị trí tối ưu, vì phạm vi tìm kiếm được điều chỉnh dựa trên kết quả

tìm kiếm ở mức thấp.

- Nhược điểm:

- Có thể giảm độ chính xác nếu mức phân giải thấp không đủ để nắm bắt chuyển động chính

xác. - Phức tạp hơn trong triển khai so với các phương pháp tìm kiếm khác.

MPEG-2 (Moving Picture Experts Group - 2):

• Năm ra đời: Được phát triển vào những năm 1990 và được công bố năm 1995.

• Ứng dụng chính: Thường được sử dụng trong định dạng DVD, các dịch vụ truyền hình

số ban đầu.

• Kĩ thuật: Sử dụng mã hóa dựa trên khung hình (frame-based encoding), sử dụng DCT

(Discrete Cosine Transform) và có thể hỗ trợ nhiều mức độ nén.

MPEG-4:

• Năm ra đời: Ra đời sau MPEG-2, vào những năm 1998.

• Ứng dụng chính: Được thiết kế để hỗ trợ nhiều nền tảng và ứng dụng đa phương tiện,

bao gồm Internet, hội nghị truyền hình và ứng dụng di động.

• Kĩ thuật: Cải tiến so với MPEG-2, hỗ trợ mã hóa dựa trên đối tượng (object-based

encoding), có khả năng nén tốt hơn với chất lượng tương đương ở mức bit thấp hơn.

H.264/MPEG-4 AVC (Advanced Video Coding):

• Năm ra đời: Công bố vào năm 2003.

• Ứng dụng chính: Được sử dụng rộng rãi trong các dịch vụ truyền hình kỹ thuật số,

video trực tuyến, Blu-ray và các ứng dụng di động.

• Kĩ thuật: Sử dụng các kỹ thuật như mã hóa dựa trên khung hình và mã hóa mạng dựa

trên dự đoán (network-based prediction), cải thiện đáng kể hiệu suất nén so với các tiêu

chuẩn trước đó.

H.265/HEVC (High Efficiency Video Coding):

• Năm ra đời: Công bố vào năm 2013.

• Ứng dụng chính: Được thiết kế để cải thiện hiệu quả nén hình ảnh so với H.264, phù

hợp cho các nền tảng có băng thông hẹp và đòi hỏi chất lượng cao.

• Kĩ thuật: Sử dụng các kỹ thuật như mã hóa dựa trên cụm (block-based encoding) và cải

thiện khả năng nén hình ảnh so với H.264, giúp giảm đáng kể lượng dữ liệu cần thiết để

truyền tải video cùng chất lượng.

Đặc điểm

JPEG

GIF

PNG

Năm ra đời

1992

1987

1996

Màu sắc

Hỗ trợ màu 24-bit (16

triệu màu)

Hỗ trợ màu 8-bit (256

màu)

Hỗ trợ màu 24-bit (16

triệu màu)

Nén ảnh

Lossy compression

Lossless compression

Chất lượng

Giảm chất lượng ảnh khi

nén

Giữ nguyên chất lượng

ảnh khi nén

Giữ nguyên chất lượng

ảnh khi nén

Độ phân giải

Phù hợp cho hình ảnh

thực tế, ảnh nghệ thuật

Phù hợp cho ảnh động,

biểu tượng

Phù hợp cho hình ảnh

thực tế, ảnh nghệ thuật

Dùng cho

Hình ảnh chụp, web, in ấn

Biểu tượng động, đồ họa

đơn giản

Hình ảnh chụp, lưu trữ

hình ảnh

Kích thước

Lớn hơn so với GIF và

PNG khi nén

Nhỏ hơn so với JPEG và

PNG khi nén

Thường lớn hơn GIF, nhỏ

hơn JPEG khi nén

Trong quá trình mã hóa video, các kỹ thuật nén (compression) thường được sử dụng để giảm

kích thước tệp video mà vẫn giữ được chất lượng hình ảnh chấp nhận được. Trong bối cảnh này,

"thông tin dư thừa" (redundant information) thường đề cập đến các phần của dữ liệu video có

thể bị loại bỏ hoặc nén mà không ảnh hưởng đáng kể đến chất lượng tổng thể của video. Dưới

đây là một số ví dụ về thông tin dư thừa trong video:

1. Redundancy in Spatial Domain (Không gian):

o Các pixel liền kề có giá trị tương tự: Trong một khung hình video, các pixel

gần nhau thường có giá trị màu tương tự. Các kỹ thuật nén như JPEG và các

chuẩn nén video như H.264 sử dụng biến đổi Cosine rời rạc (DCT) để loại bỏ sự

dư thừa này.

2. Redundancy in Temporal Domain (Thời gian):

o Các khung hình liên tiếp giống nhau: Trong nhiều video, có rất ít sự thay đổi

giữa các khung hình liên tiếp. Các thuật toán nén như H.264 sử dụng dự đoán

liên khung (inter-frame prediction) để mã hóa sự thay đổi giữa các khung hình

thay vì mã hóa từng khung hình riêng biệt.

3. Visual Redundancy (Thị giác):

o Các chi tiết khó nhận thấy: Mắt người không nhạy cảm với một số chi tiết nhỏ

hoặc sự thay đổi màu sắc. Các thuật toán nén thường loại bỏ hoặc giảm độ chính

xác của những chi tiết này mà không gây ảnh hưởng đáng kể đến trải nghiệm

xem của người dùng.

4. Perceptual Redundancy (Cảm nhận):

o Các tần số cao mà mắt người không phân biệt được: Một số tần số cao trong

hình ảnh không được mắt người nhận biết rõ ràng. Các kỹ thuật nén như biến đổi

Wavelet hoặc DCT sẽ giảm bớt hoặc loại bỏ các thành phần tần số cao này.

Nhờ loại bỏ hoặc giảm thiểu các dạng thông tin dư thừa này, các phương pháp nén video có thể

giảm kích thước tệp video mà vẫn duy trì chất lượng hình ảnh ở mức chấp nhận được.

Đặc điểm

PCM

DPCM

ADPCM

Nguyên lý

Mã hóa giá trị tuyệt đối

Mã hóa sự khác biệt

Mã hóa sự khác biệt và

điều chỉnh động

Ưu điểm

Đơn giản, độ trung thực

cao

Giảm băng thông

Hiệu quả nén tốt hơn

DPCM

Nhược điểm

Đòi hỏi băng thông cao

Độ trung thực thấp hơn

PCM

Phức tạp hơn trong thực

hiện

Ứng dụng

Điện thoại, CD audio

Nén âm thanh, video

Nén âm thanh, chuẩn

G.726ality.

Trong mã hóa video, dư thừa đề cập đến thông tin không cần thiết hoặc lặp lại làm tăng kích

thước tệp mà không cải thiện chất lượng. Dưới đây là bốn loại dư thừa thường thấy trong mã

hóa video:

1. Dư thừa không gian: Điều này xảy ra trong các khung hình riêng lẻ, nơi các điểm ảnh

liền kề thường có giá trị tương tự. Các kỹ thuật nén không gian (ví dụ, thông qua giảm

mẫu không gian hoặc lượng tử hóa) giảm thiểu dư thừa này bằng cách chỉ mã hóa các

chi tiết cần thiết.

2. Dư thừa thời gian: Dư thừa này tồn tại giữa các khung hình liên tiếp trong một chuỗi

video. Vì các khung hình liền kề thường chứa thông tin tương tự, các phương pháp nén

thời gian như ước lượng và bù trừ chuyển động giúp giảm dữ liệu dư thừa bằng cách chỉ

lưu trữ các thay đổi từ khung hình này sang khung hình khác.

3. Dư thừa tâm lý thị giác: Dư thừa này liên quan đến giới hạn của nhận thức con người.

Các codec video khai thác điều này bằng cách loại bỏ các chi tiết ít được chú ý hơn hoặc

giảm độ trung thực ở những khu vực mà người xem ít có khả năng nhận thấy thay đổi,

do đó tối ưu hóa tỷ lệ nén mà không làm giảm chất lượng có thể nhận biết.

4. Dư thừa mã hóa: Loại dư thừa này xảy ra do sự kém hiệu quả trong cách biểu diễn và

mã hóa dữ liệu. Các codec video hiện đại sử dụng các kỹ thuật mã hóa tiên tiến như mã

hóa entropy (như mã hóa Huffman hoặc mã hóa số học) để giảm thiểu thông tin dư thừa

này và đạt được hiệu quả nén cao hơn.

Giảm thiểu hiệu quả các dạng dư thừa này là rất quan trọng để tối ưu hóa hiệu quả mã hóa video,

dẫn đến kích thước tệp nhỏ hơn mà vẫn duy trì hoặc cải thiện chất lượng cảm nhận.

Mã hóa tham số (Parametric Encoding) và mã hóa dạng sóng (Waveform Encoding) là hai

phương pháp chính được sử dụng trong xử lý tín hiệu, đặc biệt là trong lĩnh vực truyền thông và

mã hóa âm thanh. Dưới đây là sự phân biệt chi tiết giữa hai phương pháp này:

1. Mã hóa tham số (Parametric Encoding)

- Nguyên lý hoạt động: Phương pháp này phân tích tín hiệu đầu vào và trích xuất các tham số

đặc trưng của nó. Sau đó, chỉ các tham số này được mã hóa và truyền đi.

- Ví dụ: Một ví dụ phổ biến là mã hóa giọng nói sử dụng các tham số như tần số cơ bản, biên độ

và các hệ số LPC (Linear Predictive Coding).

- Ưu điểm:

- Hiệu quả băng thông: Giảm thiểu lượng

dữ liệu cần truyền tải, vì chỉ các tham

số quan trọng được gửi đi. - Hiệu quả

nén: Đạt được mức độ nén cao, làm

giảm dung lượng lưu trữ và băng thông

truyền tải.

- Nhược điểm:

- Chất lượng tái tạo: Chất lượng tín hiệu

tái tạo có thể thấp hơn do việc chỉ dựa

vào các tham số đã trích xuất. - Phức

tạp: Quá trình phân tích và mã hóa

tham số có thể phức tạp và đòi hỏi

nhiều tính toán.

2. Mã hóa dạng sóng (Waveform Encoding)

- Nguyên lý hoạt động: Phương pháp này mã hóa trực tiếp dạng sóng của tín hiệu đầu vào. Các

mẫu của dạng sóng được lấy mẫu, lượng tử hóa và mã hóa để truyền tải.

- Ví dụ: PCM (Pulse Code Modulation) là một ví dụ điển hình, trong đó tín hiệu âm thanh được

lấy mẫu và mỗi mẫu được biểu diễn dưới dạng số.

- Ưu điểm:

- Chất lượng tái tạo: Tín hiệu tái tạo thường có chất lượng cao hơn vì nó duy trì gần như toàn bộ

thông tin của tín hiệu gốc.

- Đơn giản: Quá trình mã hóa và giải mã đơn giản hơn so với mã hóa tham số.

- Nhược điểm:

- Hiệu quả băng thông: Yêu cầu băng thông lớn hơn, vì toàn bộ dạng sóng được truyền đi.

- Hiệu quả nén: Không đạt được mức độ nén cao như mã hóa tham số.

Tóm lại:

- Mã hóa tham số: Trích xuất và mã hóa các tham số đặc trưng của tín hiệu. Hiệu quả trong việc

giảm dung lượng dữ liệu nhưng có thể giảm chất lượng tái tạo.

- Mã hóa dạng sóng: Mã hóa trực tiếp các mẫu dạng sóng của tín hiệu. Đảm bảo chất lượng tái

tạo tốt nhưng yêu cầu băng thông lớn hơn.

Việc lựa chọn phương pháp mã hóa phù hợp tùy thuộc vào yêu cầu cụ thể của ứng dụng về chất

lượng, băng thông và hiệu quả nén.

Các thuật toán LPC (Linear Predictive Coding), PCM (Pulse Code Modulation), DPCM

(Differential Pulse Code Modulation), và ADPCM (Adaptive Differential Pulse Code

Modulation) đều là các phương pháp mã hóa tín hiệu âm thanh và tín hiệu nói. Chúng có các đặc

điểm kĩ thuật và cách hoạt động khác nhau như sau: 1. Linear Predictive Coding (LPC) Đặc

điểm kỹ thuật:

- LPC là một phương pháp nén âm thanh sử dụng mô hình dự đoán tuyến tính.

- LPC thường được sử dụng trong việc xử lý tín hiệu nói, đặc biệt trong các ứng dụng như mã

hóa giọng nói, tổng hợp giọng nói và nhận dạng giọng nói.

- LPC có thể đạt được tỷ lệ nén rất cao.

Cách hoạt động:

- LPC dự đoán giá trị của mẫu tiếp theo dựa trên một số mẫu trước đó bằng cách sử dụng một

mô hình tuyến tính.

- Các hệ số của mô hình tuyến tính này (gọi là các hệ số LPC) được tính toán sao cho sai số giữa

giá trị dự đoán và giá trị thực tế là nhỏ nhất.

- Sai số dự đoán (residual) cùng với các hệ số LPC được mã hóa và truyền đi. 2. Pulse Code

Modulation (PCM) Đặc điểm kỹ thuật:

- PCM là phương pháp mã hóa tín hiệu số cơ bản và đơn giản nhất.

- PCM thường được sử dụng trong các hệ thống truyền thông số và lưu trữ âm thanh, như CD,

điện thoại và VoIP.

- PCM không thực hiện bất kỳ nén nào, do đó, tín hiệu PCM yêu cầu băng thông cao và dung

lượng lưu trữ lớn.

Cách hoạt động:

- Tín hiệu liên tục (analog) được lấy mẫu tại các thời điểm rời rạc với tần số lấy mẫu đủ cao

(theo định lý Nyquist).

- Mỗi mẫu được lượng tử hóa (quantized) thành một trong một số mức giá trị rời rạc và được

biểu diễn bằng mã nhị phân.

- Kết quả là một chuỗi các mã nhị phân đại diện cho các mức lượng tử hóa của các mẫu tín hiệu.

3. Differential Pulse Code Modulation (DPCM) Đặc điểm kỹ thuật:

- DPCM là một biến thể của PCM, sử dụng sự khác biệt giữa các mẫu liên tiếp để mã hóa thay

vì mã hóa trực tiếp các giá trị mẫu.

- DPCM có thể giảm thiểu dung lượng cần thiết cho lưu trữ hoặc truyền tải bằng cách giảm mức

độ của dữ liệu lượng tử hóa.

Cách hoạt động:

- Thay vì mã hóa trực tiếp giá trị của mỗi mẫu, DPCM mã hóa sự khác biệt giữa giá trị của mẫu

hiện tại và mẫu trước đó.

- Sai số giữa giá trị dự đoán và giá trị thực tế được lượng tử hóa và truyền đi.

- Bộ giải mã sẽ tái tạo lại tín hiệu bằng cách cộng dồn các giá trị khác biệt vào giá trị của mẫu

trước đó. 4. Adaptive Differential Pulse Code Modulation (ADPCM) Đặc điểm kỹ thuật:

- ADPCM là một biến thể của DPCM, trong đó quá trình lượng tử hóa sự khác biệt giữa các

mẫu được điều chỉnh tự động (adaptive) dựa trên đặc điểm của tín hiệu.

- ADPCM thường được sử dụng trong các ứng dụng nén âm thanh và giọng nói như điện thoại

di động, VoIP, và các thiết bị ghi âm kỹ thuật số.

Cách hoạt động:

- Giống như DPCM, ADPCM mã hóa sự khác biệt giữa các mẫu liên tiếp, nhưng sử dụng một

kỹ thuật lượng tử hóa thay đổi theo thời gian.

- Bộ mã hóa ADPCM điều chỉnh kích thước lượng tử hóa dựa trên đặc tính của tín hiệu để cải

thiện chất lượng mã hóa và giảm thiểu sai số.

- Bộ giải mã sử dụng cùng một kỹ thuật điều chỉnh để tái tạo lại tín hiệu gốc.

Các phương pháp này đều có ưu và nhược điểm riêng, và lựa chọn phương pháp phù hợp phụ

thuộc vào yêu cầu cụ thể của ứng dụng như chất lượng âm thanh, băng thông, và tài nguyên tính

toán.

Mã hóa âm thanh trong miền thời gian là một phương pháp xử lý và nén âm thanh mà ở đó, dữ

liệu âm thanh được xử lý và mã hóa trực tiếp trên tín hiệu thời gian không gian (time

waveform). Phương pháp này không chuyển đổi tín hiệu sang bất kỳ dạng biểu diễn tần số nào

như Fourier hoặc Cosine trước khi nén. Mục tiêu của mã hóa thời gian là giảm lượng dữ liệu cần

thiết để lưu trữ hoặc truyền tải tín hiệu mà vẫn giữ được chất lượng âm thanh mong muốn.

Cách Thức Hoạt Động

Thu Thập Mẫu Âm Thanh: Tín hiệu âm thanh được lấy mẫu ở một tốc độ nhất định để chuyển

đổi từ tín hiệu analog sang dạng số. Mỗi mẫu biểu diễn một giá trị cường độ âm thanh tại một

thời điểm cụ thể.

Lượng Tử Hóa: Các mẫu được lượng tử hóa, tức là chúng được làm tròn thành các giá trị gần

nhất trong một tập hợp các giá trị cho trước. Quá trình này giảm số lượng bit cần thiết để biểu

diễn mỗi mẫu. Mã Hóa Entropy: Sau khi lượng tử hóa, các mẫu được mã hóa bằng các kỹ thuật

mã hóa entropy như Huffman coding hoặc arithmetic coding để giảm thêm lượng dữ liệu.

Bù Sai Số: Các kỹ thuật như DPCM (Differential Pulse Code Modulation) hoặc ADPCM

(Adaptive

Differential Pulse Code Modulation) có thể được sử dụng để chỉ mã hóa sự khác biệt giữa các

mẫu liên tiếp, giúp giảm lượng dữ liệu cần thiết hơn nữa.

Ưu Điểm

Độ Trễ Thấp: Không cần biến đổi phức tạp lên tín hiệu, do đó mã hóa âm thanh trong miền thời

gian thường có độ trễ thấp hơn so với mã hóa trong miền tần số.

Đơn Giản và Hiệu Quả: Với các tín hiệu có băng thông hẹp hoặc yêu cầu thời gian thực, mã hóa

thời gian có thể hiệu quả hơn về mặt tính toán.

Nhược Điểm

Kém Hiệu Quả Hơn trong Nén: So với mã hóa trong miền tần số, mã hóa trong miền thời gian

thường không hiệu quả bằng trong việc nén dữ liệu, đặc biệt với các tín hiệu phức tạp có nhiều

thành phần tần số. Phụ Thuộc vào Tín Hiệu: Hiệu suất của mã hóa thời gian có thể phụ thuộc

nhiều vào đặc tính của tín hiệu đầu vào. Ví dụ, nó có thể không làm việc tốt với âm thanh có

nhiều tần số cao.

Mã hóa âm thanh trong miền thời gian vẫn là một lựa chọn quan trọng trong nhiều ứng dụng như

truyền thanh thoại, vì sự đơn giản và khả năng phản hồi nhanh của nó. Tuy nhiên, đối với các

ứng dụng đòi hỏi tỷ lệ nén cao và chất lượng cao, mã hóa âm thanh trong miền tần số thường

được ưa chuộng hơn.

Câu 1: Mã hoá tiếng nói: Trình bày về phương pháp mã hoá tham số LPC. Sự khác biệt

giữa hai phương pháp mã hoá tham số và mã hoá dạng song.

Linear Predictive Coding (LPC) là phương pháp mã hóa tiếng nói dựa trên dự đoán giá

trị hiện tại của tín hiệu từ các giá trị trước đó. LPC sử dụng một mô hình tuyến tính để biểu diễn

tín hiệu tiếng nói, giúp giảm băng thông cần thiết cho việc truyền tải mà vẫn duy trì chất lượng

âm thanh chấp nhận được.

Hoạt động dựa trên nguyên lý dự đoán tuyến tính, trong đó một mẫu tín hiệu tiếng nói

x(n) được dự đoán từ các mẫu trước đó x(n−1),x(n−2),...,x(n−p) với sai số dự đoán nhỏ nhất.

Công thức dự đoán tuyến tính có dạng:

Các bước thực hiện mã hóa LPC

1. Phân tích khung: Tín hiệu tiếng nói được chia thành các khung nhỏ (20-30 ms) để xử lý.

2. Ước lượng hệ số LPC: Ước lượng các hệ số dự đoán aka_kak .

3. Tính toán sai số dự đoán: Tính toán và mã hóa sai số giữa tín hiệu gốc và tín hiệu dự

đoán.

4. Mã hóa tín hiệu sai số: Lượng tử hóa và mã hóa tín hiệu sai số và các hệ số dự đoán.

Ứng dụng của LPC

● Nén tiếng nói: Giảm băng thông cần thiết cho truyền tải tiếng nói.

● Tổng hợp tiếng nói: Tạo ra tiếng nói nhân tạo.

● Nhận dạng tiếng nói: Trích xuất đặc trưng của tiếng nói để nhận dạng và phân loại.

Sự khác biệt

Mã hóa tham số

Mã hóa dạng sóng

Cơ chế

Mô hình hóa và mã hóa các

tham số của tín hiệu tiếng

nói.

Mã hóa trực tiếp tín hiệu

tiếng nói dưới dạng sóng.

Ưu điểm

Hiệu quả nén cao, giảm

băng thông đáng kể

Chất lượng âm thanh cao,

giữ nguyên đặc trưng của

tín hiệu gốc.

Nhược điểm

Chất lượng tín hiệu có thể

giảm trong môi trường

nhiễu. Không phù hợp cho

tín hiệu phi tiếng nói (như

nhạc).

Yêu cầu băng thông lớn

hơn so với mã hóa tham số.

Câu 2: Trình bày sự khác biệt cơ bản giữa chuẩn mã hoá video MPEG-2 và MPEG-4

Sự khác biệt

MPEG-2

MPEG-4

Hiệu suất mã hoá và

chất lượng video

Được phát triển ban đầu cho

việc mã hoá video chất lượng

cao, thường được sử dụng trong

các định dạng video như DVD,

các đài truyền hình số, và các

ứng dụng khác. MPEG-2

thường tốn nhiều băng thông

hơn so với MPEG-4 để đạt được

cùng một chất lượng hình ảnh.

Được thiết kế để cải thiện hiệu

suất mã hoá so với MPEG-2.

Nó cho phép mức độ nén cao

hơn mà vẫn duy trì chất lượng

hình ảnh tương đương hoặc tốt

hơn. Điều này làm cho MPEG-4

thích hợp hơn cho các ứng dụng

yêu cầu băng thông thấp hơn

hoặc yêu cầu chia sẻ video qua

internet.

Công nghệ mã hoá

Sử dụng phương pháp mã hoá

DCT (Discrete Cosine

Transform) kết hợp với phương

pháp mã hoá chuyển đổi vùng.

Bao gồm nhiều cải tiến, bao

gồm việc sử dụng các công

nghệ như Mã hoá Video tiên

tiến (AVC) và Mã hoá Video

Hiệu suất Cao (HEVC), cho

phép nén video hiệu quả hơn

với cùng một lượng dữ liệu.

Hỗ trợ tính năng

Chủ yếu tập trung vào việc phát

triển chuẩn dành cho phương

tiện truyền thông truyền thống

như DVD, TV số.

Ngoài việc cải thiện hiệu suất

mã hoá, MPEG-4 còn hỗ trợ

nhiều tính năng mở rộng như

mã hóa đa kênh, hỗ trợ âm

thanh nâng cao (bao gồm cả âm

thanh đa kênh), mã hóa dữ liệu

đa phương tiện, và khả năng

tích hợp các đối tượng 3D và đồ

họa chuyển động.

Ứng dụng và sử dụng

Vẫn được sử dụng rộng rãi trong

các ứng dụng phát sóng và

truyền hình, đặc biệt là trong

các thiết bị như DVD player, TV

số, v.v.

Thường được sử dụng cho các

ứng dụng có yêu cầu cao hơn về

hiệu suất mã hoá và sự linh hoạt

trong việc truyền tải video qua

internet, streaming video, các

ứng dụng di động, video hội

nghị trực tuyến, v.v.

Câu 3: Trình bày và nêu sự khác biệt giữa hai phương pháp tìm kiếm vector chuyển động

(trong mã hoá video MPEG-2). Sequential và 2D logarithmic search.

Tiêu chí

Tìm kiếm tuần tự

Tìm kiếm logarit 2D

Khái niệm

Phương pháp tìm kiếm đơn giản,

duyệt qua từng phần tử trong dãy dữ

liệu theo thứ tự từ đầu đến cuối để

tìm phần tử cần tìm. Độ phức tạp

tính toán của nó là O(n), tuyến tính

với kích thước của dãy dữ liệu.

Phương pháp tìm kiếm hiệu quả, dựa trên

cây nhị phân để chia dãy dữ liệu thành các

nhánh nhỏ hơn và lặp đi lặp lại quá trình

này cho đến khi tìm thấy phần tử cần tìm.

Độ phức tạp tính toán của nó là O(log n),

logarit với kích thước của dãy dữ liệu.

Độ phức tạp tính

toán

O(n)

O(log n)

Hiệu quả mã hóa

Thấp hơn

Cao hơn

Khả năng thực tiễn

thời gian thực

Thấp hơn

Cao hơn

Bấm Tải xuống để xem toàn bộ.

Preview text:

Đa phương tiện
Phần 1. Lý thuyết cơ sở nén ảnh
I.1 Sự cảm thụ màu sắc của người: 3 yếu tố cơ bản: - Nguồn ánh sáng
+ là các ánh sáng mắt người cảm nhận được: bước sóng từ 380 đến 780nm + tự nhiên/nhân tạo
+ Chùm hạt photon. Có tính chất vật lý giống nhau nhưng mang các năng lượng khác nhau (tần số
khác nhau), năng lượng càng lớn bước sóng càng nhỏ ℎ𝑐 + Năng lượng: 𝐸 = 𝜆
- Vật thể được quan sát
+ Ánh sáng từ nguồn sáng được chiếu tới vật thể quan sát được. Tuỳ theo tính chất của vật thể mà
vật thể có thể hấp thụ một số bước sóng và phản xạ các bc sóng còn lại.
+ Ánh sáng phản xạ trên vật thể đi tới mắt chúng ta mà ta có thể cảm thụ về màu sắc và hình dạng
của vật thể được quan sát. - Mắt người quan sát
I.2 Đặc trưng của màu sắc - Màu sắc quang học
+ Màu sắc có 2 đặc trưng cơ bản: Sắc màu (Hue) và độ sáng (Brightness)
+ sắc màu phụ thuộc các bước sóng trội (dominant), là các bước sóng mang năng lượng vượt trội
hơn mức năng lượng trung bình
+ Độ sáng phụ thuộc giá trị năng lượng (càng lớn càng sáng)
+ Ví dụ về phổ quang trong tự nhiên:
+ Ví dụ về phổ quang học của 1 số nguồn sáng:
I.3 Đặc trưng mắt người - Mắt người quan sát
+ Sở dĩ mắt người ta cảm nhận các hình ảnh, màu sắc quang học do trong mắt chúng ta có rất nhiều
tế bào nhạy (cảm thụ) ánh sáng.
+ 2 loại tế bào cảm thụ ánh sáng: tế bào hình que (red cell)
và tế bào hình nón (cone cell)
+ 15 triệu cell hình que (cảm nhận độ sáng) và 5 triệu cell
hình nón(cảm nhận màu sắc) trong mắt người + Mắt ng
thường có nhiều cell hình nón và thường cảm nhận màu sắc tốt hơn
+ Cell hình nón có 3 loại: S(short – bước sóng ngắn vùng
phổ lam – Blue cone), M(medium – bước sóng
trung bình với phổ lục – Green cone), L(Long – bước sóng dài với phổ đỏ - Red cone) wavelength. Các
loại cell này nhạy cảm với các vùng phổ màu sắc khác nhau
+ Hình minh hoạ độ nhạy (tương đối) của các cell hình nón. Mắt ng có khả năng cảm nhận tất cả các
bước sóng trong vùng ánh sáng nhìn thấy và đặc biệt nhạy cảm với các phổ màu lam, lục, đỏ (B – G – R). I.4 Lý thuyết ba màu - NTSC video PAL (SECAM) Video 525 scan lines per frame,
30fps 625 scan lines mỗi fram, 25 fram mỗi s (40ms/frame) (33.37msec/frame)
Đan xen, mỗi fram chia là 2 trường, mỗi trường gồm
Đan nhau, mỗi frame đc chia làm 2 trường, mỗi trường 312.5 lines 262,5 line Sử dụng hệ màu YUV
20 line được bỏ trống để điều khiển tín hiệu ở thời điểm
bắt đầu của mỗi field
Như vậy có tối đa 485 lines của data có thể thấy:
+ Laserdisc and S-VHS có resolution thực tế là ~420 lines + TV: ~320 lines
+ Mỗi line cần 64.5 us để scan Sử dụng hệ màu YIQ Nguyên lí quét hình: - Zigzag - Đường ngang Bài tập ví dụ:
Xét ảnh chói Y: truyền chuẩn NTSC ∑ 𝑝𝑖𝑥𝑒𝑙/𝑠 30.525.525. 4/3
→ 30fps, 525 dòng/hình, tỉ lệ 4:3 → 𝑓𝑚𝑎𝑥= 2 = 2 =5,5MHz NÉN ẢNH Khái niệm nén:
Khái niệm nén được đề cập là phương pháp mã hoá nguồn. Mục đích chủ yếu của nó là giảm kích thước dữ liệu Original Image Decoded Image Encoder 0101100111... Decoder Bitstream
Nguyễn tắc chính của các kỹ thuânt nén là giảm thông tin dư thừa, và không cần thiết trong các tín
hiệu nhưng vẫn đảm bảo được chất lượng của tín hiệu
Tỷ số nén: được xác định bằng tỷ số kích thước của dữ liệu trước nén và sau nén
Tỷ số nén càng cao thì kích thước sau nén càng nhỏ nhưng đồng thời chất lượng tín hiệu cũng giảm
đi Một số chuẩn nén ảnh tĩnh -
JPG: Joint Photographic Expert Group -
GIF: Graphics Interchange Format - PNG: Portable Network Graphics
Đây là ba loại định dạng ảnh số phổ biến nhất
Chuẩn lấy mẫu 4:4:4, 4:2:2, 4:2:0
Ví dụ: Cho một ảnh màu kích thước 288x352 pixel, lấy mẫu 4:2:2, giá
trị mỗi điểm ảnh cần 8bit biểu diễn.
Mã hóa JPEG cho ảnh trên, biết tỷ số nén cho ảnh chói Y là 10 lần, tỷ
số nén cho các tín hiệu hiệu màu Cb,Cr là 20 lần.
Tính tỷ số nén của ảnh?
Kích thước ảnh chưa mã hóa: 288 x 352 x 8bit x(1+0,5+0,5)
Kích thước ảnh sau mã hóa:
288 x 352 x 8bit x(1/10+0,5/20+0,5/20)
Tỷ số nén: 40/3 (lần)
Nén ảnh JPEG: nén tổn háo (lossless) và không tổn hao (lossy)
Nén RLC: aaaaaaabbbbccccddef → 7a4b4c2d1e1f
Nén VLC: tuỳ theo số lần xuất hiện trong chuỗi bit, mã hoá với chiều dài bản mã cố định Với chiều dài
k cố định, sử dụng cây nhị phân huffmanm. DPCM:
DCT: biến đổi miền thời gian – miền tần số DCT 1 chiều: 𝑁 – số mẫu của tín hiệu 1 𝑁 √ , 𝑢 = 0 𝑁 ( 𝑢 ) = 𝐹 ], 𝑎 2 𝑥 √ , 𝑢 ≠ 0 𝑁 DCT 2 chiều: 1 𝑁 √ , 𝑢 = 0 𝐹 𝑁 ( 𝑢 ) = 2 ] , 𝑎 √ , 𝑢 ≠ 0 𝑁 𝑥 Các bước mã hoá JPEG: Quát zigzag
Mã hoá MPEG: Moving picture Experts Group, 1988. Chuẩn nén video Mpeg-1, -2, -4 Moving JPEG
(M-JPEG): chuẩn JPEG động: -
Chất lượng tốt nhưng đòi hỏi tốc độ cao (~50Mbps), không thích hợp truyền dẫn - Lưu trữ, studio
Chuẩn MPEG ra đồi, dùng cho truyền dẫn. Loại bỏ các thông tin dư thừa: dư thừa không gina, dư thừa thời gian Mã hoá MPEG – dùng 4:2:0
Thuật toán tìm Motion Vector - Sequential search - 2D Logarthmic search - Hierarchical search - Mean Absoblute Difference Mã hoá MPEG Group of Pictures (GoP): -
I-frames: (Intra) Ảnh I - ảnh mã hoá nguyên -
P-frames: (Predicted) Ảnh P-ảnh dự đoán, ảnh được mã hoá dựa vào thông tin của ảnh trước đó. -
B-frames: (Bidirectional Predicted) Ảnh B-ảnh dự đoán 2 chiều, ảnh được mã hoá dựa vào
thông tin của ảnh trước và sau nó
Bài tập:Đoạn video độ dài 60 phút được mã hóa theo chuẩn MPEG-2, với các tham số: cấu trúc truyền IBBPBBPBBP, kích thước ảnh CIF
(352x288 pixel, 4:2:0, 8 bit/mẫu), tốc độ 25 hình/s. Biết các tham số nén sau đây:
Tỷ lệ nén trung bình của ảnh I,P và B lần lượt là 8, 16 và 32 lần.(Giả thiết tham số nén đã bao gồm các header cần thiết)
Tính kích thước (dung lượng) đoạn dữ liệu video sau khi mã hóa. Gợi ý:
Kích thước ảnh chưa nén: 352 x 288 x 8bit x (1+0,25+0,25)=X Trung bình 1s có: 2,5 ảnh I ;7,5 ảnh P và 15 ảnh B.
Tốc độ Video sau mã hóa: 2,5 x X/8 + 7,5 x X/16 + 15 x X/32
Dung lượng đoạn Video là: 652MB Audio
Dao động cơ học f = 20 – 20kHz lan truyền trong môi trường đàn hồi (không khí)
- Tiếng nói: 300Hz – 4kHz
- Amm thanh (Audio, Music): 20-20kHz
Micro: Điện động (dynamic) và điện dung (tụ điện, condenser)
Dynamic có độ nhạy thấp, dải tần có hạn (từ 50Hz đến 16kHz). Microphone dynamic thường dùng cho
ca hát, sân khấu, karaoke, hát solo, thuyết giảng, hội họp,…
Condenser có độ nhạy rất cao, bắt âm chính xác, nên thường phục vụ cho các lĩnh vực như thu âm phòng
thu, thu âm nhạc cụ, phỏng vấn truyền hình, làm phim, hát hợp xướng, hát opera,… các lĩnh vực cần thu
âm ở khoảng cách xa người nói Điện động: nam châm
Từ cảm B, chiều dài dây l 𝐹 𝐸
𝐹 = 𝐵. 𝑙. 𝑖 → = 𝐵. 𝑙 = 𝑐𝑜𝑛𝑠𝑡 (tạo loa) → 𝐸 = 𝐵. 𝑙. 𝑣 → = 𝐵. 𝑙 (toạ micro) 𝑖 𝑣 Số hoá Audio
Nyquist: 𝑓𝐿𝑀 ≥ 2𝑓𝑀 -
Tiếng nói phổ 300Hz – 4KHz (𝑓𝐿𝑀 = 8𝐾𝐻𝑧) -
Âm thanh phổ 20-20KHz (𝑓𝐿𝑀 = 32; 44,1; 48𝐾𝐻𝑧)
Tiếng nói: PCM, mono, 𝑓𝐿𝑀 = 8𝐾𝐻𝑧, 8𝑏𝑖𝑡/mẫu, 𝑅 = 64𝑘𝑏𝑝𝑠
Âm thanh: 𝑓𝐿𝑀 = 44,1𝐾𝐻𝑧, 16𝑏𝑖𝑡/mẫu, 𝑅 = 2x44100 mẫu/s x 16bit/mẫu=1,41Mbit/s Số hoá tiếng nói:
PCM, mono, 𝑓𝐿𝑀 = 8𝐾𝐻𝑧, 8𝑏𝑖𝑡/mẫu, 𝑅 = 64𝑘𝑏𝑝𝑠
DPCM: Diferential PCM, mã hoá vi sai. R=48kbps
ADPCM: Adaptive DPCM, mã hoá vi sai thích nghi, R=16-32kbps Câu 1:
a. I-frame (Intra): ảnh mã hoá nguyên
P-frame (Predicted): ảnh dự đoán, đc mã hoá dựa theo ảnh trước đó
B-frame (Bidirectional Predicted): ảnh dự đoán 2 chiều, ảnh đc mã hoá dựa vào thông tin ảnh trước và sau nó.
Múc đích sử dụng ảnh B: -
Sử dụng cả ảnh trước và sau để dự đoán nội dung ảnh B giúp nén dữ liệu -
Giúp MPEG-2 giảm dung lượng dữ liệu cần lưu trữ -
Giảm số lượng bit cần thiết để mã hoá khung hình -
Giảm thiểu lỗi dự đoán và cải thiện chất lượng hình ảnh
b. Cấu trúc truyền ảnh: Frame 1 Frame 2 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) … I B B P B B I B B P …
Thứ tự truyền bên phát: 1 → 4 → 2 → 3 → 7 → 5 → 6 → 10 → 8 → 9 → ⋯
Bên thu sau khi nhận được sẽ sắp xếp lại theo đúng thứ tự c.
Kích thước ảnh chưa nén là: 352 . 288 .8 . (1 + 0,5) = 1216512 𝑏𝑖𝑡
Trung bình 1s có: 30/6=5 khung → 5 ảnh I, 5 ảnh P và 20 ảnh B
Tốc độ video sau mã hoá: 5 . + 5 . + 20 . = 1900,8𝐾𝑏𝑝𝑠
Tốc độ video (bao gồm cả phần âm thanh): 1900,8 + 100 = 200,8𝐾𝑏𝑝𝑠 Câu 2:
Áp dụng DCT-1D cho từng hàng: 7 1 (2𝑖 + 1). 𝑣𝜋 1 ( 𝑢 ) = . ∑ 𝑓 ( 𝑖 ) . cos ( ( 0 ) = . 20 . 8 = 40 √ 2 𝐹 2 . 𝐶 ( 𝑢 ) 16 ) → 𝐹 2 √ 2 , 𝐹(𝑢) = 0, ∀𝑢 ≠ 0 𝑖=0
Câu 3: Đặc điểm và ứng dụng của các chuẩn nén video
MPEG-2 (Moving Picture Experts Group - 2):
Đặc điểm: MPEG-2 là chuẩn nén video được phát triển ban đầu cho việc lưu trữ và truyền phát video
chất lượng cao. Nó hỗ trợ nhiều tỷ lệ bit khác nhau và có khả năng xử lý video với độ phân giải khác nhau.
Ứng dụng: Được sử dụng rộng rãi trong các định dạng video như DVD, video truyền hình số (DVB), và video trực tuyến. MPEG-4:
Đặc điểm: MPEG-4 được thiết kế để hỗ trợ nén video, âm thanh và dữ liệu với nhiều mức độ phân giải
khác nhau. Nó cũng hỗ trợ tính năng tương tác và nâng cao cho video.
Ứng dụng: Được sử dụng trong nhiều ứng dụng như video kỹ thuật số, phim hoạt hình, video di động và hội nghị truyền hình.
H.264/AVC (Advanced Video Coding):
Đặc điểm: H.264 là chuẩn nén video hiệu suất cao, cung cấp chất lượng hình ảnh tốt với kích thước file
nhỏ hơn so với các chuẩn trước đó. Nó hỗ trợ nhiều cấp độ nén và các tính năng như tiết kiệm băng
thông và chất lượng video cao.
Ứng dụng: Phổ biến trong phim Blu-ray, video trực tuyến, video di động và các ứng dụng gọi hình.
H.265/HEVC (High Efficiency Video Coding):
Đặc điểm: H.265 là chuẩn nén video tiếp theo sau H.264, cải tiến đáng kể hiệu suất nén so với H.264. Nó
cho phép giảm đáng kể kích thước file video với cùng mức chất lượng hình ảnh.
Ứng dụng: Được sử dụng trong các ứng dụng yêu cầu băng thông cao như video 4K và 8K, video phát
trực tiếp và truyền hình siêu cao cấp.
Câu 4: Loại thông tin dư thừa trong mã hóa video
Trong mã hóa video, có 4 loại thông tin dư thừa chính:
Thông tin không cần thiết (Redundant information): Là các phần của dữ liệu video có thể được loại bỏ
mà không làm mất đi chất lượng hình ảnh, chẳng hạn như các bit dự báo, bit trung gian.
Thông tin không thực sự quan trọng (Non-critical information): Là các phần của dữ liệu video mà có thể
được lược bỏ mà không làm ảnh hưởng nghiêm trọng đến chất lượng hình ảnh, ví dụ như một số bit bù
trùng hoặc bit đánh dấu.
Thông tin đơn giản (Simple information): Là các đặc điểm của dữ liệu video có thể được mô tả bằng các
mô hình đơn giản hơn mà không cần tới chi tiết phức tạp.
Thông tin dư (Extraneous information): Là các phần của dữ liệu video không liên quan đến nội dung
chính, như dữ liệu phụ, phần tiêu đề, hoặc thông tin quản lý dữ liệu.
Câu 5: Phương pháp tìm kiếm vector chuyển động và ưu nhược điểm
Phương pháp tìm kiếm vector chuyển động (Motion Vector Search) là kỹ thuật quan trọng trong mã hóa
video để tìm ra vector chuyển động cho các khối ảnh. Phương pháp này thường được áp dụng trong các
chuẩn nén video như MPEG và H.264/HEVC.
Phương pháp: Thực hiện so khớp các khối ảnh trong khung hiện tại với khung tham chiếu trước đó để
xác định vector chuyển động có thể giảm thiểu sai lệch. Ưu điểm:
Hiệu quả về mặt tính toán.
Giúp giảm lượng dữ liệu cần truyền đi bằng cách chỉ truyền vector chuyển động và các sai lệch. Nhược điểm:
Có thể dẫn đến sai lệch nếu sự chuyển động quá lớn so với khoảng cách tìm kiếm.
Yêu cầu tài nguyên tính toán khá cao, đặc biệt là khi áp dụng cho video có độ phân giải cao và tốc độ khung hình nhanh. Lý thuyết tổng hợp Đặc điểm MPEG-1 MPEG-2 MPEG-4 Ra đời 1993 1995 Cuối những năm 1990
Nén với tổn thất dựa Nén với tổn thất dựa DCT, biến đổi sóng con, mã hóa Phương pháp nén trên DCT, mã hóa
trên DCT, cải tiến mã dự đoán chuyển động khối 8x8 hóa khối 8x8
I-frame, P-frame, B-frame, dự I-frame, P-frame, Cấu trúc GOP I-frame, P-frame
đoán giữa đối tượng và khung Bframe hình Tối đa 352x240 Tối đa 720x480 Độ phân giải (NTSC), 352x288 (NTSC),
720x576 Linh hoạt từ thấp đến 4K (PAL) (PAL), hỗ trợ HD Thường khoảng 1.5 2-10 Mbps, tối đa 40 Bitrate Mbps
Vài kbps đến hàng chục Mbps Mbps Cao, phù hợp cho DVD Trung bình, phù hợp
Rất cao, phù hợp cho nhiều ứng Chất lượng và truyền hình số cho VCD dụng hiện đại Nén video và âm thanh
Tích hợp đa phương tiện, SVC,
cho VCD, âm thanh Nén đa luồng video và AVC/H.264, truyền tải trực Tính năng
stereo MPEG-1 Layer âm thanh, truyền hình tuyến, lưu trữ video, phát sóng II số, DVD truyền hình Chất lượng cao hơn Tương thích rộng rãi,
Tỷ lệ nén cao, hỗ trợ đa phương Ưu điểm MPEG-1, ứng dụng dễ mã hóa/giải mã
tiện, độ phân giải linh hoạt rộng rãi
Tỷ lệ nén không cao Phức tạp, yêu cầu phần cứng và
Chất lượng và tỷ lệ nén Nhược điểm
như MPEG-4, yêu cầu phần mềm tiên tiến, chi phí giấy hạn chế
phần cứng mạnh hơn phép Sequential Search
Sequential Search là một phương pháp tìm kiếm motion vector đơn giản và dễ hiểu. Thuật toán
này kiểm tra từng vị trí trong phạm vi tìm kiếm theo một thứ tự tuần tự cho đến khi tìm thấy vị
trí có độ sai lệch (error) nhỏ nhất giữa khối hiện tại và khối tham chiếu. - Phương pháp:
- Bắt đầu từ một điểm gốc trong khung hình tham chiếu.
- Di chuyển qua từng vị trí một cách tuần tự trong phạm vi tìm kiếm đã xác định.
- Tính toán lỗi (thường là sai số bình phương trung bình - Mean Squared Error hoặc tổng độ
chênh lệch tuyệt đối - Sum of Absolute Differences) cho từng vị trí.
- Chọn vị trí có lỗi nhỏ nhất làm motion vector. - Ưu điểm: - Dễ triển khai.
- Đảm bảo tìm được vị trí tối ưu (tuyệt đối) trong phạm vi tìm kiếm. - Nhược điểm:
- Rất tốn thời gian và tài nguyên tính toán, đặc biệt với phạm vi tìm kiếm lớn.
- Không hiệu quả cho các ứng dụng thời gian thực. 2D Logarithmic Search
2D Logarithmic Search là một phương pháp tìm kiếm motion vector hiệu quả hơn Sequential
Search, sử dụng kỹ thuật tìm kiếm theo hàm logarithmic để giảm số lượng phép tính toán cần thiết. - Phương pháp:
- Bắt đầu từ trung tâm của phạm vi tìm kiếm.
- Sử dụng một bước nhảy lớn để tìm kiếm các vị trí lân cận (theo hình chữ thập).
- Nếu không tìm thấy vị trí tối ưu, giảm kích thước bước nhảy (thường bằng cách chia đôi bước
nhảy) và tiếp tục tìm kiếm từ vị trí có lỗi nhỏ nhất trong các bước trước đó.
- Lặp lại quá trình cho đến khi kích thước bước nhảy nhỏ hơn một ngưỡng nhất định. - Ưu điểm:
- Tốc độ tìm kiếm nhanh hơn nhiều so với Sequential Search.
- Tương đối dễ triển khai và hiệu quả với các phạm vi tìm kiếm lớn. - Nhược điể:
- Có thể bỏ lỡ các vị trí tối ưu nếu bước nhảy ban đầu quá lớn hoặc nếu khối chuyển động quá
nhanh. - Không đảm bảo tìm kiếm được vị trí tối ưu tuyệt đối. Hierarchical Search
Hierarchical Search (hay còn gọi là Multi-resolution Search) là một phương pháp tìm kiếm
motion vector bằng cách sử dụng các mức độ phân giải khác nhau của khung hình. - Phương pháp:
- Khung hình được chia thành nhiều mức phân giải khác nhau (từ mức thấp đến mức cao).
- Bắt đầu tìm kiếm motion vector ở mức phân giải thấp nhất.
- Sử dụng kết quả tìm kiếm ở mức phân giải thấp để xác định phạm vi tìm kiếm cho mức phân giải cao hơn.
- Lặp lại quá trình cho đến khi đạt mức phân giải cao nhất (phân giải gốc). - Ưu điểm:
- Rất hiệu quả về mặt tính toán, vì tìm kiếm ở mức phân giải thấp cần ít phép tính hơn.
- Giảm thiểu khả năng bỏ sót vị trí tối ưu, vì phạm vi tìm kiếm được điều chỉnh dựa trên kết quả tìm kiếm ở mức thấp. - Nhược điểm:
- Có thể giảm độ chính xác nếu mức phân giải thấp không đủ để nắm bắt chuyển động chính
xác. - Phức tạp hơn trong triển khai so với các phương pháp tìm kiếm khác.
MPEG-2 (Moving Picture Experts Group - 2): •
Năm ra đời: Được phát triển vào những năm 1990 và được công bố năm 1995. •
Ứng dụng chính: Thường được sử dụng trong định dạng DVD, các dịch vụ truyền hình số ban đầu. •
Kĩ thuật: Sử dụng mã hóa dựa trên khung hình (frame-based encoding), sử dụng DCT
(Discrete Cosine Transform) và có thể hỗ trợ nhiều mức độ nén. MPEG-4: •
Năm ra đời: Ra đời sau MPEG-2, vào những năm 1998. •
Ứng dụng chính: Được thiết kế để hỗ trợ nhiều nền tảng và ứng dụng đa phương tiện,
bao gồm Internet, hội nghị truyền hình và ứng dụng di động. •
Kĩ thuật: Cải tiến so với MPEG-2, hỗ trợ mã hóa dựa trên đối tượng (object-based
encoding), có khả năng nén tốt hơn với chất lượng tương đương ở mức bit thấp hơn.
H.264/MPEG-4 AVC (Advanced Video Coding): •
Năm ra đời: Công bố vào năm 2003. •
Ứng dụng chính: Được sử dụng rộng rãi trong các dịch vụ truyền hình kỹ thuật số,
video trực tuyến, Blu-ray và các ứng dụng di động. •
Kĩ thuật: Sử dụng các kỹ thuật như mã hóa dựa trên khung hình và mã hóa mạng dựa
trên dự đoán (network-based prediction), cải thiện đáng kể hiệu suất nén so với các tiêu chuẩn trước đó.
H.265/HEVC (High Efficiency Video Coding): •
Năm ra đời: Công bố vào năm 2013. •
Ứng dụng chính: Được thiết kế để cải thiện hiệu quả nén hình ảnh so với H.264, phù
hợp cho các nền tảng có băng thông hẹp và đòi hỏi chất lượng cao. •
Kĩ thuật: Sử dụng các kỹ thuật như mã hóa dựa trên cụm (block-based encoding) và cải
thiện khả năng nén hình ảnh so với H.264, giúp giảm đáng kể lượng dữ liệu cần thiết để
truyền tải video cùng chất lượng. Đặc điểm JPEG GIF PNG Năm ra đời 1992 1987 1996 Màu sắc Hỗ trợ màu 24-bit (16 Hỗ trợ màu 8-bit (256 Hỗ trợ màu 24-bit (16 triệu màu) màu) triệu màu) Nén ảnh Lossy compression Lossless compression Lossless compression Chất lượng
Giảm chất lượng ảnh khi Giữ nguyên chất lượng Giữ nguyên chất lượng nén ảnh khi nén ảnh khi nén Độ phân giải Phù hợp cho hình ảnh Phù hợp cho ảnh động, Phù hợp cho hình ảnh
thực tế, ảnh nghệ thuật biểu tượng
thực tế, ảnh nghệ thuật Dùng cho
Hình ảnh chụp, web, in ấn Biểu tượng động, đồ họa Hình ảnh chụp, lưu trữ đơn giản hình ảnh Kích thước Lớn hơn so với GIF và
Nhỏ hơn so với JPEG và Thường lớn hơn GIF, nhỏ PNG khi nén PNG khi nén hơn JPEG khi nén
Trong quá trình mã hóa video, các kỹ thuật nén (compression) thường được sử dụng để giảm
kích thước tệp video mà vẫn giữ được chất lượng hình ảnh chấp nhận được. Trong bối cảnh này,
"thông tin dư thừa" (redundant information) thường đề cập đến các phần của dữ liệu video có
thể bị loại bỏ hoặc nén mà không ảnh hưởng đáng kể đến chất lượng tổng thể của video. Dưới
đây là một số ví dụ về thông tin dư thừa trong video:
1. Redundancy in Spatial Domain (Không gian):
o Các pixel liền kề có giá trị tương tự: Trong một khung hình video, các pixel
gần nhau thường có giá trị màu tương tự. Các kỹ thuật nén như JPEG và các
chuẩn nén video như H.264 sử dụng biến đổi Cosine rời rạc (DCT) để loại bỏ sự dư thừa này.
2. Redundancy in Temporal Domain (Thời gian):
o Các khung hình liên tiếp giống nhau: Trong nhiều video, có rất ít sự thay đổi
giữa các khung hình liên tiếp. Các thuật toán nén như H.264 sử dụng dự đoán
liên khung (inter-frame prediction) để mã hóa sự thay đổi giữa các khung hình
thay vì mã hóa từng khung hình riêng biệt.
3. Visual Redundancy (Thị giác):
o Các chi tiết khó nhận thấy: Mắt người không nhạy cảm với một số chi tiết nhỏ
hoặc sự thay đổi màu sắc. Các thuật toán nén thường loại bỏ hoặc giảm độ chính
xác của những chi tiết này mà không gây ảnh hưởng đáng kể đến trải nghiệm xem của người dùng.
4. Perceptual Redundancy (Cảm nhận):
o Các tần số cao mà mắt người không phân biệt được: Một số tần số cao trong
hình ảnh không được mắt người nhận biết rõ ràng. Các kỹ thuật nén như biến đổi
Wavelet hoặc DCT sẽ giảm bớt hoặc loại bỏ các thành phần tần số cao này.
Nhờ loại bỏ hoặc giảm thiểu các dạng thông tin dư thừa này, các phương pháp nén video có thể
giảm kích thước tệp video mà vẫn duy trì chất lượng hình ảnh ở mức chấp nhận được. Đặc điểm PCM DPCM ADPCM
Mã hóa sự khác biệt và Nguyên lý
Mã hóa giá trị tuyệt đối Mã hóa sự khác biệt điều chỉnh động
Đơn giản, độ trung thực Hiệu quả nén tốt hơn Ưu điểm cao Giảm băng thông DPCM
Độ trung thực thấp hơn
Phức tạp hơn trong thực Nhược điểm
Đòi hỏi băng thông cao PCM hiện Nén âm thanh, chuẩn Ứng dụng Điện thoại, CD audio Nén âm thanh, video G.726ality.
Trong mã hóa video, dư thừa đề cập đến thông tin không cần thiết hoặc lặp lại làm tăng kích
thước tệp mà không cải thiện chất lượng. Dưới đây là bốn loại dư thừa thường thấy trong mã hóa video:
1. Dư thừa không gian: Điều này xảy ra trong các khung hình riêng lẻ, nơi các điểm ảnh
liền kề thường có giá trị tương tự. Các kỹ thuật nén không gian (ví dụ, thông qua giảm
mẫu không gian hoặc lượng tử hóa) giảm thiểu dư thừa này bằng cách chỉ mã hóa các chi tiết cần thiết.
2. Dư thừa thời gian: Dư thừa này tồn tại giữa các khung hình liên tiếp trong một chuỗi
video. Vì các khung hình liền kề thường chứa thông tin tương tự, các phương pháp nén
thời gian như ước lượng và bù trừ chuyển động giúp giảm dữ liệu dư thừa bằng cách chỉ
lưu trữ các thay đổi từ khung hình này sang khung hình khác.
3. Dư thừa tâm lý thị giác: Dư thừa này liên quan đến giới hạn của nhận thức con người.
Các codec video khai thác điều này bằng cách loại bỏ các chi tiết ít được chú ý hơn hoặc
giảm độ trung thực ở những khu vực mà người xem ít có khả năng nhận thấy thay đổi,
do đó tối ưu hóa tỷ lệ nén mà không làm giảm chất lượng có thể nhận biết.
4. Dư thừa mã hóa: Loại dư thừa này xảy ra do sự kém hiệu quả trong cách biểu diễn và
mã hóa dữ liệu. Các codec video hiện đại sử dụng các kỹ thuật mã hóa tiên tiến như mã
hóa entropy (như mã hóa Huffman hoặc mã hóa số học) để giảm thiểu thông tin dư thừa
này và đạt được hiệu quả nén cao hơn.
Giảm thiểu hiệu quả các dạng dư thừa này là rất quan trọng để tối ưu hóa hiệu quả mã hóa video,
dẫn đến kích thước tệp nhỏ hơn mà vẫn duy trì hoặc cải thiện chất lượng cảm nhận.
Mã hóa tham số (Parametric Encoding) và mã hóa dạng sóng (Waveform Encoding) là hai
phương pháp chính được sử dụng trong xử lý tín hiệu, đặc biệt là trong lĩnh vực truyền thông và
mã hóa âm thanh. Dưới đây là sự phân biệt chi tiết giữa hai phương pháp này:
1. Mã hóa tham số (Parametric Encoding)
- Nguyên lý hoạt động: Phương pháp này phân tích tín hiệu đầu vào và trích xuất các tham số
đặc trưng của nó. Sau đó, chỉ các tham số này được mã hóa và truyền đi.
- Ví dụ: Một ví dụ phổ biến là mã hóa giọng nói sử dụng các tham số như tần số cơ bản, biên độ
và các hệ số LPC (Linear Predictive Coding). - Ưu điểm:
- Hiệu quả băng thông: Giảm thiểu lượng
dữ liệu cần truyền tải, vì chỉ các tham
số quan trọng được gửi đi. - Hiệu quả
nén: Đạt được mức độ nén cao, làm
giảm dung lượng lưu trữ và băng thông truyền tải. - Nhược điểm:
- Chất lượng tái tạo: Chất lượng tín hiệu
tái tạo có thể thấp hơn do việc chỉ dựa
vào các tham số đã trích xuất. - Phức
tạp: Quá trình phân tích và mã hóa
tham số có thể phức tạp và đòi hỏi nhiều tính toán.
2. Mã hóa dạng sóng (Waveform Encoding)
- Nguyên lý hoạt động: Phương pháp này mã hóa trực tiếp dạng sóng của tín hiệu đầu vào. Các
mẫu của dạng sóng được lấy mẫu, lượng tử hóa và mã hóa để truyền tải.
- Ví dụ: PCM (Pulse Code Modulation) là một ví dụ điển hình, trong đó tín hiệu âm thanh được
lấy mẫu và mỗi mẫu được biểu diễn dưới dạng số. - Ưu điểm:
- Chất lượng tái tạo: Tín hiệu tái tạo thường có chất lượng cao hơn vì nó duy trì gần như toàn bộ
thông tin của tín hiệu gốc.
- Đơn giản: Quá trình mã hóa và giải mã đơn giản hơn so với mã hóa tham số. - Nhược điểm:
- Hiệu quả băng thông: Yêu cầu băng thông lớn hơn, vì toàn bộ dạng sóng được truyền đi.
- Hiệu quả nén: Không đạt được mức độ nén cao như mã hóa tham số. Tóm lại:
- Mã hóa tham số: Trích xuất và mã hóa các tham số đặc trưng của tín hiệu. Hiệu quả trong việc
giảm dung lượng dữ liệu nhưng có thể giảm chất lượng tái tạo.
- Mã hóa dạng sóng: Mã hóa trực tiếp các mẫu dạng sóng của tín hiệu. Đảm bảo chất lượng tái
tạo tốt nhưng yêu cầu băng thông lớn hơn.
Việc lựa chọn phương pháp mã hóa phù hợp tùy thuộc vào yêu cầu cụ thể của ứng dụng về chất
lượng, băng thông và hiệu quả nén.
Các thuật toán LPC (Linear Predictive Coding), PCM (Pulse Code Modulation), DPCM
(Differential Pulse Code Modulation), và ADPCM (Adaptive Differential Pulse Code
Modulation) đều là các phương pháp mã hóa tín hiệu âm thanh và tín hiệu nói. Chúng có các đặc
điểm kĩ thuật và cách hoạt động khác nhau như sau: 1. Linear Predictive Coding (LPC) Đặc điểm kỹ thuật:
- LPC là một phương pháp nén âm thanh sử dụng mô hình dự đoán tuyến tính.
- LPC thường được sử dụng trong việc xử lý tín hiệu nói, đặc biệt trong các ứng dụng như mã
hóa giọng nói, tổng hợp giọng nói và nhận dạng giọng nói.
- LPC có thể đạt được tỷ lệ nén rất cao. Cách hoạt động:
- LPC dự đoán giá trị của mẫu tiếp theo dựa trên một số mẫu trước đó bằng cách sử dụng một mô hình tuyến tính.
- Các hệ số của mô hình tuyến tính này (gọi là các hệ số LPC) được tính toán sao cho sai số giữa
giá trị dự đoán và giá trị thực tế là nhỏ nhất.
- Sai số dự đoán (residual) cùng với các hệ số LPC được mã hóa và truyền đi. 2. Pulse Code
Modulation (PCM) Đặc điểm kỹ thuật:
- PCM là phương pháp mã hóa tín hiệu số cơ bản và đơn giản nhất.
- PCM thường được sử dụng trong các hệ thống truyền thông số và lưu trữ âm thanh, như CD, điện thoại và VoIP.
- PCM không thực hiện bất kỳ nén nào, do đó, tín hiệu PCM yêu cầu băng thông cao và dung lượng lưu trữ lớn. Cách hoạt động:
- Tín hiệu liên tục (analog) được lấy mẫu tại các thời điểm rời rạc với tần số lấy mẫu đủ cao (theo định lý Nyquist).
- Mỗi mẫu được lượng tử hóa (quantized) thành một trong một số mức giá trị rời rạc và được
biểu diễn bằng mã nhị phân.
- Kết quả là một chuỗi các mã nhị phân đại diện cho các mức lượng tử hóa của các mẫu tín hiệu.
3. Differential Pulse Code Modulation (DPCM) Đặc điểm kỹ thuật:
- DPCM là một biến thể của PCM, sử dụng sự khác biệt giữa các mẫu liên tiếp để mã hóa thay
vì mã hóa trực tiếp các giá trị mẫu.
- DPCM có thể giảm thiểu dung lượng cần thiết cho lưu trữ hoặc truyền tải bằng cách giảm mức
độ của dữ liệu lượng tử hóa. Cách hoạt động:
- Thay vì mã hóa trực tiếp giá trị của mỗi mẫu, DPCM mã hóa sự khác biệt giữa giá trị của mẫu
hiện tại và mẫu trước đó.
- Sai số giữa giá trị dự đoán và giá trị thực tế được lượng tử hóa và truyền đi.
- Bộ giải mã sẽ tái tạo lại tín hiệu bằng cách cộng dồn các giá trị khác biệt vào giá trị của mẫu
trước đó. 4. Adaptive Differential Pulse Code Modulation (ADPCM) Đặc điểm kỹ thuật:
- ADPCM là một biến thể của DPCM, trong đó quá trình lượng tử hóa sự khác biệt giữa các
mẫu được điều chỉnh tự động (adaptive) dựa trên đặc điểm của tín hiệu.
- ADPCM thường được sử dụng trong các ứng dụng nén âm thanh và giọng nói như điện thoại
di động, VoIP, và các thiết bị ghi âm kỹ thuật số. Cách hoạt động:
- Giống như DPCM, ADPCM mã hóa sự khác biệt giữa các mẫu liên tiếp, nhưng sử dụng một
kỹ thuật lượng tử hóa thay đổi theo thời gian.
- Bộ mã hóa ADPCM điều chỉnh kích thước lượng tử hóa dựa trên đặc tính của tín hiệu để cải
thiện chất lượng mã hóa và giảm thiểu sai số.
- Bộ giải mã sử dụng cùng một kỹ thuật điều chỉnh để tái tạo lại tín hiệu gốc.
Các phương pháp này đều có ưu và nhược điểm riêng, và lựa chọn phương pháp phù hợp phụ
thuộc vào yêu cầu cụ thể của ứng dụng như chất lượng âm thanh, băng thông, và tài nguyên tính toán.
Mã hóa âm thanh trong miền thời gian là một phương pháp xử lý và nén âm thanh mà ở đó, dữ
liệu âm thanh được xử lý và mã hóa trực tiếp trên tín hiệu thời gian không gian (time
waveform). Phương pháp này không chuyển đổi tín hiệu sang bất kỳ dạng biểu diễn tần số nào
như Fourier hoặc Cosine trước khi nén. Mục tiêu của mã hóa thời gian là giảm lượng dữ liệu cần
thiết để lưu trữ hoặc truyền tải tín hiệu mà vẫn giữ được chất lượng âm thanh mong muốn. Cách Thức Hoạt Động
Thu Thập Mẫu Âm Thanh: Tín hiệu âm thanh được lấy mẫu ở một tốc độ nhất định để chuyển
đổi từ tín hiệu analog sang dạng số. Mỗi mẫu biểu diễn một giá trị cường độ âm thanh tại một thời điểm cụ thể.
Lượng Tử Hóa: Các mẫu được lượng tử hóa, tức là chúng được làm tròn thành các giá trị gần
nhất trong một tập hợp các giá trị cho trước. Quá trình này giảm số lượng bit cần thiết để biểu
diễn mỗi mẫu. Mã Hóa Entropy: Sau khi lượng tử hóa, các mẫu được mã hóa bằng các kỹ thuật
mã hóa entropy như Huffman coding hoặc arithmetic coding để giảm thêm lượng dữ liệu.
Bù Sai Số: Các kỹ thuật như DPCM (Differential Pulse Code Modulation) hoặc ADPCM (Adaptive
Differential Pulse Code Modulation) có thể được sử dụng để chỉ mã hóa sự khác biệt giữa các
mẫu liên tiếp, giúp giảm lượng dữ liệu cần thiết hơn nữa. Ưu Điểm
Độ Trễ Thấp: Không cần biến đổi phức tạp lên tín hiệu, do đó mã hóa âm thanh trong miền thời
gian thường có độ trễ thấp hơn so với mã hóa trong miền tần số.
Đơn Giản và Hiệu Quả: Với các tín hiệu có băng thông hẹp hoặc yêu cầu thời gian thực, mã hóa
thời gian có thể hiệu quả hơn về mặt tính toán. Nhược Điểm
Kém Hiệu Quả Hơn trong Nén: So với mã hóa trong miền tần số, mã hóa trong miền thời gian
thường không hiệu quả bằng trong việc nén dữ liệu, đặc biệt với các tín hiệu phức tạp có nhiều
thành phần tần số. Phụ Thuộc vào Tín Hiệu: Hiệu suất của mã hóa thời gian có thể phụ thuộc
nhiều vào đặc tính của tín hiệu đầu vào. Ví dụ, nó có thể không làm việc tốt với âm thanh có nhiều tần số cao.
Mã hóa âm thanh trong miền thời gian vẫn là một lựa chọn quan trọng trong nhiều ứng dụng như
truyền thanh thoại, vì sự đơn giản và khả năng phản hồi nhanh của nó. Tuy nhiên, đối với các
ứng dụng đòi hỏi tỷ lệ nén cao và chất lượng cao, mã hóa âm thanh trong miền tần số thường được ưa chuộng hơn.
Câu 1: Mã hoá tiếng nói: Trình bày về phương pháp mã hoá tham số LPC. Sự khác biệt
giữa hai phương pháp mã hoá tham số và mã hoá dạng song.
Linear Predictive Coding (LPC) là phương pháp mã hóa tiếng nói dựa trên dự đoán giá
trị hiện tại của tín hiệu từ các giá trị trước đó. LPC sử dụng một mô hình tuyến tính để biểu diễn
tín hiệu tiếng nói, giúp giảm băng thông cần thiết cho việc truyền tải mà vẫn duy trì chất lượng
âm thanh chấp nhận được.
Hoạt động dựa trên nguyên lý dự đoán tuyến tính, trong đó một mẫu tín hiệu tiếng nói
x(n) được dự đoán từ các mẫu trước đó x(n−1),x(n−2),...,x(n−p) với sai số dự đoán nhỏ nhất.
Công thức dự đoán tuyến tính có dạng:
Các bước thực hiện mã hóa LPC
1. Phân tích khung: Tín hiệu tiếng nói được chia thành các khung nhỏ (20-30 ms) để xử lý.
2. Ước lượng hệ số LPC: Ước lượng các hệ số dự đoán aka_kak .
3. Tính toán sai số dự đoán: Tính toán và mã hóa sai số giữa tín hiệu gốc và tín hiệu dự đoán.
4. Mã hóa tín hiệu sai số: Lượng tử hóa và mã hóa tín hiệu sai số và các hệ số dự đoán.
Ứng dụng của LPC
● Nén tiếng nói: Giảm băng thông cần thiết cho truyền tải tiếng nói.
● Tổng hợp tiếng nói: Tạo ra tiếng nói nhân tạo.
● Nhận dạng tiếng nói: Trích xuất đặc trưng của tiếng nói để nhận dạng và phân loại. Sự khác biệt Mã hóa tham số Mã hóa dạng sóng Cơ chế
Mô hình hóa và mã hóa các Mã hóa trực tiếp tín hiệu
tham số của tín hiệu tiếng tiếng nói dưới dạng sóng. nói. Ưu điểm
Hiệu quả nén cao, giảm Chất lượng âm thanh cao, băng thông đáng kể
giữ nguyên đặc trưng của tín hiệu gốc. Nhược điểm
Chất lượng tín hiệu có thể Yêu cầu băng thông lớn
giảm trong môi trường hơn so với mã hóa tham số.
nhiễu. Không phù hợp cho
tín hiệu phi tiếng nói (như nhạc).
Câu 2: Trình bày sự khác biệt cơ bản giữa chuẩn mã hoá video MPEG-2 và MPEG-4 Sự khác biệt MPEG-2 MPEG-4
Hiệu suất mã hoá và
Được thiết kế để cải thiện hiệu
Được phát triển ban đầu cho chất lượng video
suất mã hoá so với MPEG-2.
việc mã hoá video chất lượng
Nó cho phép mức độ nén cao
cao, thường được sử dụng trong hơn mà vẫn duy trì chất lượng
các định dạng video như DVD, hình ảnh tương đương hoặc tốt
các đài truyền hình số, và các
hơn. Điều này làm cho MPEG-4 ứng dụng khác. MPEG-2
thích hợp hơn cho các ứng dụng
thường tốn nhiều băng thông
yêu cầu băng thông thấp hơn
hơn so với MPEG-4 để đạt được hoặc yêu cầu chia sẻ video qua
cùng một chất lượng hình ảnh. internet. Công nghệ mã hoá
Sử dụng phương pháp mã hoá
Bao gồm nhiều cải tiến, bao DCT (Discrete Cosine
gồm việc sử dụng các công
Transform) kết hợp với phương nghệ như Mã hoá Video tiên
pháp mã hoá chuyển đổi vùng.
tiến (AVC) và Mã hoá Video Hiệu suất Cao (HEVC), cho
phép nén video hiệu quả hơn
với cùng một lượng dữ liệu. Hỗ trợ tính năng
Chủ yếu tập trung vào việc phát Ngoài việc cải thiện hiệu suất
triển chuẩn dành cho phương
mã hoá, MPEG-4 còn hỗ trợ
tiện truyền thông truyền thống
nhiều tính năng mở rộng như như DVD, TV số.
mã hóa đa kênh, hỗ trợ âm
thanh nâng cao (bao gồm cả âm
thanh đa kênh), mã hóa dữ liệu
đa phương tiện, và khả năng
tích hợp các đối tượng 3D và đồ họa chuyển động.
Ứng dụng và sử dụng Vẫn được sử dụng rộng rãi trong Thường được sử dụng cho các
các ứng dụng phát sóng và
ứng dụng có yêu cầu cao hơn về
truyền hình, đặc biệt là trong
hiệu suất mã hoá và sự linh hoạt
các thiết bị như DVD player, TV trong việc truyền tải video qua số, v.v.
internet, streaming video, các
ứng dụng di động, video hội nghị trực tuyến, v.v.
Câu 3: Trình bày và nêu sự khác biệt giữa hai phương pháp tìm kiếm vector chuyển động
(trong mã hoá video MPEG-2). Sequential và 2D logarithmic search. Tiêu chí
Tìm kiếm tuần tự Tìm kiếm logarit 2D Khái niệm
Phương pháp tìm kiếm đơn giản,
duyệt qua từng phần tử trong dãy dữ
liệu theo thứ tự từ đầu đến cuối để
Phương pháp tìm kiếm hiệu quả, dựa trên
tìm phần tử cần tìm. Độ phức tạp
cây nhị phân để chia dãy dữ liệu thành các
tính toán của nó là O(n), tuyến tính
nhánh nhỏ hơn và lặp đi lặp lại quá trình
với kích thước của dãy dữ liệu.
này cho đến khi tìm thấy phần tử cần tìm.
Độ phức tạp tính toán của nó là O(log n),
logarit với kích thước của dãy dữ liệu. O(n) O(log n)
Độ phức tạp tính toán Hiệu quả mã hóa Thấp hơn Cao hơn
Khả năng thực tiễn Thấp hơn Cao hơn thời gian thực

Lý thuyết cơ sở nén ảnh và cảm thụ màu sắc môn Đa phương tiện và các ứng dụng giải trí | Trường Đại học Bách Khoa Hà Nội

Tài liệu liên quan:

Bài tập lớn về Mã hóa dữ liệu đa phương tiện | Trường Đại học Bách Khoa Hà Nội

Báo cáo thí nghiệm môn Đa phương tiện và các ứng dụng giải trí | Trường Đại học Bách Khoa Hà Nội

Báo cáo cuối kì Xây dựng chương trình điều khiển Notepad++ bằng giọng nói môn Đa phương tiện và các ứng dụng giải trí | Trường Đại học Bách Khoa Hà Nội

Đề cương tài liệu Việt Nhật môn Đa phương tiện và các ứng dụng giải trí | Trường Đại học Bách Khoa Hà Nội

Multimedia data compression & coding: NFW final report môn Đa phương tiện và các ứng dụng giải trí | Trường Đại học Bách Khoa Hà Nội