Đa phương ện
Phần 1. Lý thuyết cơ sở nénnh
I.1 Sự cảm thụ màu sắc của người:
3 yếu tố cơ bản:
- Nguồn ánh sáng
+ là các ánh sáng mắt người cảm nhận được: bước sóng từ 380 đến 780nm
+ tự nhiên/nhân tạo
+ Chùm hạt photon. Có nh chất vật lý giống nhau nhưng mang các năng lượng khác nhau (tần số
khác nhau), năng lượng càng lớn bước sóng càng nhỏ
ℎ𝑐
+ Năng lượng: 𝐸 =
𝜆
- Vt thđược quan sát
+ Ánh sáng từ nguồn sáng được chiếu tới vt thể quan sát được. Tuỳ theo nh chất của vật thể mà
vật thể có thể hấp thụ một số ớc sóng và phản xạ các bc sóng còn lại.
+ Ánh sáng phản xạ trên vật thể đi tới mắt chúng ta mà ta có thể cảm thụ về màu sắc và hình dạng
của vật thđược quan sát.
- Mắt người quan sát
I.2 Đặc trưng của màu sắc
- Màu sắc quang học
+ Màu sắc có 2 đặc trưng cơ bản: Sắc màu (Hue) và độ sáng (Brightness)
+ sắc màu phụ thuộc các bước sóng tri (dominant), là các bước sóng mang năng lượng vượt trội
hơn mức năng lượng trung bình
+ Độ sáng phụ thuộc giá trị năng lượng (càng lớn càng sáng)
+ Ví dụ về phổ quang trong tự nhiên:
+ Ví dụ về phổ quang học của 1 số nguồn sáng:
I.3 Đặc trưng mắt người
- Mắt người quan sát
+ Sở dĩ mắt người ta cảm nhận các hình ảnh, màu sắc quang học do trong mắt chúng ta có rất nhiều
tế bào nhạy (cảm thụ) ánh sáng.
+ 2 loại tế bào cảm thụ ánh sáng: tế bào hình que (red cell)
và tế bào hình nón (cone cell)
+ 15 triệu cell hình que (cảm nhận đsáng) 5 triệu cell
hình nón(cảm nhận màu sắc) trong mắt người + Mắt ng
thường nhiều cell hình nón thường cảm nhận màu sắc
tốt hơn
+ Cell hình nón có 3 loại: S(short ớc sóng ngắn vùng
phổ lam – Blue cone), M(medium – ớc sóng
trung bình với phổ lục – Green cone), L(Long – ớc sóng dài với phổ đỏ - Red cone) wavelength. Các
loại cell này nhạy cảm với các vùng phổ màu sắc khác nhau
+ Hình minh hoạ độ nhạy (tương đối) của các cell hình nón. Mắt ng khả năng cảm nhận tất cả các
ớc sóng trong vùng ánh sáng nhìn thy và đặc biệt nhạy cảm với các phổ màu lam, lục, đỏ (B G R).
I.4 Lý thuyết ba màu
-
NTSC video
PAL (SECAM) Video
525 scan lines per frame, 30fps
(33.37msec/frame)
Đan nhau, mỗi frame đc chia làm 2 trường, mỗi trường
262,5 line
20 line được bỏ trống để điều khiển n hiệu thời điểm
bắt đầu của mỗi eld
Như vy có tối đa 485 lines của data có thể thy:
+ Laserdisc and S-VHS có resoluon thực tế
~420 lines
+ TV: ~320 lines
+ Mỗi line cần 64.5 us để scan
Sử dụng hệ màu YIQ
625 scan lines mỗi fram, 25 fram mỗi s (40ms/frame)
Đan xen, mỗi fram chia là 2 trường, mỗi trường gm
312.5 lines
Sử dụng hệ màu YUV
Nguyên lí quét hình:
- Zigzag - Đường ngang
Bài tập ví dụ:
t ảnh chói Y: truyền chuẩn NTSC
𝑝𝑖𝑥𝑒𝑙/𝑠 30.525.525. 4/3
30fps, 525 dòng/hình, tỉ lệ 4:3 𝑓
𝑚𝑎𝑥
=
2
=
2
=5,5MHz
NÉN ẢNH
Khái niệm nén:
Khái niệm nén được đề cập là phương pháp mã hoá nguồn. Mục đích chủ yếu của nó là giảm kích
thước dữ liu
Original Image Decoded Image
Bitstream
Nguyễn tắc chính của các kỹ thuânt nén là giảm thông n dư thừa, và không cần thiết trong các n
hiệu nhưng vẫn đảm bảo được chất lượng của n hiệu
Tỷ số nén: được xác định bằng tỷ số kích thước của dữ liệu trước nén và sau nén
Tỷ số nén càng cao thì kích thước sau nén càng nhỏ nhưng đồng thời chất lượng n hiệu cũng gim
đi Một số chuẩn nén ảnh nh
- JPG: Joint Photographic Expert Group
- GIF: Graphics Interchange Format - PNG:
Portable Network Graphics
Đây là ba loại định dạng ảnh số phbiến nhất
Chuẩn lấy mẫu 4:4:4, 4:2:2, 4:2:0
Ví dụ: Cho một ảnh màu kích thước 288x352 pixel, lấy mẫu 4:2:2, giá
trị mỗi điểm ảnh cần 8bit biểu diễn.
Mã hóa JPEG cho ảnh trên, biết tỷ số nén cho ảnh chói Y là 10 lần, tỷ
số nén cho các n hiệu hiệu màu Cb,Cr là 20 lần.
Tính tỷ số nén của ảnh?
Kích thước ảnh chưa mã hóa: 288 x 352 x 8bit x(1+0,5+0,5)
Kích thước ảnh sau mã hóa:
288 x 352 x 8bit x(1/10+0,5/20+0,5/20)
T số nén: 40/3 (lần)
Nén ảnh JPEG: nén tổn háo (lossless) và không tổn hao (lossy)
Nén RLC: aaaaaaabbbbccccddef 7a4b4c2d1e1f
Nén VLC: tuỳ theo số lần xuất hiện trong chuỗi bit, mã hoá với chiều dài bản mã cố định Với chiều dài
k cố định, sử dụng cây nhị phân humanm.
DPCM:
DCT: biến đổi miền thời gianmiền tần số DCT 1 chiều: 𝑁 – số mẫu của n hiệu
𝑁
𝐹 ], 𝑎
𝑥
Encoder
Decoder
0101100111...
(
𝑢
=
1
𝑁
,
𝑢
=
0
2
,
𝑢
0
𝑁
DCT 2 chiều:
𝑁
𝐹
] , 𝑎
𝑥
Các bước mã hoá JPEG:
Quát zigzag
Mã hoá MPEG: Moving picture Experts Group, 1988. Chuẩn nén video Mpeg-1, -2, -4 Moving JPEG
(M-JPEG): chuẩn JPEG động:
- Cht lượng tốt nhưng đòi hỏi tc độ cao (~50Mbps), không thích hợp truyền dẫn - Lưu
trữ, studio
(
𝑢
=
1
𝑁
,
𝑢
=
0
2
𝑁
,
𝑢
0
Chuẩn MPEG ra đồi, dùng cho truyền dẫn. Loại bỏ các thông n dư thừa: dư thừa không gina, dư
thừa thời gian
Mã hoá MPEG – dùng 4:2:0
Thuật toán m Moon Vector
- Sequenal search
- 2D Logarthmic search
- Hierarchical search
- Mean Absoblute Dierence
Mã hoá MPEG
Group of Pictures (GoP):
- I-frames: (Intra) Ảnh I - ảnh mã hoá nguyên
- P-frames: (Predicted) Ảnh P-ảnh dự đoán, ảnh được mã hoá dựa vào thông n của ảnh trước
đó.
- B-frames: (Bidireconal Predicted) Ảnh B-ảnh dự đoán 2 chiều, ảnh được mã hoá dựa vào
thông n của ảnh trước và sau nó
Bài tập:Đoạn video độ dài 60 phút được mã hóa theo chuẩn MPEG-2, với các tham số: cấu trúc truyền IBBPBBPBBP, kích thước ảnh CIF
(352x288 pixel, 4:2:0, 8 bit/mẫu), tốc độ 25 hình/s. Biết các tham số nén sau đây:
Tỷ lệ nén trung bình của ảnh I,P và B lần lượt là 8, 16 và 32 lần.(Giả thiết tham số nén đã bao gồm các header cần thiết)
Tính kích thước (dung lượng) đoạn dữ liệu video sau khi mã hóa.
Gợi ý:
Kích thước ảnh chưa nén: 352 x 288 x 8bit x (1+0,25+0,25)=X Trung bình 1s có: 2,5 ảnh I ;7,5 ảnh P và 15 ảnh B.
Tốc độ Video sau mã hóa: 2,5 x X/8 + 7,5 x X/16 + 15 x X/32
Dung lượng đoạn Video là: 652MB
Audio
Dao động cơ học f = 20 – 20kHz lan truyền trong môi trường đàn hồi (không khí)
- Tiếng nói: 300Hz – 4kHz
- Amm thanh (Audio, Music): 20-20kHz
Micro: Điện động (dynamic) và điện dung (tụ điện, condenser)
Dynamic có độ nhy thấp, dải tần có hạn (từ 50Hz đến 16kHz). Microphone dynamic thường dùng cho
ca hát, sân khấu, karaoke, hát solo, thuyết giảng, hội họp,…
Condenser có độ nhy rất cao, bắt âm chính xác, nên thường phục vụ cho các lĩnh vực như thu âm phòng
thu, thu âm nhạc cụ, phỏng vấn truyền hình, làm phim, hát hợp xướng, hát opera,… các lĩnh vực cần thu
âm ở khoảng cách xa người nói
Điện động: nam châm
Từ cảm B, chiều dàiy l
𝐹 𝐸
𝐹 = 𝐵. 𝑙. 𝑖 = 𝐵. 𝑙 = 𝑐𝑜𝑛𝑠𝑡 (tạo loa) 𝐸 = 𝐵. 𝑙. 𝑣 = 𝐵. 𝑙 (toạ micro)
𝑖 𝑣
Số hoá Audio
Nyquist: 𝑓
𝐿𝑀
≥ 2𝑓
𝑀
- Tiếng nói phổ 300Hz – 4KHz (𝑓
𝐿𝑀
= 8𝐾𝐻𝑧)
- Âm thanh phổ 20-20KHz (𝑓
𝐿𝑀
= 32; 44,1; 48𝐾𝐻𝑧)
Tiếng nói: PCM, mono, 𝑓
𝐿𝑀
= 8𝐾𝐻𝑧, 8𝑏𝑖𝑡/mẫu, 𝑅 = 64𝑘𝑏𝑝𝑠
Âm thanh: 𝑓
𝐿𝑀
= 44,1𝐾𝐻𝑧, 16𝑏𝑖𝑡/mẫu, 𝑅 = 2x44100 mẫu/s x 16bit/mẫu=1,41Mbit/s
Số hoá ếng nói:
PCM, mono, 𝑓
𝐿𝑀
= 8𝐾𝐻𝑧, 8𝑏𝑖𝑡/mẫu, 𝑅 = 64𝑘𝑏𝑝𝑠
DPCM: Diferenal PCM, mã hoá vi sai. R=48kbps
ADPCM: Adapve DPCM, mã hoá vi sai thích nghi, R=16-32kbps
Câu 1:
a. I-frame (Intra): ảnh mã hoá nguyên
P-frame (Predicted): ảnh dự đoán, đc mã hoá dựa theo ảnh trước đó
B-frame (Bidireconal Predicted): ảnh dự đoán 2 chiều, ảnh đc mã hoá dựa vào thông n ảnh trước và
sau nó.
Múc đích sử dụng ảnh B:
- Sử dụng cả ảnh trước và sau để dự đoán nội dung ảnh B giúp nén dữ liu
- Giúp MPEG-2 giảm dung lượng dữ liệu cần lưu trữ
- Giảm số ợng bit cần thiết để mã hoá khung hình
- Giảm thiểu lỗi dự đoán và cải thiện chất lượng hình ảnh
b. Cấu trúc truyền ảnh:
Frame 1
Frame 2
(1)
(2)
(3)
(4)
(5)
(6)
(7)
(8)
(9)
(10)
I
B
B
P
B
B
I
B
B
P
Thứ tự truyền bên phát: 1 → 4 → 2 → 3 → 7 → 5 → 6 → 10 → 8 → 9 → ⋯
Bên thu sau khi nhận được sẽ sắp xếp lại theo đúng thứ tự c.
Kích thước ảnh chưa nén là: 352 . 288 .8 . (1 + 0,5) = 1216512 𝑏𝑖𝑡
Trung bình 1s có: 30/6=5 khung 5 ảnh I, 5 ảnh P và 20 ảnh B
Tốc độ video sau mã hoá: 5 . + 5 . + 20 . = 1900,8𝐾𝑏𝑝𝑠
Tốc độ video (bao gồm cphần âm thanh): 1900,8 + 100 = 200,8𝐾𝑏𝑝𝑠 Câu 2:
Áp dụng DCT-1D cho từng hàng:
7
1 (2𝑖 + 1). 𝑣𝜋 1
𝐹 ) → 𝐹 , 𝐹(𝑢) = 0, ∀𝑢
≠ 0
𝑖=0
(
𝑢
)
=
2
.
𝐶
𝑢
)
.
𝑓
𝑖
.
cos
(
16
(
0
)
=
2
2
.
20
.
8
=
40
2
Câu 3: Đặc điểm và ứng dụng của các chuẩn nén video
MPEG-2 (Moving Picture Experts Group - 2):
Đặc điểm: MPEG-2 là chuẩn nén video được phát triển ban đầu cho việc lưu trữ và truyền phát video
chất lượng cao. Nó hỗ tr nhiều tỷ lệ bit khác nhau có khả năng xử lý video với độ phân giải khác
nhau.
ng dụng: Được sử dụng rộng rãi trong các định dạng video như DVD, video truyền hình số (DVB), và
video trực tuyến.
MPEG-4:
Đặc điểm: MPEG-4 được thiết kế để hỗ trợ nén video, âm thanh và dữ liệu với nhiều mức độ phân gii
khác nhau. Nó cũng htrợ nh năng tương tác và nâng cao cho video.
ng dụng: Được sử dụng trong nhiều ứng dụng như video kỹ thuật s, phim hoạt hình, video di động và
hội nghị truyền hình.
H.264/AVC (Advanced Video Coding):
Đặc điểm: H.264 là chuẩn nén video hiệu suất cao, cung cấp chất lượng hình ảnh tt với kích thước le
nhỏ hơn so với các chuẩn trước đó. Nó hỗ trnhiều cấp độ nén và các nh năng như ết kiệm băng
thông và chất lượng video cao.
ng dụng: Phổ biến trong phim Blu-ray, video trực tuyến, video di động và các ứng dụng gọi hình.
H.265/HEVC (High Eciency Video Coding):
Đặc điểm: H.265 là chuẩn nén video ếp theo sau H.264, cải ến đáng khiệu suất nén so với H.264. Nó
cho phép giảm đáng kể kích thước le video với cùng mức chất lượng hình ảnh.
ng dụng: Được sử dụng trong các ứng dụng yêu cầu băng thông cao như video 4K và 8K, video phát
trực ếp và truyền hình siêu cao cấp.
Câu 4: Loại thông n dư thừa trong mã hóa video
Trong mã hóa video, có 4 loại thông n dư thừa chính:
Thông n không cần thiết (Redundant informaon): Là các phần của dữ liệu video có thể đưc loại bỏ
mà không làm mất đi chất lượng hình ảnh, chẳng hạn như các bit dự báo, bit trung gian.
Thông n không thực sự quan trọng (Non-crical informaon): Là các phần của dliệu video mà có thể
được lược bỏ mà không làm ảnh hưởng nghiêm trọng đến chất lượng hình ảnh, ví dụ như một số bit bù
trùng hoặc bit đánh dấu.
Thông n đơn giản (Simple informaon): Là các đặc điểm của dữ liệu video có thđược mô tả bằng các
mô hình đơn giản hơn mà không cần tới chi ết phức tạp.
Thông n dư (Extraneous informaon): Là các phần của dữ liệu video không liên quan đến nội dung
chính, như dữ liệu phụ, phần êu đề, hoặc thông n quản lý dữ liệu.
Câu 5: Phương pháp m kiếm vector chuyển động và ưu nhược điểm
Phương pháp m kiếm vector chuyển động (Moon Vector Search) là kỹ thuật quan trọng trong mã hóa
video để m ra vector chuyn động cho các khối ảnh. Phương pháp này thường được áp dụng trong các
chuẩn nén video như MPEG và H.264/HEVC.
Phương pháp: Thực hiện so khớp các khối ảnh trong khung hiện tại với khung tham chiếu trước đó để
xác định vector chuyển động có thể giảm thiểu sai lệch.
Ưu điểm:
Hiệu quả về mặt nh toán.
Giúp giảm lượng dữ liệu cần truyền đi bằng cách chỉ truyền vector chuyển động và các sai lệch.
Nhược điểm:
Có thể dẫn đến sai lệch nếu sự chuyển động quá lớn so với khoảng cách m kiếm.
Yêu cầu tài nguyên nh toán khá cao, đặc biệt là khi áp dụng cho video có độ phân giải cao và tốc độ
khung hình nhanh.
Lý thuyết tổng hợp
Đặc điểm
MPEG-1
MPEG-2
MPEG-4
Ra đời
1993
1995
Cuối những năm 1990
Phương pháp nén
Nén với tổn thất dựa
trên DCT, mã hóa
khối 8x8
Nén với tổn thất dựa
trên DCT, cải tiến
hóa khối 8x8
DCT, biến đổi sóng con, mã hóa
dự đoán chuyển động
Cấu trúc GOP
I-frame, P-frame
I-frame, P-frame,
Bframe
I-frame, P-frame, B-frame, dự
đoán giữa đối tượng khung
hình
Độ phân giải
Tối đa 352x240
(NTSC), 352x288
(PAL)
Tối đa 720x480
(NTSC), 720x576
(PAL), hỗ trợ HD
Linh hoạt từ thấp đến 4K
Bitrate
Thường khoảng 1.5
Mbps
2-10 Mbps, tối đa 40
Mbps
Vài kbps đến hàng chục Mbps
Chất lượng
Trung bình, phù hợp
cho VCD
Cao, phù hợp cho DVD
và truyền hình số
Rất cao, phù hợp cho nhiều ứng
dụng hiện đại
Tính năng
Nén video âm thanh
cho VCD, âm thanh
stereo MPEG-1 Layer
II
Nén đa luồng video
âm thanh, truyền hình
số, DVD
Tích hợp đa phương tiện, SVC,
AVC/H.264, truyền tải trực
tuyến, lưu trữ video, phát sóng
truyền hình
Ưu điểm
Tương thích rộng i,
dễ mã hóa/giải mã
Chất lượng cao hơn
MPEG-1, ứng dụng
rộng rãi
Tỷ lệ nén cao, hỗ trợ đa phương
tiện, độ phân giải linh hoạt
Nhược điểm
Chất lượng tỷ lệ nén
hạn chế
Tỷ lệ nén không cao
như MPEG-4, yêu cầu
phần cứng mạnh hơn
Phức tạp, yêu cầu phần cứng
phần mềm tiên tiến, chi phí giấy
phép
Sequential Search
Sequential Search là một phương pháp tìm kiếm motion vector đơn giản và dễ hiểu. Thuật toán
này kiểm tra từng vị trí trong phạm vi tìm kiếm theo một thứ tự tuần tự cho đến khi tìm thấy vị
trí có độ sai lệch (error) nhỏ nhất giữa khối hiện tại và khối tham chiếu.
- Phương pháp:
- Bắt đầu từ một điểm gốc trong khung hình tham chiếu.
- Di chuyển qua từng vị trí một cách tuần tự trong phạm vi tìm kiếm đã xác định.
- Tính toán lỗi (thường là sai số bình phương trung bình - Mean Squared Error hoặc tổng độ
chênh lệch tuyệt đối - Sum of Absolute Differences) cho từng vị trí.
- Chọn vị trí có lỗi nhỏ nhất làm motion vector.
- Ưu điểm:
- Dễ triển khai.
- Đảm bảo tìm được vị trí tối ưu (tuyệt đối) trong phạm vi tìm kiếm.
- Nhược điểm:
- Rất tốn thời gian và tài nguyên tính toán, đặc biệt với phạm vi tìm kiếm lớn.
- Không hiệu quả cho các ứng dụng thời gian thực.
2D Logarithmic Search
2D Logarithmic Search là một phương pháp tìm kiếm motion vector hiệu quả hơn Sequential
Search, sử dụng kỹ thuật tìm kiếm theo hàm logarithmic để giảm số lượng phép tính toán cần
thiết.
- Phương pháp:
- Bắt đầu từ trung tâm của phạm vi tìm kiếm.
- Sử dụng một bước nhảy lớn để tìm kiếm các vị trí lân cận (theo hình chữ thập).
- Nếu không tìm thấy vị trí tối ưu, giảm kích thước bước nhảy (thường bằng cách chia đôi bước
nhảy) và tiếp tục tìm kiếm từ vị trí có lỗi nhỏ nhất trong các bước trước đó.
- Lặp lại quá trình cho đến khi kích thước bước nhảy nhỏ hơn một ngưỡng nhất định.
- Ưu điểm:
- Tốc độ tìm kiếm nhanh hơn nhiều so với Sequential Search.
- Tương đối dễ triển khai và hiệu quả với các phạm vi tìm kiếm lớn.
- Nhược điể:
- Có thể bỏ lỡ các vị trí tối ưu nếu bước nhảy ban đầu quá lớn hoặc nếu khối chuyển động quá
nhanh. - Không đảm bảo tìm kiếm được vị trí tối ưu tuyệt đối.
Hierarchical Search
Hierarchical Search (hay còn gọi là Multi-resolution Search) là một phương pháp tìm kiếm
motion vector bằng cách sử dụng các mức độ phân giải khác nhau của khung hình.
- Phương pháp:
- Khung hình được chia thành nhiều mức phân giải khác nhau (từ mức thấp đến mức cao).
- Bắt đầu tìm kiếm motion vector ở mức phân giải thấp nhất.
- Sử dụng kết quả tìm kiếm ở mức phân giải thấp để xác định phạm vi tìm kiếm cho mức phân
giải cao hơn.
- Lặp lại quá trình cho đến khi đạt mức phân giải cao nhất (phân giải gốc).
- Ưu điểm:
- Rất hiệu quả về mặt tính toán, vì tìm kiếm ở mức phân giải thấp cần ít phép tính hơn.
- Giảm thiểu khả năng bỏ sót vị trí tối ưu, vì phạm vi tìm kiếm được điều chỉnh dựa trên kết quả
tìm kiếm ở mức thấp.
- Nhược điểm:
- Có thể giảm độ chính xác nếu mức phân giải thấp không đủ để nắm bắt chuyển động chính
xác. - Phức tạp hơn trong triển khai so với các phương pháp tìm kiếm khác.
MPEG-2 (Moving Picture Experts Group - 2):
Năm ra đời: Được phát triển vào những năm 1990 và được công bố năm 1995.
Ứng dụng chính: Thường được sử dụng trong định dạng DVD, các dịch vụ truyền hình
số ban đầu.
Kĩ thuật: Sử dụng mã hóa dựa trên khung hình (frame-based encoding), sử dụng DCT
(Discrete Cosine Transform) và có thể hỗ trợ nhiều mức độ nén.
MPEG-4:
Năm ra đời: Ra đời sau MPEG-2, vào những năm 1998.
Ứng dụng chính: Được thiết kế để hỗ trợ nhiều nền tảng và ứng dụng đa phương tiện,
bao gồm Internet, hội nghị truyền hình và ứng dụng di động.
Kĩ thuật: Cải tiến so với MPEG-2, hỗ trợ mã hóa dựa trên đối tượng (object-based
encoding), có khả năng nén tốt hơn với chất lượng tương đương ở mức bit thấp hơn.
H.264/MPEG-4 AVC (Advanced Video Coding):
Năm ra đời: Công bố vào năm 2003.
Ứng dụng chính: Được sử dụng rộng rãi trong các dịch vụ truyền hình kỹ thuật số,
video trực tuyến, Blu-ray và các ứng dụng di động.
Kĩ thuật: Sử dụng các kỹ thuật như mã hóa dựa trên khung hình và mã hóa mạng dựa
trên dự đoán (network-based prediction), cải thiện đáng kể hiệu suất nén so với các tiêu
chuẩn trước đó.
H.265/HEVC (High Efficiency Video Coding):
Năm ra đời: Công bố vào năm 2013.
Ứng dụng chính: Được thiết kế để cải thiện hiệu quả nén hình ảnh so với H.264, phù
hợp cho các nền tảng có băng thông hẹp và đòi hỏi chất lượng cao.
Kĩ thuật: Sử dụng các kỹ thuật như mã hóa dựa trên cụm (block-based encoding) và cải
thiện khả năng nén hình ảnh so với H.264, giúp giảm đáng kể lượng dữ liệu cần thiết để
truyền tải video cùng chất lượng.
Đặc điểm
JPEG
GIF
PNG
Năm ra đời
1992
1987
1996
Màu sắc
Hỗ trợ màu 24-bit (16
triệu màu)
Hỗ trợ màu 8-bit (256
màu)
Hỗ trợ màu 24-bit (16
triệu màu)
Nén ảnh
Lossy compression
Lossless compression
Lossless compression
Chất lượng
Giảm chất lượng ảnh khi
nén
Giữ nguyên chất lượng
ảnh khi nén
Giữ nguyên chất lượng
ảnh khi nén
Độ phân giải
Phù hợp cho hình ảnh
thực tế, ảnh nghệ thuật
Phù hợp cho ảnh động,
biểu tượng
Phù hợp cho hình ảnh
thực tế, ảnh nghệ thuật
Dùng cho
Hình ảnh chụp, web, in ấn
Biểu tượng động, đồ họa
đơn giản
Hình ảnh chụp, lưu trữ
hình ảnh
Kích thước
Lớn hơn so với GIF và
PNG khi nén
Nhỏ hơn so với JPEG và
PNG khi nén
Thường lớn hơn GIF, nhỏ
hơn JPEG khi nén
Trong quá trình mã hóa video, các kỹ thuật nén (compression) thường được sử dụng để giảm
kích thước tệp video mà vẫn giữ được chất lượng hình ảnh chấp nhận được. Trong bối cảnh này,
"thông tin dư thừa" (redundant information) thường đề cập đến các phần của dữ liệu video có
thể bị loại bỏ hoặc nén mà không ảnh hưởng đáng kể đến chất lượng tổng thể của video. Dưới
đây là một số ví dụ về thông tin dư thừa trong video:
1. Redundancy in Spatial Domain (Không gian):
o Các pixel liền kề có giá trị tương tự: Trong một khung hình video, các pixel
gần nhau thường có giá trị màu tương tự. Các kỹ thuật nén như JPEG và các
chuẩn nén video như H.264 sử dụng biến đổi Cosine rời rạc (DCT) để loại bỏ sự
dư thừa này.
2. Redundancy in Temporal Domain (Thời gian):
o Các khung hình liên tiếp giống nhau: Trong nhiều video, có rất ít sự thay đổi
giữa các khung hình liên tiếp. Các thuật toán nén như H.264 sử dụng dự đoán
liên khung (inter-frame prediction) để mã hóa sự thay đổi giữa các khung hình
thay vì mã hóa từng khung hình riêng biệt.
3. Visual Redundancy (Thị giác):
o Các chi tiết khó nhận thấy: Mắt người không nhạy cảm với một số chi tiết nhỏ
hoặc sự thay đổi màu sắc. Các thuật toán nén thường loại bỏ hoặc giảm độ chính
xác của những chi tiết này mà không gây ảnh hưởng đáng kể đến trải nghiệm
xem của người dùng.
4. Perceptual Redundancy (Cảm nhận):
o Các tần số cao mà mắt người không phân biệt được: Một số tần số cao trong
hình ảnh không được mắt người nhận biết rõ ràng. Các kỹ thuật nén như biến đổi
Wavelet hoặc DCT sẽ giảm bớt hoặc loại bỏ các thành phần tần số cao này.
Nhờ loại bỏ hoặc giảm thiểu các dạng thông tin dư thừa này, các phương pháp nén video có thể
giảm kích thước tệp video mà vẫn duy trì chất lượng hình ảnh ở mức chấp nhận được.
Đặc điểm
PCM
DPCM
ADPCM
Nguyên lý
Mã hóa giá trị tuyệt đối
Mã hóa sự khác biệt
Mã hóa sự khác biệt và
điều chỉnh động
Ưu điểm
Đơn giản, độ trung thực
cao
Giảm băng thông
Hiệu quả nén tốt hơn
DPCM
Nhược điểm
Đòi hỏi băng thông cao
Độ trung thực thấp hơn
PCM
Phức tạp hơn trong thực
hiện
Ứng dụng
Điện thoại, CD audio
Nén âm thanh, video
Nén âm thanh, chuẩn
G.726ality.
Trong mã hóa video, dư thừa đề cập đến thông tin không cần thiết hoặc lặp lại làm tăng kích
thước tệp mà không cải thiện chất lượng. Dưới đây là bốn loại dư thừa thường thấy trong mã
hóa video:
1. Dư thừa không gian: Điều này xảy ra trong các khung hình riêng lẻ, nơi các điểm ảnh
liền kề thường có giá trị tương tự. Các kỹ thuật nén không gian (ví dụ, thông qua giảm
mẫu không gian hoặc lượng tử hóa) giảm thiểu dư thừa này bằng cách chỉ mã hóa các
chi tiết cần thiết.
2. Dư thừa thời gian: Dư thừa này tồn tại giữa các khung hình liên tiếp trong một chuỗi
video. Vì các khung hình liền kề thường chứa thông tin tương tự, các phương pháp nén
thời gian như ước lượng và bù trừ chuyển động giúp giảm dữ liệu dư thừa bằng cách chỉ
lưu trữ các thay đổi từ khung hình này sang khung hình khác.
3. Dư thừa tâm lý thị giác: Dư thừa này liên quan đến giới hạn của nhận thức con người.
Các codec video khai thác điều này bằng cách loại bỏ các chi tiết ít được chú ý hơn hoặc
giảm độ trung thực ở những khu vực mà người xem ít có khả năng nhận thấy thay đổi,
do đó tối ưu hóa tỷ lệ nén mà không làm giảm chất lượng có thể nhận biết.
4. Dư thừa mã hóa: Loại dư thừa này xảy ra do sự kém hiệu quả trong cách biểu diễn và
mã hóa dữ liệu. Các codec video hiện đại sử dụng các kỹ thuật mã hóa tiên tiến như mã
hóa entropy (như mã hóa Huffman hoặc mã hóa số học) để giảm thiểu thông tin dư thừa
này và đạt được hiệu quả nén cao hơn.
Giảm thiểu hiệu quả các dạng dư thừa này là rất quan trọng để tối ưu hóa hiệu quả mã hóa video,
dẫn đến kích thước tệp nhỏ hơn mà vẫn duy trì hoặc cải thiện chất lượng cảm nhận.
Mã hóa tham số (Parametric Encoding) và mã hóa dạng sóng (Waveform Encoding) là hai
phương pháp chính được sử dụng trong xử lý tín hiệu, đặc biệt là trong lĩnh vực truyền thông và
mã hóa âm thanh. Dưới đây là sự phân biệt chi tiết giữa hai phương pháp này:
1. Mã hóa tham số (Parametric Encoding)
- Nguyên lý hoạt động: Phương pháp này phân tích tín hiệu đầu vào và trích xuất các tham số
đặc trưng của nó. Sau đó, chỉ các tham số này được mã hóa và truyền đi.
- Ví dụ: Một ví dụ phổ biến là mã hóa giọng nói sử dụng các tham số như tần số cơ bản, biên độ
và các hệ số LPC (Linear Predictive Coding).
- Ưu điểm:
- Hiệu quả băng thông: Giảm thiểu lượng
dữ liệu cần truyền tải, vì chỉ các tham
số quan trọng được gửi đi. - Hiệu quả
nén: Đạt được mức độ nén cao, làm
giảm dung lượng lưu trữ và băng thông
truyền tải.
- Nhược điểm:
- Chất lượng tái tạo: Chất lượng tín hiệu
tái tạo có thể thấp hơn do việc chỉ dựa
vào các tham số đã trích xuất. - Phức
tạp: Quá trình phân tích và mã hóa
tham số có thể phức tạp và đòi hỏi
nhiều tính toán.
2. Mã hóa dạng sóng (Waveform Encoding)
- Nguyên lý hoạt động: Phương pháp này mã hóa trực tiếp dạng sóng của tín hiệu đầu vào. Các
mẫu của dạng sóng được lấy mẫu, lượng tử hóa và mã hóa để truyền tải.
- Ví dụ: PCM (Pulse Code Modulation) là một ví dụ điển hình, trong đó tín hiệu âm thanh được
lấy mẫu và mỗi mẫu được biểu diễn dưới dạng số.
- Ưu điểm:
- Chất lượng tái tạo: Tín hiệu tái tạo thường có chất lượng cao hơn vì nó duy trì gần như toàn bộ
thông tin của tín hiệu gốc.
- Đơn giản: Quá trình mã hóa và giải mã đơn giản hơn so với mã hóa tham số.
- Nhược điểm:
- Hiệu quả băng thông: Yêu cầu băng thông lớn hơn, vì toàn bộ dạng sóng được truyền đi.
- Hiệu quả nén: Không đạt được mức độ nén cao như mã hóa tham số.
Tóm lại:
- Mã hóa tham số: Trích xuất và mã hóa các tham số đặc trưng của tín hiệu. Hiệu quả trong việc
giảm dung lượng dữ liệu nhưng có thể giảm chất lượng tái tạo.
- Mã hóa dạng sóng: Mã hóa trực tiếp các mẫu dạng sóng của tín hiệu. Đảm bảo chất lượng tái
tạo tốt nhưng yêu cầu băng thông lớn hơn.
Việc lựa chọn phương pháp mã hóa phù hợp tùy thuộc vào yêu cầu cụ thể của ứng dụng về chất
lượng, băng thông và hiệu quả nén.
Các thuật toán LPC (Linear Predictive Coding), PCM (Pulse Code Modulation), DPCM
(Differential Pulse Code Modulation), và ADPCM (Adaptive Differential Pulse Code
Modulation) đều là các phương pháp mã hóa tín hiệu âm thanh và tín hiệu nói. Chúng có các đặc
điểm kĩ thuật và cách hoạt động khác nhau như sau: 1. Linear Predictive Coding (LPC) Đặc
điểm kỹ thuật:
- LPC là một phương pháp nén âm thanh sử dụng mô hình dự đoán tuyến tính.
- LPC thường được sử dụng trong việc xử lý tín hiệu nói, đặc biệt trong các ứng dụng như mã
hóa giọng nói, tổng hợp giọng nói và nhận dạng giọng nói.
- LPC có thể đạt được tỷ lệ nén rất cao.
Cách hoạt động:
- LPC dự đoán giá trị của mẫu tiếp theo dựa trên một số mẫu trước đó bằng cách sử dụng một
mô hình tuyến tính.
- Các hệ số của mô hình tuyến tính này (gọi là các hệ số LPC) được tính toán sao cho sai số giữa
giá trị dự đoán và giá trị thực tế là nhỏ nhất.
- Sai số dự đoán (residual) cùng với các hệ số LPC được mã hóa và truyền đi. 2. Pulse Code
Modulation (PCM) Đặc điểm kỹ thuật:
- PCM là phương pháp mã hóa tín hiệu số cơ bản và đơn giản nhất.
- PCM thường được sử dụng trong các hệ thống truyền thông số và lưu trữ âm thanh, như CD,
điện thoại và VoIP.
- PCM không thực hiện bất kỳ nén nào, do đó, tín hiệu PCM yêu cầu băng thông cao và dung
lượng lưu trữ lớn.
Cách hoạt động:
- Tín hiệu liên tục (analog) được lấy mẫu tại các thời điểm rời rạc với tần số lấy mẫu đủ cao
(theo định lý Nyquist).
- Mỗi mẫu được lượng tử hóa (quantized) thành một trong một số mức giá trị rời rạc và được
biểu diễn bằng mã nhị phân.
- Kết quả là một chuỗi các mã nhị phân đại diện cho các mức lượng tử hóa của các mẫu tín hiệu.
3. Differential Pulse Code Modulation (DPCM) Đặc điểm kỹ thuật:
- DPCM là một biến thể của PCM, sử dụng sự khác biệt giữa các mẫu liên tiếp để mã hóa thay
vì mã hóa trực tiếp các giá trị mẫu.
- DPCM có thể giảm thiểu dung lượng cần thiết cho lưu trữ hoặc truyền tải bằng cách giảm mức
độ của dữ liệu lượng tử hóa.
Cách hoạt động:
- Thay vì mã hóa trực tiếp giá trị của mỗi mẫu, DPCM mã hóa sự khác biệt giữa giá trị của mẫu
hiện tại và mẫu trước đó.
- Sai số giữa giá trị dự đoán và giá trị thực tế được lượng tử hóa và truyền đi.
- Bộ giải mã sẽ tái tạo lại tín hiệu bằng cách cộng dồn các giá trị khác biệt vào giá trị của mẫu
trước đó. 4. Adaptive Differential Pulse Code Modulation (ADPCM) Đặc điểm kỹ thuật:
- ADPCM là một biến thể của DPCM, trong đó quá trình lượng tử hóa sự khác biệt giữa các
mẫu được điều chỉnh tự động (adaptive) dựa trên đặc điểm của tín hiệu.
- ADPCM thường được sử dụng trong các ứng dụng nén âm thanh và giọng nói như điện thoại
di động, VoIP, và các thiết bị ghi âm kỹ thuật số.
Cách hoạt động:
- Giống như DPCM, ADPCM mã hóa sự khác biệt giữa các mẫu liên tiếp, nhưng sử dụng một
kỹ thuật lượng tử hóa thay đổi theo thời gian.
- Bộ mã hóa ADPCM điều chỉnh kích thước lượng tử hóa dựa trên đặc tính của tín hiệu để cải
thiện chất lượng mã hóa và giảm thiểu sai số.
- Bộ giải mã sử dụng cùng một kỹ thuật điều chỉnh để tái tạo lại tín hiệu gốc.
Các phương pháp này đều có ưu và nhược điểm riêng, và lựa chọn phương pháp phù hợp phụ
thuộc vào yêu cầu cụ thể của ứng dụng như chất lượng âm thanh, băng thông, và tài nguyên tính
toán.
Mã hóa âm thanh trong miền thời gian là một phương pháp xử lý và nén âm thanh mà ở đó, dữ
liệu âm thanh được xử lý và mã hóa trực tiếp trên tín hiệu thời gian không gian (time
waveform). Phương pháp này không chuyển đổi tín hiệu sang bất kỳ dạng biểu diễn tần số nào
như Fourier hoặc Cosine trước khi nén. Mục tiêu của mã hóa thời gian là giảm lượng dữ liệu cần
thiết để lưu trữ hoặc truyền tải tín hiệu mà vẫn giữ được chất lượng âm thanh mong muốn.
Cách Thức Hoạt Động
Thu Thập Mẫu Âm Thanh: Tín hiệu âm thanh được lấy mẫu ở một tốc độ nhất định để chuyển
đổi từ tín hiệu analog sang dạng số. Mỗi mẫu biểu diễn một giá trị cường độ âm thanh tại một
thời điểm cụ thể.
Lượng Tử Hóa: Các mẫu được lượng tử hóa, tức là chúng được làm tròn thành các giá trị gần
nhất trong một tập hợp các giá trị cho trước. Quá trình này giảm số lượng bit cần thiết để biểu
diễn mỗi mẫu. Mã Hóa Entropy: Sau khi lượng tử hóa, các mẫu được mã hóa bằng các kỹ thuật
mã hóa entropy như Huffman coding hoặc arithmetic coding để giảm thêm lượng dữ liệu.
Bù Sai Số: Các kỹ thuật như DPCM (Differential Pulse Code Modulation) hoặc ADPCM
(Adaptive
Differential Pulse Code Modulation) có thể được sử dụng để chỉ mã hóa sự khác biệt giữa các
mẫu liên tiếp, giúp giảm lượng dữ liệu cần thiết hơn nữa.
Ưu Điểm
Độ Trễ Thấp: Không cần biến đổi phức tạp lên tín hiệu, do đó mã hóa âm thanh trong miền thời
gian thường có độ trễ thấp hơn so với mã hóa trong miền tần số.
Đơn Giản và Hiệu Quả: Với các tín hiệu có băng thông hẹp hoặc yêu cầu thời gian thực, mã hóa
thời gian có thể hiệu quả hơn về mặt tính toán.
Nhược Điểm
Kém Hiệu Quả Hơn trong Nén: So với mã hóa trong miền tần số, mã hóa trong miền thời gian
thường không hiệu quả bằng trong việc nén dữ liệu, đặc biệt với các tín hiệu phức tạp có nhiều
thành phần tần số. Phụ Thuộc vào Tín Hiệu: Hiệu suất của mã hóa thời gian có thể phụ thuộc
nhiều vào đặc tính của tín hiệu đầu vào. Ví dụ, nó có thể không làm việc tốt với âm thanh có
nhiều tần số cao.
Mã hóa âm thanh trong miền thời gian vẫn là một lựa chọn quan trọng trong nhiều ứng dụng như
truyền thanh thoại, vì sự đơn giản và khả năng phản hồi nhanh của nó. Tuy nhiên, đối với các
ứng dụng đòi hỏi tỷ lệ nén cao và chất lượng cao, mã hóa âm thanh trong miền tần số thường
được ưa chuộng hơn.
Câu 1: Mã hoá tiếng nói: Trình bày về phương pháp mã hoá tham số LPC. Sự khác biệt
giữa hai phương pháp mã hoá tham số và mã hoá dạng song.
Linear Predictive Coding (LPC) là phương pháp mã hóa tiếng nói dựa trên dự đoán giá
trị hiện tại của tín hiệu từ các giá trị trước đó. LPC sử dụng một mô hình tuyến tính để biểu diễn
tín hiệu tiếng nói, giúp giảm băng thông cần thiết cho việc truyền tải mà vẫn duy trì chất lượng
âm thanh chấp nhận được.
Hoạt động dựa trên nguyên lý dự đoán tuyến tính, trong đó một mẫu tín hiệu tiếng nói
x(n) được dự đoán từ các mẫu trước đó x(n−1),x(n−2),...,x(n−p) với sai số dự đoán nhỏ nhất.
Công thức dự đoán tuyến tính có dạng:
Các bước thực hiện mã hóa LPC
1. Phân tích khung: Tín hiệu tiếng nói được chia thành các khung nhỏ (20-30 ms) để xử lý.
2. Ước lượng hệ số LPC: Ước lượng các hệ số dự đoán aka_kak .
3. Tính toán sai số dự đoán: Tính toán và mã hóa sai số giữa tín hiệu gốc và tín hiệu dự
đoán.
4. Mã hóa tín hiệu sai số: Lượng tử hóa và mã hóa tín hiệu sai số và các hệ số dự đoán.
Ứng dụng của LPC
Nén tiếng nói: Giảm băng thông cần thiết cho truyền tải tiếng nói.
Tổng hợp tiếng nói: Tạo ra tiếng nói nhân tạo.
Nhận dạng tiếng nói: Trích xuất đặc trưng của tiếng nói để nhận dạng và phân loại.
Sự khác biệt
Mã hóa tham số
Mã hóa dạng sóng
Cơ chế
hình hóa và mã hóa các
tham số của tín hiệu tiếng
nói.
hóa trực tiếp tín hiệu
tiếng nói dưới dạng sóng.
Ưu điểm
Hiệu quả nén cao, giảm
băng thông đáng kể
Chất lượng âm thanh cao,
giữ nguyên đặc trưng của
tín hiệu gốc.
Nhược điểm
Chất lượng n hiệu thể
giảm trong môi trường
nhiễu. Không phù hợp cho
tín hiệu phi tiếng nói (như
nhạc).
Yêu cầu băng thông lớn
hơn so với mã hóa tham số.
Câu 2: Trình bày sự khác biệt cơ bản giữa chuẩn mã hoá video MPEG-2 và MPEG-4
Sự khác biệt
MPEG-2
MPEG-4
Hiệu suất mã hoá và
chất lượng video
Được phát triển ban đầu cho
việc mã hoá video chất lượng
cao, thường được sử dụng trong
các định dạng video như DVD,
các đài truyền hình số, và các
ứng dụng khác. MPEG-2
thường tốn nhiều băng thông
hơn so với MPEG-4 để đạt được
cùng một chất lượng hình ảnh.
Được thiết kế để cải thiện hiệu
suất mã hoá so với MPEG-2.
Nó cho phép mức độ nén cao
hơn mà vẫn duy trì chất lượng
hình ảnh tương đương hoặc tốt
hơn. Điều này làm cho MPEG-4
thích hợp hơn cho các ứng dụng
yêu cầu băng thông thấp hơn
hoặc yêu cầu chia sẻ video qua
internet.
Công nghệ mã hoá
Sử dụng phương pháp mã hoá
DCT (Discrete Cosine
Transform) kết hợp với phương
pháp mã hoá chuyển đổi vùng.
Bao gồm nhiều cải tiến, bao
gồm việc sử dụng các công
nghệ như Mã hoá Video tiên
tiến (AVC) và Mã hoá Video
Hiệu suất Cao (HEVC), cho
phép nén video hiệu quả hơn
với cùng một lượng dữ liệu.
Hỗ trợ tính năng
Chủ yếu tập trung vào việc phát
triển chuẩn dành cho phương
tiện truyền thông truyền thống
như DVD, TV số.
Ngoài việc cải thiện hiệu suất
mã hoá, MPEG-4 còn hỗ trợ
nhiều tính năng mở rộng như
mã hóa đa kênh, hỗ trợ âm
thanh nâng cao (bao gồm cả âm
thanh đa kênh), mã hóa dữ liệu
đa phương tiện, và khả năng
tích hợp các đối tượng 3D và đồ
họa chuyển động.
Ứng dụng và sử dụng
Vẫn được sử dụng rộng rãi trong
các ứng dụng phát sóng và
truyền hình, đặc biệt là trong
các thiết bị như DVD player, TV
số, v.v.
Thường được sử dụng cho các
ứng dụng có yêu cầu cao hơn về
hiệu suất mã hoá và sự linh hoạt
trong việc truyền tải video qua
internet, streaming video, các
ứng dụng di động, video hội
nghị trực tuyến, v.v.
Câu 3: Trình bày và nêu sự khác biệt giữa hai phương pháp tìm kiếm vector chuyển động
(trong mã hoá video MPEG-2). Sequential và 2D logarithmic search.
Tiêu chí
Tìm kiếm tuần tự
Tìm kiếm logarit 2D
Khái niệm
Phương pháp tìm kiếm đơn giản,
duyệt qua từng phần tử trong dãy dữ
liệu theo thứ tự từ đầu đến cuối để
tìm phần tử cần tìm. Độ phức tạp
tính toán của nó là O(n), tuyến tính
với kích thước của dãy dữ liệu.
Phương pháp tìm kiếm hiệu quả, dựa trên
cây nhị phân để chia dãy dữ liệu thành các
nhánh nhỏ hơn và lặp đi lặp lại quá trình
này cho đến khi tìm thấy phần tử cần tìm.
Độ phức tạp tính toán của nó là O(log n),
logarit với kích thước của dãy dữ liệu.
Độ phức tạp tính
toán
O(n)
O(log n)
Hiệu quả mã hóa
Thấp hơn
Cao hơn
Khả năng thực tiễn
thời gian thực
Thấp hơn
Cao hơn

Preview text:

Đa phương tiện
Phần 1. Lý thuyết cơ sở nén ảnh
I.1 Sự cảm thụ màu sắc của người: 3 yếu tố cơ bản: - Nguồn ánh sáng
+ là các ánh sáng mắt người cảm nhận được: bước sóng từ 380 đến 780nm + tự nhiên/nhân tạo
+ Chùm hạt photon. Có tính chất vật lý giống nhau nhưng mang các năng lượng khác nhau (tần số
khác nhau), năng lượng càng lớn bước sóng càng nhỏ ℎ𝑐 + Năng lượng: 𝐸 = 𝜆
- Vật thể được quan sát
+ Ánh sáng từ nguồn sáng được chiếu tới vật thể quan sát được. Tuỳ theo tính chất của vật thể mà
vật thể có thể hấp thụ một số bước sóng và phản xạ các bc sóng còn lại.
+ Ánh sáng phản xạ trên vật thể đi tới mắt chúng ta mà ta có thể cảm thụ về màu sắc và hình dạng
của vật thể được quan sát. - Mắt người quan sát
I.2 Đặc trưng của màu sắc - Màu sắc quang học
+ Màu sắc có 2 đặc trưng cơ bản: Sắc màu (Hue) và độ sáng (Brightness)
+ sắc màu phụ thuộc các bước sóng trội (dominant), là các bước sóng mang năng lượng vượt trội
hơn mức năng lượng trung bình
+ Độ sáng phụ thuộc giá trị năng lượng (càng lớn càng sáng)
+ Ví dụ về phổ quang trong tự nhiên:
+ Ví dụ về phổ quang học của 1 số nguồn sáng:
I.3 Đặc trưng mắt người - Mắt người quan sát
+ Sở dĩ mắt người ta cảm nhận các hình ảnh, màu sắc quang học do trong mắt chúng ta có rất nhiều
tế bào nhạy (cảm thụ) ánh sáng.
+ 2 loại tế bào cảm thụ ánh sáng: tế bào hình que (red cell)
và tế bào hình nón (cone cell)
+ 15 triệu cell hình que (cảm nhận độ sáng) và 5 triệu cell
hình nón(cảm nhận màu sắc) trong mắt người + Mắt ng
thường có nhiều cell hình nón và thường cảm nhận màu sắc tốt hơn
+ Cell hình nón có 3 loại: S(short – bước sóng ngắn vùng
phổ lam – Blue cone), M(medium – bước sóng
trung bình với phổ lục – Green cone), L(Long – bước sóng dài với phổ đỏ - Red cone) wavelength. Các
loại cell này nhạy cảm với các vùng phổ màu sắc khác nhau
+ Hình minh hoạ độ nhạy (tương đối) của các cell hình nón. Mắt ng có khả năng cảm nhận tất cả các
bước sóng trong vùng ánh sáng nhìn thấy và đặc biệt nhạy cảm với các phổ màu lam, lục, đỏ (B – G – R). I.4 Lý thuyết ba màu - NTSC video PAL (SECAM) Video 525 scan lines per frame,
30fps 625 scan lines mỗi fram, 25 fram mỗi s (40ms/frame) (33.37msec/frame)
Đan xen, mỗi fram chia là 2 trường, mỗi trường gồm
Đan nhau, mỗi frame đc chia làm 2 trường, mỗi trường 312.5 lines 262,5 line Sử dụng hệ màu YUV
20 line được bỏ trống để điều khiển tín hiệu ở thời điểm
bắt đầu của mỗi field
Như vậy có tối đa 485 lines của data có thể thấy:
+ Laserdisc and S-VHS có resolution thực tế là ~420 lines + TV: ~320 lines
+ Mỗi line cần 64.5 us để scan Sử dụng hệ màu YIQ Nguyên lí quét hình: - Zigzag - Đường ngang Bài tập ví dụ:
Xét ảnh chói Y: truyền chuẩn NTSC ∑ 𝑝𝑖𝑥𝑒𝑙/𝑠 30.525.525. 4/3
→ 30fps, 525 dòng/hình, tỉ lệ 4:3 → 𝑓𝑚𝑎𝑥= 2 = 2 =5,5MHz NÉN ẢNH Khái niệm nén:
Khái niệm nén được đề cập là phương pháp mã hoá nguồn. Mục đích chủ yếu của nó là giảm kích thước dữ liệu Original Image Decoded Image Encoder 0101100111... Decoder Bitstream
Nguyễn tắc chính của các kỹ thuânt nén là giảm thông tin dư thừa, và không cần thiết trong các tín
hiệu nhưng vẫn đảm bảo được chất lượng của tín hiệu
Tỷ số nén: được xác định bằng tỷ số kích thước của dữ liệu trước nén và sau nén
Tỷ số nén càng cao thì kích thước sau nén càng nhỏ nhưng đồng thời chất lượng tín hiệu cũng giảm
đi Một số chuẩn nén ảnh tĩnh -
JPG: Joint Photographic Expert Group -
GIF: Graphics Interchange Format - PNG: Portable Network Graphics
Đây là ba loại định dạng ảnh số phổ biến nhất
Chuẩn lấy mẫu 4:4:4, 4:2:2, 4:2:0
Ví dụ: Cho một ảnh màu kích thước 288x352 pixel, lấy mẫu 4:2:2, giá
trị mỗi điểm ảnh cần 8bit biểu diễn.
Mã hóa JPEG cho ảnh trên, biết tỷ số nén cho ảnh chói Y là 10 lần, tỷ
số nén cho các tín hiệu hiệu màu Cb,Cr là 20 lần.
Tính tỷ số nén của ảnh?
Kích thước ảnh chưa mã hóa: 288 x 352 x 8bit x(1+0,5+0,5)
Kích thước ảnh sau mã hóa:
288 x 352 x 8bit x(1/10+0,5/20+0,5/20)
Tỷ số nén: 40/3 (lần)
Nén ảnh JPEG: nén tổn háo (lossless) và không tổn hao (lossy)
Nén RLC: aaaaaaabbbbccccddef → 7a4b4c2d1e1f
Nén VLC: tuỳ theo số lần xuất hiện trong chuỗi bit, mã hoá với chiều dài bản mã cố định Với chiều dài
k cố định, sử dụng cây nhị phân huffmanm. DPCM:
DCT: biến đổi miền thời gian – miền tần số DCT 1 chiều: 𝑁 – số mẫu của tín hiệu 1 𝑁 √ , 𝑢 = 0 𝑁 ( 𝑢 ) = 𝐹 ], 𝑎 2 𝑥 √ , 𝑢 ≠ 0 𝑁 DCT 2 chiều: 1 𝑁 √ , 𝑢 = 0 𝐹 𝑁 ( 𝑢 ) = 2 ] , 𝑎 √ , 𝑢 ≠ 0 𝑁 𝑥 Các bước mã hoá JPEG: Quát zigzag
Mã hoá MPEG: Moving picture Experts Group, 1988. Chuẩn nén video Mpeg-1, -2, -4 Moving JPEG
(M-JPEG): chuẩn JPEG động: -
Chất lượng tốt nhưng đòi hỏi tốc độ cao (~50Mbps), không thích hợp truyền dẫn - Lưu trữ, studio
Chuẩn MPEG ra đồi, dùng cho truyền dẫn. Loại bỏ các thông tin dư thừa: dư thừa không gina, dư thừa thời gian Mã hoá MPEG – dùng 4:2:0
Thuật toán tìm Motion Vector - Sequential search - 2D Logarthmic search - Hierarchical search - Mean Absoblute Difference Mã hoá MPEG Group of Pictures (GoP): -
I-frames: (Intra) Ảnh I - ảnh mã hoá nguyên -
P-frames: (Predicted) Ảnh P-ảnh dự đoán, ảnh được mã hoá dựa vào thông tin của ảnh trước đó. -
B-frames: (Bidirectional Predicted) Ảnh B-ảnh dự đoán 2 chiều, ảnh được mã hoá dựa vào
thông tin của ảnh trước và sau nó
Bài tập:Đoạn video độ dài 60 phút được mã hóa theo chuẩn MPEG-2, với các tham số: cấu trúc truyền IBBPBBPBBP, kích thước ảnh CIF
(352x288 pixel, 4:2:0, 8 bit/mẫu), tốc độ 25 hình/s. Biết các tham số nén sau đây:
Tỷ lệ nén trung bình của ảnh I,P và B lần lượt là 8, 16 và 32 lần.(Giả thiết tham số nén đã bao gồm các header cần thiết)
Tính kích thước (dung lượng) đoạn dữ liệu video sau khi mã hóa. Gợi ý:
Kích thước ảnh chưa nén: 352 x 288 x 8bit x (1+0,25+0,25)=X Trung bình 1s có: 2,5 ảnh I ;7,5 ảnh P và 15 ảnh B.
Tốc độ Video sau mã hóa: 2,5 x X/8 + 7,5 x X/16 + 15 x X/32
Dung lượng đoạn Video là: 652MB Audio
Dao động cơ học f = 20 – 20kHz lan truyền trong môi trường đàn hồi (không khí)
- Tiếng nói: 300Hz – 4kHz
- Amm thanh (Audio, Music): 20-20kHz
Micro: Điện động (dynamic) và điện dung (tụ điện, condenser)
Dynamic có độ nhạy thấp, dải tần có hạn (từ 50Hz đến 16kHz). Microphone dynamic thường dùng cho
ca hát, sân khấu, karaoke, hát solo, thuyết giảng, hội họp,…
Condenser có độ nhạy rất cao, bắt âm chính xác, nên thường phục vụ cho các lĩnh vực như thu âm phòng
thu, thu âm nhạc cụ, phỏng vấn truyền hình, làm phim, hát hợp xướng, hát opera,… các lĩnh vực cần thu
âm ở khoảng cách xa người nói Điện động: nam châm
Từ cảm B, chiều dài dây l 𝐹 𝐸
𝐹 = 𝐵. 𝑙. 𝑖 → = 𝐵. 𝑙 = 𝑐𝑜𝑛𝑠𝑡 (tạo loa) → 𝐸 = 𝐵. 𝑙. 𝑣 → = 𝐵. 𝑙 (toạ micro) 𝑖 𝑣 Số hoá Audio
Nyquist: 𝑓𝐿𝑀 ≥ 2𝑓𝑀 -
Tiếng nói phổ 300Hz – 4KHz (𝑓𝐿𝑀 = 8𝐾𝐻𝑧) -
Âm thanh phổ 20-20KHz (𝑓𝐿𝑀 = 32; 44,1; 48𝐾𝐻𝑧)
Tiếng nói: PCM, mono, 𝑓𝐿𝑀 = 8𝐾𝐻𝑧, 8𝑏𝑖𝑡/mẫu, 𝑅 = 64𝑘𝑏𝑝𝑠
Âm thanh: 𝑓𝐿𝑀 = 44,1𝐾𝐻𝑧, 16𝑏𝑖𝑡/mẫu, 𝑅 = 2x44100 mẫu/s x 16bit/mẫu=1,41Mbit/s Số hoá tiếng nói:
PCM, mono, 𝑓𝐿𝑀 = 8𝐾𝐻𝑧, 8𝑏𝑖𝑡/mẫu, 𝑅 = 64𝑘𝑏𝑝𝑠
DPCM: Diferential PCM, mã hoá vi sai. R=48kbps
ADPCM: Adaptive DPCM, mã hoá vi sai thích nghi, R=16-32kbps Câu 1:
a. I-frame (Intra): ảnh mã hoá nguyên
P-frame (Predicted): ảnh dự đoán, đc mã hoá dựa theo ảnh trước đó
B-frame (Bidirectional Predicted): ảnh dự đoán 2 chiều, ảnh đc mã hoá dựa vào thông tin ảnh trước và sau nó.
Múc đích sử dụng ảnh B: -
Sử dụng cả ảnh trước và sau để dự đoán nội dung ảnh B giúp nén dữ liệu -
Giúp MPEG-2 giảm dung lượng dữ liệu cần lưu trữ -
Giảm số lượng bit cần thiết để mã hoá khung hình -
Giảm thiểu lỗi dự đoán và cải thiện chất lượng hình ảnh
b. Cấu trúc truyền ảnh: Frame 1 Frame 2 (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) … I B B P B B I B B P …
Thứ tự truyền bên phát: 1 → 4 → 2 → 3 → 7 → 5 → 6 → 10 → 8 → 9 → ⋯
Bên thu sau khi nhận được sẽ sắp xếp lại theo đúng thứ tự c.
Kích thước ảnh chưa nén là: 352 . 288 .8 . (1 + 0,5) = 1216512 𝑏𝑖𝑡
Trung bình 1s có: 30/6=5 khung → 5 ảnh I, 5 ảnh P và 20 ảnh B
Tốc độ video sau mã hoá: 5 . + 5 . + 20 . = 1900,8𝐾𝑏𝑝𝑠
Tốc độ video (bao gồm cả phần âm thanh): 1900,8 + 100 = 200,8𝐾𝑏𝑝𝑠 Câu 2:
Áp dụng DCT-1D cho từng hàng: 7 1 (2𝑖 + 1). 𝑣𝜋 1 ( 𝑢 ) = . ∑ 𝑓 ( 𝑖 ) . cos ( ( 0 ) = . 20 . 8 = 40 √ 2 𝐹 2 . 𝐶 ( 𝑢 ) 16 ) → 𝐹 2 √ 2 , 𝐹(𝑢) = 0, ∀𝑢 ≠ 0 𝑖=0
Câu 3: Đặc điểm và ứng dụng của các chuẩn nén video
MPEG-2 (Moving Picture Experts Group - 2):
Đặc điểm: MPEG-2 là chuẩn nén video được phát triển ban đầu cho việc lưu trữ và truyền phát video
chất lượng cao. Nó hỗ trợ nhiều tỷ lệ bit khác nhau và có khả năng xử lý video với độ phân giải khác nhau.
Ứng dụng: Được sử dụng rộng rãi trong các định dạng video như DVD, video truyền hình số (DVB), và video trực tuyến. MPEG-4:
Đặc điểm: MPEG-4 được thiết kế để hỗ trợ nén video, âm thanh và dữ liệu với nhiều mức độ phân giải
khác nhau. Nó cũng hỗ trợ tính năng tương tác và nâng cao cho video.
Ứng dụng: Được sử dụng trong nhiều ứng dụng như video kỹ thuật số, phim hoạt hình, video di động và hội nghị truyền hình.
H.264/AVC (Advanced Video Coding):
Đặc điểm: H.264 là chuẩn nén video hiệu suất cao, cung cấp chất lượng hình ảnh tốt với kích thước file
nhỏ hơn so với các chuẩn trước đó. Nó hỗ trợ nhiều cấp độ nén và các tính năng như tiết kiệm băng
thông và chất lượng video cao.
Ứng dụng: Phổ biến trong phim Blu-ray, video trực tuyến, video di động và các ứng dụng gọi hình.
H.265/HEVC (High Efficiency Video Coding):
Đặc điểm: H.265 là chuẩn nén video tiếp theo sau H.264, cải tiến đáng kể hiệu suất nén so với H.264. Nó
cho phép giảm đáng kể kích thước file video với cùng mức chất lượng hình ảnh.
Ứng dụng: Được sử dụng trong các ứng dụng yêu cầu băng thông cao như video 4K và 8K, video phát
trực tiếp và truyền hình siêu cao cấp.
Câu 4: Loại thông tin dư thừa trong mã hóa video
Trong mã hóa video, có 4 loại thông tin dư thừa chính:
Thông tin không cần thiết (Redundant information): Là các phần của dữ liệu video có thể được loại bỏ
mà không làm mất đi chất lượng hình ảnh, chẳng hạn như các bit dự báo, bit trung gian.
Thông tin không thực sự quan trọng (Non-critical information): Là các phần của dữ liệu video mà có thể
được lược bỏ mà không làm ảnh hưởng nghiêm trọng đến chất lượng hình ảnh, ví dụ như một số bit bù
trùng hoặc bit đánh dấu.
Thông tin đơn giản (Simple information): Là các đặc điểm của dữ liệu video có thể được mô tả bằng các
mô hình đơn giản hơn mà không cần tới chi tiết phức tạp.
Thông tin dư (Extraneous information): Là các phần của dữ liệu video không liên quan đến nội dung
chính, như dữ liệu phụ, phần tiêu đề, hoặc thông tin quản lý dữ liệu.
Câu 5: Phương pháp tìm kiếm vector chuyển động và ưu nhược điểm
Phương pháp tìm kiếm vector chuyển động (Motion Vector Search) là kỹ thuật quan trọng trong mã hóa
video để tìm ra vector chuyển động cho các khối ảnh. Phương pháp này thường được áp dụng trong các
chuẩn nén video như MPEG và H.264/HEVC.
Phương pháp: Thực hiện so khớp các khối ảnh trong khung hiện tại với khung tham chiếu trước đó để
xác định vector chuyển động có thể giảm thiểu sai lệch. Ưu điểm:
Hiệu quả về mặt tính toán.
Giúp giảm lượng dữ liệu cần truyền đi bằng cách chỉ truyền vector chuyển động và các sai lệch. Nhược điểm:
Có thể dẫn đến sai lệch nếu sự chuyển động quá lớn so với khoảng cách tìm kiếm.
Yêu cầu tài nguyên tính toán khá cao, đặc biệt là khi áp dụng cho video có độ phân giải cao và tốc độ khung hình nhanh. Lý thuyết tổng hợp Đặc điểm MPEG-1 MPEG-2 MPEG-4 Ra đời 1993 1995 Cuối những năm 1990
Nén với tổn thất dựa Nén với tổn thất dựa DCT, biến đổi sóng con, mã hóa Phương pháp nén trên DCT, mã hóa
trên DCT, cải tiến mã dự đoán chuyển động khối 8x8 hóa khối 8x8
I-frame, P-frame, B-frame, dự I-frame, P-frame, Cấu trúc GOP I-frame, P-frame
đoán giữa đối tượng và khung Bframe hình Tối đa 352x240 Tối đa 720x480 Độ phân giải (NTSC), 352x288 (NTSC),
720x576 Linh hoạt từ thấp đến 4K (PAL) (PAL), hỗ trợ HD Thường khoảng 1.5 2-10 Mbps, tối đa 40 Bitrate Mbps
Vài kbps đến hàng chục Mbps Mbps Cao, phù hợp cho DVD Trung bình, phù hợp
Rất cao, phù hợp cho nhiều ứng Chất lượng và truyền hình số cho VCD dụng hiện đại Nén video và âm thanh
Tích hợp đa phương tiện, SVC,
cho VCD, âm thanh Nén đa luồng video và AVC/H.264, truyền tải trực Tính năng
stereo MPEG-1 Layer âm thanh, truyền hình tuyến, lưu trữ video, phát sóng II số, DVD truyền hình Chất lượng cao hơn Tương thích rộng rãi,
Tỷ lệ nén cao, hỗ trợ đa phương Ưu điểm MPEG-1, ứng dụng dễ mã hóa/giải mã
tiện, độ phân giải linh hoạt rộng rãi
Tỷ lệ nén không cao Phức tạp, yêu cầu phần cứng và
Chất lượng và tỷ lệ nén Nhược điểm
như MPEG-4, yêu cầu phần mềm tiên tiến, chi phí giấy hạn chế
phần cứng mạnh hơn phép Sequential Search
Sequential Search là một phương pháp tìm kiếm motion vector đơn giản và dễ hiểu. Thuật toán
này kiểm tra từng vị trí trong phạm vi tìm kiếm theo một thứ tự tuần tự cho đến khi tìm thấy vị
trí có độ sai lệch (error) nhỏ nhất giữa khối hiện tại và khối tham chiếu. - Phương pháp:
- Bắt đầu từ một điểm gốc trong khung hình tham chiếu.
- Di chuyển qua từng vị trí một cách tuần tự trong phạm vi tìm kiếm đã xác định.
- Tính toán lỗi (thường là sai số bình phương trung bình - Mean Squared Error hoặc tổng độ
chênh lệch tuyệt đối - Sum of Absolute Differences) cho từng vị trí.
- Chọn vị trí có lỗi nhỏ nhất làm motion vector. - Ưu điểm: - Dễ triển khai.
- Đảm bảo tìm được vị trí tối ưu (tuyệt đối) trong phạm vi tìm kiếm. - Nhược điểm:
- Rất tốn thời gian và tài nguyên tính toán, đặc biệt với phạm vi tìm kiếm lớn.
- Không hiệu quả cho các ứng dụng thời gian thực. 2D Logarithmic Search
2D Logarithmic Search là một phương pháp tìm kiếm motion vector hiệu quả hơn Sequential
Search, sử dụng kỹ thuật tìm kiếm theo hàm logarithmic để giảm số lượng phép tính toán cần thiết. - Phương pháp:
- Bắt đầu từ trung tâm của phạm vi tìm kiếm.
- Sử dụng một bước nhảy lớn để tìm kiếm các vị trí lân cận (theo hình chữ thập).
- Nếu không tìm thấy vị trí tối ưu, giảm kích thước bước nhảy (thường bằng cách chia đôi bước
nhảy) và tiếp tục tìm kiếm từ vị trí có lỗi nhỏ nhất trong các bước trước đó.
- Lặp lại quá trình cho đến khi kích thước bước nhảy nhỏ hơn một ngưỡng nhất định. - Ưu điểm:
- Tốc độ tìm kiếm nhanh hơn nhiều so với Sequential Search.
- Tương đối dễ triển khai và hiệu quả với các phạm vi tìm kiếm lớn. - Nhược điể:
- Có thể bỏ lỡ các vị trí tối ưu nếu bước nhảy ban đầu quá lớn hoặc nếu khối chuyển động quá
nhanh. - Không đảm bảo tìm kiếm được vị trí tối ưu tuyệt đối. Hierarchical Search
Hierarchical Search (hay còn gọi là Multi-resolution Search) là một phương pháp tìm kiếm
motion vector bằng cách sử dụng các mức độ phân giải khác nhau của khung hình. - Phương pháp:
- Khung hình được chia thành nhiều mức phân giải khác nhau (từ mức thấp đến mức cao).
- Bắt đầu tìm kiếm motion vector ở mức phân giải thấp nhất.
- Sử dụng kết quả tìm kiếm ở mức phân giải thấp để xác định phạm vi tìm kiếm cho mức phân giải cao hơn.
- Lặp lại quá trình cho đến khi đạt mức phân giải cao nhất (phân giải gốc). - Ưu điểm:
- Rất hiệu quả về mặt tính toán, vì tìm kiếm ở mức phân giải thấp cần ít phép tính hơn.
- Giảm thiểu khả năng bỏ sót vị trí tối ưu, vì phạm vi tìm kiếm được điều chỉnh dựa trên kết quả tìm kiếm ở mức thấp. - Nhược điểm:
- Có thể giảm độ chính xác nếu mức phân giải thấp không đủ để nắm bắt chuyển động chính
xác. - Phức tạp hơn trong triển khai so với các phương pháp tìm kiếm khác.
MPEG-2 (Moving Picture Experts Group - 2): •
Năm ra đời: Được phát triển vào những năm 1990 và được công bố năm 1995. •
Ứng dụng chính: Thường được sử dụng trong định dạng DVD, các dịch vụ truyền hình số ban đầu. •
Kĩ thuật: Sử dụng mã hóa dựa trên khung hình (frame-based encoding), sử dụng DCT
(Discrete Cosine Transform) và có thể hỗ trợ nhiều mức độ nén. MPEG-4: •
Năm ra đời: Ra đời sau MPEG-2, vào những năm 1998. •
Ứng dụng chính: Được thiết kế để hỗ trợ nhiều nền tảng và ứng dụng đa phương tiện,
bao gồm Internet, hội nghị truyền hình và ứng dụng di động. •
Kĩ thuật: Cải tiến so với MPEG-2, hỗ trợ mã hóa dựa trên đối tượng (object-based
encoding), có khả năng nén tốt hơn với chất lượng tương đương ở mức bit thấp hơn.
H.264/MPEG-4 AVC (Advanced Video Coding): •
Năm ra đời: Công bố vào năm 2003. •
Ứng dụng chính: Được sử dụng rộng rãi trong các dịch vụ truyền hình kỹ thuật số,
video trực tuyến, Blu-ray và các ứng dụng di động. •
Kĩ thuật: Sử dụng các kỹ thuật như mã hóa dựa trên khung hình và mã hóa mạng dựa
trên dự đoán (network-based prediction), cải thiện đáng kể hiệu suất nén so với các tiêu chuẩn trước đó.
H.265/HEVC (High Efficiency Video Coding): •
Năm ra đời: Công bố vào năm 2013. •
Ứng dụng chính: Được thiết kế để cải thiện hiệu quả nén hình ảnh so với H.264, phù
hợp cho các nền tảng có băng thông hẹp và đòi hỏi chất lượng cao. •
Kĩ thuật: Sử dụng các kỹ thuật như mã hóa dựa trên cụm (block-based encoding) và cải
thiện khả năng nén hình ảnh so với H.264, giúp giảm đáng kể lượng dữ liệu cần thiết để
truyền tải video cùng chất lượng. Đặc điểm JPEG GIF PNG Năm ra đời 1992 1987 1996 Màu sắc Hỗ trợ màu 24-bit (16 Hỗ trợ màu 8-bit (256 Hỗ trợ màu 24-bit (16 triệu màu) màu) triệu màu) Nén ảnh Lossy compression Lossless compression Lossless compression Chất lượng
Giảm chất lượng ảnh khi Giữ nguyên chất lượng Giữ nguyên chất lượng nén ảnh khi nén ảnh khi nén Độ phân giải Phù hợp cho hình ảnh Phù hợp cho ảnh động, Phù hợp cho hình ảnh
thực tế, ảnh nghệ thuật biểu tượng
thực tế, ảnh nghệ thuật Dùng cho
Hình ảnh chụp, web, in ấn Biểu tượng động, đồ họa Hình ảnh chụp, lưu trữ đơn giản hình ảnh Kích thước Lớn hơn so với GIF và
Nhỏ hơn so với JPEG và Thường lớn hơn GIF, nhỏ PNG khi nén PNG khi nén hơn JPEG khi nén
Trong quá trình mã hóa video, các kỹ thuật nén (compression) thường được sử dụng để giảm
kích thước tệp video mà vẫn giữ được chất lượng hình ảnh chấp nhận được. Trong bối cảnh này,
"thông tin dư thừa" (redundant information) thường đề cập đến các phần của dữ liệu video có
thể bị loại bỏ hoặc nén mà không ảnh hưởng đáng kể đến chất lượng tổng thể của video. Dưới
đây là một số ví dụ về thông tin dư thừa trong video:
1. Redundancy in Spatial Domain (Không gian):
o Các pixel liền kề có giá trị tương tự: Trong một khung hình video, các pixel
gần nhau thường có giá trị màu tương tự. Các kỹ thuật nén như JPEG và các
chuẩn nén video như H.264 sử dụng biến đổi Cosine rời rạc (DCT) để loại bỏ sự dư thừa này.
2. Redundancy in Temporal Domain (Thời gian):
o Các khung hình liên tiếp giống nhau: Trong nhiều video, có rất ít sự thay đổi
giữa các khung hình liên tiếp. Các thuật toán nén như H.264 sử dụng dự đoán
liên khung (inter-frame prediction) để mã hóa sự thay đổi giữa các khung hình
thay vì mã hóa từng khung hình riêng biệt.
3. Visual Redundancy (Thị giác):
o Các chi tiết khó nhận thấy: Mắt người không nhạy cảm với một số chi tiết nhỏ
hoặc sự thay đổi màu sắc. Các thuật toán nén thường loại bỏ hoặc giảm độ chính
xác của những chi tiết này mà không gây ảnh hưởng đáng kể đến trải nghiệm xem của người dùng.
4. Perceptual Redundancy (Cảm nhận):
o Các tần số cao mà mắt người không phân biệt được: Một số tần số cao trong
hình ảnh không được mắt người nhận biết rõ ràng. Các kỹ thuật nén như biến đổi
Wavelet hoặc DCT sẽ giảm bớt hoặc loại bỏ các thành phần tần số cao này.
Nhờ loại bỏ hoặc giảm thiểu các dạng thông tin dư thừa này, các phương pháp nén video có thể
giảm kích thước tệp video mà vẫn duy trì chất lượng hình ảnh ở mức chấp nhận được. Đặc điểm PCM DPCM ADPCM
Mã hóa sự khác biệt và Nguyên lý
Mã hóa giá trị tuyệt đối Mã hóa sự khác biệt điều chỉnh động
Đơn giản, độ trung thực Hiệu quả nén tốt hơn Ưu điểm cao Giảm băng thông DPCM
Độ trung thực thấp hơn
Phức tạp hơn trong thực Nhược điểm
Đòi hỏi băng thông cao PCM hiện Nén âm thanh, chuẩn Ứng dụng Điện thoại, CD audio Nén âm thanh, video G.726ality.
Trong mã hóa video, dư thừa đề cập đến thông tin không cần thiết hoặc lặp lại làm tăng kích
thước tệp mà không cải thiện chất lượng. Dưới đây là bốn loại dư thừa thường thấy trong mã hóa video:
1. Dư thừa không gian: Điều này xảy ra trong các khung hình riêng lẻ, nơi các điểm ảnh
liền kề thường có giá trị tương tự. Các kỹ thuật nén không gian (ví dụ, thông qua giảm
mẫu không gian hoặc lượng tử hóa) giảm thiểu dư thừa này bằng cách chỉ mã hóa các chi tiết cần thiết.
2. Dư thừa thời gian: Dư thừa này tồn tại giữa các khung hình liên tiếp trong một chuỗi
video. Vì các khung hình liền kề thường chứa thông tin tương tự, các phương pháp nén
thời gian như ước lượng và bù trừ chuyển động giúp giảm dữ liệu dư thừa bằng cách chỉ
lưu trữ các thay đổi từ khung hình này sang khung hình khác.
3. Dư thừa tâm lý thị giác: Dư thừa này liên quan đến giới hạn của nhận thức con người.
Các codec video khai thác điều này bằng cách loại bỏ các chi tiết ít được chú ý hơn hoặc
giảm độ trung thực ở những khu vực mà người xem ít có khả năng nhận thấy thay đổi,
do đó tối ưu hóa tỷ lệ nén mà không làm giảm chất lượng có thể nhận biết.
4. Dư thừa mã hóa: Loại dư thừa này xảy ra do sự kém hiệu quả trong cách biểu diễn và
mã hóa dữ liệu. Các codec video hiện đại sử dụng các kỹ thuật mã hóa tiên tiến như mã
hóa entropy (như mã hóa Huffman hoặc mã hóa số học) để giảm thiểu thông tin dư thừa
này và đạt được hiệu quả nén cao hơn.
Giảm thiểu hiệu quả các dạng dư thừa này là rất quan trọng để tối ưu hóa hiệu quả mã hóa video,
dẫn đến kích thước tệp nhỏ hơn mà vẫn duy trì hoặc cải thiện chất lượng cảm nhận.
Mã hóa tham số (Parametric Encoding) và mã hóa dạng sóng (Waveform Encoding) là hai
phương pháp chính được sử dụng trong xử lý tín hiệu, đặc biệt là trong lĩnh vực truyền thông và
mã hóa âm thanh. Dưới đây là sự phân biệt chi tiết giữa hai phương pháp này:
1. Mã hóa tham số (Parametric Encoding)
- Nguyên lý hoạt động: Phương pháp này phân tích tín hiệu đầu vào và trích xuất các tham số
đặc trưng của nó. Sau đó, chỉ các tham số này được mã hóa và truyền đi.
- Ví dụ: Một ví dụ phổ biến là mã hóa giọng nói sử dụng các tham số như tần số cơ bản, biên độ
và các hệ số LPC (Linear Predictive Coding). - Ưu điểm:
- Hiệu quả băng thông: Giảm thiểu lượng
dữ liệu cần truyền tải, vì chỉ các tham
số quan trọng được gửi đi. - Hiệu quả
nén: Đạt được mức độ nén cao, làm
giảm dung lượng lưu trữ và băng thông truyền tải. - Nhược điểm:
- Chất lượng tái tạo: Chất lượng tín hiệu
tái tạo có thể thấp hơn do việc chỉ dựa
vào các tham số đã trích xuất. - Phức
tạp: Quá trình phân tích và mã hóa
tham số có thể phức tạp và đòi hỏi nhiều tính toán.
2. Mã hóa dạng sóng (Waveform Encoding)
- Nguyên lý hoạt động: Phương pháp này mã hóa trực tiếp dạng sóng của tín hiệu đầu vào. Các
mẫu của dạng sóng được lấy mẫu, lượng tử hóa và mã hóa để truyền tải.
- Ví dụ: PCM (Pulse Code Modulation) là một ví dụ điển hình, trong đó tín hiệu âm thanh được
lấy mẫu và mỗi mẫu được biểu diễn dưới dạng số. - Ưu điểm:
- Chất lượng tái tạo: Tín hiệu tái tạo thường có chất lượng cao hơn vì nó duy trì gần như toàn bộ
thông tin của tín hiệu gốc.
- Đơn giản: Quá trình mã hóa và giải mã đơn giản hơn so với mã hóa tham số. - Nhược điểm:
- Hiệu quả băng thông: Yêu cầu băng thông lớn hơn, vì toàn bộ dạng sóng được truyền đi.
- Hiệu quả nén: Không đạt được mức độ nén cao như mã hóa tham số. Tóm lại:
- Mã hóa tham số: Trích xuất và mã hóa các tham số đặc trưng của tín hiệu. Hiệu quả trong việc
giảm dung lượng dữ liệu nhưng có thể giảm chất lượng tái tạo.
- Mã hóa dạng sóng: Mã hóa trực tiếp các mẫu dạng sóng của tín hiệu. Đảm bảo chất lượng tái
tạo tốt nhưng yêu cầu băng thông lớn hơn.
Việc lựa chọn phương pháp mã hóa phù hợp tùy thuộc vào yêu cầu cụ thể của ứng dụng về chất
lượng, băng thông và hiệu quả nén.
Các thuật toán LPC (Linear Predictive Coding), PCM (Pulse Code Modulation), DPCM
(Differential Pulse Code Modulation), và ADPCM (Adaptive Differential Pulse Code
Modulation) đều là các phương pháp mã hóa tín hiệu âm thanh và tín hiệu nói. Chúng có các đặc
điểm kĩ thuật và cách hoạt động khác nhau như sau: 1. Linear Predictive Coding (LPC) Đặc điểm kỹ thuật:
- LPC là một phương pháp nén âm thanh sử dụng mô hình dự đoán tuyến tính.
- LPC thường được sử dụng trong việc xử lý tín hiệu nói, đặc biệt trong các ứng dụng như mã
hóa giọng nói, tổng hợp giọng nói và nhận dạng giọng nói.
- LPC có thể đạt được tỷ lệ nén rất cao. Cách hoạt động:
- LPC dự đoán giá trị của mẫu tiếp theo dựa trên một số mẫu trước đó bằng cách sử dụng một mô hình tuyến tính.
- Các hệ số của mô hình tuyến tính này (gọi là các hệ số LPC) được tính toán sao cho sai số giữa
giá trị dự đoán và giá trị thực tế là nhỏ nhất.
- Sai số dự đoán (residual) cùng với các hệ số LPC được mã hóa và truyền đi. 2. Pulse Code
Modulation (PCM) Đặc điểm kỹ thuật:
- PCM là phương pháp mã hóa tín hiệu số cơ bản và đơn giản nhất.
- PCM thường được sử dụng trong các hệ thống truyền thông số và lưu trữ âm thanh, như CD, điện thoại và VoIP.
- PCM không thực hiện bất kỳ nén nào, do đó, tín hiệu PCM yêu cầu băng thông cao và dung lượng lưu trữ lớn. Cách hoạt động:
- Tín hiệu liên tục (analog) được lấy mẫu tại các thời điểm rời rạc với tần số lấy mẫu đủ cao (theo định lý Nyquist).
- Mỗi mẫu được lượng tử hóa (quantized) thành một trong một số mức giá trị rời rạc và được
biểu diễn bằng mã nhị phân.
- Kết quả là một chuỗi các mã nhị phân đại diện cho các mức lượng tử hóa của các mẫu tín hiệu.
3. Differential Pulse Code Modulation (DPCM) Đặc điểm kỹ thuật:
- DPCM là một biến thể của PCM, sử dụng sự khác biệt giữa các mẫu liên tiếp để mã hóa thay
vì mã hóa trực tiếp các giá trị mẫu.
- DPCM có thể giảm thiểu dung lượng cần thiết cho lưu trữ hoặc truyền tải bằng cách giảm mức
độ của dữ liệu lượng tử hóa. Cách hoạt động:
- Thay vì mã hóa trực tiếp giá trị của mỗi mẫu, DPCM mã hóa sự khác biệt giữa giá trị của mẫu
hiện tại và mẫu trước đó.
- Sai số giữa giá trị dự đoán và giá trị thực tế được lượng tử hóa và truyền đi.
- Bộ giải mã sẽ tái tạo lại tín hiệu bằng cách cộng dồn các giá trị khác biệt vào giá trị của mẫu
trước đó. 4. Adaptive Differential Pulse Code Modulation (ADPCM) Đặc điểm kỹ thuật:
- ADPCM là một biến thể của DPCM, trong đó quá trình lượng tử hóa sự khác biệt giữa các
mẫu được điều chỉnh tự động (adaptive) dựa trên đặc điểm của tín hiệu.
- ADPCM thường được sử dụng trong các ứng dụng nén âm thanh và giọng nói như điện thoại
di động, VoIP, và các thiết bị ghi âm kỹ thuật số. Cách hoạt động:
- Giống như DPCM, ADPCM mã hóa sự khác biệt giữa các mẫu liên tiếp, nhưng sử dụng một
kỹ thuật lượng tử hóa thay đổi theo thời gian.
- Bộ mã hóa ADPCM điều chỉnh kích thước lượng tử hóa dựa trên đặc tính của tín hiệu để cải
thiện chất lượng mã hóa và giảm thiểu sai số.
- Bộ giải mã sử dụng cùng một kỹ thuật điều chỉnh để tái tạo lại tín hiệu gốc.
Các phương pháp này đều có ưu và nhược điểm riêng, và lựa chọn phương pháp phù hợp phụ
thuộc vào yêu cầu cụ thể của ứng dụng như chất lượng âm thanh, băng thông, và tài nguyên tính toán.
Mã hóa âm thanh trong miền thời gian là một phương pháp xử lý và nén âm thanh mà ở đó, dữ
liệu âm thanh được xử lý và mã hóa trực tiếp trên tín hiệu thời gian không gian (time
waveform). Phương pháp này không chuyển đổi tín hiệu sang bất kỳ dạng biểu diễn tần số nào
như Fourier hoặc Cosine trước khi nén. Mục tiêu của mã hóa thời gian là giảm lượng dữ liệu cần
thiết để lưu trữ hoặc truyền tải tín hiệu mà vẫn giữ được chất lượng âm thanh mong muốn. Cách Thức Hoạt Động
Thu Thập Mẫu Âm Thanh: Tín hiệu âm thanh được lấy mẫu ở một tốc độ nhất định để chuyển
đổi từ tín hiệu analog sang dạng số. Mỗi mẫu biểu diễn một giá trị cường độ âm thanh tại một thời điểm cụ thể.
Lượng Tử Hóa: Các mẫu được lượng tử hóa, tức là chúng được làm tròn thành các giá trị gần
nhất trong một tập hợp các giá trị cho trước. Quá trình này giảm số lượng bit cần thiết để biểu
diễn mỗi mẫu. Mã Hóa Entropy: Sau khi lượng tử hóa, các mẫu được mã hóa bằng các kỹ thuật
mã hóa entropy như Huffman coding hoặc arithmetic coding để giảm thêm lượng dữ liệu.
Bù Sai Số: Các kỹ thuật như DPCM (Differential Pulse Code Modulation) hoặc ADPCM (Adaptive
Differential Pulse Code Modulation) có thể được sử dụng để chỉ mã hóa sự khác biệt giữa các
mẫu liên tiếp, giúp giảm lượng dữ liệu cần thiết hơn nữa. Ưu Điểm
Độ Trễ Thấp: Không cần biến đổi phức tạp lên tín hiệu, do đó mã hóa âm thanh trong miền thời
gian thường có độ trễ thấp hơn so với mã hóa trong miền tần số.
Đơn Giản và Hiệu Quả: Với các tín hiệu có băng thông hẹp hoặc yêu cầu thời gian thực, mã hóa
thời gian có thể hiệu quả hơn về mặt tính toán. Nhược Điểm
Kém Hiệu Quả Hơn trong Nén: So với mã hóa trong miền tần số, mã hóa trong miền thời gian
thường không hiệu quả bằng trong việc nén dữ liệu, đặc biệt với các tín hiệu phức tạp có nhiều
thành phần tần số. Phụ Thuộc vào Tín Hiệu: Hiệu suất của mã hóa thời gian có thể phụ thuộc
nhiều vào đặc tính của tín hiệu đầu vào. Ví dụ, nó có thể không làm việc tốt với âm thanh có nhiều tần số cao.
Mã hóa âm thanh trong miền thời gian vẫn là một lựa chọn quan trọng trong nhiều ứng dụng như
truyền thanh thoại, vì sự đơn giản và khả năng phản hồi nhanh của nó. Tuy nhiên, đối với các
ứng dụng đòi hỏi tỷ lệ nén cao và chất lượng cao, mã hóa âm thanh trong miền tần số thường được ưa chuộng hơn.
Câu 1: Mã hoá tiếng nói: Trình bày về phương pháp mã hoá tham số LPC. Sự khác biệt
giữa hai phương pháp mã hoá tham số và mã hoá dạng song.
Linear Predictive Coding (LPC) là phương pháp mã hóa tiếng nói dựa trên dự đoán giá
trị hiện tại của tín hiệu từ các giá trị trước đó. LPC sử dụng một mô hình tuyến tính để biểu diễn
tín hiệu tiếng nói, giúp giảm băng thông cần thiết cho việc truyền tải mà vẫn duy trì chất lượng
âm thanh chấp nhận được.

Hoạt động dựa trên nguyên lý dự đoán tuyến tính, trong đó một mẫu tín hiệu tiếng nói
x(n) được dự đoán từ các mẫu trước đó x(n−1),x(n−2),...,x(n−p) với sai số dự đoán nhỏ nhất.
Công thức dự đoán tuyến tính có dạng:
Các bước thực hiện mã hóa LPC
1. Phân tích khung: Tín hiệu tiếng nói được chia thành các khung nhỏ (20-30 ms) để xử lý.
2. Ước lượng hệ số LPC: Ước lượng các hệ số dự đoán aka_kak .
3. Tính toán sai số dự đoán: Tính toán và mã hóa sai số giữa tín hiệu gốc và tín hiệu dự đoán.
4. Mã hóa tín hiệu sai số: Lượng tử hóa và mã hóa tín hiệu sai số và các hệ số dự đoán.
Ứng dụng của LPC
Nén tiếng nói: Giảm băng thông cần thiết cho truyền tải tiếng nói.
Tổng hợp tiếng nói: Tạo ra tiếng nói nhân tạo.
Nhận dạng tiếng nói: Trích xuất đặc trưng của tiếng nói để nhận dạng và phân loại. Sự khác biệt Mã hóa tham số Mã hóa dạng sóng Cơ chế
Mô hình hóa và mã hóa các Mã hóa trực tiếp tín hiệu
tham số của tín hiệu tiếng tiếng nói dưới dạng sóng.
nói. Ưu điểm
Hiệu quả nén cao, giảm Chất lượng âm thanh cao, băng thông đáng kể
giữ nguyên đặc trưng của tín hiệu gốc. Nhược điểm
Chất lượng tín hiệu có thể Yêu cầu băng thông lớn
giảm trong môi trường hơn so với mã hóa tham số.

nhiễu. Không phù hợp cho
tín hiệu phi tiếng nói (như nhạc).

Câu 2: Trình bày sự khác biệt cơ bản giữa chuẩn mã hoá video MPEG-2 và MPEG-4 Sự khác biệt MPEG-2 MPEG-4
Hiệu suất mã hoá và
Được thiết kế để cải thiện hiệu
Được phát triển ban đầu cho chất lượng video
suất mã hoá so với MPEG-2.
việc mã hoá video chất lượng
Nó cho phép mức độ nén cao
cao, thường được sử dụng trong hơn mà vẫn duy trì chất lượng
các định dạng video như DVD, hình ảnh tương đương hoặc tốt
các đài truyền hình số, và các
hơn. Điều này làm cho MPEG-4 ứng dụng khác. MPEG-2
thích hợp hơn cho các ứng dụng
thường tốn nhiều băng thông
yêu cầu băng thông thấp hơn
hơn so với MPEG-4 để đạt được hoặc yêu cầu chia sẻ video qua
cùng một chất lượng hình ảnh. internet. Công nghệ mã hoá
Sử dụng phương pháp mã hoá
Bao gồm nhiều cải tiến, bao DCT (Discrete Cosine
gồm việc sử dụng các công
Transform) kết hợp với phương nghệ như Mã hoá Video tiên
pháp mã hoá chuyển đổi vùng.
tiến (AVC) và Mã hoá Video Hiệu suất Cao (HEVC), cho
phép nén video hiệu quả hơn
với cùng một lượng dữ liệu. Hỗ trợ tính năng
Chủ yếu tập trung vào việc phát Ngoài việc cải thiện hiệu suất
triển chuẩn dành cho phương
mã hoá, MPEG-4 còn hỗ trợ
tiện truyền thông truyền thống
nhiều tính năng mở rộng như như DVD, TV số.
mã hóa đa kênh, hỗ trợ âm
thanh nâng cao (bao gồm cả âm
thanh đa kênh), mã hóa dữ liệu
đa phương tiện, và khả năng
tích hợp các đối tượng 3D và đồ họa chuyển động.
Ứng dụng và sử dụng Vẫn được sử dụng rộng rãi trong Thường được sử dụng cho các
các ứng dụng phát sóng và
ứng dụng có yêu cầu cao hơn về
truyền hình, đặc biệt là trong
hiệu suất mã hoá và sự linh hoạt
các thiết bị như DVD player, TV trong việc truyền tải video qua số, v.v.
internet, streaming video, các
ứng dụng di động, video hội nghị trực tuyến, v.v.
Câu 3: Trình bày và nêu sự khác biệt giữa hai phương pháp tìm kiếm vector chuyển động
(trong mã hoá video MPEG-2). Sequential và 2D logarithmic search. Tiêu chí
Tìm kiếm tuần tự Tìm kiếm logarit 2D Khái niệm
Phương pháp tìm kiếm đơn giản,
duyệt qua từng phần tử trong dãy dữ
liệu theo thứ tự từ đầu đến cuối để
Phương pháp tìm kiếm hiệu quả, dựa trên
tìm phần tử cần tìm. Độ phức tạp
cây nhị phân để chia dãy dữ liệu thành các
tính toán của nó là O(n), tuyến tính
nhánh nhỏ hơn và lặp đi lặp lại quá trình
với kích thước của dãy dữ liệu.
này cho đến khi tìm thấy phần tử cần tìm.
Độ phức tạp tính toán của nó là O(log n),
logarit với kích thước của dãy dữ liệu. O(n) O(log n)
Độ phức tạp tính toán Hiệu quả mã hóa Thấp hơn Cao hơn
Khả năng thực tiễn Thấp hơn Cao hơn thời gian thực