



















Preview text:
  Đa phương tiện 
Phần 1. Lý thuyết cơ sở nén ảnh 
I.1 Sự cảm thụ màu sắc của người:  3 yếu tố cơ bản:  - Nguồn ánh sáng 
+ là các ánh sáng mắt người cảm nhận được: bước sóng từ 380 đến 780nm  + tự nhiên/nhân tạo 
+ Chùm hạt photon. Có tính chất vật lý giống nhau nhưng mang các năng lượng khác nhau (tần số 
khác nhau), năng lượng càng lớn bước sóng càng nhỏ  ℎ𝑐  + Năng lượng: 𝐸 =  𝜆 
- Vật thể được quan sát 
+ Ánh sáng từ nguồn sáng được chiếu tới vật thể quan sát được. Tuỳ theo tính chất của vật thể mà 
vật thể có thể hấp thụ một số bước sóng và phản xạ các bc sóng còn lại. 
+ Ánh sáng phản xạ trên vật thể đi tới mắt chúng ta mà ta có thể cảm thụ về màu sắc và hình dạng 
của vật thể được quan sát.  - Mắt người quan sát 
I.2 Đặc trưng của màu sắc  - Màu sắc quang học 
+ Màu sắc có 2 đặc trưng cơ bản: Sắc màu (Hue) và độ sáng (Brightness) 
+ sắc màu phụ thuộc các bước sóng trội (dominant), là các bước sóng mang năng lượng vượt trội 
hơn mức năng lượng trung bình 
+ Độ sáng phụ thuộc giá trị năng lượng (càng lớn càng sáng) 
+ Ví dụ về phổ quang trong tự nhiên:                     
+ Ví dụ về phổ quang học của 1 số nguồn sáng:         
I.3 Đặc trưng mắt người  - Mắt người quan sát 
+ Sở dĩ mắt người ta cảm nhận các hình ảnh, màu sắc quang học do trong mắt chúng ta có rất nhiều 
tế bào nhạy (cảm thụ) ánh sáng. 
+ 2 loại tế bào cảm thụ ánh sáng: tế bào hình que (red cell) 
và tế bào hình nón (cone cell) 
+ 15 triệu cell hình que (cảm nhận độ sáng) và 5 triệu cell 
hình nón(cảm nhận màu sắc) trong mắt người + Mắt ng 
thường có nhiều cell hình nón và thường cảm nhận màu sắc  tốt hơn 
+ Cell hình nón có 3 loại: S(short – bước sóng ngắn vùng 
phổ lam – Blue cone), M(medium – bước sóng 
trung bình với phổ lục – Green cone), L(Long – bước sóng dài với phổ đỏ - Red cone) wavelength. Các 
loại cell này nhạy cảm với các vùng phổ màu sắc khác nhau 
+ Hình minh hoạ độ nhạy (tương đối) của các cell hình nón. Mắt ng có khả năng cảm nhận tất cả các 
bước sóng trong vùng ánh sáng nhìn thấy và đặc biệt nhạy cảm với các phổ màu lam, lục, đỏ (B – G – R).  I.4 Lý thuyết ba màu      -        NTSC video  PAL (SECAM) Video  525  scan  lines  per  frame, 
30fps 625 scan lines mỗi fram, 25 fram mỗi s (40ms/frame)  (33.37msec/frame) 
Đan xen, mỗi fram chia là 2 trường, mỗi trường gồm 
Đan nhau, mỗi frame đc chia làm 2 trường, mỗi trường 312.5 lines  262,5 line  Sử dụng hệ màu YUV 
20 line được bỏ trống để điều khiển tín hiệu ở thời điểm 
bắt đầu của mỗi field 
Như vậy có tối đa 485 lines của data có thể thấy: 
+ Laserdisc and S-VHS có resolution thực tế là  ~420 lines  + TV: ~320 lines 
+ Mỗi line cần 64.5 us để scan  Sử dụng hệ màu YIQ    Nguyên lí quét hình:  - Zigzag - Đường ngang  Bài tập ví dụ: 
Xét ảnh chói Y: truyền chuẩn NTSC    ∑ 𝑝𝑖𝑥𝑒𝑙/𝑠  30.525.525. 4/3   
→ 30fps, 525 dòng/hình, tỉ lệ 4:3 → 𝑓𝑚𝑎𝑥=  2 =  2  =5,5MHz        NÉN ẢNH   Khái niệm nén: 
Khái niệm nén được đề cập là phương pháp mã hoá nguồn. Mục đích chủ yếu của nó là giảm kích  thước dữ liệu    Original Image  Decoded Image  Encoder  0101100111...  Decoder      Bitstream    
Nguyễn tắc chính của các kỹ thuânt nén là giảm thông tin dư thừa, và không cần thiết trong các tín 
hiệu nhưng vẫn đảm bảo được chất lượng của tín hiệu 
Tỷ số nén: được xác định bằng tỷ số kích thước của dữ liệu trước nén và sau nén 
Tỷ số nén càng cao thì kích thước sau nén càng nhỏ nhưng đồng thời chất lượng tín hiệu cũng giảm 
đi Một số chuẩn nén ảnh tĩnh  - 
JPG: Joint Photographic Expert Group  - 
GIF: Graphics Interchange Format -  PNG:  Portable Network Graphics 
Đây là ba loại định dạng ảnh số phổ biến nhất 
Chuẩn lấy mẫu 4:4:4, 4:2:2, 4:2:0 
Ví dụ: Cho một ảnh màu kích thước 288x352 pixel, lấy mẫu 4:2:2, giá 
trị mỗi điểm ảnh cần 8bit biểu diễn.  
Mã hóa JPEG cho ảnh trên, biết tỷ số nén cho ảnh chói Y là 10 lần, tỷ 
số nén cho các tín hiệu hiệu màu Cb,Cr là 20 lần.  
Tính tỷ số nén của ảnh?  
Kích thước ảnh chưa mã hóa: 288 x 352 x 8bit x(1+0,5+0,5)  
Kích thước ảnh sau mã hóa:  
 288 x 352 x 8bit x(1/10+0,5/20+0,5/20)  
Tỷ số nén: 40/3 (lần)  
Nén ảnh JPEG: nén tổn háo (lossless) và không tổn hao (lossy) 
Nén RLC: aaaaaaabbbbccccddef → 7a4b4c2d1e1f 
Nén VLC: tuỳ theo số lần xuất hiện trong chuỗi bit, mã hoá với chiều dài bản mã cố định Với chiều dài 
k cố định, sử dụng cây nhị phân huffmanm.  DPCM:   
DCT: biến đổi miền thời gian – miền tần số DCT 1 chiều: 𝑁 – số mẫu của tín hiệu    1  𝑁    √  , 𝑢 = 0  𝑁  ( 𝑢 ) =    𝐹 ], 𝑎    2  𝑥    √ , 𝑢 ≠ 0         𝑁  DCT 2 chiều:    1  𝑁    √    , 𝑢 = 0    𝐹 𝑁  ( 𝑢 ) = 2  ] , 𝑎     √ , 𝑢 ≠ 0  𝑁  𝑥   Các bước mã hoá JPEG:                Quát zigzag 
Mã hoá MPEG: Moving picture Experts Group, 1988. Chuẩn nén video Mpeg-1, -2, -4 Moving JPEG 
(M-JPEG): chuẩn JPEG động:  - 
Chất lượng tốt nhưng đòi hỏi tốc độ cao (~50Mbps), không thích hợp truyền dẫn -  Lưu  trữ, studio       
Chuẩn MPEG ra đồi, dùng cho truyền dẫn. Loại bỏ các thông tin dư thừa: dư thừa không gina, dư  thừa thời gian  Mã hoá MPEG – dùng 4:2:0   
Thuật toán tìm Motion Vector  -  Sequential search  -  2D Logarthmic search  -  Hierarchical search  -  Mean Absoblute Difference  Mã hoá MPEG      Group of Pictures (GoP):  - 
I-frames: (Intra) Ảnh I - ảnh mã hoá nguyên  - 
P-frames: (Predicted) Ảnh P-ảnh dự đoán, ảnh được mã hoá dựa vào thông tin của ảnh trước  đó.  - 
B-frames: (Bidirectional Predicted) Ảnh B-ảnh dự đoán 2 chiều, ảnh được mã hoá dựa vào 
thông tin của ảnh trước và sau nó   
Bài tập:Đoạn video độ dài 60 phút được mã hóa theo chuẩn MPEG-2, với các tham số: cấu trúc truyền IBBPBBPBBP, kích thước ảnh CIF 
(352x288 pixel, 4:2:0, 8 bit/mẫu), tốc độ 25 hình/s. Biết các tham số nén sau đây:  
Tỷ lệ nén trung bình của ảnh I,P và B lần lượt là 8, 16 và 32 lần.(Giả thiết tham số nén đã bao gồm các header cần thiết)  
Tính kích thước (dung lượng) đoạn dữ liệu video sau khi mã hóa.   Gợi ý:  
Kích thước ảnh chưa nén: 352 x 288 x 8bit x (1+0,25+0,25)=X Trung bình 1s có: 2,5 ảnh I ;7,5 ảnh P và 15 ảnh B.  
Tốc độ Video sau mã hóa: 2,5 x X/8 + 7,5 x X/16 + 15 x X/32      
Dung lượng đoạn Video là: 652MB   Audio 
Dao động cơ học f = 20 – 20kHz lan truyền trong môi trường đàn hồi (không khí) 
- Tiếng nói: 300Hz – 4kHz 
- Amm thanh (Audio, Music): 20-20kHz 
Micro: Điện động (dynamic) và điện dung (tụ điện, condenser) 
Dynamic có độ nhạy thấp, dải tần có hạn (từ 50Hz đến 16kHz). Microphone dynamic thường dùng cho 
ca hát, sân khấu, karaoke, hát solo, thuyết giảng, hội họp,… 
Condenser có độ nhạy rất cao, bắt âm chính xác, nên thường phục vụ cho các lĩnh vực như thu âm phòng 
thu, thu âm nhạc cụ, phỏng vấn truyền hình, làm phim, hát hợp xướng, hát opera,… các lĩnh vực cần thu 
âm ở khoảng cách xa người nói    Điện động: nam châm 
Từ cảm B, chiều dài dây l    𝐹  𝐸 
𝐹 = 𝐵. 𝑙. 𝑖 → = 𝐵. 𝑙 = 𝑐𝑜𝑛𝑠𝑡 (tạo loa) → 𝐸 = 𝐵. 𝑙. 𝑣 → = 𝐵. 𝑙 (toạ micro)    𝑖  𝑣    Số hoá Audio 
Nyquist: 𝑓𝐿𝑀 ≥ 2𝑓𝑀  - 
Tiếng nói phổ 300Hz – 4KHz (𝑓𝐿𝑀 = 8𝐾𝐻𝑧)  - 
Âm thanh phổ 20-20KHz (𝑓𝐿𝑀 = 32; 44,1; 48𝐾𝐻𝑧) 
Tiếng nói: PCM, mono, 𝑓𝐿𝑀 = 8𝐾𝐻𝑧, 8𝑏𝑖𝑡/mẫu, 𝑅 = 64𝑘𝑏𝑝𝑠 
Âm thanh: 𝑓𝐿𝑀 = 44,1𝐾𝐻𝑧, 16𝑏𝑖𝑡/mẫu, 𝑅 = 2x44100 mẫu/s x 16bit/mẫu=1,41Mbit/s    Số hoá tiếng nói: 
PCM, mono, 𝑓𝐿𝑀 = 8𝐾𝐻𝑧, 8𝑏𝑖𝑡/mẫu, 𝑅 = 64𝑘𝑏𝑝𝑠 
DPCM: Diferential PCM, mã hoá vi sai. R=48kbps 
ADPCM: Adaptive DPCM, mã hoá vi sai thích nghi, R=16-32kbps        Câu 1: 
a. I-frame (Intra): ảnh mã hoá nguyên 
P-frame (Predicted): ảnh dự đoán, đc mã hoá dựa theo ảnh trước đó 
B-frame (Bidirectional Predicted): ảnh dự đoán 2 chiều, ảnh đc mã hoá dựa vào thông tin ảnh trước và  sau nó. 
Múc đích sử dụng ảnh B:  - 
Sử dụng cả ảnh trước và sau để dự đoán nội dung ảnh B giúp nén dữ liệu  - 
Giúp MPEG-2 giảm dung lượng dữ liệu cần lưu trữ  - 
Giảm số lượng bit cần thiết để mã hoá khung hình  - 
Giảm thiểu lỗi dự đoán và cải thiện chất lượng hình ảnh 
b. Cấu trúc truyền ảnh:      Frame 1          Frame 2    (1)  (2)  (3)  (4)  (5)  (6)  (7)  (8)  (9)  (10)  …  I  B  B  P  B  B  I  B  B  P  … 
Thứ tự truyền bên phát: 1 → 4 → 2 → 3 → 7 → 5 → 6 → 10 → 8 → 9 → ⋯ 
Bên thu sau khi nhận được sẽ sắp xếp lại theo đúng thứ tự c. 
Kích thước ảnh chưa nén là: 352 . 288 .8 . (1 + 0,5) = 1216512 𝑏𝑖𝑡 
Trung bình 1s có: 30/6=5 khung → 5 ảnh I, 5 ảnh P và 20 ảnh B 
Tốc độ video sau mã hoá: 5 .   + 5 .   + 20 .   = 1900,8𝐾𝑏𝑝𝑠 
Tốc độ video (bao gồm cả phần âm thanh): 1900,8 + 100 = 200,8𝐾𝑏𝑝𝑠 Câu 2: 
Áp dụng DCT-1D cho từng hàng:  7    1  (2𝑖 + 1). 𝑣𝜋  1  ( 𝑢 ) =  . ∑ 𝑓 ( 𝑖 ) . cos (  ( 0 ) =  . 20 . 8 = 40 √ 2  𝐹 2 . 𝐶 ( 𝑢 )  16  ) → 𝐹 2 √ 2   , 𝐹(𝑢) = 0, ∀𝑢  ≠ 0  𝑖=0         
Câu 3: Đặc điểm và ứng dụng của các chuẩn nén video 
MPEG-2 (Moving Picture Experts Group - 2): 
Đặc điểm: MPEG-2 là chuẩn nén video được phát triển ban đầu cho việc lưu trữ và truyền phát video 
chất lượng cao. Nó hỗ trợ nhiều tỷ lệ bit khác nhau và có khả năng xử lý video với độ phân giải khác  nhau. 
Ứng dụng: Được sử dụng rộng rãi trong các định dạng video như DVD, video truyền hình số (DVB), và  video trực tuyến.  MPEG-4: 
Đặc điểm: MPEG-4 được thiết kế để hỗ trợ nén video, âm thanh và dữ liệu với nhiều mức độ phân giải 
khác nhau. Nó cũng hỗ trợ tính năng tương tác và nâng cao cho video. 
Ứng dụng: Được sử dụng trong nhiều ứng dụng như video kỹ thuật số, phim hoạt hình, video di động và  hội nghị truyền hình. 
H.264/AVC (Advanced Video Coding): 
Đặc điểm: H.264 là chuẩn nén video hiệu suất cao, cung cấp chất lượng hình ảnh tốt với kích thước file 
nhỏ hơn so với các chuẩn trước đó. Nó hỗ trợ nhiều cấp độ nén và các tính năng như tiết kiệm băng 
thông và chất lượng video cao. 
Ứng dụng: Phổ biến trong phim Blu-ray, video trực tuyến, video di động và các ứng dụng gọi hình. 
H.265/HEVC (High Efficiency Video Coding): 
Đặc điểm: H.265 là chuẩn nén video tiếp theo sau H.264, cải tiến đáng kể hiệu suất nén so với H.264. Nó 
cho phép giảm đáng kể kích thước file video với cùng mức chất lượng hình ảnh. 
Ứng dụng: Được sử dụng trong các ứng dụng yêu cầu băng thông cao như video 4K và 8K, video phát 
trực tiếp và truyền hình siêu cao cấp. 
Câu 4: Loại thông tin dư thừa trong mã hóa video 
Trong mã hóa video, có 4 loại thông tin dư thừa chính: 
Thông tin không cần thiết (Redundant information): Là các phần của dữ liệu video có thể được loại bỏ 
mà không làm mất đi chất lượng hình ảnh, chẳng hạn như các bit dự báo, bit trung gian. 
Thông tin không thực sự quan trọng (Non-critical information): Là các phần của dữ liệu video mà có thể 
được lược bỏ mà không làm ảnh hưởng nghiêm trọng đến chất lượng hình ảnh, ví dụ như một số bit bù 
trùng hoặc bit đánh dấu. 
Thông tin đơn giản (Simple information): Là các đặc điểm của dữ liệu video có thể được mô tả bằng các 
mô hình đơn giản hơn mà không cần tới chi tiết phức tạp. 
Thông tin dư (Extraneous information): Là các phần của dữ liệu video không liên quan đến nội dung 
chính, như dữ liệu phụ, phần tiêu đề, hoặc thông tin quản lý dữ liệu. 
Câu 5: Phương pháp tìm kiếm vector chuyển động và ưu nhược điểm 
Phương pháp tìm kiếm vector chuyển động (Motion Vector Search) là kỹ thuật quan trọng trong mã hóa 
video để tìm ra vector chuyển động cho các khối ảnh. Phương pháp này thường được áp dụng trong các 
chuẩn nén video như MPEG và H.264/HEVC. 
Phương pháp: Thực hiện so khớp các khối ảnh trong khung hiện tại với khung tham chiếu trước đó để 
xác định vector chuyển động có thể giảm thiểu sai lệch.  Ưu điểm: 
Hiệu quả về mặt tính toán. 
Giúp giảm lượng dữ liệu cần truyền đi bằng cách chỉ truyền vector chuyển động và các sai lệch.  Nhược điểm: 
Có thể dẫn đến sai lệch nếu sự chuyển động quá lớn so với khoảng cách tìm kiếm.     
Yêu cầu tài nguyên tính toán khá cao, đặc biệt là khi áp dụng cho video có độ phân giải cao và tốc độ  khung hình nhanh.    Lý thuyết tổng hợp  Đặc điểm  MPEG-1  MPEG-2  MPEG-4  Ra đời  1993  1995  Cuối những năm 1990 
Nén với tổn thất dựa Nén với tổn thất dựa DCT, biến đổi sóng con, mã hóa  Phương pháp nén  trên DCT, mã hóa 
trên DCT, cải tiến mã dự đoán chuyển động  khối 8x8  hóa khối 8x8 
I-frame, P-frame, B-frame, dự  I-frame, P-frame,  Cấu trúc GOP  I-frame, P-frame 
đoán giữa đối tượng và khung  Bframe  hình  Tối  đa  352x240 Tối đa  720x480  Độ phân giải  (NTSC), 352x288  (NTSC), 
720x576 Linh hoạt từ thấp đến 4K  (PAL)  (PAL), hỗ trợ HD  Thường khoảng 1.5  2-10 Mbps, tối đa 40  Bitrate  Mbps 
Vài kbps đến hàng chục Mbps    Mbps  Cao, phù hợp cho DVD  Trung bình, phù hợp 
Rất cao, phù hợp cho nhiều ứng  Chất lượng  và truyền hình số  cho VCD  dụng hiện đại  Nén video và âm thanh 
Tích hợp đa phương tiện, SVC, 
cho VCD, âm thanh Nén đa luồng video và AVC/H.264, truyền tải trực  Tính năng 
stereo MPEG-1 Layer âm thanh, truyền hình tuyến, lưu trữ video, phát sóng  II  số, DVD      truyền hình  Chất lượng cao hơn  Tương thích rộng rãi, 
Tỷ lệ nén cao, hỗ trợ đa phương  Ưu điểm  MPEG-1, ứng dụng  dễ mã hóa/giải mã 
tiện, độ phân giải linh hoạt  rộng rãi 
Tỷ lệ nén không cao Phức tạp, yêu cầu phần cứng và 
Chất lượng và tỷ lệ nén  Nhược điểm 
như MPEG-4, yêu cầu phần mềm tiên tiến, chi phí giấy  hạn chế 
phần cứng mạnh hơn phép  Sequential Search 
Sequential Search là một phương pháp tìm kiếm motion vector đơn giản và dễ hiểu. Thuật toán 
này kiểm tra từng vị trí trong phạm vi tìm kiếm theo một thứ tự tuần tự cho đến khi tìm thấy vị 
trí có độ sai lệch (error) nhỏ nhất giữa khối hiện tại và khối tham chiếu.  - Phương pháp: 
- Bắt đầu từ một điểm gốc trong khung hình tham chiếu. 
- Di chuyển qua từng vị trí một cách tuần tự trong phạm vi tìm kiếm đã xác định. 
- Tính toán lỗi (thường là sai số bình phương trung bình - Mean Squared Error hoặc tổng độ 
chênh lệch tuyệt đối - Sum of Absolute Differences) cho từng vị trí. 
- Chọn vị trí có lỗi nhỏ nhất làm motion vector.  - Ưu điểm:  - Dễ triển khai. 
- Đảm bảo tìm được vị trí tối ưu (tuyệt đối) trong phạm vi tìm kiếm.      - Nhược điểm: 
- Rất tốn thời gian và tài nguyên tính toán, đặc biệt với phạm vi tìm kiếm lớn. 
- Không hiệu quả cho các ứng dụng thời gian thực.  2D Logarithmic Search 
2D Logarithmic Search là một phương pháp tìm kiếm motion vector hiệu quả hơn Sequential 
Search, sử dụng kỹ thuật tìm kiếm theo hàm logarithmic để giảm số lượng phép tính toán cần  thiết.  - Phương pháp: 
- Bắt đầu từ trung tâm của phạm vi tìm kiếm. 
- Sử dụng một bước nhảy lớn để tìm kiếm các vị trí lân cận (theo hình chữ thập). 
- Nếu không tìm thấy vị trí tối ưu, giảm kích thước bước nhảy (thường bằng cách chia đôi bước 
nhảy) và tiếp tục tìm kiếm từ vị trí có lỗi nhỏ nhất trong các bước trước đó. 
- Lặp lại quá trình cho đến khi kích thước bước nhảy nhỏ hơn một ngưỡng nhất định.  - Ưu điểm: 
- Tốc độ tìm kiếm nhanh hơn nhiều so với Sequential Search. 
- Tương đối dễ triển khai và hiệu quả với các phạm vi tìm kiếm lớn.  - Nhược điể: 
- Có thể bỏ lỡ các vị trí tối ưu nếu bước nhảy ban đầu quá lớn hoặc nếu khối chuyển động quá 
nhanh. - Không đảm bảo tìm kiếm được vị trí tối ưu tuyệt đối.    Hierarchical Search 
Hierarchical Search (hay còn gọi là Multi-resolution Search) là một phương pháp tìm kiếm 
motion vector bằng cách sử dụng các mức độ phân giải khác nhau của khung hình.  - Phương pháp: 
- Khung hình được chia thành nhiều mức phân giải khác nhau (từ mức thấp đến mức cao). 
- Bắt đầu tìm kiếm motion vector ở mức phân giải thấp nhất. 
- Sử dụng kết quả tìm kiếm ở mức phân giải thấp để xác định phạm vi tìm kiếm cho mức phân  giải cao hơn. 
- Lặp lại quá trình cho đến khi đạt mức phân giải cao nhất (phân giải gốc).  - Ưu điểm: 
- Rất hiệu quả về mặt tính toán, vì tìm kiếm ở mức phân giải thấp cần ít phép tính hơn. 
- Giảm thiểu khả năng bỏ sót vị trí tối ưu, vì phạm vi tìm kiếm được điều chỉnh dựa trên kết quả  tìm kiếm ở mức thấp.  - Nhược điểm: 
- Có thể giảm độ chính xác nếu mức phân giải thấp không đủ để nắm bắt chuyển động chính 
xác. - Phức tạp hơn trong triển khai so với các phương pháp tìm kiếm khác.   
 MPEG-2 (Moving Picture Experts Group - 2):  • 
Năm ra đời: Được phát triển vào những năm 1990 và được công bố năm 1995.  • 
Ứng dụng chính: Thường được sử dụng trong định dạng DVD, các dịch vụ truyền hình  số ban đầu.      • 
Kĩ thuật: Sử dụng mã hóa dựa trên khung hình (frame-based encoding), sử dụng DCT 
(Discrete Cosine Transform) và có thể hỗ trợ nhiều mức độ nén.   MPEG-4:  • 
Năm ra đời: Ra đời sau MPEG-2, vào những năm 1998.  • 
Ứng dụng chính: Được thiết kế để hỗ trợ nhiều nền tảng và ứng dụng đa phương tiện, 
bao gồm Internet, hội nghị truyền hình và ứng dụng di động.  • 
Kĩ thuật: Cải tiến so với MPEG-2, hỗ trợ mã hóa dựa trên đối tượng (object-based 
encoding), có khả năng nén tốt hơn với chất lượng tương đương ở mức bit thấp hơn.   
H.264/MPEG-4 AVC (Advanced Video Coding):  • 
Năm ra đời: Công bố vào năm 2003.  • 
Ứng dụng chính: Được sử dụng rộng rãi trong các dịch vụ truyền hình kỹ thuật số, 
video trực tuyến, Blu-ray và các ứng dụng di động.  • 
Kĩ thuật: Sử dụng các kỹ thuật như mã hóa dựa trên khung hình và mã hóa mạng dựa 
trên dự đoán (network-based prediction), cải thiện đáng kể hiệu suất nén so với các tiêu  chuẩn trước đó.   
 H.265/HEVC (High Efficiency Video Coding):  • 
Năm ra đời: Công bố vào năm 2013.  • 
Ứng dụng chính: Được thiết kế để cải thiện hiệu quả nén hình ảnh so với H.264, phù 
hợp cho các nền tảng có băng thông hẹp và đòi hỏi chất lượng cao.  • 
Kĩ thuật: Sử dụng các kỹ thuật như mã hóa dựa trên cụm (block-based encoding) và cải 
thiện khả năng nén hình ảnh so với H.264, giúp giảm đáng kể lượng dữ liệu cần thiết để 
truyền tải video cùng chất lượng.  Đặc điểm  JPEG  GIF  PNG  Năm ra đời  1992  1987  1996  Màu sắc  Hỗ trợ màu 24-bit (16  Hỗ trợ màu 8-bit (256  Hỗ trợ màu 24-bit (16  triệu màu)  màu)  triệu màu)  Nén ảnh  Lossy compression  Lossless compression  Lossless compression  Chất lượng 
Giảm chất lượng ảnh khi Giữ nguyên chất lượng  Giữ nguyên chất lượng  nén  ảnh khi nén  ảnh khi nén  Độ phân giải  Phù hợp cho hình ảnh  Phù hợp cho ảnh động,  Phù hợp cho hình ảnh 
thực tế, ảnh nghệ thuật  biểu tượng 
thực tế, ảnh nghệ thuật  Dùng cho 
Hình ảnh chụp, web, in ấn Biểu tượng động, đồ họa Hình ảnh chụp, lưu trữ  đơn giản  hình ảnh  Kích thước  Lớn hơn so với GIF và 
Nhỏ hơn so với JPEG và Thường lớn hơn GIF, nhỏ  PNG khi nén  PNG khi nén  hơn JPEG khi nén 
Trong quá trình mã hóa video, các kỹ thuật nén (compression) thường được sử dụng để giảm 
kích thước tệp video mà vẫn giữ được chất lượng hình ảnh chấp nhận được. Trong bối cảnh này, 
"thông tin dư thừa" (redundant information) thường đề cập đến các phần của dữ liệu video có 
thể bị loại bỏ hoặc nén mà không ảnh hưởng đáng kể đến chất lượng tổng thể của video. Dưới 
đây là một số ví dụ về thông tin dư thừa trong video:     
1. Redundancy in Spatial Domain (Không gian): 
o Các pixel liền kề có giá trị tương tự: Trong một khung hình video, các pixel 
gần nhau thường có giá trị màu tương tự. Các kỹ thuật nén như JPEG và các 
chuẩn nén video như H.264 sử dụng biến đổi Cosine rời rạc (DCT) để loại bỏ sự  dư thừa này. 
2. Redundancy in Temporal Domain (Thời gian): 
o Các khung hình liên tiếp giống nhau: Trong nhiều video, có rất ít sự thay đổi 
giữa các khung hình liên tiếp. Các thuật toán nén như H.264 sử dụng dự đoán 
liên khung (inter-frame prediction) để mã hóa sự thay đổi giữa các khung hình 
thay vì mã hóa từng khung hình riêng biệt. 
3. Visual Redundancy (Thị giác): 
o Các chi tiết khó nhận thấy: Mắt người không nhạy cảm với một số chi tiết nhỏ 
hoặc sự thay đổi màu sắc. Các thuật toán nén thường loại bỏ hoặc giảm độ chính 
xác của những chi tiết này mà không gây ảnh hưởng đáng kể đến trải nghiệm  xem của người dùng. 
4. Perceptual Redundancy (Cảm nhận): 
o Các tần số cao mà mắt người không phân biệt được: Một số tần số cao trong 
hình ảnh không được mắt người nhận biết rõ ràng. Các kỹ thuật nén như biến đổi 
Wavelet hoặc DCT sẽ giảm bớt hoặc loại bỏ các thành phần tần số cao này. 
Nhờ loại bỏ hoặc giảm thiểu các dạng thông tin dư thừa này, các phương pháp nén video có thể 
giảm kích thước tệp video mà vẫn duy trì chất lượng hình ảnh ở mức chấp nhận được.  Đặc điểm  PCM  DPCM  ADPCM 
Mã hóa sự khác biệt và  Nguyên lý 
Mã hóa giá trị tuyệt đối Mã hóa sự khác biệt  điều chỉnh động 
Đơn giản, độ trung thực  Hiệu quả nén tốt hơn  Ưu điểm  cao  Giảm băng thông    DPCM 
Độ trung thực thấp hơn 
Phức tạp hơn trong thực  Nhược điểm 
Đòi hỏi băng thông cao PCM  hiện  Nén âm thanh, chuẩn  Ứng dụng  Điện thoại, CD audio  Nén âm thanh, video  G.726ality. 
Trong mã hóa video, dư thừa đề cập đến thông tin không cần thiết hoặc lặp lại làm tăng kích 
thước tệp mà không cải thiện chất lượng. Dưới đây là bốn loại dư thừa thường thấy trong mã  hóa video: 
1. Dư thừa không gian: Điều này xảy ra trong các khung hình riêng lẻ, nơi các điểm ảnh 
liền kề thường có giá trị tương tự. Các kỹ thuật nén không gian (ví dụ, thông qua giảm 
mẫu không gian hoặc lượng tử hóa) giảm thiểu dư thừa này bằng cách chỉ mã hóa các  chi tiết cần thiết. 
2. Dư thừa thời gian: Dư thừa này tồn tại giữa các khung hình liên tiếp trong một chuỗi 
video. Vì các khung hình liền kề thường chứa thông tin tương tự, các phương pháp nén 
thời gian như ước lượng và bù trừ chuyển động giúp giảm dữ liệu dư thừa bằng cách chỉ 
lưu trữ các thay đổi từ khung hình này sang khung hình khác.     
3. Dư thừa tâm lý thị giác: Dư thừa này liên quan đến giới hạn của nhận thức con người. 
Các codec video khai thác điều này bằng cách loại bỏ các chi tiết ít được chú ý hơn hoặc 
giảm độ trung thực ở những khu vực mà người xem ít có khả năng nhận thấy thay đổi, 
do đó tối ưu hóa tỷ lệ nén mà không làm giảm chất lượng có thể nhận biết. 
4. Dư thừa mã hóa: Loại dư thừa này xảy ra do sự kém hiệu quả trong cách biểu diễn và 
mã hóa dữ liệu. Các codec video hiện đại sử dụng các kỹ thuật mã hóa tiên tiến như mã 
hóa entropy (như mã hóa Huffman hoặc mã hóa số học) để giảm thiểu thông tin dư thừa 
này và đạt được hiệu quả nén cao hơn. 
Giảm thiểu hiệu quả các dạng dư thừa này là rất quan trọng để tối ưu hóa hiệu quả mã hóa video, 
dẫn đến kích thước tệp nhỏ hơn mà vẫn duy trì hoặc cải thiện chất lượng cảm nhận. 
Mã hóa tham số (Parametric Encoding) và mã hóa dạng sóng (Waveform Encoding) là hai 
phương pháp chính được sử dụng trong xử lý tín hiệu, đặc biệt là trong lĩnh vực truyền thông và 
mã hóa âm thanh. Dưới đây là sự phân biệt chi tiết giữa hai phương pháp này: 
1. Mã hóa tham số (Parametric Encoding) 
- Nguyên lý hoạt động: Phương pháp này phân tích tín hiệu đầu vào và trích xuất các tham số 
đặc trưng của nó. Sau đó, chỉ các tham số này được mã hóa và truyền đi. 
- Ví dụ: Một ví dụ phổ biến là mã hóa giọng nói sử dụng các tham số như tần số cơ bản, biên độ 
và các hệ số LPC (Linear Predictive Coding).  - Ưu điểm: 
- Hiệu quả băng thông: Giảm thiểu lượng 
dữ liệu cần truyền tải, vì chỉ các tham 
số quan trọng được gửi đi. - Hiệu quả 
nén: Đạt được mức độ nén cao, làm 
giảm dung lượng lưu trữ và băng thông  truyền tải.  - Nhược điểm: 
- Chất lượng tái tạo: Chất lượng tín hiệu 
tái tạo có thể thấp hơn do việc chỉ dựa 
vào các tham số đã trích xuất. - Phức 
tạp: Quá trình phân tích và mã hóa 
tham số có thể phức tạp và đòi hỏi  nhiều tính toán. 
 2. Mã hóa dạng sóng (Waveform Encoding) 
- Nguyên lý hoạt động: Phương pháp này mã hóa trực tiếp dạng sóng của tín hiệu đầu vào. Các 
mẫu của dạng sóng được lấy mẫu, lượng tử hóa và mã hóa để truyền tải. 
- Ví dụ: PCM (Pulse Code Modulation) là một ví dụ điển hình, trong đó tín hiệu âm thanh được 
lấy mẫu và mỗi mẫu được biểu diễn dưới dạng số.  - Ưu điểm: 
- Chất lượng tái tạo: Tín hiệu tái tạo thường có chất lượng cao hơn vì nó duy trì gần như toàn bộ 
thông tin của tín hiệu gốc. 
- Đơn giản: Quá trình mã hóa và giải mã đơn giản hơn so với mã hóa tham số.  - Nhược điểm:     
- Hiệu quả băng thông: Yêu cầu băng thông lớn hơn, vì toàn bộ dạng sóng được truyền đi. 
- Hiệu quả nén: Không đạt được mức độ nén cao như mã hóa tham số.   Tóm lại: 
- Mã hóa tham số: Trích xuất và mã hóa các tham số đặc trưng của tín hiệu. Hiệu quả trong việc 
giảm dung lượng dữ liệu nhưng có thể giảm chất lượng tái tạo. 
- Mã hóa dạng sóng: Mã hóa trực tiếp các mẫu dạng sóng của tín hiệu. Đảm bảo chất lượng tái 
tạo tốt nhưng yêu cầu băng thông lớn hơn. 
Việc lựa chọn phương pháp mã hóa phù hợp tùy thuộc vào yêu cầu cụ thể của ứng dụng về chất 
lượng, băng thông và hiệu quả nén. 
Các thuật toán LPC (Linear Predictive Coding), PCM (Pulse Code Modulation), DPCM 
(Differential Pulse Code Modulation), và ADPCM (Adaptive Differential Pulse Code 
Modulation) đều là các phương pháp mã hóa tín hiệu âm thanh và tín hiệu nói. Chúng có các đặc 
điểm kĩ thuật và cách hoạt động khác nhau như sau: 1. Linear Predictive Coding (LPC) Đặc  điểm kỹ thuật: 
- LPC là một phương pháp nén âm thanh sử dụng mô hình dự đoán tuyến tính. 
- LPC thường được sử dụng trong việc xử lý tín hiệu nói, đặc biệt trong các ứng dụng như mã 
hóa giọng nói, tổng hợp giọng nói và nhận dạng giọng nói. 
- LPC có thể đạt được tỷ lệ nén rất cao.  Cách hoạt động: 
- LPC dự đoán giá trị của mẫu tiếp theo dựa trên một số mẫu trước đó bằng cách sử dụng một  mô hình tuyến tính. 
- Các hệ số của mô hình tuyến tính này (gọi là các hệ số LPC) được tính toán sao cho sai số giữa 
giá trị dự đoán và giá trị thực tế là nhỏ nhất. 
- Sai số dự đoán (residual) cùng với các hệ số LPC được mã hóa và truyền đi. 2. Pulse Code 
Modulation (PCM) Đặc điểm kỹ thuật: 
- PCM là phương pháp mã hóa tín hiệu số cơ bản và đơn giản nhất. 
- PCM thường được sử dụng trong các hệ thống truyền thông số và lưu trữ âm thanh, như CD,  điện thoại và VoIP. 
- PCM không thực hiện bất kỳ nén nào, do đó, tín hiệu PCM yêu cầu băng thông cao và dung  lượng lưu trữ lớn.  Cách hoạt động: 
- Tín hiệu liên tục (analog) được lấy mẫu tại các thời điểm rời rạc với tần số lấy mẫu đủ cao  (theo định lý Nyquist). 
- Mỗi mẫu được lượng tử hóa (quantized) thành một trong một số mức giá trị rời rạc và được 
biểu diễn bằng mã nhị phân. 
- Kết quả là một chuỗi các mã nhị phân đại diện cho các mức lượng tử hóa của các mẫu tín hiệu. 
3. Differential Pulse Code Modulation (DPCM) Đặc điểm kỹ thuật: 
- DPCM là một biến thể của PCM, sử dụng sự khác biệt giữa các mẫu liên tiếp để mã hóa thay 
vì mã hóa trực tiếp các giá trị mẫu. 
- DPCM có thể giảm thiểu dung lượng cần thiết cho lưu trữ hoặc truyền tải bằng cách giảm mức 
độ của dữ liệu lượng tử hóa.  Cách hoạt động:     
- Thay vì mã hóa trực tiếp giá trị của mỗi mẫu, DPCM mã hóa sự khác biệt giữa giá trị của mẫu 
hiện tại và mẫu trước đó. 
- Sai số giữa giá trị dự đoán và giá trị thực tế được lượng tử hóa và truyền đi. 
- Bộ giải mã sẽ tái tạo lại tín hiệu bằng cách cộng dồn các giá trị khác biệt vào giá trị của mẫu 
trước đó. 4. Adaptive Differential Pulse Code Modulation (ADPCM) Đặc điểm kỹ thuật: 
- ADPCM là một biến thể của DPCM, trong đó quá trình lượng tử hóa sự khác biệt giữa các 
mẫu được điều chỉnh tự động (adaptive) dựa trên đặc điểm của tín hiệu. 
- ADPCM thường được sử dụng trong các ứng dụng nén âm thanh và giọng nói như điện thoại 
di động, VoIP, và các thiết bị ghi âm kỹ thuật số.  Cách hoạt động: 
- Giống như DPCM, ADPCM mã hóa sự khác biệt giữa các mẫu liên tiếp, nhưng sử dụng một 
kỹ thuật lượng tử hóa thay đổi theo thời gian. 
- Bộ mã hóa ADPCM điều chỉnh kích thước lượng tử hóa dựa trên đặc tính của tín hiệu để cải 
thiện chất lượng mã hóa và giảm thiểu sai số. 
- Bộ giải mã sử dụng cùng một kỹ thuật điều chỉnh để tái tạo lại tín hiệu gốc. 
Các phương pháp này đều có ưu và nhược điểm riêng, và lựa chọn phương pháp phù hợp phụ 
thuộc vào yêu cầu cụ thể của ứng dụng như chất lượng âm thanh, băng thông, và tài nguyên tính  toán. 
Mã hóa âm thanh trong miền thời gian là một phương pháp xử lý và nén âm thanh mà ở đó, dữ 
liệu âm thanh được xử lý và mã hóa trực tiếp trên tín hiệu thời gian không gian (time 
waveform). Phương pháp này không chuyển đổi tín hiệu sang bất kỳ dạng biểu diễn tần số nào 
như Fourier hoặc Cosine trước khi nén. Mục tiêu của mã hóa thời gian là giảm lượng dữ liệu cần 
thiết để lưu trữ hoặc truyền tải tín hiệu mà vẫn giữ được chất lượng âm thanh mong muốn.  Cách Thức Hoạt Động 
Thu Thập Mẫu Âm Thanh: Tín hiệu âm thanh được lấy mẫu ở một tốc độ nhất định để chuyển 
đổi từ tín hiệu analog sang dạng số. Mỗi mẫu biểu diễn một giá trị cường độ âm thanh tại một  thời điểm cụ thể. 
Lượng Tử Hóa: Các mẫu được lượng tử hóa, tức là chúng được làm tròn thành các giá trị gần 
nhất trong một tập hợp các giá trị cho trước. Quá trình này giảm số lượng bit cần thiết để biểu 
diễn mỗi mẫu. Mã Hóa Entropy: Sau khi lượng tử hóa, các mẫu được mã hóa bằng các kỹ thuật 
mã hóa entropy như Huffman coding hoặc arithmetic coding để giảm thêm lượng dữ liệu. 
Bù Sai Số: Các kỹ thuật như DPCM (Differential Pulse Code Modulation) hoặc ADPCM  (Adaptive 
Differential Pulse Code Modulation) có thể được sử dụng để chỉ mã hóa sự khác biệt giữa các 
mẫu liên tiếp, giúp giảm lượng dữ liệu cần thiết hơn nữa.  Ưu Điểm 
Độ Trễ Thấp: Không cần biến đổi phức tạp lên tín hiệu, do đó mã hóa âm thanh trong miền thời 
gian thường có độ trễ thấp hơn so với mã hóa trong miền tần số. 
Đơn Giản và Hiệu Quả: Với các tín hiệu có băng thông hẹp hoặc yêu cầu thời gian thực, mã hóa 
thời gian có thể hiệu quả hơn về mặt tính toán.  Nhược Điểm 
Kém Hiệu Quả Hơn trong Nén: So với mã hóa trong miền tần số, mã hóa trong miền thời gian 
thường không hiệu quả bằng trong việc nén dữ liệu, đặc biệt với các tín hiệu phức tạp có nhiều     
thành phần tần số. Phụ Thuộc vào Tín Hiệu: Hiệu suất của mã hóa thời gian có thể phụ thuộc 
nhiều vào đặc tính của tín hiệu đầu vào. Ví dụ, nó có thể không làm việc tốt với âm thanh có  nhiều tần số cao. 
Mã hóa âm thanh trong miền thời gian vẫn là một lựa chọn quan trọng trong nhiều ứng dụng như 
truyền thanh thoại, vì sự đơn giản và khả năng phản hồi nhanh của nó. Tuy nhiên, đối với các 
ứng dụng đòi hỏi tỷ lệ nén cao và chất lượng cao, mã hóa âm thanh trong miền tần số thường  được ưa chuộng hơn.     
Câu 1: Mã hoá tiếng nói: Trình bày về phương pháp mã hoá tham số LPC. Sự khác biệt 
giữa hai phương pháp mã hoá tham số và mã hoá dạng song. 
Linear Predictive Coding (LPC) là phương pháp mã hóa tiếng nói dựa trên dự đoán giá 
trị hiện tại của tín hiệu từ các giá trị trước đó. LPC sử dụng một mô hình tuyến tính để biểu diễn 
tín hiệu tiếng nói, giúp giảm băng thông cần thiết cho việc truyền tải mà vẫn duy trì chất lượng 
âm thanh chấp nhận được. 
Hoạt động dựa trên nguyên lý dự đoán tuyến tính, trong đó một mẫu tín hiệu tiếng nói 
x(n) được dự đoán từ các mẫu trước đó x(n−1),x(n−2),...,x(n−p) với sai số dự đoán nhỏ nhất. 
Công thức dự đoán tuyến tính có dạng:   
Các bước thực hiện mã hóa LPC 
1. Phân tích khung: Tín hiệu tiếng nói được chia thành các khung nhỏ (20-30 ms) để xử lý. 
2. Ước lượng hệ số LPC: Ước lượng các hệ số dự đoán aka_kak . 
3. Tính toán sai số dự đoán: Tính toán và mã hóa sai số giữa tín hiệu gốc và tín hiệu dự  đoán. 
4. Mã hóa tín hiệu sai số: Lượng tử hóa và mã hóa tín hiệu sai số và các hệ số dự đoán. 
Ứng dụng của LPC 
● Nén tiếng nói: Giảm băng thông cần thiết cho truyền tải tiếng nói. 
● Tổng hợp tiếng nói: Tạo ra tiếng nói nhân tạo. 
● Nhận dạng tiếng nói: Trích xuất đặc trưng của tiếng nói để nhận dạng và phân loại.  Sự khác biệt  Mã hóa tham số  Mã hóa dạng sóng  Cơ chế 
Mô hình hóa và mã hóa các Mã hóa trực tiếp tín hiệu 
tham số của tín hiệu tiếng tiếng nói dưới dạng sóng.  nói.  Ưu điểm 
Hiệu quả nén cao, giảm Chất lượng âm thanh cao,  băng thông đáng kể 
giữ nguyên đặc trưng của  tín hiệu gốc.      Nhược điểm 
Chất lượng tín hiệu có thể Yêu cầu băng thông lớn 
giảm trong môi trường hơn so với mã hóa tham số. 
nhiễu. Không phù hợp cho 
tín hiệu phi tiếng nói (như  nhạc). 
Câu 2: Trình bày sự khác biệt cơ bản giữa chuẩn mã hoá video MPEG-2 và MPEG-4  Sự khác biệt  MPEG-2  MPEG-4 
Hiệu suất mã hoá và 
Được thiết kế để cải thiện hiệu 
Được phát triển ban đầu cho  chất lượng video 
suất mã hoá so với MPEG-2. 
việc mã hoá video chất lượng 
Nó cho phép mức độ nén cao 
cao, thường được sử dụng trong hơn mà vẫn duy trì chất lượng 
các định dạng video như DVD, hình ảnh tương đương hoặc tốt 
các đài truyền hình số, và các 
hơn. Điều này làm cho MPEG-4  ứng dụng khác. MPEG-2 
thích hợp hơn cho các ứng dụng 
thường tốn nhiều băng thông 
yêu cầu băng thông thấp hơn 
hơn so với MPEG-4 để đạt được hoặc yêu cầu chia sẻ video qua 
cùng một chất lượng hình ảnh.  internet.  Công nghệ mã hoá 
Sử dụng phương pháp mã hoá 
Bao gồm nhiều cải tiến, bao  DCT (Discrete Cosine 
gồm việc sử dụng các công 
Transform) kết hợp với phương nghệ như Mã hoá Video tiên 
pháp mã hoá chuyển đổi vùng. 
tiến (AVC) và Mã hoá Video  Hiệu suất Cao (HEVC), cho 
phép nén video hiệu quả hơn 
với cùng một lượng dữ liệu.  Hỗ trợ tính năng 
Chủ yếu tập trung vào việc phát Ngoài việc cải thiện hiệu suất 
triển chuẩn dành cho phương 
mã hoá, MPEG-4 còn hỗ trợ 
tiện truyền thông truyền thống 
nhiều tính năng mở rộng như  như DVD, TV số. 
mã hóa đa kênh, hỗ trợ âm 
thanh nâng cao (bao gồm cả âm 
thanh đa kênh), mã hóa dữ liệu 
đa phương tiện, và khả năng 
tích hợp các đối tượng 3D và đồ  họa chuyển động.     
Ứng dụng và sử dụng Vẫn được sử dụng rộng rãi trong Thường được sử dụng cho các 
các ứng dụng phát sóng và 
ứng dụng có yêu cầu cao hơn về 
truyền hình, đặc biệt là trong 
hiệu suất mã hoá và sự linh hoạt 
các thiết bị như DVD player, TV trong việc truyền tải video qua  số, v.v. 
internet, streaming video, các 
ứng dụng di động, video hội  nghị trực tuyến, v.v. 
Câu 3: Trình bày và nêu sự khác biệt giữa hai phương pháp tìm kiếm vector chuyển động 
(trong mã hoá video MPEG-2). Sequential và 2D logarithmic search.  Tiêu chí 
Tìm kiếm tuần tự  Tìm kiếm logarit 2D  Khái niệm 
Phương pháp tìm kiếm đơn giản, 
duyệt qua từng phần tử trong dãy dữ 
liệu theo thứ tự từ đầu đến cuối để 
Phương pháp tìm kiếm hiệu quả, dựa trên 
tìm phần tử cần tìm. Độ phức tạp 
cây nhị phân để chia dãy dữ liệu thành các 
tính toán của nó là O(n), tuyến tính 
nhánh nhỏ hơn và lặp đi lặp lại quá trình 
với kích thước của dãy dữ liệu. 
này cho đến khi tìm thấy phần tử cần tìm. 
Độ phức tạp tính toán của nó là O(log n), 
logarit với kích thước của dãy dữ liệu.  O(n)  O(log n) 
Độ phức tạp tính  toán  Hiệu quả mã hóa  Thấp hơn  Cao hơn 
Khả năng thực tiễn  Thấp hơn  Cao hơn  thời gian thực