Diffusion Transformer kết hợp với Phổ Wavelet Đa
cấp cho Siêu độ phân giải Ảnh đơn
*
ICCV 2025 Paper Translation
Tên Tác Giả
Khoa/Phòng
Tên T chức
Thành phố, Quốc gia
email@address.com
Tóm tắt nội dung—Biến đổi Wavelet Rời rạc (DWT) đã được
nghiên cứu rộng rãi nhằm nâng cao hiệu suất của siêu độ phân
giải ảnh (SR). Mặc một số phương pháp dựa trên DWT đã
cải thiện SR bằng cách thu thập các tín hiệu tần số chi tiết, hầu
hết các phương pháp hiện nay lại bỏ qua mối tương quan giữa
các băng tần đa quy mô, dẫn đến sự thiếu nhất quán các
lỗi giả (artifacts) không tự nhiên trong ảnh được phục hồi. Để
giải quyết thách thức y, chúng tôi đề xuất hình Diffusion
Transformer dựa trên phổ Wavelet của ảnh cho bài toán SR
(DTWSR). DTWSR kết hợp ưu điểm của hình khuếch tán
(diffusion models) transformer để nắm bắt mối tương quan
giữa các băng tần đa quy mô, tạo ra ảnh SR nhất quán chân
thực hơn. Cụ thể, chúng tôi sử dụng Biến đổi Wavelet Rời rạc
đa cấp (MDWT) để phân tách hình ảnh thành các phổ wavelet.
Một phương pháp phân tách token dạng kim tự tháp (pyramid
tokenization) được đề xuất nhằm nhúng các phổ y vào một
chuỗi các token cho hình transformer, hỗ trợ việc trích xuất
đặc trưng từ cả miền không gian miền tần số. Một bộ giải
kép (dual-decoder) được thiết kế tỉ mỉ để xử các biến thể khác
biệt trong các băng tần thấp (LF) băng tần cao (HF), đồng
thời không bỏ qua sự căn chỉnh giữa chúng trong quá trình tạo
ảnh. Các thực nghiệm sâu rộng trên nhiều bộ dữ liệu chuẩn đã
chứng minh hiệu quả của phương pháp, đạt hiệu suất cao v cả
chất lượng cảm nhận độ trung thực của ảnh.
Index Terms—Siêu độ phân giải (SR), Diffusion Transformer
(DiT), Biến đổi Wavelet Rời rạc (DWT), Phục hồi ảnh.
I. GII THIU
Siêu độ phân giải ảnh đơn (SISR) đã nhận được sự chú ý
ngày càng tăng trong nhiều thập kỷ qua nhờ vào các ứng dụng
rộng rãi của nó. Nhiệm vụ này tập trung vào việc khôi phục
hình ảnh độ phân giải cao (HR) từ các đầu vào độ phân giải
thấp (LR) cho trước, hướng tới hiệu suất cao v cả độ trung
thực khách quan (fidelity) và chất lượng cảm nhận (perceptual
quality). Hầu hết các phương pháp hiện nay thiết lập ánh xạ
từ ảnh LR sang ảnh HR trong miền pixel. Để nắm bắt được
các chi tiết tần số mịn - yếu tố quan trọng cho SR, một số
hướng tiếp cận sử dụng Biến đổi Wavelet Rời rạc (DWT) để
chuyển đổi hình ảnh sang miền tần số. DWT tả một hình
ảnh thông qua một chuỗi các băng tần (sub-bands). Băng tần
thấp (LF) phản ánh cấu trúc hình học toàn cục ảnh hưởng
đến độ trung thực khách quan, trong khi các băng tần cao
(HF) đại diện cho các chi tiết kết cấu ảnh hưởng đáng kể
đến chất lượng cảm nhận [?], [3]. Như đã chỉ ra trong [5],
SISR can be for mulated as a wavelet coefficients prediction
task. Với việc dự đoán chính xác các hệ số wavelet dựa trên
đầu vào LR, ảnh HR thể được tái cấu trúc thông qua biến
đổi DW T ngược (IDWT). Việc tối ưu hóa tr ực tiếp các hệ số
wavelet trong miền tần số đã cho thấy chất lượng tạo ảnh được
nâng cao [?], [5].
(a) Phổ wavelet đa cấp (b) Kết quả SR không tương quan tần số
(c) Kết quả của chúng tôi (d) Ảnh gốc (Ground truth)
Hình 1. Một hình transformer dựa trên phổ wavelet đa cấp được nghiên
cứu cho SR, cho phép học các mối quan hệ tần số đa quy để cải thiện
kết quả SR. So sánh giữa (b) (c), phương pháp đề xuất tạo ra các kết cấu
tự nhiên hơn.
Nhiều công trình đã được đề xuất để cải thiện độ chính xác
trong việc dự đoán các hệ số wavelet. Wavelet-SRNet [5] sử
dụng N mạng con CNN độc lập để dự đoán các mức hệ số
wavelet song song. WaveFace [?] sử dụng hình dựa trên
U-Net để khôi phục các băng tần HF một cách tuần tự trong
quá trình lấy mẫu lên (upsampling). WFEN [?] áp dụng DWT
trên mỗi cấp độ đặc trưng trong hình U-Net để giảm thiểu
sự biến dạng đặc trưng trong quá trình lấy mẫu xuống. Tuy
nhiên, theo hiểu biết của chúng tôi, các phương pháp hiện
thường xử từng cấp độ hệ số HF một cách độc lập
không xem xét các mối tương quan giữa các băng tần HF đa
quy mô.
Xét đến mục tiêu của SISR, không chỉ cấu trúc không gian
quan trọng để tránh biến dạng hình học, sự tương quan
giữa các băng tần của ảnh cũng đóng vai trò then chốt cho chất
lượng cảm nhận tốt hơn. Do đó, trong công trình y, chúng
tôi nghiên cứu một hình transformer dựa trên phổ wavelet
đa cấp cho SISR, tận dụng ưu thế của transfor mer trong việc
hình hóa các mối quan hệ tầm xa phức tạp. hình của
chúng tôi cho phép khám phá các mối tương quan giữa nhiều
băng tần tần số các quy khác nhau, dẫn đến các chi tiết
kết cấu tinh xảo (như được minh họa trong Hình 1 (b) so với
(c)).
Cụ thể, chúng tôi áp dụng phân tách Mallat [?] cho Biến đổi
Wavelet Rời rạc đa cấp (MDWT), thực hiện phân tách băng
tần LF lặp lại tại mỗi cấp độ tiếp theo (chi tiết tại Phần III).
Các băng tần thu được sau đó được kết hợp lại với nhau như
một biểu diễn phổ wavelet của hình ảnh. Như trong Hình 1,
bao gồm một băng tần LF nhiều băng tần HF các quy
khác nhau, chứa đựng các cấp độ thông tin kết cấu riêng
biệt. Sau đó, chúng tôi chia biểu diễn wavelet thành các mảng
(patches) để nhúng token, không chỉ trên băng tần LF còn
trên các băng tần HF. Khác với các phương pháp truyền thống
chia ảnh theo không gian, phương pháp của chúng tôi chia ảnh
từ góc nhìn của cả miền không gian miền tần số, tạo điều
kiện thuận lợi cho việc học các mối quan hệ tần số giữa các
băng tần. Ngoài ra, chúng tôi đề xuất một phương pháp phân
tách token dạng kim tự tháp (pyramid tokenization) dựa trên
tính thưa thớt của các băng tần HF. Phương pháp này giúp
giảm đáng k số lượng token tiết kiệm chi phí tính toán
trong transformer không làm giảm hiệu suất hình.
Lấy cảm hứng từ khả năng vượt trội của hình Khuếch
tán (Diffusion Model - DM) trong việc tạo ra các chi tiết
ảnh mịn, chúng tôi xây dựng phương pháp của mình bằng
cách sử dụng khung khuếch tán điều kiện và đề xuất
hình Diffusion Transformer dựa trên phổ Wavelet của ảnh cho
SISR, viết tắt DTWSR. Các hình DM đảo ngược quá
trình khuếch tán một cách lặp đi lặp lại để đạt được ánh xạ
chất lượng cao từ nhiễu Gaussian được lấy mẫu ngẫu nhiên
sang ảnh mục tiêu, tránh được sự mất ổn định hiện tượng
sụp đổ mode (mode-collapse) thường thấy trong các hình
tạo ảnh trước đây [?], [?], [?]. Do sự khác biệt v phương sai
trong các băng tần MDWT, đặc biệt giữa LF mịn và các HF
thưa thớt, việc sử dụng một hình transformer thống nhất
để khử nhiễu đồng thời cho cả LF HF rất thách thức.
Do đó, chúng tôi thiết kế một hình transformer bộ giải
kép (dual-decoder), một để tạo ra các nội dung bản năng
lượng cao trong LF (gọi LEDec) và một để tạo ra các chi
tiết HF thưa thớt (gọi HDDec). Cần lưu ý rằng nội dung
bản từ LEDec không hoàn toàn tương đương với băng tần
LF. Băng tần LF vẫn chứa các thành phần HF, mặc rất ít.
HDDec được thiết kế để tạo ra cả các băng tần HF đa cấp
các thành phần HF của băng tần LF. Một mặt, thiết kế của
chúng tôi thể nắm bắt các mối tương quan giữa các băng
tần HF đa quy mô. Mặt khác, thúc đẩy sự căn chỉnh lại
giữa các băng tần LF HF, đạt được SR với độ trung thực
chất lượng cảm nhận được cải thiện.
Các đóng góp chính của bài báo y bao gồm:
Chúng tôi đề xuất hình Diffusion Transformer dựa
trên phổ wavelet của ảnh cho bài toán SISR. hình
y cho phép khám phá các mối tương quan giữa các
băng tần tần số đa quy mô.
Chúng tôi thiết kế phương pháp phân tách token dạng
kim tự tháp để nhúng phổ wavelet đa quy mô, giúp giảm
đáng kể số lượng token để tính toán hiệu quả.
Một hình bộ giải kép được thiết kế để ngăn chặn
sự chồng chéo giữa các phân phối tần số mịn và thưa
thớt, mang lại độ trung thực tốt hơn chi tiết mịn hơn.
Các thực nghiệm sâu rộng được thực hiện trên các bộ dữ
liệu chuẩn cho các nhiệm vụ SR ảnh khuôn mặt và ảnh
tổng quát. Phương pháp của chúng tôi cho thấy kết quả
định tính định lượng vượt trội (SOTA) với độ trung
thực và chất lượng cảm nhận hình ảnh được cải thiện.
II. CÁC CÔNG TRÌNH LIÊN QUAN
SISR đã đạt được những tiến bộ vượt bậc cùng với sự phát
triển của học sâu, bao gồm cả kiến trúc hình và khung
huấn luyện. Để cải thiện chất lượng thị giác, nhiều hình tạo
sinh khác nhau đã được áp dụng để huấn luyện hình SISR,
bao gồm GAN [?], [?], [?], [?], [2], các hình dòng (flow
models) [?], [?], [?] các hình Khuếch tán (DM) [?], [?],
[?], [?], [?]. Nghiên cứu của chúng tôi áp dụng transformer
khuếch tán dựa trên phổ wavelet cho bài toán SISR.
A. SISR dựa trên hình khuếch tán
hình khuếch tán (DM) đang nổi lên như một giải pháp
mạnh mẽ cho việc tạo ảnh chất lượng cao. SR3 [?] thích ứng
các DM điều kiện bằng cách kết hợp ảnh LR đã được lấy
mẫu lên với ảnh HR nhiễu để thực hiện nhiệm vụ SISR. Để
tăng tốc độ hội tụ ổn định quá trình huấn luyện của DM,
SRDiff [?] giới thiệu phương pháp dự đoán phần (residual
prediction). ResDiff [?] sử dụng một mạng CNN để khôi phục
ban đầu sau đó tinh chỉnh các chi tiết kết cấu bằng DM.
IDM [?] ASIG [?] nghiên cứu các DM trong bài toán SISR
liên tục bằng cách tích hợp biểu diễn thần kinh ẩn (implicit
neural representation). ResShift [?] SinSR [?] lần lượt tăng
tốc độ suy luận của DM bằng cách sửa đổi quy trình lấy mẫu
sử dụng chưng cất tri thức (knowledge distillation).
B. SISR dựa trên Biến đổi Wavelet Rời rạc (DWT)
DWT đã được sử dụng rộng rãi trong SISR nhờ khả năng
biểu diễn thông tin tần số của [?], [?], [?], [?], [?], [3].
DWSR [?] và DiWa [?] được xây dựng trên DWT đơn cấp để
cải thiện hình v các chi tiết kết cấu chính xác. Wavelet-
SRNet [5] và JWN [?] sử dụng các lớp CNN đa nhánh để dự
đoán các hệ số wavelet dựa trên đầu vào LR. WaveMixSR [?],
WTRN [?] WFEN [?] áp dụng DWT trên các đặc trưng
ảnh được trích xuất để bổ sung thông tin tần số cao (HF) trong
SISR. WaveFace [?] WaveDM [?] tận dụng việc kích thước
ảnh thu nhỏ theo hàm sau biến đổi DWT để giảm bớt
gánh nặng tính toán của DM. Deng và các cộng sự [3] đã đề
xuất chuyển đổi phong cách trong miền wavelet để đạt được
sự đánh đổi tốt hơn giữa cảm nhận độ méo (PD trade-off)
cho SISR. PDASR [?] WGSR [?] tối ưu hóa hàm mất mát
trên các băng tần wavelet để cải thiện sự đánh đổi PD y.
C. SISR dựa trên Transformer
Các hình dựa trên Transformer đã được nghiên cứu
trong SISR nhờ khả năng hình hóa quan hệ tầm xa của
chúng. SwinIR [?] áp dụng Swin transformer cho phục hồi
ảnh. SwinFIR [?] cải thiện SwinIR bằng cách tích hợp Tích
chập Fourier để nắm bắt thông tin toàn cục. HAT [?] kết hợp
chế tự c ý (self-attention), chú ý kênh (channel attention)
chú ý chéo chồng lấp (overlapping cross-attention) để kích
hoạt nhiều pixel hơn cho kết quả SR tốt hơn. Restormer [?] đề
xuất thực hiện tự chú ý theo hướng kênh để nắm bắt các tương
tác pixel tầm xa và đạt được hiệu suất cao trong phục hồi ảnh.
LMLT [?] chia các đặc trưng ảnh dọc theo chiều kênh sử
dụng chế chú ý với các kích thước đặc trưng khác nhau để
nắm bắt cả thông tin cục bộ toàn cục. Những công trình
y chủ yếu dựa trên hình ảnh trong miền pixel. DWT thường
được sử dụng trong các khối chú ý của hình transformer
để tăng cường đặc trưng ảnh, dụ như trong [?], [?], [?], [?].
Theo hiểu biết của chúng tôi, chúng tôi những người đầu
tiên hình hóa phổ wavelet đa quy của hình ảnh bằng
cách sử dụng kiến trúc transformer bản cho nhiệm vụ SR.
III. BIN ĐI WAVELET RI RC
Biến đổi Wavelet Rời rạc (DWT) được sử dụng rộng rãi để
phân tách một hình ảnh thành các băng tần thấp (LF) và băng
tần cao (HF), đặc biệt wavelet Haar [?] được sử dụng trong
bài báo y.
Cho một hình ảnh pixel I R
H×W ×3
, chúng ta phân tách
bằng toán tử DWT (DW T (·)), từ đó thu được băng tần
thấp x
L
R
H
2
×
W
2
×3
các băng tần cao {x
V
, x
H
, x
D
}
R
H
2
×
W
2
×3
:
x
1
L
, x
1
V
, x
1
H
, x
1
D
= DW T (I). (1)
Quá trình này thể được thực hiện thêm một lần nữa trên
x
1
L
, dẫn đến:
x
2
L
, x
2
V
, x
2
H
, x
2
D
= DW T (x
1
L
). (2)
Bằng cách tiếp tục quá trình y, chúng ta
{x
J
L
, x
J
V
, x
J
H
, x
J
D
} R
H
2
J
×
W
2
J
×3
sau lần biến đổi DWT thứ
J.
Bằng cách thay thế băng tần LF một cách đệ quy bởi các
băng tần đã được phân tách mỗi cấp độ [?], kết quả đầu
ra sau lần DWT thứ J {x
J
L
, x
J
V
, x
J
H
, x
J
D
, x
J1
V
, . . . , x
1
D
}.
Chúng ta thay đổi hình dạng (reshape) các băng tần đa cấp
y lại với nhau để tạo thành một biểu diễn phổ wavelet cấp
J của hình ảnh, hiệu I
fre
J
:
I
fre
J
= MDW T (I, J ). (3)
Ngược lại, hình ảnh pixel I thể được tái cấu trúc thông
qua biến đổi DWT ngược cấp J (ký hiệu IMDW T ):
I = IM DW T (I
fre
J
, J). (4)
Một dụ minh họa được trình bày trong Hình 1a.
IV. PHƯƠNG PHÁP NGHIÊN CU
Trong phần này, chúng tôi sẽ giới thiệu hình Diffusion
Transformer dựa trên phổ Wavelet cho nhiệm vụ SR.
A. hình Khuếch tán điều kiện trên phổ Wavelet cho
SISR
DM một chuỗi Markov được tham số hóa nhằm tạo ra
các mẫu khớp với phân phối dữ liệu huấn luyện. bao gồm
một quá trình khuếch tán xuôi một quá trình khử nhiễu
ngược. Đối với nhiệm vụ SR, yêu cầu hình ảnh được khôi
phục phải nhất quán với đầu vào LR:
p
θ
(I
t1
|I
t
, I
lr
) = N (I
t1
; µ
θ
(I
t
, t, I
lr
), Σ
θ
(I
t
, t, I
lr
)), (5)
trong đó θ tham số của mạng khử nhiễu WSDT. Hàm mất
mát tối ưu hóa được định nghĩa là:
L
vlb
= E
q
h
D
KL
(q(x
T
|x
0
)||p(x
T
))
+
X
t>1
D
KL
(q(x
t1
|x
t
, x
0
)||p
θ
(x
t1
|x
t
))
log p
θ
(x
0
|x
1
)
i
(6)
Chúng tôi chuyển đổi I
t
sang biểu diễn phổ wavelet cấp J
I
fre
t,J
để tinh chỉnh. Với hệ số phóng đại N , chúng tôi thực
hiện DWT cấp J = log
2
N.
B. Mạng khử nhiễu phổ Wavelet với Transfor mer (WSDT)
Hình 2b trình bày kiến trúc của WSDT. Cho một hình ảnh
nhiễu phổ wavelet I
fre
t,J
, đầu tiên chúng tôi chia thành các
token. Transformer kép sẽ khử nhiễu nội dung bản LF
chi tiết HF đa quy dựa trên điều kiện LR.
1) Phân tách token dạng kim tự tháp (Pyramid
tokenization): Xét tính thưa thớt của HF, chúng tôi thiết kế
kích thước mảng kim tự tháp p
j
để duy trì trường thụ cảm
nhất quán:
p
j
= p
min
× 2
Jj
, j {1, . . . , J}, (7)
trong đó p
min
kích thước mảng cho băng tần LF. Các token
được trích xuất như sau:
f
lr
= Conv2d
lr
(I
lr
),
f
J
L
= Conv2d
L
(x
J
L
),
F
j
H
= Conv2d
j
H
(X
j
H
), j {J, . . . , 1}.
(8)
Vị tr í 4D [j, d, P os
h
, P os
w
] được hóa bằng sine-cosine
nhúng vị trí chuẩn của ViT [4].
2) Thiết kế bộ giải kép (Dual-decoder design): Thay
khử nhiễu x
J
L
{X
j
H
} riêng biệt, chúng tôi xử lý thông
qua LEDec (cho nội dung trơn) và HDDec (cho chi tiết HF
phần LF).
LEDec. Tích hợp LR thông qua in-context conditioning với
mặt nạ M
low
:
f
lr
,
˜
f
J
Le
= LEDec([f
lr
, f
J
L
], M
low
, t). (9)
HDDec. Dùng mặt nạ M
high
để ép buộc tái căn chỉnh:
ˆ
f
lr
,
˜
f
J
Lr
,
˜
F
H
= HDDec([
˜
f
lr
,
˜
f
J
Le
, F
H
], M
high
, t). (10)
Giải phân tách token. Các token thu được được giải
tuyến tính:
y
J
L
= FC
L
(
˜
f
J
Le
+
˜
f
J
Lr
, t),
Y
j
H
= FC
j
H
(F
j
H
, t), j {1, . . . , J}.
(11)
Ảnh cuối cùng thu được qua inverse wavelet transform:
˜
I = IMDWT(
˜
I
fre
J
, J). (12)
Hình 2. Tổng quan về khung DTWSR. (a) tả quá trình lấy mẫu SR. (b) minh họa cấu trúc chi tiết của mạng khử nhiễu WSDT đề xuất.
Hình 3. Minh họa về TransBlock các mặt nạ (masks). Phần màu đen biểu
thị token bị che.
Hình 4. Minh họa về phân tách token dạng kim tự tháp.
TÀI LIU
[1] Du et al., “Diffusion Transformer meets Multi-level Wavelet Spectrum
for Single Image Super-Resolution, ICCV, 2025.
[2] GAN References...
[3] Wavelet References...
[4] ViT Position Embeddings...
[5] Wavelet-SRNet...
[6] In-context conditioning...

Preview text:

Diffusion Transformer kết hợp với Phổ Wavelet Đa
cấp cho Siêu độ phân giải Ảnh đơn *ICCV 2025 Paper Translation Tên Tác Giả Khoa/Phòng Tên Tổ chức Thành phố, Quốc gia email@address.com
Tóm tắt nội dung—Biến đổi Wavelet Rời rạc (DWT) đã được
đến chất lượng cảm nhận [?], [3]. Như đã chỉ ra trong [5],
nghiên cứu rộng rãi nhằm nâng cao hiệu suất của siêu độ phân
SISR can be formulated as a wavelet coefficients prediction
giải ảnh (SR). Mặc dù một số phương pháp dựa trên DWT đã
task. Với việc dự đoán chính xác các hệ số wavelet dựa trên
cải thiện SR bằng cách thu thập các tín hiệu tần số chi tiết, hầu
đầu vào LR, ảnh HR có thể được tái cấu trúc thông qua biến
hết các phương pháp hiện nay lại bỏ qua mối tương quan giữa
đổi DWT ngược (IDWT). Việc tối ưu hóa trực tiếp các hệ số
các băng tần đa quy mô, dẫn đến sự thiếu nhất quán và các
lỗi giả (artifacts) không tự nhiên trong ảnh được phục hồi. Để

wavelet trong miền tần số đã cho thấy chất lượng tạo ảnh được
giải quyết thách thức này, chúng tôi đề xuất mô hình Diffusion nâng cao [?], [5].
Transformer dựa trên phổ Wavelet của ảnh cho bài toán SR
(DTWSR). DTWSR kết hợp ưu điểm của mô hình khuếch tán
(diffusion models) và transformer để nắm bắt mối tương quan
giữa các băng tần đa quy mô, tạo ra ảnh SR nhất quán và chân
(a) Phổ wavelet đa cấp
(b) Kết quả SR không có tương quan tần số
thực hơn. Cụ thể, chúng tôi sử dụng Biến đổi Wavelet Rời rạc
đa cấp (MDWT) để phân tách hình ảnh thành các phổ wavelet.

(c) Kết quả của chúng tôi (d) Ảnh gốc (Ground truth)
Một phương pháp phân tách token dạng kim tự tháp (pyramid
Hình 1. Một mô hình transformer dựa trên phổ wavelet đa cấp được nghiên
tokenization) được đề xuất nhằm nhúng các phổ này vào một
cứu cho SR, cho phép học các mối quan hệ tần số đa quy mô để cải thiện
chuỗi các token cho mô hình transformer, hỗ trợ việc trích xuất
kết quả SR. So sánh giữa (b) và (c), phương pháp đề xuất tạo ra các kết cấu
đặc trưng từ cả miền không gian và miền tần số. Một bộ giải mã tự nhiên hơn.
kép (dual-decoder) được thiết kế tỉ mỉ để xử lý các biến thể khác
biệt trong các băng tần thấp (LF) và băng tần cao (HF), đồng

Nhiều công trình đã được đề xuất để cải thiện độ chính xác
thời không bỏ qua sự căn chỉnh giữa chúng trong quá trình tạo
ảnh. Các thực nghiệm sâu rộng trên nhiều bộ dữ liệu chuẩn đã

trong việc dự đoán các hệ số wavelet. Wavelet-SRNet [5] sử
chứng minh hiệu quả của phương pháp, đạt hiệu suất cao về cả
dụng N mạng con CNN độc lập để dự đoán các mức hệ số
chất lượng cảm nhận và độ trung thực của ảnh.
wavelet song song. WaveFace [?] sử dụng mô hình dựa trên
Index Terms—Siêu độ phân giải (SR), Diffusion Transformer
U-Net để khôi phục các băng tần HF một cách tuần tự trong
(DiT), Biến đổi Wavelet Rời rạc (DWT), Phục hồi ảnh.
quá trình lấy mẫu lên (upsampling). WFEN [?] áp dụng DWT
trên mỗi cấp độ đặc trưng trong mô hình U-Net để giảm thiểu I. GIỚI THIỆU
sự biến dạng đặc trưng trong quá trình lấy mẫu xuống. Tuy
Siêu độ phân giải ảnh đơn (SISR) đã nhận được sự chú ý
nhiên, theo hiểu biết của chúng tôi, các phương pháp hiện
ngày càng tăng trong nhiều thập kỷ qua nhờ vào các ứng dụng
có thường xử lý từng cấp độ hệ số HF một cách độc lập mà
rộng rãi của nó. Nhiệm vụ này tập trung vào việc khôi phục
không xem xét các mối tương quan giữa các băng tần HF đa
hình ảnh độ phân giải cao (HR) từ các đầu vào độ phân giải quy mô.
thấp (LR) cho trước, hướng tới hiệu suất cao về cả độ trung
Xét đến mục tiêu của SISR, không chỉ cấu trúc không gian
thực khách quan (fidelity) và chất lượng cảm nhận (perceptual
là quan trọng để tránh biến dạng hình học, mà sự tương quan
quality). Hầu hết các phương pháp hiện nay thiết lập ánh xạ
giữa các băng tần của ảnh cũng đóng vai trò then chốt cho chất
từ ảnh LR sang ảnh HR trong miền pixel. Để nắm bắt được
lượng cảm nhận tốt hơn. Do đó, trong công trình này, chúng
các chi tiết tần số mịn - yếu tố quan trọng cho SR, một số
tôi nghiên cứu một mô hình transformer dựa trên phổ wavelet
hướng tiếp cận sử dụng Biến đổi Wavelet Rời rạc (DWT) để
đa cấp cho SISR, tận dụng ưu thế của transformer trong việc
chuyển đổi hình ảnh sang miền tần số. DWT mô tả một hình
mô hình hóa các mối quan hệ tầm xa phức tạp. Mô hình của
ảnh thông qua một chuỗi các băng tần (sub-bands). Băng tần
chúng tôi cho phép khám phá các mối tương quan giữa nhiều
thấp (LF) phản ánh cấu trúc hình học toàn cục và ảnh hưởng
băng tần tần số ở các quy mô khác nhau, dẫn đến các chi tiết
đến độ trung thực khách quan, trong khi các băng tần cao
kết cấu tinh xảo (như được minh họa trong Hình 1 (b) so với
(HF) đại diện cho các chi tiết kết cấu và ảnh hưởng đáng kể (c)).
Cụ thể, chúng tôi áp dụng phân tách Mallat [?] cho Biến đổi
liệu chuẩn cho các nhiệm vụ SR ảnh khuôn mặt và ảnh
Wavelet Rời rạc đa cấp (MDWT), thực hiện phân tách băng
tổng quát. Phương pháp của chúng tôi cho thấy kết quả
tần LF lặp lại tại mỗi cấp độ tiếp theo (chi tiết tại Phần III).
định tính và định lượng vượt trội (SOTA) với độ trung
Các băng tần thu được sau đó được kết hợp lại với nhau như
thực và chất lượng cảm nhận hình ảnh được cải thiện.
một biểu diễn phổ wavelet của hình ảnh. Như trong Hình 1,
nó bao gồm một băng tần LF và nhiều băng tần HF ở các quy
II. CÁC CÔNG TRÌNH LIÊN QUAN
mô khác nhau, chứa đựng các cấp độ thông tin kết cấu riêng
SISR đã đạt được những tiến bộ vượt bậc cùng với sự phát
biệt. Sau đó, chúng tôi chia biểu diễn wavelet thành các mảng
triển của học sâu, bao gồm cả kiến trúc mô hình và khung
(patches) để nhúng token, không chỉ trên băng tần LF mà còn
huấn luyện. Để cải thiện chất lượng thị giác, nhiều mô hình tạo
trên các băng tần HF. Khác với các phương pháp truyền thống
sinh khác nhau đã được áp dụng để huấn luyện mô hình SISR,
chia ảnh theo không gian, phương pháp của chúng tôi chia ảnh
bao gồm GAN [?], [?], [?], [?], [2], các mô hình dòng (flow
từ góc nhìn của cả miền không gian và miền tần số, tạo điều
models) [?], [?], [?] và các Mô hình Khuếch tán (DM) [?], [?],
kiện thuận lợi cho việc học các mối quan hệ tần số giữa các
[?], [?], [?]. Nghiên cứu của chúng tôi áp dụng transformer
băng tần. Ngoài ra, chúng tôi đề xuất một phương pháp phân
khuếch tán dựa trên phổ wavelet cho bài toán SISR.
tách token dạng kim tự tháp (pyramid tokenization) dựa trên
tính thưa thớt của các băng tần HF. Phương pháp này giúp
A. SISR dựa trên mô hình khuếch tán
giảm đáng kể số lượng token và tiết kiệm chi phí tính toán
Mô hình khuếch tán (DM) đang nổi lên như một giải pháp
trong transformer mà không làm giảm hiệu suất mô hình.
mạnh mẽ cho việc tạo ảnh chất lượng cao. SR3 [?] thích ứng
Lấy cảm hứng từ khả năng vượt trội của Mô hình Khuếch
các DM có điều kiện bằng cách kết hợp ảnh LR đã được lấy
tán (Diffusion Model - DM) trong việc tạo ra các chi tiết
mẫu lên với ảnh HR nhiễu để thực hiện nhiệm vụ SISR. Để
ảnh mịn, chúng tôi xây dựng phương pháp của mình bằng
tăng tốc độ hội tụ và ổn định quá trình huấn luyện của DM,
cách sử dụng khung khuếch tán có điều kiện và đề xuất mô
SRDiff [?] giới thiệu phương pháp dự đoán phần dư (residual
hình Diffusion Transformer dựa trên phổ Wavelet của ảnh cho
prediction). ResDiff [?] sử dụng một mạng CNN để khôi phục
SISR, viết tắt là DTWSR. Các mô hình DM đảo ngược quá
ban đầu và sau đó tinh chỉnh các chi tiết kết cấu bằng DM.
trình khuếch tán một cách lặp đi lặp lại để đạt được ánh xạ
IDM [?] và ASIG [?] nghiên cứu các DM trong bài toán SISR
chất lượng cao từ nhiễu Gaussian được lấy mẫu ngẫu nhiên
liên tục bằng cách tích hợp biểu diễn thần kinh ẩn (implicit
sang ảnh mục tiêu, tránh được sự mất ổn định và hiện tượng
neural representation). ResShift [?] và SinSR [?] lần lượt tăng
sụp đổ mode (mode-collapse) thường thấy trong các mô hình
tốc độ suy luận của DM bằng cách sửa đổi quy trình lấy mẫu
tạo ảnh trước đây [?], [?], [?]. Do sự khác biệt về phương sai
và sử dụng chưng cất tri thức (knowledge distillation).
trong các băng tần MDWT, đặc biệt là giữa LF mịn và các HF
thưa thớt, việc sử dụng một mô hình transformer thống nhất
B. SISR dựa trên Biến đổi Wavelet Rời rạc (DWT)
để khử nhiễu đồng thời cho cả LF và HF là rất thách thức.
DWT đã được sử dụng rộng rãi trong SISR nhờ khả năng
Do đó, chúng tôi thiết kế một mô hình transformer bộ giải mã
biểu diễn thông tin tần số của nó [?], [?], [?], [?], [?], [3].
kép (dual-decoder), một để tạo ra các nội dung cơ bản năng
DWSR [?] và DiWa [?] được xây dựng trên DWT đơn cấp để
lượng cao trong LF (gọi là LEDec) và một để tạo ra các chi
cải thiện mô hình về các chi tiết kết cấu chính xác. Wavelet-
tiết HF thưa thớt (gọi là HDDec). Cần lưu ý rằng nội dung
SRNet [5] và JWN [?] sử dụng các lớp CNN đa nhánh để dự
cơ bản từ LEDec không hoàn toàn tương đương với băng tần
đoán các hệ số wavelet dựa trên đầu vào LR. WaveMixSR [?],
LF. Băng tần LF vẫn chứa các thành phần HF, mặc dù rất ít.
WTRN [?] và WFEN [?] áp dụng DWT trên các đặc trưng
HDDec được thiết kế để tạo ra cả các băng tần HF đa cấp và
ảnh được trích xuất để bổ sung thông tin tần số cao (HF) trong
các thành phần HF của băng tần LF. Một mặt, thiết kế của
SISR. WaveFace [?] và WaveDM [?] tận dụng việc kích thước
chúng tôi có thể nắm bắt các mối tương quan giữa các băng
ảnh thu nhỏ theo hàm mũ sau biến đổi DWT để giảm bớt
tần HF đa quy mô. Mặt khác, nó thúc đẩy sự căn chỉnh lại
gánh nặng tính toán của DM. Deng và các cộng sự [3] đã đề
giữa các băng tần LF và HF, đạt được SR với độ trung thực
xuất chuyển đổi phong cách trong miền wavelet để đạt được
và chất lượng cảm nhận được cải thiện.
sự đánh đổi tốt hơn giữa cảm nhận và độ méo (PD trade-off)
Các đóng góp chính của bài báo này bao gồm:
cho SISR. PDASR [?] và WGSR [?] tối ưu hóa hàm mất mát
• Chúng tôi đề xuất mô hình Diffusion Transformer dựa
trên các băng tần wavelet để cải thiện sự đánh đổi PD này.
trên phổ wavelet của ảnh cho bài toán SISR. Mô hình
này cho phép khám phá các mối tương quan giữa các
C. SISR dựa trên Transformer
băng tần tần số đa quy mô.
Các mô hình dựa trên Transformer đã được nghiên cứu
• Chúng tôi thiết kế phương pháp phân tách token dạng
trong SISR nhờ khả năng mô hình hóa quan hệ tầm xa của
kim tự tháp để nhúng phổ wavelet đa quy mô, giúp giảm
chúng. SwinIR [?] áp dụng Swin transformer cho phục hồi
đáng kể số lượng token để tính toán hiệu quả.
ảnh. SwinFIR [?] cải thiện SwinIR bằng cách tích hợp Tích
• Một mô hình bộ giải mã kép được thiết kế để ngăn chặn
chập Fourier để nắm bắt thông tin toàn cục. HAT [?] kết hợp
sự chồng chéo giữa các phân phối tần số mịn và thưa
cơ chế tự chú ý (self-attention), chú ý kênh (channel attention)
thớt, mang lại độ trung thực tốt hơn và chi tiết mịn hơn.
và chú ý chéo chồng lấp (overlapping cross-attention) để kích
• Các thực nghiệm sâu rộng được thực hiện trên các bộ dữ
hoạt nhiều pixel hơn cho kết quả SR tốt hơn. Restormer [?] đề
xuất thực hiện tự chú ý theo hướng kênh để nắm bắt các tương
trong đó θ là tham số của mạng khử nhiễu WSDT. Hàm mất
tác pixel tầm xa và đạt được hiệu suất cao trong phục hồi ảnh.
mát tối ưu hóa được định nghĩa là:
LMLT [?] chia các đặc trưng ảnh dọc theo chiều kênh và sử h
dụng cơ chế chú ý với các kích thước đặc trưng khác nhau để
Lvlb = Eq DKL(q(xT |x0)||p(xT ))
nắm bắt cả thông tin cục bộ và toàn cục. Những công trình X + D
này chủ yếu dựa trên hình ảnh trong miền pixel. DWT thường
KL(q(xt−1|xt, x0)||pθ (xt−1|xt)) (6) t>1
được sử dụng trong các khối chú ý của mô hình transformer i
để tăng cường đặc trưng ảnh, ví dụ như trong [?], [?], [?], [?]. − log pθ(x0|x1)
Theo hiểu biết của chúng tôi, chúng tôi là những người đầu
tiên mô hình hóa phổ wavelet đa quy mô của hình ảnh bằng
Chúng tôi chuyển đổi It sang biểu diễn phổ wavelet cấp J
cách sử dụng kiến trúc transformer cơ bản cho nhiệm vụ SR.
là Ifre để tinh chỉnh. Với hệ số phóng đại N , chúng tôi thực t,J
hiện DWT cấp J = ⌈log N ⌉. III. B 2
IẾN ĐỔI WAVELET RỜI RẠC
Biến đổi Wavelet Rời rạc (DWT) được sử dụng rộng rãi để
B. Mạng khử nhiễu phổ Wavelet với Transformer (WSDT)
phân tách một hình ảnh thành các băng tần thấp (LF) và băng
Hình 2b trình bày kiến trúc của WSDT. Cho một hình ảnh
tần cao (HF), đặc biệt là wavelet Haar [?] được sử dụng trong
nhiễu phổ wavelet Ifre, đầu tiên chúng tôi chia nó thành các bài báo này. t,J
token. Transformer kép sẽ khử nhiễu nội dung cơ bản LF và
Cho một hình ảnh pixel I ∈ H×W ×3 R , chúng ta phân tách
chi tiết HF đa quy mô dựa trên điều kiện LR.
nó bằng toán tử DWT (DW T (·)), từ đó thu được băng tần H thấp x × W ×3 1) Phân tách token dạng kim tự tháp (Pyramid L ∈ R 2 2
và các băng tần cao {xV , xH , xD} ∈ H × W ×3
tokenization): Xét tính thưa thớt của HF, chúng tôi thiết kế R 2 2 : x1 , x1 , x1 , x1 = DW T (I).
kích thước mảng kim tự tháp pj để duy trì trường thụ cảm L V H D (1) nhất quán:
Quá trình này có thể được thực hiện thêm một lần nữa trên x1 , dẫn đến: pj = pmin × 2J−j, j ∈ {1, . . . , J }, (7) L
x2 , x2 , x2 , x2 = DW T (x1 ). L V H D L (2)
trong đó pmin là kích thước mảng cho băng tần LF. Các token
được trích xuất như sau: Bằng cách tiếp tục quá trình này, chúng ta có H {xJ , xJ , xJ , xJ } ∈ × W ×3 2J 2J
sau lần biến đổi DWT thứ L V H D R flr = Conv2dlr(Ilr), J . f J = ), L Conv2dL(xJL (8)
Bằng cách thay thế băng tần LF một cách đệ quy bởi các
băng tần đã được phân tách ở mỗi cấp độ [?], kết quả đầu F j = Conv2dj (Xj ), j ∈ {J, . . . , 1}. H H H
ra sau lần DWT thứ J là {xJ , xJ , xJ , xJ , xJ−1, . . . , x1 }. L V H D V D Vị trí 4D [j, d, P os
Chúng ta thay đổi hình dạng (reshape) các băng tần đa cấp
h, P osw ] được mã hóa bằng sine-cosine
nhúng vị trí chuẩn của ViT [4].
này lại với nhau để tạo thành một biểu diễn phổ wavelet cấp
2) Thiết kế bộ giải mã kép (Dual-decoder design): Thay
J của hình ảnh, ký hiệu là Ifre: J
vì khử nhiễu xJ và {Xj } riêng biệt, chúng tôi xử lý thông L H Ifre = M DW T (I, J ). (3)
qua LEDec (cho nội dung trơn) và HDDec (cho chi tiết HF J và phần dư LF).
Ngược lại, hình ảnh pixel I có thể được tái cấu trúc thông
LEDec. Tích hợp LR thông qua in-context conditioning với
qua biến đổi DWT ngược cấp J (ký hiệu là IM DW T ): mặt nạ Mlow: I = IM DW T (Ifre, J ). (4) J flr, ˜ f J = ], M Le LEDec([flr, f J L low , t). (9)
Một ví dụ minh họa được trình bày trong Hình 1a.
HDDec. Dùng mặt nạ Mhigh để ép buộc tái căn chỉnh:
IV. PHƯƠNG PHÁP NGHIÊN CỨU
Trong phần này, chúng tôi sẽ giới thiệu mô hình Diffusion ˆ flr, ˜ f J , ˜ F , F Lr H = HDDec([ ˜ flr, ˜ f J Le H ], Mhigh, t). (10)
Transformer dựa trên phổ Wavelet cho nhiệm vụ SR.
Giải phân tách token. Các token thu được được giải mã
A. Mô hình Khuếch tán có điều kiện trên phổ Wavelet cho tuyến tính: SISR
DM là một chuỗi Markov được tham số hóa nhằm tạo ra yJ = + ˜ f J , t), L FCL( ˜ f J Le Lr (11)
các mẫu khớp với phân phối dữ liệu huấn luyện. Nó bao gồm Y j = FCj (F j , t), j ∈ {1, . . . , J }. H H H
một quá trình khuếch tán xuôi và một quá trình khử nhiễu
ngược. Đối với nhiệm vụ SR, nó yêu cầu hình ảnh được khôi
Ảnh cuối cùng thu được qua inverse wavelet transform:
phục phải nhất quán với đầu vào LR: ˜ I = IMDWT( ˜ Ifre, J ). (12) J
pθ(It−1|It, Ilr) = N (It−1; µθ(It, t, Ilr), Σθ(It, t, Ilr)), (5)
Hình 2. Tổng quan về khung DTWSR. (a) mô tả quá trình lấy mẫu SR. (b) minh họa cấu trúc chi tiết của mạng khử nhiễu WSDT đề xuất.
Hình 3. Minh họa về TransBlock và các mặt nạ (masks). Phần màu đen biểu thị token bị che.
Hình 4. Minh họa về phân tách token dạng kim tự tháp. TÀI LIỆU
[1] Du et al., “Diffusion Transformer meets Multi-level Wavelet Spectrum
for Single Image Super-Resolution,” ICCV, 2025. [2] GAN References... [3] Wavelet References... [4] ViT Position Embeddings... [5] Wavelet-SRNet... [6] In-context conditioning...