Tinh chỉnh LLM theo chỉ dẫn cho bài toán Phân tích Cảm xúc Khía cạnh
tiếng Việt
Trần Anh Duy
1
, Trương Thế Minh Khánh
1
, Nguyễn Văn Tiên
1
1
Khoa Khoa học Kỹ thuật Thông tin
Trường Đại học Công nghệ Thông tin ĐHQG TP. Hồ Chí Minh, Việt Nam
{23520389, 23520727, 23521580}@gm.uit.edu.vn
Tóm tắt nội dung
Phân tích cảm xúc dựa trên khía cạnh (Aspect-
Based Sentiment Analysis - ABSA) một bài
toán quan trọng trong việc khai thác ý kiến
khách hàng từ dữ liệu văn bản. Tuy nhiên,
các phương pháp truyền thống dựa trên gán
nhãn chuỗi (Sequence Labeling) thường gặp
khó khăn khi xử các cấu trúc câu phức
tạp, các khía cạnh chồng chéo hoặc các khía
cạnh ẩn trong tiếng Việt. Trong nghiên cứu
này, chúng tôi tiếp cận ABSA như một bài
toán tạo sinh chuỗi (Generative Sequence-to-
Sequence), trong đó hình được hướng dẫn
trích xuất trực tiếp các bộ ba thông tin gồm khía
cạnh, cảm xúc đoạn minh chứng. Chúng
tôi áp dụng kỹ thuật Instruction Tuning để
tinh chỉnh hình Qwen2.5-7B, kết hợp với
QLoRA nhằm giảm yêu cầu về tài nguyên
tính toán. Ngoài ra, chế hậu xử Neuro-
Symbolic kết hợp biểu thức chính quy chuẩn
hóa dựa trên luật được đề xuất để đảm bảo tính
nhất quán của đầu ra cấu trúc. Thực nghiệm
trên bộ dữ liệu UIT-ViSD4SA cho thấy phương
pháp đề xuất đạt Micro F1-Score lần lượt
74.79% cho trích xuất khía cạnh, 84.36% cho
nhận diện cảm xúc 65.73% cho khớp chính
xác khía cạnh-cảm xúc.
1 Giới thiệu
Sự gia tăng nhanh chóng của các nền tảng thương
mại điện tử tại Việt Nam đã tạo ra một lượng lớn
bình luận đánh giá của người dùng. Những
văn bản này thường đề cập đồng thời đến nhiều
thuộc tính khác nhau của sản phẩm, kèm theo các
đánh giá phản ánh những xu hướng cảm xúc khác
nhau. Do đó, phân tích cảm xúc dựa trên khía cạnh
(Aspect-Based Sentiment Analysis ABSA) đóng
vai trò quan trọng trong việc khai thác thông tin chi
tiết từ dữ liệu ý kiến người dùng.
Phần lớn các nghiên cứu ABSA cho tiếng Việt
hiện nay tiếp cận bài toán dưới dạng gán nhãn
chuỗi, trong đó mỗi từ được gán nhãn thể hiện khía
cạnh hoặc cảm xúc. Cách tiếp cận này cho thấy
hiệu quả trong những trường hợp đơn giản nhưng
gặp khó khăn khi xử các hiện tượng phổ biến
trong dữ liệu thực tế, bao gồm nhiều khía cạnh xuất
hiện đồng thời, khía cạnh chồng chéo, hoặc khía
cạnh được biểu đạt gián tiếp. Ngoài ra, việc phụ
thuộc vào nhãn mức từ làm giảm khả năng thích
nghi của hình khi áp dụng sang các miền dữ
liệu mới.
Chúng tôi tiếp cận ABSA tiếng Việt như một
bài toán tạo sinh chuỗi (Generative Sequence-to-
Sequence), trong đó hình được hướng dẫn trích
xuất trực tiếp các bộ ba thông tin gồm khía cạnh,
cảm xúc đoạn minh chứng từ văn bản đầu vào.
Hướng tiếp cận này cho phép hình xử trực
tiếp mối quan hệ giữa khía cạnh xu hướng cảm
xúc trong câu, đồng thời giảm sự phụ thuộc vào gán
nhãn chi tiết mức từ. Chúng tôi đánh giá phương
pháp đề xuất trên bộ dữ liệu UIT-ViSD4SA thảo
luận các kết quả đạt được trong bối cảnh hạn chế
về tài nguyên tính toán.
2 Các nghiên cứu liên quan
2.1 Phân tích cảm xúc khía cạnh cho tiếng
Việt
Các nghiên cứu ban đầu về phân tích cảm xúc
dựa trên khía cạnh (ABSA) cho tiếng Việt chủ
yếu tiếp cận bài toán dưới dạng gán nhãn chuỗi
(Sequence Labeling). Nguyen cộng sự (Nguyen
et al., 2021) đã giới thiệu bộ dữ liệu UIT-ViSD4SA
thiết lập các đường sở (baseline) sử dụng
BiLSTM-CRF XLM-RoBERTa, trong đó bài
toán được hình hóa theo định dạng thẻ BIO
(Beginning-Inside-Outside). Sự xuất hiện của các
hình ngôn ngữ tiền huấn luyện đơn như
PhoBERT (Nguyen et al., 2020) ViBERT
(Nguyen and Vu, 2020) đã cải thiện hiệu năng nhờ
khả năng biểu diễn ngữ cảnh tốt hơn. Tuy nhiên,
các phương pháp dựa trên gán nhãn chuỗi thường
xử bài toán theo các kiến trúc dạng đường ống
(pipeline), dễ dẫn đến lan truyền lỗi gặp hạn chế
khi cần biểu diễn các khía cạnh được biểu đạt gián
tiếp hoặc chồng chéo trong văn bản. Những hạn
chế này đặt ra nhu cầu về các hướng tiếp cận linh
hoạt hơn, khả năng biểu diễn trực tiếp mối quan
hệ giữa khía cạnh cảm xúc không phụ thuộc
chặt chẽ vào nhãn mức từ.
2.2 Generative ABSA Instruction Tuning
Song song với hướng tiếp cận gán nhãn, một số
nghiên cứu đã đề xuất hình hóa ABSA như một
bài toán tạo sinh chuỗi. Yan cộng sự (Yan et al.,
2021) những người tiên phong chuyển đổi ABSA
sang dạng Sequence-to-Sequence (Seq2Seq) bằng
hình BART, cho phép sinh trực tiếp chuỗi đầu
ra biểu diễn thông tin khía cạnh. Tiếp nối hướng đi
này, Zhang cộng sự (Zhang et al., 2022) đã sử
dụng hình T5 để giải quyết thống nhất nhiều
tác vụ con của ABSA trong cùng một khung làm
việc.
Gần đây, với sự phát triển của các hình ngôn
ngữ lớn, kỹ thuật Instruction Tuning đã được áp
dụng nhằm định hướng hình thực hiện các tác
vụ trích xuất thông tin cấu trúc (Wei et al.,
2021). Scaria cộng sự (Scaria et al., 2023) cho
thấy việc sử dụng các chỉ dẫn ràng thể giúp
hình sinh ra các biểu diễn cấu trúc như bộ
hoặc JSON với độ chính xác cao. Tuy nhiên, việc
áp dụng các phương pháp này cho tiếng Việt vẫn
còn hạn chế, đặc biệt trong bối cảnh dữ liệu tài
nguyên tính toán giới hạn.
3 Phương pháp
Hình 1: Kiến trúc tổng thể của hệ thống đề xuất cho bài
toán ABSA tiếng Việt.
Kiến trúc tổng thể của hệ thống được minh họa
trong Hình 1. Thay tiếp cận theo hướng phân loại
từng từ (token classification), chúng tôi hình
hóa bài toán ABSA dưới dạng hình hóa ngôn
ngữ nhân quả (Causal Language Modeling), trong
đó đầu vào văn bản đánh giá sản phầm
X
đầu
ra chuỗi văn bản Y dạng JSON cấu trúc.
3.1
Xây dựng dữ liệu huấn luyện theo chỉ dẫn
Bộ dữ liệu gốc UIT-ViSD4SA được gán nhãn theo
dạng khoảng (span-based). Để phù hợp với các
hình ngôn ngữ lớn (LLMs), chúng tôi chuyển đổi
dữ liệu này sang định dạng huấn luyện theo chỉ dẫn
(instruction tuning) theo phong cách Alpaca. Trong
thiết lập này, bài toán ABSA được hình hóa
như một tác vụ tạo sinh điều kiện, trong đó
hình được hướng dẫn trích xuất trực tiếp các thông
tin cấu trúc từ văn bản đầu vào.
Mỗi mẫu huấn luyện bao gồm ba thành phần
chính:
Instruction (Chỉ dẫn): Xác định vai trò của
hình như một chuyên gia phân tích cảm
xúc, tả không gian nhãn khía cạnh cảm
xúc, đồng thời quy định các quy tắc gán nhãn
quan trọng.
Input (Đầu vào): Văn bản bình luận thô của
người dùng.
Output (Đầu ra): Chuỗi JSON mục tiêu,
biểu diễn danh sách các bộ ba
(Aspect,
Sentiment, Span)
tương ứng với các khía
cạnh được trích xuất.
Hình 2 minh họa một dụ rút gọn về định dạng
Alpaca-style instruction được sử dụng trong quá
trình huấn luyện. Phiên bản đầy đủ của chỉ dẫn
huấn luyện được cung cấp trong Phụ lục A.
Instruction: Bạn một chuyên gia phân tích cảm xúc
khách hàng. Hãy trích xuất các khía cạnh, xu hướng cảm
xúc đoạn văn bản tương ứng từ bình luận sau. Sử dụng
tập nhãn đã định nghĩa trả về kết quả dưới dạng danh
sách JSON.
Input: Pin dùng được lâu nhưng màn hình hơi tối.
Output:
[ {"aspect": "BATTERY", "sentiment":
"POSITIVE", "span": "Pin dùng được lâu"},
{"aspect": "SCREEN", "sentiment":
"NEGATIVE", "span": "màn hình hơi tối"}]
Hình 2: dụ rút gọn về định dạng Alpaca-style
instruction cho tác vụ ABSA tiếng Việt.
3.2 Tinh chỉnh hiệu quả tham số với QLoRA
Việc tinh chỉnh toàn bộ (Full Fine-tuning) một
hình 7 tỷ tham số đòi hỏi tài nguyên tính toán khổng
lồ. Do đó, chúng tôi áp dụng kỹ thuật QLoRA
(Quantized Low-Rank Adaptation). Cụ thể:
1.
Lượng tử hóa (Quantization): Trọng số của
hình sở Qwen2.5-7B được nén xuống
độ chính xác 4-bit để giảm thiểu dung lượng
bộ nhớ VRAM.
2.
Low-Rank Adapters: Chúng tôi đóng băng
(freeze) toàn bộ trọng số của hình gốc
chỉ thêm các cặp ma trận hạng thấp
A
B
vào các lớp Attention (
W
q
, W
k
, W
v
, W
o
).
Trong thực nghiệm, chúng tôi thiết lập
r = 16
α = 16
trong đó
r
hạng (rank) của ma
trận thích ứng α hệ số tỉ lệ.
3.3 Hậu xử Neuro-Symbolic
Do bản chất ngẫu nhiên của hình ngôn ngữ
lớn, đầu ra thể gặp các vấn đề về lỗi
pháp/định dạng (syntax/format error) hoặc ảo giác
(hallucination). Chúng tôi thiết kế một quy trình
hậu xử lai ghép gồm ba giai đoạn:
Giai đoạn 1: Phân tích pháp JSON
nghiêm ngặt (Strict JSON Parsing). Hệ
thống ưu tiên sử dụng trình phân tích pháp
chuẩn để chuyển đổi chuỗi văn bản đầu ra
thành đối tượng cấu trúc. Nếu quá trình này
thành công (True), dữ liệu sẽ được chuyển
thẳng đến giai đoạn chuẩn hóa. Nếu thất bại
(False) do lỗi pháp, hệ thống sẽ kích hoạt
chế dự phòng Giai đoạn 2.
Giai đoạn 2: Trích xuất dựa trên biểu thức
chính quy (Robust Regex Fallback). Đây
chế chịu lỗi, sử dụng các mẫu biểu thức
chính quy (Regular Expressions) để quét
trích xuất cục bộ các trường thông tin quan
trọng (
aspect
,
sentiment
,
span
), bỏ qua các
tự gây nhiễu hoặc cấu trúc JSON bị lỗi.
Giai đoạn 3: Chuẩn hóa nhãn dựa trên luật
(Rule-based Normalization). Dữ liệu thô sau
khi được trích xuất (từ Giai đoạn 1 hoặc 2) sẽ
đi qua bộ lọc chuẩn hóa. Tại đây, chúng tôi sử
dụng từ điển ánh xạ từ đồng nghĩa (Synonym
Mapping) để quy đổi các biến thể từ vựng (ví
dụ: "Pin", "Tốt", "Good",...) về tập nhãn mục
tiêu chuẩn của bộ dữ liệu, đảm bảo tính nhất
quán cho việc đánh giá.
4 Thiết lập thực nghiệm
4.1 Bộ dữ liệu Cài đặt Huấn luyện
Chúng tôi sử dụng bộ dữ liệu chuẩn UIT-
ViSD4SA, bao gồm 11.122 bình luận về điện thoại
di động. Dữ liệu được chia theo tỷ lệ 70% huấn
luyện, 10% kiểm định (dev) 20% kiểm thử (test).
Bộ dữ liệu này bao gồm 3 nhãn xu hướng cảm xúc
(POSITIVE, NEGATIVE, NEUTRAL) 10 nhãn
khía cạnh thuộc các nhóm như thiết kế, hiệu năng,
pin, màn hình giá cả, phản ánh các thuộc tính
phổ biến trong đánh giá sản phẩm điện tử.
Chúng tôi thực hiện tinh chỉnh hình
Qwen2.5-7B sử dụng kỹ thuật QLoRA thông qua
framework Unsloth để tối ưu hóa hiệu suất trên tài
nguyên giới hạn. Quá trình huấn luyện sử dụng bộ
tối ưu hóa AdamW 8-bit nhằm giảm thiểu mức tiêu
thụ bộ nhớ vẫn đảm bảo khả năng hội tụ. Các
siêu tham số (hyperparameters) chi tiết được liệt
trong Bảng 1.
Bảng 1: Cấu hình tham số huấn luyện
Tham số (Parameter) Giá trị (Value)
Base Model Qwen2.5-7B-Instruct
Method QLoRA (4-bit, Rank=16)
Optimizer AdamW 8-bit
Learning Rate 2 × 10
4
Lịch trình (Scheduler) Linear
Epochs 2
Batch Size (per device) 1
Gradient Accumulation 8 steps
Weight Decay 0.01
Max Sequence Length 2048
4.2 Đánh giá
Hệ thống được đánh giá dựa trên độ đo F1-Score
(Micro Macro) cho ba tác vụ con:
Aspect Extraction: Chỉ đánh giá việc trích
xuất đúng nhãn khía cạnh.
Polarity Detection: Đánh giá việc phân loại
đúng nhãn xu hướng cảm xúc (Positive,
Negative, Neutral).
Strict Matching: Tiêu chuẩn khắt khe nhất,
yêu cầu dự đoán đúng đồng thời cả bộ ba
(Aspect, Sentiment, Span).
Bảng 2: Phân tích lỗi chi tiết trên các mẫu thực tế (Case Study)
Văn bản đầu vào (Input Text) Prediction Ground Truth
"Mình mới mua. mình thấy mẫu đẹp pin trâu
cảm ứng mượt
được em nhân viên ĐMX vấn rất
nhiệt tình"
PERFORMANCE FEATURES
"...Cảm nhận của mình về máy khá mượt,
cam đẹp
, pin
khá ổn... Nói chung máy khá tôt, ổn trong tầm giá..."
DESIGN CAMERA
"Máy hình
chưa tới 1gb
, chỉ tải vài ứng dụng bản
thôi máy lag rồi... Game thì khỏi nói chả nào chiến
được..."
PERFORMANCE STORAGE
5 Kết quả Thảo luận
5.1 Kết quả chính
Bảng 3 trình bày hiệu năng của hình đề xuất
trên tập kiểm thử. Kết quả cho thấy hình đạt
hiệu suất ấn tượng nhất tác vụ nhận diện cảm
xúc (Polarity) với F1-Micro đạt 84.36%. Điều này
khẳng định năng lực vượt trội của hình ngôn
ngữ lớn trong việc thấu hiểu xu hướng cảm xúc của
văn bản đánh giá tiếng Việt.
Đối với tác vụ trích xuất khía cạnh (Aspect),
hình đạt 74.79%. Tại chỉ số quan trọng nhất
khớp chính xác (Strict Matching), hình đạt
65.73%. Sự chênh lệch giữa Micro Macro F1
phản ánh đặc điểm phân bố lệch của dữ liệu thực
tế, tuy nhiên hình vẫn duy trì được độ ổn định
trên các nhãn lớp chính.
Bảng 3: Kết quả thực nghiệm trên tập Test của UIT-
ViSD4SA
Task F1 Micro (%) F1 Macro (%)
Aspect Extraction 74.79 71.02
Polarity Detection 84.36 71.86
Strict Matching 65.73 46.83
5.2 So sánh với Baseline
Để đánh giá khách quan, chúng tôi so sánh hiệu
năng của hình đề xuất với các đường sở
(baselines) từ nghiên cứu gốc (Nguyen et al., 2021),
đại diện hình XLM-RoBERTa Large.
Kết quả so sánh Bảng 4 cho thấy phương pháp
tiếp cận Generative của chúng tôi vượt trội đáng kể
tác vụ Polarity Detection (F1-Macro đạt 71.86%
so với 49.77% của Baseline). Điều này cho thấy
kiến trúc Sequence-to-Sequence với khả năng chú
ý (Attention) toàn cục giúp hình nắm bắt tốt
hơn các ngữ cảnh cảm xúc phức tạp hình
Bảng 4: So sánh F1-Macro giữa Baseline hình
đề xuất
Task Baseline Ours (Qwen2.5)
Aspect Extraction 62.76 71.02
Polarity Detection 49.77 71.86
Strict Matching 45.70 46.83
gán nhãn từ cục bộ (token-level) thường bỏ sót.
tác vụ Strict Matching, phải giải quyết bài toán
khó hơn sinh văn bản cấu trúc, hình vẫn
đạt kết quả cạnh tranh (F1-Macro 46.83% so với
45.70%).
5.3 Phân tích định tính
Để hiểu hơn về hành vi của hình, chúng tôi
tiến hành phân tích định tính trên các mẫu dự đoán
sai. Bảng 2 minh họa một số trường hợp sai sót
điển hình được trích xuất từ tập kiểm thử.
Qua phân tích, chúng tôi nhận thấy các lỗi chủ
yếu rơi vào ba nhóm sau:
1.
Nhầm lẫn giữa Tính năng Hiệu năng:
Các từ khóa như "mượt", "nhạy"thường gắn
liền với
PERFORMANCE
. Tuy nhiên, khi
đi kèm với "cảm ứng"hay "vân tay", nhãn
chuẩn
FEATURES
. hình đôi khi ưu
tiên tính từ tả hơn thực thể chính, dẫn
đến dự đoán sai lệch.
2.
Sự phụ thuộc vào từ khóa cảm xúc:
hình xu hướng gán nhãn dựa trên các tính
từ mạnh. dụ, cụm từ "cam đẹp"bị gán nhãn
DESIGN
từ "đẹp"thường tả ngoại hình,
trong khi nhãn đúng
CAMERA
. Điều này
cho thấy sự chú ý (attention) của hình đôi
khi bị lệch về phía tính từ thay danh từ trung
tâm.
3.
Bỏ sót thông tin kỹ thuật: Trong các câu
phàn nàn dài, hình thường tập trung vào
cảm xúc tiêu cực chung (ví dụ: "lag", "chậm")
gán nhãn
PERFORMANCE
, nhưng bỏ
qua các thông số kỹ thuật định lượng nhỏ như
"1GB"(thuộc về STORAGE).
6 Kết luận
Trong nghiên cứu này, chúng tôi đã áp dụng
hình ngôn ngữ lớn (LLM) cho bài toán Phân tích
cảm xúc dựa trên khía cạnh (ABSA) tiếng Việt theo
hướng tiếp cận sinh văn bản, thay gán nhãn chuỗi
truyền thống. Thông qua việc tinh chỉnh hình
Qwen2.5-7B bằng kỹ thuật QLoRA kết hợp với
thiết kế dữ liệu theo chỉ dẫn (Instruction Tuning),
các kết quả thực nghiệm cho thấy LLM thể đạt
hiệu năng cạnh tranh, đồng thời vẫn đảm bảo tính
khả thi trong bối cảnh tài nguyên phần cứng hạn
chế.
Đóng góp chính của nghiên cứu nằm việc đề
xuất một khung tiếp cận thực tiễn cho bài toán
ABSA tiếng Việt dựa trên LLM, trong đó hình
sinh được kết hợp với chế hậu xử Neuro-
Symbolic. Cách tiếp cận này giúp giảm các dự
đoán không nhất quán về mặt cấu trúc cải thiện
độ ổn định của đầu ra, đặc biệt trong các trường hợp
yêu cầu trích xuất đồng thời khía cạnh, xu hướng
cảm xúc đoạn văn bản liên quan. Trên bộ dữ
liệu UIT-ViSD4SA, phương pháp đề xuất đạt độ
chính xác cao (F1-Micro 84.36% cho tác vụ nhận
diện cảm xúc) thể hiện khả năng xử tốt các
hiện tượng ngữ nghĩa ẩn trong văn bản đánh giá.
Mặc đạt được kết quả khả quan, phương pháp
đề xuất vẫn tồn tại một số hạn chế cần được xem
xét trong các nghiên cứu tiếp theo:
Độ trễ suy luận: Do sử dụng hình ngôn
ngữ lớn với chế sinh văn bản tự hồi quy,
thời gian suy luận vẫn cao hơn so với các
hình phân loại truyền thống, hạn chế khả năng
triển khai trong các hệ thống yêu cầu phản hồi
thời gian thực.
Phụ thuộc vào luật thủ công: chế hậu xử
Neuro-Symbolic hiện tại dựa trên một tập
luật từ điển được xây dựng thủ công, khiến
hệ thống chưa thích ứng tốt với các biến thể
ngôn ngữ mới hoặc từ lóng xuất hiện theo thời
gian.
Hạn chế với văn bản dài: Hiệu năng của
hình xu hướng suy giảm đối với các văn
bản đánh giá rất dài, vượt quá cửa sổ ngữ cảnh
huấn luyện, do hiện tượng phân tán sự chú ý
các vị trí xa trong chuỗi.
Trong tương lai, chúng tôi dự kiến mở rộng
nghiên cứu theo một số hướng sau:
Mở rộng miền dữ liệu: Khảo sát khả năng
thích nghi của hình khi áp dụng cho các
lĩnh vực khác như du lịch, nhà hàng hoặc
thương mại điện tử, trong bối cảnh phân bố
khía cạnh ngôn ngữ khác biệt so với miền
huấn luyện ban đầu.
Tích hợp RAG: Thử nghiệm các kiến trúc
hình lớn hơn kết hợp với kỹ thuật Retrieval-
Augmented Generation (RAG) nhằm cải thiện
khả năng xử các thực thể mới thông tin
sản phẩm thay đổi theo thời gian.
Chuẩn hóa nhãn khả năng học: Phát triển
các chế chuẩn hóa nhãn dựa trên học máy
(learnable normalization) để giảm thiểu sự
phụ thuộc vào các luật thủ công trong giai
đoạn hậu xử lý.
A Full Instruction
Bạn một chuyên gia AI về phân tích cảm xúc khách
hàng (ABSA). Nhiệm vụ của bạn đọc bình luận
trích xuất các khía cạnh (Aspect) cùng cảm xúc
(Sentiment) nội dung tương ứng (Span).
DANH SÁCH NHÃN:
Aspect: [SCREEN, CAMERA, FEATURES,
BATTERY, PERFORMANCE, STORAGE,
DESIGN, PRICE, GENERAL, SER&ACC]
Sentiment: [POSITIVE, NEGATIVE, NEUTRAL]
HƯỚNG DẪN GÁN NHÃN QUAN TRỌNG:
1) SER&ACC (Dịch vụ & Phụ kiện):
Bao gồm CSKH, bảo hành, giao hàng, đóng gói,
các phụ kiện đi kèm (sạc, cáp, tai nghe...).
dụ:
-- ‘‘Giao hàng nhanh’’ SER&ACC#POSITIVE
-- ‘‘Sạc lỏng lẻo’’ SER&ACC#NEGATIVE
2) FEATURES (Tính năng):
Các tính năng cụ thể như Vân tay, FaceID, Wifi,
4G, Bluetooth, Sim, Chống nước...
dụ:
-- ‘‘Vân tay nhạy’’ FEATURES#POSITIVE
-- ‘‘Bắt wifi kém’’ FEATURES#NEGATIVE
3) QUY TẮC NHÃN ’GENERAL’ (Tổng quan):
-- GENERAL#POSITIVE: Nếu (Tổng số nhãn
Positive khác) - (Tổng số nhãn Negative khác) 2
-- GENERAL#NEGATIVE: Nếu (Tổng số nhãn
Negative khác) - (Tổng số nhãn Positive khác) 2
-- GENERAL#NEUTRAL: Các trường hợp còn lại
(chênh lệch <= 1) hoặc khi khách hàng nhận xét chung
chung "Máy ổn", "Tạm được".
ĐỊNH DẠNG OUTPUT:
Trả về JSON list chứa các object: { "aspect": "...",
"sentiment": "...", "span": "..."}. Nếu không thông
tin, trả về [ ].
References
Dat Quoc Nguyen, Anh Tuan Nguyen, Hung Pham,
and Minh Le Nguyen. 2020. Phobert: Pre-trained
language models for vietnamese. In Findings of the
Association for Computational Linguistics: EMNLP,
pages 1037--1042.
Kim Thi-Thanh Nguyen, Sieu Khai Huynh, Luong Luc
Phan, Phuc Huynh Pham, Duc-Vu Nguyen, and
Kiet Van Nguyen. 2021. Uit-visd4sa: A vietnamese
dataset for aspect-based sentiment analysis. arXiv
preprint arXiv:2110.07833.
Quang Huy Nguyen and Thanh Vu. 2020. Vibert: A
pre-trained language model for vietnamese. arXiv
preprint arXiv:2005.06457.
Sijo Scaria and 1 others. 2023. Extracting structured
information with instruction-tuned language models.
In Proceedings of the Conference on Empirical
Methods in Natural Language Processing (EMNLP).
Jason Wei and 1 others. 2021. Finetuned language
models are zero-shot learners. arXiv preprint
arXiv:2109.01652.
Hang Yan, Junqi Dai, Xipeng Ji, and Shuai Huang.
2021. A unified generative framework for aspect-
based sentiment analysis. In Proceedings of the 59th
Annual Meeting of the Association for Computational
Linguistics (ACL).
Wenxuan Zhang, Xin Li, and Lidong Bing. 2022.
Unified generative framework for aspect-based
sentiment analysis. In Proceedings of the 60th
Annual Meeting of the Association for Computational
Linguistics (ACL).

Preview text:

Tinh chỉnh LLM theo chỉ dẫn cho bài toán Phân tích Cảm xúc Khía cạnh tiếng Việt
Trần Anh Duy1, Trương Thế Minh Khánh1, Nguyễn Văn Tiên1
1Khoa Khoa học và Kỹ thuật Thông tin
Trường Đại học Công nghệ Thông tin – ĐHQG TP. Hồ Chí Minh, Việt Nam
{23520389, 23520727, 23521580}@gm.uit.edu.vn Tóm tắt nội dung
hiệu quả trong những trường hợp đơn giản nhưng
gặp khó khăn khi xử lý các hiện tượng phổ biến
Phân tích cảm xúc dựa trên khía cạnh (Aspect-
trong dữ liệu thực tế, bao gồm nhiều khía cạnh xuất
Based Sentiment Analysis - ABSA) là một bài
hiện đồng thời, khía cạnh chồng chéo, hoặc khía
toán quan trọng trong việc khai thác ý kiến
khách hàng từ dữ liệu văn bản. Tuy nhiên,
cạnh được biểu đạt gián tiếp. Ngoài ra, việc phụ
các phương pháp truyền thống dựa trên gán
thuộc vào nhãn ở mức từ làm giảm khả năng thích
nhãn chuỗi (Sequence Labeling) thường gặp
nghi của mô hình khi áp dụng sang các miền dữ
khó khăn khi xử lý các cấu trúc câu phức liệu mới.
tạp, các khía cạnh chồng chéo hoặc các khía
Chúng tôi tiếp cận ABSA tiếng Việt như một
cạnh ẩn trong tiếng Việt. Trong nghiên cứu
bài toán tạo sinh chuỗi (Generative Sequence-to-
này, chúng tôi tiếp cận ABSA như một bài
Sequence), trong đó mô hình được hướng dẫn trích
toán tạo sinh chuỗi (Generative Sequence-to-
Sequence), trong đó mô hình được hướng dẫn
xuất trực tiếp các bộ ba thông tin gồm khía cạnh,
trích xuất trực tiếp các bộ ba thông tin gồm khía
cảm xúc và đoạn minh chứng từ văn bản đầu vào.
cạnh, cảm xúc và đoạn minh chứng. Chúng
Hướng tiếp cận này cho phép mô hình xử lý trực
tôi áp dụng kỹ thuật Instruction Tuning để
tiếp mối quan hệ giữa khía cạnh và xu hướng cảm
tinh chỉnh mô hình Qwen2.5-7B, kết hợp với
xúc trong câu, đồng thời giảm sự phụ thuộc vào gán
QLoRA nhằm giảm yêu cầu về tài nguyên
nhãn chi tiết ở mức từ. Chúng tôi đánh giá phương
tính toán. Ngoài ra, cơ chế hậu xử lý Neuro-
pháp đề xuất trên bộ dữ liệu UIT-ViSD4SA và thảo
Symbolic kết hợp biểu thức chính quy và chuẩn
luận các kết quả đạt được trong bối cảnh hạn chế
hóa dựa trên luật được đề xuất để đảm bảo tính
nhất quán của đầu ra có cấu trúc. Thực nghiệm về tài nguyên tính toán.
trên bộ dữ liệu UIT-ViSD4SA cho thấy phương
pháp đề xuất đạt Micro F1-Score lần lượt là 2
Các nghiên cứu liên quan
74.79% cho trích xuất khía cạnh, 84.36% cho
nhận diện cảm xúc và 65.73% cho khớp chính 2.1
Phân tích cảm xúc khía cạnh cho tiếng xác khía cạnh-cảm xúc. Việt
Các nghiên cứu ban đầu về phân tích cảm xúc 1 Giới thiệu
dựa trên khía cạnh (ABSA) cho tiếng Việt chủ
Sự gia tăng nhanh chóng của các nền tảng thương
yếu tiếp cận bài toán dưới dạng gán nhãn chuỗi
mại điện tử tại Việt Nam đã tạo ra một lượng lớn
(Sequence Labeling). Nguyen và cộng sự (Nguyen
bình luận và đánh giá của người dùng. Những
et al., 2021) đã giới thiệu bộ dữ liệu UIT-ViSD4SA
văn bản này thường đề cập đồng thời đến nhiều
và thiết lập các đường cơ sở (baseline) sử dụng
thuộc tính khác nhau của sản phẩm, kèm theo các
BiLSTM-CRF và XLM-RoBERTa, trong đó bài
đánh giá phản ánh những xu hướng cảm xúc khác
toán được mô hình hóa theo định dạng thẻ BIO
nhau. Do đó, phân tích cảm xúc dựa trên khía cạnh
(Beginning-Inside-Outside). Sự xuất hiện của các
(Aspect-Based Sentiment Analysis – ABSA) đóng
mô hình ngôn ngữ tiền huấn luyện đơn như
vai trò quan trọng trong việc khai thác thông tin chi
PhoBERT (Nguyen et al., 2020) và ViBERT
tiết từ dữ liệu ý kiến người dùng.
(Nguyen and Vu, 2020) đã cải thiện hiệu năng nhờ
Phần lớn các nghiên cứu ABSA cho tiếng Việt
khả năng biểu diễn ngữ cảnh tốt hơn. Tuy nhiên,
hiện nay tiếp cận bài toán dưới dạng gán nhãn
các phương pháp dựa trên gán nhãn chuỗi thường
chuỗi, trong đó mỗi từ được gán nhãn thể hiện khía
xử lý bài toán theo các kiến trúc dạng đường ống
cạnh hoặc cảm xúc. Cách tiếp cận này cho thấy
(pipeline), dễ dẫn đến lan truyền lỗi và gặp hạn chế
khi cần biểu diễn các khía cạnh được biểu đạt gián
trong Hình 1. Thay vì tiếp cận theo hướng phân loại
tiếp hoặc chồng chéo trong văn bản. Những hạn
từng từ (token classification), chúng tôi mô hình
chế này đặt ra nhu cầu về các hướng tiếp cận linh
hóa bài toán ABSA dưới dạng mô hình hóa ngôn
hoạt hơn, có khả năng biểu diễn trực tiếp mối quan
ngữ nhân quả (Causal Language Modeling), trong
hệ giữa khía cạnh và cảm xúc mà không phụ thuộc
đó đầu vào là văn bản đánh giá sản phầm X và đầu
chặt chẽ vào nhãn ở mức từ.
ra là chuỗi văn bản Y dạng JSON có cấu trúc. 2.2
Generative ABSA và Instruction Tuning 3.1
Xây dựng dữ liệu huấn luyện theo chỉ dẫn
Song song với hướng tiếp cận gán nhãn, một số
Bộ dữ liệu gốc UIT-ViSD4SA được gán nhãn theo
nghiên cứu đã đề xuất mô hình hóa ABSA như một
dạng khoảng (span-based). Để phù hợp với các mô
bài toán tạo sinh chuỗi. Yan và cộng sự (Yan et al.,
hình ngôn ngữ lớn (LLMs), chúng tôi chuyển đổi
2021) là những người tiên phong chuyển đổi ABSA
dữ liệu này sang định dạng huấn luyện theo chỉ dẫn
sang dạng Sequence-to-Sequence (Seq2Seq) bằng
(instruction tuning) theo phong cách Alpaca. Trong
mô hình BART, cho phép sinh trực tiếp chuỗi đầu
thiết lập này, bài toán ABSA được mô hình hóa
ra biểu diễn thông tin khía cạnh. Tiếp nối hướng đi
như một tác vụ tạo sinh có điều kiện, trong đó mô
này, Zhang và cộng sự (Zhang et al., 2022) đã sử
hình được hướng dẫn trích xuất trực tiếp các thông
dụng mô hình T5 để giải quyết thống nhất nhiều
tin có cấu trúc từ văn bản đầu vào.
tác vụ con của ABSA trong cùng một khung làm
Mỗi mẫu huấn luyện bao gồm ba thành phần việc. chính:
Gần đây, với sự phát triển của các mô hình ngôn
ngữ lớn, kỹ thuật Instruction Tuning đã được áp
Instruction (Chỉ dẫn): Xác định vai trò của
dụng nhằm định hướng mô hình thực hiện các tác
mô hình như một chuyên gia phân tích cảm
vụ trích xuất thông tin có cấu trúc (Wei et al.,
xúc, mô tả không gian nhãn khía cạnh và cảm
2021). Scaria và cộng sự (Scaria et al., 2023) cho
xúc, đồng thời quy định các quy tắc gán nhãn
thấy việc sử dụng các chỉ dẫn rõ ràng có thể giúp quan trọng.
mô hình sinh ra các biểu diễn có cấu trúc như bộ
hoặc JSON với độ chính xác cao. Tuy nhiên, việc
Input (Đầu vào): Văn bản bình luận thô của
áp dụng các phương pháp này cho tiếng Việt vẫn người dùng.
còn hạn chế, đặc biệt trong bối cảnh dữ liệu và tài
nguyên tính toán giới hạn.
Output (Đầu ra): Chuỗi JSON mục tiêu,
biểu diễn danh sách các bộ ba (Aspect, 3 Phương pháp
Sentiment, Span) tương ứng với các khía cạnh được trích xuất.
Hình 2 minh họa một ví dụ rút gọn về định dạng
Alpaca-style instruction được sử dụng trong quá
trình huấn luyện. Phiên bản đầy đủ của chỉ dẫn
huấn luyện được cung cấp trong Phụ lục A.
Instruction: Bạn là một chuyên gia phân tích cảm xúc
khách hàng. Hãy trích xuất các khía cạnh, xu hướng cảm
xúc và đoạn văn bản tương ứng từ bình luận sau. Sử dụng
tập nhãn đã định nghĩa và trả về kết quả dưới dạng danh sách JSON.
Input: Pin dùng được lâu nhưng màn hình hơi tối. Output: [ {"aspect": "BATTERY", "sentiment":
"POSITIVE", "span": "Pin dùng được lâu"}, {"aspect": "SCREEN", "sentiment":
"NEGATIVE", "span": "màn hình hơi tối"}]
Hình 1: Kiến trúc tổng thể của hệ thống đề xuất cho bài toán ABSA tiếng Việt.
Hình 2: Ví dụ rút gọn về định dạng Alpaca-style
instruction cho tác vụ ABSA tiếng Việt.
Kiến trúc tổng thể của hệ thống được minh họa 3.2
Tinh chỉnh hiệu quả tham số với QLoRA 4
Thiết lập thực nghiệm
Việc tinh chỉnh toàn bộ (Full Fine-tuning) một mô 4.1
Bộ dữ liệu và Cài đặt Huấn luyện
hình 7 tỷ tham số đòi hỏi tài nguyên tính toán khổng
lồ. Do đó, chúng tôi áp dụng kỹ thuật QLoRA
Chúng tôi sử dụng bộ dữ liệu chuẩn UIT-
(Quantized Low-Rank Adaptation). Cụ thể:
ViSD4SA, bao gồm 11.122 bình luận về điện thoại
di động. Dữ liệu được chia theo tỷ lệ 70% huấn
1. Lượng tử hóa (Quantization): Trọng số của
luyện, 10% kiểm định (dev) và 20% kiểm thử (test).
mô hình cơ sở Qwen2.5-7B được nén xuống
Bộ dữ liệu này bao gồm 3 nhãn xu hướng cảm xúc
độ chính xác 4-bit để giảm thiểu dung lượng
(POSITIVE, NEGATIVE, NEUTRAL) và 10 nhãn bộ nhớ VRAM.
khía cạnh thuộc các nhóm như thiết kế, hiệu năng,
2. Low-Rank Adapters: Chúng tôi đóng băng
pin, màn hình và giá cả, phản ánh các thuộc tính
(freeze) toàn bộ trọng số của mô hình gốc
phổ biến trong đánh giá sản phẩm điện tử.
và chỉ thêm các cặp ma trận hạng thấp A và
Chúng tôi thực hiện tinh chỉnh mô hình B vào các lớp Attention (W
Qwen2.5-7B sử dụng kỹ thuật QLoRA thông qua q , Wk, Wv , Wo).
Trong thực nghiệm, chúng tôi thiết lập r = 16
framework Unsloth để tối ưu hóa hiệu suất trên tài
và α = 16 trong đó r là hạng (rank) của ma
nguyên giới hạn. Quá trình huấn luyện sử dụng bộ
trận thích ứng và α là hệ số tỉ lệ.
tối ưu hóa AdamW 8-bit nhằm giảm thiểu mức tiêu
thụ bộ nhớ mà vẫn đảm bảo khả năng hội tụ. Các 3.3
Hậu xử lý Neuro-Symbolic
siêu tham số (hyperparameters) chi tiết được liệt kê
Do bản chất ngẫu nhiên của mô hình ngôn ngữ trong Bảng 1.
lớn, đầu ra có thể gặp các vấn đề về lỗi cú
pháp/định dạng (syntax/format error) hoặc ảo giác
Bảng 1: Cấu hình tham số huấn luyện
(hallucination). Chúng tôi thiết kế một quy trình
hậu xử lý lai ghép gồm ba giai đoạn: Tham số (Parameter) Giá trị (Value) Base Model Qwen2.5-7B-Instruct
Giai đoạn 1: Phân tích cú pháp JSON Method QLoRA (4-bit, Rank=16)
nghiêm ngặt (Strict JSON Parsing). Hệ Optimizer AdamW 8-bit
thống ưu tiên sử dụng trình phân tích cú pháp Learning Rate 2 × 10−4
chuẩn để chuyển đổi chuỗi văn bản đầu ra Lịch trình (Scheduler) Linear Epochs 2
thành đối tượng cấu trúc. Nếu quá trình này Batch Size (per device) 1
thành công (True), dữ liệu sẽ được chuyển Gradient Accumulation 8 steps
thẳng đến giai đoạn chuẩn hóa. Nếu thất bại Weight Decay 0.01
(False) do lỗi cú pháp, hệ thống sẽ kích hoạt Max Sequence Length 2048
cơ chế dự phòng ở Giai đoạn 2.
Giai đoạn 2: Trích xuất dựa trên biểu thức
chính quy (Robust Regex Fallback). Đây là 4.2 Đánh giá
cơ chế chịu lỗi, sử dụng các mẫu biểu thức
chính quy (Regular Expressions) để quét và
Hệ thống được đánh giá dựa trên độ đo F1-Score
trích xuất cục bộ các trường thông tin quan
(Micro và Macro) cho ba tác vụ con:
trọng (aspect, sentiment, span), bỏ qua các
ký tự gây nhiễu hoặc cấu trúc JSON bị lỗi.
Aspect Extraction: Chỉ đánh giá việc trích
xuất đúng nhãn khía cạnh.
Giai đoạn 3: Chuẩn hóa nhãn dựa trên luật
(Rule-based Normalization). Dữ liệu thô sau
khi được trích xuất (từ Giai đoạn 1 hoặc 2) sẽ
Polarity Detection: Đánh giá việc phân loại
đi qua bộ lọc chuẩn hóa. Tại đây, chúng tôi sử
đúng nhãn xu hướng cảm xúc (Positive,
dụng từ điển ánh xạ từ đồng nghĩa (Synonym Negative, Neutral).
Mapping) để quy đổi các biến thể từ vựng (ví
dụ: "Pin", "Tốt", "Good",...) về tập nhãn mục
Strict Matching: Tiêu chuẩn khắt khe nhất,
tiêu chuẩn của bộ dữ liệu, đảm bảo tính nhất
yêu cầu dự đoán đúng đồng thời cả bộ ba quán cho việc đánh giá. (Aspect, Sentiment, Span).
Bảng 2: Phân tích lỗi chi tiết trên các mẫu thực tế (Case Study)
Văn bản đầu vào (Input Text) Prediction Ground Truth
"Mình mới mua. mình thấy mẫu đẹp pin trâu PERFORMANCE FEATURES
cảm ứng mượt được em nhân viên ĐMX tư vấn rất nhiệt tình"
"...Cảm nhận của mình về máy khá mượt, cam đẹp , pin DESIGN CAMERA
khá ổn... Nói chung là máy khá tôt, ổn trong tầm giá..."
"Máy hình chưa tới 1gb , chỉ tải vài ứng dụng cơ bản PERFORMANCE STORAGE
thôi máy lag rồi... Game thì khỏi nói chả có nào chiến được..." 5
Kết quả và Thảo luận
Bảng 4: So sánh F1-Macro giữa Baseline và Mô hình đề xuất 5.1 Kết quả chính
Bảng 3 trình bày hiệu năng của mô hình đề xuất Task Baseline Ours (Qwen2.5)
trên tập kiểm thử. Kết quả cho thấy mô hình đạt Aspect Extraction 62.76 71.02
hiệu suất ấn tượng nhất ở tác vụ nhận diện cảm Polarity Detection 49.77 71.86
xúc (Polarity) với F1-Micro đạt 84.36%. Điều này Strict Matching 45.70 46.83
khẳng định năng lực vượt trội của mô hình ngôn
ngữ lớn trong việc thấu hiểu xu hướng cảm xúc của
văn bản đánh giá tiếng Việt.
gán nhãn từ cục bộ (token-level) thường bỏ sót. Ở
Đối với tác vụ trích xuất khía cạnh (Aspect),
tác vụ Strict Matching, dù phải giải quyết bài toán
mô hình đạt 74.79%. Tại chỉ số quan trọng nhất
khó hơn là sinh văn bản có cấu trúc, mô hình vẫn
là khớp chính xác (Strict Matching), mô hình đạt
đạt kết quả cạnh tranh (F1-Macro 46.83% so với
65.73%. Sự chênh lệch giữa Micro và Macro F1 45.70%).
phản ánh đặc điểm phân bố lệch của dữ liệu thực
tế, tuy nhiên mô hình vẫn duy trì được độ ổn định 5.3
Phân tích định tính trên các nhãn lớp chính.
Để hiểu rõ hơn về hành vi của mô hình, chúng tôi
tiến hành phân tích định tính trên các mẫu dự đoán
Bảng 3: Kết quả thực nghiệm trên tập Test của UIT-
sai. Bảng 2 minh họa một số trường hợp sai sót ViSD4SA
điển hình được trích xuất từ tập kiểm thử.
Qua phân tích, chúng tôi nhận thấy các lỗi chủ Task F1 Micro (%) F1 Macro (%) yếu rơi vào ba nhóm sau: Aspect Extraction 74.79 71.02 Polarity Detection 84.36 71.86
1. Nhầm lẫn giữa Tính năng và Hiệu năng: Strict Matching 65.73 46.83
Các từ khóa như "mượt", "nhạy"thường gắn
liền với PERFORMANCE. Tuy nhiên, khi
đi kèm với "cảm ứng"hay "vân tay", nhãn 5.2 So sánh với Baseline
chuẩn là FEATURES. Mô hình đôi khi ưu
Để đánh giá khách quan, chúng tôi so sánh hiệu
tiên tính từ mô tả hơn là thực thể chính, dẫn
năng của mô hình đề xuất với các đường cơ sở đến dự đoán sai lệch.
(baselines) từ nghiên cứu gốc (Nguyen et al., 2021),
đại diện là mô hình XLM-RoBERTa Large.
2. Sự phụ thuộc vào từ khóa cảm xúc:
Kết quả so sánh ở Bảng 4 cho thấy phương pháp
hình có xu hướng gán nhãn dựa trên các tính
tiếp cận Generative của chúng tôi vượt trội đáng kể
từ mạnh. Ví dụ, cụm từ "cam đẹp"bị gán nhãn
ở tác vụ Polarity Detection (F1-Macro đạt 71.86%
DESIGN vì từ "đẹp"thường mô tả ngoại hình,
so với 49.77% của Baseline). Điều này cho thấy
trong khi nhãn đúng là CAMERA. Điều này
kiến trúc Sequence-to-Sequence với khả năng chú
cho thấy sự chú ý (attention) của mô hình đôi
ý (Attention) toàn cục giúp mô hình nắm bắt tốt
khi bị lệch về phía tính từ thay vì danh từ trung
hơn các ngữ cảnh cảm xúc phức tạp mà mô hình tâm.
3. Bỏ sót thông tin kỹ thuật: Trong các câu
huấn luyện, do hiện tượng phân tán sự chú ý
phàn nàn dài, mô hình thường tập trung vào
ở các vị trí xa trong chuỗi.
cảm xúc tiêu cực chung (ví dụ: "lag", "chậm")
và gán nhãn PERFORMANCE, nhưng bỏ
Trong tương lai, chúng tôi dự kiến mở rộng
qua các thông số kỹ thuật định lượng nhỏ như
nghiên cứu theo một số hướng sau: "1GB"(thuộc về STORAGE).
Mở rộng miền dữ liệu: Khảo sát khả năng 6 Kết luận
thích nghi của mô hình khi áp dụng cho các
lĩnh vực khác như du lịch, nhà hàng hoặc
Trong nghiên cứu này, chúng tôi đã áp dụng mô
thương mại điện tử, trong bối cảnh phân bố
hình ngôn ngữ lớn (LLM) cho bài toán Phân tích
khía cạnh và ngôn ngữ khác biệt so với miền
cảm xúc dựa trên khía cạnh (ABSA) tiếng Việt theo huấn luyện ban đầu.
hướng tiếp cận sinh văn bản, thay vì gán nhãn chuỗi
truyền thống. Thông qua việc tinh chỉnh mô hình
Tích hợp RAG: Thử nghiệm các kiến trúc mô
Qwen2.5-7B bằng kỹ thuật QLoRA kết hợp với
hình lớn hơn kết hợp với kỹ thuật Retrieval-
thiết kế dữ liệu theo chỉ dẫn (Instruction Tuning),
Augmented Generation (RAG) nhằm cải thiện
các kết quả thực nghiệm cho thấy LLM có thể đạt
khả năng xử lý các thực thể mới và thông tin
hiệu năng cạnh tranh, đồng thời vẫn đảm bảo tính
sản phẩm thay đổi theo thời gian.
khả thi trong bối cảnh tài nguyên phần cứng hạn
Chuẩn hóa nhãn có khả năng học: Phát triển chế.
các cơ chế chuẩn hóa nhãn dựa trên học máy
Đóng góp chính của nghiên cứu nằm ở việc đề
(learnable normalization) để giảm thiểu sự
xuất một khung tiếp cận thực tiễn cho bài toán
phụ thuộc vào các luật thủ công trong giai
ABSA tiếng Việt dựa trên LLM, trong đó mô hình đoạn hậu xử lý.
sinh được kết hợp với cơ chế hậu xử lý Neuro-
Symbolic
. Cách tiếp cận này giúp giảm các dự A Full Instruction
đoán không nhất quán về mặt cấu trúc và cải thiện
Bạn là một chuyên gia AI về phân tích cảm xúc khách
độ ổn định của đầu ra, đặc biệt trong các trường hợp
hàng (ABSA). Nhiệm vụ của bạn là đọc bình luận
yêu cầu trích xuất đồng thời khía cạnh, xu hướng
và trích xuất các khía cạnh (Aspect) cùng cảm xúc
cảm xúc và đoạn văn bản liên quan. Trên bộ dữ
(Sentiment) và nội dung tương ứng (Span).
liệu UIT-ViSD4SA, phương pháp đề xuất đạt độ DANH SÁCH NHÃN:
chính xác cao (F1-Micro 84.36% cho tác vụ nhận Aspect: [SCREEN, CAMERA, FEATURES,
diện cảm xúc) và thể hiện khả năng xử lý tốt các BATTERY, PERFORMANCE, STORAGE,
hiện tượng ngữ nghĩa ẩn trong văn bản đánh giá.
DESIGN, PRICE, GENERAL, SER&ACC]
Sentiment: [POSITIVE, NEGATIVE, NEUTRAL]
Mặc dù đạt được kết quả khả quan, phương pháp
đề xuất vẫn tồn tại một số hạn chế cần được xem
HƯỚNG DẪN GÁN NHÃN QUAN TRỌNG:
1) SER&ACC (Dịch vụ & Phụ kiện):
xét trong các nghiên cứu tiếp theo:
Bao gồm CSKH, bảo hành, giao hàng, đóng gói, và
các phụ kiện đi kèm (sạc, cáp, tai nghe...).
Độ trễ suy luận: Do sử dụng mô hình ngôn Ví dụ:
ngữ lớn với cơ chế sinh văn bản tự hồi quy,
-- ‘‘Giao hàng nhanh’’ → SER&ACC#POSITIVE
thời gian suy luận vẫn cao hơn so với các mô
-- ‘‘Sạc lỏng lẻo’’ → SER&ACC#NEGATIVE
hình phân loại truyền thống, hạn chế khả năng 2) FEATURES (Tính năng):
triển khai trong các hệ thống yêu cầu phản hồi
Các tính năng cụ thể như Vân tay, FaceID, Wifi, thời gian thực.
4G, Bluetooth, Sim, Chống nước... Ví dụ:
-- ‘‘Vân tay nhạy’’ → FEATURES#POSITIVE
Phụ thuộc vào luật thủ công: Cơ chế hậu xử
-- ‘‘Bắt wifi kém’’ → FEATURES#NEGATIVE
lý Neuro-Symbolic hiện tại dựa trên một tập
luật và từ điển được xây dựng thủ công, khiến
3) QUY TẮC NHÃN ’GENERAL’ (Tổng quan):
-- GENERAL#POSITIVE: Nếu (Tổng số nhãn
hệ thống chưa thích ứng tốt với các biến thể
Positive khác) - (Tổng số nhãn Negative khác) ≥ 2
ngôn ngữ mới hoặc từ lóng xuất hiện theo thời
-- GENERAL#NEGATIVE: Nếu (Tổng số nhãn gian.
Negative khác) - (Tổng số nhãn Positive khác) ≥ 2
-- GENERAL#NEUTRAL: Các trường hợp còn lại
Hạn chế với văn bản dài: Hiệu năng của mô
(chênh lệch <= 1) hoặc khi khách hàng nhận xét chung
hình có xu hướng suy giảm đối với các văn
chung "Máy ổn", "Tạm được".
bản đánh giá rất dài, vượt quá cửa sổ ngữ cảnh ĐỊNH DẠNG OUTPUT:
Trả về JSON list chứa các object: { "aspect": "...",
"sentiment": "...", "span": "..." }. Nếu không có thông tin, trả về [ ]. References
Dat Quoc Nguyen, Anh Tuan Nguyen, Hung Pham,
and Minh Le Nguyen. 2020. Phobert: Pre-trained
language models for vietnamese. In Findings of the
Association for Computational Linguistics: EMNLP
, pages 1037--1042.
Kim Thi-Thanh Nguyen, Sieu Khai Huynh, Luong Luc
Phan, Phuc Huynh Pham, Duc-Vu Nguyen, and
Kiet Van Nguyen. 2021. Uit-visd4sa: A vietnamese
dataset for aspect-based sentiment analysis. arXiv preprint arXiv:2110.07833.
Quang Huy Nguyen and Thanh Vu. 2020. Vibert: A
pre-trained language model for vietnamese. arXiv preprint arXiv:2005.06457.
Sijo Scaria and 1 others. 2023. Extracting structured
information with instruction-tuned language models.
In Proceedings of the Conference on Empirical
Methods in Natural Language Processing (EMNLP)
.
Jason Wei and 1 others. 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
Hang Yan, Junqi Dai, Xipeng Ji, and Shuai Huang.
2021. A unified generative framework for aspect-
based sentiment analysis. In Proceedings of the 59th
Annual Meeting of the Association for Computational Linguistics (ACL)
.
Wenxuan Zhang, Xin Li, and Lidong Bing. 2022.
Unified generative framework for aspect-based sentiment analysis.
In Proceedings of the 60th
Annual Meeting of the Association for Computational Linguistics (ACL).
Document Outline

  • Giới thiệu
  • Các nghiên cứu liên quan
    • Phân tích cảm xúc khía cạnh cho tiếng Việt
    • Generative ABSA và Instruction Tuning
  • Phương pháp
    • Xây dựng dữ liệu huấn luyện theo chỉ dẫn
    • Tinh chỉnh hiệu quả tham số với QLoRA
    • Hậu xử lý Neuro-Symbolic
  • Thiết lập thực nghiệm
    • Bộ dữ liệu và Cài đặt Huấn luyện
    • Đánh giá
  • Kết quả và Thảo luận
    • Kết quả chính
    • So sánh với Baseline
    • Phân tích định tính
  • Kết luận
  • Full Instruction