6 trang 10 lượt tải

Tinh chỉnh LLM theo chỉ dẫn cho bài toán Phân tích Cảm xúc Khía cạnh tiếng Việt | Tài liệu Tiếng Việt

Môn: Tài liệu Tổng hợp 3.6 K tài liệu

Trường: Tài liệu khác 3.9 K tài liệu

Tác giả:

Trương Khánh

1 tháng trước

Tải xuống Báo cáo

Danh sách Quiz

Tinh chỉnh LLM theo chỉ dẫn cho bài toán Phân tích Cảm xúc Khía cạnh

tiếng Việt

Trần Anh Duy

, Trương Thế Minh Khánh

, Nguyễn Văn Tiên

Khoa Khoa học và Kỹ thuật Thông tin

Trường Đại học Công nghệ Thông tin – ĐHQG TP. Hồ Chí Minh, Việt Nam

{23520389, 23520727, 23521580}@gm.uit.edu.vn

Tóm tắt nội dung

Phân tích cảm xúc dựa trên khía cạnh (Aspect-

Based Sentiment Analysis - ABSA) là một bài

toán quan trọng trong việc khai thác ý kiến

khách hàng từ dữ liệu văn bản. Tuy nhiên,

các phương pháp truyền thống dựa trên gán

nhãn chuỗi (Sequence Labeling) thường gặp

khó khăn khi xử lý các cấu trúc câu phức

tạp, các khía cạnh chồng chéo hoặc các khía

cạnh ẩn trong tiếng Việt. Trong nghiên cứu

này, chúng tôi tiếp cận ABSA như một bài

toán tạo sinh chuỗi (Generative Sequence-to-

Sequence), trong đó mô hình được hướng dẫn

trích xuất trực tiếp các bộ ba thông tin gồm khía

cạnh, cảm xúc và đoạn minh chứng. Chúng

tôi áp dụng kỹ thuật Instruction Tuning để

tinh chỉnh mô hình Qwen2.5-7B, kết hợp với

QLoRA nhằm giảm yêu cầu về tài nguyên

tính toán. Ngoài ra, cơ chế hậu xử lý Neuro-

Symbolic kết hợp biểu thức chính quy và chuẩn

hóa dựa trên luật được đề xuất để đảm bảo tính

nhất quán của đầu ra có cấu trúc. Thực nghiệm

trên bộ dữ liệu UIT-ViSD4SA cho thấy phương

pháp đề xuất đạt Micro F1-Score lần lượt là

74.79% cho trích xuất khía cạnh, 84.36% cho

nhận diện cảm xúc và 65.73% cho khớp chính

xác khía cạnh-cảm xúc.

1 Giới thiệu

Sự gia tăng nhanh chóng của các nền tảng thương

mại điện tử tại Việt Nam đã tạo ra một lượng lớn

bình luận và đánh giá của người dùng. Những

văn bản này thường đề cập đồng thời đến nhiều

thuộc tính khác nhau của sản phẩm, kèm theo các

đánh giá phản ánh những xu hướng cảm xúc khác

nhau. Do đó, phân tích cảm xúc dựa trên khía cạnh

(Aspect-Based Sentiment Analysis – ABSA) đóng

vai trò quan trọng trong việc khai thác thông tin chi

tiết từ dữ liệu ý kiến người dùng.

Phần lớn các nghiên cứu ABSA cho tiếng Việt

hiện nay tiếp cận bài toán dưới dạng gán nhãn

chuỗi, trong đó mỗi từ được gán nhãn thể hiện khía

cạnh hoặc cảm xúc. Cách tiếp cận này cho thấy

hiệu quả trong những trường hợp đơn giản nhưng

gặp khó khăn khi xử lý các hiện tượng phổ biến

trong dữ liệu thực tế, bao gồm nhiều khía cạnh xuất

hiện đồng thời, khía cạnh chồng chéo, hoặc khía

cạnh được biểu đạt gián tiếp. Ngoài ra, việc phụ

thuộc vào nhãn ở mức từ làm giảm khả năng thích

nghi của mô hình khi áp dụng sang các miền dữ

liệu mới.

Chúng tôi tiếp cận ABSA tiếng Việt như một

bài toán tạo sinh chuỗi (Generative Sequence-to-

Sequence), trong đó mô hình được hướng dẫn trích

xuất trực tiếp các bộ ba thông tin gồm khía cạnh,

cảm xúc và đoạn minh chứng từ văn bản đầu vào.

Hướng tiếp cận này cho phép mô hình xử lý trực

tiếp mối quan hệ giữa khía cạnh và xu hướng cảm

xúc trong câu, đồng thời giảm sự phụ thuộc vào gán

nhãn chi tiết ở mức từ. Chúng tôi đánh giá phương

pháp đề xuất trên bộ dữ liệu UIT-ViSD4SA và thảo

luận các kết quả đạt được trong bối cảnh hạn chế

về tài nguyên tính toán.

2 Các nghiên cứu liên quan

2.1 Phân tích cảm xúc khía cạnh cho tiếng

Việt

Các nghiên cứu ban đầu về phân tích cảm xúc

dựa trên khía cạnh (ABSA) cho tiếng Việt chủ

yếu tiếp cận bài toán dưới dạng gán nhãn chuỗi

(Sequence Labeling). Nguyen và cộng sự (Nguyen

et al., 2021) đã giới thiệu bộ dữ liệu UIT-ViSD4SA

và thiết lập các đường cơ sở (baseline) sử dụng

BiLSTM-CRF và XLM-RoBERTa, trong đó bài

toán được mô hình hóa theo định dạng thẻ BIO

(Beginning-Inside-Outside). Sự xuất hiện của các

mô hình ngôn ngữ tiền huấn luyện đơn như

PhoBERT (Nguyen et al., 2020) và ViBERT

(Nguyen and Vu, 2020) đã cải thiện hiệu năng nhờ

khả năng biểu diễn ngữ cảnh tốt hơn. Tuy nhiên,

các phương pháp dựa trên gán nhãn chuỗi thường

xử lý bài toán theo các kiến trúc dạng đường ống

(pipeline), dễ dẫn đến lan truyền lỗi và gặp hạn chế

khi cần biểu diễn các khía cạnh được biểu đạt gián

tiếp hoặc chồng chéo trong văn bản. Những hạn

chế này đặt ra nhu cầu về các hướng tiếp cận linh

hoạt hơn, có khả năng biểu diễn trực tiếp mối quan

hệ giữa khía cạnh và cảm xúc mà không phụ thuộc

chặt chẽ vào nhãn ở mức từ.

2.2 Generative ABSA và Instruction Tuning

Song song với hướng tiếp cận gán nhãn, một số

nghiên cứu đã đề xuất mô hình hóa ABSA như một

bài toán tạo sinh chuỗi. Yan và cộng sự (Yan et al.,

2021) là những người tiên phong chuyển đổi ABSA

sang dạng Sequence-to-Sequence (Seq2Seq) bằng

mô hình BART, cho phép sinh trực tiếp chuỗi đầu

ra biểu diễn thông tin khía cạnh. Tiếp nối hướng đi

này, Zhang và cộng sự (Zhang et al., 2022) đã sử

dụng mô hình T5 để giải quyết thống nhất nhiều

tác vụ con của ABSA trong cùng một khung làm

việc.

Gần đây, với sự phát triển của các mô hình ngôn

ngữ lớn, kỹ thuật Instruction Tuning đã được áp

dụng nhằm định hướng mô hình thực hiện các tác

vụ trích xuất thông tin có cấu trúc (Wei et al.,

2021). Scaria và cộng sự (Scaria et al., 2023) cho

thấy việc sử dụng các chỉ dẫn rõ ràng có thể giúp

mô hình sinh ra các biểu diễn có cấu trúc như bộ

hoặc JSON với độ chính xác cao. Tuy nhiên, việc

áp dụng các phương pháp này cho tiếng Việt vẫn

còn hạn chế, đặc biệt trong bối cảnh dữ liệu và tài

nguyên tính toán giới hạn.

3 Phương pháp

Hình 1: Kiến trúc tổng thể của hệ thống đề xuất cho bài

toán ABSA tiếng Việt.

Kiến trúc tổng thể của hệ thống được minh họa

trong Hình 1. Thay vì tiếp cận theo hướng phân loại

từng từ (token classification), chúng tôi mô hình

hóa bài toán ABSA dưới dạng mô hình hóa ngôn

ngữ nhân quả (Causal Language Modeling), trong

đó đầu vào là văn bản đánh giá sản phầm

và đầu

ra là chuỗi văn bản Y dạng JSON có cấu trúc.

3.1

Xây dựng dữ liệu huấn luyện theo chỉ dẫn

Bộ dữ liệu gốc UIT-ViSD4SA được gán nhãn theo

dạng khoảng (span-based). Để phù hợp với các mô

hình ngôn ngữ lớn (LLMs), chúng tôi chuyển đổi

dữ liệu này sang định dạng huấn luyện theo chỉ dẫn

(instruction tuning) theo phong cách Alpaca. Trong

thiết lập này, bài toán ABSA được mô hình hóa

như một tác vụ tạo sinh có điều kiện, trong đó mô

hình được hướng dẫn trích xuất trực tiếp các thông

tin có cấu trúc từ văn bản đầu vào.

Mỗi mẫu huấn luyện bao gồm ba thành phần

chính:

•

Instruction (Chỉ dẫn): Xác định vai trò của

mô hình như một chuyên gia phân tích cảm

xúc, mô tả không gian nhãn khía cạnh và cảm

xúc, đồng thời quy định các quy tắc gán nhãn

quan trọng.

•

Input (Đầu vào): Văn bản bình luận thô của

người dùng.

•

Output (Đầu ra): Chuỗi JSON mục tiêu,

biểu diễn danh sách các bộ ba

(Aspect,

Sentiment, Span)

tương ứng với các khía

cạnh được trích xuất.

Hình 2 minh họa một ví dụ rút gọn về định dạng

Alpaca-style instruction được sử dụng trong quá

trình huấn luyện. Phiên bản đầy đủ của chỉ dẫn

huấn luyện được cung cấp trong Phụ lục A.

Instruction: Bạn là một chuyên gia phân tích cảm xúc

khách hàng. Hãy trích xuất các khía cạnh, xu hướng cảm

xúc và đoạn văn bản tương ứng từ bình luận sau. Sử dụng

tập nhãn đã định nghĩa và trả về kết quả dưới dạng danh

sách JSON.

Input: Pin dùng được lâu nhưng màn hình hơi tối.

Output:

[ {"aspect": "BATTERY", "sentiment":

"POSITIVE", "span": "Pin dùng được lâu"},

{"aspect": "SCREEN", "sentiment":

"NEGATIVE", "span": "màn hình hơi tối"}]

Hình 2: Ví dụ rút gọn về định dạng Alpaca-style

instruction cho tác vụ ABSA tiếng Việt.

3.2 Tinh chỉnh hiệu quả tham số với QLoRA

Việc tinh chỉnh toàn bộ (Full Fine-tuning) một mô

hình 7 tỷ tham số đòi hỏi tài nguyên tính toán khổng

lồ. Do đó, chúng tôi áp dụng kỹ thuật QLoRA

(Quantized Low-Rank Adaptation). Cụ thể:

Lượng tử hóa (Quantization): Trọng số của

mô hình cơ sở Qwen2.5-7B được nén xuống

độ chính xác 4-bit để giảm thiểu dung lượng

bộ nhớ VRAM.

Low-Rank Adapters: Chúng tôi đóng băng

(freeze) toàn bộ trọng số của mô hình gốc

và chỉ thêm các cặp ma trận hạng thấp

và

vào các lớp Attention (

, W

Trong thực nghiệm, chúng tôi thiết lập

r = 16

và

α = 16

trong đó

là hạng (rank) của ma

trận thích ứng và α là hệ số tỉ lệ.

3.3 Hậu xử lý Neuro-Symbolic

Do bản chất ngẫu nhiên của mô hình ngôn ngữ

lớn, đầu ra có thể gặp các vấn đề về lỗi cú

pháp/định dạng (syntax/format error) hoặc ảo giác

(hallucination). Chúng tôi thiết kế một quy trình

hậu xử lý lai ghép gồm ba giai đoạn:

•

Giai đoạn 1: Phân tích cú pháp JSON

nghiêm ngặt (Strict JSON Parsing). Hệ

thống ưu tiên sử dụng trình phân tích cú pháp

chuẩn để chuyển đổi chuỗi văn bản đầu ra

thành đối tượng cấu trúc. Nếu quá trình này

thành công (True), dữ liệu sẽ được chuyển

thẳng đến giai đoạn chuẩn hóa. Nếu thất bại

(False) do lỗi cú pháp, hệ thống sẽ kích hoạt

cơ chế dự phòng ở Giai đoạn 2.

•

Giai đoạn 2: Trích xuất dựa trên biểu thức

chính quy (Robust Regex Fallback). Đây là

cơ chế chịu lỗi, sử dụng các mẫu biểu thức

chính quy (Regular Expressions) để quét và

trích xuất cục bộ các trường thông tin quan

trọng (

aspect

sentiment

span

), bỏ qua các

ký tự gây nhiễu hoặc cấu trúc JSON bị lỗi.

•

Giai đoạn 3: Chuẩn hóa nhãn dựa trên luật

(Rule-based Normalization). Dữ liệu thô sau

khi được trích xuất (từ Giai đoạn 1 hoặc 2) sẽ

đi qua bộ lọc chuẩn hóa. Tại đây, chúng tôi sử

dụng từ điển ánh xạ từ đồng nghĩa (Synonym

Mapping) để quy đổi các biến thể từ vựng (ví

dụ: "Pin", "Tốt", "Good",...) về tập nhãn mục

tiêu chuẩn của bộ dữ liệu, đảm bảo tính nhất

quán cho việc đánh giá.

4 Thiết lập thực nghiệm

4.1 Bộ dữ liệu và Cài đặt Huấn luyện

Chúng tôi sử dụng bộ dữ liệu chuẩn UIT-

ViSD4SA, bao gồm 11.122 bình luận về điện thoại

di động. Dữ liệu được chia theo tỷ lệ 70% huấn

luyện, 10% kiểm định (dev) và 20% kiểm thử (test).

Bộ dữ liệu này bao gồm 3 nhãn xu hướng cảm xúc

(POSITIVE, NEGATIVE, NEUTRAL) và 10 nhãn

khía cạnh thuộc các nhóm như thiết kế, hiệu năng,

pin, màn hình và giá cả, phản ánh các thuộc tính

phổ biến trong đánh giá sản phẩm điện tử.

Chúng tôi thực hiện tinh chỉnh mô hình

Qwen2.5-7B sử dụng kỹ thuật QLoRA thông qua

framework Unsloth để tối ưu hóa hiệu suất trên tài

nguyên giới hạn. Quá trình huấn luyện sử dụng bộ

tối ưu hóa AdamW 8-bit nhằm giảm thiểu mức tiêu

thụ bộ nhớ mà vẫn đảm bảo khả năng hội tụ. Các

siêu tham số (hyperparameters) chi tiết được liệt kê

trong Bảng 1.

Bảng 1: Cấu hình tham số huấn luyện

Tham số (Parameter) Giá trị (Value)

Base Model Qwen2.5-7B-Instruct

Method QLoRA (4-bit, Rank=16)

Optimizer AdamW 8-bit

Learning Rate 2 × 10

−4

Lịch trình (Scheduler) Linear

Epochs 2

Batch Size (per device) 1

Gradient Accumulation 8 steps

Weight Decay 0.01

Max Sequence Length 2048

4.2 Đánh giá

Hệ thống được đánh giá dựa trên độ đo F1-Score

(Micro và Macro) cho ba tác vụ con:

•

Aspect Extraction: Chỉ đánh giá việc trích

xuất đúng nhãn khía cạnh.

•

Polarity Detection: Đánh giá việc phân loại

đúng nhãn xu hướng cảm xúc (Positive,

Negative, Neutral).

•

Strict Matching: Tiêu chuẩn khắt khe nhất,

yêu cầu dự đoán đúng đồng thời cả bộ ba

(Aspect, Sentiment, Span).

Bảng 2: Phân tích lỗi chi tiết trên các mẫu thực tế (Case Study)

Văn bản đầu vào (Input Text) Prediction Ground Truth

"Mình mới mua. mình thấy mẫu đẹp pin trâu

cảm ứng mượt

được em nhân viên ĐMX tư vấn rất

nhiệt tình"

PERFORMANCE FEATURES

"...Cảm nhận của mình về máy khá mượt,

cam đẹp

, pin

khá ổn... Nói chung là máy khá tôt, ổn trong tầm giá..."

DESIGN CAMERA

"Máy hình

chưa tới 1gb

, chỉ tải vài ứng dụng cơ bản

thôi máy lag rồi... Game thì khỏi nói chả có nào chiến

được..."

PERFORMANCE STORAGE

5 Kết quả và Thảo luận

5.1 Kết quả chính

Bảng 3 trình bày hiệu năng của mô hình đề xuất

trên tập kiểm thử. Kết quả cho thấy mô hình đạt

hiệu suất ấn tượng nhất ở tác vụ nhận diện cảm

xúc (Polarity) với F1-Micro đạt 84.36%. Điều này

khẳng định năng lực vượt trội của mô hình ngôn

ngữ lớn trong việc thấu hiểu xu hướng cảm xúc của

văn bản đánh giá tiếng Việt.

Đối với tác vụ trích xuất khía cạnh (Aspect),

mô hình đạt 74.79%. Tại chỉ số quan trọng nhất

là khớp chính xác (Strict Matching), mô hình đạt

65.73%. Sự chênh lệch giữa Micro và Macro F1

phản ánh đặc điểm phân bố lệch của dữ liệu thực

tế, tuy nhiên mô hình vẫn duy trì được độ ổn định

trên các nhãn lớp chính.

Bảng 3: Kết quả thực nghiệm trên tập Test của UIT-

ViSD4SA

Task F1 Micro (%) F1 Macro (%)

Aspect Extraction 74.79 71.02

Polarity Detection 84.36 71.86

Strict Matching 65.73 46.83

5.2 So sánh với Baseline

Để đánh giá khách quan, chúng tôi so sánh hiệu

năng của mô hình đề xuất với các đường cơ sở

(baselines) từ nghiên cứu gốc (Nguyen et al., 2021),

đại diện là mô hình XLM-RoBERTa Large.

Kết quả so sánh ở Bảng 4 cho thấy phương pháp

tiếp cận Generative của chúng tôi vượt trội đáng kể

ở tác vụ Polarity Detection (F1-Macro đạt 71.86%

so với 49.77% của Baseline). Điều này cho thấy

kiến trúc Sequence-to-Sequence với khả năng chú

ý (Attention) toàn cục giúp mô hình nắm bắt tốt

hơn các ngữ cảnh cảm xúc phức tạp mà mô hình

Bảng 4: So sánh F1-Macro giữa Baseline và Mô hình

đề xuất

Task Baseline Ours (Qwen2.5)

Aspect Extraction 62.76 71.02

Polarity Detection 49.77 71.86

Strict Matching 45.70 46.83

gán nhãn từ cục bộ (token-level) thường bỏ sót. Ở

tác vụ Strict Matching, dù phải giải quyết bài toán

khó hơn là sinh văn bản có cấu trúc, mô hình vẫn

đạt kết quả cạnh tranh (F1-Macro 46.83% so với

45.70%).

5.3 Phân tích định tính

Để hiểu rõ hơn về hành vi của mô hình, chúng tôi

tiến hành phân tích định tính trên các mẫu dự đoán

sai. Bảng 2 minh họa một số trường hợp sai sót

điển hình được trích xuất từ tập kiểm thử.

Qua phân tích, chúng tôi nhận thấy các lỗi chủ

yếu rơi vào ba nhóm sau:

Nhầm lẫn giữa Tính năng và Hiệu năng:

Các từ khóa như "mượt", "nhạy"thường gắn

liền với

PERFORMANCE

. Tuy nhiên, khi

đi kèm với "cảm ứng"hay "vân tay", nhãn

chuẩn là

FEATURES

. Mô hình đôi khi ưu

tiên tính từ mô tả hơn là thực thể chính, dẫn

đến dự đoán sai lệch.

Sự phụ thuộc vào từ khóa cảm xúc: Mô

hình có xu hướng gán nhãn dựa trên các tính

từ mạnh. Ví dụ, cụm từ "cam đẹp"bị gán nhãn

DESIGN

vì từ "đẹp"thường mô tả ngoại hình,

trong khi nhãn đúng là

CAMERA

. Điều này

cho thấy sự chú ý (attention) của mô hình đôi

khi bị lệch về phía tính từ thay vì danh từ trung

tâm.

Bỏ sót thông tin kỹ thuật: Trong các câu

phàn nàn dài, mô hình thường tập trung vào

cảm xúc tiêu cực chung (ví dụ: "lag", "chậm")

và gán nhãn

PERFORMANCE

, nhưng bỏ

qua các thông số kỹ thuật định lượng nhỏ như

"1GB"(thuộc về STORAGE).

6 Kết luận

Trong nghiên cứu này, chúng tôi đã áp dụng mô

hình ngôn ngữ lớn (LLM) cho bài toán Phân tích

cảm xúc dựa trên khía cạnh (ABSA) tiếng Việt theo

hướng tiếp cận sinh văn bản, thay vì gán nhãn chuỗi

truyền thống. Thông qua việc tinh chỉnh mô hình

Qwen2.5-7B bằng kỹ thuật QLoRA kết hợp với

thiết kế dữ liệu theo chỉ dẫn (Instruction Tuning),

các kết quả thực nghiệm cho thấy LLM có thể đạt

hiệu năng cạnh tranh, đồng thời vẫn đảm bảo tính

khả thi trong bối cảnh tài nguyên phần cứng hạn

chế.

Đóng góp chính của nghiên cứu nằm ở việc đề

xuất một khung tiếp cận thực tiễn cho bài toán

ABSA tiếng Việt dựa trên LLM, trong đó mô hình

sinh được kết hợp với cơ chế hậu xử lý Neuro-

Symbolic. Cách tiếp cận này giúp giảm các dự

đoán không nhất quán về mặt cấu trúc và cải thiện

độ ổn định của đầu ra, đặc biệt trong các trường hợp

yêu cầu trích xuất đồng thời khía cạnh, xu hướng

cảm xúc và đoạn văn bản liên quan. Trên bộ dữ

liệu UIT-ViSD4SA, phương pháp đề xuất đạt độ

chính xác cao (F1-Micro 84.36% cho tác vụ nhận

diện cảm xúc) và thể hiện khả năng xử lý tốt các

hiện tượng ngữ nghĩa ẩn trong văn bản đánh giá.

Mặc dù đạt được kết quả khả quan, phương pháp

đề xuất vẫn tồn tại một số hạn chế cần được xem

xét trong các nghiên cứu tiếp theo:

•

Độ trễ suy luận: Do sử dụng mô hình ngôn

ngữ lớn với cơ chế sinh văn bản tự hồi quy,

thời gian suy luận vẫn cao hơn so với các mô

hình phân loại truyền thống, hạn chế khả năng

triển khai trong các hệ thống yêu cầu phản hồi

thời gian thực.

•

Phụ thuộc vào luật thủ công: Cơ chế hậu xử

lý Neuro-Symbolic hiện tại dựa trên một tập

luật và từ điển được xây dựng thủ công, khiến

hệ thống chưa thích ứng tốt với các biến thể

ngôn ngữ mới hoặc từ lóng xuất hiện theo thời

gian.

•

Hạn chế với văn bản dài: Hiệu năng của mô

hình có xu hướng suy giảm đối với các văn

bản đánh giá rất dài, vượt quá cửa sổ ngữ cảnh

huấn luyện, do hiện tượng phân tán sự chú ý

ở các vị trí xa trong chuỗi.

Trong tương lai, chúng tôi dự kiến mở rộng

nghiên cứu theo một số hướng sau:

•

Mở rộng miền dữ liệu: Khảo sát khả năng

thích nghi của mô hình khi áp dụng cho các

lĩnh vực khác như du lịch, nhà hàng hoặc

thương mại điện tử, trong bối cảnh phân bố

khía cạnh và ngôn ngữ khác biệt so với miền

huấn luyện ban đầu.

•

Tích hợp RAG: Thử nghiệm các kiến trúc mô

hình lớn hơn kết hợp với kỹ thuật Retrieval-

Augmented Generation (RAG) nhằm cải thiện

khả năng xử lý các thực thể mới và thông tin

sản phẩm thay đổi theo thời gian.

•

Chuẩn hóa nhãn có khả năng học: Phát triển

các cơ chế chuẩn hóa nhãn dựa trên học máy

(learnable normalization) để giảm thiểu sự

phụ thuộc vào các luật thủ công trong giai

đoạn hậu xử lý.

A Full Instruction

Bạn là một chuyên gia AI về phân tích cảm xúc khách

hàng (ABSA). Nhiệm vụ của bạn là đọc bình luận

và trích xuất các khía cạnh (Aspect) cùng cảm xúc

(Sentiment) và nội dung tương ứng (Span).

DANH SÁCH NHÃN:

Aspect: [SCREEN, CAMERA, FEATURES,

BATTERY, PERFORMANCE, STORAGE,

DESIGN, PRICE, GENERAL, SER&ACC]

Sentiment: [POSITIVE, NEGATIVE, NEUTRAL]

HƯỚNG DẪN GÁN NHÃN QUAN TRỌNG:

1) SER&ACC (Dịch vụ & Phụ kiện):

Bao gồm CSKH, bảo hành, giao hàng, đóng gói, và

các phụ kiện đi kèm (sạc, cáp, tai nghe...).

Ví dụ:

-- ‘‘Giao hàng nhanh’’ → SER&ACC#POSITIVE

-- ‘‘Sạc lỏng lẻo’’ → SER&ACC#NEGATIVE

2) FEATURES (Tính năng):

Các tính năng cụ thể như Vân tay, FaceID, Wifi,

4G, Bluetooth, Sim, Chống nước...

Ví dụ:

-- ‘‘Vân tay nhạy’’ → FEATURES#POSITIVE

-- ‘‘Bắt wifi kém’’ → FEATURES#NEGATIVE

3) QUY TẮC NHÃN ’GENERAL’ (Tổng quan):

-- GENERAL#POSITIVE: Nếu (Tổng số nhãn

Positive khác) - (Tổng số nhãn Negative khác) ≥ 2

-- GENERAL#NEGATIVE: Nếu (Tổng số nhãn

Negative khác) - (Tổng số nhãn Positive khác) ≥ 2

-- GENERAL#NEUTRAL: Các trường hợp còn lại

(chênh lệch <= 1) hoặc khi khách hàng nhận xét chung

chung "Máy ổn", "Tạm được".

ĐỊNH DẠNG OUTPUT:

Trả về JSON list chứa các object: { "aspect": "...",

"sentiment": "...", "span": "..."}. Nếu không có thông

tin, trả về [ ].

References

Dat Quoc Nguyen, Anh Tuan Nguyen, Hung Pham,

and Minh Le Nguyen. 2020. Phobert: Pre-trained

language models for vietnamese. In Findings of the

Association for Computational Linguistics: EMNLP,

pages 1037--1042.

Kim Thi-Thanh Nguyen, Sieu Khai Huynh, Luong Luc

Phan, Phuc Huynh Pham, Duc-Vu Nguyen, and

Kiet Van Nguyen. 2021. Uit-visd4sa: A vietnamese

dataset for aspect-based sentiment analysis. arXiv

preprint arXiv:2110.07833.

Quang Huy Nguyen and Thanh Vu. 2020. Vibert: A

pre-trained language model for vietnamese. arXiv

preprint arXiv:2005.06457.

Sijo Scaria and 1 others. 2023. Extracting structured

information with instruction-tuned language models.

In Proceedings of the Conference on Empirical

Methods in Natural Language Processing (EMNLP).

Jason Wei and 1 others. 2021. Finetuned language

models are zero-shot learners. arXiv preprint

arXiv:2109.01652.

Hang Yan, Junqi Dai, Xipeng Ji, and Shuai Huang.

2021. A unified generative framework for aspect-

based sentiment analysis. In Proceedings of the 59th

Annual Meeting of the Association for Computational

Linguistics (ACL).

Wenxuan Zhang, Xin Li, and Lidong Bing. 2022.

Unified generative framework for aspect-based

sentiment analysis. In Proceedings of the 60th

Annual Meeting of the Association for Computational

Linguistics (ACL).

Bấm Tải xuống để xem toàn bộ.

Preview text:

Tinh chỉnh LLM theo chỉ dẫn cho bài toán Phân tích Cảm xúc Khía cạnh tiếng Việt
Trần Anh Duy1, Trương Thế Minh Khánh1, Nguyễn Văn Tiên1
1Khoa Khoa học và Kỹ thuật Thông tin
Trường Đại học Công nghệ Thông tin – ĐHQG TP. Hồ Chí Minh, Việt Nam
{23520389, 23520727, 23521580}@gm.uit.edu.vn Tóm tắt nội dung
hiệu quả trong những trường hợp đơn giản nhưng
gặp khó khăn khi xử lý các hiện tượng phổ biến
Phân tích cảm xúc dựa trên khía cạnh (Aspect-
trong dữ liệu thực tế, bao gồm nhiều khía cạnh xuất
Based Sentiment Analysis - ABSA) là một bài
hiện đồng thời, khía cạnh chồng chéo, hoặc khía
toán quan trọng trong việc khai thác ý kiến
khách hàng từ dữ liệu văn bản. Tuy nhiên,
cạnh được biểu đạt gián tiếp. Ngoài ra, việc phụ
các phương pháp truyền thống dựa trên gán
thuộc vào nhãn ở mức từ làm giảm khả năng thích
nhãn chuỗi (Sequence Labeling) thường gặp
nghi của mô hình khi áp dụng sang các miền dữ
khó khăn khi xử lý các cấu trúc câu phức liệu mới.
tạp, các khía cạnh chồng chéo hoặc các khía
Chúng tôi tiếp cận ABSA tiếng Việt như một
cạnh ẩn trong tiếng Việt. Trong nghiên cứu
bài toán tạo sinh chuỗi (Generative Sequence-to-
này, chúng tôi tiếp cận ABSA như một bài
Sequence), trong đó mô hình được hướng dẫn trích
toán tạo sinh chuỗi (Generative Sequence-to-
Sequence), trong đó mô hình được hướng dẫn
xuất trực tiếp các bộ ba thông tin gồm khía cạnh,
trích xuất trực tiếp các bộ ba thông tin gồm khía
cảm xúc và đoạn minh chứng từ văn bản đầu vào.
cạnh, cảm xúc và đoạn minh chứng. Chúng
Hướng tiếp cận này cho phép mô hình xử lý trực
tôi áp dụng kỹ thuật Instruction Tuning để
tiếp mối quan hệ giữa khía cạnh và xu hướng cảm
tinh chỉnh mô hình Qwen2.5-7B, kết hợp với
xúc trong câu, đồng thời giảm sự phụ thuộc vào gán
QLoRA nhằm giảm yêu cầu về tài nguyên
nhãn chi tiết ở mức từ. Chúng tôi đánh giá phương
tính toán. Ngoài ra, cơ chế hậu xử lý Neuro-
pháp đề xuất trên bộ dữ liệu UIT-ViSD4SA và thảo
Symbolic kết hợp biểu thức chính quy và chuẩn
luận các kết quả đạt được trong bối cảnh hạn chế
hóa dựa trên luật được đề xuất để đảm bảo tính
nhất quán của đầu ra có cấu trúc. Thực nghiệm về tài nguyên tính toán.
trên bộ dữ liệu UIT-ViSD4SA cho thấy phương
pháp đề xuất đạt Micro F1-Score lần lượt là 2
Các nghiên cứu liên quan
74.79% cho trích xuất khía cạnh, 84.36% cho
nhận diện cảm xúc và 65.73% cho khớp chính 2.1
Phân tích cảm xúc khía cạnh cho tiếng xác khía cạnh-cảm xúc. Việt
Các nghiên cứu ban đầu về phân tích cảm xúc 1 Giới thiệu
dựa trên khía cạnh (ABSA) cho tiếng Việt chủ
Sự gia tăng nhanh chóng của các nền tảng thương
yếu tiếp cận bài toán dưới dạng gán nhãn chuỗi
mại điện tử tại Việt Nam đã tạo ra một lượng lớn
(Sequence Labeling). Nguyen và cộng sự (Nguyen
bình luận và đánh giá của người dùng. Những
et al., 2021) đã giới thiệu bộ dữ liệu UIT-ViSD4SA
văn bản này thường đề cập đồng thời đến nhiều
và thiết lập các đường cơ sở (baseline) sử dụng
thuộc tính khác nhau của sản phẩm, kèm theo các
BiLSTM-CRF và XLM-RoBERTa, trong đó bài
đánh giá phản ánh những xu hướng cảm xúc khác
toán được mô hình hóa theo định dạng thẻ BIO
nhau. Do đó, phân tích cảm xúc dựa trên khía cạnh
(Beginning-Inside-Outside). Sự xuất hiện của các
(Aspect-Based Sentiment Analysis – ABSA) đóng
mô hình ngôn ngữ tiền huấn luyện đơn như
vai trò quan trọng trong việc khai thác thông tin chi
PhoBERT (Nguyen et al., 2020) và ViBERT
tiết từ dữ liệu ý kiến người dùng.
(Nguyen and Vu, 2020) đã cải thiện hiệu năng nhờ
Phần lớn các nghiên cứu ABSA cho tiếng Việt
khả năng biểu diễn ngữ cảnh tốt hơn. Tuy nhiên,
hiện nay tiếp cận bài toán dưới dạng gán nhãn
các phương pháp dựa trên gán nhãn chuỗi thường
chuỗi, trong đó mỗi từ được gán nhãn thể hiện khía
xử lý bài toán theo các kiến trúc dạng đường ống
cạnh hoặc cảm xúc. Cách tiếp cận này cho thấy
(pipeline), dễ dẫn đến lan truyền lỗi và gặp hạn chế
khi cần biểu diễn các khía cạnh được biểu đạt gián
trong Hình 1. Thay vì tiếp cận theo hướng phân loại
tiếp hoặc chồng chéo trong văn bản. Những hạn
từng từ (token classification), chúng tôi mô hình
chế này đặt ra nhu cầu về các hướng tiếp cận linh
hóa bài toán ABSA dưới dạng mô hình hóa ngôn
hoạt hơn, có khả năng biểu diễn trực tiếp mối quan
ngữ nhân quả (Causal Language Modeling), trong
hệ giữa khía cạnh và cảm xúc mà không phụ thuộc
đó đầu vào là văn bản đánh giá sản phầm X và đầu
chặt chẽ vào nhãn ở mức từ.
ra là chuỗi văn bản Y dạng JSON có cấu trúc. 2.2
Generative ABSA và Instruction Tuning 3.1
Xây dựng dữ liệu huấn luyện theo chỉ dẫn
Song song với hướng tiếp cận gán nhãn, một số
Bộ dữ liệu gốc UIT-ViSD4SA được gán nhãn theo
nghiên cứu đã đề xuất mô hình hóa ABSA như một
dạng khoảng (span-based). Để phù hợp với các mô
bài toán tạo sinh chuỗi. Yan và cộng sự (Yan et al.,
hình ngôn ngữ lớn (LLMs), chúng tôi chuyển đổi
2021) là những người tiên phong chuyển đổi ABSA
dữ liệu này sang định dạng huấn luyện theo chỉ dẫn
sang dạng Sequence-to-Sequence (Seq2Seq) bằng
(instruction tuning) theo phong cách Alpaca. Trong
mô hình BART, cho phép sinh trực tiếp chuỗi đầu
thiết lập này, bài toán ABSA được mô hình hóa
ra biểu diễn thông tin khía cạnh. Tiếp nối hướng đi
như một tác vụ tạo sinh có điều kiện, trong đó mô
này, Zhang và cộng sự (Zhang et al., 2022) đã sử
hình được hướng dẫn trích xuất trực tiếp các thông
dụng mô hình T5 để giải quyết thống nhất nhiều
tin có cấu trúc từ văn bản đầu vào.
tác vụ con của ABSA trong cùng một khung làm
Mỗi mẫu huấn luyện bao gồm ba thành phần việc. chính:
Gần đây, với sự phát triển của các mô hình ngôn
ngữ lớn, kỹ thuật Instruction Tuning đã được áp
• Instruction (Chỉ dẫn): Xác định vai trò của
dụng nhằm định hướng mô hình thực hiện các tác
mô hình như một chuyên gia phân tích cảm
vụ trích xuất thông tin có cấu trúc (Wei et al.,
xúc, mô tả không gian nhãn khía cạnh và cảm
2021). Scaria và cộng sự (Scaria et al., 2023) cho
xúc, đồng thời quy định các quy tắc gán nhãn
thấy việc sử dụng các chỉ dẫn rõ ràng có thể giúp quan trọng.
mô hình sinh ra các biểu diễn có cấu trúc như bộ
hoặc JSON với độ chính xác cao. Tuy nhiên, việc
• Input (Đầu vào): Văn bản bình luận thô của
áp dụng các phương pháp này cho tiếng Việt vẫn người dùng.
còn hạn chế, đặc biệt trong bối cảnh dữ liệu và tài
nguyên tính toán giới hạn.
• Output (Đầu ra): Chuỗi JSON mục tiêu,
biểu diễn danh sách các bộ ba (Aspect, 3 Phương pháp
Sentiment, Span) tương ứng với các khía cạnh được trích xuất.
Hình 2 minh họa một ví dụ rút gọn về định dạng
Alpaca-style instruction được sử dụng trong quá
trình huấn luyện. Phiên bản đầy đủ của chỉ dẫn
huấn luyện được cung cấp trong Phụ lục A.
Instruction: Bạn là một chuyên gia phân tích cảm xúc
khách hàng. Hãy trích xuất các khía cạnh, xu hướng cảm
xúc và đoạn văn bản tương ứng từ bình luận sau. Sử dụng
tập nhãn đã định nghĩa và trả về kết quả dưới dạng danh sách JSON.
Input: Pin dùng được lâu nhưng màn hình hơi tối. Output: [ {"aspect": "BATTERY", "sentiment":
"POSITIVE", "span": "Pin dùng được lâu"}, {"aspect": "SCREEN", "sentiment":
"NEGATIVE", "span": "màn hình hơi tối"}]
Hình 1: Kiến trúc tổng thể của hệ thống đề xuất cho bài toán ABSA tiếng Việt.
Hình 2: Ví dụ rút gọn về định dạng Alpaca-style
instruction cho tác vụ ABSA tiếng Việt.
Kiến trúc tổng thể của hệ thống được minh họa 3.2
Tinh chỉnh hiệu quả tham số với QLoRA 4
Thiết lập thực nghiệm
Việc tinh chỉnh toàn bộ (Full Fine-tuning) một mô 4.1
Bộ dữ liệu và Cài đặt Huấn luyện
hình 7 tỷ tham số đòi hỏi tài nguyên tính toán khổng
lồ. Do đó, chúng tôi áp dụng kỹ thuật QLoRA
Chúng tôi sử dụng bộ dữ liệu chuẩn UIT-
(Quantized Low-Rank Adaptation). Cụ thể:
ViSD4SA, bao gồm 11.122 bình luận về điện thoại
di động. Dữ liệu được chia theo tỷ lệ 70% huấn
1. Lượng tử hóa (Quantization): Trọng số của
luyện, 10% kiểm định (dev) và 20% kiểm thử (test).
mô hình cơ sở Qwen2.5-7B được nén xuống
Bộ dữ liệu này bao gồm 3 nhãn xu hướng cảm xúc
độ chính xác 4-bit để giảm thiểu dung lượng
(POSITIVE, NEGATIVE, NEUTRAL) và 10 nhãn bộ nhớ VRAM.
khía cạnh thuộc các nhóm như thiết kế, hiệu năng,
2. Low-Rank Adapters: Chúng tôi đóng băng
pin, màn hình và giá cả, phản ánh các thuộc tính
(freeze) toàn bộ trọng số của mô hình gốc
phổ biến trong đánh giá sản phẩm điện tử.
và chỉ thêm các cặp ma trận hạng thấp A và
Chúng tôi thực hiện tinh chỉnh mô hình B vào các lớp Attention (W
Qwen2.5-7B sử dụng kỹ thuật QLoRA thông qua q , Wk, Wv , Wo).
Trong thực nghiệm, chúng tôi thiết lập r = 16
framework Unsloth để tối ưu hóa hiệu suất trên tài
và α = 16 trong đó r là hạng (rank) của ma
nguyên giới hạn. Quá trình huấn luyện sử dụng bộ
trận thích ứng và α là hệ số tỉ lệ.
tối ưu hóa AdamW 8-bit nhằm giảm thiểu mức tiêu
thụ bộ nhớ mà vẫn đảm bảo khả năng hội tụ. Các 3.3
Hậu xử lý Neuro-Symbolic
siêu tham số (hyperparameters) chi tiết được liệt kê
Do bản chất ngẫu nhiên của mô hình ngôn ngữ trong Bảng 1.
lớn, đầu ra có thể gặp các vấn đề về lỗi cú
pháp/định dạng (syntax/format error) hoặc ảo giác
Bảng 1: Cấu hình tham số huấn luyện
(hallucination). Chúng tôi thiết kế một quy trình
hậu xử lý lai ghép gồm ba giai đoạn: Tham số (Parameter) Giá trị (Value) Base Model Qwen2.5-7B-Instruct
• Giai đoạn 1: Phân tích cú pháp JSON Method QLoRA (4-bit, Rank=16)
nghiêm ngặt (Strict JSON Parsing). Hệ Optimizer AdamW 8-bit
thống ưu tiên sử dụng trình phân tích cú pháp Learning Rate 2 × 10−4
chuẩn để chuyển đổi chuỗi văn bản đầu ra Lịch trình (Scheduler) Linear Epochs 2
thành đối tượng cấu trúc. Nếu quá trình này Batch Size (per device) 1
thành công (True), dữ liệu sẽ được chuyển Gradient Accumulation 8 steps
thẳng đến giai đoạn chuẩn hóa. Nếu thất bại Weight Decay 0.01
(False) do lỗi cú pháp, hệ thống sẽ kích hoạt Max Sequence Length 2048
cơ chế dự phòng ở Giai đoạn 2.
• Giai đoạn 2: Trích xuất dựa trên biểu thức
chính quy (Robust Regex Fallback). Đây là 4.2 Đánh giá
cơ chế chịu lỗi, sử dụng các mẫu biểu thức
chính quy (Regular Expressions) để quét và
Hệ thống được đánh giá dựa trên độ đo F1-Score
trích xuất cục bộ các trường thông tin quan
(Micro và Macro) cho ba tác vụ con:
trọng (aspect, sentiment, span), bỏ qua các
ký tự gây nhiễu hoặc cấu trúc JSON bị lỗi.
• Aspect Extraction: Chỉ đánh giá việc trích
xuất đúng nhãn khía cạnh.
• Giai đoạn 3: Chuẩn hóa nhãn dựa trên luật
(Rule-based Normalization). Dữ liệu thô sau
khi được trích xuất (từ Giai đoạn 1 hoặc 2) sẽ
• Polarity Detection: Đánh giá việc phân loại
đi qua bộ lọc chuẩn hóa. Tại đây, chúng tôi sử
đúng nhãn xu hướng cảm xúc (Positive,
dụng từ điển ánh xạ từ đồng nghĩa (Synonym Negative, Neutral).
Mapping) để quy đổi các biến thể từ vựng (ví
dụ: "Pin", "Tốt", "Good",...) về tập nhãn mục
• Strict Matching: Tiêu chuẩn khắt khe nhất,
tiêu chuẩn của bộ dữ liệu, đảm bảo tính nhất
yêu cầu dự đoán đúng đồng thời cả bộ ba quán cho việc đánh giá. (Aspect, Sentiment, Span).
Bảng 2: Phân tích lỗi chi tiết trên các mẫu thực tế (Case Study)
Văn bản đầu vào (Input Text) Prediction Ground Truth
"Mình mới mua. mình thấy mẫu đẹp pin trâu PERFORMANCE FEATURES
cảm ứng mượt được em nhân viên ĐMX tư vấn rất nhiệt tình"
"...Cảm nhận của mình về máy khá mượt, cam đẹp , pin DESIGN CAMERA
khá ổn... Nói chung là máy khá tôt, ổn trong tầm giá..."
"Máy hình chưa tới 1gb , chỉ tải vài ứng dụng cơ bản PERFORMANCE STORAGE
thôi máy lag rồi... Game thì khỏi nói chả có nào chiến được..." 5
Kết quả và Thảo luận
Bảng 4: So sánh F1-Macro giữa Baseline và Mô hình đề xuất 5.1 Kết quả chính
Bảng 3 trình bày hiệu năng của mô hình đề xuất Task Baseline Ours (Qwen2.5)
trên tập kiểm thử. Kết quả cho thấy mô hình đạt Aspect Extraction 62.76 71.02
hiệu suất ấn tượng nhất ở tác vụ nhận diện cảm Polarity Detection 49.77 71.86
xúc (Polarity) với F1-Micro đạt 84.36%. Điều này Strict Matching 45.70 46.83
khẳng định năng lực vượt trội của mô hình ngôn
ngữ lớn trong việc thấu hiểu xu hướng cảm xúc của
văn bản đánh giá tiếng Việt.
gán nhãn từ cục bộ (token-level) thường bỏ sót. Ở
Đối với tác vụ trích xuất khía cạnh (Aspect),
tác vụ Strict Matching, dù phải giải quyết bài toán
mô hình đạt 74.79%. Tại chỉ số quan trọng nhất
khó hơn là sinh văn bản có cấu trúc, mô hình vẫn
là khớp chính xác (Strict Matching), mô hình đạt
đạt kết quả cạnh tranh (F1-Macro 46.83% so với
65.73%. Sự chênh lệch giữa Micro và Macro F1 45.70%).
phản ánh đặc điểm phân bố lệch của dữ liệu thực
tế, tuy nhiên mô hình vẫn duy trì được độ ổn định 5.3
Phân tích định tính trên các nhãn lớp chính.
Để hiểu rõ hơn về hành vi của mô hình, chúng tôi
tiến hành phân tích định tính trên các mẫu dự đoán
Bảng 3: Kết quả thực nghiệm trên tập Test của UIT-
sai. Bảng 2 minh họa một số trường hợp sai sót ViSD4SA
điển hình được trích xuất từ tập kiểm thử.
Qua phân tích, chúng tôi nhận thấy các lỗi chủ Task F1 Micro (%) F1 Macro (%) yếu rơi vào ba nhóm sau: Aspect Extraction 74.79 71.02 Polarity Detection 84.36 71.86
1. Nhầm lẫn giữa Tính năng và Hiệu năng: Strict Matching 65.73 46.83
Các từ khóa như "mượt", "nhạy"thường gắn
liền với PERFORMANCE. Tuy nhiên, khi
đi kèm với "cảm ứng"hay "vân tay", nhãn 5.2 So sánh với Baseline
chuẩn là FEATURES. Mô hình đôi khi ưu
Để đánh giá khách quan, chúng tôi so sánh hiệu
tiên tính từ mô tả hơn là thực thể chính, dẫn
năng của mô hình đề xuất với các đường cơ sở đến dự đoán sai lệch.
(baselines) từ nghiên cứu gốc (Nguyen et al., 2021),
đại diện là mô hình XLM-RoBERTa Large.
2. Sự phụ thuộc vào từ khóa cảm xúc: Mô
Kết quả so sánh ở Bảng 4 cho thấy phương pháp
hình có xu hướng gán nhãn dựa trên các tính
tiếp cận Generative của chúng tôi vượt trội đáng kể
từ mạnh. Ví dụ, cụm từ "cam đẹp"bị gán nhãn
ở tác vụ Polarity Detection (F1-Macro đạt 71.86%
DESIGN vì từ "đẹp"thường mô tả ngoại hình,
so với 49.77% của Baseline). Điều này cho thấy
trong khi nhãn đúng là CAMERA. Điều này
kiến trúc Sequence-to-Sequence với khả năng chú
cho thấy sự chú ý (attention) của mô hình đôi
ý (Attention) toàn cục giúp mô hình nắm bắt tốt
khi bị lệch về phía tính từ thay vì danh từ trung
hơn các ngữ cảnh cảm xúc phức tạp mà mô hình tâm.
3. Bỏ sót thông tin kỹ thuật: Trong các câu
huấn luyện, do hiện tượng phân tán sự chú ý
phàn nàn dài, mô hình thường tập trung vào
ở các vị trí xa trong chuỗi.
cảm xúc tiêu cực chung (ví dụ: "lag", "chậm")
và gán nhãn PERFORMANCE, nhưng bỏ
Trong tương lai, chúng tôi dự kiến mở rộng
qua các thông số kỹ thuật định lượng nhỏ như
nghiên cứu theo một số hướng sau: "1GB"(thuộc về STORAGE).
• Mở rộng miền dữ liệu: Khảo sát khả năng 6 Kết luận
thích nghi của mô hình khi áp dụng cho các
lĩnh vực khác như du lịch, nhà hàng hoặc
Trong nghiên cứu này, chúng tôi đã áp dụng mô
thương mại điện tử, trong bối cảnh phân bố
hình ngôn ngữ lớn (LLM) cho bài toán Phân tích
khía cạnh và ngôn ngữ khác biệt so với miền
cảm xúc dựa trên khía cạnh (ABSA) tiếng Việt theo huấn luyện ban đầu.
hướng tiếp cận sinh văn bản, thay vì gán nhãn chuỗi
truyền thống. Thông qua việc tinh chỉnh mô hình
• Tích hợp RAG: Thử nghiệm các kiến trúc mô
Qwen2.5-7B bằng kỹ thuật QLoRA kết hợp với
hình lớn hơn kết hợp với kỹ thuật Retrieval-
thiết kế dữ liệu theo chỉ dẫn (Instruction Tuning),
Augmented Generation (RAG) nhằm cải thiện
các kết quả thực nghiệm cho thấy LLM có thể đạt
khả năng xử lý các thực thể mới và thông tin
hiệu năng cạnh tranh, đồng thời vẫn đảm bảo tính
sản phẩm thay đổi theo thời gian.
khả thi trong bối cảnh tài nguyên phần cứng hạn
• Chuẩn hóa nhãn có khả năng học: Phát triển chế.
các cơ chế chuẩn hóa nhãn dựa trên học máy
Đóng góp chính của nghiên cứu nằm ở việc đề
(learnable normalization) để giảm thiểu sự
xuất một khung tiếp cận thực tiễn cho bài toán
phụ thuộc vào các luật thủ công trong giai
ABSA tiếng Việt dựa trên LLM, trong đó mô hình đoạn hậu xử lý.
sinh được kết hợp với cơ chế hậu xử lý Neuro-
Symbolic. Cách tiếp cận này giúp giảm các dự A Full Instruction
đoán không nhất quán về mặt cấu trúc và cải thiện
Bạn là một chuyên gia AI về phân tích cảm xúc khách
độ ổn định của đầu ra, đặc biệt trong các trường hợp
hàng (ABSA). Nhiệm vụ của bạn là đọc bình luận
yêu cầu trích xuất đồng thời khía cạnh, xu hướng
và trích xuất các khía cạnh (Aspect) cùng cảm xúc
cảm xúc và đoạn văn bản liên quan. Trên bộ dữ
(Sentiment) và nội dung tương ứng (Span).
liệu UIT-ViSD4SA, phương pháp đề xuất đạt độ DANH SÁCH NHÃN:
chính xác cao (F1-Micro 84.36% cho tác vụ nhận Aspect: [SCREEN, CAMERA, FEATURES,
diện cảm xúc) và thể hiện khả năng xử lý tốt các BATTERY, PERFORMANCE, STORAGE,
hiện tượng ngữ nghĩa ẩn trong văn bản đánh giá.
DESIGN, PRICE, GENERAL, SER&ACC]
Sentiment: [POSITIVE, NEGATIVE, NEUTRAL]
Mặc dù đạt được kết quả khả quan, phương pháp
đề xuất vẫn tồn tại một số hạn chế cần được xem
HƯỚNG DẪN GÁN NHÃN QUAN TRỌNG:
1) SER&ACC (Dịch vụ & Phụ kiện):
xét trong các nghiên cứu tiếp theo:
Bao gồm CSKH, bảo hành, giao hàng, đóng gói, và
các phụ kiện đi kèm (sạc, cáp, tai nghe...).
• Độ trễ suy luận: Do sử dụng mô hình ngôn Ví dụ:
ngữ lớn với cơ chế sinh văn bản tự hồi quy,
-- ‘‘Giao hàng nhanh’’ → SER&ACC#POSITIVE
thời gian suy luận vẫn cao hơn so với các mô
-- ‘‘Sạc lỏng lẻo’’ → SER&ACC#NEGATIVE
hình phân loại truyền thống, hạn chế khả năng 2) FEATURES (Tính năng):
triển khai trong các hệ thống yêu cầu phản hồi
Các tính năng cụ thể như Vân tay, FaceID, Wifi, thời gian thực.
4G, Bluetooth, Sim, Chống nước... Ví dụ:
-- ‘‘Vân tay nhạy’’ → FEATURES#POSITIVE
• Phụ thuộc vào luật thủ công: Cơ chế hậu xử
-- ‘‘Bắt wifi kém’’ → FEATURES#NEGATIVE
lý Neuro-Symbolic hiện tại dựa trên một tập
luật và từ điển được xây dựng thủ công, khiến
3) QUY TẮC NHÃN ’GENERAL’ (Tổng quan):
-- GENERAL#POSITIVE: Nếu (Tổng số nhãn
hệ thống chưa thích ứng tốt với các biến thể
Positive khác) - (Tổng số nhãn Negative khác) ≥ 2
ngôn ngữ mới hoặc từ lóng xuất hiện theo thời
-- GENERAL#NEGATIVE: Nếu (Tổng số nhãn gian.
Negative khác) - (Tổng số nhãn Positive khác) ≥ 2
-- GENERAL#NEUTRAL: Các trường hợp còn lại
• Hạn chế với văn bản dài: Hiệu năng của mô
(chênh lệch <= 1) hoặc khi khách hàng nhận xét chung
hình có xu hướng suy giảm đối với các văn
chung "Máy ổn", "Tạm được".
bản đánh giá rất dài, vượt quá cửa sổ ngữ cảnh ĐỊNH DẠNG OUTPUT:
Trả về JSON list chứa các object: { "aspect": "...",
"sentiment": "...", "span": "..." }. Nếu không có thông tin, trả về [ ]. References
Dat Quoc Nguyen, Anh Tuan Nguyen, Hung Pham,
and Minh Le Nguyen. 2020. Phobert: Pre-trained
language models for vietnamese. In Findings of the
Association for Computational Linguistics: EMNLP, pages 1037--1042.
Kim Thi-Thanh Nguyen, Sieu Khai Huynh, Luong Luc
Phan, Phuc Huynh Pham, Duc-Vu Nguyen, and
Kiet Van Nguyen. 2021. Uit-visd4sa: A vietnamese
dataset for aspect-based sentiment analysis. arXiv preprint arXiv:2110.07833.
Quang Huy Nguyen and Thanh Vu. 2020. Vibert: A
pre-trained language model for vietnamese. arXiv preprint arXiv:2005.06457.
Sijo Scaria and 1 others. 2023. Extracting structured
information with instruction-tuned language models.
In Proceedings of the Conference on Empirical
Methods in Natural Language Processing (EMNLP).
Jason Wei and 1 others. 2021. Finetuned language models are zero-shot learners. arXiv preprint arXiv:2109.01652.
Hang Yan, Junqi Dai, Xipeng Ji, and Shuai Huang.
2021. A unified generative framework for aspect-
based sentiment analysis. In Proceedings of the 59th
Annual Meeting of the Association for Computational Linguistics (ACL).
Wenxuan Zhang, Xin Li, and Lidong Bing. 2022.
Unified generative framework for aspect-based sentiment analysis.
In Proceedings of the 60th
Annual Meeting of the Association for Computational Linguistics (ACL).
Document Outline

Giới thiệu
Các nghiên cứu liên quan
- Phân tích cảm xúc khía cạnh cho tiếng Việt
- Generative ABSA và Instruction Tuning
Phương pháp
- Xây dựng dữ liệu huấn luyện theo chỉ dẫn
- Tinh chỉnh hiệu quả tham số với QLoRA
- Hậu xử lý Neuro-Symbolic
Thiết lập thực nghiệm
- Bộ dữ liệu và Cài đặt Huấn luyện
- Đánh giá
Kết quả và Thảo luận
- Kết quả chính
- So sánh với Baseline
- Phân tích định tính
Kết luận
Full Instruction

Tinh chỉnh LLM theo chỉ dẫn cho bài toán Phân tích Cảm xúc Khía cạnh tiếng Việt | Tài liệu Tiếng Việt

Tài liệu liên quan:

Ung dung game hoa trong cac chien dich MKT

Bao cao Chi so TMDT Viet Nam 2025

Thông tư quy định về việc phân quyền, phân cấp và phân định thẩm quyền quản lý nhà nước về giáo dục cho chính quyền địa phương

Nghị quyết về phát huy các giá trị di sản văn hóa gắn với phát triên du lịch bền vững tỉnh Khánh Hòa đến năm 2025, định hướng đến năm 2030

Quyết định phê duyệt Chiến lược phát triển du lịch Việt Nam đến năm 2030