NG DẪN ĐỒ ÁN CUI K
Ch đề: Kho sát và fine-tune mô hình dch máy t Chinese
I. Mc tiêu chung ca đ án cui k
Mi nhóm kho sát 3 mô hình dch máy (NMT/LLM) cho cp ngôn ng Chinese
Vietnamese hoc Chinese - English, so sánh hiu năng, lựa chn 1 mô hình tối ưu nhất để
fine-tune trên d liệu đã căn chỉnh hoc d liu mở, và đánh giá bằng BLEU (có th b sung
ChrF, TER).
II. Quy định đồ án cui k
X lý cần được t động hóa tối đa (pipeline rõ ràng, script hoặc notebook có th chy li
t đầu đến cui).
Ngun d liu thô, d liệu đã OCR và dữ liệu đã align phải được t chc rõ ràng, có th
truy vết.
Mỗi bước x lý (tin x lý, hun luyện, đánh giá) cần có mã nguồn kèm hướng dn chy
li (README hoc notebook).
File kết qu (aligned data, kết qu đánh giá) nên ở dng CSV/TSV, có header rõ ràng, d
dùng lại cho các bước sau.
III. Bảng hướng dn la chn mô hình dch máy Chinese - Vietnamese
Bảng dưới đây tóm tắt các thành phn quan trng khi la chn và trin khai mô hình dch
máy cho đồ án cui k.
Thành phn
Mô t chi tiết
1. Mc tiêu chung
Kho sát 3 mô hình NMT/LLM, so sánh hiu năng dịch
Chinese - Vietnamese hoc Chinese-English, chn 1 mô hình
tìm năng nhất để fine-tune trên d liệu đã căn chỉnh hoc d
liu mở, và đánh giá bằng BLEU (có th b sung ChrF, TER).
2. Phân công nhóm
- Nhóm 13 & 14: Tp trung vào dch máy Chinese -
Vietnamese hoc Chinese - English.
- Nhóm 11: Tập trung vào sentence alignment, nhưng vẫn
phi thc hin kho sát 3 mô hình và fine-tune 1 mô hình
như yêu cu chung. Tuy nhiên, phi dùng d liệu đã align để
fine-tune (có th kèm thêm d liu m).
3. Loại mô hình được
phép kho sát
• NMT cổ đin: Transformer base/large, MarianMT,
OpenNMT-py.
• Mô hình đa ngôn ng hiện đại: mBART50, NLLB (No
Language Left Behind), mT5, UL2.
• LLM có khả năng dịch: Gemma-2B/7B (nếu fine-tune đưc),
Qwen2, Llama3 (phiên bn multilingual), hoc XLM-R vi
head dch.
Không khuyến khích dùng GPT-4/ChatGPT qua API (do
không fine-tune được và chi phí cao).
4. Tiêu chí la chn mô
hình ban đầu (trước fine-
tune)
• Khả năng hỗ tr Chinese (zh) và Vietnamese (vi) hoc
English (en).
• Có sẵn checkpoint pretrained trên Hugging Face hoc
GitHub.
• Khả năng fine-tune vi d liu nh.
• Tài nguyên tính toán phù hợp (có th train trên Colab/1
GPU).
5. Kch bn kho sát
c 1: Chn 3 mô hình khác loi (ví d: 1 NMT thun + 1
multilingual NMT + 1 LLM nh).
c 2: Dch th 2050 câu mu (dev set) bng mô hình
zero-shot (nếu là LLM) hoc pretrained (nếu là NMT).
ớc 3: Đánh giá sơ b: BLEU, fluency (mắt đọc), thi gian
chy.
c 4: Chọn 1 mô hình để fine-tune toàn tp.
6. D liu fine-tune
• Ưu tiên: Dùng dữ liệu do nhóm align (đc bit Nhóm 11).
• Cho phép bổ sung: D liu m như OPUS, ParaCrawl, hoặc
dataset Chinese-Vietnamese (Chinese-English) trên Hugging
Face.
Ưu tiên dataset trong khoảng 10000 đến 20000 cp song
ng.
7. Đánh giá cuối cùng
• BLEU (primary metric) – dùng sacrebleu vi tokenization
phù hp (zh: char-based; vi: moses + vi tokenizer).
• ChrF / TER (optional, báo cáo phụ).
• Case study (5–10 câu): so sánh bn dịch trước/sau fine-
tune, phân tích li (thc th, trt t, v.v.).
8. Yêu cu báo cáo
• Mô tả 3 mô hình đã khảo sát + lý do chn mô hình fine-tune.
• Chi tiết cu hình fine-tune (batch size, epochs, optimizer,
learning rate).
• Kết qu định lượng (bng BLEU và các metric khác nếu có).
• Phân tích định tính (ưu/nhược điểm của mô hình đã chn).
IV. Các khía cnh cn kho sát khi la chn mô hình
1. Kh năng ngôn ng và h tr ngôn ng (Language Support)
• Mô hình có hỗ tr Chinese (zh) và Vietnamese (vi) hay English (en) không?
• Là mô hình song ngữ, đa ngôn ngữ, hay monolingual?
• Có sẵn checkpoint pretrained cho zhvi, zhen không, hay ch zero-shot?
Mục đích: đảm bo mô hình có th x lý đúng cặp ngôn ng mc tiêu.
2. Hiệu năng ban đầu (Pre-fine-tuning Performance)
• Đánh giá chất lượng dch zero-shot hoc pretrained trên tp dev nh (2050 câu).
• Chỉ s định lượng: BLEU, ChrF, TER (dùng sacrebleu).
• Đánh giá định tính: fluency, adequacy, faithfulness qua mắt đọc.
Mục đích: so sánh baseline trước khi fine-tune và loi b các mô hình quá yếu.
3. Kh năng học t d liu ít (Low-Resource Adaptability)
• Mô hình có dễ fine-tune vi 10000-20000 mu không?
• Cần bao nhiêu tài nguyên (GPU RAM, thi gian hun luyn)?
• Có cần k thut đặc biệt như LoRA, adapter, freezing layers…?
Mục đích: đánh giá tính khả thi trong điều kin d liu và tài nguyên hn chế.
4. Tính kh dng và trin khai (Practicality)
• Mô hình có mã ngun m không (GitHub, Hugging Face)?
• Có hướng dn fine-tune rõ ràng không?
• Có thể chy trên Colab / 1 GPU (≤16GB) không?
• Giấy phép s dng (license) có cho phép nghiên cứu/phi thương mại không?
Mục đích: đảm bo nhóm có th trin khai thc tế trong thi gian hc k.
5. Phân tích lỗi sơ bộ (khuyến khích)
• Mô hình thường sai những điểm nào? Ví d:
Dch sai thc th (tên người, địa danh).
Thêm/bt thông tin (hallucination đặc bit LLM).
Trt t t sai do khác bit cu trúc câu.
Không x lý tt ch Hán phn th (nếu có).
• Mục đích: hiểu điểm yếu để chn mô hình phù hp và thiết kế chiến lược fine-tune hiu
qu.
• Cách làm: chọn 1015 câu, so sánh bn dch vi reference, ghi chú li chính.
V. Yêu cu sn phm np
Mi nhóm cn nộp đầy đủ các thành phn sau:
Source code hun luyn thc thi (inference): notebook (.ipynb) hoc script (.py), kèm
ng dn chy (README.md).
D liu: tp train/dev/test dng CSV hoc JSON, có mô t rõ cách to (hoc link ti).
Kết qu dịch và đánh giá: file chứa hypothesis, reference và báo cáo BLEU/ChrF/TER
(log hoc bng tng hp).
Báo cáo chính thc: file report (.pdf) trình bày rõ các phn: d liu, mô hình, thiết lp thí
nghim, kết qu, phân tích và kết lun.
Cấu trúc thư mục rõ ràng, d hiu (ví d: data/, models/, scripts/, results/, report.pdf).
VIII. Lưu ý quan trọng khi đánh giá và lựa chn mô hình
• Sinh viên cần ghi rõ lý do loi/chn mi mô hình, không ch da trên mt con s BLEU.
• Mô hình tt nht không nht thiết là mô hình có BLEU cao nht, mà phi là mô hình phù
hp nht với điều kin d liu ít, tài nguyên hn chế và mc tiêu dch chính xác.
IX. Link đăng ký mô hình
https://docs.google.com/spreadsheets/d/1gvBpAJgP4YNxHoIduYVKbTWAQ_98wGaDeG6k
5WFvwLM/edit?usp=sharing

Preview text:

HƯỚNG DẪN ĐỒ ÁN CUỐI KỲ
Chủ đề: Khảo sát và fine-tune mô hình dịch máy từ Chinese
I. Mục tiêu chung của đồ án cuối kỳ
Mỗi nhóm khảo sát 3 mô hình dịch máy (NMT/LLM) cho cặp ngôn ngữ Chinese –
Vietnamese hoặc Chinese - English, so sánh hiệu năng, lựa chọn 1 mô hình tối ưu nhất để
fine-tune trên dữ liệu đã căn chỉnh hoặc dữ liệu mở, và đánh giá bằng BLEU (có thể bổ sung ChrF, TER).
II. Quy định đồ án cuối kỳ
• Xử lý cần được tự động hóa tối đa (pipeline rõ ràng, script hoặc notebook có thể chạy lại từ đầu đến cuối).
• Nguồn dữ liệu thô, dữ liệu đã OCR và dữ liệu đã align phải được tổ chức rõ ràng, có thể truy vết.
• Mỗi bước xử lý (tiền xử lý, huấn luyện, đánh giá) cần có mã nguồn kèm hướng dẫn chạy
lại (README hoặc notebook).
• File kết quả (aligned data, kết quả đánh giá) nên ở dạng CSV/TSV, có header rõ ràng, dễ
dùng lại cho các bước sau.
III. Bảng hướng dẫn lựa chọn mô hình dịch máy Chinese - Vietnamese
Bảng dưới đây tóm tắt các thành phần quan trọng khi lựa chọn và triển khai mô hình dịch
máy cho đồ án cuối kỳ. Thành phần Mô tả chi tiết 1. Mục tiêu chung
Khảo sát 3 mô hình NMT/LLM, so sánh hiệu năng dịch
Chinese - Vietnamese hoặc Chinese-English, chọn 1 mô hình
tìm năng nhất để fine-tune trên dữ liệu đã căn chỉnh hoặc dữ
liệu mở, và đánh giá bằng BLEU (có thể bổ sung ChrF, TER). 2. Phân công nhóm
- Nhóm 13 & 14: Tập trung vào dịch máy Chinese -
Vietnamese hoặc Chinese - English.
- Nhóm 11: Tập trung vào sentence alignment, nhưng vẫn
phải thực hiện khảo sát 3 mô hình và fine-tune 1 mô hình
như yêu cầu chung. Tuy nhiên, phải dùng dữ liệu đã align để
fine-tune (có thể kèm thêm dữ liệu mở). 3. Loại mô hình được
• NMT cổ điển: Transformer base/large, MarianMT, phép khảo sát OpenNMT-py.
• Mô hình đa ngôn ngữ hiện đại: mBART50, NLLB (No
Language Left Behind), mT5, UL2.
• LLM có khả năng dịch: Gemma-2B/7B (nếu fine-tune được),
Qwen2, Llama3 (phiên bản multilingual), hoặc XLM-R với head dịch.
• Không khuyến khích dùng GPT-4/ChatGPT qua API (do
không fine-tune được và chi phí cao).
4. Tiêu chí lựa chọn mô
• Khả năng hỗ trợ Chinese (zh) và Vietnamese (vi) hoặc
hình ban đầu (trước fine- English (en). tune)
• Có sẵn checkpoint pretrained trên Hugging Face hoặc GitHub.
• Khả năng fine-tune với dữ liệu nhỏ.
• Tài nguyên tính toán phù hợp (có thể train trên Colab/1 GPU). 5. Kịch bản khảo sát
Bước 1: Chọn 3 mô hình khác loại (ví dụ: 1 NMT thuần + 1
multilingual NMT + 1 LLM nhỏ).
Bước 2: Dịch thử 20–50 câu mẫu (dev set) bằng mô hình
zero-shot (nếu là LLM) hoặc pretrained (nếu là NMT).
Bước 3: Đánh giá sơ bộ: BLEU, fluency (mắt đọc), thời gian chạy.
Bước 4: Chọn 1 mô hình để fine-tune toàn tập. 6. Dữ liệu fine-tune
• Ưu tiên: Dùng dữ liệu do nhóm align (đặc biệt Nhóm 11).
• Cho phép bổ sung: Dữ liệu mở như OPUS, ParaCrawl, hoặc
dataset Chinese-Vietnamese (Chinese-English) trên Hugging Face.
• Ưu tiên dataset trong khoảng 10000 đến 20000 cặp song ngữ. 7. Đánh giá cuối cùng
• BLEU (primary metric) – dùng sacrebleu với tokenization
phù hợp (zh: char-based; vi: moses + vi tokenizer).
• ChrF / TER (optional, báo cáo phụ).
• Case study (5–10 câu): so sánh bản dịch trước/sau fine-
tune, phân tích lỗi (thực thể, trật tự, v.v.). 8. Yêu cầu báo cáo
• Mô tả 3 mô hình đã khảo sát + lý do chọn mô hình fine-tune.
• Chi tiết cấu hình fine-tune (batch size, epochs, optimizer, learning rate).
• Kết quả định lượng (bảng BLEU và các metric khác nếu có).
• Phân tích định tính (ưu/nhược điểm của mô hình đã chọn).
IV. Các khía cạnh cần khảo sát khi lựa chọn mô hình
1. Khả năng ngôn ngữ và hỗ trợ ngôn ngữ (Language Support)
• Mô hình có hỗ trợ Chinese (zh) và Vietnamese (vi) hay English (en) không?
• Là mô hình song ngữ, đa ngôn ngữ, hay monolingual?
• Có sẵn checkpoint pretrained cho zh↔vi, zh↔en không, hay chỉ zero-shot?
Mục đích: đảm bảo mô hình có thể xử lý đúng cặp ngôn ngữ mục tiêu.
2. Hiệu năng ban đầu (Pre-fine-tuning Performance)
• Đánh giá chất lượng dịch zero-shot hoặc pretrained trên tập dev nhỏ (20–50 câu).
• Chỉ số định lượng: BLEU, ChrF, TER (dùng sacrebleu).
• Đánh giá định tính: fluency, adequacy, faithfulness qua mắt đọc.
Mục đích: so sánh baseline trước khi fine-tune và loại bỏ các mô hình quá yếu.
3. Khả năng học từ dữ liệu ít (Low-Resource Adaptability)
• Mô hình có dễ fine-tune với 10000-20000 mẫu không?
• Cần bao nhiêu tài nguyên (GPU RAM, thời gian huấn luyện)?
• Có cần kỹ thuật đặc biệt như LoRA, adapter, freezing layers…?
Mục đích: đánh giá tính khả thi trong điều kiện dữ liệu và tài nguyên hạn chế.
4. Tính khả dụng và triển khai (Practicality)
• Mô hình có mã nguồn mở không (GitHub, Hugging Face)?
• Có hướng dẫn fine-tune rõ ràng không?
• Có thể chạy trên Colab / 1 GPU (≤16GB) không?
• Giấy phép sử dụng (license) có cho phép nghiên cứu/phi thương mại không?
Mục đích: đảm bảo nhóm có thể triển khai thực tế trong thời gian học kỳ.
5. Phân tích lỗi sơ bộ (khuyến khích)
• Mô hình thường sai ở những điểm nào? Ví dụ:
– Dịch sai thực thể (tên người, địa danh).
– Thêm/bớt thông tin (hallucination – đặc biệt ở LLM).
– Trật tự từ sai do khác biệt cấu trúc câu.
– Không xử lý tốt chữ Hán phồn thể (nếu có).
• Mục đích: hiểu điểm yếu để chọn mô hình phù hợp và thiết kế chiến lược fine-tune hiệu quả.
• Cách làm: chọn 10–15 câu, so sánh bản dịch với reference, ghi chú lỗi chính.
V. Yêu cầu sản phẩm nộp
Mỗi nhóm cần nộp đầy đủ các thành phần sau:
• Source code huấn luyện và thực thi (inference): notebook (.ipynb) hoặc script (.py), kèm
hướng dẫn chạy (README.md).
• Dữ liệu: tập train/dev/test ở dạng CSV hoặc JSON, có mô tả rõ cách tạo (hoặc link tải).
• Kết quả dịch và đánh giá: file chứa hypothesis, reference và báo cáo BLEU/ChrF/TER
(log hoặc bảng tổng hợp).
• Báo cáo chính thức: file report (.pdf) trình bày rõ các phần: dữ liệu, mô hình, thiết lập thí
nghiệm, kết quả, phân tích và kết luận.
• Cấu trúc thư mục rõ ràng, dễ hiểu (ví dụ: data/, models/, scripts/, results/, report.pdf).
VIII. Lưu ý quan trọng khi đánh giá và lựa chọn mô hình
• Sinh viên cần ghi rõ lý do loại/chọn mỗi mô hình, không chỉ dựa trên một con số BLEU.
• Mô hình tốt nhất không nhất thiết là mô hình có BLEU cao nhất, mà phải là mô hình phù
hợp nhất với điều kiện dữ liệu ít, tài nguyên hạn chế và mục tiêu dịch chính xác.
IX. Link đăng ký mô hình
https://docs.google.com/spreadsheets/d/1gvBpAJgP4YNxHoIduYVKbTWAQ_98wGaDeG6k 5WFvwLM/edit?usp=sharing
Document Outline

  • I. Mục tiêu chung của đồ án cuối kỳ
  • II. Quy định đồ án cuối kỳ
  • III. Bảng hướng dẫn lựa chọn mô hình dịch máy Chinese - Vietnamese
  • IV. Các khía cạnh cần khảo sát khi lựa chọn mô hình
    • 1. Khả năng ngôn ngữ và hỗ trợ ngôn ngữ (Language Support)
    • 2. Hiệu năng ban đầu (Pre-fine-tuning Performance)
    • 3. Khả năng học từ dữ liệu ít (Low-Resource Adaptability)
    • 4. Tính khả dụng và triển khai (Practicality)
    • 5. Phân tích lỗi sơ bộ (khuyến khích)
  • V. Yêu cầu sản phẩm nộp
  • VIII. Lưu ý quan trọng khi đánh giá và lựa chọn mô hình
  • IX. Link đăng ký mô hình