4 trang 18 lượt tải

Khảo sát và fine-tune mô hình dịch máy từ Chinese | Đồ án cuối kì

Môn: Tin học đại cương(COMM10) 89 tài liệu

Trường: Trường Đại học Sư Phạm Hà Nội 3.6 K tài liệu

Tác giả:

Toại Phạm

1 tháng trước

Tải xuống Báo cáo

Danh sách Quiz

HƯỚNG DẪN ĐỒ ÁN CUỐI KỲ

Chủ đề: Khảo sát và fine-tune mô hình dịch máy từ Chinese

I. Mục tiêu chung của đồ án cuối kỳ

Mỗi nhóm khảo sát 3 mô hình dịch máy (NMT/LLM) cho cặp ngôn ngữ Chinese –

Vietnamese hoặc Chinese - English, so sánh hiệu năng, lựa chọn 1 mô hình tối ưu nhất để

fine-tune trên dữ liệu đã căn chỉnh hoặc dữ liệu mở, và đánh giá bằng BLEU (có thể bổ sung

ChrF, TER).

II. Quy định đồ án cuối kỳ

• Xử lý cần được tự động hóa tối đa (pipeline rõ ràng, script hoặc notebook có thể chạy lại

từ đầu đến cuối).

• Nguồn dữ liệu thô, dữ liệu đã OCR và dữ liệu đã align phải được tổ chức rõ ràng, có thể

truy vết.

• Mỗi bước xử lý (tiền xử lý, huấn luyện, đánh giá) cần có mã nguồn kèm hướng dẫn chạy

lại (README hoặc notebook).

• File kết quả (aligned data, kết quả đánh giá) nên ở dạng CSV/TSV, có header rõ ràng, dễ

dùng lại cho các bước sau.

III. Bảng hướng dẫn lựa chọn mô hình dịch máy Chinese - Vietnamese

Bảng dưới đây tóm tắt các thành phần quan trọng khi lựa chọn và triển khai mô hình dịch

máy cho đồ án cuối kỳ.

Thành phần

Mô tả chi tiết

1. Mục tiêu chung

Khảo sát 3 mô hình NMT/LLM, so sánh hiệu năng dịch

Chinese - Vietnamese hoặc Chinese-English, chọn 1 mô hình

tìm năng nhất để fine-tune trên dữ liệu đã căn chỉnh hoặc dữ

liệu mở, và đánh giá bằng BLEU (có thể bổ sung ChrF, TER).

2. Phân công nhóm

- Nhóm 13 & 14: Tập trung vào dịch máy Chinese -

Vietnamese hoặc Chinese - English.

- Nhóm 11: Tập trung vào sentence alignment, nhưng vẫn

phải thực hiện khảo sát 3 mô hình và fine-tune 1 mô hình

như yêu cầu chung. Tuy nhiên, phải dùng dữ liệu đã align để

fine-tune (có thể kèm thêm dữ liệu mở).

3. Loại mô hình được

phép khảo sát

• NMT cổ điển: Transformer base/large, MarianMT,

OpenNMT-py.

• Mô hình đa ngôn ngữ hiện đại: mBART50, NLLB (No

Language Left Behind), mT5, UL2.

• LLM có khả năng dịch: Gemma-2B/7B (nếu fine-tune được),

Qwen2, Llama3 (phiên bản multilingual), hoặc XLM-R với

head dịch.

• Không khuyến khích dùng GPT-4/ChatGPT qua API (do

không fine-tune được và chi phí cao).

4. Tiêu chí lựa chọn mô

hình ban đầu (trước fine-

tune)

• Khả năng hỗ trợ Chinese (zh) và Vietnamese (vi) hoặc

English (en).

• Có sẵn checkpoint pretrained trên Hugging Face hoặc

GitHub.

• Khả năng fine-tune với dữ liệu nhỏ.

• Tài nguyên tính toán phù hợp (có thể train trên Colab/1

GPU).

5. Kịch bản khảo sát

Bước 1: Chọn 3 mô hình khác loại (ví dụ: 1 NMT thuần + 1

multilingual NMT + 1 LLM nhỏ).

Bước 2: Dịch thử 20–50 câu mẫu (dev set) bằng mô hình

zero-shot (nếu là LLM) hoặc pretrained (nếu là NMT).

Bước 3: Đánh giá sơ bộ: BLEU, fluency (mắt đọc), thời gian

chạy.

Bước 4: Chọn 1 mô hình để fine-tune toàn tập.

6. Dữ liệu fine-tune

• Ưu tiên: Dùng dữ liệu do nhóm align (đặc biệt Nhóm 11).

• Cho phép bổ sung: Dữ liệu mở như OPUS, ParaCrawl, hoặc

dataset Chinese-Vietnamese (Chinese-English) trên Hugging

Face.

• Ưu tiên dataset trong khoảng 10000 đến 20000 cặp song

ngữ.

7. Đánh giá cuối cùng

• BLEU (primary metric) – dùng sacrebleu với tokenization

phù hợp (zh: char-based; vi: moses + vi tokenizer).

• ChrF / TER (optional, báo cáo phụ).

• Case study (5–10 câu): so sánh bản dịch trước/sau fine-

tune, phân tích lỗi (thực thể, trật tự, v.v.).

8. Yêu cầu báo cáo

• Mô tả 3 mô hình đã khảo sát + lý do chọn mô hình fine-tune.

• Chi tiết cấu hình fine-tune (batch size, epochs, optimizer,

learning rate).

• Kết quả định lượng (bảng BLEU và các metric khác nếu có).

• Phân tích định tính (ưu/nhược điểm của mô hình đã chọn).

IV. Các khía cạnh cần khảo sát khi lựa chọn mô hình

1. Khả năng ngôn ngữ và hỗ trợ ngôn ngữ (Language Support)

• Mô hình có hỗ trợ Chinese (zh) và Vietnamese (vi) hay English (en) không?

• Là mô hình song ngữ, đa ngôn ngữ, hay monolingual?

• Có sẵn checkpoint pretrained cho zh↔vi, zh↔en không, hay chỉ zero-shot?

Mục đích: đảm bảo mô hình có thể xử lý đúng cặp ngôn ngữ mục tiêu.

2. Hiệu năng ban đầu (Pre-fine-tuning Performance)

• Đánh giá chất lượng dịch zero-shot hoặc pretrained trên tập dev nhỏ (20–50 câu).

• Chỉ số định lượng: BLEU, ChrF, TER (dùng sacrebleu).

• Đánh giá định tính: fluency, adequacy, faithfulness qua mắt đọc.

Mục đích: so sánh baseline trước khi fine-tune và loại bỏ các mô hình quá yếu.

3. Khả năng học từ dữ liệu ít (Low-Resource Adaptability)

• Mô hình có dễ fine-tune với 10000-20000 mẫu không?

• Cần bao nhiêu tài nguyên (GPU RAM, thời gian huấn luyện)?

• Có cần kỹ thuật đặc biệt như LoRA, adapter, freezing layers…?

Mục đích: đánh giá tính khả thi trong điều kiện dữ liệu và tài nguyên hạn chế.

4. Tính khả dụng và triển khai (Practicality)

• Mô hình có mã nguồn mở không (GitHub, Hugging Face)?

• Có hướng dẫn fine-tune rõ ràng không?

• Có thể chạy trên Colab / 1 GPU (≤16GB) không?

• Giấy phép sử dụng (license) có cho phép nghiên cứu/phi thương mại không?

Mục đích: đảm bảo nhóm có thể triển khai thực tế trong thời gian học kỳ.

5. Phân tích lỗi sơ bộ (khuyến khích)

• Mô hình thường sai ở những điểm nào? Ví dụ:

– Dịch sai thực thể (tên người, địa danh).

– Thêm/bớt thông tin (hallucination – đặc biệt ở LLM).

– Trật tự từ sai do khác biệt cấu trúc câu.

– Không xử lý tốt chữ Hán phồn thể (nếu có).

• Mục đích: hiểu điểm yếu để chọn mô hình phù hợp và thiết kế chiến lược fine-tune hiệu

quả.

• Cách làm: chọn 10–15 câu, so sánh bản dịch với reference, ghi chú lỗi chính.

V. Yêu cầu sản phẩm nộp

Mỗi nhóm cần nộp đầy đủ các thành phần sau:

• Source code huấn luyện và thực thi (inference): notebook (.ipynb) hoặc script (.py), kèm

hướng dẫn chạy (README.md).

• Dữ liệu: tập train/dev/test ở dạng CSV hoặc JSON, có mô tả rõ cách tạo (hoặc link tải).

• Kết quả dịch và đánh giá: file chứa hypothesis, reference và báo cáo BLEU/ChrF/TER

(log hoặc bảng tổng hợp).

• Báo cáo chính thức: file report (.pdf) trình bày rõ các phần: dữ liệu, mô hình, thiết lập thí

nghiệm, kết quả, phân tích và kết luận.

• Cấu trúc thư mục rõ ràng, dễ hiểu (ví dụ: data/, models/, scripts/, results/, report.pdf).

VIII. Lưu ý quan trọng khi đánh giá và lựa chọn mô hình

• Sinh viên cần ghi rõ lý do loại/chọn mỗi mô hình, không chỉ dựa trên một con số BLEU.

• Mô hình tốt nhất không nhất thiết là mô hình có BLEU cao nhất, mà phải là mô hình phù

hợp nhất với điều kiện dữ liệu ít, tài nguyên hạn chế và mục tiêu dịch chính xác.

IX. Link đăng ký mô hình

https://docs.google.com/spreadsheets/d/1gvBpAJgP4YNxHoIduYVKbTWAQ_98wGaDeG6k

5WFvwLM/edit?usp=sharing

Bấm Tải xuống để xem toàn bộ.

Preview text:

HƯỚNG DẪN ĐỒ ÁN CUỐI KỲ
Chủ đề: Khảo sát và fine-tune mô hình dịch máy từ Chinese
I. Mục tiêu chung của đồ án cuối kỳ
Mỗi nhóm khảo sát 3 mô hình dịch máy (NMT/LLM) cho cặp ngôn ngữ Chinese –
Vietnamese hoặc Chinese - English, so sánh hiệu năng, lựa chọn 1 mô hình tối ưu nhất để
fine-tune trên dữ liệu đã căn chỉnh hoặc dữ liệu mở, và đánh giá bằng BLEU (có thể bổ sung ChrF, TER).
II. Quy định đồ án cuối kỳ
• Xử lý cần được tự động hóa tối đa (pipeline rõ ràng, script hoặc notebook có thể chạy lại từ đầu đến cuối).
• Nguồn dữ liệu thô, dữ liệu đã OCR và dữ liệu đã align phải được tổ chức rõ ràng, có thể truy vết.
• Mỗi bước xử lý (tiền xử lý, huấn luyện, đánh giá) cần có mã nguồn kèm hướng dẫn chạy
lại (README hoặc notebook).
• File kết quả (aligned data, kết quả đánh giá) nên ở dạng CSV/TSV, có header rõ ràng, dễ
dùng lại cho các bước sau.
III. Bảng hướng dẫn lựa chọn mô hình dịch máy Chinese - Vietnamese
Bảng dưới đây tóm tắt các thành phần quan trọng khi lựa chọn và triển khai mô hình dịch
máy cho đồ án cuối kỳ. Thành phần Mô tả chi tiết 1. Mục tiêu chung
Khảo sát 3 mô hình NMT/LLM, so sánh hiệu năng dịch
Chinese - Vietnamese hoặc Chinese-English, chọn 1 mô hình
tìm năng nhất để fine-tune trên dữ liệu đã căn chỉnh hoặc dữ
liệu mở, và đánh giá bằng BLEU (có thể bổ sung ChrF, TER). 2. Phân công nhóm
- Nhóm 13 & 14: Tập trung vào dịch máy Chinese -
Vietnamese hoặc Chinese - English.
- Nhóm 11: Tập trung vào sentence alignment, nhưng vẫn
phải thực hiện khảo sát 3 mô hình và fine-tune 1 mô hình
như yêu cầu chung. Tuy nhiên, phải dùng dữ liệu đã align để
fine-tune (có thể kèm thêm dữ liệu mở). 3. Loại mô hình được
• NMT cổ điển: Transformer base/large, MarianMT, phép khảo sát OpenNMT-py.
• Mô hình đa ngôn ngữ hiện đại: mBART50, NLLB (No
Language Left Behind), mT5, UL2.
• LLM có khả năng dịch: Gemma-2B/7B (nếu fine-tune được),
Qwen2, Llama3 (phiên bản multilingual), hoặc XLM-R với head dịch.
• Không khuyến khích dùng GPT-4/ChatGPT qua API (do
không fine-tune được và chi phí cao).
4. Tiêu chí lựa chọn mô
• Khả năng hỗ trợ Chinese (zh) và Vietnamese (vi) hoặc
hình ban đầu (trước fine- English (en). tune)
• Có sẵn checkpoint pretrained trên Hugging Face hoặc GitHub.
• Khả năng fine-tune với dữ liệu nhỏ.
• Tài nguyên tính toán phù hợp (có thể train trên Colab/1 GPU). 5. Kịch bản khảo sát
Bước 1: Chọn 3 mô hình khác loại (ví dụ: 1 NMT thuần + 1
multilingual NMT + 1 LLM nhỏ).
Bước 2: Dịch thử 20–50 câu mẫu (dev set) bằng mô hình
zero-shot (nếu là LLM) hoặc pretrained (nếu là NMT).
Bước 3: Đánh giá sơ bộ: BLEU, fluency (mắt đọc), thời gian chạy.
Bước 4: Chọn 1 mô hình để fine-tune toàn tập. 6. Dữ liệu fine-tune
• Ưu tiên: Dùng dữ liệu do nhóm align (đặc biệt Nhóm 11).
• Cho phép bổ sung: Dữ liệu mở như OPUS, ParaCrawl, hoặc
dataset Chinese-Vietnamese (Chinese-English) trên Hugging Face.
• Ưu tiên dataset trong khoảng 10000 đến 20000 cặp song ngữ. 7. Đánh giá cuối cùng
• BLEU (primary metric) – dùng sacrebleu với tokenization
phù hợp (zh: char-based; vi: moses + vi tokenizer).
• ChrF / TER (optional, báo cáo phụ).
• Case study (5–10 câu): so sánh bản dịch trước/sau fine-
tune, phân tích lỗi (thực thể, trật tự, v.v.). 8. Yêu cầu báo cáo
• Mô tả 3 mô hình đã khảo sát + lý do chọn mô hình fine-tune.
• Chi tiết cấu hình fine-tune (batch size, epochs, optimizer, learning rate).
• Kết quả định lượng (bảng BLEU và các metric khác nếu có).
• Phân tích định tính (ưu/nhược điểm của mô hình đã chọn).
IV. Các khía cạnh cần khảo sát khi lựa chọn mô hình
1. Khả năng ngôn ngữ và hỗ trợ ngôn ngữ (Language Support)
• Mô hình có hỗ trợ Chinese (zh) và Vietnamese (vi) hay English (en) không?
• Là mô hình song ngữ, đa ngôn ngữ, hay monolingual?
• Có sẵn checkpoint pretrained cho zh↔vi, zh↔en không, hay chỉ zero-shot?
Mục đích: đảm bảo mô hình có thể xử lý đúng cặp ngôn ngữ mục tiêu.
2. Hiệu năng ban đầu (Pre-fine-tuning Performance)
• Đánh giá chất lượng dịch zero-shot hoặc pretrained trên tập dev nhỏ (20–50 câu).
• Chỉ số định lượng: BLEU, ChrF, TER (dùng sacrebleu).
• Đánh giá định tính: fluency, adequacy, faithfulness qua mắt đọc.
Mục đích: so sánh baseline trước khi fine-tune và loại bỏ các mô hình quá yếu.
3. Khả năng học từ dữ liệu ít (Low-Resource Adaptability)
• Mô hình có dễ fine-tune với 10000-20000 mẫu không?
• Cần bao nhiêu tài nguyên (GPU RAM, thời gian huấn luyện)?
• Có cần kỹ thuật đặc biệt như LoRA, adapter, freezing layers…?
Mục đích: đánh giá tính khả thi trong điều kiện dữ liệu và tài nguyên hạn chế.
4. Tính khả dụng và triển khai (Practicality)
• Mô hình có mã nguồn mở không (GitHub, Hugging Face)?
• Có hướng dẫn fine-tune rõ ràng không?
• Có thể chạy trên Colab / 1 GPU (≤16GB) không?
• Giấy phép sử dụng (license) có cho phép nghiên cứu/phi thương mại không?
Mục đích: đảm bảo nhóm có thể triển khai thực tế trong thời gian học kỳ.
5. Phân tích lỗi sơ bộ (khuyến khích)
• Mô hình thường sai ở những điểm nào? Ví dụ:
– Dịch sai thực thể (tên người, địa danh).
– Thêm/bớt thông tin (hallucination – đặc biệt ở LLM).
– Trật tự từ sai do khác biệt cấu trúc câu.
– Không xử lý tốt chữ Hán phồn thể (nếu có).
• Mục đích: hiểu điểm yếu để chọn mô hình phù hợp và thiết kế chiến lược fine-tune hiệu quả.
• Cách làm: chọn 10–15 câu, so sánh bản dịch với reference, ghi chú lỗi chính.
V. Yêu cầu sản phẩm nộp
Mỗi nhóm cần nộp đầy đủ các thành phần sau:
• Source code huấn luyện và thực thi (inference): notebook (.ipynb) hoặc script (.py), kèm
hướng dẫn chạy (README.md).
• Dữ liệu: tập train/dev/test ở dạng CSV hoặc JSON, có mô tả rõ cách tạo (hoặc link tải).
• Kết quả dịch và đánh giá: file chứa hypothesis, reference và báo cáo BLEU/ChrF/TER
(log hoặc bảng tổng hợp).
• Báo cáo chính thức: file report (.pdf) trình bày rõ các phần: dữ liệu, mô hình, thiết lập thí
nghiệm, kết quả, phân tích và kết luận.
• Cấu trúc thư mục rõ ràng, dễ hiểu (ví dụ: data/, models/, scripts/, results/, report.pdf).
VIII. Lưu ý quan trọng khi đánh giá và lựa chọn mô hình
• Sinh viên cần ghi rõ lý do loại/chọn mỗi mô hình, không chỉ dựa trên một con số BLEU.
• Mô hình tốt nhất không nhất thiết là mô hình có BLEU cao nhất, mà phải là mô hình phù
hợp nhất với điều kiện dữ liệu ít, tài nguyên hạn chế và mục tiêu dịch chính xác.
IX. Link đăng ký mô hình
https://docs.google.com/spreadsheets/d/1gvBpAJgP4YNxHoIduYVKbTWAQ_98wGaDeG6k 5WFvwLM/edit?usp=sharing
Document Outline

I. Mục tiêu chung của đồ án cuối kỳ
II. Quy định đồ án cuối kỳ
III. Bảng hướng dẫn lựa chọn mô hình dịch máy Chinese - Vietnamese
IV. Các khía cạnh cần khảo sát khi lựa chọn mô hình
- 1. Khả năng ngôn ngữ và hỗ trợ ngôn ngữ (Language Support)
- 2. Hiệu năng ban đầu (Pre-fine-tuning Performance)
- 3. Khả năng học từ dữ liệu ít (Low-Resource Adaptability)
- 4. Tính khả dụng và triển khai (Practicality)
- 5. Phân tích lỗi sơ bộ (khuyến khích)
V. Yêu cầu sản phẩm nộp
VIII. Lưu ý quan trọng khi đánh giá và lựa chọn mô hình
IX. Link đăng ký mô hình

Khảo sát và fine-tune mô hình dịch máy từ Chinese | Đồ án cuối kì

Tài liệu liên quan:

Giáo trình Microsoft Word 2013 môn Tin học đại cương | Trường Đại học Sư Phạm Hà Nội

Thiết kế hệ thống thông tin quản lý

Đề cương ôn tập môn Tin học đại cương | Trường Đại học Sư Phạm Hà Nội

Bài tập trắc nghiệm môn Tin học đại cương | Trường Đại học Sư Phạm Hà Nội

Câu hỏi trắc nghiệm Tin học cơ bản | Trường Đại học Sư Phạm Hà Nội