



Preview text:
HƯỚNG DẪN THỰC HIỆN ĐỒ ÁN
Xây dựng Chatbot RAG tra cứu Thông tin từ Nguồn Dữ liệu Chính thức 1 Mục đích của đề tài
Xây dựng một hệ thống chatbot thông minh sử dụng kỹ thuật Retrieval-Augmented
Generation (RAG) có khả năng:
• Trả lời chính xác, nhanh chóng các câu hỏi tự nhiên bằng tiếng Việt liên quan đến
thông tin từ nguồn dữ liệu chính thức (ví dụ: thủ tục hành chính, quy định pháp lý,
hướng dẫn dịch vụ công, hoặc các lĩnh vực khác như giáo dục, y tế, nông nghiệp...).
• Trích dẫn rõ nguồn gốc (tên tài liệu, mã tham chiếu, block nội dung cụ thể) để người
dùng tin tưởng và dễ kiểm chứng.
• Hỗ trợ người dùng tra cứu thông tin một cách hiệu quả, giảm tải cho các kênh hỗ trợ truyền thống.
Đồng thời giúp chúng ta hiểu được việc thu thập và khai phá dữ liệu trên thực tế như thế nào thông qua việc:
• Thu thập dữ liệu quy mô lớn từ website chính thức hoặc nguồn mở (web scraping hoặc API).
• Làm sạch, chuẩn hóa, cấu trúc hóa dữ liệu phi cấu trúc (HTML/PDF → JSON có metadata rõ ràng).
• Xây dựng pipeline dữ liệu chất lượng cao phục vụ cho các ứng dụng AI hiện đại.
• Cuối cùng là áp dụng kỹ thuật RAG để tạo chatbot tra cứu thông minh.
Lưu ý: Chatbot RAG chỉ là phần “hiển thị” cuối cùng. Nếu dữ liệu không sạch, không có
cấu trúc, không có metadata → dù có dùng các mô hình tốt nhất hiện tại như Gemini hay
GPT-4 cũng sẽ cho kết quả trả lời sai hoặc lan man, không đúng phần nội dung mong muốn.
Trong phần hướng dẫn này, chúng ta sẽ thực hiện đề tài với nguồn dữ liệu là thủ tục
hành chính công (dichvucong.gov.vn). Sinh viên có thể chọn lĩnh vực dữ liệu khác ngoài
hành chính công, miễn là nguồn dữ liệu chính thức, công khai và phù hợp (ví dụ: dữ liệu từ
website Bộ Giáo dục về chương trình học, website Bộ Y tế về hướng dẫn sức khỏe, hoặc dữ
liệu mở từ các tổ chức quốc tế như WHO, UNESCO). 1 Instruction Ngày 9 tháng 12 năm 2025 2 Mô tả bài toán
• Input: Câu hỏi tự nhiên bằng tiếng Việt của người dùng, ví dụ:
– “Làm giấy phép lái xe hạng B2 cần những giấy tờ gì?” (hành chính công)
– “Chương trình học lớp 10 môn Toán theo chương trình GDPT 2018 là gì?” (giáo dục)
– “Hướng dẫn phòng ngừa bệnh sốt xuất huyết từ Bộ Y tế?” (y tế)
• Output: Câu trả lời ngắn gọn, chính xác, có trích dẫn nguồn cụ thể (tên tài liệu, mã
tham chiếu, cơ quan ban hành, block nội dung) kèm link (nếu có). 3 Nguồn dữ liệu thu thập
Sinh viên tự chọn nguồn dữ liệu chính thức, công khai từ website chính phủ hoặc tổ chức uy tín. Ví dụ gợi ý:
• Hành chính công: https://dichvucong.gov.vn/p/home/dvc-trang-chu.html
• Giáo dục: Website Bộ Giáo dục và Đào tạo hoặc Kiến thức từ sách giáo khoa
• Y tế: Phác đồ điều trị bệnh (https://kcb.vn/phac-do)
• Hoặc các nguồn dữ liệu mở khác.
File Google Sheet gợi ý cấu trúc dữ liệu: Sinh viên tự tạo hoặc tham khảo link mẫu để lập danh sách. 4 Yêu cầu đề tài
1. Phân tích cấu trúc trang web của lĩnh vực được chọn (xác định các block: Trình
tự, Thành phần, Phí lệ phí, Căn cứ pháp lý, Biểu mẫu. . . hoặc tương đương).
2. Viết crawler thu thập dữ liệu các tài liệu thuộc danh mục được chọn.
3. Xử lý và chuẩn hóa dữ liệu:
• Chia chunk theo rule-base (mỗi block nội dung là 1 chunk). Ví dụ: chunk riêng
về tiêu đề, chunk về nội dung tiêu đều, chunk riêng cho table, ...
• Gắn metadata chi tiết cho từng chunk (mã tài liệu, tên tài liệu, lĩnh vực, cơ quan
ban hành, tên block, ngày cập nhật. . . ).
4. Lưu trữ dữ liệu đã xử lý theo cấu trúc chuẩn: Instruction Ngày 9 tháng 12 năm 2025 data/ +-- [Tên danh mục]/
| +-- TAI_LIEU_00123.json # TAI_LIEU_{mã}.json | +-- TAI_LIEU_00456.json | +-- ...
Mỗi file JSON chứa danh sách các chunk của đúng 1 tài liệu kèm đầy đủ metadata.
5. Xây dựng vector database với mô hình embedding tiếng Việt.
6. Xây dựng hệ thống RAG hoàn chỉnh bằng API Gemini hoặc các mô hình LLM khác (như Grok, GPT).
7. Xây dựng giao diện web bằng Streamlit với đầy đủ chức năng chat, hiển thị nguồn,
metadata và các chunk được retrieval.
8. Báo cáo + video demo + GitHub repo công khai, trong đó nêu rõ lý do chọn lĩnh vực
dữ liệu và nguồn thu thập. 5
Cách đánh giá kết quả đồ án
Điểm sẽ được chấm dựa trên các tiêu chí sau: Tiêu chí Nội dung đánh giá 1. Thu thập dữ liệu
Đúng lĩnh vực được chọn, nguồn chính thức, không trùng lặp, đa dạng nếu mở rộng 2. Chất lượng chunk &
Rule-base chuẩn, metadata đầy đủ các thông tin metadata 3. Hiệu suất retrieval
Trả về đúng chunk khi hỏi chi tiết 4. Chất lượng trả lời
Chính xác, ngắn gọn, không hallucination (việc AI đưa ra kiến
thức sai lệch một cách tự tin), có trích dẫn nguồn rõ ràng 5. Giao diện Streamlit
Trực quan, dễ dùng, hiển thị đầy đủ nguồn + metadata 6. Báo cáo & demo
Miêu tả các phương pháp cải tiến, lý do chọn lĩnh vực, và cách
xử lý dữ liệu thực tế 6 Gợi ý các đề tài
Sinh viên có thể chọn hoặc đề xuất lĩnh vực riêng, miễn là phù hợp với RAG và nguồn dữ liệu công khai.
Ví dụ: với sinh viên chọn chủ đề hành chính công, có thể chia theo file danh mục
Đề tài 1. Thủ tục hành chính thuộc phạm vi chức năng quản lý của Sở Công Thương và Sở Dân tộc - Tôn giáo Instruction Ngày 9 tháng 12 năm 2025
Đề tài 2. Thủ tục hành chính thuộc phạm vi chức năng quản lý của Sở Giáo dục và Đào tạo
Đề tài 3. Thủ tục hành chính thuộc phạm vi chức năng quản lý của Sở Nông nghiệp và
Phát triển nông thôn và Sở Tài nguyên và Môi trường
Đề tài 4. Thủ tục hành chính thuộc phạm vi chức năng quản lý của Sở Nội vụ
Đề tài 5. Thủ tục hành chính thuộc phạm vi chức năng quản lý của Sở Tài chính
Đề tài 6. Thủ tục hành chính thuộc phạm vi chức năng quản lý của Sở Tư pháp
Đề tài 7. Thủ tục hành chính thuộc phạm vi chức năng quản lý của Sở Quy hoạch – Kiến
trúc và Sở Văn hóa và Thể thao
Đề tài 8. Thủ tục hành chính thuộc phạm vi chức năng quản lý của Sở Xây dựng
Đề tài 9. Thủ tục hành chính thuộc phạm vi chức năng quản lý của Sở Y tế
Đề tài 10. Thủ tục hành chính thuộc Thanh tra Thành phố, nhóm thủ tục liên thông và
thủ tục thuộc Công an Thành phố Hồ Chí Minh
Đề tài 11. Các lĩnh vực thuộc chủ đề khác
Document Outline
- Mục đích của đề tài
- Mô tả bài toán
- Nguồn dữ liệu thu thập
- Yêu cầu đề tài
- Cách đánh giá kết quả đồ án
- Gợi ý các đề tài