BTL môn Xử lý ngôn ngữ tự nhiên| Môn Xử lý ngôn ngữ tự nhiên|Trường Đại học Bách Khoa Hà Nội
Trong bài tập lớn này, sinh viên cần cài đặt một số thuật toán đã học và phân tích các ưu nhược điểm của chúng. Sinh viên có thể tự viết chương trình hoặc cải tiến chương trình có sẵn. Nếu cải tiến chương trình có sẵn, sinh viên cần chỉ rõ các nhược điểm của chương trình hiện có, sau đó đề xuất và cài đặt chương trình. Sinh viên cần phân tích các cách tiếp cận liên quan đến vấn đề cài đặt và đánh giá các cách tiếp cận này.
Preview text:
Bài tập lớn môn Xử lý ngôn ngữ tự nhiên
Trong bài tập lớn này, sinh viên cần cài đặt một số thuật toán đã học và phân tích các
ưu nhược điểm của chúng. Sinh viên có thể tự viết chương trình hoặc cải tiến chương trình có
sẵn. Nếu cải tiến chương trình có sẵn, sinh viên cần chỉ rõ các nhược điểm của chương trình
hiện có, sau đó đề xuất và cài đặt chương trình. Sinh viên cần phân tích các cách tiếp cận liên
quan đến vấn đề cài đặt và đánh giá các cách tiếp cận này.
Bài tập lớn làm theo nhóm 2-5 sinh viên. Báo cáo cần chỉ rõ công việc của mỗi thành
viên trong nhóm, có đầy đủ các mục đặt vấn đề, các cách tiếp cận để giải quyết vấn đề, phân
tích thiết kế cách tiếp cận đề xuất, thử nghiệm và đánh giá hệ thống, kết luận, tài liệu tham
khảo. Báo cáo trong khoảng 20-40 trang.
Một số mã nguồn chương trình hoặc chương trình chạy có sẵn trên web:
http://www.loria.fr/~lehong/softwares.php: trang web của Lê Hồng Phương, có một số công
cụ xử lý văn bản tiếng Việt
http://vlsp.vietlp.org:8080/demo/?page=resources: một số tài nguyên cho xử lý văn bản tiếng Việt.
GATE (http://gate.ac.uk): là một kiến trúc hạ tầng nhằm xây dựng các ứng dụng XLNNTN.
Nó đã bao gồm các module XLNNTN cơ bản cho tiếng Anh. Syntactic parser:
minipar: http://www.cs.rochester.edu/u/schubert/247-447/
link parser: http://www.link.cs.cmu.edu/link/
Charniak’s parser: http://www.cs.brown.edu/people/ec/#software
Một số đề tài gợi ý:
1. Viết chương trình phát hiện biên giới câu trong văn bản. Đánh giá độ chính xác của
hệ thống. Phân tích các trường hợp hệ thống có lỗi và đề xuất hướng giải quyết.
2. Viết chương trình tách từ. Đánh giá độ chính xác của hệ thống. Phân tích các trường
hợp hệ thống có lỗi và đề xuất hướng giải quyết.
3. Viết chương trình gán nhãn từ loại. Đánh giá độ chính xác của hệ thống. Phân tích các
trường hợp hệ thống có lỗi và đề xuất hướng giải quyết.
4. Tích hợp một bộ PTCP vào GATE. Sinh viên có thể sử dụng các bộ PTCP có sẵn.
Phân tích bộ PTCP và đánh giá độ chính xác của hệ thống. Phân tích các trường hợp
hệ thống có lỗi và đề xuất hướng giải quyết.
5. Viết chương trình phân loại thư rác.
Sinh viên gửi các đề xuất đề tài trước 18/3. Đề xuất dài 1 trang, bao gồm:
- mô tả vấn đề nghiên cứu
- cách tiếp cận để giải quyết
- một số tài liệu tham khảo
Đề xuất gửi về huonglt@soict.hut.edu.vn