BTL môn Xử lý ngôn ngữ tự nhiên| Môn Xử lý ngôn ngữ tự nhiên|Trường Đại học Bách Khoa Hà Nội

Trong bài tập lớn này, sinh viên cần cài đặt một số thuật toán đã học và phân tích các ưu nhược điểm của chúng. Sinh viên có thể tự viết chương trình hoặc cải tiến chương trình có sẵn. Nếu cải tiến chương trình có sẵn, sinh viên cần chỉ rõ các nhược điểm của chương trình hiện có, sau đó đề xuất và cài đặt chương trình. Sinh viên cần phân tích các cách tiếp cận liên quan đến vấn đề cài đặt và đánh giá các cách tiếp cận này.

Bài tp ln môn X lý ngôn ng t nhiên
Trong bài tp ln này, sinh viên cn cài đặt mt s thut toán đã hc và phân tích các
ưu nhược đim ca chúng. Sinh viên có th t viết chương trình hoc ci tiến chương trình có
sn. Nếu ci tiến chương trình có sn, sinh viên cn ch rõ các nhược đim ca chương trình
hin có, sau đó đề xut và cài đặt chương trình. Sinh viên cn phân tích các cách tiếp cn liên
quan đến vn đề cài đặ
t và đánh giá các cách tiếp cn này.
Bài tp ln làm theo nhóm 2-5 sinh viên. Báo cáo cn ch rõ công vic ca mi thành
viên trong nhóm, có đầy đủ các mc đặt vn đề, các cách tiếp cn để gii quyết vn đề, phân
tích thiết kế cách tiếp cn đề xut, th nghim và đánh giá h thng, kết lun, tài liu tham
kho. Báo cáo trong khong 20-40 trang.
Mt s mã ngun chương trình hoc chương trình chy có sn trên web:
http://www.loria.fr/~lehong/softwares.php
: trang web ca Lê Hng Phương, có mt s công
c x lý văn bn tiếng Vit
http://vlsp.vietlp.org:8080/demo/?page=resources
: mt s tài nguyên cho x lý văn bn tiếng
Vit.
GATE (http://gate.ac.uk
): là mt kiến trúc h tng nhm xây dng các ng dng XLNNTN.
đã bao gm các module XLNNTN cơ bn cho tiếng Anh.
Syntactic parser:
minipar: http://www.cs.rochester.edu/u/schubert/247-447/
link parser: http://www.link.cs.cmu.edu/link/
Charniak’s parser: http://www.cs.brown.edu/people/ec/#software
Mt s đề tài gi ý:
1. Viết chương trình phát hin biên gii câu trong văn bn. Đánh giá độ chính xác ca
h thng. Phân tích các trường hp h thng có li và đề xut hướng gii quyết.
2. Viết chương trình tách t. Đánh gđộ chính xác ca h thng. Phân tích các trường
hp h thng có li và đề xut hướng gii quyết.
3. Viế
t chương trình gán nhãn t loi. Đánh giá độ chính xác ca h thng. Phân tích các
trường hp h thng có li và đề xut hướng gii quyết.
4. Tích hp mt b PTCP vào GATE. Sinh viên có th s dng các b PTCP có sn.
Phân tích b PTCP và đánh giá độ chính xác ca h thng. Phân tích các trường hp
h thng có li và đề xut hướng gii quyết.
5. Viết chương trình phân loi thư
rác.
Sinh viên gi các đề xut đề tài trước 18/3. Đề xut dài 1 trang, bao gm:
- mô t vn đề nghiên cu
- cách tiếp cn để gii quyết
- mt s tài liu tham kho
Đề xut gi v huonglt@soict.hut.edu.vn
| 1/1

Preview text:

Bài tập lớn môn Xử lý ngôn ngữ tự nhiên
Trong bài tập lớn này, sinh viên cần cài đặt một số thuật toán đã học và phân tích các
ưu nhược điểm của chúng. Sinh viên có thể tự viết chương trình hoặc cải tiến chương trình có
sẵn. Nếu cải tiến chương trình có sẵn, sinh viên cần chỉ rõ các nhược điểm của chương trình
hiện có, sau đó đề xuất và cài đặt chương trình. Sinh viên cần phân tích các cách tiếp cận liên
quan đến vấn đề cài đặt và đánh giá các cách tiếp cận này.
Bài tập lớn làm theo nhóm 2-5 sinh viên. Báo cáo cần chỉ rõ công việc của mỗi thành
viên trong nhóm, có đầy đủ các mục đặt vấn đề, các cách tiếp cận để giải quyết vấn đề, phân
tích thiết kế cách tiếp cận đề xuất, thử nghiệm và đánh giá hệ thống, kết luận, tài liệu tham
khảo. Báo cáo trong khoảng 20-40 trang.
Một số mã nguồn chương trình hoặc chương trình chạy có sẵn trên web:
http://www.loria.fr/~lehong/softwares.php: trang web của Lê Hồng Phương, có một số công
cụ xử lý văn bản tiếng Việt
http://vlsp.vietlp.org:8080/demo/?page=resources: một số tài nguyên cho xử lý văn bản tiếng Việt.
GATE (http://gate.ac.uk): là một kiến trúc hạ tầng nhằm xây dựng các ứng dụng XLNNTN.
Nó đã bao gồm các module XLNNTN cơ bản cho tiếng Anh. Syntactic parser:
minipar: http://www.cs.rochester.edu/u/schubert/247-447/
link parser: http://www.link.cs.cmu.edu/link/
Charniak’s parser: http://www.cs.brown.edu/people/ec/#software
Một số đề tài gợi ý:
1. Viết chương trình phát hiện biên giới câu trong văn bản. Đánh giá độ chính xác của
hệ thống. Phân tích các trường hợp hệ thống có lỗi và đề xuất hướng giải quyết.
2. Viết chương trình tách từ. Đánh giá độ chính xác của hệ thống. Phân tích các trường
hợp hệ thống có lỗi và đề xuất hướng giải quyết.
3. Viết chương trình gán nhãn từ loại. Đánh giá độ chính xác của hệ thống. Phân tích các
trường hợp hệ thống có lỗi và đề xuất hướng giải quyết.
4. Tích hợp một bộ PTCP vào GATE. Sinh viên có thể sử dụng các bộ PTCP có sẵn.
Phân tích bộ PTCP và đánh giá độ chính xác của hệ thống. Phân tích các trường hợp
hệ thống có lỗi và đề xuất hướng giải quyết.
5. Viết chương trình phân loại thư rác.
Sinh viên gửi các đề xuất đề tài trước 18/3. Đề xuất dài 1 trang, bao gồm:
- mô tả vấn đề nghiên cứu
- cách tiếp cận để giải quyết
- một số tài liệu tham khảo
Đề xuất gửi về huonglt@soict.hut.edu.vn