






Preview text:
  lOMoAR cPSD| 58833082
Chương 2: Yêu cầu và Phân tích Hệ thống 2.1. 
Yêu cầu Hệ thống - Giới thiệu và Tổng quan  •  2.1.1. Giới thiệu: 
o Hệ thống phân loại email rác được thiết kế để tự động phân biệt email không 
mong muốn (spam) với email hợp lệ (non-spam). 
o Mục tiêu là cải thiện trải nghiệm người dùng bằng cách giảm thiểu sự phiền 
toái từ email rác, đồng thời tăng cường bảo mật thông tin. 
o Hệ thống hướng đến việc cung cấp một giải pháp hiệu quả, chính xác và dễ sử 
dụng cho cả người dùng cá nhân và doanh nghiệp.  • 
2.1.2. Tổng quan về Yêu cầu: 
o Hệ thống cần đáp ứng các yêu cầu chức năng, liên quan đến những gì hệ thống 
phải làm, và yêu cầu phi chức năng, liên quan đến cách hệ thống hoạt động. 
o Yêu cầu chức năng bao gồm khả năng phân loại email, cập nhật mô hình và thu 
thập phản hồi từ người dùng. 
o Yêu cầu phi chức năng tập trung vào hiệu suất, độ chính xác, khả năng mở rộng 
và bảo mật của hệ thống. 
 2.1. Yêu cầu Hệ thống - Yêu cầu Chức năng (Phân loại Email)  • 
2.1.1. Phân loại Email: 
o Hệ thống phải có khả năng nhận email đầu vào, bao gồm thông tin về người 
gửi, người nhận và nội dung email. 
o Dựa trên nội dung và các đặc điểm khác của email, hệ thống sẽ phân loại email 
thành "Spam" hoặc "Non-Spam". 
o Kết quả phân loại phải được hiển thị rõ ràng và dễ hiểu cho người dùng. o Cần 
có nhật kí lưu lại các email đã nhận và kết quả phân loại. 
o Cần có chức năng tìm kiếm lại các email đã được phân loại.  • 
2.1.2. Chi tiết về Quy trình Phân loại: 
o Quy trình phân loại sẽ bao gồm các bước tiền xử lý dữ liệu, trích xuất đặc 
trưng và áp dụng mô hình học máy.      lOMoAR cPSD| 58833082 o 
Hệ thống cần có khả năng xử lý các loại email khác nhau, bao gồm email văn 
bản thuần túy, email HTML và email có tệp đính kèm. 
o Cần có thông báo khi hệ thống gặp lỗi khi phân loại email. 
 2.1. Yêu cầu Hệ thống - Yêu cầu Chức năng (Cập nhật Mô hình và Phản hồi)  • 
2.1.3. Cập nhật Mô hình: 
o Hệ thống phải có khả năng tự động cập nhật mô hình học máy khi có dữ liệu  mới. 
o Quá trình cập nhật mô hình cần được thực hiện một cách hiệu quả, đảm bảo 
tính ổn định của hệ thống. 
o Có thể cần có cơ chế để người quản trị cập nhật mô hình thủ công. 
o Cần có nhật kí lưu lại các lần cập nhật mô hình.  • 
2.1.4. Phản hồi Người dùng: 
o Hệ thống cần cung cấp giao diện cho người dùng đánh dấu email phân loại sai. 
o Phản hồi từ người dùng sẽ được sử dụng để cải thiện độ chính xác của mô  hình. 
o Có thể cần có thêm các hình thức thu thập phản hồi khác, chẳng hạn như khảo 
sát hoặc đánh giá. 
o Có thể cần có hệ thống để quản lí các phản hồi của người dùng. 
 2.1. Yêu cầu Hệ thống - Yêu cầu Phi Chức năng (Độ Chính xác và Hiệu Suất)  • 
2.2.1. Độ Chính xác: 
o Hệ thống phải đạt độ chính xác phân loại ít nhất 95%. 
o Độ chính xác sẽ được đánh giá bằng các chỉ số như độ chính xác, độ thu hồi và  F1-score. 
o Cần có các phương pháp kiểm thử và đánh giá độ chính xác định kì.  •  2.2.2. Hiệu Suất:      lOMoAR cPSD| 58833082 o 
o Thời gian xử lý mỗi email phải nhỏ hơn 0.1 giây. o Hệ thống phải có 
khả năng xử lý lượng lớn email một cách hiệu quả. o Cần có các 
phương pháp giám sát và tối ưu hóa hiệu suất hệ thống. 
Cần có khả năng mở rộng tài nguyên khi có nhiều người dùng. 
 2.1. Yêu cầu Hệ thống - Yêu cầu Phi Chức năng (Khả năng Mở rộng và Bảo mật) 
 2.2.3. Khả năng Mở rộng: 
o Hệ thống phải có khả năng mở rộng để xử lý lượng email tăng lên. 
o Kiến trúc hệ thống cần được thiết kế để dễ dàng tích hợp thêm dữ liệu và thuật  toán mới. 
o Cần có khả năng triển khai hệ thống trên các nền tảng đám mây.  •  2.2.4. Bảo mật: 
o Hệ thống phải bảo vệ thông tin người dùng khỏi truy cập trái phép. o Các biện 
pháp bảo mật cần được áp dụng để ngăn chặn tấn công từ bên ngoài. o Cần 
có các chính sách và quy trình bảo mật rõ ràng. 
o Cần lưu trữ dữ liệu an toàn. 
 2.2. Phân tích Dữ liệu - Nguồn Dữ liệu  • 
2.2.1. Enron Spam Dataset: 
o Mô tả chi tiết về tập dữ liệu Enron Spam Dataset, bao gồm nguồn gốc, kích 
thước và đặc điểm. 
o Phân tích các loại email có trong tập dữ liệu, bao gồm email spam và email  non-spam. 
o Phân tích các khó khăn khi sử dụng tập dữ liệu này.  • 
2.2.2. Kaggle Spam Dataset: 
o Mô tả chi tiết về tập dữ liệu Kaggle Spam Dataset, bao gồm nguồn gốc, kích 
thước và đặc điểm.      lOMoAR cPSD| 58833082 o 
o Phân tích các loại email có trong tập dữ liệu, bao gồm email spam và email  non-spam. 
o Phân tích các khó khăn khi sử dụng tập dữ liệu này.  • 
2.2.3. Dữ liệu Thực tế: 
o Phân tích các vấn đề khi sử dụng dữ liệu thực tế. o 
Các phương pháp thu thập dữ liệu thực tế. 
Các vấn đề về quyền riêng tư khi thu thập dữ liệu thực tế. 
 2.2. Phân tích Dữ liệu - Tiền Xử lý Dữ liệu (Tokenization và TF-IDF)  •  2.3.1. Tokenization: 
o Mô tả chi tiết về quá trình tokenization, bao gồm các phương pháp và thư viện  được sử dụng. 
o Phân tích các thách thức trong việc token hóa văn bản email, chẳng hạn như xử 
lý các từ viết tắt và các ký tự đặc biệt. 
o Phân tích ảnh hưởng của Tokenization đến kết quả phân loại.  •  2.3.2. TF-IDF: 
o Mô tả chi tiết về phương pháp TF-IDF, bao gồm cách tính toán và ý nghĩa của 
các giá trị TF-IDF. 
o Phân tích các ưu và nhược điểm của việc sử dụng TF-IDF trong bài toán phân  loại email. 
o Phân tích ảnh hưởng của TF-IDF đến kết quả phân loại. 
2.2. Phân tích Dữ liệu - Tiền Xử lý Dữ liệu (Loại bỏ Stopwords và Mã hóa)  • 
2.3.3. Loại bỏ Stopwords: 
o Mô tả chi tiết về quá trình loại bỏ stopwords, bao gồm danh sách stopwords  được sử dụng. 
o Phân tích ảnh hưởng của việc loại bỏ stopwords đến hiệu suất và độ chính xác  của mô hình. 
o Phân tích ảnh hưởng của các stopwords trong tập dữ liệu.      lOMoAR cPSD| 58833082 o  • 
2.3.4. Mã hóa bằng Sentence Transformers: 
o Mô tả chi tiết về quá trình mã hóa bằng Sentence Transformers. 
o Phân tích ưu điểm của Sentence Transformers so với các phương pháp mã hóa  truyền thống. 
o Phân tích ảnh hưởng của các mô hình Sentence Transformers khác nhau. 
 2.3. Lựa chọn Thuật toán - SVM (Ưu và Nhược điểm)  • 
2.4.1. Ưu điểm của SVM: 
Phân tích chi tiết về các ưu điểm của SVM, bao gồm khả năng xử lý dữ liệu có 
chiều cao lớn, khả năng tổng quát hóa tốt và tính hiệu quả trong bài toán  mới có 9 trang 
Xin lỗi, tôi sẽ tiếp tục mở rộng để đạt được 12 trang. 
 2.3. Lựa chọn Thuật toán - SVM (Nhược điểm và So sánh)  • 
2.4.2. Nhược điểm của SVM: 
o Phân tích chi tiết về các nhược điểm của SVM, bao gồm yêu cầu tài nguyên tính 
toán cao và độ phức tạp trong việc lựa chọn kernel. 
o Thảo luận về các tình huống mà SVM có thể không phải là lựa chọn tốt nhất. 
o Thảo luận về việc lựa chọn kernel tuyến tính phù hợp với bài toán này.  • 
2.4.3. So sánh với các Thuật toán Khác: 
o So sánh SVM với Naive Bayes, Logistic Regression và Deep Learning về độ chính 
xác, hiệu suất và khả năng mở rộng. 
o Phân tích các ưu và nhược điểm của từng thuật toán trong ngữ cảnh của bài 
toán phân loại email rác. 
o Đưa ra lý do tại sao SVM được chọn là thuật toán phù hợp nhất cho hệ thống  này. 
 2.3. Lựa chọn Thuật toán - Chi tiết về SVM và Kernel  • 
2.4.4. Chi tiết về SVM:      lOMoAR cPSD| 58833082 o 
o Giải thích chi tiết về cách thức hoạt động của SVM, bao gồm khái niệm về siêu 
phẳng và vector hỗ trợ. 
o Mô tả quá trình huấn luyện mô hình SVM và cách sử dụng mô hình để dự đoán  nhãn email. 
o Giải thích rõ ràng về thuật toán SVM.  • 
2.4.5. Lựa chọn Kernel: 
o Giải thích chi tiết về các loại kernel khác nhau và cách chúng ảnh hưởng 
đến hiệu suất của SVM. 
o Phân tích lý do tại sao kernel tuyến tính được chọn cho hệ thống này. o 
Thảo luận về khả năng sử dụng các kernel khác trong tương lai     lOMoAR cPSD| 58833082