lOMoARcPSD| 58833082
Chương 2: Yêu cầu và Phân ch Hệ thống 2.1.
Yêu cầu Hệ thống - Giới thiệu và Tổng quan
2.1.1. Giới thiệu:
o Hệ thống phân loại email rác được thiết kế để tự động phân biệt email không
mong muốn (spam) với email hợp lệ (non-spam).
o Mục êu là cải thiện trải nghiệm người dùng bằng cách giảm thiểu sự phiền
toái từ email rác, đồng thời tăng cường bảo mật thông n.
o Hệ thống hướng đến việc cung cấp một giải pháp hiệu quả, chính xác và dễ sử
dụng cho cả người dùng cá nhân và doanh nghiệp.
2.1.2. Tổng quan về Yêu cầu:
o Hệ thống cần đáp ứng các yêu cầu chức năng, liên quan đến những gì hệ thống
phải làm, và yêu cầu phi chức năng, liên quan đến cách hệ thống hoạt động.
o Yêu cầu chức năng bao gồm khả năng phân loại email, cập nhật mô hình và thu
thập phản hồi từ người dùng.
o Yêu cầu phi chức năng tập trung vào hiệu suất, độ chính xác, khả năng mở rộng
và bảo mật của hệ thống.
2.1. Yêu cầu Hệ thống - Yêu cầu Chức năng (Phân loại Email)
2.1.1. Phân loại Email:
o Hệ thống phải có khả năng nhận email đầu vào, bao gồm thông n về người
gửi, người nhận và nội dung email.
o Dựa trên nội dung và các đặc điểm khác của email, hệ thống sẽ phân loại email
thành "Spam" hoặc "Non-Spam".
o Kết quả phân loại phải được hiển thị rõ ràng và dễ hiểu cho người dùng. o Cần
có nhật kí lưu lại các email đã nhận và kết quả phân loại.
o Cần có chức năng m kiếm lại các email đã được phân loại.
2.1.2. Chi ết về Quy trình Phân loại:
o Quy trình phân loại sẽ bao gồm các bước ền xử lý dữ liệu, trích xuất đặc
trưng và áp dụng mô hình học máy.
lOMoARcPSD| 58833082
o
Hệ thống cần có khả năng xử lý các loại email khác nhau, bao gồm email văn
bản thuần túy, email HTML và email có tệp đính kèm.
o Cần có thông báo khi hệ thống gặp lỗi khi phân loại email.
2.1. Yêu cầu Hệ thống - Yêu cầu Chức năng (Cập nhật Mô hình và Phản hồi)
2.1.3. Cập nhật Mô hình:
o Hệ thống phải có khả năng tự động cập nhật mô hình học máy khi có dữ liu
mới.
o Quá trình cập nhật mô hình cần được thực hiện một cách hiệu quả, đảm bảo
nh ổn định của hệ thng.
o Có thể cần có cơ chế để người quản trị cập nhật mô hình thủ công.
o Cần có nhật kí lưu lại các lần cập nhật mô hình.
2.1.4. Phản hồi Người dùng:
o Hệ thống cần cung cấp giao diện cho người dùng đánh dấu email phân loại sai.
o Phản hồi từ người dùng sẽ được sử dụng để cải thiện độ chính xác của mô
hình.
o Có thể cần có thêm các hình thức thu thập phản hồi khác, chẳng hạn như khảo
sát hoặc đánh giá.
o Có thể cần có hệ thống để quản lí các phản hồi của người dùng.
2.1. Yêu cầu Hệ thống - Yêu cầu Phi Chức năng (Độ Chính xác và Hiệu Suất)
2.2.1. Độ Chính xác:
o Hệ thống phải đạt độ chính xác phân loại ít nhất 95%.
o Độ chính xác sẽ được đánh giá bằng các chỉ số như độ chính xác, độ thu hồi và
F1-score.
o Cần có các phương pháp kiểm thử và đánh giá độ chính xác định kì.
2.2.2. Hiệu Suất:
lOMoARcPSD| 58833082
o
o Thời gian xử lý mỗi email phải nhỏ hơn 0.1 giây. o Hệ thống phải có
khả năng xử lý lượng lớn email một cách hiệu quả. o Cần có các
phương pháp giám sát và tối ưu hóa hiệu suất hệ thống.
Cần có khả năng mở rộng tài nguyên khi có nhiều người dùng.
2.1. Yêu cầu Hệ thống - Yêu cầu Phi Chức năng (Khả năng Mở rộng và Bảo mật)
2.2.3. Khả năng Mở rộng:
o Hệ thống phải có khả năng mở rộng để xử lý lượng email tăng lên.
o Kiến trúc hệ thống cần được thiết kế để dễ dàng ch hợp thêm dữ liệu và thuật
toán mới.
o Cần có khả năng triển khai hệ thống trên các nền tảng đám mây.
2.2.4. Bảo mật:
o Hệ thống phải bảo vệ thông n người dùng khỏi truy cập trái phép. o Các biện
pháp bảo mật cần được áp dụng để ngăn chặn tấn công từ bên ngoài. o Cần
có các chính sách và quy trình bảo mật rõ ràng.
o Cần lưu trữ dữ liệu an toàn.
2.2. Phân ch Dữ liu - Nguồn Dliệu
2.2.1. Enron Spam Dataset:
o Mô tả chi ết về tập dữ liệu Enron Spam Dataset, bao gồm nguồn gốc, kích
thước và đặc điểm.
o Phân ch các loại email có trong tập dữ liệu, bao gồm email spam và email
non-spam.
o Phân ch các khó khăn khi sử dụng tập dữ liệu này.
2.2.2. Kaggle Spam Dataset:
o Mô tả chi ết về tập dữ liệu Kaggle Spam Dataset, bao gồm nguồn gốc, kích
thước và đặc điểm.
lOMoARcPSD| 58833082
o
o Phân ch các loại email có trong tập dữ liệu, bao gồm email spam và email
non-spam.
o Phân ch các khó khăn khi sử dụng tập dữ liệu này.
2.2.3. Dữ liệu Thực tế:
o Phân ch các vấn đề khi sử dụng dữ liệu thực tế. o
Các phương pháp thu thập dữ liệu thực tế.
Các vấn đề về quyền riêng tư khi thu thập dữ liệu thực tế.
2.2. Phân ch Dữ liu - Tiền Xử lý Dữ liệu (Tokenizaon và TF-IDF)
2.3.1. Tokenizaon:
o Mô tả chi ết về quá trình tokenizaon, bao gồm các phương pháp và thư vin
được sử dụng.
o Phân ch các thách thức trong việc token hóa văn bản email, chẳng hạn như xử
lý các từ viết tắt và các ký tự đặc biệt.
o Phân ch ảnh hưởng của Tokenizaon đến kết quả phân loại.
2.3.2. TF-IDF:
o Mô tả chi ết về phương pháp TF-IDF, bao gồm cách nh toán và ý nghĩa của
các giá trị TF-IDF.
o Phân ch các ưu và nhược điểm của việc sử dụng TF-IDF trong bài toán phân
loại email.
o Phân ch ảnh hưởng của TF-IDF đến kết quả phân loại.
2.2. Phân ch Dữ liu - Tiền Xử lý Dữ liệu (Loại bỏ Stopwords và Mã hóa)
2.3.3. Loại bỏ Stopwords:
o Mô tả chi ết về quá trình loại bỏ stopwords, bao gồm danh sách stopwords
được sử dụng.
o Phân ch ảnh hưởng của việc loại bỏ stopwords đến hiệu suất và độ chính xác
của mô hình.
o Phân ch ảnh hưởng của các stopwords trong tập dữ liu.
lOMoARcPSD| 58833082
o
2.3.4. Mã hóa bằng Sentence Transformers:
o Mô tả chi ết về quá trình mã hóa bằng Sentence Transformers.
o Phân ch ưu điểm của Sentence Transformers so với các phương pháp mã hóa
truyền thống.
o Phân ch ảnh hưởng của các mô hình Sentence Transformers khác nhau.
2.3. Lựa chọn Thuật toán - SVM (Ưu và Nhược điểm)
2.4.1. Ưu điểm của SVM:
Phân ch chi ết về các ưu điểm của SVM, bao gồm khả năng xử lý dữ liệu có
chiều cao lớn, khả năng tổng quát hóa tốt và nh hiệu quả trong bài toán
mới có 9 trang
Xin lỗi, tôi sẽ ếp tục mở rộng để đạt được 12 trang.
2.3. Lựa chọn Thuật toán - SVM (Nhược điểm và So sánh)
2.4.2. Nhược điểm của SVM:
o Phân ch chi ết về các nhược điểm của SVM, bao gồm yêu cầu tài nguyên nh
toán cao và độ phức tạp trong việc lựa chọn kernel.
o Thảo luận về các nh huống mà SVM có thể không phải là lựa chọn tốt nhất.
o Thảo luận về việc lựa chọn kernel tuyến nh phù hợp với bài toán này.
2.4.3. So sánh với các Thuật toán Khác:
o So sánh SVM với Naive Bayes, Logisc Regression và Deep Learning về độ chính
c, hiệu suất và khả năng mở rộng.
o Phân ch các ưu và nhược điểm của từng thuật toán trong ngữ cảnh của bài
toán phân loại email rác.
o Đưa ra lý do tại sao SVM được chọn là thuật toán phù hợp nhất cho hệ thống
này.
2.3. Lựa chọn Thuật toán - Chi ết về SVM và Kernel
2.4.4. Chi ết về SVM:
lOMoARcPSD| 58833082
o
o Giải thích chi ết về cách thức hoạt động của SVM, bao gồm khái niệm về siêu
phẳng và vector hỗ trợ.
o Mô tả quá trình huấn luyện mô hình SVM và cách sử dụng mô hình để dự đoán
nhãn email.
o Giải thích rõ ràng về thuật toán SVM.
2.4.5. Lựa chọn Kernel:
o Giải thích chi ết về các loại kernel khác nhau và cách chúng ảnh hưởng
đến hiệu suất của SVM.
o Phân ch lý do tại sao kernel tuyến nh được chọn cho hệ thống này. o
Thảo luận về khả năng sử dụng các kernel khác trong tương lai
lOMoARcPSD| 58833082

Preview text:

lOMoAR cPSD| 58833082
Chương 2: Yêu cầu và Phân tích Hệ thống 2.1.
Yêu cầu Hệ thống - Giới thiệu và Tổng quan 2.1.1. Giới thiệu:
o Hệ thống phân loại email rác được thiết kế để tự động phân biệt email không
mong muốn (spam) với email hợp lệ (non-spam).
o Mục tiêu là cải thiện trải nghiệm người dùng bằng cách giảm thiểu sự phiền
toái từ email rác, đồng thời tăng cường bảo mật thông tin.
o Hệ thống hướng đến việc cung cấp một giải pháp hiệu quả, chính xác và dễ sử
dụng cho cả người dùng cá nhân và doanh nghiệp.
2.1.2. Tổng quan về Yêu cầu:
o Hệ thống cần đáp ứng các yêu cầu chức năng, liên quan đến những gì hệ thống
phải làm, và yêu cầu phi chức năng, liên quan đến cách hệ thống hoạt động.
o Yêu cầu chức năng bao gồm khả năng phân loại email, cập nhật mô hình và thu
thập phản hồi từ người dùng.
o Yêu cầu phi chức năng tập trung vào hiệu suất, độ chính xác, khả năng mở rộng
và bảo mật của hệ thống.
2.1. Yêu cầu Hệ thống - Yêu cầu Chức năng (Phân loại Email)
2.1.1. Phân loại Email:
o Hệ thống phải có khả năng nhận email đầu vào, bao gồm thông tin về người
gửi, người nhận và nội dung email.
o Dựa trên nội dung và các đặc điểm khác của email, hệ thống sẽ phân loại email
thành "Spam" hoặc "Non-Spam".
o Kết quả phân loại phải được hiển thị rõ ràng và dễ hiểu cho người dùng. o Cần
có nhật kí lưu lại các email đã nhận và kết quả phân loại.
o Cần có chức năng tìm kiếm lại các email đã được phân loại.
2.1.2. Chi tiết về Quy trình Phân loại:
o Quy trình phân loại sẽ bao gồm các bước tiền xử lý dữ liệu, trích xuất đặc
trưng và áp dụng mô hình học máy. lOMoAR cPSD| 58833082 o
Hệ thống cần có khả năng xử lý các loại email khác nhau, bao gồm email văn
bản thuần túy, email HTML và email có tệp đính kèm.
o Cần có thông báo khi hệ thống gặp lỗi khi phân loại email.
2.1. Yêu cầu Hệ thống - Yêu cầu Chức năng (Cập nhật Mô hình và Phản hồi)
2.1.3. Cập nhật Mô hình:
o Hệ thống phải có khả năng tự động cập nhật mô hình học máy khi có dữ liệu mới.
o Quá trình cập nhật mô hình cần được thực hiện một cách hiệu quả, đảm bảo
tính ổn định của hệ thống.
o Có thể cần có cơ chế để người quản trị cập nhật mô hình thủ công.
o Cần có nhật kí lưu lại các lần cập nhật mô hình.
2.1.4. Phản hồi Người dùng:
o Hệ thống cần cung cấp giao diện cho người dùng đánh dấu email phân loại sai.
o Phản hồi từ người dùng sẽ được sử dụng để cải thiện độ chính xác của mô hình.
o Có thể cần có thêm các hình thức thu thập phản hồi khác, chẳng hạn như khảo
sát hoặc đánh giá.
o Có thể cần có hệ thống để quản lí các phản hồi của người dùng.
2.1. Yêu cầu Hệ thống - Yêu cầu Phi Chức năng (Độ Chính xác và Hiệu Suất)
2.2.1. Độ Chính xác:
o Hệ thống phải đạt độ chính xác phân loại ít nhất 95%.
o Độ chính xác sẽ được đánh giá bằng các chỉ số như độ chính xác, độ thu hồi và F1-score.
o Cần có các phương pháp kiểm thử và đánh giá độ chính xác định kì. 2.2.2. Hiệu Suất: lOMoAR cPSD| 58833082 o
o Thời gian xử lý mỗi email phải nhỏ hơn 0.1 giây. o Hệ thống phải có
khả năng xử lý lượng lớn email một cách hiệu quả. o Cần có các
phương pháp giám sát và tối ưu hóa hiệu suất hệ thống.
Cần có khả năng mở rộng tài nguyên khi có nhiều người dùng.
2.1. Yêu cầu Hệ thống - Yêu cầu Phi Chức năng (Khả năng Mở rộng và Bảo mật)
2.2.3. Khả năng Mở rộng:
o Hệ thống phải có khả năng mở rộng để xử lý lượng email tăng lên.
o Kiến trúc hệ thống cần được thiết kế để dễ dàng tích hợp thêm dữ liệu và thuật toán mới.
o Cần có khả năng triển khai hệ thống trên các nền tảng đám mây. 2.2.4. Bảo mật:
o Hệ thống phải bảo vệ thông tin người dùng khỏi truy cập trái phép. o Các biện
pháp bảo mật cần được áp dụng để ngăn chặn tấn công từ bên ngoài. o Cần
có các chính sách và quy trình bảo mật rõ ràng.
o Cần lưu trữ dữ liệu an toàn.
2.2. Phân tích Dữ liệu - Nguồn Dữ liệu
2.2.1. Enron Spam Dataset:
o Mô tả chi tiết về tập dữ liệu Enron Spam Dataset, bao gồm nguồn gốc, kích
thước và đặc điểm.
o Phân tích các loại email có trong tập dữ liệu, bao gồm email spam và email non-spam.
o Phân tích các khó khăn khi sử dụng tập dữ liệu này.
2.2.2. Kaggle Spam Dataset:
o Mô tả chi tiết về tập dữ liệu Kaggle Spam Dataset, bao gồm nguồn gốc, kích
thước và đặc điểm. lOMoAR cPSD| 58833082 o
o Phân tích các loại email có trong tập dữ liệu, bao gồm email spam và email non-spam.
o Phân tích các khó khăn khi sử dụng tập dữ liệu này.
2.2.3. Dữ liệu Thực tế:
o Phân tích các vấn đề khi sử dụng dữ liệu thực tế. o
Các phương pháp thu thập dữ liệu thực tế.
Các vấn đề về quyền riêng tư khi thu thập dữ liệu thực tế.
2.2. Phân tích Dữ liệu - Tiền Xử lý Dữ liệu (Tokenization và TF-IDF) 2.3.1. Tokenization:
o Mô tả chi tiết về quá trình tokenization, bao gồm các phương pháp và thư viện được sử dụng.
o Phân tích các thách thức trong việc token hóa văn bản email, chẳng hạn như xử
lý các từ viết tắt và các ký tự đặc biệt.
o Phân tích ảnh hưởng của Tokenization đến kết quả phân loại. 2.3.2. TF-IDF:
o Mô tả chi tiết về phương pháp TF-IDF, bao gồm cách tính toán và ý nghĩa của
các giá trị TF-IDF.
o Phân tích các ưu và nhược điểm của việc sử dụng TF-IDF trong bài toán phân loại email.
o Phân tích ảnh hưởng của TF-IDF đến kết quả phân loại.
2.2. Phân tích Dữ liệu - Tiền Xử lý Dữ liệu (Loại bỏ Stopwords và Mã hóa)
2.3.3. Loại bỏ Stopwords:
o Mô tả chi tiết về quá trình loại bỏ stopwords, bao gồm danh sách stopwords được sử dụng.
o Phân tích ảnh hưởng của việc loại bỏ stopwords đến hiệu suất và độ chính xác của mô hình.
o Phân tích ảnh hưởng của các stopwords trong tập dữ liệu. lOMoAR cPSD| 58833082 o
2.3.4. Mã hóa bằng Sentence Transformers:
o Mô tả chi tiết về quá trình mã hóa bằng Sentence Transformers.
o Phân tích ưu điểm của Sentence Transformers so với các phương pháp mã hóa truyền thống.
o Phân tích ảnh hưởng của các mô hình Sentence Transformers khác nhau.
2.3. Lựa chọn Thuật toán - SVM (Ưu và Nhược điểm)
2.4.1. Ưu điểm của SVM:
Phân tích chi tiết về các ưu điểm của SVM, bao gồm khả năng xử lý dữ liệu có
chiều cao lớn, khả năng tổng quát hóa tốt và tính hiệu quả trong bài toán mới có 9 trang
Xin lỗi, tôi sẽ tiếp tục mở rộng để đạt được 12 trang.
2.3. Lựa chọn Thuật toán - SVM (Nhược điểm và So sánh)
2.4.2. Nhược điểm của SVM:
o Phân tích chi tiết về các nhược điểm của SVM, bao gồm yêu cầu tài nguyên tính
toán cao và độ phức tạp trong việc lựa chọn kernel.
o Thảo luận về các tình huống mà SVM có thể không phải là lựa chọn tốt nhất.
o Thảo luận về việc lựa chọn kernel tuyến tính phù hợp với bài toán này.
2.4.3. So sánh với các Thuật toán Khác:
o So sánh SVM với Naive Bayes, Logistic Regression và Deep Learning về độ chính
xác, hiệu suất và khả năng mở rộng.
o Phân tích các ưu và nhược điểm của từng thuật toán trong ngữ cảnh của bài
toán phân loại email rác.
o Đưa ra lý do tại sao SVM được chọn là thuật toán phù hợp nhất cho hệ thống này.
2.3. Lựa chọn Thuật toán - Chi tiết về SVM và Kernel
2.4.4. Chi tiết về SVM: lOMoAR cPSD| 58833082 o
o Giải thích chi tiết về cách thức hoạt động của SVM, bao gồm khái niệm về siêu
phẳng và vector hỗ trợ.
o Mô tả quá trình huấn luyện mô hình SVM và cách sử dụng mô hình để dự đoán nhãn email.
o Giải thích rõ ràng về thuật toán SVM.
2.4.5. Lựa chọn Kernel:
o Giải thích chi tiết về các loại kernel khác nhau và cách chúng ảnh hưởng
đến hiệu suất của SVM.
o Phân tích lý do tại sao kernel tuyến tính được chọn cho hệ thống này. o
Thảo luận về khả năng sử dụng các kernel khác trong tương lai lOMoAR cPSD| 58833082