



Preview text:
lOMoAR cPSD| 58815430
BỘ GIÁO DỤC VÀ ĐÀO TẠO
HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG KHOA CÔNG NGHỆ 2 --- --- MÔN HỌC: IOT
ĐỀ TÀI : Phát hiện Email giả mạo bằng Xử lý ngôn ngữ tự nhiên
Sinh viên thực hiện : Nguyễn Quang Linh - N21DCCN047 Ngô Cao Hy – N21DCCN040
Giảng viên hướng dẫn: Đàm Minh Lịnh
THÀNH PHỐ HỒ CHÍ MINH – NĂM 2024 lOMoAR cPSD| 58815430 LỜI CẢM ƠN
Trong suốt quá trình học tập và thực hiện bài tập lớn, em đã có cơ hội học
hỏi và trưởng thành rất nhiều, không chỉ về mặt kiến thức mà còn cả kỹ năng
và tinh thần trách nhiệm. Để đạt được kết quả như ngày hôm nay, em xin gửi
lời cảm ơn chân thành và sâu sắc nhất đến thầy Đàm Minh Lịnh – người đã
luôn tận tình hướng dẫn, chỉ bảo và tạo điều kiện tốt nhất để em hoàn thành bài báo cáo này.
Những buổi hướng dẫn của thầy không chỉ giúp em nắm vững các kiến thức
chuyên môn mà còn mang đến sự khích lệ lớn lao, là nguồn động lực mạnh mẽ
để em vượt qua những khó khăn trong quá trình thực hiện. Em cảm nhận được
không chỉ là sự chuyển giao kiến thức từ thầy mà còn là sự truyền cảm hứng,
tinh thần trách nhiệm và ý chí phấn đấu không ngừng nghỉ. Chính những bài
học quý giá này đã để lại trong em nhiều bài học về cách học tập và làm việc hiệu quả.
Bên cạnh sự chỉ dạy của thầy, em cũng vô cùng biết ơn sự động viên, khích
lệ từ bạn bè và gia đình. Họ luôn là chỗ dựa tinh thần vững chắc, tiếp thêm
năng lượng để em hoàn thành tốt nhiệm vụ của mình.
Dẫu đã cố gắng hết sức mình, nhưng do giới hạn về kiến thức và kinh
nghiệm, bài báo cáo của em chắc chắn không thể tránh khỏi những thiếu sót.
Em rất mong nhận được sự góp ý và chỉ bảo từ thầy để có thể cải thiện, hoàn
thiện hơn trong các bài tập và công việc sau này. Những lời nhận xét quý báu
từ thầy sẽ là kim chỉ nam để em rút kinh nghiệm và phát triển bản thân tốt hơn.
Cuối cùng, em xin kính chúc thầy luôn dồi dào sức khỏe, hạnh phúc và
thành công hơn nữa trên con đường giảng dạy, để tiếp tục truyền cảm hứng và
kiến thức cho các thế hệ sinh viên. Một lần nữa, em xin trân trọng cảm ơn thầy
vì tất cả những gì thầy đã làm cho chúng em. I.
GIỚI THIỆU ĐỀ TÀI I.1. Tên đề tài
Phát hiện Email giả mạo bằng Xử lý ngôn ngữ tự nhiên
I.2. Lý do chọn đề tài
Sự phát triển mạnh mẽ của công nghệ đã làm thay đổi cách con người giao
tiếp, làm việc và lưu trữ thông tin. Hầu hết các thiết bị thông minh hiện
nay đều được kết nối Internet, và thư điện tử (email) đã trở thành một
phần không thể thiếu trong đời sống hiện đại. Nếu như trước đây, con
người phải dựa vào các phương thức truyền thống như thư viết tay trên
giấy, vận chuyển qua bưu điện – tốn thời gian, chi phí và nhiều rủi ro như
thất lạc hay hư hỏng – thì giờ đây, email mang đến sự tiện lợi vượt bậc.
Email giúp gửi và nhận thông tin gần như ngay lập tức, không cần đến
chi phí vận chuyển, và phù hợp với nhịp sống ngày càng nhanh của xã hội. lOMoAR cPSD| 58815430
Tuy nhiên, bên cạnh những lợi ích to lớn, email cũng tiềm ẩn nhiều rủi ro về
bảo mật. Trong quá trình trao đổi thông tin, kẻ tấn công có thể lợi dụng
các lỗ hổng để chặn, chỉnh sửa hoặc làm lộ dữ liệu quan trọng. Điều này
đặt ra yêu cầu cấp thiết phải áp dụng các biện pháp bảo mật như chữ ký
số, mã hóa dữ liệu, hoặc các công nghệ khác để bảo vệ thông tin.
Đặc biệt, một trong những mối đe dọa nghiêm trọng nhất liên quan đến email
là các chiêu thức lừa đảo qua email (phishing). Kẻ tấn công có thể giả
mạo danh tính của các cá nhân, tổ chức hoặc doanh nghiệp uy tín, tạo ra
những email tinh vi nhằm đánh lừa nạn nhân cung cấp thông tin cá nhân,
tài khoản ngân hàng, hoặc thậm chí chiếm đoạt tài sản. Những hành vi
này không chỉ gây thiệt hại về
tài chính mà còn làm mất lòng tin của người dùng đối với các dịch vụ Internet.
Hiện nay, khi xu hướng làm việc từ xa và các hoạt động trực tuyến trở nên phổ
biến hơn bao giờ hết, tần suất sử dụng email trong công việc và giao tiếp
hàng ngày tiếp tục gia tăng. Điều này không chỉ tạo thuận lợi cho hoạt
động kinh doanh mà còn vô tình mở ra cơ hội cho các hành vi tấn công
mạng. Đặc biệt, kẻ xấu còn lợi dụng các vấn đề thời sự như các chiến
dịch quyên góp, quảng cáo khuyến mãi giả mạo hay các thông tin liên
quan đến bảo hiểm, y tế để lừa đảo người dùng.
Trước những thách thức này, câu hỏi đặt ra là: Làm thế nào để phát hiện, ngăn
chặn hiệu quả các email giả mạo, từ đó đảm bảo an toàn thông tin cho
người dùng? Việc giải quyết bài toán này không chỉ giúp bảo vệ người
dùng mà còn khôi phục lòng tin vào Internet và các công nghệ hiện đại.
I.3. Mục tiêu nghiên cứu
• Phân tích và hiểu rõ về email giả mạo (phishing email):
• Nghiên cứu các đặc điểm, hành vi và phương pháp mà kẻ tấn công
thường sử dụng để tạo ra các email giả mạo.
• Xác định các dấu hiệu nhận diện email giả mạo, bao gồm cấu trúc nội
dung, từ ngữ, cú pháp và các yếu tố khác liên quan đến ngữ cảnh. lOMoAR cPSD| 58815430
• Ứng dụng công nghệ xử lý ngôn ngữ tự nhiên (NLP):
• Khai thác các phương pháp xử lý ngôn ngữ tự nhiên tiên tiến để phân tích
nội dung văn bản của email.
• Sử dụng các mô hình NLP hiện đại như BERT, GPT hoặc các mạng học
sâu khác để phát hiện và phân loại email giả mạo với độ chính xác cao.
• Xây dựng một hệ thống phát hiện email giả mạo:
• Thiết kế và phát triển một mô hình hoặc công cụ tự động có khả năng
phân loại email thành hai nhóm: email hợp lệ và email giả mạo.
• Đảm bảo hệ thống có thể hoạt động hiệu quả trong môi trường thực tế với
dữ liệu đa dạng và phức tạp.
• Đánh giá và tối ưu hóa mô hình:
• Đánh giá hiệu quả của mô hình trên các tập dữ liệu khác nhau, đo lường
các chỉ số như độ chính xác (accuracy), độ nhạy (recall), độ đặc hiệu (precision) và F1-score.
• Tối ưu hóa mô hình để giảm thiểu tỷ lệ sai sót, đặc biệt là lỗi dương tính
giả (false positive) và âm tính giả (false negative).
• Góp phần nâng cao nhận thức và giải pháp bảo mật:
• Cung cấp một giải pháp kỹ thuật giúp người dùng và các tổ chức bảo vệ
mình trước các mối đe dọa từ email giả mạo.
• Tăng cường nhận thức về an ninh mạng thông qua việc giải thích cơ chế
hoạt động của hệ thống và các nguy cơ liên quan đến phishing email.
• Mở rộng hướng nghiên cứu:
• Đề xuất các ứng dụng tiềm năng của công nghệ này trong các lĩnh vực
khác như phát hiện tin giả (fake news), kiểm duyệt nội dung, và bảo mật thông tin.
• Tạo nền tảng cho các nghiên cứu và cải tiến tiếp theo trong việc phát hiện
và ngăn chặn các hình thức lừa đảo qua email và văn bản.