






Preview text:
TRƯỜNG ĐẠI HỌC QUY NHƠN KHOA CÔNG NGHỆ THÔNG TIN BÁO CÁO TIỂU LUẬN
HỌC PHẦN: XỬ LÝ NGÔN NGỮ TỰ NHIÊN
CHỦ ĐỀ: Text Representation and Embedding Techniques in NLP (phần 2)
Giảng viên hướng dẫn: TS. LÊ QUANG HÙNG
Lớp học phần: 251105035601
Sinh viên thực hiện: PHAN KHẮC LẬP
Mã sinh viên: 4654100006
Ngành và khóa: TRÍ TUỆ NHÂN TẠO K46
Bình Định, Tháng 2 năm 2025 LỜI CẢM ƠN
Kính gửi Thầy - Tiến sĩ Lê Quang Hùng,
Em xin được bày tỏ lòng biết ơn sâu sắc và trân trọng nhất đối với Thầy vì những kiến thức, kinh
nghiệm cũng như tâm huyết mà Thầy đã chia sẻ trong suốt quá trình giảng dạy môn Xử lý Ngôn ngữ Tự nhiên.
Trong mỗi bài giảng, Thầy không chỉ truyền đạt những kiến thức chuyên sâu mà còn khéo léo kết nối
lý thuyết với thực tiễn, mở ra cho em một chân trời mới đầy thú vị và tiềm năng. Sự tận tâm và nhiệt
huyết của Thầy đã tiếp thêm cho em niềm tin và động lực để vượt qua những khó khăn ban đầu, tự tin
tiến bước trên hành trình chinh phục tri thức.
Những lời khuyên chân thành và chia sẻ cẩn trọng của Thầy không chỉ giúp em hiểu sâu hơn về bản
chất của ngôn ngữ và công nghệ, mà còn mở rộng tầm nhìn, giúp em nhận ra giá trị của sự kiên trì và
đam mê trong học tập. Em luôn trân trọng từng giờ giảng, từng lời nhắn nhủ của Thầy như những viên
ngọc quý mà em may mắn được đón nhận.
Em vô cùng cảm kích trước phong cách giảng dạy đầy cảm hứng của Thầy, khi mỗi bài học không chỉ
là kiến thức thuần túy mà còn là bài học quý giá về cuộc sống, về cách đối mặt và vượt qua thử thách.
Thầy luôn tận tình giải đáp mọi thắc mắc, tạo điều kiện cho em được tự do trao đổi và phát triển bản thân.
Em xin chúc Thầy luôn mạnh khỏe, hạnh phúc và tiếp tục đạt được nhiều thành tựu rực rỡ trong sự
nghiệp giảng dạy cũng như nghiên cứu. Em hy vọng sẽ có thêm nhiều cơ hội được học hỏi và đồng
hành cùng Thầy trên con đường tri thức, để ngày càng trưởng thành và góp phần vào sự phát triển của cộng đồng khoa học.
Một lần nữa, em xin chân thành cảm ơn Thầy vì tất cả những gì Thầy đã cống hiến, dạy dỗ và truyền
cảm hứng cho em. Em mãi mãi trân trọng và ghi nhớ công ơn của Thầy. Trân trọng, [Phan Khắc Lập] 1 NỘI DUNG Catalog
LỜI CẢM ƠN. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .1
NỘI DUNG. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 2
Giới thiệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 3
I. Fggfgfg. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Error! Bookmark not defined.
II. hgj. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .Error! Bookmark not defined. 2 Giới thiệu
Trong lĩnh vực Xử lý ngôn ngữ tự nhiên (NLP – Natural Language Processing), một trong những bước
nền tảng quan trọng nhất là biểu diễn văn bản (Text Representation). Đây là quá trình chuyển đổi dữ liệu
ngôn ngữ, vốn có dạng văn bản, thành dạng số (vector) để máy tính có thể xử lý và học được.
Các kỹ thuật nhúng (Embedding Techniques) là thế hệ phát triển cao hơn của biểu diễn văn bản, cho
phép mô hình học được ngữ nghĩa và mối quan hệ giữa các từ trong không gian vector liên tục. Nhờ đó,
những từ có ý nghĩa tương tự sẽ được biểu diễn gần nhau, giúp mô hình hiểu sâu hơn về ngữ cảnh và ngữ nghĩa.
Từ các phương pháp biểu diễn rời rạc truyền thống như One-Hot Encoding, Bag of Words, TF-IDF, đến
các phương pháp nhúng hiện đại như Word2Vec, GloVe, và BERT, kỹ thuật biểu diễn văn bản đã đóng
vai trò cốt lõi trong việc phát triển các ứng dụng NLP như phân loại văn bản, phân tích cảm xúc, tìm
kiếm thông tin, và dịch máy.
Vì vậy, việc khảo sát và so sánh các kỹ thuật biểu diễn và nhúng văn bản là cần thiết nhằm hiểu rõ hơn
sự tiến hóa của NLP từ các phương pháp thống kê cơ bản đến các mô hình học sâu hiện đại. I. Word2Vec a. Tổng quan
Word2Vec (Mikolov et al., 2013 – Google) là mô hình biểu diễn từ thành vector số sao cho các từ
có ngữ nghĩa hoặc cú pháp tương tự nằm gần nhau trong không gian vector.
Khác với One-Hot Encoding hay TF-IDF, Word2Vec tự học ngữ nghĩa từ dữ liệu thô, không cần luật hay gán nhãn.
b. Nguyên lý hoạt động
Dựa trên Giả thuyết phân bố ngữ nghĩa (Distributional Hypothesis):
“Các từ có nghĩa tương tự thường xuất hiện trong cùng ngữ cảnh.”
→ Word2Vec học vector sao cho từ có ngữ cảnh giống nhau có vector gần nhau. Có hai cách học:
CBOW: dự đoán từ trung tâm dựa vào các từ ngữ cảnh.
Skip-gram: dự đoán ngữ cảnh dựa vào từ trung tâm.
c. Cấu trúc mô hình
CBOW:Ýtưởng:Nếu biếtcáctừ xungquanh, ta có thểđoántừ ởgiữalà gì
Input: Các từ ngữ cảnh xung quanh.
Output: Từ trung tâm cần dự đoán. 3 Ví dụ:
Câu: “The cat sits on the mat.”
Với cửa sổ ngữ cảnh (window size = 2), từ trung tâm là “sits”.
Ngữ cảnh: [“The”, “cat”, “on”, “the”] → mô hình dự đoán “sits”. Skip-gram:
Ý tưởng : Biết một từ → đoán các từ thường xuất hiện xung quanh nó.
Input: Một từ trung tâm.
Output: Các từ ngữ cảnh xung quanh. Ví dụ:
Input: “sits” → Mô hình dự đoán [“The”, “cat”, “on”, “the”, “mat”]. d. Chương trình demo
Chuẩn bị dữ liệu: Huấn luyện mô hình: 4 Kết quả: II. III. jhgjhj 5
Document Outline
- LỜI CẢM ƠN
- NỘI DUNG
- Giới thiệu
- I.Word2Vec
- a.Tổng quan
- b.Nguyên lý hoạt động
- c.Cấu trúc mô hình
- CBOW:
- Ý tưởng: Nếu biết các từ xung quanh, ta có thể đo
- Skip-gram:
- Ý tưởng : Biết một từ → đoán các từ thường xuất h
- d.Chương trình demo
- Chuẩn bị dữ liệu:
- Huấn luyện mô hình:
- Kết quả:
- III.jhgjhj