Slide bài giảng môn Phân tích dữ liệu lớn về nội dung "Phân cụm dữ liệu lớn"

Slide bài giảng môn Phân tích dữ liệu lớn về nội dung "Phân cụm dữ liệu lớn" của Đại học Ngân hàng Thành phố Hồ Chí Minh với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học vào thực tiễn cuộc sống. Mời bạn đọc đón xem!

Thông tin:
17 trang 11 tháng trước

Bình luận

Vui lòng đăng nhập hoặc đăng ký để gửi bình luận.

Slide bài giảng môn Phân tích dữ liệu lớn về nội dung "Phân cụm dữ liệu lớn"

Slide bài giảng môn Phân tích dữ liệu lớn về nội dung "Phân cụm dữ liệu lớn" của Đại học Ngân hàng Thành phố Hồ Chí Minh với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học vào thực tiễn cuộc sống. Mời bạn đọc đón xem!

96 48 lượt tải Tải xuống
lOMoARcPSD|36667950
1
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Gii thiu
Mô t d liu
Hàm mt mát và bài toán tối ưu
Mô t bài toán
Ưu iểm, nhược
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
2
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Gii thiu
Mt trong nhng thuật toán cơ bản nht trong hc không giám sát
Phân d liu thành các cm (cluster) khác nhau saocho d liu
trong cùng mt cm có tính cht ging nhau
Không biết nhãn ca tng im d liu
Mt cm có th ược ịnh nghĩa là tập hp các im có vector ặc trưng gần nhau.
Vic tính toán khong cách ph thuc vào tng loi d liu,trong ó khong cách
Euclid ược s dng ph biến nht
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Gii thiu
Đim d liu (mi) gn tâm ca cm nào nht s thuc cm ó
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
3
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Gii thiu
Mc ích
T d liu nh
tâm mi cm và phân
các
Gi nh
Mi
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Mô t d liu
Đầu vào
N ược ghép li thành ma trn X = [x
1
, x , …, x (mi x mt im d liu d
chiu)
K < N là s cm
Đầu ra
Các tâm cm m , m , …, m R và nhãn y
i
= k ca mi im d liu x
i
(k {1..K})
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
4
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Mô t d
liu
Ma trn
nhãn Y R
Nhãn k ca
im d liệu x ược
th hiện dưới
dng mt vector
y
i
R
1×K
, sao cho:
Ví d:
Nếu
Nếu
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Hàm mt mát và bài toán tối ưu
Gi m
k
R
d
tâm ca cm th k. Gi s mt im d liu x
i
ược
phân vào cm k, sai s trong trường hp này là (x
i
m
k
).
Vector sai s này càng gn vi vector không càng tt,hay khong
cách Euclid 𝑥
𝑥
𝑥𝑥 càng nh càng tt
𝑥
𝑥
𝑥𝑥 = 𝑥𝑥𝑥 𝑥
𝑥
𝑥𝑥 = 𝑥
𝑥𝑥
𝑥
𝑥
𝑥𝑥
do x
i
phân vào cm k nên y
ik
=1 y
ij
=0 vi j k
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
i
lOMoARcPSD|36667950
5
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Hàm mt mát và bài toán tối ưu
Vector sai s này càng gn vi vector không càng tt,hay khong
cách Euclid 𝑥
𝑥
𝑥𝑥 càng nh càng tt
𝑥
𝑥
𝑥𝑥 = 𝑥𝑥𝑥 𝑥
𝑥
𝑥𝑥 = 𝑥
𝑥𝑥
𝑥
𝑥
𝑥𝑥
Sai s cho toàn b d liu (hàm mt mát)
1
𝑥 𝑥, 𝑥 = 𝑥
𝑥𝑥
𝑥
𝑥
𝑥𝑥
𝑥
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Hàm mt mát
và bài toán ti
ưu
tha mãn
ng tiếp cn
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
6
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Mô t thut toán
Đầu vào: Ma trn d liu XR
d×N
và s cm cn tìm K<N.
Đầu ra: Ma trn tâm cm MR
K
và ma trn nhãn YR
N×K
.
1. Chn K im bt k trong tp hun luyn làm tâm cm ban u.
2. Phân mi im d liu vào cm có tâm gn nó nht.
3. Nếu vic phân cm d liu vào tng cm c 2 không thay i so vi vòng
lặp trước nó thì dng thut toán.
4. Cp nht tâm cm bng cách ly trung bình cng ca các iểm ã ược gán vào
cụm ó sau bước 2.
5. Quay lại bước 2.
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Ví d
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
Tính khong cách t
lOMoARcPSD|36667950
7
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Ví d
D1=
0
1
3.6
5
c1(1,1)
3.1
2.4
0.5
1.9
c2(11/3,8/3)
A
B
C
D
1
2
4
5
X
1
1
3
4
Y
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
Tính khong cách t
lOMoARcPSD|36667950
8
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Ví d
c 7:
Tính li
tâm
C1 (1.5,1) C2 (4.5,3.5)
c 9:
Nhóm các ối tượng vào nhóm gn nht
D2=
0.5
0.5
3.2
4.6
C1 (1.5,1)
4.3
3.5
0.7
0.7
C2 (4.5, 3.5)
A
B
C
D
1
2
4
5
X
1
1
3
4
Y
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Ví d
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
Tính khong cách t
lOMoARcPSD|36667950
9
THUT TOÁN PHÂN CM K-TRUNG BÌNH
Ưu iểm, nhượcim
Ưu
im
Đơn
gin,
d thc hin
D gii thích kết
qu
Nhưc
im
u im d liu
ngang nhau
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
B PHÂN LOI NAÏVE BAYES
Gii thiu
Mô t bài toán
Điu kin
Ưu iểm, nhược
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
10
B PHÂN LOI NAÏVE BAYES
Gii thiu
Xét các bài toán phân loi vi C nhãn khác nhau.
Xác nh xác sut im d liu x nhãn là c
• p(y = c|x), hoặc viết gn thành p(c|x).
Theo ó, nhãn ca mi im d liu là nhãn có xác sut rơi vào cao
nht
𝑥 = argmax 𝑥(𝑥|𝑥)
{ … }
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
B PHÂN LOI NAÏVE BAYES
Gii thiu
𝑥 = argmax 𝑥(𝑥|𝑥)
{ … }
Quy tc Bayes
𝑥 𝑥 𝑥 𝑥(𝑥)
𝑥 = argmax
{ … } 𝑥(𝑥)
p(x) không ph thuc vào c
𝑥 = argmax 𝑥 𝑥 𝑥 𝑥(𝑥)
{ … }
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
11
B PHÂN LOI NAÏVE BAYES
Gii thiu
𝑥 = argmax 𝑥 𝑥 𝑥 𝑥(𝑥)
{ … }
Nếu tp hun luyn lớn, p(c) ược tính theo phương pháp ước
lượng hp lý cc i (Maximum Likelihood Estimation - MLE)
Ngược li, p(c) ược tính theo phương pháp ước lượng hu
nghim cc i (Maximum a Posteriori Estimation MAP)
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
B PHÂN LOI NAÏVE BAYES
Gii thiu
Gi nh naïve Bayes
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
12
B PHÂN LOI NAÏVE BAYES
Gii thiu
Xét các bài toán phân loi vi C nhãn khác nhau.
Xác nh xác sut im d liu x nhãn là c
p(y = c|x), hoc viết gn thành p(c|x).
Gi nh naïve Bayes
Các thành phn ca biến ngu nhiên x c lp vi nhau khi ã biết c
B phân loi naïve Bayes (NBC)
Phương pháp xác nh nhãn ca d liu da trên gi nh naïve Bayes
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
B PHÂN LOI NAÏVE BAYES
Mô t thut toán
Mi ví d hc x ược biu din bi 2 thành phn:
Mô t ca ví d x = (x
1
, x
2
, …, x
d
), trong ó x
i
R
Nhãn lp c ( C, vi C là tp các nhãn lp ược xác ịnh trước)
c hun luyn
Các phân phi p(c) p(x
i
|c), i=1…d ưc xác nh da vào d liu hun luyn.
c kim tra: nhãn ca mt im d liu mới x ược xác nh bi
𝑥 = argmax 𝑥(𝑥) 𝑥(𝑥𝑥|𝑥)
{ … }
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
13
B PHÂN LOI NAÏVE BAYES
Mô t thut toán
c hun luyn
Các phân phi p(c) p(x
i
|c), i=1…d ược xác nh da vào d liu hun luyn.
c kim tra: nhãn ca mt im d liu mi x ược xác nh bi
𝑥 = argmax 𝑥(𝑥) 𝑥(𝑥𝑥|𝑥)
{ … }
Gii quyết sai s khi d ln và các xác sut nh
Log là hàm ng biến, không thay i kết qu
𝑥 = argmax(log 𝑥 𝑥 + log ( 𝑥(𝑥𝑥|𝑥)))
{ … }
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
B PHÂN LOI NAÏVE BAYES
Mô t thut toán
Cách tính p(x
i
|c) ph thuc loi d liu
• Gaussian naïve Bayes:
S dng trong loi d liu mà thành phn là các biến liên tc
Multinomial naïve Bayes:
S dng trong bài toán phân loại văn bản mà vector ặc trưng ược xây dng dựa trên ý tưởng bag of
words
Bernoulli naïve Bayes:
S dng cho các loi d liu mà mi thành phn là mt giá tr nh phân
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
14
B PHÂN LOI NAÏVE BAYES
Ví d
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
B PHÂN LOI NAÏVE BAYES
d
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
15
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
16
B PHÂN LOI NAÏVE BAYES
Ví d
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
B PHÂN LOI NAÏVE BAYES
Điu kin áp dng
NBC thường ược s dng trong các bài toán phân loại văn bản
NBC th hot ng vi các vector c trưng một phn liên
tc (s dng Gaussian naive Bayes), phn còn li dng ri rc (s
dng multinomial hoc
Bernoulli)
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
17
B PHÂN LOI NAÏVE BAYES
Ưu iểm, nhược im
Ưu im
D dàng nhanh chóng d oán lp ca tp d liu th nghim.
cũng hoạt ng tt trong d oán nhiu lp
Vi gi nh c lp gia các ặc trưng, bộ phân loi Naive Bayes hot ng
tt hơn so với các mô hình khác vi ít d liu hun luyện hơn.
Nhược im
Đ chính xác ca NBC nếu so vi các thuật toán khác thì khôngược cao.
Trong thế gii thc, hầu như không xảy ra kh năng các ặc trưng của d
liu kim tra là c lp vi nhau
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
| 1/17

Preview text:

lOMoARcPSD| 36667950
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Giới thiệu •Mô tả dữ liệu •Hàm mất mát và bài toán tối ưu •Mô tả bài toán •Ưu iểm, nhược
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 1 lOMoARcPSD| 36667950
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Giới thiệu
– Một trong những thuật toán cơ bản nhất trong học không giám sát
– Phân dữ liệu thành các cụm (cluster) khác nhau saocho dữ liệu
trong cùng một cụm có tính chất giống nhau
• Không biết nhãn của từng iểm dữ liệu
• Một cụm có thể ược ịnh nghĩa là tập hợp các iểm có vector ặc trưng gần nhau.
• Việc tính toán khoảng cách phụ thuộc vào từng loại dữ liệu,trong ó khoảng cách
Euclid ược sử dụng phổ biến nhất
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Giới thiệu
Điểm dữ liệu (mới) gần tâm của cụm nào nhất sẽ thuộc cụm ó
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 2 lOMoARcPSD| 36667950
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Giới thiệu – Mục ích • Từ dữ liệu ịnh tâm mỗi cụm và phân các – Giả ịnh • Mỗi
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Mô tả dữ liệu – Đầu vào • N
ược ghép lại thành ma trận X = [x1, x ,
…, x (mỗi x là một iểm dữ liệu d chiều) • K < N là số cụm – Đầu ra
• Các tâm cụm m , m , …, m ∈R và nhãn yi = k của mỗi iểm dữ liệu xi (k {1..K})
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 3 lOMoARcPSD| 36667950
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Mô tả dữ liệu – Ma trận i nhãn Y ∈R • Nhãn k của iểm dữ liệu x ược thể hiện dưới dạng một vector yi∈R1×K, sao cho: • Ví dụ: – Nếu – Nếu
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH
•Hàm mất mát và bài toán tối ưu
– Gọi mk∈Rd là tâm của cụm thứ k. Giả sử một iểm dữ liệu xi ược
phân vào cụm k, sai số trong trường hợp này là (xi−mk).
– Vector sai số này càng gần với vector không càng tốt,hay khoảng
cách Euclid 𝑥𝑥 − 𝑥𝑥 càng nhỏ càng tốt 𝑥𝑥 − 𝑥𝑥
= 𝑥𝑥𝑥 𝑥𝑥 − 𝑥𝑥 =
𝑥𝑥𝑥 𝑥𝑥 − 𝑥𝑥
do xi phân vào cụm k nên yik=1 và yij=0 với j k
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 4 lOMoARcPSD| 36667950
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH
•Hàm mất mát và bài toán tối ưu
– Vector sai số này càng gần với vector không càng tốt,hay khoảng
cách Euclid 𝑥𝑥 − 𝑥𝑥 càng nhỏ càng tốt 𝑥𝑥 − 𝑥𝑥
= 𝑥𝑥𝑥 𝑥𝑥 − 𝑥𝑥 =
𝑥𝑥𝑥 𝑥𝑥 − 𝑥𝑥
– Sai số cho toàn bộ dữ liệu (hàm mất mát) 1 𝑥 𝑥, 𝑥 =
𝑥𝑥𝑥 𝑥𝑥 − 𝑥𝑥 𝑥
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Hàm mất mát và bài toán tối ưu thỏa mãn – Hướng tiếp cận
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 5 lOMoARcPSD| 36667950
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Mô tả thuật toán
– Đầu vào: Ma trận dữ liệu X∈Rd×N và số cụm cần tìm K– Đầu ra: Ma trận tâm cụm M∈Rd×K và ma trận nhãn Y∈RN×K. 1. Chọn K
iểm bất kỳ trong tập huấn luyện làm tâm cụm ban ầu.
2. Phân mỗi iểm dữ liệu vào cụm có tâm gần nó nhất.
3. Nếu việc phân cụm dữ liệu vào từng cụm ở bước 2 không thay ổi so với vòng
lặp trước nó thì dừng thuật toán.
4. Cập nhật tâm cụm bằng cách lấy trung bình cộng của các iểm ã ược gán vào cụm ó sau bước 2. 5. Quay lại bước 2.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Ví dụ Tính khoảng cách từ
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 6 lOMoARcPSD| 36667950
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Ví dụ D1= 0 1 3.6 5 c1(1,1) 3.1 2.4 0.5 1.9 c2(11/3,8/3) A B C D 1 2 4 5 X 1 1 3 4 Y Tính khoảng cách từ
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 7 lOMoARcPSD| 36667950
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Ví dụ
D2= 0.5 0.5 3.2 4.6 C1 (1.5,1) Tính khoảng cách từ 4.3 3.5 0.7 0.7 C2 (4.5, 3.5) A B C D 1 2 4 5 X Bước 7: Tính lại 1 1 3 4 Y tâm C1 (1.5,1) C2 (4.5,3.5) Bước 9:
Nhóm các ối tượng vào nhóm gần nhất
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Ví dụ
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 8 lOMoARcPSD| 36667950
THUẬT TOÁN PHÂN CỤM K-TRUNG BÌNH •Ưu iểm, nhượciểm – Ưu iểm • Đơn giản, dễ thực hiện • Dễ giải thích kết quả – Nhược iểm ầu iểm dữ liệu ngang nhau
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
BỘ PHÂN LOẠI NAÏVE BAYES •Giới thiệu •Mô tả bài toán •Điều kiện •Ưu iểm, nhược
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 9 lOMoARcPSD| 36667950
BỘ PHÂN LOẠI NAÏVE BAYES •Giới thiệu
– Xét các bài toán phân loại với C nhãn khác nhau. – Xác ịnh xác suất ể
iểm dữ liệu x có nhãn là c
• p(y = c|x), hoặc viết gọn thành p(c|x).
– Theo ó, nhãn của mỗi iểm dữ liệu là nhãn có xác suất rơi vào cao nhất 𝑥 = argmax 𝑥(𝑥|𝑥) ∈{ … }
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
BỘ PHÂN LOẠI NAÏVE BAYES •Giới thiệu 𝑥 = argmax 𝑥(𝑥|𝑥) ∈{ … } Quy tắc Bayes 𝑥 𝑥 𝑥 𝑥(𝑥) 𝑥 = argmax ∈{ … } 𝑥(𝑥)
p(x) không phụ thuộc vào c
𝑥 = argmax 𝑥 𝑥 𝑥 𝑥(𝑥) ∈{ … }
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 10 lOMoARcPSD| 36667950
BỘ PHÂN LOẠI NAÏVE BAYES •Giới thiệu
𝑥 = argmax 𝑥 𝑥 𝑥 𝑥(𝑥) ∈{ … }
– Nếu tập huấn luyện lớn, p(c) ược tính theo phương pháp ước
lượng hợp lý cực ại (Maximum Likelihood Estimation - MLE)
– Ngược lại, p(c) ược tính theo phương pháp ước lượng hậu nghiệm cực
ại (Maximum a Posteriori Estimation – MAP)
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
BỘ PHÂN LOẠI NAÏVE BAYES •Giới thiệu Giả ịnh naïve Bayes
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 11 lOMoARcPSD| 36667950
BỘ PHÂN LOẠI NAÏVE BAYES •Giới thiệu
– Xét các bài toán phân loại với C nhãn khác nhau. – Xác ịnh xác suất ể
iểm dữ liệu x có nhãn là c
• p(y = c|x), hoặc viết gọn thành p(c|x). – Giả ịnh naïve Bayes
• Các thành phần của biến ngẫu nhiên x ộc lập với nhau khi ã biết c
– Bộ phân loại naïve Bayes (NBC)
• Phương pháp xác ịnh nhãn của dữ liệu dựa trên giả ịnh naïve Bayes
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
BỘ PHÂN LOẠI NAÏVE BAYES •Mô tả thuật toán – Mỗi ví dụ học x
ược biểu diễn bởi 2 thành phần:
• Mô tả của ví dụ x = (x1, x2, …, xd), trong ó xi R
• Nhãn lớp c ( C, với C là tập các nhãn lớp ược xác ịnh trước) – Bước huấn luyện
• Các phân phối p(c) và p(xi|c), i=1…d ược xác ịnh dựa vào dữ liệu huấn luyện.
– Bước kiểm tra: nhãn của một iểm dữ liệu mới x ược xác ịnh bởi 𝑥 = argmax 𝑥(𝑥) 𝑥(𝑥𝑥|𝑥) ∈{ … }
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 12 lOMoARcPSD| 36667950
BỘ PHÂN LOẠI NAÏVE BAYES • Mô tả thuật toán – Bước huấn luyện
• Các phân phối p(c) và p(xi|c), i=1…d
ược xác ịnh dựa vào dữ liệu huấn luyện.
– Bước kiểm tra: nhãn của một iểm dữ liệu mới x ược xác ịnh bởi 𝑥 = argmax 𝑥(𝑥) 𝑥(𝑥𝑥|𝑥) ∈{ … }
Giải quyết sai số khi d lớn và các xác suất nhỏ
Log là hàm ồng biến, không thay ổi kết quả 𝑥 = argmax(log 𝑥 𝑥 + log ( 𝑥(𝑥𝑥|𝑥))) ∈{ … }
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
BỘ PHÂN LOẠI NAÏVE BAYES •Mô tả thuật toán
– Cách tính p(xi|c) phụ thuộc loại dữ liệu • Gaussian naïve Bayes:
– Sử dụng trong loại dữ liệu mà thành phần là các biến liên tục • Multinomial naïve Bayes: –
Sử dụng trong bài toán phân loại văn bản mà vector ặc trưng ược xây dựng dựa trên ý tưởng bag of words • Bernoulli naïve Bayes: –
Sử dụng cho các loại dữ liệu mà mỗi thành phần là một giá trị nhị phân
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 13 lOMoARcPSD| 36667950
BỘ PHÂN LOẠI NAÏVE BAYES •Ví dụ
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
BỘ PHÂN LOẠI NAÏVE BAYES •Ví dụ
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 14 lOMoARcPSD| 36667950
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 15 lOMoARcPSD| 36667950
BỘ PHÂN LOẠI NAÏVE BAYES •Ví dụ
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
BỘ PHÂN LOẠI NAÏVE BAYES •Điều kiện áp dụng
– NBC thường ược sử dụng trong các bài toán phân loại văn bản
– NBC có thể hoạt ộng với các vector ặc trưng mà một phần là liên
tục (sử dụng Gaussian naive Bayes), phần còn lại ở dạng rời rạc (sử dụng multinomial hoặc Bernoulli)
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 16 lOMoARcPSD| 36667950
BỘ PHÂN LOẠI NAÏVE BAYES •Ưu iểm, nhược iểm – Ưu iểm
• Dễ dàng và nhanh chóng ể dự oán lớp của tập dữ liệu thử nghiệm. Nó
cũng hoạt ộng tốt trong dự oán nhiều lớp
• Với giả ịnh ộc lập giữa các ặc trưng, bộ phân loại Naive Bayes hoạt ộng
tốt hơn so với các mô hình khác với ít dữ liệu huấn luyện hơn. – Nhược iểm
• Độ chính xác của NBC nếu so với các thuật toán khác thì khôngược cao.
• Trong thế giới thực, hầu như không xảy ra khả năng các ặc trưng của dữ
liệu kiểm tra là ộc lập với nhau
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam 17