lOMoARcPSD| 59285474
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA
BÀI THỰC HÀNH SỐ 4
:
KHAI THÁC DỮ LIỆU
PHÂN LỚP DỮ LIỆU
CLASSIFICATION
(
)
Lớp
IS252
.M
22
.HTCL
Giảng viên
T
HS. VŨ MINH SANG
TS. CAO THỊ NHẠN
Sinh viên thực hiện
PHAN THÁI
M
19520917
HỒ CHÍ MINH,
0
5
/202
2
lOMoARcPSD| 59285474
2
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN
……………………………….……………………………….…………….………………………….
………………………….………………………….…………………………………………….……
………….……………………………….…………….………………………….……………………
….……………………………….…………….………………………….……………………….…
…………………………….…………….………………………….……………………….…………
…………………….…………….………………………….……………………….…………………
…………….…………….………………………….……………………….…………………………
…….…………….………………………….……………………….……………………………….
…………….………………………….……………………….……………………………….………
…….………………………….……………………….……………………………….…………….
………………………….……………………….……………………………….…………….………
………………….……………………….……………………………….…………….………………
………….……………………….……………………………….…………….………………………
….……………………….……………………………………….…………….………………………
….……………………….……………………………….…………….………………………….…
…………………….……………………………….…………….………………………….…………
…………….……………………………….…………….………………………….…………………
…….……………………………….…………….………………………….……………………….
……………………………….…………….………………………….……………………….………
……………………….…………….………………………….……………………….………………
……………….…………….………………………….……………………….………………………
……….…………….………………………….……………………….………………………………
.…………….………………………….……………………….……………………….…………….
………………………….……………………….……………………………….…………….………
………………….……………………….……………………………….…………….………………
………….……………………….……………………………….…………….………………………
….……………………….……………………………….…………….………………………….…
…….……………………………….…………….…………………...…………….…………………
…….……………………………….………….……………………………….………………………
………………………………….…………….…………………...…………….……………………
….………………………………………….…………….…………………...…………….…………
lOMoARcPSD| 59285474
MỤC LỤC
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN ............................................................... 2
MỤC LỤC ............................................................................................................................... 3
THỰC HÀNH ......................................................................................................................... 5
Câu 1: .................................................................................................................................. 5
c) Tính giá trị chỉ số Gini (gini index) của các thuộc tính và vẽ cây quyết định theo
thuật toán ID3 cho dữ liệu trên. .................................................................................... 5
* Tính chỉ số Gini (gini index) ................................................................................ 5
* Vẽ cây quyết định ............................................................................................... 11
d) Sử dụng một trong hai cây quyết định ở trên để tiên đoán giá trị Doanh số bán của
những sản phẩm sau: ...................................................................................................
11
e) Doanh số bán trên thực tế của các sản phẩm Yêu cầu d lần ợt là Thấp, Thấp,
Cao. Hãy lập ma trận nhầm lẫn, sau đó tính giá trị độ chính xác, đphủ của
hình/
cây đã xây dựng. ......................................................................................................... 11
f) Xác suất không điều kiện của giá trị “Xếp hình” trong tập dữ liệu là bao nhiêu? .. 12
g) Khi doanh số bán là “Thấp”, hãy tính xác suất đó là những sản phẩm có chất liệu
“Cao su”. .................................................................................................................
12
h) Dựa theo định lý Bayes, hãy viết công thức tính xác suất Doanh số “Cao” của
những sản phẩm thuộc loại “Điều khiển”. .................................................................. 12
i) Sử dụng thuật toán Naïve Bayes và làm trơn Laplace để dự đoán giá trị Doanh số
bán của những sản phẩm trong Yêu cầu d. ................................................................. 12
* Với hồ sơ đầu tiên: X = {Loại = Búp bê, Số màu = 3, Kích thước = To, Chất
liệu = Cao su} ........................................................................................................
12
* Với hồ sơ thứ hai: X = {Loại = Xếp hình, Số màu = 5, Kích thước = To, Chất
liệu = Nhựa PP} .....................................................................................................
13
* Với hồ sơ thứ ba: X = {Loại = Điều khiển, Số màu = 3, Kích thước = Vừa, Chất
liệu = Cao su} ........................................................................................................
14
lOMoARcPSD| 59285474
4
j) Với kết quả thu được và doanh số trên thực tế (Yêu cầu e), hãy lập ma trận nhầm
lẫn, sau đó tính giá trị độ chính xác, độ phủ của thuật toán. ....................................... 15
k) So sánh kết quả từ thuật toán cây quyết định và Naïve Bayes. .............................. 16
l) Sản phẩm mới của doanh nghiệp dự định tung ra thị trường có thông tin như sau: 16
* Decision Tree ..................................................................................................... 16
* Naïve Bayes ........................................................................................................
16
Câu 5: ................................................................................................................................ 18
a) Nhập dữ liệu đầu vào và tiến hành tiền xử lý xoá các dòng dữ liệu trống, sửa
tên các cột dữ liệu lại như sau để dễ theo dõi. ............................................................ 18
1. Import thư viện: .................................................................................................
18
2. Import file CSV: ................................................................................................ 18
3. Tiền xử dữ liệu: ............................................................................................. 19
b) Thực hiện lại từ yêu cầu 3 trở đi trong phần Yêu cầu lập trình, áp dụng với dữ
liệu trên. Lưu ý, thuộc tính quyết định là ‘target’. ......................................................
19 Yêu cầu 3: Khảo sát sự tương đồng giữa các cột bằng công thức
Pearson. .......... 19 Yêu cầu 4: Chuyển đổi các cột không phải dạng số về dạng one
– hot vector để
phù hợp với đầu vào của thư viện. ........................................................................ 20
Yêu cầu 5: Tách dữ liệu thành hai phần, một phần chứa các thuộc tính bình
thường, một phần chứa thuộc tính quyết định ....................................................... 20
Yêu cầu 6: Tách các dòng dữ liệu ra thành hai phần huấn luyện và kiểm thử như
ban đầu. Tiến hành tách dữ liệu huấn luyện và kiểm thử như thông tin thu được
ban đầu. 21
Yêu cầu 7: Xây dựng cây ID3 dựa trên dữ liệu huấn luyện sau đó tiến hành kiểm
thử kết quả của cây bằng ma trận nhầm lẫn. Biểu diễn cây vào trong kết quả
thực hiện. ...............................................................................................................
21 Yêu cầu 8: (Lặp lại yêu cầu 7 đối với cây CART). ...............................................
23 Yêu cầu 9: Xây dựng hình phân lớp bằng thuật toán Naïve Bayes kiểm
tra
kết quả đạt được. ................................................................................................... 25
lOMoARcPSD| 59285474
Yêu cầu 10: Dựa vào thông tin đã thu được, nhận xét, so sánh kết quả của các mô
hình trên. ................................................................................................................
26 TÀI LIỆU THAM KHẢO ...................................................................................................
28
THỰC HÀNH
Câu 1:
Một doanh nghiệp sản xuất đồ chơi cho trẻ em muốn dự đoán doanh số của các sản phẩm sắp
đưa ra thị trường, họ thu thập những dữ liệu dưới đây:
Loại
Số màu
Kích thước
Chất liệu
Doanh số bán
Điều khiển
3
Nhỏ
Nhựa PP
Cao
Xếp hình
5
Vừa
Cao su
Thấp
Xếp hình
7
To
Nhựa PP
Thấp
Điều khiển
5
Nhỏ
Cao su
Thấp
Búp bê
3
Vừa
Nhựa PP
Thấp
Điều khiển
5
Vừa
Nhựa PP
Cao
Búp bê
5
To
Nhựa PP
Cao
Điều khiển
7
Vừa
Cao su
Thấp
Xếp hình
7
To
Cao su
Cao
Xếp hình
3
To
Nhựa PP
Thấp
Búp bê
3
Nhỏ
Cao su
Thấp
Xếp hình
3
Nhỏ
Nhựa PP
Cao
Điều khiển
5
To
Cao su
Thấp
Búp bê
5
Vừa
Nhựa PP
Cao
Búp bê
7
To
Nhựa PP
Cao
c) Tính giá trị chỉ số Gini (gini index) của các thuộc tính vẽ cây quyết định theo
thuật toán ID3 cho dữ liệu trên.
lOMoARcPSD| 59285474
6
* Tính chỉ số Gini (gini index)
Ta tính chỉ số Gini của lần lượt từng thuộc tính để tìm ra thuộc tính phân nhánh có lợi nhất.
Xét thuộc tính Loại, ta có:
**
Gini(S
Đ"ề$ &’"ể)
) = 1 − *- − *- = 0,48
**
Gini4S
+ế- ’ì)’
5 = 1 − *- − *- = 0,48
**
Gini4S
-
5 = 1 − *- − *- = 0,48
Gini
34ạ"
(S) = . 0,48 + . 0,48 + . 0,48 = 0,48
Xét thuộc tính Số màu, ta có:
**
Gini(S
6
) = 1 − *- − *- = 0,48
**
Gini(S
7
) = 1 − *- − *- = 0,5
**
Gini(S
8
) = 1 − *- − *- = 0,5
Gini
9ố ;à$
(S) = . 0,48 + . 0,5 + . 0,5 = 0,49
Xét thuộc tính Kích thước, ta có:
**
Gini(S
=’
) = 1 − *- − *- = 0,5
**
Gini(S
?ừA
) = 1 − *- − *- = 0,48
**
Gini(S
B4
) = 1 − *- − *- = 0,5
Gini
CíE’ F’ướE
(S) = . 0,5 + . 0,48 + . 0,5 = 0,49
Xét thuộc tính Chất liệu, ta có:
**
Gini4S
=’ựA JJ
5 = 1 − *- − *- = 0,44
**
Gini(S
KA4 L$
) = 1 − *- − *- = 0,28
lOMoARcPSD| 59285474
Gini
K’ấF N"ệ$
(S) = . 0,44 + . 0,48 = 0,38
Trong 4 thuộc tính ta xét, thuộc tính Chất liệuchỉ số Gini nhỏ nhất. Do đó, ta chọn thuộc
tính này làm phép chia nhánh cho cây tại nút gốc.
Trường hợp 1: Nhánh chất liệu = “Nhựa PP
Xét thuộc tính Loại, nhánh chất liệu = “Nhựa PP”:
**
Gini4SĐ"ề$ &’"ể)|S=’ựA JJ5 = 1 − *- − *- = 0
**
Gini4S+ế- ’ì)’|S=’ựA JJ5 = 1 − *- − *- = 0,44
**
Gini4S- |S=’ựA JJ5 = 1 − *- − *- = 0,38
Gini
34ạ"
4S
=’ựA JJ
5 = . 0 + . 0,44 + . 0,38 = 0,31
Xét thuộc tính Số màu, nhánh chất liệu = “Nhựa PP”:
**
Gini4S6|S=’ựA JJ5 = 1 − *- − *- = 0,5
**
Gini4S7|S=’ựA JJ5 = 1 − *- − *- = 0
**
Gini4S8|S=’ựA JJ5 = 1 − *- − *- = 0,5
Gini
9ố ;à$
4S
=’ựA JJ
5 = . 0,5 + . 0 + . 0,5 = 0,33
Xét thuộc tính Kích thước, nhánh chất liệu = “Nhựa PP”:
**
Gini4S
=’
|S
=’ựA JJ
5 = 1 − *- *- = 0
**
Gini4S
?ừA
|S
=’ựA JJ
5 = 1 − *- *- = 0,44
**
Gini4S
B4
|S
=’ựA JJ
5 = 1 − *- − *- = 0,5
Gini
9ố ;à$
4S
=’ựA JJ
5 = . 0 + . 0,44 + . 0,5 = 0,37
Ta thấy đối với nhánh Chất liệu = “Nhựa PP”, thuộc tính Loại có chỉ số Gini nhỏ nhất nên ta
lấy thuộc tính này tiếp tục phân nhánh.
lOMoARcPSD| 59285474
8
Trường hợp 1.1: Nhánh chất liệu = “Nhựa PP” và loại = “Điều khiển”
Nhánh này luôn có phân lớp Doanh số bán = “Cao”, vì vậy, nhánh này nút lá không cần xét
tiếp.
Trường hợp 1.2: Nhánh chất liệu = “Nhựa PP” và loại = “Xếp hình”
Xét thuộc tính Số màu, nhánh chất liệu = “Nhựa PP” và loại = “Xếp hình”:
**
Gini4S6|S=’A JJ,+ế- ì)’5 = 1 − *- − *- = 0,5
**
Gini4S8|S=’A JJ,+ế- ì)’5 = 1 − *- − *- = 0
Gini
9
;à$4S
=
’ựA JJ,+ế- ’ì)’5 = . 0,5 + . 0 = 0,33
Xét thuộc tính Kích thước, nhánh chất liệu = “Nhựa PP” và loại = “Xếp hình”:
**
Gini4S=’|S=’ựA JJ,+ế- ’ì)’5 = 1 − *- − *- = 0
**
Gini4SB4|S=’ựA JJ,+ế- ’ì)’5 = 1 − *- − *- = 0
GiniCíE’ F’ướE4S=’ựA JJ,+ế- ’ì)’5 = . 0 + . 0 = 0
Ta thấy đối với nhánh Chất liệu = “Nhựa PP” và loại = “Xếp hình”, thuộc tính Kích thước có
chỉ số Gini nhỏ nhất nên ta lấy thuộc tính này tiếp tục phân nhánh.
Trường hợp 1.2.1: Nhánh chất liệu = “Nhựa PP” và loại = “Xếp hình” và kích
thước = “Nhỏ”
Nhánh này luôn có phân lớp Doanh số bán = “Cao”, vì vậy, nhánh này nút lá không cần xét
tiếp.
Trường hợp 1.2.2: Nhánh chất liệu = “Nhựa PP” và loại = “Xếp hình” và kích
thước = “To”
Nhánh này luôn phân lớp Doanh số bán = “Thấp”, vậy, nhánh này nút không cần
xét tiếp.
Trường hợp 1.3: Nhánh chất liệu = “Nhựa PP” và loại = “Búp bê” Xét
thuộc tính Số màu, nhánh chất liệu = “Nhựa PP” và loại = “Búp bê”:
**
Gini4S
6
|S
=
’ựA JJ,/ú- 5 = 1 − *- − *- = 0
lOMoARcPSD| 59285474
**
Gini4S
7
|S
=
’ựA JJ,/ú- 5 = 1 − *- − *- = 0
**
Gini4S
8
|S
=
’ựA JJ,/ú- 5 = 1 − *- − *- = 0
Gini9ố ;à$4S=’ựA JJ,/ú- 5 = . 0 + . 0 + . 0 = 0
Xét thuộc tính Kích thước, nhánh chất liệu = “Nhựa PP” và loại = “Búp bê”:
**
Gini4S?ừA|S=’ựA JJ,/ú- 5 = 1 − *- − *- = 0,5
**
Gini4SB4|S=’ựA JJ,/ú- 5 = 1 − *- − *- = 0
Gini
CíE’
F’ướE4S
=
’ựA JJ,/ú- 5 = . 0,5 + . 0 = 0,25
Ta thấy đối với nhánh Chất liệu = “Nhựa PP” và loại = “Búp bê”, thuộc tính Số màu có chsố
Gini nhỏ nhất nên ta lấy thuộc tính này tiếp tục phân nhánh.
Trường hợp 1.3.1: Nhánh chất liệu = “Nhựa PP” và loại = “Búp bê” và số màu = 3
Nhánh này luôn phân lớp Doanh số bán = “Thấp”, vậy, nhánh này nút không cần
xét tiếp.
Trường hợp 1.3.2: Nhánh chất liệu = “Nhựa PP” và loại = “Búp bê” và số màu = 5
Nhánh này luôn có phân lớp Doanh số bán = “Cao”, vì vậy, nhánh này nút lá không cần xét
tiếp.
Trường hợp 1.3.3: Nhánh chất liệu = “Nhựa PP” và loại = “Búp bê” và số màu = 7
Nhánh này luôn có phân lớp Doanh số bán = “Cao”, vì vậy, nhánh này nút lá không
cần xét tiếp.
Trường hợp 2: Nhánh chất liệu = “Cao su”
Xét thuộc tính Loại, nhánh chất liệu = “Cao su”:
**
Gini(SĐ"ề$ &’"ể)|SKA4 L$) = 1 − *- − *- = 0
**
Gini4S+ế- ’ì)’|SKA4 L$5 = 1 − *- − *- = 0,5
**
Gini4S- |SKA4 L$5 = 1 − *- − *- = 0
lOMoARcPSD| 59285474
10
Gini
34ạ"
(S
KA4 L$
) = . 0 + . 0,5 + . 0 = 0,17
Xét thuộc tính Số màu, nhánh chất liệu = “Cao su”:
**
Gini(S6|SKA4 L$) = 1 − *- − *- = 0
**
Gini(S7|SKA4 L$) = 1 − *- − *- = 0
**
Gini(S8|SKA4 L$) = 1 − *- − *- = 0,5
Gini
9ố ;à$
(S
KA4 L$
) = . 0 + . 0 + . 0,5 = 0,17
Xét thuộc tính Kích thước, nhánh chất liệu = “Cao su”:
**
Gini(S
=’
|S
KA4 L$
) = 1 − *- − *- = 0
**
Gini(S
?ừA
|S
KA4 L$
) = 1 − *- − *- = 0
**
Gini(S
B4
|S
KA4 L$
) = 1 − *- − *- = 0,5
Gini
9ố ;à$
(S
KA4 L$
) = . 0 + . 0 + . 0,5 = 0,17
nhánh chất liệu = “Cao su” 3 thuộc tính Loại, Số màu, Kích thước chỉ số Gini bằng
nhau. vậy, ta thể lấy bất kỳ thuộc tính nào để tiếp tục chia nhánh. Ta xét trường hợp
chọn thuộc tính Loại để chia nhánh.
Trường hợp 2.1: Nhánh chất liệu = “Cao su” và loại = “Điều khiển”
Nhánh này luôn phân lớp Doanh số bán = “Thấp”, vậy, nhánh này nút không cần
xét tiếp.
Trường hợp 2.2: Nhánh chất liệu = “Cao su” và loại = “Xếp hình” Xét
thuộc tính Số màu, nhánh chất liệu = “Cao su” và loại = “Xếp hình”:
**
Gini4S7|SKA4 L$,+ế- ’ì)’5 = 1 − *- − *- = 0
**
Gini4S8|SKA4 L$,+ế- ’ì)’5 = 1 − *- − *- = 0
Gini
9
;à$4S
KA4
L$,+ế- ’ì)’5 = . 0 + . 0 = 0
lOMoARcPSD| 59285474
Xét thuộc tính Kích thước, nhánh chất liệu = “Cao su” và loại = “Xếp hình”:
**
Gini4S?ừA|SKA4 L$,+ế- ’ì)’5 = 1 − *- − *- = 0
**
Gini4SB4|SKA4 L$,+ế- ’ì)’5 = 1 − *- − *- = 0
GiniCíE’ F’ướE4SKA4 L$,+ế- ’ì)’5 = . 0 + . 0 = 0
Ở nhánh chất liệu = “Cao su” và loại = “Xếp hình” có 2 thuộc tính Số màu, Kích thước chỉ
số Gini bằng nhau. vậy, ta thể lấy bất kỳ thuộc tính nào để tiếp tục chia nhánh. Ta t
trường hợp chọn thuộc tính Số màu để chia nhánh.
Trường hợp 2.2.1: Nhánh chất liệu = “Cao su” và loại = “Xếp hình” và số màu = 5
Nhánh này luôn phân lớp Doanh số bán = “Thấp”, vậy, nhánh này nút không cần
xét tiếp.
Trường hợp 2.2.2: Nhánh chất liệu = “Cao su” và loại = “Xếp hình” và số màu = 7
Nhánh này luôn có phân lớp Doanh số bán = “Cao”, vậy, nhánh này nút không
cần xét tiếp.
Trường hợp 2.2: Nhánh chất liệu = “Cao su” và loại = “Búp bê”
Nhánh này luôn phân lớp Doanh số bán = “Thấp”, vậy, nhánh này nút không cần
xét tiếp.
* Vẽ cây quyết định
d) Sử dụng một trong hai cây quyết định ở trên để tiên đoán giá trị Doanh số bán của
những sản phẩm sau:
Chất
liệu
Cao
Thấp
Cao
su
Nhựa
PP
Loại
Điều
khiển
Kích
thước
Xếp
hình
Cao
Nhỏ
To
Thấp
Cao
Cao
Số
màu
3
5
Loại
7
Thấp
Số
màu
Thấp
Thấp
Cao
Điều
khiển
Xếp
hình
Búp
Búp
5
7
lOMoARcPSD| 59285474
12
=
P
(
L
oại
=
Điều
khiển
=
0
,
4
Loại
Số màu
Kích thước
Chất liệu
Doanh số bán
Búp bê
3
To
Cao su
Thấp
Xếp hình
5
To
Nhựa PP
Thấp
Điều khiển
3
Vừa
Cao su
Thấp
e) Doanh số n trên thực tế của các sản phẩm ở Yêu cầu d lần ợt Thấp, Thấp,
Cao. Hãy lập ma trận nhầm lẫn, sau đó nh giá trị độ chính xác, độ phủ của
hình/ cây đã xây dựng.
Lớp dự đoán được từ mô hình
Lớp trên thực tế
Doanh số bán
Thấp
Cao
Thấp
2
0
Cao
1
0
Theo công thức tính độ chính xác và độ phủ, ta có:
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 67%
𝑟𝑒𝑐𝑎𝑙𝑙(𝑀) = = 100%
f) Xác suất không điều kiện của giá trị “Xếp hình” trong tập dữ liệu là bao nhiêu?
𝑝(Loại = Xếp hình) = = = 0,33
g) Khi doanh số bán “Thấp”, hãy tính c suất đó những sản phẩm chất liệu
là “Cao su”.
𝑝(Doanh số bán = Thấp | Chất liu
= Cao su) =
h) Dựa theo định lý Bayes, hãy viết công thức tính xác suất Doanh số “Cao” của những
sản phẩm thuộc loại “Điều khiển”.
𝑝(Doanh số bán = Cao |Loại = Điều khin)
𝑝(Doanh số bán = Cao | Loại = Điều khiển) ∗ 𝑝(Doanh số
bán = Cao)
)
lOMoARcPSD| 59285474
i) Sử dụng thuật toán Naïve Bayes làm trơn Laplace để dự đoán giá trị Doanh s
bán của những sản phẩm trong Yêu cầu d.
* Với hồ sơ đầu tiên: X = {Loại = Búp bê, Số màu = 3, Kích thước = To, Chất liệu = Cao
su}
Áp dụng làm trơn Laplace, ta có:
𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐿𝑜ạ𝑖 = 𝐵ú𝑝 𝑏ê | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛
𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛
𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛ℎ
𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
= 𝑝(𝐿𝑜ạ𝑖 = 𝐵ú𝑝 𝑏ê | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛
= 𝐶𝑎𝑜)
× 𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 |
𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
lOMoARcPSD| 59285474
14
𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐿𝑜ạ𝑖 = 𝐵ú𝑝 𝑏ê | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛
𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛
𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛ℎ
𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
= 𝑝(𝐿𝑜ạ𝑖 = 𝐵ú𝑝 𝑏ê | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛 = 𝑇ℎấ𝑝)
× 𝑝(𝑆ố
𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
× 𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
× 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 |
𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
× 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
lOMoARcPSD| 59285474
≈ 0,115
Như vậy hồ sơ đầu tiênxác suất xảy ra Doanh số bán = “Thấp” lớn hơn, vậy ta thể kết
luận dòng dữ liệu đầu tiên được dự đoán thuộc phân lớp Doanh số bán = “Thấp”.
* Với hồ sơ thứ hai: X = {Loại = Xếp hình, Số màu = 5, Kích thước = To, Chất liệu =
Nhựa PP}
𝑝(𝐿𝑜ạ𝑖 = 𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝑆ố 𝑚à𝑢 = 5 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛
𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 ự𝑎 𝑃𝑃 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛
𝑝(𝑋|𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛 = 𝐶𝑎𝑜)
×
𝑝(𝑆ố 𝑚à𝑢 = 5 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝 𝑇𝑜 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 =
𝐶𝑎𝑜)
× 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 ự𝑎 𝑃𝑃 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 =
𝐶𝑎𝑜)
× 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
lOMoARcPSD| 59285474
16
𝑝(𝐿𝑜ạ𝑖 = 𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝑆ố 𝑚à𝑢 = 5 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛
𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 ự𝑎 𝑃𝑃 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛
𝑝(𝑋|𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛 = 𝑇ℎấ𝑝)
×
𝑝(𝑆ố 𝑚à𝑢 = 5 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
× 𝑝 𝑇𝑜 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 =
𝑇ℎấ𝑝)
× 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 ự𝑎 𝑃𝑃 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 =
𝑇ℎấ𝑝)
× 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
≈ 0,0102
Như vậy hồ thứ hai xác suất xảy ra Doanh số bán = “Cao” lớn hơn, vậy ta thể kết
luận dòng dữ liệu thứ hai được dự đoán thuộc phân lớp Doanh số bán = “Cao”.
lOMoARcPSD| 59285474
* Với hthứ ba: X = {Loại = Điều khiển, Số màu = 3, Kích thước = Vừa, Chất liệu =
Cao su}
𝑝(𝐿𝑜ạ𝑖 = Đ𝑖ề𝑢 𝑘ℎ𝑖ể𝑛 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛
𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑉ừ𝑎 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛
𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛ℎ
𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
Đ𝑖ề𝑢 𝑘ℎ𝑖ể𝑛 | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛 = 𝐶𝑎𝑜)
×
𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝 𝑉ừ𝑎 | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢| 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐿𝑜ạ𝑖 = Đ𝑖ề𝑢 𝑘ℎ𝑖ể𝑛 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛
lOMoARcPSD| 59285474
18
𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑉ừ𝑎 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛
𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛
𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
Đ𝑖ề𝑢 𝑘ℎ𝑖ể𝑛 | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛 = 𝑇ℎấ𝑝)
×
𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
× 𝑝 𝑉ừ𝑎 | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛 = 𝑇ℎấ𝑝)
× 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢| 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
× 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
Như vậy hồ thứ ba xác suất xảy ra Doanh số bán = “Thấp” lớn hơn, vậy ta thể kết
luận dòng dữ liệu thứ ba được dự đoán thuộc phân lớp Doanh số bán = “Thấp”.
j) Với kết quả thu được doanh strên thực tế (Yêu cầu e), hãy lập ma trận nhầm
lẫn, sau đó tính giá trị độ chính xác, độ phủ của thuật toán.
Lớp dự đoán được từ mô hình
Lớp trên thực tế
Doanh số bán
Thấp
Cao
Thấp
1
1
Cao
1
0
Theo công thức tính độ chính xác và độ phủ, ta có:
lOMoARcPSD| 59285474
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑀) = = 50% 𝑟𝑒𝑐𝑎𝑙𝑙(𝑀) =
= 50%
k) So sánh kết quả từ thuật toán cây quyết định và Naïve Bayes.
So sánh
Thuật toán cây quyết định
Thuật toán Naïve Bayes
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑀)
67%
50%
𝑟𝑒𝑐𝑎𝑙𝑙(𝑀)
100%
50%
Từ ma trận nhầm lẫn, giá trị của độ chính xác độ phủ trên dữ liệu kiểm thử đã thực hiện.
Ta thể lập được bảng trên, từ đây, thể kết luận được hình được xây dựng bởi cây
quyết định có kết quả chính xác cao hơn thuật toán Naïve Bayes.
l) Sản phẩm mới của doanh nghiệp dự định tung ra thị trường có thông tin như sau:
Loại
Số màu
Kích thước
Chất liệu
Xếp hình
7
Nhỏ
Cao su
Hãy sử dụng các hình đã xây dựng được để dự đoán Doanh số bán của công ty với sản
phẩm này. * Decision Tree
Loại
Số màu
Kích thước
Chất liệu
Doanh số bán
Xếp hình
7
Nhỏ
Cao su
Cao
* Naïve Bayes
Hồ sơ: X = {Loại = Xếp hình, Số màu = 7, Kích thước = Nhỏ, Chất liệu = Cao su} Áp
dụng làm trơn Laplace, ta có:
𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐿𝑜ạ𝑖 = 𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛
𝑝(𝑆ố 𝑚à𝑢 = 7 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑁ℎỏ | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛
𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛
lOMoARcPSD| 59285474
20
𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛 = 𝐶𝑎𝑜)
×
𝑝(𝑆ố 𝑚à𝑢 = 7 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝 ỏ| 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 |
𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐿𝑜ạ𝑖 = 𝑋ế𝑝 ℎì𝑛ℎ| 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛
𝑝(𝑆ố 𝑚à𝑢 = 7 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑁ℎỏ| 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛 𝑢
𝑏á𝑛
𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
×
𝑝(𝑆ố 𝑚à𝑢 = 7| 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
× 𝑝 ỏ| 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)

Preview text:

lOMoAR cPSD| 59285474
ĐẠI HỌC QUỐC GIA THÀNH PHỐ HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN KHOA
HỆ THỐNG THÔNG TIN □  □
BÀI THỰC HÀNH SỐ 4
: KHAI THÁC DỮ LIỆU
PHÂN LỚP DỮ LIỆU (CLA SSIFICATION )
Lớp IS252 .M 22 .HTCL
Giảng viên T HS. VŨ MINH SANG
TS. CAO THỊ NHẠN Sinh viên thực hiện
PHAN THÁI TÂ M 19520917
HỒ CHÍ MINH, 0 5 /202 2 lOMoAR cPSD| 59285474
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN
……………………………….……………………………….…………….………………………….
………………………….………………………….…………………………………………….……
………….……………………………….…………….………………………….……………………
….……………………………….…………….………………………….……………………….…
…………………………….…………….………………………….……………………….…………
…………………….…………….………………………….……………………….…………………
…………….…………….………………………….……………………….…………………………
…….…………….………………………….……………………….……………………………….
…………….………………………….……………………….……………………………….………
…….………………………….……………………….……………………………….…………….
………………………….……………………….……………………………….…………….………
………………….……………………….……………………………….…………….………………
………….……………………….……………………………….…………….………………………
….……………………….……………………………………….…………….………………………
….……………………….……………………………….…………….………………………….…
…………………….……………………………….…………….………………………….…………
…………….……………………………….…………….………………………….…………………
…….……………………………….…………….………………………….……………………….
……………………………….…………….………………………….……………………….………
……………………….…………….………………………….……………………….………………
……………….…………….………………………….……………………….………………………
……….…………….………………………….……………………….………………………………
.…………….………………………….……………………….……………………….…………….
………………………….……………………….……………………………….…………….………
………………….……………………….……………………………….…………….………………
………….……………………….……………………………….…………….………………………
….……………………….……………………………….…………….………………………….…
…….……………………………….…………….…………………...…………….…………………
…….……………………………….………….……………………………….………………………
………………………………….…………….…………………...…………….……………………
….………………………………………….…………….…………………...…………….………… 2 lOMoAR cPSD| 59285474 MỤC LỤC
NHẬN XÉT CỦA GIẢNG VIÊN HƯỚNG DẪN ............................................................... 2
MỤC LỤC ............................................................................................................................... 3
THỰC HÀNH ......................................................................................................................... 5
Câu 1: .................................................................................................................................. 5
c) Tính giá trị chỉ số Gini (gini index) của các thuộc tính và vẽ cây quyết định theo
thuật toán ID3 cho dữ liệu trên. .................................................................................... 5
* Tính chỉ số Gini (gini index) ................................................................................ 5
* Vẽ cây quyết định ............................................................................................... 11
d) Sử dụng một trong hai cây quyết định ở trên để tiên đoán giá trị Doanh số bán của
những sản phẩm sau: ................................................................................................... 11
e) Doanh số bán trên thực tế của các sản phẩm ở Yêu cầu d lần lượt là Thấp, Thấp,
Cao. Hãy lập ma trận nhầm lẫn, sau đó tính giá trị độ chính xác, độ phủ của mô hình/
cây đã xây dựng. ......................................................................................................... 11
f) Xác suất không điều kiện của giá trị “Xếp hình” trong tập dữ liệu là bao nhiêu? .. 12
g) Khi doanh số bán là “Thấp”, hãy tính xác suất đó là những sản phẩm có chất liệu
là “Cao su”. ................................................................................................................. 12
h) Dựa theo định lý Bayes, hãy viết công thức tính xác suất Doanh số “Cao” của
những sản phẩm thuộc loại “Điều khiển”. .................................................................. 12
i) Sử dụng thuật toán Naïve Bayes và làm trơn Laplace để dự đoán giá trị Doanh số
bán của những sản phẩm trong Yêu cầu d. ................................................................. 12
* Với hồ sơ đầu tiên: X = {Loại = Búp bê, Số màu = 3, Kích thước = To, Chất
liệu = Cao su} ........................................................................................................ 12
* Với hồ sơ thứ hai: X = {Loại = Xếp hình, Số màu = 5, Kích thước = To, Chất
liệu = Nhựa PP} ..................................................................................................... 13
* Với hồ sơ thứ ba: X = {Loại = Điều khiển, Số màu = 3, Kích thước = Vừa, Chất
liệu = Cao su} ........................................................................................................ 14 lOMoAR cPSD| 59285474
j) Với kết quả thu được và doanh số trên thực tế (Yêu cầu e), hãy lập ma trận nhầm
lẫn, sau đó tính giá trị độ chính xác, độ phủ của thuật toán. ....................................... 15
k) So sánh kết quả từ thuật toán cây quyết định và Naïve Bayes. .............................. 16
l) Sản phẩm mới của doanh nghiệp dự định tung ra thị trường có thông tin như sau: 16
* Decision Tree ..................................................................................................... 16
* Naïve Bayes ........................................................................................................ 16
Câu 5: ................................................................................................................................ 18 a)
Nhập dữ liệu đầu vào và tiến hành tiền xử lý xoá các dòng dữ liệu trống, sửa
tên các cột dữ liệu lại như sau để dễ theo dõi. ............................................................ 18
1. Import thư viện: ................................................................................................. 18
2. Import file CSV: ................................................................................................ 18
3. Tiền xử lý dữ liệu: ............................................................................................. 19 b)
Thực hiện lại từ yêu cầu 3 trở đi trong phần Yêu cầu lập trình, áp dụng với dữ
liệu trên. Lưu ý, thuộc tính quyết định là ‘target’. ......................................................
19 Yêu cầu 3: Khảo sát sự tương đồng giữa các cột bằng công thức
Pearson. .......... 19 Yêu cầu 4: Chuyển đổi các cột không phải dạng số về dạng one – hot vector để
phù hợp với đầu vào của thư viện. ........................................................................ 20
Yêu cầu 5: Tách dữ liệu thành hai phần, một phần chứa các thuộc tính bình
thường, một phần chứa thuộc tính quyết định ....................................................... 20
Yêu cầu 6: Tách các dòng dữ liệu ra thành hai phần huấn luyện và kiểm thử như
ban đầu. Tiến hành tách dữ liệu huấn luyện và kiểm thử như thông tin thu được ban đầu. 21
Yêu cầu 7: Xây dựng cây ID3 dựa trên dữ liệu huấn luyện và sau đó tiến hành kiểm
thử kết quả của cây bằng ma trận nhầm lẫn. Biểu diễn cây vào trong kết quả
thực hiện. ...............................................................................................................
21 Yêu cầu 8: (Lặp lại yêu cầu 7 đối với cây CART). ...............................................
23 Yêu cầu 9: Xây dựng mô hình phân lớp bằng thuật toán Naïve Bayes và kiểm tra
kết quả đạt được. ................................................................................................... 25 4 lOMoAR cPSD| 59285474
Yêu cầu 10: Dựa vào thông tin đã thu được, nhận xét, so sánh kết quả của các mô
hình trên. ................................................................................................................
26 TÀI LIỆU THAM KHẢO ................................................................................................... 28 THỰC HÀNH Câu 1:
Một doanh nghiệp sản xuất đồ chơi cho trẻ em muốn dự đoán doanh số của các sản phẩm sắp
đưa ra thị trường, họ thu thập những dữ liệu dưới đây: Loại Số màu Kích thước Chất liệu Doanh số bán Điều khiển 3 Nhỏ Nhựa PP Cao Xếp hình 5 Vừa Cao su Thấp Xếp hình 7 To Nhựa PP Thấp Điều khiển 5 Nhỏ Cao su Thấp Búp bê 3 Vừa Nhựa PP Thấp Điều khiển 5 Vừa Nhựa PP Cao Búp bê 5 To Nhựa PP Cao Điều khiển 7 Vừa Cao su Thấp Xếp hình 7 To Cao su Cao Xếp hình 3 To Nhựa PP Thấp Búp bê 3 Nhỏ Cao su Thấp Xếp hình 3 Nhỏ Nhựa PP Cao Điều khiển 5 To Cao su Thấp Búp bê 5 Vừa Nhựa PP Cao Búp bê 7 To Nhựa PP Cao
c) Tính giá trị chỉ số Gini (gini index) của các thuộc tính và vẽ cây quyết định theo
thuật toán ID3 cho dữ liệu trên. lOMoAR cPSD| 59285474
* Tính chỉ số Gini (gini index)
Ta tính chỉ số Gini của lần lượt từng thuộc tính để tìm ra thuộc tính phân nhánh có lợi nhất.
Xét thuộc tính Loại, ta có: ** Gini(SĐ"ề$ &’"ể)) = 1 − *- − *- = 0,48 ** Gini4S+ế- ’ì)’5 = 1 − *- − *- = 0,48 ** Gini4S/ú- 1ê5 = 1 − *- − *- = 0,48 Gini34ạ"(S) = . 0,48 + . 0,48 + . 0,48 = 0,48
Xét thuộc tính Số màu, ta có: ** Gini(S6) = 1 − *- − *- = 0,48 ** Gini(S7) = 1 − *- − *- = 0,5 ** Gini(S8) = 1 − *- − *- = 0,5 Gini9ố ;à$(S) = . 0,48 + . 0,5 + . 0,5 = 0,49
Xét thuộc tính Kích thước, ta có: ** Gini(S=’ỏ) = 1 − *- − *- = 0,5 ** Gini(S?ừA) = 1 − *- − *- = 0,48 ** Gini(SB4) = 1 − *- − *- = 0,5 GiniCíE’ F’ướE(S) = . 0,5 + . 0,48 + . 0,5 = 0,49
Xét thuộc tính Chất liệu, ta có: ** Gini4S=’ựA JJ5 = 1 − *- − *- = 0,44 ** Gini(SKA4 L$) = 1 − *- − *- = 0,28 6 lOMoAR cPSD| 59285474 GiniK’ấF N"ệ$(S) = . 0,44 + . 0,48 = 0,38
Trong 4 thuộc tính ta xét, thuộc tính Chất liệu có chỉ số Gini nhỏ nhất. Do đó, ta chọn thuộc
tính này làm phép chia nhánh cho cây tại nút gốc.
Trường hợp 1: Nhánh chất liệu = “Nhựa PP”
Xét thuộc tính Loại, nhánh chất liệu = “Nhựa PP”: ** Gini4SĐ"ề$ &’"ể)|S=’ựA JJ5 = 1 − *- − *- = 0 ** Gini4S+ế- ’ì)’|S=’ựA JJ5 = 1 − *- − *- = 0,44 ** Gini4S/ú-
1ê|S=’ựA JJ5 = 1 − *- − *- = 0,38 Gini34ạ"4S=’ựA JJ5 = . 0 + . 0,44 + . 0,38 = 0,31
Xét thuộc tính Số màu, nhánh chất liệu = “Nhựa PP”: ** Gini4S6|S=’ựA JJ5 = 1 − *- − *- = 0,5 ** Gini4S7|S=’ựA JJ5 = 1 − *- − *- = 0 ** Gini4S8|S=’ựA JJ5 = 1 − *- − *- = 0,5 Gini9ố ;à$4S=’ựA JJ5 = . 0,5 + . 0 + . 0,5 = 0,33
Xét thuộc tính Kích thước, nhánh chất liệu = “Nhựa PP”: ** Gini4S=’ỏ|S=’ựA JJ5 = 1 − *- − *- = 0 ** Gini4S?ừA|S=’ựA JJ5 = 1 − *- − *- = 0,44 ** Gini4SB4|S=’ựA JJ5 = 1 − *- − *- = 0,5 Gini9ố ;à$4S=’ựA JJ5 = . 0 + . 0,44 + . 0,5 = 0,37
Ta thấy đối với nhánh Chất liệu = “Nhựa PP”, thuộc tính Loại có chỉ số Gini nhỏ nhất nên ta
lấy thuộc tính này tiếp tục phân nhánh. lOMoAR cPSD| 59285474
Trường hợp 1.1: Nhánh chất liệu = “Nhựa PP” và loại = “Điều khiển”
Nhánh này luôn có phân lớp là Doanh số bán = “Cao”, vì vậy, nhánh này nút lá không cần xét tiếp.
Trường hợp 1.2: Nhánh chất liệu = “Nhựa PP” và loại = “Xếp hình”
Xét thuộc tính Số màu, nhánh chất liệu = “Nhựa PP” và loại = “Xếp hình”: ** Gini4S6|S=’ựA
JJ,+ế- ’ì)’5 = 1 − *- − *- = 0,5 ** Gini4S8|S=’ựA
JJ,+ế- ’ì)’5 = 1 − *- − *- = 0 Gini9ố ;à$4S=’ựA JJ,+ế- ’ì)’5 = . 0,5 + . 0 = 0,33
Xét thuộc tính Kích thước, nhánh chất liệu = “Nhựa PP” và loại = “Xếp hình”: ** Gini4S=’ỏ|S=’ựA JJ,+ế- ’ì)’5 = 1 − *- − *- = 0 ** Gini4SB4|S=’ựA
JJ,+ế- ’ì)’5 = 1 − *- − *- = 0 GiniCíE’ F’ướE4S=’ựA JJ,+ế- ’ì)’5 = . 0 + . 0 = 0
Ta thấy đối với nhánh Chất liệu = “Nhựa PP” và loại = “Xếp hình”, thuộc tính Kích thước có
chỉ số Gini nhỏ nhất nên ta lấy thuộc tính này tiếp tục phân nhánh.
Trường hợp 1.2.1: Nhánh chất liệu = “Nhựa PP” và loại = “Xếp hình” và kích
thước = “Nhỏ”
Nhánh này luôn có phân lớp là Doanh số bán = “Cao”, vì vậy, nhánh này nút lá không cần xét tiếp.
Trường hợp 1.2.2: Nhánh chất liệu = “Nhựa PP” và loại = “Xếp hình” và kích thước = “To”
Nhánh này luôn có phân lớp là Doanh số bán = “Thấp”, vì vậy, nhánh này nút lá không cần xét tiếp.
Trường hợp 1.3: Nhánh chất liệu = “Nhựa PP” và loại = “Búp bê” Xét
thuộc tính Số màu, nhánh chất liệu = “Nhựa PP” và loại = “Búp bê”: ** Gini4S6|S=’ựA JJ,/ú- 1ê5 = 1 − *- − *- = 0 8 lOMoAR cPSD| 59285474 ** Gini4S7|S=’ựA JJ,/ú- 1ê5 = 1 − *- − *- = 0 ** Gini4S8|S=’ựA JJ,/ú- 1ê5 = 1 − *- − *- = 0 Gini9ố ;à$4S=’ựA JJ,/ú- 1ê5 = . 0 + . 0 + . 0 = 0
Xét thuộc tính Kích thước, nhánh chất liệu = “Nhựa PP” và loại = “Búp bê”: ** Gini4S?ừA|S=’ựA
JJ,/ú- 1ê5 = 1 − *- − *- = 0,5 ** Gini4SB4|S=’ựA JJ,/ú- 1ê5 = 1 − *- − *- = 0 GiniCíE’ F’ướE4S=’ựA JJ,/ú- 1ê5 = . 0,5 + . 0 = 0,25
Ta thấy đối với nhánh Chất liệu = “Nhựa PP” và loại = “Búp bê”, thuộc tính Số màu có chỉ số
Gini nhỏ nhất nên ta lấy thuộc tính này tiếp tục phân nhánh.
Trường hợp 1.3.1: Nhánh chất liệu = “Nhựa PP” và loại = “Búp bê” và số màu = 3
Nhánh này luôn có phân lớp là Doanh số bán = “Thấp”, vì vậy, nhánh này nút lá không cần xét tiếp.
Trường hợp 1.3.2: Nhánh chất liệu = “Nhựa PP” và loại = “Búp bê” và số màu = 5
Nhánh này luôn có phân lớp là Doanh số bán = “Cao”, vì vậy, nhánh này nút lá không cần xét tiếp.
Trường hợp 1.3.3: Nhánh chất liệu = “Nhựa PP” và loại = “Búp bê” và số màu = 7
Nhánh này luôn có phân lớp là Doanh số bán = “Cao”, vì vậy, nhánh này nút lá không cần xét tiếp.
Trường hợp 2: Nhánh chất liệu = “Cao su”
Xét thuộc tính Loại, nhánh chất liệu = “Cao su”: ** Gini(SĐ"ề$ &’"ể)|SKA4 L$) = 1 − *- − *- = 0 ** Gini4S+ế- ’ì)’|SKA4 L$5 = 1 − *- − *- = 0,5 ** Gini4S/ú- 1ê|SKA4 L$5 = 1 − *- − *- = 0 lOMoAR cPSD| 59285474 Gini34ạ"(SKA4 L$) = . 0 + . 0,5 + . 0 = 0,17
Xét thuộc tính Số màu, nhánh chất liệu = “Cao su”: ** Gini(S6|SKA4 L$) = 1 − *- − *- = 0 ** Gini(S7|SKA4 L$) = 1 − *- − *- = 0 ** Gini(S8|SKA4 L$) = 1 − *- − *- = 0,5 Gini9ố ;à$(SKA4 L$) = . 0 + . 0 + . 0,5 = 0,17
Xét thuộc tính Kích thước, nhánh chất liệu = “Cao su”: ** Gini(S=’ỏ|SKA4 L$) = 1 − *- − *- = 0 ** Gini(S?ừA|SKA4 L$) = 1 − *- − *- = 0 ** Gini(SB4|SKA4 L$) = 1 − *- − *- = 0,5 Gini9ố ;à$(SKA4 L$) = . 0 + . 0 + . 0,5 = 0,17
Ở nhánh chất liệu = “Cao su” có 3 thuộc tính Loại, Số màu, Kích thước có chỉ số Gini bằng
nhau. Vì vậy, ta có thể lấy bất kỳ thuộc tính nào để tiếp tục chia nhánh. Ta xét trường hợp
chọn thuộc tính Loại để chia nhánh.
Trường hợp 2.1: Nhánh chất liệu = “Cao su” và loại = “Điều khiển”
Nhánh này luôn có phân lớp là Doanh số bán = “Thấp”, vì vậy, nhánh này nút lá không cần xét tiếp.
Trường hợp 2.2: Nhánh chất liệu = “Cao su” và loại = “Xếp hình” Xét
thuộc tính Số màu, nhánh chất liệu = “Cao su” và loại = “Xếp hình”: ** Gini4S7|SKA4 L$,+ế- ’ì)’5 = 1 − *- − *- = 0 ** Gini4S8|SKA4 L$,+ế- ’ì)’5 = 1 − *- − *- = 0 Gini9ố ;à$4SKA4 L$,+ế- ’ì)’5 = . 0 + . 0 = 0 10 lOMoAR cPSD| 59285474
Xét thuộc tính Kích thước, nhánh chất liệu = “Cao su” và loại = “Xếp hình”: ** Gini4S?ừA|SKA4
L$,+ế- ’ì)’5 = 1 − *- − *- = 0 ** Gini4SB4|SKA4
L$,+ế- ’ì)’5 = 1 − *- − *- = 0 GiniCíE’ F’ướE4SKA4 L$,+ế- ’ì)’5 = . 0 + . 0 = 0
Ở nhánh chất liệu = “Cao su” và loại = “Xếp hình” có 2 thuộc tính Số màu, Kích thước có chỉ
số Gini bằng nhau. Vì vậy, ta có thể lấy bất kỳ thuộc tính nào để tiếp tục chia nhánh. Ta xét
trường hợp chọn thuộc tính Số màu để chia nhánh.
Trường hợp 2.2.1: Nhánh chất liệu = “Cao su” và loại = “Xếp hình” và số màu = 5
Nhánh này luôn có phân lớp là Doanh số bán = “Thấp”, vì vậy, nhánh này nút lá không cần xét tiếp.
Trường hợp 2.2.2: Nhánh chất liệu = “Cao su” và loại = “Xếp hình” và số màu = 7
Nhánh này luôn có phân lớp là Doanh số bán = “Cao”, vì vậy, nhánh này nút lá không cần xét tiếp.
Trường hợp 2.2: Nhánh chất liệu = “Cao su” và loại = “Búp bê”
Nhánh này luôn có phân lớp là Doanh số bán = “Thấp”, vì vậy, nhánh này nút lá không cần xét tiếp.
* Vẽ cây quyết định Chất liệu Nhựa PP Cao su Loại Loại Điều khiển Búp bê Điều khiển Búp bê Xếp hình Xếp hình Cao Số màu Thấp Thấp Kích thước 7 Số màu 3 Cao 5 5 7 Nhỏ To Thấp Cao Thấp Thấp Cao Cao
d) Sử dụng một trong hai cây quyết định ở trên để tiên đoán giá trị Doanh số bán của
những sản phẩm sau: lOMoAR cPSD| 59285474 Loại Số màu Kích thước Chất liệu Doanh số bán Búp bê 3 To Cao su Thấp Xếp hình 5 To Nhựa PP Thấp Điều khiển 3 Vừa Cao su Thấp
e) Doanh số bán trên thực tế của các sản phẩm ở Yêu cầu d lần lượt là Thấp, Thấp,
Cao. Hãy lập ma trận nhầm lẫn, sau đó tính giá trị độ chính xác, độ phủ của mô
hình/ cây đã xây dựng.

Lớp dự đoán được từ mô hình Doanh số bán Thấp Cao
Lớp trên thực tế Thấp 2 0 Cao 1 0
Theo công thức tính độ chính xác và độ phủ, ta có:
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛 67%
𝑟𝑒𝑐𝑎𝑙𝑙(𝑀) = = 100%
f) Xác suất không điều kiện của giá trị “Xếp hình” trong tập dữ liệu là bao nhiêu? 𝑝(Loại = Xếp hình) = = = 0,33
g) Khi doanh số bán là “Thấp”, hãy tính xác suất đó là những sản phẩm có chất liệu là “Cao su”. 𝑝(Doanh số bán = Thấp | Chất liệu = Cao su) =
h) Dựa theo định lý Bayes, hãy viết công thức tính xác suất Doanh số “Cao” của những
sản phẩm thuộc loại “Điều khiển”. 𝑝(Doanh số
bán = Cao |Loại = Điều khiển) 𝑝(Doanh số bán = Cao |
Loại = Điều khiển) ∗ 𝑝(Doanh số = = 0 , 4 bán = Cao) P ( L oại = Điều khiển ) 12 lOMoAR cPSD| 59285474
i) Sử dụng thuật toán Naïve Bayes và làm trơn Laplace để dự đoán giá trị Doanh số
bán của những sản phẩm trong Yêu cầu d.
* Với hồ sơ đầu tiên: X = {Loại = Búp bê, Số màu = 3, Kích thước = To, Chất liệu = Cao su}
Áp dụng làm trơn Laplace, ta có:
𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐿𝑜ạ𝑖 = 𝐵ú𝑝 𝑏ê | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) = 𝑝(𝐿𝑜ạ𝑖 = 𝐵ú𝑝 𝑏ê | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 lOMoAR cPSD| 59285474
𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐿𝑜ạ𝑖 = 𝐵ú𝑝 𝑏ê | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢
𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) = 𝑝(𝐿𝑜ạ𝑖 = 𝐵ú𝑝 𝑏ê | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 14 lOMoAR cPSD| 59285474 ≈ 0,115
Như vậy hồ sơ đầu tiên có xác suất xảy ra Doanh số bán = “Thấp” lớn hơn, vậy ta có thể kết
luận dòng dữ liệu đầu tiên được dự đoán thuộc phân lớp Doanh số bán = “Thấp”.
* Với hồ sơ thứ hai: X = {Loại = Xếp hình, Số màu = 5, Kích thước = To, Chất liệu = Nhựa PP} 𝑝(𝐿𝑜ạ𝑖 = 𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝑆ố 𝑚à𝑢 = 5 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 ự𝑎 𝑃𝑃 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 𝑝(𝑋|𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) 𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝑆ố 𝑚à𝑢 = 5 | 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝 𝑇𝑜 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
× 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 ự𝑎 𝑃𝑃 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 lOMoAR cPSD| 59285474 𝑝(𝐿𝑜ạ𝑖 = 𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝑆ố 𝑚à𝑢 = 5 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐾í𝑐ℎ 𝑡ℎướ𝑐 = 𝑇𝑜 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 ự𝑎 𝑃𝑃 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 𝑝(𝑋|𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) 𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝑆ố 𝑚à𝑢 = 5 | 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝 𝑇𝑜 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
× 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 ự𝑎 𝑃𝑃 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 ≈ 0,0102
Như vậy hồ sơ thứ hai có xác suất xảy ra Doanh số bán = “Cao” lớn hơn, vậy ta có thể kết
luận dòng dữ liệu thứ hai được dự đoán thuộc phân lớp Doanh số bán = “Cao”. 16 lOMoAR cPSD| 59285474
* Với hồ sơ thứ ba: X = {Loại = Điều khiển, Số màu = 3, Kích thước = Vừa, Chất liệu = Cao su}
𝑝(𝐿𝑜ạ𝑖 = Đ𝑖ề𝑢 𝑘ℎ𝑖ể𝑛 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐾í𝑐ℎ
𝑡ℎướ𝑐 = 𝑉ừ𝑎 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜)
Đ𝑖ề𝑢 𝑘ℎ𝑖ể𝑛 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝 𝑉ừ𝑎 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢| 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐿𝑜ạ𝑖 = Đ𝑖ề𝑢 𝑘ℎ𝑖ể𝑛 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 lOMoAR cPSD| 59285474 𝑝(𝐾í𝑐ℎ
𝑡ℎướ𝑐 = 𝑉ừ𝑎 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝)
Đ𝑖ề𝑢 𝑘ℎ𝑖ể𝑛 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝑆ố 𝑚à𝑢 = 3 | 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝 𝑉ừ𝑎 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢| 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
Như vậy hồ sơ thứ ba có xác suất xảy ra Doanh số bán = “Thấp” lớn hơn, vậy ta có thể kết
luận dòng dữ liệu thứ ba được dự đoán thuộc phân lớp Doanh số bán = “Thấp”.
j) Với kết quả thu được và doanh số trên thực tế (Yêu cầu e), hãy lập ma trận nhầm
lẫn, sau đó tính giá trị độ chính xác, độ phủ của thuật toán.
Lớp dự đoán được từ mô hình Doanh số bán Thấp Cao
Lớp trên thực tế Thấp 1 1 Cao 1 0
Theo công thức tính độ chính xác và độ phủ, ta có: 18 lOMoAR cPSD| 59285474
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑀) =
= 50% 𝑟𝑒𝑐𝑎𝑙𝑙(𝑀) = = 50%
k) So sánh kết quả từ thuật toán cây quyết định và Naïve Bayes. So sánh
Thuật toán cây quyết định
Thuật toán Naïve Bayes
𝑝𝑟𝑒𝑐𝑖𝑠𝑖𝑜𝑛(𝑀) 67% 50%
𝑟𝑒𝑐𝑎𝑙𝑙(𝑀) 100% 50%
Từ ma trận nhầm lẫn, giá trị của độ chính xác và độ phủ trên dữ liệu kiểm thử đã thực hiện.
Ta có thể lập được bảng trên, từ đây, có thể kết luận được mô hình được xây dựng bởi cây
quyết định có kết quả chính xác cao hơn thuật toán Naïve Bayes.
l) Sản phẩm mới của doanh nghiệp dự định tung ra thị trường có thông tin như sau: Loại Số màu Kích thước Chất liệu Xếp hình 7 Nhỏ Cao su
Hãy sử dụng các mô hình đã xây dựng được để dự đoán Doanh số bán của công ty với sản
phẩm này. * Decision Tree Loại Số màu Kích thước Chất liệu Doanh số bán Xếp hình 7 Nhỏ Cao su Cao * Naïve Bayes
Hồ sơ: X = {Loại = Xếp hình, Số màu = 7, Kích thước = Nhỏ, Chất liệu = Cao su} Áp
dụng làm trơn Laplace, ta có:
𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐿𝑜ạ𝑖 = 𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 𝑝(𝑆ố 𝑚à𝑢 = 7 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐾í𝑐ℎ
𝑡ℎướ𝑐 = 𝑁ℎỏ | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 lOMoAR cPSD| 59285474 𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) 𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝑆ố 𝑚à𝑢 = 7 | 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝 ỏ| 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝐶𝑎𝑜) × 𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛
𝑝(𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐿𝑜ạ𝑖 =
𝑋ế𝑝 ℎì𝑛ℎ| 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 𝑝(𝑆ố 𝑚à𝑢 = 7 | 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐾í𝑐ℎ
𝑡ℎướ𝑐 = 𝑁ℎỏ| 𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 𝑝(𝐶ℎấ𝑡 𝑙𝑖ệ𝑢 = 𝐶𝑎𝑜 𝑠𝑢 | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 𝑝(𝑋|𝐷𝑜𝑎𝑛ℎ 𝑡ℎ𝑢 𝑏á𝑛 (𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) 𝑋ế𝑝 ℎì𝑛ℎ | 𝐷𝑜𝑎𝑛 𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝(𝑆ố 𝑚à𝑢 = 7| 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) × 𝑝 ỏ| 𝐷𝑜𝑎𝑛
𝑢 𝑏á𝑛 = 𝑇ℎấ𝑝) 20