Bai 4 Phan lop dua vao cay quyet dinh |Đại học Xây Dựng Hà Nội

z thuộc miền n o trong hai miền được chia ra bởi h0 . Ta thấy z thuộc nửa bÊn phải của miền được chia ra bởi h0 . Quá trình này được lặp lại liÊn tiếp, ta thấy z thuộc miền ở ph a trÊn h3 v nằm ở miền bÊn phải h5 . Và như vậy, z thuộc miền R6 ; ta dự đoán phân lớp của z l c2. Tài liệu giúp bạn tham khảo, học tập và đạt kết quả cao. Mời bạn đọc đón xem!

lOMoARcPSD|45222017
1
lOMoARcPSD| 45222017
§ 4. Ph n lp da v o c y quyết đnh
4.1. Gii thiu
XØt tp hun luyn
D
X
i
, y
i i
n
1
gm n đim trong kh ng gian d chiu, y
i
l nhªn của điểm X
i
. Mi
đim X
i
l mt b gm d thuc t nh, mi thuc t nh c th nhn giÆ tr l s hoc category; s ph n lp bng
k , tc l y
i
c c
1 2
, , ,c
k
. Gi s R l kh ng gian d liu ca D (kh ng gian cha các điểm X
i
) .
C y quyết định s dng một siŒu phẳng song song vi trục để chia R th nh hai min
R
1
, R
2
; dn ti D cũng được chia th nh D
1
, D
2
. CÆc min lại được chia (đệ quy) bởi cÆc siŒu phẳng
song song vi cÆc trục cho đến khi cÆc min nhận được l tinh khiết (pure), nghĩa hầu hết các điểm
ca cøng mt miền đu thuc v cøng mt ph n lp. Vic ph n chia c th t min D c th đưc th hin
i dng mt c y (gi l c y quyết định). Mi ca c y quyết đnh đưc gÆn nhªn bi mt ph n lp v
hu hết cÆc phn t tươngng vi miền đều thuc ph n lớp đó. Để ph n lp mt đim d liu mi. Đ
ph n lp một điểm d liu mi, xut phÆt t nœt gốc ta cần đánh giá liên tiếp xem đim d liệu đó
thuc nhÆnh n o ca c y quyết đnh, cho đến khi đạt được nœt lÆ nœt lÆ sẽ ch ra đim d liu thuc
ph n lp n o.
V d 4.1. XØt Iris dataset như hình 4.1. Ta quan tâm đến hai thuc t nh sepal length ( x
1
) v sepal width (
x
2
). Ta mun ph n d liu th nh hai lp: lp c
1
l iris-setosa (h nh tr n), lp c
2
gm hai lo i c n li (h nh tam
giÆc). D gm 150 đim d liu nm trong kh ng gian d liu h nh ch nht R 4.3,7.9
2.0,4.4 .
Ta ph n hoch R bởi cÆc siŒu phẳng song song vi cÆc trc. Trong trường hp hai chiều, cÆc siŒu
phẳng chính là các đường thng. Ta chia R quy) bi 5 siŒu phẳng h
0
, h
2
, …, h
5
. Tp hợp cÆc siŒu
phng v 6 miền tươngng R
1
, R
2
, …, R
6
cho ta mt c y quyết đnh.
lOMoARcPSD|45222017
2
XØt d liu kim tra
z
6.75,4.25
T
(h nh vu ng). Để d đoán phân lớp ca z , c y quyết đnh kim tra
z thuc min n o trong hai miền được chia ra bi h
0
. Ta thy z thuc nửa bŒn phi ca min đưc chia
ra bi h
0
. Quá trình này được lp lại liŒn tiếp, ta thy z thuc min ph a trŒn h
3
v nm miền bŒn
phi h
5
. Và như vậy, z thuc min R
6
; ta d đoán phân lớp ca z l c
2
.
4.2. C y quyết định
Mt c y quyết định bao gm những nút trong dùng để biu din cÆc quyết định tương ng với siŒu
phẳng hay điểm chia. CÆc nœt biểu din nhng min con ca kh ng gian d liu, được gÆn nhªn l
nhªn ca những điểm d liu chiếm đại b phn ca min.
H nh 4. 1. Iris dataset
lOMoARcPSD|45222017
3
H nh 4. 2. C y quyết định tương ứng
SiŒu phẳng song song vi trc
CÆc siŒu phẳng song song vi trục có phương trình dạng:
h X :x
j
b0. (4.1)
Trong đó, b là độ lệch tính đến gc tọa độ. Mi cÆch chn b cho ta một siŒu phng dc theo chiu th j
.
Đim chia
Mỗi siŒu phng cho ta mt quyết định (tương ng với điểm chia) giœp chia kh ng gian dữ liu R th nh hai
na. Mọi điểm X tha mªn h X 0 nằm trŒn hoặc nm v mt ph a của siŒu phẳng, nhng đim
X tha mªn h X 0 thuc na c n li. Để quyết định một điểm d liu thuc phn n o, ta cn so
sÆnh x b
j
vi 0 ; tc l , so sÆnh x
j
vi v b . GiÆ tr v trŒn trục th j đưc gi là điểm chia. Nh đim
chia, kh ng gian d liu R đưc chia th nh hai phn R
Y
X R x
j
v v R
N
X R x
j
v .
Ph n hoch d liu
K hiu D
Y
v D
N
lần lượt là các điểm d liu lần lưt thuc v R
Y
v R
N
, tc l :
D
Y
X X D x ,
j
v , D
N
X X D x ,
j
v .
lOMoARcPSD|45222017
4
Độ tinh khiết
Độ tinh khiết (purity) ca min R
j
l t l các đim c nhªn chiếm đa số trong R
j
:
putity D j maxi
n
ji
.
(4.2)
n
j
Trong đó, n
j
D
j
l tng s đim d liu nm trong min R
j
, n
ji
l s ợng các điểm trong D
j
v c nhªn l c
i
.
V d 2: H nh 4.2 biu din din c y quyết định vi quÆ tr nh ph n hoch quy) d liu h nh 4.1. Quá
trình đệ quy s kết thœc khi thỏa mãn điều kin dng điu kin dng liên quan đến kích thưc v độ tinh
khiết ca cÆc min. Trong v d này, ta xét ngưỡng kích thước l 5 ngưỡng tinh khiết l 0.95; tc l cÆc
min s tiếp tục được chia khi v ch khi c s đim lớn hơn 5 và độ tinh khiết nh hơn 0.95.
SiŒu phẳng đầu tiŒn l h X x
1
:
1
5.45 0 tương ng vi quyết định x
1
5.45 nœt gốc ca c y
quyết đnh. Hai na kh ng gian nhận được s tiếp tục được chia (đệ quy) th nh cÆc na kh ng gian nh
hơn.
Chng hn, min x
1
5.45 li tÆch bởi biŒu phẳng h
2
X : x
2
2.8 0 tương ng vi quyết định x
2
2.8 tương ứng với nœt con bŒn trÆi của nœt gốc. Ta thy c 7 đim thuc min x
2
2.8; trong
đó, c 1 đim thuc ph n lp c
1
v 6 đim thuc ph n lp c
2
. Độ tinh khiết ca min x
2
2.8 l 6/7 0.857.
Như vậy, min x
2
2.8 c nhiều hơn 5 điểm độ tinh khiết nh hơn 0.95 v do đó, min n y s đưc
tiếp tc chia bởi siŒu phẳng h
4
X : x
1
4.7 0 tương ứng vi quyết định x
1
4.7 .
Ta quay li xØt nửa kh ng gian bŒn phải siŒu phẳng h
2
, tc l min x
2
2.8. Min n y cha 45 đim; tuy
nhiên độ tinh khiết l 44/ 45 0.98, vượt quÆ 0.95. Do đó, miền n y kh ng cn tÆch na. Min x
2
2.8
tr th nh nœt lÆ của c y quyết định và được gÆn nhªn l c
1
. Các độ đo thường xuyŒn của nœt
lÆ cần được lưu lại để đánh giá tỷ l li ca lut ph n lớp tương ứng.
Categorical Attributes (thuc t nh kh ng phi l s)
lOMoARcPSD|45222017
5
C y quyết định cũng được s dng cho d liu kh ng phi l s. Chng hn, thuc t nh x
j
kh ng phi l s v
nhn giÆ tr trŒn dom x j . Khi đó, ta sử dng cÆc quyết định c dng x
j
V ; trong đó,
V dom x j
Lut quyết định
Mt trong những ưu điểm ca c y quyết đnh l cho ta mt m h nh d h nh hiu. Đặc bit, mt c y quyết
định c th đưc xem l mt tp lut quyết định. Mi lut quyết định gm tin t v hu t: tin t bao gm
cÆc quyết định trŒn cÆc nœt dọc theo đường đi đến lÆ, hu t l nhªn ca lÆ.
V d 3: C y quyết hình 4.2 được biu din bi tp luật sau đây:
R
1
: If X
1
5.45 and X
2
2.8 and X
1
4.7 , then class is c
1
;
R
2
: If X
1
5.45 and X
2
2.8 and X
1
4.7, then class is c
2
;
R
3
: If X
1
5.45 and X
2
2.8, then class is c
1
;
R
4
: If X
1
5.45 and X
2
3.45 , then class is c
2
;
R
5
: If X
1
5.45and X
2
3.45 and X
1
6.5 , then class is c
1
;
R
6
: If X
1
5.45 and X
2
3.45and X
1
6.5, then class is c
2
.
4.3. Thut toÆn c y quyết định
Gi mª ca thut toÆn sinh c y quyết định được cho trong h nh 4.3. Đầu v o ca thut toÆn l tp hun
luyn D, giÆ tr ngưng ca leaf size , giÆ tr ngưng của độ tinh khiết .
lOMoARcPSD|45222017
6
H nh 4. 3. Thut toÆn sinh c y quyết đnh
4.3.1. Các độ đo được dùng để đánh giá điểm chia
Trong các trường hp x
j
nhn giÆ tr s v x
j
nhn giÆ tr kh ng phi l s điu kin quyết định (tương ứng
vi đim chia) c dng x
j
v v x V
j
. Ta cần các phương pháp chấm điểm để biết điểm chia như thế n o l
tt.
Entropy
Entropy đo đ hỗn độn hay độ kh ng chc chn ca mt h thng. Trong b i toÆn ph n lp, mi mt min
s c entropy c ng thp nếu n c ng tinh khiết, nghĩa là cha hu hết cÆc đim thuc v cøng mt lp.
Entropy ca tp d liu c nhªn D được xác định như sau:
k
H D
P c D
i
log
2
P c D
i
. (4.3)
i 1
lOMoARcPSD|45222017
7
Trong đó, P c D
i
l xÆc sut ph n lp c
i
xut hin trong D; k l s ng ph n lp. Nếu mt min ho n
to n tinh khiết th s c entropy bng 0 . Mt min ho n to n hỗn đn s c entropy bng log
2
k .
Gi s mt đim chia thc hin tÆch D th nh D
Y
v D
N
. Ta định nghĩa split entropy l trung b nh c trng s
entropy ca cÆc na nhận được:
H D D
Y
,
N
n
Y
H D
Y
n
N
H D
N
.
(4.4) n n
Trong đó,
n D
, n
Y
D
Y
v n
N
D
N
.
T l ng th ng tin (information gain) của điểm chia được định nghĩa như sau:
Gain D D ,
X
,D
Y
H D H D D
Y
,
N
.
(4.5)
T l tăng thông tin càng cao thì điểm chia c ng tt. Do đó, ta có thể chọn điểm chia sao cho t l tang th
ng tin ln nht.
Ch s Gini
Một phương pháp khác để đánh giá điểm chia l s dng ch s GINI. Ch s GINI được định nghĩa như sau:
k
G D
1 P c D
i
2
. (4.6)
i 1
Nếu mt min ho n to n tinh khiết th s c ch s GINI bng 0 . Mt min ho n to n hỗn độn s c ch k 1
s GINI bng . k
Ch s GINI c trng s của điểm chia được định nghĩa như sau:
Y N
n
Y
Y
n
N
N
G D D, G D G D . n n
Trong đó,
n D
, n
Y
D
Y
v n
N
D
N
.
lOMoARcPSD|45222017
8
Ch s GINI c ng thp thì đim chia c ng tt.
Một độ đo khác thể được dùng để thay thế cho entropy v ch s GINI l CART (Classification And
Regression Trees measure):
CART D D
Y
,
N
2 n
Y
n
N k
P c D
iY
P c D
i N
.
(4.7)
n n i 1
Độ đo CART càng cao thì điểm chia c ng tt.
4.3.2. Xác định điểm chia
GiÆ tr ca các đ đo được dùng để đánh giá điểm chia (entropy, ch s GINI, CART) ph thuc v o h m
khi xÆc sut (probability mass function, PMF) ca cÆc ph n lớp trŒn D, trŒn D
Y
, D
N
tc l các đại
ng P c D
i
, P c D
iY
v P c D
iN
.
Thuc t nh l s
Gi s X l thuc t nh nhn giÆ tr l s. Ta cần đánh giá các đim chia c dng X v . Ta thy rng c v s
cÆch chn v . C mt cÆch hợp lý hơn là xét v l trung b nh cng ca hai giÆ tr kế tiếp khÆc nhau ca D t
nh trŒn chiều X . Nếu D c n giÆ tr ph n bit t nh theo chiu X th ta ch cn xØt n 1 giÆ tr ca v .
Gi s cÆc giÆ tr cn xØt ca v l v v
1 2
, , ,v
m
(v
1
v
2
v
m
). Vi mi v , ta cn t nh xÆc h m xÆc
sut khi:
P c D
iY
P c X v
i
, (4.8)
P c D
iN
P c X v
i
. (4.9)
Theo định l Bayes:
i P X vc P c
i
i
P X vc P c
i
i
P c X v
k
. (4.10)
lOMoARcPSD|45222017
9
P X v P X vc P c j j
j 1
Li c :
P cˆ
1
k
I y c
n
i
.
(4.11)
i
n j 1
j i
n
Trong đó, I l h m ch, y
j
l ph n lp ca X
j
,
n D
, n
i
l s đim ca D thuc ph n lp c
i
. K hiu N
vi
l s đim
đồng thi tha mªn x
j
v v thuc ph n lp c
i
, trong đó x
j
l giÆ tr thuc t nh X ca X
j
:
k
N
vi
I x j vand y
j
c
i
. (4.12)
j 1
Do đó:
P Xˆ v ci P Xˆ v iand ci 1 jn1 I x j v
and yj
ci ni
P cˆ n n
N
vi
.
ni
Thay (4.11) v (4.13) v o (4.10):
(4.13)
P c D
iY
P c X v
i
k
N
vi
.
N
vj
j 1
Ta c :
(4.14)
lOMoARcPSD|45222017
10
P X vcˆ i 1 P X vcˆ i 1
Nvi n Ni vi ni ni
T (4.11) v (4.15) suy ra:
.
(4.15)
P c D iN P c X v i k P X vc P c i i k n Ni vi
. (4.16)
P X vc P c
j
j
n N
j
vj
j 1 j 1
H nh 4.4 l gi ca thuật toán xác định điểm chia trong trường hp thuc t nh X nhn giÆ tr l s. Ta
thấy độ phc tp ca thut toÆn l O n logn .
V d 4: XØt tiếp Iris dataset l tp d liu D c s đim d liu l n 150 . Ta c n
1
50 (iris-setosa) v n
2
100
(c n li). Do đó:
P c 1 50 1 ; P c 2 100 2 .
150 3 150 3
lOMoARcPSD|45222017
11
H nh 4. 4. Thuật toán xác định điểm chia trong trường hp thuc t nh X nhn giÆ tr l s
Do đó, theo c ng thc (4.3), entropy ca D l :
H D
1
log
2
1
2
log
2
2
0.918 .
3 3 3 3
XØt thuc t nh X
1
. Để đánh giá các điểm chia, ta cn t nh cÆc tn s N
vi
(c ng thc 4.12) . CÆc giÆ tr N
vi
đưc th hin h nh 4.5. Xét điểm chia X
1
5.45, ta c :
N
v1
45, N
v2
7.
Thay vào phương trình (4.14):
P c D
1Y
N
v
1
45 0.865,
Nv1 Nv2 45 7
lOMoARcPSD|45222017
12
P c D
2Y
N
v
2
7
0.135 .
Nv1 Nv2 45 7
H nh 4. 5. CÆc tn s N_{vi}
T phương trình (4.16), ta có:
P c D 1N n N1 v1 50 45 0.051,
n N
1
v1
n N
2 v2
50 45 100 7
2N
n
2
N
v
2
100 7
P c D
0.949 .
n
1
N
v1
n
2
N
v2
50 45 100 7
Suy ra entropy ca D
Y
, D
N
:
H D
Y
0.865log
2
0.865 0.135log
2
0.135 0.571,
H D(
N
) 0.051log 0.051 0.949log
2
2
0.949 0.291.
Theo phương trình (4.4):
lOMoARcPSD|45222017
13
H D D
Y
,
N
52
H D(
Y
)
98
H D(
N
) 0.388.
150 150
Suy ra t l ng th ng tin của điểm chia l :
Gain H D -H D D
Y
,
N
0.918 0.388 0.53.
Tương t, ta c th tính được t l ng th ng tin cho tt c các điểm chia trŒn cả thuc t nh X
1
, X
2
như
trong hình 4.6.
H nh 4. 6. T l tăng thông tin
Ta thy rằng điểm chia X 5.45 l tt nhất và đưc chn l gc ca c y quyết định. Thut toÆn li tiếp din
một cách đệ quy v cuối cùng ta thu được c y quyết định.
Thuc t nh kh ng l s
Nếu thuc t nh X kh ng phi l s thì các điểm chia c dng X V vi V dom X v V . Khi
ph n hoch bởi điểm chia X V ta đưc cøng kết qu khi ph n hoch bởi điểm chia
X V
vi
V dom X \V . Do đó, s cÆc ph n hoch cn xØt l :
lOMoARcPSD|45222017
14
m/2
m
O 2m 1 .
(4.17)
i
1
i
Trong đó,
m dom X
. Ta thy s cÆch ph n hoch l một hàm mũ, dẫn đến khó khăn trong tính toÆn
khi m ln. Mt tiếp cn nhằm đơn giản h a vấn đề đã nêu chỉ xét các trường hp m V c mt phn t,
nghĩa là điểm chia c dng X
j
v vi v dom X
j .
Để đánh giá điểm chia X V , ta cn t nh cÆc h m khi xÆc sut:
P c D
iY
P c X V
i
, P c D
iN
P c X V
i
.
S dng c ng thc Bayes, ta c :
i P X V c P c
i
i
P X V c P c
i
i
P c X V k .
P X V
P X V cj P cj
j 1
Ta c P X V c
i
P X vc
i
. Suy ra, c ng thc t nh P c X V
i
đưc viết lại như sau:
v V
P X vc P c i i
P c X V
i
k
v V
. (4.18)
P X vc P c j j
j 1 v V
K hiu n
vi
l s phn t thuc D c giÆ tr thuc t nh X bng v v thuc ph n lp c
i
. Ta c :
P X v c
ˆ
i P X vand cˆ
i
lOMoARcPSD|45222017
15
P cˆ
i
nvi ni
n n
n
vi
. (4.19)
ni
Thay (4.19) v o (4.18), ta được:
P Xˆ v c P c
i
ˆ
i
n
vi
P Xˆ
v cj
P cˆ
j
n
vj
P c D iY k v V kv V . (4.20)
j 1 v V j 1 v V
Tương tự, ta cũng có
n
vi
P c D
iY
k
v V
.
(4.21)
n
vj
j 1 v V
H nh 4.7 l gi mª ca thuật toán xác định điểm chia trong trường hp thuc t nh X kh ng phi l s.
Trong đó, l l s phn t tối đa của V , do người dùng định nghĩa (
1
n
m
2
).
lOMoARcPSD|45222017
16
H nh 4. 7. Thuật toán xác định điểm chia cho thuc t nh kh ng phi l s
4.3.3. Độ phc tp
Ta chứng minh được độ phc tp ca thut toÆn x y dng c y quyết định l O dn
2
logn .
| 1/16

Preview text:

lOMoARcPSD| 45222017 lOMoAR cPSD| 45222017
§ 4. Ph n lớp dựa v o c y quyết định 4.1. Giới thiệu D XØt tập huấn luyện X n i , yi i
1 gồm n điểm trong kh ng gian d chiều, yi l nhªn của điểm Xi . Mỗi
điểm Xi l một bộ gồm d thuộc t nh, mỗi thuộc t nh c thể nhận giÆ trị l số hoặc category; số ph n lớp bằng k , tức l yi c c1 2, ,
,ck . Giả sử R l kh ng gian dữ liệu của D (kh ng gian chứa các điểm Xi ) .
C y quyết định sử dụng một siŒu phẳng song song với trục để chia R th nh hai miền
R1, R2 ; dẫn tới D cũng được chia th nh D1 , D2 . CÆc miền lại được chia (đệ quy) bởi cÆc siŒu phẳng
song song với cÆc trục cho đến khi cÆc miền nhận được l tinh khiết (pure), nghĩa là hầu hết các điểm
của cøng một miền đều thuộc về cøng một ph n lớp. Việc ph n chia c thứ tự miền D c thể được thể hiện
dưới dạng một c y (gọi l c y quyết định). Mỗi lÆ của c y quyết định được gÆn nhªn bởi một ph n lớp v
hầu hết cÆc phần tử tương ứng với miền đều thuộc ph n lớp đó. Để ph n lớp một điểm dữ liệu mới. Để
ph n lớp một điểm dữ liệu mới, xuất phÆt từ nœt gốc ta cần đánh giá liên tiếp xem điểm dữ liệu đó
thuộc nhÆnh n o của c y quyết định, cho đến khi đạt được nœt lÆ – nœt lÆ sẽ chỉ ra điểm dữ liệu thuộc ph n lớp n o.
V dụ 4.1. XØt Iris dataset như hình 4.1. Ta quan tâm đến hai thuộc t nh sepal length ( x1) v sepal width (
x2 ). Ta muốn ph n dữ liệu th nh hai lớp: lớp c1 l iris-setosa (h nh tr n), lớp c2 gồm hai lo i c n lại (h nh tam
giÆc). D gồm 150 điểm dữ liệu nằm trong kh ng gian dữ liệu h nh chữ nhật R 4.3,7.9 2.0,4.4 .
Ta ph n hoạch R bởi cÆc siŒu phẳng song song với cÆc trục. Trong trường hợp hai chiều, cÆc siŒu
phẳng chính là các đường thẳng. Ta chia R (đệ quy) bởi 5 siŒu phẳng h0 , h2 , …, h5 . Tập hợp cÆc siŒu
phẳng v 6 miền tương ứng R1, R2 , …, R6 cho ta một c y quyết định. 1 lOMoARcPSD| 45222017 z XØt dữ liệu kiểm tra 6.75,4.25
T (h nh vu ng). Để dự đoán phân lớp của z , c y quyết định kiểm tra
z thuộc miền n o trong hai miền được chia ra bởi h0 . Ta thấy z thuộc nửa bŒn phải của miền được chia
ra bởi h0 . Quá trình này được lặp lại liŒn tiếp, ta thấy z thuộc miền ở ph a trŒn h3 v nằm ở miền bŒn
phải h5 . Và như vậy, z thuộc miền R6 ; ta dự đoán phân lớp của z l c2.
4.2. C y quyết định
Một c y quyết định bao gồm những nút trong dùng để biểu diễn cÆc quyết định tương ứng với siŒu
phẳng hay điểm chia. CÆc nœt lÆ biểu diễn những miền con của kh ng gian dữ liệu, được gÆn nhªn l
nhªn của những điểm dữ liệu chiếm đại bộ phận của miền.
H nh 4. 1. Iris dataset 2 lOMoARcPSD| 45222017
H nh 4. 2. C y quyết định tương ứng
SiŒu phẳng song song với trục
CÆc siŒu phẳng song song với trục có phương trình dạng: h X :x j b0. (4.1)
Trong đó, b là độ lệch tính đến gốc tọa độ. Mỗi cÆch chọn b cho ta một siŒu phẳng dọc theo chiều thứ j . Điểm chia
Mỗi siŒu phẳng cho ta một quyết định (tương ứng với điểm chia) giœp chia kh ng gian dữ liệu R th nh hai
nửa. Mọi điểm X thỏa mªn h X
0 nằm trŒn hoặc nằm về một ph a của siŒu phẳng, những điểm
X thỏa mªn h X
0 thuộc nửa c n lại. Để quyết định một điểm dữ liệu thuộc phần n o, ta cần so
sÆnh x bj với 0 ; tức l , so sÆnh xj với v
b . GiÆ trị v trŒn trục thứ j được gọi là điểm chia. Nhờ điểm
chia, kh ng gian dữ liệu R được chia th nh hai phần RY X R xj v v RN X R xj v .
Ph n hoạch dữ liệu
K hiệu DY v DN lần lượt là các điểm dữ liệu lần lượt thuộc về RY v RN , tức l : DY X X D x , j v
, DN X X D x , j v . 3 lOMoARcPSD| 45222017 Độ tinh khiết
Độ tinh khiết (purity) của miền Rj l tỷ lệ các điểm c nhªn chiếm đa số trong Rj : n putity D ji j maxi . (4.2) nj Trong đó, n j
Dj l tổng số điểm dữ liệu nằm trong miền Rj , nji l số lượng các điểm trong Dj v c nhªn l ci .
V dụ 2: H nh 4.2 biểu diễn diễn c y quyết định với quÆ tr nh ph n hoạch (đệ quy) dữ liệu ở h nh 4.1. Quá
trình đệ quy sẽ kết thœc khi thỏa mãn điều kiện dừng – điều kiện dừng liên quan đến kích thước v độ tinh
khiết của cÆc miền. Trong v dụ này, ta xét ngưỡng kích thước l 5 và ngưỡng tinh khiết l 0.95; tức l cÆc
miền sẽ tiếp tục được chia khi v chỉ khi c số điểm lớn hơn 5 và độ tinh khiết nhỏ hơn 0.95.
SiŒu phẳng đầu tiŒn l h X x 1
: 1 5.45 0 tương ứng với quyết định x1 5.45 ở nœt gốc của c y
quyết định. Hai nửa kh ng gian nhận được sẽ tiếp tục được chia (đệ quy) th nh cÆc nửa kh ng gian nhỏ hơn. Chẳng hạn, miền x 1
5.45 lại tÆch bởi biŒu phẳng h2 X : x2
2.8 0 tương ứng với quyết định x2
2.8 tương ứng với nœt con bŒn trÆi của nœt gốc. Ta thấy c 7 điểm thuộc miền x 2 2.8; trong
đó, c 1 điểm thuộc ph n lớp c
1 v 6 điểm thuộc ph n lớp c2. Độ tinh khiết của miền x2 2.8 l 6/7 0.857. Như vậy, miền x 2
2.8 c nhiều hơn 5 điểm và có độ tinh khiết nhỏ hơn 0.95 v do đó, miền n y sẽ được
tiếp tục chia bởi siŒu phẳng h 4 X : x1
4.7 0 tương ứng với quyết định x1 4.7 .
Ta quay lại xØt nửa kh ng gian bŒn phải siŒu phẳng h 2 , tức l miền x2
2.8. Miền n y chứa 45 điểm; tuy
nhiên độ tinh khiết l 44/ 45 0.98, vượt quÆ 0.95. Do đó, miền n y kh ng cần tÆch nữa. Miền x 2 2.8
trở th nh nœt lÆ của c y quyết định và được gÆn nhªn l c1. Các độ đo thường xuyŒn của nœt
lÆ cần được lưu lại để đánh giá tỷ lệ lỗi của luật ph n lớp tương ứng.
Categorical Attributes (thuộc t nh kh ng phải l số) 4 lOMoARcPSD| 45222017
C y quyết định cũng được sử dụng cho dữ liệu kh ng phải l số. Chẳng hạn, thuộc t nh xj kh ng phải l số v
nhận giÆ trị trŒn dom x j
. Khi đó, ta sử dụng cÆc quyết định c dạng xj V ; trong đó, V dom x j Luật quyết định
Một trong những ưu điểm của c y quyết định l cho ta một m h nh dễ h nh hiểu. Đặc biệt, một c y quyết
định c thể được xem l một tập luật quyết định. Mỗi luật quyết định gồm tiền tố v hậu tố: tiền tố bao gồm
cÆc quyết định trŒn cÆc nœt dọc theo đường đi đến lÆ, hậu tố l nhªn của lÆ.
V dụ 3: C y quyết ở hình 4.2 được biểu diễn bởi tập luật sau đây: R 1: If X1 5.45 and X2 2.8 and X1
4.7 , then class is c1; R 2 : If X1 5.45 and X2 2.8 and X1 4.7, then class is c2; R 3: If X1 5.45 and X2 2.8, then class is c1;
R4 : If X1 5.45 and X2 3.45 , then class is c2; R 5: If X1
5.45and X2 3.45 and X1
6.5 , then class is c1; R 6 : If X1
5.45 and X2 3.45and X1 6.5, then class is c2.
4.3. Thuật toÆn c y quyết định
Giả mª của thuật toÆn sinh c y quyết định được cho trong h nh 4.3. Đầu v o của thuật toÆn l tập huấn
luyện D, giÆ trị ngưỡng của leaf size , giÆ trị ngưỡng của độ tinh khiết . 5 lOMoARcPSD| 45222017
H nh 4. 3. Thuật toÆn sinh c y quyết định
4.3.1. Các độ đo được dùng để đánh giá điểm chia
Trong các trường hợp xj nhận giÆ trị số v xj nhận giÆ trị kh ng phải l số điều kiện quyết định (tương ứng
với điểm chia) c dạng x j v v x Vj
. Ta cần các phương pháp chấm điểm để biết điểm chia như thế n o l tốt. Entropy
Entropy đo độ hỗn độn hay độ kh ng chắc chắn của một hệ thống. Trong b i toÆn ph n lớp, mỗi một miền
sẽ c entropy c ng thấp nếu n c ng tinh khiết, nghĩa là chứa hầu hết cÆc điểm thuộc về cøng một lớp.
Entropy của tập dữ liệu c nhªn D được xác định như sau: k H D P c D i log2 P c D i . (4.3) i 1 6 lOMoARcPSD| 45222017 Trong đó, P c D i
l xÆc suất ph n lớp ci xuất hiện trong D; k l số lượng ph n lớp. Nếu một miền ho n
to n tinh khiết th sẽ c entropy bằng 0 . Một miền ho n to n hỗn độn sẽ c entropy bằng log2 k .
Giả sử một điểm chia thực hiện tÆch D th nh DY v DN . Ta định nghĩa split entropy l trung b nh c trọng số
entropy của cÆc nửa nhận được: H D D nY nN Y , N H D Y H D N . (4.4) n n n D Trong đó, , n Y DY v nN DN .
Tỷ lệ tăng th ng tin (information gain) của điểm chia được định nghĩa như sau: Gain D D , X ,DY H D
H D D Y ,N . (4.5)
Tỷ lệ tăng thông tin càng cao thì điểm chia c ng tốt. Do đó, ta có thể chọn điểm chia sao cho tỷ lệ tang th ng tin lớn nhất. Chỉ số Gini
Một phương pháp khác để đánh giá điểm chia l sử dụng chỉ số GINI. Chỉ số GINI được định nghĩa như sau: k G D 1 P c D 2 i . (4.6) i 1
Nếu một miền ho n to n tinh khiết th sẽ c chỉ số GINI bằng 0 . Một miền ho n to n hỗn độn sẽ c chỉ k 1 số GINI bằng . k
Chỉ số GINI c trọng số của điểm chia được định nghĩa như sau: Y N nY Y nN N G D D,
G D G D . n n n D Trong đó, , n Y DY v nN DN . 7 lOMoARcPSD| 45222017
Chỉ số GINI c ng thấp thì điểm chia c ng tốt.
Một độ đo khác có thể được dùng để thay thế cho entropy v chỉ số GINI l CART (Classification And
Regression Trees measure): CART D D Y ,N 2 nY nN k P c D iY P c D i N . (4.7) n n i 1
Độ đo CART càng cao thì điểm chia c ng tốt.
4.3.2. Xác định điểm chia
GiÆ trị của các độ đo được dùng để đánh giá điểm chia (entropy, chỉ số GINI, CART) phụ thuộc v o h m
khối xÆc suất (probability mass function, PMF) của cÆc ph n lớp trŒn D, trŒn DY , DN tức l các đại lượng P c D i , P c D
iY v P c D iN . Thuộc t nh l số
Giả sử X l thuộc t nh nhận giÆ trị l số. Ta cần đánh giá các điểm chia c dạng X v . Ta thấy rằng c v số
cÆch chọn v . C một cÆch hợp lý hơn là xét v l trung b nh cộng của hai giÆ trị kế tiếp khÆc nhau của D t
nh trŒn chiều X . Nếu D c n giÆ trị ph n biệt t nh theo chiều X th ta chỉ cần xØt n 1 giÆ trị của v .
Giả sử cÆc giÆ trị cần xØt của v l v v 1 2, , ,vm (v1
v2 vm ). Với mỗi v , ta cần t nh xÆc h m xÆc suất khối: P c D iY P c X v i , (4.8) P c D
iN P c X v i . (4.9) Theo định l Bayes: i P X vc P c i i P X vc P c i i P c X v k . (4.10) 8 lOMoARcPSD| 45222017 P X v P X vc P c j j j 1 Lại c : P cˆ 1 k I y c ni . (4.11) i n j 1 j i n n D
Trong đó, I l h m chỉ, y j l ph n lớp của X j ,
, ni l số điểm của D thuộc ph n lớp ci . K hiệu Nvi l số điểm
đồng thời thỏa mªn xj v v thuộc ph n lớp ci , trong đó xj l giÆ trị thuộc t nh X của X j : k Nvi I x j vand yj ci . (4.12) j 1 Do đó: P Xˆ v c i P Xˆ v iand ci 1 jn1 I x j v and yj c i ni P cˆ n n (4.13) Nvi . ni
Thay (4.11) v (4.13) v o (4.10): N (4.14) P c D vi iY P c X v i k . Nvj j 1 Ta c : 9 lOMoARcPSD| 45222017 . (4.15) P X vcˆ i 1 P X vcˆ i 1 N vi n Ni vi ni ni Từ (4.11) v (4.15) suy ra: P c D iN P c X v i k P X vc P c i i k n Ni vi . (4.16) P X vc P c j j n Nj vj j 1 j 1
H nh 4.4 l mª giả của thuật toán xác định điểm chia trong trường hợp thuộc t nh X nhận giÆ trị l số. Ta
thấy độ phức tạp của thuật toÆn l O n logn .
V dụ 4: XØt tiếp Iris dataset l tập dữ liệu D c số điểm dữ liệu l n 150 . Ta c n1 50 (iris-setosa) v n2 100 (c n lại). Do đó: P c 1 50 1 ; P c 2 100 2 . 150 3 150 3 10 lOMoARcPSD| 45222017
H nh 4. 4. Thuật toán xác định điểm chia trong trường hợp thuộc t nh X nhận giÆ trị l số
Do đó, theo c ng thức (4.3), entropy của D l : 1 2 H D 1 log 2 2 log2 0.918 . 3 3 3 3
XØt thuộc t nh X1. Để đánh giá các điểm chia, ta cần t nh cÆc tần số Nvi (c ng thức 4.12) . CÆc giÆ trị Nvi
được thể hiện ở h nh 4.5. Xét điểm chia X1 5.45, ta c : N v1 45, Nv2 7.
Thay vào phương trình (4.14): P c D 1Y Nv1 45 0.865, Nv1 Nv2 45 7 11 lOMoARcPSD| 45222017 P c D Nv2 7 2Y 0.135 . Nv1 Nv2 45 7
H nh 4. 5. CÆc tần số N_{vi}
Từ phương trình (4.16), ta có: P c D 1N n N1 v1 50 45 0.051, n N 1 v1 n N2 v2 50 45 100 7 2N n2 Nv2 100 7 P c D 0.949 . n 1 Nv1 n2Nv2 50 45 100 7
Suy ra entropy của DY , DN : H D Y
0.865log2 0.865 0.135log2 0.135 0.571, H D( N ) 0.051log 0.051 0.949log2 2 0.949 0.291. Theo phương trình (4.4): 12 lOMoARcPSD| 45222017 H D D 52 Y ,N H D( Y ) 98 H D( N ) 0.388. 150 150
Suy ra tỷ lệ tăng th ng tin của điểm chia l :
Gain H D -H D D Y ,N 0.918 0.388 0.53.
Tương tự, ta c thể tính được tỷ lệ tăng th ng tin cho tất cả các điểm chia trŒn cả thuộc t nh X1 , X2 như trong hình 4.6.
H nh 4. 6. Tỷ lệ tăng thông tin
Ta thấy rằng điểm chia X 5.45 l tốt nhất và được chọn l gốc của c y quyết định. Thuật toÆn lại tiếp diễn
một cách đệ quy v cuối cùng ta thu được c y quyết định.
Thuộc t nh kh ng l số
Nếu thuộc t nh X kh ng phải l số thì các điểm chia c dạng X V với V dom X v V . Khi X V
ph n hoạch bởi điểm chia X V ta được cøng kết quả khi ph n hoạch bởi điểm chia với
V dom X \V . Do đó, số cÆc ph n hoạch cần xØt l : 13 lOMoARcPSD| 45222017 m m/2 O 2m 1 . (4.17) i 1 i m dom X Trong đó,
. Ta thấy số cÆch ph n hoạch l một hàm mũ, dẫn đến khó khăn trong tính toÆn
khi m lớn. Một tiếp cận nhằm đơn giản h a vấn đề đã nêu là chỉ xét các trường hợp m V c một phần tử,
nghĩa là điểm chia c dạng X j v với v dom X j .
Để đánh giá điểm chia X V , ta cần t nh cÆc h m khối xÆc suất: P c D iY P c X V i , P c D iN P c X V i .
Sử dụng c ng thức Bayes, ta c : i P X V c P ci iP X V c P ci i
P c X V k .
P X V P X V c j P cj j 1 Ta c P X V c i P X vc
i . Suy ra, c ng thức t nh P c X V i được viết lại như sau: v V P X vc P c i i P c X V v V i k . (4.18) P X vc P c j j j 1 v V
K hiệu nvi l số phần tử thuộc D c giÆ trị thuộc t nh X bằng v v thuộc ph n lớp ci . Ta c : ˆ P X v c i P X vand cˆ i 14 lOMoARcPSD| 45222017 P cˆ i n vi ni n n n vi . (4.19) ni
Thay (4.19) v o (4.18), ta được: P Xˆ v c P c ˆ i i nvi P Xˆ v cj P cˆ j nvj P c D iY k v V kv V . (4.20) j 1 v V j 1 v V Tương tự, ta cũng có nvi P c D v V iY k . (4.21) nvj j 1 v V
H nh 4.7 l giả mª của thuật toán xác định điểm chia trong trường hợp thuộc t nh X kh ng phải l số. 1
Trong đó, l l số phần tử tối đa của V , do người dùng định nghĩa ( n m2 ). 15 lOMoARcPSD| 45222017
H nh 4. 7. Thuật toán xác định điểm chia cho thuộc t nh kh ng phải l số
4.3.3. Độ phức tạp
Ta chứng minh được độ phức tạp của thuật toÆn x y dựng c y quyết định l O dn 2 logn . 16