Đề thi kết thúc môn Khai phá dữ liệu dạng trắc nghiệm có đáp án

Đề thi kết thúc môn Khai phá dữ liệu dạng trắc nghiệm có đáp án giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng ôn tập và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao. Mời bạn đọc đón xem!

lOMoARcPSD|36667950
Đại Hc Quc Gia Tp. HCM M đề thi: 01
Trường Đại Hc B ch Khoa
Khoa Khoa Hc v K Thut M y T nh
Đề thi môn Khai Phá Dữ Liệu
HK1/2018-2019 - Thời gian: 90 ph t
MSMH: CO3029 - Ng y thi: 21/12/2018
(Đề thi gồm 6 trang. Sinh vi n l m phần trắc nghiệm tr n phiếu trả lời trắc nghiệm, phần tự luận ngay
tr n đề thi v nộp lại)
(Sinh vi n được ph p tham khảo t i liệu giấy)
H v T n
MSSV
Phần 1. Trắc nghiệm (7.0 điểm): Chn 1 c u tr li đng nht v t v o phiếu tr li trc nghim
1. Trong gii thut Apriori
a. |C
k
|
| L
k
|
b. |C
k
|
|C
k+1
|
c. tp d liu D s được qu t m ln vi m l
chiu d i ca tp thường xuy n xut hin
(frequent itemset) d i nht
d. c u a v c đều đng
2. Để kim tra gii thut gradient descent vi
mc ti u l cc tiu h a h m chi ph J( )θ c hi
t hay kh ng ta cn kim tra:
a. J( )θ c gim mi bước lp
b. J( )θ c tăng mi bước lp
c. J( )θ =0 sau 10,000 ln lp
d. h s hc α c được thiết lp đủ ln, v d
bng 0.1
3. Khi ph n loi d liu d ng c y quyết định, độ
đo n o sau đy gi p tr nh to ra c c ph n hoch
c qu t đối tượng
a. Information Gain
b. GainRatio
c. GiniIndex
d. tt c c c c u tr n đều sai
4. Phương ph p gom cm n o sau đy gi p ph t
hin được c c cm c dng h nh ng (pipe) tt
nht
a. K-Means
b. K-Medoids
c. DBSCAN
d. BIRCH
5. Trong k thut gom cụm dựa v o mật độ, ph t
biu n o sau đy đng:
a. trong cm ch c mt core object, đ l trung t m
cm
b. mi phn t trong mt cm c t nht MinPts
phn t kh c gn n (trong phm vi b n k nh l
ε)
c. khong c ch t mt phn t a đến mt core
object n o đ nh hơn ε th a thuc v cm
d. tt c c c c u tr n đều sai
6. Ph t biu n o sau đy ĐNG trong khai ph lut kết
hp:
a. support c ý nghĩa quan trng hơn
confidence
b. support_count(A => B) l s ln xut hin
đồng thi ca A v B trong tp d liu D
c. support(A => B) lu n ln hơn
confidence(A=> B)
d. tt c c c c u tr n đều sai
7. Gii thut FP-Growth
a. qu t tp d liu D (tp d liu ln) m ln vi
m l s d ng trong header table
b. thường chy chm hơn gii thut Apriori
c. tp hp c c node tr n mt nh nh ca FP-tree
phi xut hin t nht k ln trong D, vi k l s
đếm (count) ca node l trong nh nh đang x t
d. tt c c c c u tr n đều sai
D kin dưới đy d ng cho 3 c u sau đy:
Cho T cha 500,000 giao dch trong đ s giao dch
chứa b nh m, chứa mứt v chứa đồng thời b nh m v mứt
ln lượt l 20000, 30000 v 10000.
1/6
lOMoARcPSD|36667950
2/6
8. Độ h tr (support) ca ph t biu "ai mua
lOMoARcPSD|36667950
3/6
mứt đều sẽ mua b nh m" l :
a. 2%
b. 33.33%
c. 50%
d. Tt c c c c u tr n đều sai
9. Độ tin cy (confidence) ca ph t biu "ai mua
mứt đều sẽ mua b nh m" l :
a. 66.66%
b. 33.33%
c. 45%
d. 50%
10. Khi s lượng giao dch trong T tăng l n
10,000,000 nhưng s lượng giao dch mua mt
v b nh m n u tr n kh ng đổi th ph t biu "ai
mua mứt đều sẽ mua b nh m" s
a. thay đổi độ h tr
b. thay đổi độ tin cy
c. c độ h tr v độ tin cy đều thay đổi
d. tt c c c c u tr n đều sai
11. Sau khi chy gii thut FP-Growth tr n tp d
liu D, trong tp kết qu c mt s tp thường
xuy n xut hin c chiu d i l 5. Gii thut FG-
Growth n y đ qu t (scan) qua D
a. 1 ln
b. 2 ln
c. 5 ln
d. t nht l 5 ln
12. Logistic regression l mt phương ph p d ng để
a. d đo n (prediction)
b. ph n lp (classification)
c. m t d liu (description)
d. gom cm d liu (clustering)
13. Ph t biu n o sau đy SAI trong ph n lp d liu
a. d liu hun luyn lu n phi cha nh n (label)
b. d liu kim tra lu n phi cha nh n
c. d liu kim tra kh ng cn phi cha nh n v
đy l tp được d ng để kim tra m h nh v
nh n s được to ra t m h nh
d. d liu hun luyn v kim tra phi c cu tr c
ging nhau
14. K thut gom cm n o sau đy khi động bng c
ch xem mi đối tượng d liu l mt cm
a. K-Means
b. ph n hoch (partition)
c. trn (agglomerative) d liu da v o c y ph n
cp
d. ph n cm da v o mt độ
15. Trong web mining, để hiu được th t c c URL
được truy cp, ta thường d ng phương ph p n o
a. ph n t ch chui tun t (sequetial analysis)
b. khai ph lut kết hp (association rule)
c. ph n lp (classification)
d. ph n t ch tương quan (correlation analysis)
16. C c mu điu kin cơ s (conditional pattern base)
được to ra
a. cho mi frequent item trong header table
b. bng c ch duyt c y FP-Tree (t dưới l n), xut ph
t t node đầu ti n trong danh s ch node link ca
item đang x t v phi duyt hết c c node trong danh
s ch n y
c. hai c u a v b đng
d. tt c c c c u tr n đều sai
17. Ph t biu n o sau đy v gom cm d liu l SAI
a. khong c ch gia c c phn t trong c ng mt cm
c ng nh c ng tt
b. khong c c gia c c phn t c c cm kh c nhau c
ng nh c ng tt
c. m h nh gom cm tt khi n ph t hin được c c cm
c h nh dng bt k
d. gii thut K-means thường cho kết qu l c c
cm c dng h nh cu v c k ch thước gn ging
nhau
18. Hi qui tuyến t nh c th được d ng để
a. x lý d liu b nhiu
b. d đo n gi tr d liu s
c. ph n lp d liu c nh n (classification)
d. c u a v b đng
D kiu sau đy d ng cho hai c u sau:
Mt m h nh ph n lp (classifier) d ng h m sau
1
h X
θ
( )
=
θ
T
X
1+e
l m gi thuyết (hypothesis) cho vic ph n lp.
lOMoARcPSD|36667950
4/6
19. Ph t biu n o sau đy SAI
a. X l tp d liu mu
b. đy l h m hi qui logistic
c. đy l h m sigmoid
d. h
θ
(X) l x c sut để Y = "1" (vi Y l thuc
t nh nh n v "1" l nh n m ta quan t m)
20. Ph t biu n o sau đy ĐNG
a. h
θ
(X) [-1, 1]
b. h
θ
(X) [0, 1]
c. X l vector c c thuc t nh đầu v o (input
features) ca tp d liu mu (bao gm
X
0
=1)
d. hai c u b v c đng
Cho b ph n lp M thc hin vic ph n loi d
liu c ba nh n A, B v C. Kết qu ph n loi được
biu din bi ma trn sai bit (confusion matrix)
như sau. H y chn c u tr li đng cho hai c u hi
sau đy.
Ph n lp th nh
Thc tế A B C
A 116 13
10
B 14 11 20
C 11 10 122
21. Độ ch nh x c (precision) ca vic ph n loi d
liu thuc lp A l (l m tr n đến 3 ch s thp ph
n):
a. 0.823
b. 0.835
c. 0.803
d. 0.745
22. Độ truy hi (recall) ca vic ph n loi d liu
thuc lp A l (l m tr n đến 3 ch s thp ph n):
a. 0.752
b. 0.835
c. 0.803
d. 0.829
23. Weka KH NG h tr chc năng n o sau đy?
a. x y dng (train) m h nh, lưu tr m h nh v
s dng li m h nh đ để thc thi vi d liu
mi
b. la chn c c thuc t nh da v o tương quan
gia c c thuc t nh độc lp vi thuc t nh ph
thuc (v d thuc t nh ph n lp)
c. đọc d liu c định dng file l ARFF
d. tt c c c c u tr n đều sai
24. Ph t biu n o sau đy SAI v mng nơ-ron nh n to -
Artificial Neural Network (ANN)
a. h m k ch hot (activation function) thường được d
ng l h m sigmoid
b. c th c nhiu hơn mt lp n (hidden layer)
c. vic t m trng s (weight) cho c c li n kết được
thc hin da tr n phương ph p feedforward
d. vic chn h s hc (learning rate) s nh
hưởng đến tc độ cũng như kh năng hi t ca
gii thut
25. Độ đo n o được d ng đối vi c c d liu nh ph n
a. Manhattan
b. Jaccard
c. Euclidean
d. Minkowski
26. Gi R
A,B
l s tương quan gia hai thuc t nh A v B
trong tp d liu D, ph t biu n o sau đy SAI
a. R
A,B
[-1, 1]
b. R
A,B
=1 th ta n n loi mt trong hai thuc t nh
trong qu tr nh khai ph d liu
c. R
A,B
= -1 th ta n n loi mt trong hai thuc t nh
trong qu tr nh khai ph d liu
d. R
A,B
cao th hin s ph thuc ln nhau gia A v
B cao
27. Ph t biu n o dưới đy SAI v điu kin dng ca gii
thut x y dng c y quyết định:
a. Tt c nhng th hin trong ph n hoch D (ti n t
N đang x t) thuc v c ng mt lp
b. Kh ng c n thuc t nh n o na m c c th hin c th
được ph n hoch th m
c. Vic tiếp tc la chn c c thuc t nh ph n t ch kh
ng l m tăng độ li th ng tin
d. Kh ng c n th hin n o na tr n nh nh đang x t, tc
l ph n hoch D b rng
28. Trong s c c phương ph p ph n lp d liu, phương
ph p n o c t nh cht hc tăng cường (incremental
learning):
a. C y quyết định
lOMoARcPSD|36667950
5/6
b. Na ve Bayes
c. Mng nơ ron
d. k-nearest neighbor
29. C c độ đo v s ph n t n ca d liu Q1, Q2, Q3,
IQR c t c dng trong vic:
a. Ph t hin c c phn t nhiu, c c phn t bi n
b. Cung cp c i nh n tng quan v ph n b d
liu
c. Chun h a d liu, la chn thuc t nh
d. Ph n lp d liu (classification)
e. C hai c u a v b đều đng
30. Tri thc c th đạt được t qu tr nh khai ph d
liu l :
a. M h nh ph n loi / d đo n
b. M h nh gom cm / c c mi quan h, lut kết
hp
c. C c phn t bi n, ngoi lai
d. Xu hướng biến di d liu / c c mu thường
xuy n
lOMoARcPSD|36667950
6/6
e. Tt c c c c u tr n đều đng
lOMoARcPSD|36667950
7/6
31. Ph p kim thng k chi-square được d ng để:
a. T m ra nhng đim chia để ri rc h a d liu
b. To ra c c mc ý nim để thc hin vic tng
qu t h a d liu
c. Ph n t ch s độc lp ca c c thuc t nh ri rc
d. Ph n t ch tương quan ca c c thuc t nh li n
tc
32. Gii ph p n o được d ng để thu gim d liu:
a. Ph n t ch nh n t ch nh (Principal component
analysis)
b. Histogram, Data Sampling
c. Kết hp khi d liu (data cube aggregation)
d. Hai c u a v b đều đng
e. Ba c u a, b v c đều đng 33. Chn ph t biu
ĐNG:
a. H m Y = aX+b l h m hi qui phi tuyến (a, b l
th ng s)
b. H m Y = aX1 + bX2 + cX3 + d l h m hi qui
phi tuyến (a, b, c, d l th ng s)
c. H m Y = a.log(bX) l h m hi qui phi tuyến (a,
b l th ng s)
d. H m Y = aXb l h m hi qui tuyến t nh (a, b l
th ng s)
e. C 4 c u tr n đều sai
34. C c đim ngoi bi n (outlier) c th ph t hin
được nh phương ph p n o sau đy:
a. D ng tr trung b nh v độ lch chun
b. D ng gi tr IQR (interquartile range), Q1 v
Q3
c. D ng phương ph p gom cm
d. C ba phương ph p tr n
35. Chn ph t biu Đng trong c c c u sau:
a. Gii thut k-medoids gii quyết vn đề nhiu
v đim bi n tt hơn k-means
b. C 2 gii thut gom cm bng ph n hoch
(partition-based clustering) v gom cm da v
o c y ph n cp (hierarchical clustering) đều
phi cho trước (input) s cm
c. Gom cm bng ph n hoch thường l m vic
tt vi c c cm c dng h nh cu
d. Mt đim mnh ca gom cm bng ph n
hoch
so vi gom cm da v o c y ph n cp l n c th
quay li bước lp trước đ
e. C hai c u a v c đều đng
36. Độ li th ng tin (information gain) được d ng trong
ng cnh n o sau đy:
a. Thu gim s chiu
b. Chn thuc t nh ph n t ch trong vic x y dng
b ph n lp d liu
c. Thu gim lượng s d liu
d. Gp khi d liu
37. Trong gii thut lan truyn ngược để hun luyn
mng nơ ron, mi ln lp duyt qua mi phn t
trong tp hun luyn được gi bng thut ng tiếng
Anh n o sau đy:
a. pass
b. epoch
c. stage
d. iteration
38. Th nh phn n o sau đy kh ng l th nh t cơ bn để đặc
t t c v khai ph d liu
a. D liu c th được khai ph
b. Tri thc nn
c. C c độ đo
d. Chun p dng cho vic x y dng ng dng
khai ph d liu.
39. Tri thc c th đạt được t qu tr nh khai ph d liu l :
a. M h nh ph n loi / d đo n
b. M h nh gom cm / c c mi quan h, lut kết
hp
c. C c phn t bi n, ngoi lai
d. Xu hướng biến di d liu / c c mu thường xuy n
e. Tt c c c c u tr n đều đng
40. Mng nơ-ron nh n to (ANN) l mt m h nh t nh to n
a. m phng cơ chế hot động ca b n o người
b. s node đầu ra (output) c th l mt hoc
nhiu, ph thuc v o s lượng trng th i ca d
liu m h thng cn kho s t
c. thường được d ng trong vic ph n lp d liu
d. tt c c c c u tr n đều đng
lOMoARcPSD|36667950
Phần 2: Tự luận (3.0 điểm). Sinh vi n l m b i trc tiếp tr n đề thi C u 1 (1.0
điểm) Cho mt b d liu v gi mua h ng như sau:
TID
Gi h ng (items bought)
1
2
3
4
5
f, a, c, d, g, i, m,
p a, b, c, f, l, m, o
b, f , h, j, o b, c,
k, s, p a, f, c, e, l,
p, m, n
V FP-tree t b d liu n u tr n, vi min_sup = 3:
C u 2 (1.0 điểm): Cho biết tui ca c c vn động vi n tham gia m n c vua như sau: 13, 15, 16, 16, 19, 20, 20,
21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. a) H y cho biết kết qu ca c c gi tr
sau (0.5 đim).
b) Cho biết c c ph n t ngoi bi n (outliers) da v o interquartile range (0.5 đim).
lOMoARcPSD|36667950
5/6
C u 3 (1.0 điểm): Trong ph n lp d liu da v o mng Bayesian:
a) (0.5 đim) N u ý nghĩa ca P(C
i
|X) v biu thc tng qu t t nh P(C
i
|X)
b) (0.5 đim) N u ý nghĩa ca P(X|C
i
) v c ch t nh n khi X cha đồng thi thuc t nh ri rc v li n tc
lOMoARcPSD|36667950
Ging vi n ra đề Ch nhim b m n
TS. Trần Minh Quang ThS. Trương Quang Hải TS. Trần Minh Quang
6/6
| 1/10

Preview text:

lOMoARcPSD| 36667950
Đại Học Quốc Gia Tp. HCM M đề thi: 01
Trường Đại Học B ch Khoa
Khoa Khoa Học v Kỹ Thuật M y T nh
Đề thi môn Khai Phá Dữ Liệu
HK1/2018-2019 - Thời gian: 90 ph t
MSMH: CO3029 - Ng y thi: 21/12/2018
(Đề thi gồm 6 trang. Sinh vi n l m phần trắc nghiệm tr n phiếu trả lời trắc nghiệm, phần tự luận ngay
tr n đề thi v nộp lại)
(Sinh vi n được ph p tham khảo t i liệu giấy) Họ v T n MSSV
Phần 1. Trắc nghiệm (7.0 điểm): Chọn 1 c u trả lời đng nhất v t v o phiếu trả lời trắc nghiệm
5. Trong kỹ thuật gom cụm dựa v o mật độ, ph t
1. Trong giải thuật Apriori biểu n o sau đy đng: a. |Ck| ≥ | Lk|
a. trong cụm chỉ c một core object, đ l trung t m b. |C cụm k| ≥ |Ck+1|
c. tập dữ liệu D sẽ được qu t m lần với m l
b. mỗi phần tử trong một cụm c t nhất MinPts
chiều d i của tập thường xuy n xuất hiện
phần tử kh c gần n (trong phạm vi b n k nh l (frequent itemset) d i nhất ε) d. c u a v c đều đng
c. khoảng c ch từ một phần tử a đến một core
2. Để kiểm tra giải thuật gradient descent với
object n o đ nhỏ hơn ε th a thuộc về cụm
d. tất cả c c c u tr n đều sai
mục ti u l cực tiểu h a h m chi ph J( )θ c hội
6. Ph t biểu n o sau đy ĐNG trong khai ph luật kết
tụ hay kh ng ta cần kiểm tra: hợp:
a. J( )θ c giảm ở mỗi bước lặp
a. support c ý nghĩa quan trọng hơn
b. J( )θ c tăng ở mỗi bước lặp confidence
c. J( )θ =0 sau 10,000 lần lặp
b. support_count(A => B) l số lần xuất hiện
đồng thời của A v B trong tập dữ liệu D
d. hệ số học α c được thiết lập đủ lớn, v dụ
c. support(A => B) lu n lớn hơn bằng 0.1 confidence(A=> B)
3. Khi ph n loại dữ liệu d ng c y quyết định, độ đ
d. tất cả c c c u tr n đều sai
o n o sau đy gi p tr nh tạo ra c c ph n hoạch 7. Giải thuật FP-Growth c qu t đối tượng
a. qu t tập dữ liệu D (tập dữ liệu lớn) m lần với a. Information Gain
m l số d ng trong header table b. GainRatio
b. thường chạy chậm hơn giải thuật Apriori c. GiniIndex
c. tập hợp c c node tr n một nh nh của FP-tree
d. tất cả c c c u tr n đều sai
phải xuất hiện t nhất k lần trong D, với k l số
4. Phương ph p gom cụm n o sau đy gi p ph t
đếm (count) của node l trong nh nh đang x t
hiện được c c cụm c dạng h nh ống (pipe) tốt
d. tất cả c c c u tr n đều sai nhất
Dữ kiện dưới đy d ng cho 3 c u sau đy: a. K-Means
Cho T chứa 500,000 giao dịch trong đ số giao dịch b. K-Medoids
chứa b nh m, chứa mứt v chứa đồng thời b nh m v mứt c. DBSCAN
lần lượt l 20000, 30000 v 10000. d. BIRCH 1/6 lOMoARcPSD| 36667950
8. Độ hỗ trợ (support) của ph t biểu "ai mua 2/6 lOMoARcPSD| 36667950
mứt đều sẽ mua b nh m" l : b. ph n hoạch (partition) a. 2%
c. trộn (agglomerative) dữ liệu dựa v o c y ph n b. 33.33% cấp c. 50%
d. ph n cụm dựa v o mật độ
d. Tất cả c c c u tr n đều sai
15. Trong web mining, để hiểu được thứ tự c c URL
9. Độ tin cậy (confidence) của ph t biểu "ai mua
được truy cập, ta thường d ng phương ph p n o
mứt đều sẽ mua b nh m" l :
a. ph n t ch chuỗi tuần tự (sequetial analysis) a. 66.66%
b. khai ph luật kết hợp (association rule) b. 33.33%
c. ph n lớp (classification) c. 45%
d. ph n t ch tương quan (correlation analysis) d. 50%
16. C c mẫu điều kiện cơ sở (conditional pattern base)
10. Khi số lượng giao dịch trong T tăng l n được tạo ra
10,000,000 nhưng số lượng giao dịch mua mứt
a. cho mỗi frequent item trong header table
v b nh m n u ở tr n kh ng đổi th ph t biểu "ai
b. bằng c ch duyệt c y FP-Tree (từ dưới l n), xuất ph
mua mứt đều sẽ mua b nh m" sẽ
t từ node đầu ti n trong danh s ch node link của
a. thay đổi độ hỗ trợ
item đang x t v phải duyệt hết c c node trong danh
b. thay đổi độ tin cậy s ch n y
c. cả độ hỗ trợ v độ tin cậy đều thay đổi c. hai c u a v b đng
d. tất cả c c c u tr n đều sai
d. tất cả c c c u tr n đều sai
11. Sau khi chạy giải thuật FP-Growth tr n tập dữ
17. Ph t biểu n o sau đy về gom cụm dữ liệu l SAI
liệu D, trong tập kết quả c một số tập thường
a. khoảng c ch giữa c c phần tử trong c ng một cụm
xuy n xuất hiện c chiều d i l 5. Giải thuật FG- c ng nhỏ c ng tốt
Growth n y đ qu t (scan) qua D
b. khoảng c c giữa c c phần tử ở c c cụm kh c nhau c a. 1 lần ng nhỏ c ng tốt b. 2 lần
c. m h nh gom cụm tốt khi n ph t hiện được c c cụm c. 5 lần c h nh dạng bất kỳ d. t nhất l 5 lần
d. giải thuật K-means thường cho kết quả l c c
12. Logistic regression l một phương ph p d ng để
cụm c dạng h nh cầu v c k ch thước gần giống a. dự đo n (prediction) nhau
b. ph n lớp (classification)
18. Hồi qui tuyến t nh c thể được d ng để
c. m tả dữ liệu (description)
a. xử lý dữ liệu bị nhiễu
d. gom cụm dữ liệu (clustering)
b. dự đo n gi trị dữ liệu số
13. Ph t biểu n o sau đy SAI trong ph n lớp dữ liệu
c. ph n lớp dữ liệu c nh n (classification)
a. dữ liệu huấn luyện lu n phải chứa nh n (label) d. c u a v b đng
b. dữ liệu kiểm tra lu n phải chứa nh n
c. dữ liệu kiểm tra kh ng cần phải chứa nh n v
đy l tập được d ng để kiểm tra m h nh v
Dữ kiệu sau đy d ng cho hai c u sau:
nh n sẽ được tạo ra từ m h nh
Một m h nh ph n lớp (classifier) d ng h m sau
d. dữ liệu huấn luyện v kiểm tra phải c cấu tr c 1 giống nhau = h Xθ( ) −θTX
14. Kỹ thuật gom cụm n o sau đy khởi động bằng c 1+e
ch xem mỗi đối tượng dữ liệu l một cụm
l m giả thuyết (hypothesis) cho việc ph n lớp. a. K-Means 3/6 lOMoARcPSD| 36667950
19. Ph t biểu n o sau đy SAI
b. lựa chọn c c thuộc t nh dựa v o tương quan
a. X l tập dữ liệu mẫu
giữa c c thuộc t nh độc lập với thuộc t nh phụ
b. đy l h m hồi qui logistic
thuộc (v dụ thuộc t nh ph n lớp) c. đy l h m sigmoid
c. đọc dữ liệu c định dạng file l ARFF
d. hθ(X) l x c suất để Y = "1" (với Y l thuộc
d. tất cả c c c u tr n đều sai
t nh nh n v "1" l nh n m ta quan t m)
24. Ph t biểu n o sau đy SAI về mạng nơ-ron nh n tạo -
20. Ph t biểu n o sau đy ĐNG
Artificial Neural Network (ANN) a. h
a. h m k ch hoạt (activation function) thường được d θ(X) ∈ [-1, 1] ng l h m sigmoid b. hθ(X) ∈ [0, 1]
b. c thể c nhiều hơn một lớp ẩn (hidden layer)
c. X l vector c c thuộc t nh đầu v o (input
c. việc t m trọng số (weight) cho c c li n kết được
features) của tập dữ liệu mẫu (bao gồm
thực hiện dựa tr n phương ph p feedforward X0=1)
d. việc chọn hệ số học (learning rate) sẽ ảnh d. hai c u b v c đng
hưởng đến tốc độ cũng như khả năng hội tụ của
Cho bộ ph n lớp M thực hiện việc ph n loại dữ giải thuật
liệu c ba nh n A, B v C. Kết quả ph n loại được
25. Độ đo n o được d ng đối với c c dữ liệu nhị ph n
biểu diễn bởi ma trận sai biệt (confusion matrix) a. Manhattan
như sau. H y chọn c u trả lời đng cho hai c u hỏi b. Jaccard sau đy. c. Euclidean Ph n lớp th nh d. Minkowski Thực tế A B C
26. Gọi RA,B l sự tương quan giữa hai thuộc t nh A v B A 116 13
trong tập dữ liệu D, ph t biểu n o sau đy SAI 10 a. RA,B ∈ [-1, 1] B 14 11 20
b. RA,B =1 th ta n n loại một trong hai thuộc t nh C 11 10 122
trong qu tr nh khai ph dữ liệu
c. RA,B = -1 th ta n n loại một trong hai thuộc t nh
21. Độ ch nh x c (precision) của việc ph n loại dữ
trong qu tr nh khai ph dữ liệu
liệu thuộc lớp A l (l m tr n đến 3 chữ số thập ph
d. RA,B cao thể hiện sự phụ thuộc lẫn nhau giữa A v n): B cao a. 0.823
27. Ph t biểu n o dưới đy SAI về điều kiện dừng của giải b. 0.835
thuật x y dựng c y quyết định: c. 0.803
a. Tất cả những thể hiện trong ph n hoạch D (tại n t d. 0.745
N đang x t) thuộc về c ng một lớp
22. Độ truy hồi (recall) của việc ph n loại dữ liệu
b. Kh ng c n thuộc t nh n o nữa m c c thể hiện c thể
thuộc lớp A l (l m tr n đến 3 chữ số thập ph n): được ph n hoạch th m a. 0.752
c. Việc tiếp tục lựa chọn c c thuộc t nh ph n t ch kh b. 0.835
ng l m tăng độ lợi th ng tin c. 0.803
d. Kh ng c n thể hiện n o nữa tr n nh nh đang x t, tức d. 0.829 l ph n hoạch D bị rỗng
23. Weka KH NG hỗ trợ chức năng n o sau đy?
28. Trong số c c phương ph p ph n lớp dữ liệu, phương
a. x y dựng (train) m h nh, lưu trữ m h nh v
ph p n o c t nh chất học tăng cường (incremental
sử dụng lại m h nh đ để thực thi với dữ liệu learning): mới a. C y quyết định 4/6 lOMoARcPSD| 36667950 b. Na ve Bayes c. Mạng nơ ron d. k-nearest neighbor
29. C c độ đo về sự ph n t n của dữ liệu Q1, Q2, Q3,
IQR c t c dụng trong việc:
a. Ph t hiện c c phần tử nhiễu, c c phần tử bi n
b. Cung cấp c i nh n tổng quan về ph n bố dữ liệu
c. Chuẩn h a dữ liệu, lựa chọn thuộc t nh
d. Ph n lớp dữ liệu (classification)
e. Cả hai c u a v b đều đng
30. Tri thức c thể đạt được từ qu tr nh khai ph dữ liệu l :
a. M h nh ph n loại / dự đo n
b. M h nh gom cụm / c c mối quan hệ, luật kết hợp
c. C c phần tử bi n, ngoại lai
d. Xu hướng biến dổi dữ liệu / c c mẫu thường xuy n 5/6 lOMoARcPSD| 36667950
e. Tất cả c c c u tr n đều đng 6/6 lOMoARcPSD| 36667950
31. Ph p kiểm thống k chi-square được d ng để:
so với gom cụm dựa v o c y ph n cấp l n c thể
a. T m ra những điểm chia để rời rạc h a dữ liệu
quay lại bước lặp trước đ
b. Tạo ra c c mức ý niệm để thực hiện việc tổng qu t h a dữ liệu
e. Cả hai c u a v c đều đng
c. Ph n t ch sự độc lập của c c thuộc t nh rời rạc
36. Độ lợi th ng tin (information gain) được d ng trong
d. Ph n t ch tương quan của c c thuộc t nh li n ngữ cảnh n o sau đy: tục a. Thu giảm số chiều
32. Giải ph p n o được d ng để thu giảm dữ liệu:
b. Chọn thuộc t nh ph n t ch trong việc x y dựng
a. Ph n t ch nh n tố ch nh (Principal component bộ ph n lớp dữ liệu analysis)
c. Thu giảm lượng số dữ liệu b. Histogram, Data Sampling d. Gộp khối dữ liệu
c. Kết hợp khối dữ liệu (data cube aggregation)
37. Trong giải thuật lan truyền ngược để huấn luyện d. Hai c u a v b đều đng
mạng nơ ron, mỗi lần lặp duyệt qua mọi phần tử
e. Ba c u a, b v c đều đng 33. Chọn ph t biểu
trong tập huấn luyện được gọi bằng thuật ngữ tiếng ĐNG: Anh n o sau đy:
a. H m Y = aX+b l h m hồi qui phi tuyến (a, b l a. pass th ng số) b. epoch
b. H m Y = aX1 + bX2 + cX3 + d l h m hồi qui c. stage
phi tuyến (a, b, c, d l th ng số) d. iteration
c. H m Y = a.log(bX) l h m hồi qui phi tuyến (a,
38. Th nh phần n o sau đy kh ng l th nh tố cơ bản để đặc b l th ng số)
tả t c vụ khai ph dữ liệu
d. H m Y = aXb l h m hồi qui tuyến t nh (a, b l
a. Dữ liệu cụ thể được khai ph th ng số) b. Tri thức nền e. Cả 4 c u tr n đều sai c. C c độ đo
d. Chuẩn p dụng cho việc x y dựng ứng dụng
34. C c điểm ngoại bi n (outlier) c thể ph t hiện khai ph dữ liệu.
được nhờ phương ph p n o sau đy:
a. D ng trị trung b nh v độ lệch chuẩn
39. Tri thức c thể đạt được từ qu tr nh khai ph dữ liệu l :
b. D ng gi trị IQR (interquartile range), Q1 v
a. M h nh ph n loại / dự đo n Q3
b. M h nh gom cụm / c c mối quan hệ, luật kết
c. D ng phương ph p gom cụm hợp d. Cả ba phương ph p tr n
c. C c phần tử bi n, ngoại lai
35. Chọn ph t biểu Đng trong c c c u sau:
d. Xu hướng biến dổi dữ liệu / c c mẫu thường xuy n
a. Giải thuật k-medoids giải quyết vấn đề nhiễu
e. Tất cả c c c u tr n đều đng
v điểm bi n tốt hơn k-means
b. Cả 2 giải thuật gom cụm bằng ph n hoạch
40. Mạng nơ-ron nh n tạo (ANN) l một m h nh t nh to n
(partition-based clustering) v gom cụm dựa v
a. m phỏng cơ chế hoạt động của bộ n o người
o c y ph n cấp (hierarchical clustering) đều
b. số node đầu ra (output) c thể l một hoặc
phải cho trước (input) số cụm
nhiều, phụ thuộc v o số lượng trạng th i của dữ
c. Gom cụm bằng ph n hoạch thường l m việc
liệu m hệ thống cần khảo s t
tốt với c c cụm c dạng h nh cầu
c. thường được d ng trong việc ph n lớp dữ liệu
d. Một điểm mạnh của gom cụm bằng ph n
d. tất cả c c c u tr n đều đng hoạch 7/6 lOMoARcPSD| 36667950
Phần 2: Tự luận (3.0 điểm). Sinh vi n l m b i trực tiếp tr n đề thi C u 1 (1.0
điểm) Cho một bộ dữ liệu về giỏ mua h ng như sau: TID Giỏ h ng (items bought) 1 f, a, c, d, g, i, m, 2 p a, b, c, f, l, m, o b, f , h, j, o b, c, 3 k, s, p a, f, c, e, l, 4 p, m, n 5
Vẽ FP-tree từ bộ dữ liệu n u tr n, với min_sup = 3:
C u 2 (1.0 điểm): Cho biết tuổi của c c vận động vi n tham gia m n cờ vua như sau: 13, 15, 16, 16, 19, 20, 20,
21, 22, 22, 25, 25, 25, 25, 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70. a) H y cho biết kết quả của c c gi trị sau (0.5 điểm).
b) Cho biết c c ph n tử ngoại bi n (outliers) dựa v o interquartile range (0.5 điểm). lOMoARcPSD| 36667950 5/6
C u 3 (1.0 điểm): Trong ph n lớp dữ liệu dựa v o mạng Bayesian:
a) (0.5 điểm) N u ý nghĩa của P(Ci|X) v biểu thức tổng qu t t nh P(Ci|X)
b) (0.5 điểm) N u ý nghĩa của P(X|Ci) v c ch t nh n khi X chứa đồng thời thuộc t nh rời rạc v li n tục lOMoARcPSD| 36667950
Giảng vi n ra đề Chủ nhiệm b m n
TS. Trần Minh Quang ThS. Trương Quang Hải TS. Trần Minh Quang 6/6