Câu hỏi trắc nghiệm PM_Datamining ôn tập môn Công nghệ thông tin | Trường đại học kinh doanh và công nghệ Hà Nội

HA(2) = Thuật ngữ Data Mining dịch ra tiếng Việt có nghĩa là: Khai phá dữ liệu hoặc Khai thác dữ liệu Khai phá luật kết hợp Khai phá tập mục thường xuyên Khai phá tri thức từ dữ liệu lớn. Tài liệu giúp bạn tham  khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!

lOMoARcPSD| 45469857
PM_Datamining
HA(1) = Data Mining được định nghĩa là gì?
Là mt quy trình tìm kiếm, phát hin các tri thc mi, tim n, hu dụng trong cơ sở d liu ln
Khai phá d liu
Khai khoáng d liu
Tìm kiếm thông tin trên Internet
HA(2) = Thut ng Data Mining dch ra tiếng Việt có nghĩa là:
Khai phá d liu hoc Khai thác d liu
Khai phá lut kết hp
Khai phá tp mục thường xuyên
Khai phá tri thc t d liu ln
HA(3) = Thut ng Knowledge Discovery from Databases KDD có nghĩa là:
Trích chn các mu hoc tri thc hp dn (không tầm thường, ẩn, chưa biết và hu dng tim
năng) từ tp d liu ln
Khai phá d liu
Khai thác d liu
Tìm kiếm d liu
HA(4) = Phát biểu nào sau đây là đúng?
Data Mining là một bước trong quá trình khai phá tri thc-KDD
Thut ng Data Mining đồng nghĩa với thut ng Knowledge Discovery from Databases
Data Mining là quá trình tìm kiếm thông tin có ích trên Internet
Tin x lí d liu là qua trình tìm kiếm thông tin có ích t cơ sở d liu ln HA(5)
= Hiện nay, Data Mining đã được ng dng trong:
H qun tr CSDL SQL Server
H qun tr CSDL Access
H qun tr CSDL Foxpro
Microsoft Word 2010
HA(6) = Thut ng Tin x lí d liu bng tiếng Anh là:
Data Preprocessing
Data Processing
lOMoARcPSD| 45469857
Preprocessing in Database
Data Process
HA(7) = Cho CSDL Giao tác như hình vẽ, S lượng giao dịch trong cơ sở d liu là:
5
16
6
10
HA(8) = Cho CSDL giao dịch như hình vẽ, Độ h tr ca tp mc X={A, M} là:
3 (60% )
4 (80%)
5 (100%)
2 (40%)
HA(9) = Thuật toán Apriori có nhược điểm chính là:
Tn nhiu b nh và thi gian. Không thích hp vi các mu lớn. Chi phí để duyt CSDL nhiu.
Không tìm được các tập thường xuyên
Kết qu ca thut toán không ng dụng được trong các bài toán thc tế
Thut toán quá phc tp, khó hiu
HA(10) = Tp nào là tp mục thường xuyên tha Min_spport:
{ A,C }
{D}
{A,D}
lOMoARcPSD| 45469857
{B, C, D}
HA(11) = Tp nào không là tp mc thường xuyên:
{ A,C,D }
{A,E}
{A, C}
{B,E}
HA(12) = Tp nào không là tp mc thường xuyên:
{ D }
{A,E}
{A, C}
{B,E}
HA(13) = S dng thut toán Apriori, sau ln duyt th nht, tp mc cha 1-item b loi b là:
{ D }
{A}
{B}
{A}, {D}
HA(14) = Tp nào không là tp mc thường xuyên:
{ B, D }
{A, E}
{A, C}
{B, E}
HA(15) = Tp nào là tp mục thường xuyên với đ h tr là 75%:
lOMoARcPSD| 45469857
{ B,E }
{A,E}
{A, C}
{B,C}
HA(16) = Tp nào là tp mục thường xuyên với đ h tr là = 70%
Không có tp nào
{A, E}
{A, C, D}
{B, C, D}
HA(17) = Lut kết hp nào thỏa mãn các điều kiện đã cho:
A-->C
A-->D
A--> E
AB-->C
HA(18) = Lut kết hp nào tha mãn các điều kiện đã cho:
B-->E
A-->D
A--> E
AB-->C
HA(19) = Lut kết hp nào thỏa mãn các điều kiện đã cho:
lOMoARcPSD| 45469857
A-->C
A-->D
A--> E
AB-->C
HA(20) = Lut kết hợp nào có độ tin cy = 100%
A-->C
A-->D
AD--> E
AB-->C
HA(21) = Cho tp mục thường xuyên X={A, B}, t tp X có th sinh ra các lut kết hp sau:
A--> B, B--> A, không tính lut AB --> và --> AB
A-->B, B--> A, A--> và --> B
A--> B
B--> A
HA(22) = Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc nút m
2 đường đi
1 đường đi
3 đường đi
4 đường đi
HA(23) = Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc nút p
2 đường đi
lOMoARcPSD| 45469857
1 đường đi
3 đường đi
4 đường đi
HA(24) = Hai thut toán FP-Growth và Apriori dùng để:
Tìm các tp mục thường xuyên
Tìm các lut kết hp
Tìm các tp mc có k - item
Thc hin công vic khác
HA(25) = Phương pháp nào không phải là phương pháp phân lớp:
Chia các đối tượng thành tng lớp để ging dy
Phân lp da trên Cây quyết định
Phân lp da trên xác sut Bayes
Phân lp da trên Mạng Nơron
HA(26) = Cho tp ví d học như bảng. Có bao nhiêu thuộc tính để phân lp?
4 thuc tính
3 thuc tính
5 thuc tính
6 thuc tính
HA(27) = Cho tp ví d học như bảng. Thuc tính kết lun Play Ball có bao nhiêu giá tr:
2 giá tr
3 giá tr
lOMoARcPSD| 45469857
5 giá tr
1 giátr
HA(28) = Cho tp ví d học như bảng. Các thuộc tính dùng để phân lp là:
Outlook, Temperature, Humidity, Wind
Outlook, Temperature, Humidity, Wind, Play Ball
Day, Outlook, Temperature, Humidity, Wind
Day, Outlook, Temperature, Humidity, Wind, Play Ball
HA(29) = Khi chn 1 thuộc tính A để làm gc cây quyết định. Nếu thuc tính A có 3 giá tr thì cây quyết
định có bao nhiêu nhánh?
3 nhánh
2 nhánh
Nhiu nhánh
Phi biết kết lun C có bao nhiêu giá tr thì mới phân nhánh được
HA(30) = S dng thut toán ILA, khi kết lun C có n giá tr thì ta cn chia bng cha các ví d hc thành
my bng con:
n bng con
2 bng con
không phi chia
Thành nhiu bng tùy theo giá tr ca n
HA(31) = Cho tp ví d học như bảng. S dng thut toán ILA, cn chia bng ví d hc này thành my
bng con:
2 bng
3 bng
không cn chia
Tùy theo thuộc tính được chn HA(36)
= Gom cm (clustering) gì:
Phân cm d liu(Data Clustering) hay phân cụm, cũng có thể gi là phân tích cm là qúa trình
chia mt tập các đối tượng thc th hay trừu tượng thành nhóm các đối tượng sao cho các
lOMoARcPSD| 45469857
phn t trong cùng mt nhóm thì có mức độ tương tự nhau hơn là giữa các phn t ca nhóm
này vi các phn t của nhóm khác.”
“Phân cụm d liu(Data Clustering) hay phân cụm, cũng có thể gi là phân tích cm là qúa trình
chia mt tập các đối tượng thc th hay trừu tượng thành nhóm các đối tượng sao cho các
phn t khác nhóm thì có mức độ tương tự nhau hơn là giữa các phn t trong cùng mt
nhóm.”
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
“Phân cụm d liu(Data Clustering) hay phân cụm, cũng có thể gi là phân tích cm là qúa trình
chia mt tập các đối tượng thc th hay trừu tượng thành nhóm các đối tượng sao d s dng
nhất.”
“Phân cm d liu(Data Clustering) hay phân cụm, cũng có thể gi là phân tích cm là qúa trình
chia các đối tượng thành tng nhóm sau cho s nhóm là ít nhất.”
HA(37) = Thut ng tiếng Anh nào có nghĩa là phân cụm d liu
Data Clustering
Data Classification
Association Rule
Data Mining
HA(38) = Thut ng tiếng Anh nào có nghĩa là Khai phá d liu
Data Mining
Data Clustering
Data Classification
Association Rule
HA(39) = Thut ng tiếng Anh nào có nghĩa là Phân lớp d liu
Data Classification
Data Clustering
Data Mining
Association Rule
HA(40) = Có N phn t cn chia thành 1 cm. Hi có bao nhiêu cách chia cm:
1 cách
0 cách
2 cách
N cách
HA(41) = Có N phn t cn chia thành m cm, vi m>N. Hi có bao nhiêu cách chia cm:
0 cách
m cách
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
2 cách
N cách
HA(42) = Có bao nhiêu thut toán phân cm:
Rt nhiu
Ch có 3 thut toán Liên kết đơn, liên kết đầy đủ, k-mean
Ch có 2 thut toán Liên kết đơn và liên kết đầy đủ
Ch có 2 thut toán Liên kết đơn và k-mean
HA(43) = Trong thut toán phân cm k-mean, ban đầu k tâm được chn:
Chn ngu nhiên
Chn k phn t nm tâm
Chn k các phn t giá tr nh nht
Chn k phn t có giá tr bng giá tr trung bình ca các phn t trong tp d liu
HA(44) = S dng thut toán k-mean để chia N điểm vào k cụm, khi đó:
k<=N
k=N
k>N
k khác N
HA(45) = Cho tp d liu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khong cách gia 2
phn t x1 và x2 bng bao nhiêu:
bng 1
bng 2
bng 0
bng 9
HA(46) = Cho tp d liu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khong cách gia 2
phn t x1 và x5 bng bao nhiêu:
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
bng 5
bng 2
bng 0
bng 9
HA(47) = Cho tp d liu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Sử dng thut toán
liên kết đơn (Single Linkage), bước đầu tiên 2 phn t nào được chọn để gom thành 1 cm:
x1 và x2 x1
và x3 x2
và x3 x3
và x5
HA(48) = Cho tp d liu X={x1, x2, x3, x4, x5} và ma trận không tương tự. S dng thut toán liên kết
đầy đủ (Complete Linkage), bước đầu tiên 2 phn t nào được chọn để gom thành 1 cm:
x1 và x2
x1 và x3
x2 và x3
x3 và x5
HA(49) = Cho sơ đồ ngưỡng không tương tự như hình v. Cắt sơ đồ tại ngưỡng bng 2.5 hi có my
cụm được sinh ra:
3 cm
2 cm
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
1 cm
4 cm
HA(50) = Cho sơ đồ ngưỡng không tương tự như hình v. Cắt sơ đồ tại ngưỡng bng 5 hi có my cm
đưc sinh ra:
1 cm
2 cm
3 cm
4 cm
HA(51) = Cho sơ đồ ngưỡng không tương tự như hình v. Cắt sơ đồ tại ngưỡng bng 3.5 hi có my
cụm được sinh ra:
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
2 cm
3 cm
1 cm
4 cm
HA(52) = Cho sơ đồ ngưỡng không tương tự như hình v. Cắt sơ đồ tại ngưỡng bng 1.5 hi có my cm
đưc sinh ra:
4 cm
2 cm
1 cm
5 cm
HA(53) = Cho sơ đồ ngưỡng không tương tự như hình v. Cắt sơ đồ tại ngưỡng bng 0.5 hi có my cm
đưc sinh ra:
5 cm
2 cm
1 cm
4 cm
HB(1) = Quá trình khai phá tri thc trong CSDL (KDD) có th phân chia thành các giai đoạn sau:
Trích chn d liu, tin x lý d liu, biến đổi d liu, khai phá d liệu, đánh giá và biểu din tri
thc
Tin x lý d liu, biến đổi d liu, khai phá d liệu, đánh giá và biểu din tri thc
Trích chn d liu, tin x lý d liu, biến đổi d liu, khai phá d liu, khai phá lut kết hp
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
Tin x lý d liu, phân lp, phân cụm, đánh giá và biểu din tri thc HB(2)
= Các loại đặc trưng của d liu:
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo t l
Đặc trưng danh nghĩa, đặc trưng theo thứ t, đặc trưng đo theo khoảng, đặc trưng theo khối
lượng
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo chiều
dài
Đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ l
HB(3) = Mt s bài toán điển hình trong khai phá d liu là:
Khai phá lut kết hp, phân loi, phân cm, hi qui...
Khai phá lut kết hp, xây dng máy tìm kiếm...
Web mining, Text mining, mạng nơron…
Bài toán nhn dng, bài toán tìm kiếm thông tin, bài toán la chọn đặc trưng...
HB(4) = Mt s thách thc ln trong quá trình khai phá d liu là (chọn đáp án đúng nhất):
D liu quá ln, d liu b thiếu hoc nhiu, s phc tp ca d liu, d liệu thường xuyên thay
đổi...
Trình độ của con người còn hn chế, d liệu không được lưu trữ tp trung...
D liu quá ln, máy khai phá d liu có tốc độ hn chế...
Tốc độ x lý ca máy tính còn hn chế, d liệu thường xuyên thay đổi...
HB(5) = Mt s lĩnh vực liên quan đến khai phá tri thc KDD là:
Machine Learning, Visualization, Statistics, Databases…
Machine Learning, Programming, Statistics, Databases…
Machine Learning, Visualization, Statistics, BioInfomatics…
Support Vector Machine, Clustering, Statistics, Databases… HB(6)
= Khai phá d liu có li ích gì?
Cung cp h tr ra quyết định, d báo, khái quát d liu...
Tìm kiếm các quy lut, tìm kiếm các cm và phân loi d liu
Tìm kiếm nhanh thông tin, thng kê d liu, chọn đặc trưng của d liu...
Tạo ra cơ sở tri thc mi, h tr d báo thi tiết, d báo động đất, d báo sóng thn...
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
HB(7) = Làm sch d liu (Data Cleaning) là quá trình:
Loi b nhiu và d liu không nht quán
Tìm kiếm d liu có ích
Tìm kiếm d liệu có ích trong cơ sở d liu ln
T hp nhiu ngun d liu khác nhau
HB(8) = Mt s ng dng tiềm năng của Khai phá d liu:
Phân tích và qun lý th trường, Qun lý và phân tích ri ro, Qun lý và phân tích các sai hng,
Khai thác Web, Khai thác văn bản (text mining)…
Tìm kiếm văn bản, Tìm kiếm hình nh, Tìm kiếm tri thc mi trên Internet...
Phân tích tâm lí khách hàng, H tr kinh doanh, tối ưu hóa phần cng máy tính...
Phân tích th trường chng khoán, bất động sn, tìm kiếm d liu bng các máy tìm kiếm...
HB(9) = Các cơ sở d liu cn khai phá là:
Quan hệ, Giao tác, Hướng đối tượng, Không gian, Thi gian, Text, XML, Multi-media, WWW,
Text, XML, Multi-media, WWW, …
Cơ sở d liệu khách hàng, cơ sở d liu nghiên cứu không gian, cơ sở d liu trong ngân hàng,
cơ sở d liu thống kê…
Cơ sở d liu tuyển sinh đại học, cơ sở d liu d báo thi tiết, cơ sở d liu thng kê dân số…
HB(10) = Thut ng Big Data có nghĩa là:
Big data nói đến các tp d liu rt ln và phc tp ti mc các k thut IT truyn thng không
x lí ni.
D liu rt ln
D liệu được tích hp t nhiu ngun khác nhau
D liu khng l trên Internet
HB(11) = Thut ng BioInfomatics có nghĩa là
Gii quyết các bài toán sinh hc bng vic s dụng các phương pháp của khoa hc tính toán
Sinh hc phân t
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
Tìm kiếm d liu mi t sinh hc
Khai thác các thông tin có ích trong lĩnh vực y hc
HB(12) = Phát biểu nào sau đây là đúng
Data Mining là một bước quan trng trong quá trình khai phá tri thc t d liu KDD
Tin x lí d liu là chọn ra các đặc trưng tiêu biểu trong tp dliu ln
Mi d liệu đều có th tìm kiếm được bng máy tìm kiếm ca Google
Data Mining là công c giúp các lp trình viên d dàng tìm kiếm thông tin hơn HB(13)
= Làm sch d liu là:
Đin giá tr thiếu, làm trơn dữ liu nhiễu, định danh hoc xóa ngoi lai, và kh tính không nht
quán
Chun hóa và tng hp
c cui cùng trong quá trình Data Mining
Tích hp CSDL, khi d liu hoc tp tin phc HB(14) =
Các bài toán thuc làm sch d liu là:
X lý giá tr thiếu, D liu nhiễu: định danh ngoại lai và làm trơn, Chỉnh sa d liu không nht
quán, Gii quyết tính dư thừa to ra sau tích hp d liu.
Làm trơn theo biên, phương pháp đóng thùng, điền giá tr thiếu, Gii quyết tính dư thừa to ra
sau tích hp d liu.
Phân cm, phân lp, hi quy, biu din d liu.
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
Phân cm, tìm lut kết hp, tìm kiếm đặc trưng
HB(15) = Cho mt tp d liệu có n đặc trưng. Có bao nhiêu tp con không rng chứa các đặc trưng được
la chn:
2 ^n -1
2^n
Vô s tp con
n^2
HB(16) = Mt s phương pháp loại b d liu nhiu là:
B qua bn ghi có d liu b thiếu, điền giá tr thiếu bằng tay, điền giá tr t động
Loi b da trên quan sát, loi b khi la chọn đặc trưng
Loi b toàn b d liu b nhiu và thay thế bng tp d liu mi, la chọn các đặc trưng quan
trng
S dng các thut toán phân lp, phân cm, tìm lut kết hp
HB(17) = Cho bn ghi d liu, giá tr ca các thuộc tính như sau: X=(6, 2, 5, 7, 5,?). Dấu hi là giá tr ca
thuc tính b thiếu. S dụng phương pháp tính trung bình giá trị ca các thuc tính ca bn ghi hin có,
hãy cho biết v trí du hi đin giá tr là bao nhiêu:
5
6
9
Giá tr khác
HB(18) = Khi x lý thiếu giá tr ca các bn ghi d liệu, phương pháp Bỏ qua bn ghi có giá tr thiếu ch
thích hp khi:
Các bn ghi có d liu b thiếu chiếm t l nh trong toàn b d liu
c bn ghi có d liu b thiếu chiếm t l ln trong toàn b d liu
Có th b qua tt c các bn ghi b thiếu
Không th b qua, phi tìm các giá tr để đin vào các bn ghi b thiếu
HB(19) = Cho cơ sở d liu giao dch gm N giao dch (bn ghi). I là tp cha tt c các mc (item) trong
CSDL. X là mt tp cha các mc thuc I. Giao dch h tr X là giao dch cha tt c các mc có trong X.
Độ h tr ca tp mục X được định nghĩa là:
Support(X)=S lượng giao dch h tr X / N
Support(X)=S lượng giao dch h tr X
Support(X)=S lượng giao dch h tr X / N * |I|, trong đó |I| là tổng s mc trong CSDL
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
Support(X)=S lượng giao dch h tr X *100%
HB(20) = Cho cơ sở d liu giao dch gm N giao dch (bn ghi). I là tp cha tt c các mc (item) trong
CSDL. X, Y là tp cha các mc thuộc I. Độ tin cy ca lut kết hợp X Y được định nghĩa là:
Confidence(XY)=S lượng giao dch h tr c X và Y / S lượng giao dch h tr X
Confidence(XY)=S lượng giao dch h tr X / S ng giao dch hi tr Y
Confidence(XY)=S lượng giao dch h tr c X và Y / S lượng giao dch h tr Y
Confidence(XY)=S lượng giao dch h tr c X và Y /N
HB(21) = Cho cơ sở d liu giao dch gm N giao dch (bn ghi). I là tp cha tt c các mc (item) trong
CSDL. X, Y là tp cha các mc thuộc I. Độ h tr ca lut kết hợp X Y được định nghĩa là:
Support(XY)=S lượng giao dch h tr c X và Y / N
Support(XY)=S lượng giao dch h tr c X và Y / S lượng giao dch h tr Y
Support(XY)=S lượng giao dch h tr c X và Y / S lượng giao dch h tr X
Support(XY)=S lượng giao dch h tr c X / S lượng giao dch h tr Y
HB(22) = Cho cơ sở d liu giao dch gm N giao dch (bn ghi). I là tp cha tt c các mc (item) trong
CSDL. Min_Supp là độ h tr ti thiu. X là tp cha các mc thuc I. Tp mục X được gi là tp mc
thưng xuyên (frequent itemset) nếu:
Support(X)>=Min_Supp
Support(X)<=Min_Supp
Support(X)=Min_Supp
Support(X) = Min_Supp/N
HB(23) = Cho cơ sở d liu giao dch gm N giao dch (bn ghi). I là tp cha tt c các mc (item) trong
CSDL. Min_Supp là độ h tr ti thiểu, Min_Conf là độ tin cy ti thiu. X, Y là tp cha các mc thuc I.
Lut kết hợp XY được chn nếu:
Support(XY)>=Min_Supp, Confidence(XY)>=Min_Conf
Support(XY)=Min_Supp, Confidence(XY)=Min_Conf
Support(XY)<Min_Supp, Confidence(XY)<Min_Conf
Support(XY)>Min_Supp, Confidence(XY)=Min_Conf
HB(24) = Cho CSDL giao dịch như hình vẽ. Các tp mục thường xuyên có 1 mc tha mãn Min_Supp là:
F:4, C:4, A:3, C:3, M:3, P:3"
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
C:4, A:3, C:3, M:3, P:3
F:4, C:4
A:3, C:3, M:3, P:3
HB(25) = Cho CDSL giao dịch như hình vẽ, Tp mục thường xuyên có 4 mc tha mãn Min_Supp là:
FCAM:3"
FCAM:2
FC:4
FCAM:4
HB(26) = Cho CSDL giao dịch như hình vẽ, Cơ sở điu kin ca nút M là:
{ F:2, C:2, A:2} và { F:1, C:1, A:1, B:1}"
{F:2, C:2, A:2}"
F:1, C:1, A:1
F: 3, C:3, A:3
HB(27) = Cho CSDL giao dịch như hình vẽ, cơ sở điu kin ca nút M là:"
{ F:2, C:2, A:2, M:2} và { C:1, B:1}"
{F:2, C:2, A:2, M:2}"
C:3
F: 3, C:3, A:3
HB(28) = Cho CDSL giao dịch như hình vẽ. Cây điều kin FP ca P là:
{ C:3}| p"
{CF:3}|p"
{C:4}|p
lOMoARcPSD| 45469857
Downloaded by Hà Anh (vjt987@gmail.com)
Cây điều kin là rng
HB(29) = Cho CSDL giao dịch như hình vẽ, cây điều kin FP ca A là: { F:3, C:3}| p"
{CF:3}|p"
{C:4}|p
Cây điều kin là rng
HB(30) = Cho CSDL giao dch gm N mc phân bit, tng s các tp mục được sinh ra (không tính tp
rng) là:
2 ^N - 1
2^N
N
Vô s tp mc
HB(31) = Cho A, B, C, D là các item và A-->BC là lut kết hp thỏa mãn độ h tr ti thiu Min_Sup và độ
tin cy ti thiu Min_Conf. Hãy cho biết lut kết hợp nào sau đây chắc chn tha mãn Min_Sup và
Min_Conf mà không cn phải tính độ h tr và độ tin cy:
AB-->C
A-->D
ABD-->C
D-->C
HB(32) = Cho A, B, C, là các item và A-->BC là lut kết hp thỏa mãn độ h tr ti thiểu Min_Sup và độ
tin cy ti thiu Min_Conf. Ta thy rng lut kết hp AB-->C cũng thỏa mãn điều kin v độ h tr ti
thiểu và độ tin cy ti thiu vì:
Conference(AB-->C) >= Conference(A-->BC)
Conference(AB-->C) <= Conference(A-->BC) Conference(AB-->C) = Conference(A-->BC)
Chưa kết luận được AB-->C có thỏa độ h tr ti tiểu và độ tin cy ti thiu hay không
HB(33) = Cho A, B, C, D là các mục trong cơ sở d liu giao dch. Kết luận nào sau đây là sai:
Support(ABC) < Support(ABCD)
Support(ABC) >= Support(ABCD)
Support(AB) >= Support(ABC)
Support(AB) <= Support(A)
HB(34) = Phát biểu nào sau đây là đúng:
| 1/58

Preview text:

lOMoAR cPSD| 45469857 PM_Datamining
HA(1) = Data Mining được định nghĩa là gì?
Là một quy trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong cơ sở dữ liệu lớn Khai phá dữ liệu Khai khoáng dữ liệu
Tìm kiếm thông tin trên Internet
HA(2) = Thuật ngữ Data Mining dịch ra tiếng Việt có nghĩa là:
Khai phá dữ liệu hoặc Khai thác dữ liệu Khai phá luật kết hợp
Khai phá tập mục thường xuyên
Khai phá tri thức từ dữ liệu lớn
HA(3) = Thuật ngữ Knowledge Discovery from Databases – KDD có nghĩa là:
Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm
năng) từ tập dữ liệu lớn Khai phá dữ liệu Khai thác dữ liệu Tìm kiếm dữ liệu
HA(4) = Phát biểu nào sau đây là đúng?
Data Mining là một bước trong quá trình khai phá tri thức-KDD
Thuật ngữ Data Mining đồng nghĩa với thuật ngữ Knowledge Discovery from Databases
Data Mining là quá trình tìm kiếm thông tin có ích trên Internet
Tiền xử lí dữ liệu là qua trình tìm kiếm thông tin có ích từ cơ sở dữ liệu lớn HA(5)
= Hiện nay, Data Mining đã được ứng dụng trong:
Hệ quản trị CSDL SQL Server Hệ quản trị CSDL Access Hệ quản trị CSDL Foxpro Microsoft Word 2010
HA(6) = Thuật ngữ Tiền xử lí dữ liệu bằng tiếng Anh là: Data Preprocessing Data Processing lOMoAR cPSD| 45469857 Preprocessing in Database Data Process
HA(7) = Cho CSDL Giao tác như hình vẽ, Số lượng giao dịch trong cơ sở dữ liệu là: 5 16 6 10
HA(8) = Cho CSDL giao dịch như hình vẽ, Độ hỗ trợ của tập mục X={A, M} là: 3 (60% ) 4 (80%) 5 (100%) 2 (40%)
HA(9) = Thuật toán Apriori có nhược điểm chính là:
Tốn nhiều bộ nhớ và thời gian. Không thích hợp với các mẫu lớn. Chi phí để duyệt CSDL nhiều.
Không tìm được các tập thường xuyên
Kết quả của thuật toán không ứng dụng được trong các bài toán thực tế
Thuật toán quá phức tạp, khó hiểu
HA(10) = Tập nào là tập mục thường xuyên thỏa Min_spport: { A,C } {D} {A,D} lOMoAR cPSD| 45469857 {B, C, D}
HA(11) = Tập nào không là tập mục thường xuyên: { A,C,D } {A,E} {A, C} {B,E}
HA(12) = Tập nào không là tập mục thường xuyên: { D } {A,E} {A, C} {B,E}
HA(13) = Sử dụng thuật toán Apriori, sau lần duyệt thứ nhất, tập mục chứa 1-item bị loại bỏ là: { D } {A} {B} {A}, {D}
HA(14) = Tập nào không là tập mục thường xuyên: { B, D } {A, E} {A, C} {B, E}
HA(15) = Tập nào là tập mục thường xuyên với độ hỗ trợ là 75%: lOMoAR cPSD| 45469857 { B,E } {A,E} {A, C} {B,C}
HA(16) = Tập nào là tập mục thường xuyên với độ hỗ trợ là = 70% Không có tập nào {A, E} {A, C, D} {B, C, D}
HA(17) = Luật kết hợp nào thỏa mãn các điều kiện đã cho: A-->C A-->D A--> E AB-->C
HA(18) = Luật kết hợp nào thỏa mãn các điều kiện đã cho: B-->E A-->D A--> E AB-->C
HA(19) = Luật kết hợp nào thỏa mãn các điều kiện đã cho: lOMoAR cPSD| 45469857 A-->C A-->D A--> E AB-->C
HA(20) = Luật kết hợp nào có độ tin cậy = 100% A-->C A-->D AD--> E AB-->C
HA(21) = Cho tập mục thường xuyên X={A, B}, từ tập X có thể sinh ra các luật kết hợp sau:
A--> B, B--> A, không tính luật AB --> và --> AB
A-->B, B--> A, A--> và --> B A--> B B--> A
HA(22) = Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút m 2 đường đi 1 đường đi 3 đường đi 4 đường đi
HA(23) = Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút p 2 đường đi lOMoAR cPSD| 45469857 1 đường đi 3 đường đi 4 đường đi
HA(24) = Hai thuật toán FP-Growth và Apriori dùng để:
Tìm các tập mục thường xuyên Tìm các luật kết hợp
Tìm các tập mục có k - item
Thực hiện công việc khác
HA(25) = Phương pháp nào không phải là phương pháp phân lớp:
Chia các đối tượng thành từng lớp để giảng dạy
Phân lớp dựa trên Cây quyết định
Phân lớp dựa trên xác suất Bayes
Phân lớp dựa trên Mạng Nơron
HA(26) = Cho tập ví dụ học như bảng. Có bao nhiêu thuộc tính để phân lớp? 4 thuộc tính 3 thuộc tính 5 thuộc tính 6 thuộc tính
HA(27) = Cho tập ví dụ học như bảng. Thuộc tính kết luận Play Ball có bao nhiêu giá trị: 2 giá trị 3 giá trị lOMoAR cPSD| 45469857 5 giá trị 1 giátrị
HA(28) = Cho tập ví dụ học như bảng. Các thuộc tính dùng để phân lớp là:
Outlook, Temperature, Humidity, Wind
Outlook, Temperature, Humidity, Wind, Play Ball
Day, Outlook, Temperature, Humidity, Wind
Day, Outlook, Temperature, Humidity, Wind, Play Ball
HA(29) = Khi chọn 1 thuộc tính A để làm gốc cây quyết định. Nếu thuộc tính A có 3 giá trị thì cây quyết
định có bao nhiêu nhánh? 3 nhánh 2 nhánh Nhiều nhánh
Phải biết kết luận C có bao nhiêu giá trị thì mới phân nhánh được
HA(30) = Sử dụng thuật toán ILA, khi kết luận C có n giá trị thì ta cần chia bảng chứa các ví dụ học thành mấy bảng con: n bảng con 2 bảng con không phải chia
Thành nhiều bảng tùy theo giá trị của n
HA(31) = Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA, cần chia bảng ví dụ học này thành mấy bảng con: 2 bảng 3 bảng không cần chia
Tùy theo thuộc tính được chọn HA(36) = Gom cụm (clustering) gì:
Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình
chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao cho các lOMoAR cPSD| 45469857
phần tử trong cùng một nhóm thì có mức độ tương tự nhau hơn là giữa các phần tử của nhóm
này với các phần tử của nhóm khác.”
“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình
chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao cho các
phần tử khác nhóm thì có mức độ tương tự nhau hơn là giữa các phần tử trong cùng một nhóm.” lOMoAR cPSD| 45469857
“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình
chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao dễ sử dụng nhất.”
“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình
chia các đối tượng thành từng nhóm sau cho số nhóm là ít nhất.”
HA(37) = Thuật ngữ tiếng Anh nào có nghĩa là phân cụm dữ liệu Data Clustering Data Classification Association Rule Data Mining
HA(38) = Thuật ngữ tiếng Anh nào có nghĩa là Khai phá dữ liệu Data Mining Data Clustering Data Classification Association Rule
HA(39) = Thuật ngữ tiếng Anh nào có nghĩa là Phân lớp dữ liệu Data Classification Data Clustering Data Mining Association Rule
HA(40) = Có N phần tử cần chia thành 1 cụm. Hỏi có bao nhiêu cách chia cụm: 1 cách 0 cách 2 cách N cách
HA(41) = Có N phần tử cần chia thành m cụm, với m>N. Hỏi có bao nhiêu cách chia cụm: 0 cách m cách
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857 2 cách N cách
HA(42) = Có bao nhiêu thuật toán phân cụm: Rất nhiều
Chỉ có 3 thuật toán Liên kết đơn, liên kết đầy đủ, k-mean
Chỉ có 2 thuật toán Liên kết đơn và liên kết đầy đủ
Chỉ có 2 thuật toán Liên kết đơn và k-mean
HA(43) = Trong thuật toán phân cụm k-mean, ban đầu k tâm được chọn: Chọn ngẫu nhiên
Chọn k phần tử nằm ở tâm
Chọn k các phần tử có giá trị nhỏ nhất
Chọn k phần tử có giá trị bằng giá trị trung bình của các phần tử trong tập dữ liệu
HA(44) = Sử dụng thuật toán k-mean để chia N điểm vào k cụm, khi đó: k<=N k=N k>N k khác N
HA(45) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khoảng cách giữa 2
phần tử x1 và x2 bằng bao nhiêu: bằng 1 bằng 2 bằng 0 bằng 9
HA(46) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khoảng cách giữa 2
phần tử x1 và x5 bằng bao nhiêu:
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857 bằng 5 bằng 2 bằng 0 bằng 9
HA(47) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Sử dụng thuật toán
liên kết đơn (Single Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm: x1 và x2 x1 và x3 x2 và x3 x3 và x5
HA(48) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự. Sử dụng thuật toán liên kết
đầy đủ (Complete Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm: x1 và x2 x1 và x3 x2 và x3 x3 và x5
HA(49) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 2.5 hỏi có mấy cụm được sinh ra: 3 cụm 2 cụm
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857 1 cụm 4 cụm
HA(50) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 5 hỏi có mấy cụm được sinh ra: 1 cụm 2 cụm 3 cụm 4 cụm
HA(51) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 3.5 hỏi có mấy cụm được sinh ra:
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857 2 cụm 3 cụm 1 cụm 4 cụm
HA(52) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 1.5 hỏi có mấy cụm được sinh ra: 4 cụm 2 cụm 1 cụm 5 cụm
HA(53) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 0.5 hỏi có mấy cụm được sinh ra: 5 cụm 2 cụm 1 cụm 4 cụm
HB(1) = Quá trình khai phá tri thức trong CSDL (KDD) có thể phân chia thành các giai đoạn sau:
Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri thức
Tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri thức
Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, khai phá luật kết hợp
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
Tiền xử lý dữ liệu, phân lớp, phân cụm, đánh giá và biểu diễn tri thức HB(2)
= Các loại đặc trưng của dữ liệu:
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ lệ
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo khối lượng
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo chiều dài
Đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ lệ
HB(3) = Một số bài toán điển hình trong khai phá dữ liệu là:
Khai phá luật kết hợp, phân loại, phân cụm, hồi qui...
Khai phá luật kết hợp, xây dựng máy tìm kiếm...
Web mining, Text mining, mạng nơron…
Bài toán nhận dạng, bài toán tìm kiếm thông tin, bài toán lựa chọn đặc trưng...
HB(4) = Một số thách thức lớn trong quá trình khai phá dữ liệu là (chọn đáp án đúng nhất):
Dữ liệu quá lớn, dữ liệu bị thiếu hoặc nhiễu, sự phức tạp của dữ liệu, dữ liệu thường xuyên thay đổi...
Trình độ của con người còn hạn chế, dữ liệu không được lưu trữ tập trung...
Dữ liệu quá lớn, máy khai phá dữ liệu có tốc độ hạn chế...
Tốc độ xử lý của máy tính còn hạn chế, dữ liệu thường xuyên thay đổi...
HB(5) = Một số lĩnh vực liên quan đến khai phá tri thức – KDD là:
Machine Learning, Visualization, Statistics, Databases…
Machine Learning, Programming, Statistics, Databases…
Machine Learning, Visualization, Statistics, BioInfomatics…
Support Vector Machine, Clustering, Statistics, Databases… HB(6)
= Khai phá dữ liệu có lợi ích gì?
Cung cấp hỗ trợ ra quyết định, dự báo, khái quát dữ liệu...
Tìm kiếm các quy luật, tìm kiếm các cụm và phân loại dữ liệu
Tìm kiếm nhanh thông tin, thống kê dữ liệu, chọn đặc trưng của dữ liệu...
Tạo ra cơ sở tri thức mới, hỗ trợ dự báo thời tiết, dự báo động đất, dự báo sóng thần...
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
HB(7) = Làm sạch dữ liệu (Data Cleaning) là quá trình:
Loại bỏ nhiễu và dữ liệu không nhất quán
Tìm kiếm dữ liệu có ích
Tìm kiếm dữ liệu có ích trong cơ sở dữ liệu lớn
Tổ hợp nhiều nguồn dữ liệu khác nhau
HB(8) = Một số ứng dụng tiềm năng của Khai phá dữ liệu:
Phân tích và quản lý thị trường, Quản lý và phân tích rủi ro, Quản lý và phân tích các sai hỏng,
Khai thác Web, Khai thác văn bản (text mining)…
Tìm kiếm văn bản, Tìm kiếm hình ảnh, Tìm kiếm tri thức mới trên Internet...
Phân tích tâm lí khách hàng, Hỗ trợ kinh doanh, tối ưu hóa phần cứng máy tính...
Phân tích thị trường chứng khoán, bất động sản, tìm kiếm dữ liệu bằng các máy tìm kiếm...
HB(9) = Các cơ sở dữ liệu cần khai phá là:
Quan hệ, Giao tác, Hướng đối tượng, Không gian, Thời gian, Text, XML, Multi-media, WWW, …
Text, XML, Multi-media, WWW, …
Cơ sở dữ liệu khách hàng, cơ sở dữ liệu nghiên cứu không gian, cơ sở dữ liệu trong ngân hàng,
cơ sở dữ liệu thống kê…
Cơ sở dữ liệu tuyển sinh đại học, cơ sở dữ liệu dự báo thời tiết, cơ sở dữ liệu thống kê dân số…
HB(10) = Thuật ngữ Big Data có nghĩa là:
Big data nói đến các tập dữ liệu rất lớn và phức tạp tới mức các kỹ thuật IT truyền thống không xử lí nổi. Dữ liệu rất lớn
Dữ liệu được tích hợp từ nhiều nguồn khác nhau
Dữ liệu khổng lồ trên Internet
HB(11) = Thuật ngữ BioInfomatics có nghĩa là
Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp của khoa học tính toán Sinh học phân tử
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
Tìm kiếm dữ liệu mới từ sinh học
Khai thác các thông tin có ích trong lĩnh vực y học
HB(12) = Phát biểu nào sau đây là đúng
Data Mining là một bước quan trọng trong quá trình khai phá tri thức từ dữ liệu – KDD
Tiền xử lí dữ liệu là chọn ra các đặc trưng tiêu biểu trong tập dữliệu lớn
Mọi dữ liệu đều có thể tìm kiếm được bằng máy tìm kiếm của Google
Data Mining là công cụ giúp các lập trình viên dễ dàng tìm kiếm thông tin hơn HB(13)
= Làm sạch dữ liệu là:
Điền giá trị thiếu, làm trơn dữ liệu nhiễu, định danh hoặc xóa ngoại lai, và khử tính không nhất quán Chuẩn hóa và tổng hợp
Bước cuối cùng trong quá trình Data Mining
Tích hợp CSDL, khối dữ liệu hoặc tập tin phức HB(14) =
Các bài toán thuộc làm sạch dữ liệu là:
Xử lý giá trị thiếu, Dữ liệu nhiễu: định danh ngoại lai và làm trơn, Chỉnh sửa dữ liệu không nhất
quán, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.
Làm trơn theo biên, phương pháp đóng thùng, điền giá trị thiếu, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.
Phân cụm, phân lớp, hồi quy, biểu diễn dữ liệu.
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
Phân cụm, tìm luật kết hợp, tìm kiếm đặc trưng
HB(15) = Cho một tập dữ liệu có n đặc trưng. Có bao nhiêu tập con không rỗng chứa các đặc trưng được lựa chọn: 2 ^n -1 2^n Vô số tập con n^2
HB(16) = Một số phương pháp loại bỏ dữ liệu nhiễu là:
Bỏ qua bản ghi có dữ liệu bị thiếu, điền giá trị thiếu bằng tay, điền giá trị tự động
Loại bỏ dựa trên quan sát, loại bỏ khi lựa chọn đặc trưng
Loại bỏ toàn bộ dữ liệu bị nhiễu và thay thế bằng tập dữ liệu mới, lựa chọn các đặc trưng quan trọng
Sử dụng các thuật toán phân lớp, phân cụm, tìm luật kết hợp
HB(17) = Cho bản ghi dữ liệu, giá trị của các thuộc tính như sau: X=(6, 2, 5, 7, 5,?). Dấu hỏi là giá trị của
thuộc tính bị thiếu. Sử dụng phương pháp tính trung bình giá trị của các thuộc tính của bản ghi hiện có,
hãy cho biết vị trí dấu hỏi điền giá trị là bao nhiêu: 5 6 9 Giá trị khác
HB(18) = Khi xử lý thiếu giá trị của các bản ghi dữ liệu, phương pháp Bỏ qua bản ghi có giá trị thiếu chỉ thích hợp khi:
Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ nhỏ trong toàn bộ dữ liệu
Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ lớn trong toàn bộ dữ liệu
Có thể bỏ qua tất cả các bản ghi bị thiếu
Không thể bỏ qua, phải tìm các giá trị để điền vào các bản ghi bị thiếu
HB(19) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong
CSDL. X là một tập chứa các mục thuộc I. Giao dịch hỗ trợ X là giao dịch chứa tất cả các mục có trong X.
Độ hỗ trợ của tập mục X được định nghĩa là:
Support(X)=Số lượng giao dịch hỗ trợ X / N
Support(X)=Số lượng giao dịch hỗ trợ X
Support(X)=Số lượng giao dịch hỗ trợ X / N * |I|, trong đó |I| là tổng số mục trong CSDL
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
Support(X)=Số lượng giao dịch hỗ trợ X *100%
HB(20) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong
CSDL. X, Y là tập chứa các mục thuộc I. Độ tin cậy của luật kết hợp X Y được định nghĩa là:
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X
Confidence(XY)=Số lượng giao dịch hỗ trợ X / Số lượng giao dịch hỗi trợ Y
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y /N
HB(21) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong
CSDL. X, Y là tập chứa các mục thuộc I. Độ hỗ trợ của luật kết hợp X Y được định nghĩa là:
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / N
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X
Support(XY)=Số lượng giao dịch hỗ trợ cả X / Số lượng giao dịch hỗ trợ Y
HB(22) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong
CSDL. Min_Supp là độ hỗ trợ tối thiểu. X là tập chứa các mục thuộc I. Tập mục X được gọi là tập mục
thường xuyên (frequent itemset) nếu: Support(X)>=Min_Supp Support(X)<=Min_Supp Support(X)=Min_Supp Support(X) = Min_Supp/N
HB(23) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong
CSDL. Min_Supp là độ hỗ trợ tối thiểu, Min_Conf là độ tin cậy tối thiểu. X, Y là tập chứa các mục thuộc I.
Luật kết hợp XY được chọn nếu:
Support(XY)>=Min_Supp, Confidence(XY)>=Min_Conf
Support(XY)=Min_Supp, Confidence(XY)=Min_Conf
Support(XY)Support(XY)>Min_Supp, Confidence(XY)=Min_Conf
HB(24) = Cho CSDL giao dịch như hình vẽ. Các tập mục thường xuyên có 1 mục thỏa mãn Min_Supp là: F:4, C:4, A:3, C:3, M:3, P:3"
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857 C:4, A:3, C:3, M:3, P:3 F:4, C:4 A:3, C:3, M:3, P:3
HB(25) = Cho CDSL giao dịch như hình vẽ, Tập mục thường xuyên có 4 mục thỏa mãn Min_Supp là: FCAM:3" FCAM:2 FC:4 FCAM:4
HB(26) = Cho CSDL giao dịch như hình vẽ, Cơ sở điều kiện của nút M là:
{ F:2, C:2, A:2} và { F:1, C:1, A:1, B:1}" {F:2, C:2, A:2}" F:1, C:1, A:1 F: 3, C:3, A:3
HB(27) = Cho CSDL giao dịch như hình vẽ, cơ sở điều kiện của nút M là:"
{ F:2, C:2, A:2, M:2} và { C:1, B:1}" {F:2, C:2, A:2, M:2}" C:3 F: 3, C:3, A:3
HB(28) = Cho CDSL giao dịch như hình vẽ. Cây điều kiện FP của P là: { C:3}| p" {CF:3}|p" {C:4}|p
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
Cây điều kiện là rỗng
HB(29) = Cho CSDL giao dịch như hình vẽ, cây điều kiện FP của A là: { F:3, C:3}| p" {CF:3}|p" {C:4}|p
Cây điều kiện là rỗng
HB(30) = Cho CSDL giao dịch gồm N mục phân biệt, tổng số các tập mục được sinh ra (không tính tập rỗng) là: 2 ^N - 1 2^N N Vô số tập mục
HB(31) = Cho A, B, C, D là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu Min_Sup và độ
tin cậy tối thiểu Min_Conf. Hãy cho biết luật kết hợp nào sau đây chắc chắn thỏa mãn Min_Sup và
Min_Conf mà không cần phải tính độ hỗ trợ và độ tin cậy: AB-->C A-->D ABD-->C D-->C
HB(32) = Cho A, B, C, là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu Min_Sup và độ
tin cậy tối thiểu Min_Conf. Ta thấy rằng luật kết hợp AB-->C cũng thỏa mãn điều kiện về độ hỗ trợ tối
thiểu và độ tin cậy tối thiểu vì:
Conference(AB-->C) >= Conference(A-->BC)
Conference(AB-->C) <= Conference(A-->BC) Conference(AB-->C) = Conference(A-->BC)
Chưa kết luận được AB-->C có thỏa độ hỗ trợ tối tiểu và độ tin cậy tối thiểu hay không
HB(33) = Cho A, B, C, D là các mục trong cơ sở dữ liệu giao dịch. Kết luận nào sau đây là sai:
Support(ABC) < Support(ABCD)
Support(ABC) >= Support(ABCD)
Support(AB) >= Support(ABC) Support(AB) <= Support(A)
HB(34) = Phát biểu nào sau đây là đúng:
Downloaded by Hà Anh (vjt987@gmail.com)