



















Preview text:
  lOMoAR cPSD| 45469857  PM_Datamining 
HA(1) = Data Mining được định nghĩa là gì? 
Là một quy trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong cơ sở dữ liệu lớn  Khai phá dữ liệu  Khai khoáng dữ liệu 
Tìm kiếm thông tin trên Internet 
HA(2) = Thuật ngữ Data Mining dịch ra tiếng Việt có nghĩa là: 
Khai phá dữ liệu hoặc Khai thác dữ liệu  Khai phá luật kết hợp 
Khai phá tập mục thường xuyên 
Khai phá tri thức từ dữ liệu lớn 
HA(3) = Thuật ngữ Knowledge Discovery from Databases – KDD có nghĩa là: 
Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm 
năng) từ tập dữ liệu lớn  Khai phá dữ liệu  Khai thác dữ liệu  Tìm kiếm dữ liệu 
HA(4) = Phát biểu nào sau đây là đúng? 
Data Mining là một bước trong quá trình khai phá tri thức-KDD 
Thuật ngữ Data Mining đồng nghĩa với thuật ngữ Knowledge Discovery from Databases 
Data Mining là quá trình tìm kiếm thông tin có ích trên Internet 
Tiền xử lí dữ liệu là qua trình tìm kiếm thông tin có ích từ cơ sở dữ liệu lớn HA(5) 
= Hiện nay, Data Mining đã được ứng dụng trong: 
Hệ quản trị CSDL SQL Server  Hệ quản trị CSDL Access  Hệ quản trị CSDL Foxpro  Microsoft Word 2010 
HA(6) = Thuật ngữ Tiền xử lí dữ liệu bằng tiếng Anh là:  Data Preprocessing  Data Processing      lOMoAR cPSD| 45469857  Preprocessing in Database  Data Process 
HA(7) = Cho CSDL Giao tác như hình vẽ, Số lượng giao dịch trong cơ sở dữ liệu là:    5  16  6  10 
HA(8) = Cho CSDL giao dịch như hình vẽ, Độ hỗ trợ của tập mục X={A, M} là:    3 (60% )  4 (80%)  5 (100%)  2 (40%) 
HA(9) = Thuật toán Apriori có nhược điểm chính là:   
Tốn nhiều bộ nhớ và thời gian. Không thích hợp với các mẫu lớn. Chi phí để duyệt CSDL nhiều. 
Không tìm được các tập thường xuyên 
Kết quả của thuật toán không ứng dụng được trong các bài toán thực tế 
Thuật toán quá phức tạp, khó hiểu 
HA(10) = Tập nào là tập mục thường xuyên thỏa Min_spport:    { A,C }  {D}  {A,D}      lOMoAR cPSD| 45469857  {B, C, D} 
HA(11) = Tập nào không là tập mục thường xuyên:    { A,C,D }  {A,E}  {A, C}  {B,E} 
HA(12) = Tập nào không là tập mục thường xuyên:    { D }  {A,E}  {A, C}  {B,E} 
HA(13) = Sử dụng thuật toán Apriori, sau lần duyệt thứ nhất, tập mục chứa 1-item bị loại bỏ là:    { D }  {A}  {B}  {A}, {D} 
HA(14) = Tập nào không là tập mục thường xuyên:    { B, D }  {A, E}  {A, C}  {B, E} 
HA(15) = Tập nào là tập mục thường xuyên với độ hỗ trợ là 75%:      lOMoAR cPSD| 45469857    { B,E }  {A,E}  {A, C}  {B,C} 
HA(16) = Tập nào là tập mục thường xuyên với độ hỗ trợ là = 70%    Không có tập nào  {A, E}  {A, C, D}  {B, C, D} 
HA(17) = Luật kết hợp nào thỏa mãn các điều kiện đã cho:    A-->C  A-->D  A--> E  AB-->C 
HA(18) = Luật kết hợp nào thỏa mãn các điều kiện đã cho:    B-->E  A-->D  A--> E  AB-->C 
HA(19) = Luật kết hợp nào thỏa mãn các điều kiện đã cho:        lOMoAR cPSD| 45469857  A-->C  A-->D  A--> E  AB-->C 
HA(20) = Luật kết hợp nào có độ tin cậy = 100%    A-->C  A-->D  AD--> E  AB-->C 
HA(21) = Cho tập mục thường xuyên X={A, B}, từ tập X có thể sinh ra các luật kết hợp sau:   
A--> B, B--> A, không tính luật AB --> và --> AB 
A-->B, B--> A, A--> và --> B  A--> B  B--> A 
HA(22) = Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút m    2 đường đi  1 đường đi  3 đường đi  4 đường đi 
HA(23) = Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút p    2 đường đi      lOMoAR cPSD| 45469857  1 đường đi  3 đường đi  4 đường đi 
HA(24) = Hai thuật toán FP-Growth và Apriori dùng để:   
Tìm các tập mục thường xuyên  Tìm các luật kết hợp 
Tìm các tập mục có k - item 
Thực hiện công việc khác 
HA(25) = Phương pháp nào không phải là phương pháp phân lớp:   
Chia các đối tượng thành từng lớp để giảng dạy 
Phân lớp dựa trên Cây quyết định 
Phân lớp dựa trên xác suất Bayes 
Phân lớp dựa trên Mạng Nơron 
HA(26) = Cho tập ví dụ học như bảng. Có bao nhiêu thuộc tính để phân lớp?    4 thuộc tính  3 thuộc tính  5 thuộc tính  6 thuộc tính 
HA(27) = Cho tập ví dụ học như bảng. Thuộc tính kết luận Play Ball có bao nhiêu giá trị:    2 giá trị  3 giá trị      lOMoAR cPSD| 45469857  5 giá trị  1 giátrị 
HA(28) = Cho tập ví dụ học như bảng. Các thuộc tính dùng để phân lớp là:   
Outlook, Temperature, Humidity, Wind 
Outlook, Temperature, Humidity, Wind, Play Ball 
Day, Outlook, Temperature, Humidity, Wind 
Day, Outlook, Temperature, Humidity, Wind, Play Ball 
HA(29) = Khi chọn 1 thuộc tính A để làm gốc cây quyết định. Nếu thuộc tính A có 3 giá trị thì cây quyết 
định có bao nhiêu nhánh?  3 nhánh  2 nhánh  Nhiều nhánh 
Phải biết kết luận C có bao nhiêu giá trị thì mới phân nhánh được 
HA(30) = Sử dụng thuật toán ILA, khi kết luận C có n giá trị thì ta cần chia bảng chứa các ví dụ học thành  mấy bảng con:  n bảng con  2 bảng con  không phải chia 
Thành nhiều bảng tùy theo giá trị của n 
HA(31) = Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA, cần chia bảng ví dụ học này thành mấy  bảng con:    2 bảng  3 bảng  không cần chia 
Tùy theo thuộc tính được chọn HA(36)  = Gom cụm (clustering) gì: 
Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình 
chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao cho các      lOMoAR cPSD| 45469857 
phần tử trong cùng một nhóm thì có mức độ tương tự nhau hơn là giữa các phần tử của nhóm 
này với các phần tử của nhóm khác.” 
“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình 
chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao cho các 
phần tử khác nhóm thì có mức độ tương tự nhau hơn là giữa các phần tử trong cùng một  nhóm.”      lOMoAR cPSD| 45469857     
“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình 
chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao dễ sử dụng  nhất.” 
“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình 
chia các đối tượng thành từng nhóm sau cho số nhóm là ít nhất.” 
HA(37) = Thuật ngữ tiếng Anh nào có nghĩa là phân cụm dữ liệu  Data Clustering  Data Classification  Association Rule  Data Mining 
HA(38) = Thuật ngữ tiếng Anh nào có nghĩa là Khai phá dữ liệu  Data Mining  Data Clustering  Data Classification  Association Rule 
HA(39) = Thuật ngữ tiếng Anh nào có nghĩa là Phân lớp dữ liệu  Data Classification  Data Clustering  Data Mining  Association Rule 
HA(40) = Có N phần tử cần chia thành 1 cụm. Hỏi có bao nhiêu cách chia cụm:  1 cách  0 cách  2 cách  N cách 
HA(41) = Có N phần tử cần chia thành m cụm, với m>N. Hỏi có bao nhiêu cách chia cụm:  0 cách  m cách 
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857      2 cách  N cách 
HA(42) = Có bao nhiêu thuật toán phân cụm:  Rất nhiều 
Chỉ có 3 thuật toán Liên kết đơn, liên kết đầy đủ, k-mean 
Chỉ có 2 thuật toán Liên kết đơn và liên kết đầy đủ 
Chỉ có 2 thuật toán Liên kết đơn và k-mean 
HA(43) = Trong thuật toán phân cụm k-mean, ban đầu k tâm được chọn:  Chọn ngẫu nhiên 
Chọn k phần tử nằm ở tâm 
Chọn k các phần tử có giá trị nhỏ nhất 
Chọn k phần tử có giá trị bằng giá trị trung bình của các phần tử trong tập dữ liệu 
HA(44) = Sử dụng thuật toán k-mean để chia N điểm vào k cụm, khi đó:  k<=N  k=N  k>N  k khác N 
HA(45) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khoảng cách giữa 2 
phần tử x1 và x2 bằng bao nhiêu:    bằng 1  bằng 2  bằng 0  bằng 9 
HA(46) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khoảng cách giữa 2 
phần tử x1 và x5 bằng bao nhiêu: 
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857            bằng 5  bằng 2  bằng 0  bằng 9 
HA(47) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Sử dụng thuật toán 
liên kết đơn (Single Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm:    x1 và x2 x1  và x3 x2  và x3 x3  và x5 
HA(48) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự. Sử dụng thuật toán liên kết 
đầy đủ (Complete Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm:    x1 và x2  x1 và x3  x2 và x3  x3 và x5 
HA(49) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 2.5 hỏi có mấy  cụm được sinh ra:    3 cụm  2 cụm 
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857      1 cụm  4 cụm 
HA(50) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 5 hỏi có mấy cụm  được sinh ra:    1 cụm  2 cụm  3 cụm  4 cụm 
HA(51) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 3.5 hỏi có mấy  cụm được sinh ra:   
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857          2 cụm  3 cụm  1 cụm  4 cụm 
HA(52) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 1.5 hỏi có mấy cụm  được sinh ra:    4 cụm  2 cụm  1 cụm  5 cụm 
HA(53) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 0.5 hỏi có mấy cụm  được sinh ra:    5 cụm  2 cụm  1 cụm  4 cụm 
HB(1) = Quá trình khai phá tri thức trong CSDL (KDD) có thể phân chia thành các giai đoạn sau: 
Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri  thức 
Tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri thức 
Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, khai phá luật kết hợp 
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857   
Tiền xử lý dữ liệu, phân lớp, phân cụm, đánh giá và biểu diễn tri thức HB(2) 
= Các loại đặc trưng của dữ liệu: 
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ lệ 
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo khối  lượng 
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo chiều  dài 
Đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ lệ 
HB(3) = Một số bài toán điển hình trong khai phá dữ liệu là: 
Khai phá luật kết hợp, phân loại, phân cụm, hồi qui... 
Khai phá luật kết hợp, xây dựng máy tìm kiếm... 
Web mining, Text mining, mạng nơron… 
Bài toán nhận dạng, bài toán tìm kiếm thông tin, bài toán lựa chọn đặc trưng... 
HB(4) = Một số thách thức lớn trong quá trình khai phá dữ liệu là (chọn đáp án đúng nhất): 
Dữ liệu quá lớn, dữ liệu bị thiếu hoặc nhiễu, sự phức tạp của dữ liệu, dữ liệu thường xuyên thay  đổi... 
Trình độ của con người còn hạn chế, dữ liệu không được lưu trữ tập trung... 
Dữ liệu quá lớn, máy khai phá dữ liệu có tốc độ hạn chế... 
Tốc độ xử lý của máy tính còn hạn chế, dữ liệu thường xuyên thay đổi... 
HB(5) = Một số lĩnh vực liên quan đến khai phá tri thức – KDD là: 
Machine Learning, Visualization, Statistics, Databases… 
Machine Learning, Programming, Statistics, Databases… 
Machine Learning, Visualization, Statistics, BioInfomatics… 
Support Vector Machine, Clustering, Statistics, Databases… HB(6) 
= Khai phá dữ liệu có lợi ích gì? 
Cung cấp hỗ trợ ra quyết định, dự báo, khái quát dữ liệu... 
Tìm kiếm các quy luật, tìm kiếm các cụm và phân loại dữ liệu 
Tìm kiếm nhanh thông tin, thống kê dữ liệu, chọn đặc trưng của dữ liệu... 
Tạo ra cơ sở tri thức mới, hỗ trợ dự báo thời tiết, dự báo động đất, dự báo sóng thần... 
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857         
HB(7) = Làm sạch dữ liệu (Data Cleaning) là quá trình: 
Loại bỏ nhiễu và dữ liệu không nhất quán 
Tìm kiếm dữ liệu có ích 
Tìm kiếm dữ liệu có ích trong cơ sở dữ liệu lớn 
Tổ hợp nhiều nguồn dữ liệu khác nhau 
HB(8) = Một số ứng dụng tiềm năng của Khai phá dữ liệu: 
Phân tích và quản lý thị trường, Quản lý và phân tích rủi ro, Quản lý và phân tích các sai hỏng, 
Khai thác Web, Khai thác văn bản (text mining)… 
Tìm kiếm văn bản, Tìm kiếm hình ảnh, Tìm kiếm tri thức mới trên Internet... 
Phân tích tâm lí khách hàng, Hỗ trợ kinh doanh, tối ưu hóa phần cứng máy tính... 
Phân tích thị trường chứng khoán, bất động sản, tìm kiếm dữ liệu bằng các máy tìm kiếm... 
HB(9) = Các cơ sở dữ liệu cần khai phá là: 
Quan hệ, Giao tác, Hướng đối tượng, Không gian, Thời gian, Text, XML, Multi-media, WWW,  … 
Text, XML, Multi-media, WWW, … 
Cơ sở dữ liệu khách hàng, cơ sở dữ liệu nghiên cứu không gian, cơ sở dữ liệu trong ngân hàng, 
cơ sở dữ liệu thống kê… 
Cơ sở dữ liệu tuyển sinh đại học, cơ sở dữ liệu dự báo thời tiết, cơ sở dữ liệu thống kê dân số… 
HB(10) = Thuật ngữ Big Data có nghĩa là: 
Big data nói đến các tập dữ liệu rất lớn và phức tạp tới mức các kỹ thuật IT truyền thống không  xử lí nổi.  Dữ liệu rất lớn 
Dữ liệu được tích hợp từ nhiều nguồn khác nhau 
Dữ liệu khổng lồ trên Internet 
HB(11) = Thuật ngữ BioInfomatics có nghĩa là 
Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp của khoa học tính toán  Sinh học phân tử 
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857   
Tìm kiếm dữ liệu mới từ sinh học 
Khai thác các thông tin có ích trong lĩnh vực y học 
HB(12) = Phát biểu nào sau đây là đúng 
Data Mining là một bước quan trọng trong quá trình khai phá tri thức từ dữ liệu – KDD 
Tiền xử lí dữ liệu là chọn ra các đặc trưng tiêu biểu trong tập dữliệu lớn 
Mọi dữ liệu đều có thể tìm kiếm được bằng máy tìm kiếm của Google 
Data Mining là công cụ giúp các lập trình viên dễ dàng tìm kiếm thông tin hơn HB(13) 
= Làm sạch dữ liệu là: 
Điền giá trị thiếu, làm trơn dữ liệu nhiễu, định danh hoặc xóa ngoại lai, và khử tính không nhất  quán  Chuẩn hóa và tổng hợp 
Bước cuối cùng trong quá trình Data Mining 
Tích hợp CSDL, khối dữ liệu hoặc tập tin phức HB(14) = 
Các bài toán thuộc làm sạch dữ liệu là: 
Xử lý giá trị thiếu, Dữ liệu nhiễu: định danh ngoại lai và làm trơn, Chỉnh sửa dữ liệu không nhất 
quán, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu. 
Làm trơn theo biên, phương pháp đóng thùng, điền giá trị thiếu, Giải quyết tính dư thừa tạo ra  sau tích hợp dữ liệu. 
Phân cụm, phân lớp, hồi quy, biểu diễn dữ liệu. 
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857   
Phân cụm, tìm luật kết hợp, tìm kiếm đặc trưng 
HB(15) = Cho một tập dữ liệu có n đặc trưng. Có bao nhiêu tập con không rỗng chứa các đặc trưng được  lựa chọn:  2 ^n -1  2^n  Vô số tập con  n^2 
HB(16) = Một số phương pháp loại bỏ dữ liệu nhiễu là: 
Bỏ qua bản ghi có dữ liệu bị thiếu, điền giá trị thiếu bằng tay, điền giá trị tự động 
Loại bỏ dựa trên quan sát, loại bỏ khi lựa chọn đặc trưng 
Loại bỏ toàn bộ dữ liệu bị nhiễu và thay thế bằng tập dữ liệu mới, lựa chọn các đặc trưng quan  trọng 
Sử dụng các thuật toán phân lớp, phân cụm, tìm luật kết hợp 
HB(17) = Cho bản ghi dữ liệu, giá trị của các thuộc tính như sau: X=(6, 2, 5, 7, 5,?). Dấu hỏi là giá trị của 
thuộc tính bị thiếu. Sử dụng phương pháp tính trung bình giá trị của các thuộc tính của bản ghi hiện có, 
hãy cho biết vị trí dấu hỏi điền giá trị là bao nhiêu:  5  6  9  Giá trị khác 
HB(18) = Khi xử lý thiếu giá trị của các bản ghi dữ liệu, phương pháp Bỏ qua bản ghi có giá trị thiếu chỉ  thích hợp khi: 
Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ nhỏ trong toàn bộ dữ liệu 
Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ lớn trong toàn bộ dữ liệu 
Có thể bỏ qua tất cả các bản ghi bị thiếu 
Không thể bỏ qua, phải tìm các giá trị để điền vào các bản ghi bị thiếu 
HB(19) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong 
CSDL. X là một tập chứa các mục thuộc I. Giao dịch hỗ trợ X là giao dịch chứa tất cả các mục có trong X. 
Độ hỗ trợ của tập mục X được định nghĩa là: 
Support(X)=Số lượng giao dịch hỗ trợ X / N 
Support(X)=Số lượng giao dịch hỗ trợ X 
Support(X)=Số lượng giao dịch hỗ trợ X / N * |I|, trong đó |I| là tổng số mục trong CSDL 
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857     
Support(X)=Số lượng giao dịch hỗ trợ X *100% 
HB(20) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong 
CSDL. X, Y là tập chứa các mục thuộc I. Độ tin cậy của luật kết hợp X Y được định nghĩa là: 
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X 
Confidence(XY)=Số lượng giao dịch hỗ trợ X / Số lượng giao dịch hỗi trợ Y 
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y 
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y /N 
HB(21) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong 
CSDL. X, Y là tập chứa các mục thuộc I. Độ hỗ trợ của luật kết hợp X Y được định nghĩa là: 
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / N 
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y 
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X 
Support(XY)=Số lượng giao dịch hỗ trợ cả X / Số lượng giao dịch hỗ trợ Y 
HB(22) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong 
CSDL. Min_Supp là độ hỗ trợ tối thiểu. X là tập chứa các mục thuộc I. Tập mục X được gọi là tập mục 
thường xuyên (frequent itemset) nếu:  Support(X)>=Min_Supp  Support(X)<=Min_Supp  Support(X)=Min_Supp  Support(X) = Min_Supp/N 
HB(23) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong 
CSDL. Min_Supp là độ hỗ trợ tối thiểu, Min_Conf là độ tin cậy tối thiểu. X, Y là tập chứa các mục thuộc I. 
Luật kết hợp XY được chọn nếu: 
Support(XY)>=Min_Supp, Confidence(XY)>=Min_Conf 
Support(XY)=Min_Supp, Confidence(XY)=Min_Conf 
Support(XY)Support(XY)>Min_Supp, Confidence(XY)=Min_Conf 
HB(24) = Cho CSDL giao dịch như hình vẽ. Các tập mục thường xuyên có 1 mục thỏa mãn Min_Supp là:    F:4, C:4, A:3, C:3, M:3, P:3" 
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857  C:4, A:3, C:3, M:3, P:3  F:4, C:4  A:3, C:3, M:3, P:3 
HB(25) = Cho CDSL giao dịch như hình vẽ, Tập mục thường xuyên có 4 mục thỏa mãn Min_Supp là:    FCAM:3"  FCAM:2  FC:4  FCAM:4 
HB(26) = Cho CSDL giao dịch như hình vẽ, Cơ sở điều kiện của nút M là:   
{ F:2, C:2, A:2} và { F:1, C:1, A:1, B:1}"  {F:2, C:2, A:2}"  F:1, C:1, A:1  F: 3, C:3, A:3 
HB(27) = Cho CSDL giao dịch như hình vẽ, cơ sở điều kiện của nút M là:"   
{ F:2, C:2, A:2, M:2} và { C:1, B:1}"  {F:2, C:2, A:2, M:2}"  C:3  F: 3, C:3, A:3 
HB(28) = Cho CDSL giao dịch như hình vẽ. Cây điều kiện FP của P là:    { C:3}| p"  {CF:3}|p"  {C:4}|p 
Downloaded by Hà Anh (vjt987@gmail.com)    lOMoAR cPSD| 45469857     
Cây điều kiện là rỗng 
HB(29) = Cho CSDL giao dịch như hình vẽ, cây điều kiện FP của A là: { F:3, C:3}| p"  {CF:3}|p"  {C:4}|p 
Cây điều kiện là rỗng 
HB(30) = Cho CSDL giao dịch gồm N mục phân biệt, tổng số các tập mục được sinh ra (không tính tập  rỗng) là:  2 ^N - 1  2^N  N  Vô số tập mục 
HB(31) = Cho A, B, C, D là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu Min_Sup và độ 
tin cậy tối thiểu Min_Conf. Hãy cho biết luật kết hợp nào sau đây chắc chắn thỏa mãn Min_Sup và 
Min_Conf mà không cần phải tính độ hỗ trợ và độ tin cậy:  AB-->C  A-->D  ABD-->C  D-->C 
HB(32) = Cho A, B, C, là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu Min_Sup và độ 
tin cậy tối thiểu Min_Conf. Ta thấy rằng luật kết hợp AB-->C cũng thỏa mãn điều kiện về độ hỗ trợ tối 
thiểu và độ tin cậy tối thiểu vì: 
Conference(AB-->C) >= Conference(A-->BC) 
Conference(AB-->C) <= Conference(A-->BC) Conference(AB-->C) = Conference(A-->BC) 
Chưa kết luận được AB-->C có thỏa độ hỗ trợ tối tiểu và độ tin cậy tối thiểu hay không 
HB(33) = Cho A, B, C, D là các mục trong cơ sở dữ liệu giao dịch. Kết luận nào sau đây là sai: 
Support(ABC) < Support(ABCD) 
Support(ABC) >= Support(ABCD) 
Support(AB) >= Support(ABC)  Support(AB) <= Support(A) 
HB(34) = Phát biểu nào sau đây là đúng: 
Downloaded by Hà Anh (vjt987@gmail.com)