58 trang 238 lượt tải

Câu hỏi trắc nghiệm PM_Datamining ôn tập môn Công nghệ thông tin | Trường đại học kinh doanh và công nghệ Hà Nội

476

HA(2) = Thuật ngữ Data Mining dịch ra tiếng Việt có nghĩa là: Khai phá dữ liệu hoặc Khai thác dữ liệu Khai phá luật kết hợp Khai phá tập mục thường xuyên Khai phá tri thức từ dữ liệu lớn. Tài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!

Môn: Công nghệ thông tin (HUBT) 138 tài liệu

Trường: Đại học Kinh Doanh và Công Nghệ Hà Nội 1.2 K tài liệu

Tác giả:

Lan Anh Trần

9 tháng trước

Danh sách Quiz

lOMoARcPSD| 45469857

PM_Datamining

HA(1) = Data Mining được định nghĩa là gì?

Là một quy trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong cơ sở dữ liệu lớn

Khai phá dữ liệu

Khai khoáng dữ liệu

Tìm kiếm thông tin trên Internet

HA(2) = Thuật ngữ Data Mining dịch ra tiếng Việt có nghĩa là:

Khai phá dữ liệu hoặc Khai thác dữ liệu

Khai phá luật kết hợp

Khai phá tập mục thường xuyên

Khai phá tri thức từ dữ liệu lớn

HA(3) = Thuật ngữ Knowledge Discovery from Databases – KDD có nghĩa là:

Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm

năng) từ tập dữ liệu lớn

Khai phá dữ liệu

Khai thác dữ liệu

Tìm kiếm dữ liệu

HA(4) = Phát biểu nào sau đây là đúng?

Data Mining là một bước trong quá trình khai phá tri thức-KDD

Thuật ngữ Data Mining đồng nghĩa với thuật ngữ Knowledge Discovery from Databases

Data Mining là quá trình tìm kiếm thông tin có ích trên Internet

Tiền xử lí dữ liệu là qua trình tìm kiếm thông tin có ích từ cơ sở dữ liệu lớn HA(5)

= Hiện nay, Data Mining đã được ứng dụng trong:

Hệ quản trị CSDL SQL Server

Hệ quản trị CSDL Access

Hệ quản trị CSDL Foxpro

Microsoft Word 2010

HA(6) = Thuật ngữ Tiền xử lí dữ liệu bằng tiếng Anh là:

Data Preprocessing

Data Processing

lOMoARcPSD| 45469857

Preprocessing in Database

Data Process

HA(7) = Cho CSDL Giao tác như hình vẽ, Số lượng giao dịch trong cơ sở dữ liệu là:

HA(8) = Cho CSDL giao dịch như hình vẽ, Độ hỗ trợ của tập mục X={A, M} là:

3 (60% )

4 (80%)

5 (100%)

2 (40%)

HA(9) = Thuật toán Apriori có nhược điểm chính là:

Tốn nhiều bộ nhớ và thời gian. Không thích hợp với các mẫu lớn. Chi phí để duyệt CSDL nhiều.

Không tìm được các tập thường xuyên

Kết quả của thuật toán không ứng dụng được trong các bài toán thực tế

Thuật toán quá phức tạp, khó hiểu

HA(10) = Tập nào là tập mục thường xuyên thỏa Min_spport:

{ A,C }

{D}

{A,D}

lOMoARcPSD| 45469857

{B, C, D}

HA(11) = Tập nào không là tập mục thường xuyên:

{ A,C,D }

{A,E}

{A, C}

{B,E}

HA(12) = Tập nào không là tập mục thường xuyên:

{ D }

{A,E}

{A, C}

{B,E}

HA(13) = Sử dụng thuật toán Apriori, sau lần duyệt thứ nhất, tập mục chứa 1-item bị loại bỏ là:

{ D }

{A}

{B}

{A}, {D}

HA(14) = Tập nào không là tập mục thường xuyên:

{ B, D }

{A, E}

{A, C}

{B, E}

HA(15) = Tập nào là tập mục thường xuyên với độ hỗ trợ là 75%:

lOMoARcPSD| 45469857

{ B,E }

{A,E}

{A, C}

{B,C}

HA(16) = Tập nào là tập mục thường xuyên với độ hỗ trợ là = 70%

Không có tập nào

{A, E}

{A, C, D}

{B, C, D}

HA(17) = Luật kết hợp nào thỏa mãn các điều kiện đã cho:

A-->C

A-->D

A--> E

AB-->C

HA(18) = Luật kết hợp nào thỏa mãn các điều kiện đã cho:

B-->E

A-->D

A--> E

AB-->C

HA(19) = Luật kết hợp nào thỏa mãn các điều kiện đã cho:

lOMoARcPSD| 45469857

A-->C

A-->D

A--> E

AB-->C

HA(20) = Luật kết hợp nào có độ tin cậy = 100%

A-->C

A-->D

AD--> E

AB-->C

HA(21) = Cho tập mục thường xuyên X={A, B}, từ tập X có thể sinh ra các luật kết hợp sau:

A--> B, B--> A, không tính luật AB --> và --> AB

A-->B, B--> A, A--> và --> B

A--> B

B--> A

HA(22) = Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút m

2 đường đi

1 đường đi

3 đường đi

4 đường đi

HA(23) = Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút p

2 đường đi

lOMoARcPSD| 45469857

1 đường đi

3 đường đi

4 đường đi

HA(24) = Hai thuật toán FP-Growth và Apriori dùng để:

Tìm các tập mục thường xuyên

Tìm các luật kết hợp

Tìm các tập mục có k - item

Thực hiện công việc khác

HA(25) = Phương pháp nào không phải là phương pháp phân lớp:

Chia các đối tượng thành từng lớp để giảng dạy

Phân lớp dựa trên Cây quyết định

Phân lớp dựa trên xác suất Bayes

Phân lớp dựa trên Mạng Nơron

HA(26) = Cho tập ví dụ học như bảng. Có bao nhiêu thuộc tính để phân lớp?

4 thuộc tính

3 thuộc tính

5 thuộc tính

6 thuộc tính

HA(27) = Cho tập ví dụ học như bảng. Thuộc tính kết luận Play Ball có bao nhiêu giá trị:

2 giá trị

3 giá trị

lOMoARcPSD| 45469857

5 giá trị

1 giátrị

HA(28) = Cho tập ví dụ học như bảng. Các thuộc tính dùng để phân lớp là:

Outlook, Temperature, Humidity, Wind

Outlook, Temperature, Humidity, Wind, Play Ball

Day, Outlook, Temperature, Humidity, Wind

Day, Outlook, Temperature, Humidity, Wind, Play Ball

HA(29) = Khi chọn 1 thuộc tính A để làm gốc cây quyết định. Nếu thuộc tính A có 3 giá trị thì cây quyết

định có bao nhiêu nhánh?

3 nhánh

2 nhánh

Nhiều nhánh

Phải biết kết luận C có bao nhiêu giá trị thì mới phân nhánh được

HA(30) = Sử dụng thuật toán ILA, khi kết luận C có n giá trị thì ta cần chia bảng chứa các ví dụ học thành

mấy bảng con:

n bảng con

2 bảng con

không phải chia

Thành nhiều bảng tùy theo giá trị của n

HA(31) = Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA, cần chia bảng ví dụ học này thành mấy

bảng con:

2 bảng

3 bảng

không cần chia

Tùy theo thuộc tính được chọn HA(36)

= Gom cụm (clustering) gì:

Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình

chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao cho các

lOMoARcPSD| 45469857

phần tử trong cùng một nhóm thì có mức độ tương tự nhau hơn là giữa các phần tử của nhóm

này với các phần tử của nhóm khác.”

“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình

chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao cho các

phần tử khác nhóm thì có mức độ tương tự nhau hơn là giữa các phần tử trong cùng một

nhóm.”

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình

chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao dễ sử dụng

nhất.”

“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình

chia các đối tượng thành từng nhóm sau cho số nhóm là ít nhất.”

HA(37) = Thuật ngữ tiếng Anh nào có nghĩa là phân cụm dữ liệu

Data Clustering

Data Classification

Association Rule

Data Mining

HA(38) = Thuật ngữ tiếng Anh nào có nghĩa là Khai phá dữ liệu

Data Mining

Data Clustering

Data Classification

Association Rule

HA(39) = Thuật ngữ tiếng Anh nào có nghĩa là Phân lớp dữ liệu

Data Classification

Data Clustering

Data Mining

Association Rule

HA(40) = Có N phần tử cần chia thành 1 cụm. Hỏi có bao nhiêu cách chia cụm:

1 cách

0 cách

2 cách

N cách

HA(41) = Có N phần tử cần chia thành m cụm, với m>N. Hỏi có bao nhiêu cách chia cụm:

0 cách

m cách

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

2 cách

N cách

HA(42) = Có bao nhiêu thuật toán phân cụm:

Rất nhiều

Chỉ có 3 thuật toán Liên kết đơn, liên kết đầy đủ, k-mean

Chỉ có 2 thuật toán Liên kết đơn và liên kết đầy đủ

Chỉ có 2 thuật toán Liên kết đơn và k-mean

HA(43) = Trong thuật toán phân cụm k-mean, ban đầu k tâm được chọn:

Chọn ngẫu nhiên

Chọn k phần tử nằm ở tâm

Chọn k các phần tử có giá trị nhỏ nhất

Chọn k phần tử có giá trị bằng giá trị trung bình của các phần tử trong tập dữ liệu

HA(44) = Sử dụng thuật toán k-mean để chia N điểm vào k cụm, khi đó:

k<=N

k=N

k>N

k khác N

HA(45) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khoảng cách giữa 2

phần tử x1 và x2 bằng bao nhiêu:

bằng 1

bằng 2

bằng 0

bằng 9

HA(46) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khoảng cách giữa 2

phần tử x1 và x5 bằng bao nhiêu:

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

bằng 5

bằng 2

bằng 0

bằng 9

HA(47) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Sử dụng thuật toán

liên kết đơn (Single Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm:

x1 và x2 x1

và x3 x2

và x3 x3

và x5

HA(48) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự. Sử dụng thuật toán liên kết

đầy đủ (Complete Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm:

x1 và x2

x1 và x3

x2 và x3

x3 và x5

HA(49) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 2.5 hỏi có mấy

cụm được sinh ra:

3 cụm

2 cụm

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

1 cụm

4 cụm

HA(50) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 5 hỏi có mấy cụm

được sinh ra:

1 cụm

2 cụm

3 cụm

4 cụm

HA(51) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 3.5 hỏi có mấy

cụm được sinh ra:

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

2 cụm

3 cụm

1 cụm

4 cụm

HA(52) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 1.5 hỏi có mấy cụm

được sinh ra:

4 cụm

2 cụm

1 cụm

5 cụm

HA(53) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 0.5 hỏi có mấy cụm

được sinh ra:

5 cụm

2 cụm

1 cụm

4 cụm

HB(1) = Quá trình khai phá tri thức trong CSDL (KDD) có thể phân chia thành các giai đoạn sau:

Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri

thức

Tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri thức

Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, khai phá luật kết hợp

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

Tiền xử lý dữ liệu, phân lớp, phân cụm, đánh giá và biểu diễn tri thức HB(2)

= Các loại đặc trưng của dữ liệu:

Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ lệ

Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo khối

lượng

Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo chiều

dài

Đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ lệ

HB(3) = Một số bài toán điển hình trong khai phá dữ liệu là:

Khai phá luật kết hợp, phân loại, phân cụm, hồi qui...

Khai phá luật kết hợp, xây dựng máy tìm kiếm...

Web mining, Text mining, mạng nơron…

Bài toán nhận dạng, bài toán tìm kiếm thông tin, bài toán lựa chọn đặc trưng...

HB(4) = Một số thách thức lớn trong quá trình khai phá dữ liệu là (chọn đáp án đúng nhất):

Dữ liệu quá lớn, dữ liệu bị thiếu hoặc nhiễu, sự phức tạp của dữ liệu, dữ liệu thường xuyên thay

đổi...

Trình độ của con người còn hạn chế, dữ liệu không được lưu trữ tập trung...

Dữ liệu quá lớn, máy khai phá dữ liệu có tốc độ hạn chế...

Tốc độ xử lý của máy tính còn hạn chế, dữ liệu thường xuyên thay đổi...

HB(5) = Một số lĩnh vực liên quan đến khai phá tri thức – KDD là:

Machine Learning, Visualization, Statistics, Databases…

Machine Learning, Programming, Statistics, Databases…

Machine Learning, Visualization, Statistics, BioInfomatics…

Support Vector Machine, Clustering, Statistics, Databases… HB(6)

= Khai phá dữ liệu có lợi ích gì?

Cung cấp hỗ trợ ra quyết định, dự báo, khái quát dữ liệu...

Tìm kiếm các quy luật, tìm kiếm các cụm và phân loại dữ liệu

Tìm kiếm nhanh thông tin, thống kê dữ liệu, chọn đặc trưng của dữ liệu...

Tạo ra cơ sở tri thức mới, hỗ trợ dự báo thời tiết, dự báo động đất, dự báo sóng thần...

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

HB(7) = Làm sạch dữ liệu (Data Cleaning) là quá trình:

Loại bỏ nhiễu và dữ liệu không nhất quán

Tìm kiếm dữ liệu có ích

Tìm kiếm dữ liệu có ích trong cơ sở dữ liệu lớn

Tổ hợp nhiều nguồn dữ liệu khác nhau

HB(8) = Một số ứng dụng tiềm năng của Khai phá dữ liệu:

Phân tích và quản lý thị trường, Quản lý và phân tích rủi ro, Quản lý và phân tích các sai hỏng,

Khai thác Web, Khai thác văn bản (text mining)…

Tìm kiếm văn bản, Tìm kiếm hình ảnh, Tìm kiếm tri thức mới trên Internet...

Phân tích tâm lí khách hàng, Hỗ trợ kinh doanh, tối ưu hóa phần cứng máy tính...

Phân tích thị trường chứng khoán, bất động sản, tìm kiếm dữ liệu bằng các máy tìm kiếm...

HB(9) = Các cơ sở dữ liệu cần khai phá là:

Quan hệ, Giao tác, Hướng đối tượng, Không gian, Thời gian, Text, XML, Multi-media, WWW,

…

Text, XML, Multi-media, WWW, …

Cơ sở dữ liệu khách hàng, cơ sở dữ liệu nghiên cứu không gian, cơ sở dữ liệu trong ngân hàng,

cơ sở dữ liệu thống kê…

Cơ sở dữ liệu tuyển sinh đại học, cơ sở dữ liệu dự báo thời tiết, cơ sở dữ liệu thống kê dân số…

HB(10) = Thuật ngữ Big Data có nghĩa là:

Big data nói đến các tập dữ liệu rất lớn và phức tạp tới mức các kỹ thuật IT truyền thống không

xử lí nổi.

Dữ liệu rất lớn

Dữ liệu được tích hợp từ nhiều nguồn khác nhau

Dữ liệu khổng lồ trên Internet

HB(11) = Thuật ngữ BioInfomatics có nghĩa là

Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp của khoa học tính toán

Sinh học phân tử

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

Tìm kiếm dữ liệu mới từ sinh học

Khai thác các thông tin có ích trong lĩnh vực y học

HB(12) = Phát biểu nào sau đây là đúng

Data Mining là một bước quan trọng trong quá trình khai phá tri thức từ dữ liệu – KDD

Tiền xử lí dữ liệu là chọn ra các đặc trưng tiêu biểu trong tập dữliệu lớn

Mọi dữ liệu đều có thể tìm kiếm được bằng máy tìm kiếm của Google

Data Mining là công cụ giúp các lập trình viên dễ dàng tìm kiếm thông tin hơn HB(13)

= Làm sạch dữ liệu là:

Điền giá trị thiếu, làm trơn dữ liệu nhiễu, định danh hoặc xóa ngoại lai, và khử tính không nhất

quán

Chuẩn hóa và tổng hợp

Bước cuối cùng trong quá trình Data Mining

Tích hợp CSDL, khối dữ liệu hoặc tập tin phức HB(14) =

Các bài toán thuộc làm sạch dữ liệu là:

Xử lý giá trị thiếu, Dữ liệu nhiễu: định danh ngoại lai và làm trơn, Chỉnh sửa dữ liệu không nhất

quán, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.

Làm trơn theo biên, phương pháp đóng thùng, điền giá trị thiếu, Giải quyết tính dư thừa tạo ra

sau tích hợp dữ liệu.

Phân cụm, phân lớp, hồi quy, biểu diễn dữ liệu.

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

Phân cụm, tìm luật kết hợp, tìm kiếm đặc trưng

HB(15) = Cho một tập dữ liệu có n đặc trưng. Có bao nhiêu tập con không rỗng chứa các đặc trưng được

lựa chọn:

2 ^n -1

2^n

Vô số tập con

n^2

HB(16) = Một số phương pháp loại bỏ dữ liệu nhiễu là:

Bỏ qua bản ghi có dữ liệu bị thiếu, điền giá trị thiếu bằng tay, điền giá trị tự động

Loại bỏ dựa trên quan sát, loại bỏ khi lựa chọn đặc trưng

Loại bỏ toàn bộ dữ liệu bị nhiễu và thay thế bằng tập dữ liệu mới, lựa chọn các đặc trưng quan

trọng

Sử dụng các thuật toán phân lớp, phân cụm, tìm luật kết hợp

HB(17) = Cho bản ghi dữ liệu, giá trị của các thuộc tính như sau: X=(6, 2, 5, 7, 5,?). Dấu hỏi là giá trị của

thuộc tính bị thiếu. Sử dụng phương pháp tính trung bình giá trị của các thuộc tính của bản ghi hiện có,

hãy cho biết vị trí dấu hỏi điền giá trị là bao nhiêu:

Giá trị khác

HB(18) = Khi xử lý thiếu giá trị của các bản ghi dữ liệu, phương pháp Bỏ qua bản ghi có giá trị thiếu chỉ

thích hợp khi:

Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ nhỏ trong toàn bộ dữ liệu

Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ lớn trong toàn bộ dữ liệu

Có thể bỏ qua tất cả các bản ghi bị thiếu

Không thể bỏ qua, phải tìm các giá trị để điền vào các bản ghi bị thiếu

HB(19) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong

CSDL. X là một tập chứa các mục thuộc I. Giao dịch hỗ trợ X là giao dịch chứa tất cả các mục có trong X.

Độ hỗ trợ của tập mục X được định nghĩa là:

Support(X)=Số lượng giao dịch hỗ trợ X / N

Support(X)=Số lượng giao dịch hỗ trợ X

Support(X)=Số lượng giao dịch hỗ trợ X / N * |I|, trong đó |I| là tổng số mục trong CSDL

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

Support(X)=Số lượng giao dịch hỗ trợ X *100%

HB(20) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong

CSDL. X, Y là tập chứa các mục thuộc I. Độ tin cậy của luật kết hợp X Y được định nghĩa là:

Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X

Confidence(XY)=Số lượng giao dịch hỗ trợ X / Số lượng giao dịch hỗi trợ Y

Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y

Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y /N

HB(21) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong

CSDL. X, Y là tập chứa các mục thuộc I. Độ hỗ trợ của luật kết hợp X Y được định nghĩa là:

Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / N

Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y

Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X

Support(XY)=Số lượng giao dịch hỗ trợ cả X / Số lượng giao dịch hỗ trợ Y

HB(22) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong

CSDL. Min_Supp là độ hỗ trợ tối thiểu. X là tập chứa các mục thuộc I. Tập mục X được gọi là tập mục

thường xuyên (frequent itemset) nếu:

Support(X)>=Min_Supp

Support(X)<=Min_Supp

Support(X)=Min_Supp

Support(X) = Min_Supp/N

HB(23) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong

CSDL. Min_Supp là độ hỗ trợ tối thiểu, Min_Conf là độ tin cậy tối thiểu. X, Y là tập chứa các mục thuộc I.

Luật kết hợp XY được chọn nếu:

Support(XY)>=Min_Supp, Confidence(XY)>=Min_Conf

Support(XY)=Min_Supp, Confidence(XY)=Min_Conf

Support(XY)<Min_Supp, Confidence(XY)<Min_Conf

Support(XY)>Min_Supp, Confidence(XY)=Min_Conf

HB(24) = Cho CSDL giao dịch như hình vẽ. Các tập mục thường xuyên có 1 mục thỏa mãn Min_Supp là:

F:4, C:4, A:3, C:3, M:3, P:3"

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

C:4, A:3, C:3, M:3, P:3

F:4, C:4

A:3, C:3, M:3, P:3

HB(25) = Cho CDSL giao dịch như hình vẽ, Tập mục thường xuyên có 4 mục thỏa mãn Min_Supp là:

FCAM:3"

FCAM:2

FC:4

FCAM:4

HB(26) = Cho CSDL giao dịch như hình vẽ, Cơ sở điều kiện của nút M là:

{ F:2, C:2, A:2} và { F:1, C:1, A:1, B:1}"

{F:2, C:2, A:2}"

F:1, C:1, A:1

F: 3, C:3, A:3

HB(27) = Cho CSDL giao dịch như hình vẽ, cơ sở điều kiện của nút M là:"

{ F:2, C:2, A:2, M:2} và { C:1, B:1}"

{F:2, C:2, A:2, M:2}"

C:3

F: 3, C:3, A:3

HB(28) = Cho CDSL giao dịch như hình vẽ. Cây điều kiện FP của P là:

{ C:3}| p"

{CF:3}|p"

{C:4}|p

lOMoARcPSD| 45469857

Downloaded by Hà Anh (vjt987@gmail.com)

Cây điều kiện là rỗng

HB(29) = Cho CSDL giao dịch như hình vẽ, cây điều kiện FP của A là: { F:3, C:3}| p"

{CF:3}|p"

{C:4}|p

Cây điều kiện là rỗng

HB(30) = Cho CSDL giao dịch gồm N mục phân biệt, tổng số các tập mục được sinh ra (không tính tập

rỗng) là:

2 ^N - 1

2^N

Vô số tập mục

HB(31) = Cho A, B, C, D là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu Min_Sup và độ

tin cậy tối thiểu Min_Conf. Hãy cho biết luật kết hợp nào sau đây chắc chắn thỏa mãn Min_Sup và

Min_Conf mà không cần phải tính độ hỗ trợ và độ tin cậy:

AB-->C

A-->D

ABD-->C

D-->C

HB(32) = Cho A, B, C, là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu Min_Sup và độ

tin cậy tối thiểu Min_Conf. Ta thấy rằng luật kết hợp AB-->C cũng thỏa mãn điều kiện về độ hỗ trợ tối

thiểu và độ tin cậy tối thiểu vì:

Conference(AB-->C) >= Conference(A-->BC)

Conference(AB-->C) <= Conference(A-->BC) Conference(AB-->C) = Conference(A-->BC)

Chưa kết luận được AB-->C có thỏa độ hỗ trợ tối tiểu và độ tin cậy tối thiểu hay không

HB(33) = Cho A, B, C, D là các mục trong cơ sở dữ liệu giao dịch. Kết luận nào sau đây là sai:

Support(ABC) < Support(ABCD)

Support(ABC) >= Support(ABCD)

Support(AB) >= Support(ABC)

Support(AB) <= Support(A)

HB(34) = Phát biểu nào sau đây là đúng:

Bấm Tải xuống để xem toàn bộ.

Preview text:

lOMoAR cPSD| 45469857 PM_Datamining
HA(1) = Data Mining được định nghĩa là gì?
Là một quy trình tìm kiếm, phát hiện các tri thức mới, tiềm ẩn, hữu dụng trong cơ sở dữ liệu lớn Khai phá dữ liệu Khai khoáng dữ liệu
Tìm kiếm thông tin trên Internet
HA(2) = Thuật ngữ Data Mining dịch ra tiếng Việt có nghĩa là:
Khai phá dữ liệu hoặc Khai thác dữ liệu Khai phá luật kết hợp
Khai phá tập mục thường xuyên
Khai phá tri thức từ dữ liệu lớn
HA(3) = Thuật ngữ Knowledge Discovery from Databases – KDD có nghĩa là:
Trích chọn các mẫu hoặc tri thức hấp dẫn (không tầm thường, ẩn, chưa biết và hữu dụng tiềm
năng) từ tập dữ liệu lớn Khai phá dữ liệu Khai thác dữ liệu Tìm kiếm dữ liệu
HA(4) = Phát biểu nào sau đây là đúng?
Data Mining là một bước trong quá trình khai phá tri thức-KDD
Thuật ngữ Data Mining đồng nghĩa với thuật ngữ Knowledge Discovery from Databases
Data Mining là quá trình tìm kiếm thông tin có ích trên Internet
Tiền xử lí dữ liệu là qua trình tìm kiếm thông tin có ích từ cơ sở dữ liệu lớn HA(5)
= Hiện nay, Data Mining đã được ứng dụng trong:
Hệ quản trị CSDL SQL Server Hệ quản trị CSDL Access Hệ quản trị CSDL Foxpro Microsoft Word 2010
HA(6) = Thuật ngữ Tiền xử lí dữ liệu bằng tiếng Anh là: Data Preprocessing Data Processing lOMoAR cPSD| 45469857 Preprocessing in Database Data Process
HA(7) = Cho CSDL Giao tác như hình vẽ, Số lượng giao dịch trong cơ sở dữ liệu là: 5 16 6 10
HA(8) = Cho CSDL giao dịch như hình vẽ, Độ hỗ trợ của tập mục X={A, M} là: 3 (60% ) 4 (80%) 5 (100%) 2 (40%)
HA(9) = Thuật toán Apriori có nhược điểm chính là:
Tốn nhiều bộ nhớ và thời gian. Không thích hợp với các mẫu lớn. Chi phí để duyệt CSDL nhiều.
Không tìm được các tập thường xuyên
Kết quả của thuật toán không ứng dụng được trong các bài toán thực tế
Thuật toán quá phức tạp, khó hiểu
HA(10) = Tập nào là tập mục thường xuyên thỏa Min_spport: { A,C } {D} {A,D} lOMoAR cPSD| 45469857 {B, C, D}
HA(11) = Tập nào không là tập mục thường xuyên: { A,C,D } {A,E} {A, C} {B,E}
HA(12) = Tập nào không là tập mục thường xuyên: { D } {A,E} {A, C} {B,E}
HA(13) = Sử dụng thuật toán Apriori, sau lần duyệt thứ nhất, tập mục chứa 1-item bị loại bỏ là: { D } {A} {B} {A}, {D}
HA(14) = Tập nào không là tập mục thường xuyên: { B, D } {A, E} {A, C} {B, E}
HA(15) = Tập nào là tập mục thường xuyên với độ hỗ trợ là 75%: lOMoAR cPSD| 45469857 { B,E } {A,E} {A, C} {B,C}
HA(16) = Tập nào là tập mục thường xuyên với độ hỗ trợ là = 70% Không có tập nào {A, E} {A, C, D} {B, C, D}
HA(17) = Luật kết hợp nào thỏa mãn các điều kiện đã cho: A-->C A-->D A--> E AB-->C
HA(18) = Luật kết hợp nào thỏa mãn các điều kiện đã cho: B-->E A-->D A--> E AB-->C
HA(19) = Luật kết hợp nào thỏa mãn các điều kiện đã cho: lOMoAR cPSD| 45469857 A-->C A-->D A--> E AB-->C
HA(20) = Luật kết hợp nào có độ tin cậy = 100% A-->C A-->D AD--> E AB-->C
HA(21) = Cho tập mục thường xuyên X={A, B}, từ tập X có thể sinh ra các luật kết hợp sau:
A--> B, B--> A, không tính luật AB --> và --> AB
A-->B, B--> A, A--> và --> B A--> B B--> A
HA(22) = Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút m 2 đường đi 1 đường đi 3 đường đi 4 đường đi
HA(23) = Cho FP-Tree như hình vẽ, có mấy đường đi kết thúc ở nút p 2 đường đi lOMoAR cPSD| 45469857 1 đường đi 3 đường đi 4 đường đi
HA(24) = Hai thuật toán FP-Growth và Apriori dùng để:
Tìm các tập mục thường xuyên Tìm các luật kết hợp
Tìm các tập mục có k - item
Thực hiện công việc khác
HA(25) = Phương pháp nào không phải là phương pháp phân lớp:
Chia các đối tượng thành từng lớp để giảng dạy
Phân lớp dựa trên Cây quyết định
Phân lớp dựa trên xác suất Bayes
Phân lớp dựa trên Mạng Nơron
HA(26) = Cho tập ví dụ học như bảng. Có bao nhiêu thuộc tính để phân lớp? 4 thuộc tính 3 thuộc tính 5 thuộc tính 6 thuộc tính
HA(27) = Cho tập ví dụ học như bảng. Thuộc tính kết luận Play Ball có bao nhiêu giá trị: 2 giá trị 3 giá trị lOMoAR cPSD| 45469857 5 giá trị 1 giátrị
HA(28) = Cho tập ví dụ học như bảng. Các thuộc tính dùng để phân lớp là:
Outlook, Temperature, Humidity, Wind
Outlook, Temperature, Humidity, Wind, Play Ball
Day, Outlook, Temperature, Humidity, Wind
Day, Outlook, Temperature, Humidity, Wind, Play Ball
HA(29) = Khi chọn 1 thuộc tính A để làm gốc cây quyết định. Nếu thuộc tính A có 3 giá trị thì cây quyết
định có bao nhiêu nhánh? 3 nhánh 2 nhánh Nhiều nhánh
Phải biết kết luận C có bao nhiêu giá trị thì mới phân nhánh được
HA(30) = Sử dụng thuật toán ILA, khi kết luận C có n giá trị thì ta cần chia bảng chứa các ví dụ học thành mấy bảng con: n bảng con 2 bảng con không phải chia
Thành nhiều bảng tùy theo giá trị của n
HA(31) = Cho tập ví dụ học như bảng. Sử dụng thuật toán ILA, cần chia bảng ví dụ học này thành mấy bảng con: 2 bảng 3 bảng không cần chia
Tùy theo thuộc tính được chọn HA(36) = Gom cụm (clustering) gì:
Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình
chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao cho các lOMoAR cPSD| 45469857
phần tử trong cùng một nhóm thì có mức độ tương tự nhau hơn là giữa các phần tử của nhóm
này với các phần tử của nhóm khác.”
“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình
chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao cho các
phần tử khác nhóm thì có mức độ tương tự nhau hơn là giữa các phần tử trong cùng một nhóm.” lOMoAR cPSD| 45469857
“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình
chia một tập các đối tượng thực thể hay trừu tượng thành nhóm các đối tượng sao dễ sử dụng nhất.”
“Phân cụm dữ liệu(Data Clustering) hay phân cụm, cũng có thể gọi là phân tích cụm là qúa trình
chia các đối tượng thành từng nhóm sau cho số nhóm là ít nhất.”
HA(37) = Thuật ngữ tiếng Anh nào có nghĩa là phân cụm dữ liệu Data Clustering Data Classification Association Rule Data Mining
HA(38) = Thuật ngữ tiếng Anh nào có nghĩa là Khai phá dữ liệu Data Mining Data Clustering Data Classification Association Rule
HA(39) = Thuật ngữ tiếng Anh nào có nghĩa là Phân lớp dữ liệu Data Classification Data Clustering Data Mining Association Rule
HA(40) = Có N phần tử cần chia thành 1 cụm. Hỏi có bao nhiêu cách chia cụm: 1 cách 0 cách 2 cách N cách
HA(41) = Có N phần tử cần chia thành m cụm, với m>N. Hỏi có bao nhiêu cách chia cụm: 0 cách m cách
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857 2 cách N cách
HA(42) = Có bao nhiêu thuật toán phân cụm: Rất nhiều
Chỉ có 3 thuật toán Liên kết đơn, liên kết đầy đủ, k-mean
Chỉ có 2 thuật toán Liên kết đơn và liên kết đầy đủ
Chỉ có 2 thuật toán Liên kết đơn và k-mean
HA(43) = Trong thuật toán phân cụm k-mean, ban đầu k tâm được chọn: Chọn ngẫu nhiên
Chọn k phần tử nằm ở tâm
Chọn k các phần tử có giá trị nhỏ nhất
Chọn k phần tử có giá trị bằng giá trị trung bình của các phần tử trong tập dữ liệu
HA(44) = Sử dụng thuật toán k-mean để chia N điểm vào k cụm, khi đó: k<=N k=N k>N k khác N
HA(45) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khoảng cách giữa 2
phần tử x1 và x2 bằng bao nhiêu: bằng 1 bằng 2 bằng 0 bằng 9
HA(46) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Khoảng cách giữa 2
phần tử x1 và x5 bằng bao nhiêu:
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857 bằng 5 bằng 2 bằng 0 bằng 9
HA(47) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự như hình. Sử dụng thuật toán
liên kết đơn (Single Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm: x1 và x2 x1 và x3 x2 và x3 x3 và x5
HA(48) = Cho tập dữ liệu X={x1, x2, x3, x4, x5} và ma trận không tương tự. Sử dụng thuật toán liên kết
đầy đủ (Complete Linkage), bước đầu tiên 2 phần tử nào được chọn để gom thành 1 cụm: x1 và x2 x1 và x3 x2 và x3 x3 và x5
HA(49) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 2.5 hỏi có mấy cụm được sinh ra: 3 cụm 2 cụm
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857 1 cụm 4 cụm
HA(50) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 5 hỏi có mấy cụm được sinh ra: 1 cụm 2 cụm 3 cụm 4 cụm
HA(51) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 3.5 hỏi có mấy cụm được sinh ra:
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857 2 cụm 3 cụm 1 cụm 4 cụm
HA(52) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 1.5 hỏi có mấy cụm được sinh ra: 4 cụm 2 cụm 1 cụm 5 cụm
HA(53) = Cho sơ đồ ngưỡng không tương tự như hình vẽ. Cắt sơ đồ tại ngưỡng bằng 0.5 hỏi có mấy cụm được sinh ra: 5 cụm 2 cụm 1 cụm 4 cụm
HB(1) = Quá trình khai phá tri thức trong CSDL (KDD) có thể phân chia thành các giai đoạn sau:
Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri thức
Tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, đánh giá và biểu diễn tri thức
Trích chọn dữ liệu, tiền xử lý dữ liệu, biến đổi dữ liệu, khai phá dữ liệu, khai phá luật kết hợp
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
Tiền xử lý dữ liệu, phân lớp, phân cụm, đánh giá và biểu diễn tri thức HB(2)
= Các loại đặc trưng của dữ liệu:
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ lệ
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo khối lượng
Đặc trưng danh nghĩa, đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng theo chiều dài
Đặc trưng theo thứ tự, đặc trưng đo theo khoảng, đặc trưng đo theo tỷ lệ
HB(3) = Một số bài toán điển hình trong khai phá dữ liệu là:
Khai phá luật kết hợp, phân loại, phân cụm, hồi qui...
Khai phá luật kết hợp, xây dựng máy tìm kiếm...
Web mining, Text mining, mạng nơron…
Bài toán nhận dạng, bài toán tìm kiếm thông tin, bài toán lựa chọn đặc trưng...
HB(4) = Một số thách thức lớn trong quá trình khai phá dữ liệu là (chọn đáp án đúng nhất):
Dữ liệu quá lớn, dữ liệu bị thiếu hoặc nhiễu, sự phức tạp của dữ liệu, dữ liệu thường xuyên thay đổi...
Trình độ của con người còn hạn chế, dữ liệu không được lưu trữ tập trung...
Dữ liệu quá lớn, máy khai phá dữ liệu có tốc độ hạn chế...
Tốc độ xử lý của máy tính còn hạn chế, dữ liệu thường xuyên thay đổi...
HB(5) = Một số lĩnh vực liên quan đến khai phá tri thức – KDD là:
Machine Learning, Visualization, Statistics, Databases…
Machine Learning, Programming, Statistics, Databases…
Machine Learning, Visualization, Statistics, BioInfomatics…
Support Vector Machine, Clustering, Statistics, Databases… HB(6)
= Khai phá dữ liệu có lợi ích gì?
Cung cấp hỗ trợ ra quyết định, dự báo, khái quát dữ liệu...
Tìm kiếm các quy luật, tìm kiếm các cụm và phân loại dữ liệu
Tìm kiếm nhanh thông tin, thống kê dữ liệu, chọn đặc trưng của dữ liệu...
Tạo ra cơ sở tri thức mới, hỗ trợ dự báo thời tiết, dự báo động đất, dự báo sóng thần...
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
HB(7) = Làm sạch dữ liệu (Data Cleaning) là quá trình:
Loại bỏ nhiễu và dữ liệu không nhất quán
Tìm kiếm dữ liệu có ích
Tìm kiếm dữ liệu có ích trong cơ sở dữ liệu lớn
Tổ hợp nhiều nguồn dữ liệu khác nhau
HB(8) = Một số ứng dụng tiềm năng của Khai phá dữ liệu:
Phân tích và quản lý thị trường, Quản lý và phân tích rủi ro, Quản lý và phân tích các sai hỏng,
Khai thác Web, Khai thác văn bản (text mining)…
Tìm kiếm văn bản, Tìm kiếm hình ảnh, Tìm kiếm tri thức mới trên Internet...
Phân tích tâm lí khách hàng, Hỗ trợ kinh doanh, tối ưu hóa phần cứng máy tính...
Phân tích thị trường chứng khoán, bất động sản, tìm kiếm dữ liệu bằng các máy tìm kiếm...
HB(9) = Các cơ sở dữ liệu cần khai phá là:
Quan hệ, Giao tác, Hướng đối tượng, Không gian, Thời gian, Text, XML, Multi-media, WWW, …
Text, XML, Multi-media, WWW, …
Cơ sở dữ liệu khách hàng, cơ sở dữ liệu nghiên cứu không gian, cơ sở dữ liệu trong ngân hàng,
cơ sở dữ liệu thống kê…
Cơ sở dữ liệu tuyển sinh đại học, cơ sở dữ liệu dự báo thời tiết, cơ sở dữ liệu thống kê dân số…
HB(10) = Thuật ngữ Big Data có nghĩa là:
Big data nói đến các tập dữ liệu rất lớn và phức tạp tới mức các kỹ thuật IT truyền thống không xử lí nổi. Dữ liệu rất lớn
Dữ liệu được tích hợp từ nhiều nguồn khác nhau
Dữ liệu khổng lồ trên Internet
HB(11) = Thuật ngữ BioInfomatics có nghĩa là
Giải quyết các bài toán sinh học bằng việc sử dụng các phương pháp của khoa học tính toán Sinh học phân tử
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
Tìm kiếm dữ liệu mới từ sinh học
Khai thác các thông tin có ích trong lĩnh vực y học
HB(12) = Phát biểu nào sau đây là đúng
Data Mining là một bước quan trọng trong quá trình khai phá tri thức từ dữ liệu – KDD
Tiền xử lí dữ liệu là chọn ra các đặc trưng tiêu biểu trong tập dữliệu lớn
Mọi dữ liệu đều có thể tìm kiếm được bằng máy tìm kiếm của Google
Data Mining là công cụ giúp các lập trình viên dễ dàng tìm kiếm thông tin hơn HB(13)
= Làm sạch dữ liệu là:
Điền giá trị thiếu, làm trơn dữ liệu nhiễu, định danh hoặc xóa ngoại lai, và khử tính không nhất quán Chuẩn hóa và tổng hợp
Bước cuối cùng trong quá trình Data Mining
Tích hợp CSDL, khối dữ liệu hoặc tập tin phức HB(14) =
Các bài toán thuộc làm sạch dữ liệu là:
Xử lý giá trị thiếu, Dữ liệu nhiễu: định danh ngoại lai và làm trơn, Chỉnh sửa dữ liệu không nhất
quán, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.
Làm trơn theo biên, phương pháp đóng thùng, điền giá trị thiếu, Giải quyết tính dư thừa tạo ra sau tích hợp dữ liệu.
Phân cụm, phân lớp, hồi quy, biểu diễn dữ liệu.
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
Phân cụm, tìm luật kết hợp, tìm kiếm đặc trưng
HB(15) = Cho một tập dữ liệu có n đặc trưng. Có bao nhiêu tập con không rỗng chứa các đặc trưng được lựa chọn: 2 ^n -1 2^n Vô số tập con n^2
HB(16) = Một số phương pháp loại bỏ dữ liệu nhiễu là:
Bỏ qua bản ghi có dữ liệu bị thiếu, điền giá trị thiếu bằng tay, điền giá trị tự động
Loại bỏ dựa trên quan sát, loại bỏ khi lựa chọn đặc trưng
Loại bỏ toàn bộ dữ liệu bị nhiễu và thay thế bằng tập dữ liệu mới, lựa chọn các đặc trưng quan trọng
Sử dụng các thuật toán phân lớp, phân cụm, tìm luật kết hợp
HB(17) = Cho bản ghi dữ liệu, giá trị của các thuộc tính như sau: X=(6, 2, 5, 7, 5,?). Dấu hỏi là giá trị của
thuộc tính bị thiếu. Sử dụng phương pháp tính trung bình giá trị của các thuộc tính của bản ghi hiện có,
hãy cho biết vị trí dấu hỏi điền giá trị là bao nhiêu: 5 6 9 Giá trị khác
HB(18) = Khi xử lý thiếu giá trị của các bản ghi dữ liệu, phương pháp Bỏ qua bản ghi có giá trị thiếu chỉ thích hợp khi:
Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ nhỏ trong toàn bộ dữ liệu
Các bản ghi có dữ liệu bị thiếu chiếm tỷ lệ lớn trong toàn bộ dữ liệu
Có thể bỏ qua tất cả các bản ghi bị thiếu
Không thể bỏ qua, phải tìm các giá trị để điền vào các bản ghi bị thiếu
HB(19) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong
CSDL. X là một tập chứa các mục thuộc I. Giao dịch hỗ trợ X là giao dịch chứa tất cả các mục có trong X.
Độ hỗ trợ của tập mục X được định nghĩa là:
Support(X)=Số lượng giao dịch hỗ trợ X / N
Support(X)=Số lượng giao dịch hỗ trợ X
Support(X)=Số lượng giao dịch hỗ trợ X / N * |I|, trong đó |I| là tổng số mục trong CSDL
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
Support(X)=Số lượng giao dịch hỗ trợ X *100%
HB(20) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong
CSDL. X, Y là tập chứa các mục thuộc I. Độ tin cậy của luật kết hợp X Y được định nghĩa là:
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X
Confidence(XY)=Số lượng giao dịch hỗ trợ X / Số lượng giao dịch hỗi trợ Y
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y
Confidence(XY)=Số lượng giao dịch hỗ trợ cả X và Y /N
HB(21) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong
CSDL. X, Y là tập chứa các mục thuộc I. Độ hỗ trợ của luật kết hợp X Y được định nghĩa là:
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / N
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ Y
Support(XY)=Số lượng giao dịch hỗ trợ cả X và Y / Số lượng giao dịch hỗ trợ X
Support(XY)=Số lượng giao dịch hỗ trợ cả X / Số lượng giao dịch hỗ trợ Y
HB(22) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong
CSDL. Min_Supp là độ hỗ trợ tối thiểu. X là tập chứa các mục thuộc I. Tập mục X được gọi là tập mục
thường xuyên (frequent itemset) nếu: Support(X)>=Min_Supp Support(X)<=Min_Supp Support(X)=Min_Supp Support(X) = Min_Supp/N
HB(23) = Cho cơ sở dữ liệu giao dịch gồm N giao dịch (bản ghi). I là tập chứa tất cả các mục (item) trong
CSDL. Min_Supp là độ hỗ trợ tối thiểu, Min_Conf là độ tin cậy tối thiểu. X, Y là tập chứa các mục thuộc I.
Luật kết hợp XY được chọn nếu:
Support(XY)>=Min_Supp, Confidence(XY)>=Min_Conf
Support(XY)=Min_Supp, Confidence(XY)=Min_Conf
Support(XY)Support(XY)>Min_Supp, Confidence(XY)=Min_Conf
HB(24) = Cho CSDL giao dịch như hình vẽ. Các tập mục thường xuyên có 1 mục thỏa mãn Min_Supp là: F:4, C:4, A:3, C:3, M:3, P:3"
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857 C:4, A:3, C:3, M:3, P:3 F:4, C:4 A:3, C:3, M:3, P:3
HB(25) = Cho CDSL giao dịch như hình vẽ, Tập mục thường xuyên có 4 mục thỏa mãn Min_Supp là: FCAM:3" FCAM:2 FC:4 FCAM:4
HB(26) = Cho CSDL giao dịch như hình vẽ, Cơ sở điều kiện của nút M là:
{ F:2, C:2, A:2} và { F:1, C:1, A:1, B:1}" {F:2, C:2, A:2}" F:1, C:1, A:1 F: 3, C:3, A:3
HB(27) = Cho CSDL giao dịch như hình vẽ, cơ sở điều kiện của nút M là:"
{ F:2, C:2, A:2, M:2} và { C:1, B:1}" {F:2, C:2, A:2, M:2}" C:3 F: 3, C:3, A:3
HB(28) = Cho CDSL giao dịch như hình vẽ. Cây điều kiện FP của P là: { C:3}| p" {CF:3}|p" {C:4}|p
Downloaded by Hà Anh (vjt987@gmail.com) lOMoAR cPSD| 45469857
Cây điều kiện là rỗng
HB(29) = Cho CSDL giao dịch như hình vẽ, cây điều kiện FP của A là: { F:3, C:3}| p" {CF:3}|p" {C:4}|p
Cây điều kiện là rỗng
HB(30) = Cho CSDL giao dịch gồm N mục phân biệt, tổng số các tập mục được sinh ra (không tính tập rỗng) là: 2 ^N - 1 2^N N Vô số tập mục
HB(31) = Cho A, B, C, D là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu Min_Sup và độ
tin cậy tối thiểu Min_Conf. Hãy cho biết luật kết hợp nào sau đây chắc chắn thỏa mãn Min_Sup và
Min_Conf mà không cần phải tính độ hỗ trợ và độ tin cậy: AB-->C A-->D ABD-->C D-->C
HB(32) = Cho A, B, C, là các item và A-->BC là luật kết hợp thỏa mãn độ hỗ trợ tối thiểu Min_Sup và độ
tin cậy tối thiểu Min_Conf. Ta thấy rằng luật kết hợp AB-->C cũng thỏa mãn điều kiện về độ hỗ trợ tối
thiểu và độ tin cậy tối thiểu vì:
Conference(AB-->C) >= Conference(A-->BC)
Conference(AB-->C) <= Conference(A-->BC) Conference(AB-->C) = Conference(A-->BC)
Chưa kết luận được AB-->C có thỏa độ hỗ trợ tối tiểu và độ tin cậy tối thiểu hay không
HB(33) = Cho A, B, C, D là các mục trong cơ sở dữ liệu giao dịch. Kết luận nào sau đây là sai:
Support(ABC) < Support(ABCD)
Support(ABC) >= Support(ABCD)
Support(AB) >= Support(ABC) Support(AB) <= Support(A)
HB(34) = Phát biểu nào sau đây là đúng:
Downloaded by Hà Anh (vjt987@gmail.com)

Câu hỏi trắc nghiệm PM_Datamining ôn tập môn Công nghệ thông tin | Trường đại học kinh doanh và công nghệ Hà Nội

Tài liệu liên quan:

Câu hỏi trắc nghiệm ôn tập môn Công nghệ thông tin | Trường đại học kinh doanh và công nghệ Hà Nội

Báo cáo đồ án C++ Quản lý sinh viên môn Công nghệ thông tin | Trường đại học kinh doanh và công nghệ Hà Nội

Báo cáo đồ án quản trị cơ sở dữ liệu sinh viên môn Công nghệ thông tin | Trường đại học kinh doanh và công nghệ Hà Nội

Bài tập trắc nghiệm môn Công nghệ thông tin | Trường đại học kinh doanh và công nghệ Hà Nội

Sử dụng CTE (Common Table Expression) trong sql server môn Công nghệ thông tin | Trường đại học kinh doanh và công nghệ Hà Nội