HƯỚNG DẪN SINH VIÊN LÀM BÀI TẬP LỚN HỌC PHẦN KPDL | Đại học Kinh tế Kỹ thuật Công nghiệp

Bài tập lớn trong học phần KPDL không chỉ là cơ hội để sinh viên áp dụng kiến thức lý thuyết mà còn giúp phát triển các kỹ năng thực tế cần thiết trong lĩnh vực công nghệ thông tin. Hãy chú ý làm việc nghiêm túc và sáng tạo để đạt được kết quả tốt nhất!

lOMoARcPSD| 40190299
HƯỚNG DẪN SINH VIÊN LÀM BÀI TẬP LỚN HỌC PHẦN KPDL
Bài tp lớn được chia làm 3 nội dung tương ứng vi 3 bài toán Lut kết hp, Phân
lp và Phân cm.
Đối vi mi bài toán có 2 yêu cu:
- Làm bài tp lý thuyết
- S dng ngôn ng lp trình hoặc Excel đ minh ha bài toán. Sinh viên có th
s dụng Weka để thay thế.
Sinh viên làm việc theo nhóm 5 người, viết quyn báo cáo ni dung bài tp lý
thuyết và kết qu thc hin của chương trình minh họa khong 20 trang.
Sinh viên gi li quyn báo cáo cho giảng viên hướng dẫn trước khi thi kết thúc
môn hc 1 tuần để đánh giá sơ bộ.
lOMoARcPSD| 40190299
Đề 1
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau:
Transaction
Data
TID
Content
1 AT
2 ACT
3 ACDT
4 ACDTW
5 ACT
6 CD
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên tr
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không
mua máy tính.
RID
Age
Income
Student
Credit_rating
D1
Medium
High
Yes
Excellent
D2
Medium
Medium
No
Fair
D3
Old
High
No
Excellent
D4
Medium
High
Yes
Fair
D5
Medium
High
Yes
Fair
D6
Old
Low
No
Fair
D7
Young
Low
Yes
Excellent
D8
Old
Medium
Yes
Excellent
D9
Medium
High
Yes
Fair
D10
Medium
Medium
Yes
Excellent
D11
Medium
Low
No
Excellent
D12
Old
Low
No
Fair
D13
Old
Low
Yes
Fair
D14
Old
Medium
Yes
Excellent
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc
trưng X,Y như sau.
U
X
Y
A
2
2
B
3
2
C
4
3
D
5
4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,2); G2(3,2).
lOMoARcPSD| 40190299
Đề 2
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau:
Transaction
Data
TID
Content
1 AW
2 ATW
3 ACTW
4 ACDTW
5 ADT
6 CT
Câu 2: (2.5đ): S dụng phương pháp phân loại d liu của Bayesian để xác định mt
ngày tri nng, nhiệt độ trung bình, độ m cao và gió mạnh thì người ta có chơi(YES) hay
không chơi(No) tenis
Play
Day
Outlook
Temperature
Humidity
Wind
Tennis
D1
Sunny
Cold
Normal
Strong
No
D2
Rain
Mild
Normal
Strong
Yes
D3
Sunny
Hot
Hight
Strong
Yes
D4
Sunny
Hot
Hight
Weak
Yes
D5
Sunny
Cold
Normal
Weak
No
D6
Sunny
Mild
Hight
Strong
No
D7
Rain
Mild
Hight
Weak
No
D8
Overcast
Hot
Hight
Strong
Yes
D9
Rain
Cold
Hight
Weak
Yes
D10
Sunny
Hot
Hight
Weak
Yes
D11
Rain
Hot
Hight
Strong
No
D12
Rain
Hot
Hight
Strong
Yes
D13
Overcast
Cold
Normal
Strong
Yes
D14
Rain
Mild
Hight
Strong
No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc
trưng X,Y như sau.
U
X
Y
A
2
3
B
1
2
C
4
3
D
5
4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,3); G2(1,2).
lOMoARcPSD| 40190299
Đề 3
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau:
Transaction
Data
TID
Content
1 DW
2 ATW
3 ACTW
4 ACDTW
5 ACT
6 AW
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên tr
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không
mua máy tính.
RID
Age
Income
Student
Credit_rating
D1
Old
High
No
Fair
D2
Young
High
Yes
Excellent
D3
Old
Medium
No
Excellent
D4
Young
High
Yes
Excellent
D5
Old
Low
No
Excellent
D6
Medium
Medium
Yes
Excellent
D7
Medium
Low
Yes
Excellent
D8
Young
Medium
No
Excellent
D9
Young
High
No
Fair
D10
Old
High
No
Fair
D11
Young
Low
No
Excellent
D12
Old
Low
Yes
Fair
D13
Old
Medium
No
Excellent
D14
Young
High
No
Excellent
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc
trưng X,Y như sau.
U
X
Y
A
2
2
B
3
2
C
4
3
D
5
4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,2); G2(3,2).
lOMoARcPSD| 40190299
Đề 4
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau:
Transaction
Data
TID
Content
1 AD
2 ACW
3 ACTW
4 ACDTW
5 ACT
6 DT
Câu 2: (2.5đ): S dụng phương pháp phân loại d liu của Bayesian để xác định mt
ngày tri nng, nhiệt độ trung bình, độ m cao và gió mạnh thì người ta có chơi(YES) hay
không chơi(No) tenis
Day
Outlook
Temperature
Humidity
Wind
Play Tennis
D1
Sunny
Cold
Normal
Weak
No
D2
Sunny
Mild
Normal
Strong
Yes
D3
Sunny
Hot
Normal
Weak
Yes
D4
Rain
Hot
Hight
Strong
Yes
D5
Rain
Mild
Hight
Strong
No
D6
Overcast
Cold
Normal
Weak
Yes
D7
Rain
Cold
Normal
Strong
Yes
D8
Sunny
Hot
Hight
Strong
Yes
D9
Sunny
Mild
Hight
Weak
Yes
D10
Overcast
Hot
Hight
Strong
No
D11
Overcast
Hot
Hight
Strong
Yes
D12
Sunny
Mild
Hight
Weak
Yes
D13
Sunny
Hot
Normal
Weak
No
D14
Sunny
Cold
Hight
Strong
No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc
trưng X,Y như sau.
U
X
Y
A
2
3
B
1
2
C
4
3
D
5
4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,3); G2(1,2).
lOMoARcPSD| 40190299
Đề 5
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau:
Transaction
Data
TID
Content
1 AW
2 ADW
3 ACTW
4 ACDTW
5 ADW
6 CW
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên tr
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không
mua máy tính.
RID
Age
Income
Student
Credit_rating
D1
Medium
Low
Yes
Excellent
D2
Medium
Low
Yes
Fair
D3
Old
Medium
No
Excellent
D4
Medium
Low
No
Excellent
D5
Old
Low
No
Excellent
D6
Young
Low
No
Fair
D7
Medium
High
No
Excellent
D8
Old
Medium
No
Excellent
D9
Old
High
Yes
Excellent
D10
Young
Low
No
Excellent
D11
Young
Low
No
Fair
D12
Young
High
No
Fair
D13
Young
High
Yes
Excellent
D14
Medium
Low
Yes
Excellent
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc
trưng X,Y như sau.
U
X
Y
A
2
2
B
3
2
C
4
3
D
5
4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,2); G2(3,2).
lOMoARcPSD| 40190299
Đề 6
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau:
Transaction
Data
TID
Content
1 AT
2 ACT
3 ACDT
4 ACDTW
5 ACT
6 CD
Câu 2: (2.5đ): S dụng phương pháp phân loại d liu của Bayesian để xác định mt
ngày tri nng, nhiệt độ trung bình, độ m cao và gió mạnh thì người ta có chơi(YES) hay
không chơi(No) tenis
Day
Outlook
Temperature
Humidity
Wind
Play Tennis
D1
Sunny
Cold
Normal
Strong
No
D2
Rain
Mild
Normal
Strong
Yes
D3
Sunny
Hot
Hight
Strong
Yes
D4
Sunny
Hot
Hight
Weak
Yes
D5
Sunny
Cold
Normal
Weak
No
D6
Sunny
Mild
Hight
Strong
No
D7
Rain
Mild
Hight
Weak
No
D8
Overcast
Hot
Hight
Strong
Yes
D9
Rain
Cold
Hight
Weak
Yes
D10
Sunny
Hot
Hight
Weak
Yes
D11
Rain
Hot
Hight
Strong
No
D12
Rain
Hot
Hight
Strong
Yes
D13
Overcast
Cold
Normal
Strong
Yes
D14
Rain
Mild
Hight
Strong
No
D15
Sunny
Mild
Hight
Weak
Yes
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc
trưng X,Y như sau.
U
X
Y
A
2
3
B
1
2
C
4
3
D
5
4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,3); G2(1,2).
lOMoARcPSD| 40190299
Đề 7
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau:
Transaction
Data
TID
Content
1 AW
2 ATW
3 ACTW
4 ACDTW
5 ADT
6 CT
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên tr
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không
mua máy tính.
RID
Age
Income
Student
Credit_rating
D1
Medium
High
Yes
Fair
D2
Medium
Medium
No
Excellent
D3
Young
Medium
No
Fair
D4
Medium
Low
No
Excellent
D5
Young
Medium
Yes
Fair
D6
Medium
Low
No
Excellent
D7
Medium
High
No
Fair
D8
Medium
High
No
Fair
D9
Young
High
Yes
Fair
D10
Old
Medium
No
Fair
D11
Young
High
No
Excellent
D12
Medium
Medium
Yes
Excellent
D13
Young
Medium
Yes
Fair
D14
Medium
Low
No
Excellent
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc
trưng X,Y như sau.
U
X
Y
A
2
2
B
3
2
C
4
3
D
5
4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(3,2); G2(4,3).
lOMoARcPSD| 40190299
Đề 8
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau:
Transaction
Data
TID
Content
1 DW
2 ATW
3 ACTW
4 ACDTW
5 ACT
6 AW
Câu 2: (2.5đ): S dụng phương pháp phân loại d liu của Bayesian để xác định mt
ngày tri nng, nhiệt độ trung bình, độ m cao và gió mạnh thì người ta có chơi(YES) hay
không chơi(No) tenis
Play
Day
Outlook
Temperature
Humidity
Wind
Tennis
D1
Sunny
Hot
Normal
Weak
Yes
D2
Overcast
Mild
Hight
Weak
Yes
D3
Overcast
Cold
Hight
Weak
Yes
D4
Sunny
Cold
Normal
Strong
No
D5
Overcast
Cold
Hight
Strong
Yes
D6
Sunny
Hot
Normal
Strong
Yes
D7
Overcast
Mild
Normal
Weak
No
D8
Overcast
Mild
Hight
Weak
Yes
D9
Rain
Mild
Hight
Weak
No
D10
Overcast
Hot
Hight
Strong
Yes
D11
Overcast
Mild
Normal
Weak
No
D12
Overcast
Mild
Normal
Strong
No
D13
Rain
Mild
Normal
Strong
No
D14
Overcast
Hot
Normal
Strong
No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc
trưng X,Y như sau.
U
X
Y
A
2
3
B
1
2
C
4
3
D
5
4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(4,3); G2(5,4)
| 1/10

Preview text:

lOMoAR cPSD| 40190299
HƯỚNG DẪN SINH VIÊN LÀM BÀI TẬP LỚN HỌC PHẦN KPDL
Bài tp lớn được chia làm 3 nội dung tương ứng vi 3 bài toán Lut kết hp, Phân
lp và Phân cm.
Đối vi mi bài toán có 2 yêu cu:
- Làm bài tp lý thuyết
- S dng ngôn ng lp trình hoặc Excel để minh ha bài toán. Sinh viên có th
s dụng Weka để thay thế.
Sinh viên làm việc theo nhóm 5 người, viết quyn báo cáo ni dung bài tp lý
thuyết và kết qu thc hin của chương trình minh họa khong 20 trang.
Sinh viên gi li quyn báo cáo cho giảng viên hướng dẫn trước khi thi kết thúc
môn hc 1 tuần để đánh giá sơ bộ. lOMoAR cPSD| 40190299 Đề 1
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau: Transaction Data TID Content 1 AT 2 ACT 3 ACDT 4 ACDTW 5 ACT 6 CD
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên trẻ
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không mua máy tính. RID Age Income Student Credit_rating By_computer D1 Medium High Yes Excellent Yes D2 Medium Medium No Fair Yes D3 Old High No Excellent Yes D4 Medium High Yes Fair Yes D5 Medium High Yes Fair No D6 Old Low No Fair No D7 Young Low Yes Excellent No D8 Old Medium Yes Excellent No D9 Medium High Yes Fair No D10 Medium Medium Yes Excellent Yes D11 Medium Low No Excellent No D12 Old Low No Fair No D13 Old Low Yes Fair No D14 Old Medium Yes Excellent Yes
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 2 B 3 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,2); G2(3,2). lOMoAR cPSD| 40190299 Đề 2
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau: Transaction Data TID Content 1 AW 2 ATW 3 ACTW 4 ACDTW 5 ADT 6 CT
Câu 2: (2.5đ): S dụng phương pháp phân loại d liu của Bayesian để xác định mt
ngày tri nng, nhiệt độ trung bình, độ ẩm cao và gió mạnh thì người ta có chơi(YES) hay không chơi(No) tenis Play Day Outlook Temperature Humidity Wind Tennis D1 Sunny Cold Normal Strong No D2 Rain Mild Normal Strong Yes D3 Sunny Hot Hight Strong Yes D4 Sunny Hot Hight Weak Yes D5 Sunny Cold Normal Weak No D6 Sunny Mild Hight Strong No D7 Rain Mild Hight Weak No D8 Overcast Hot Hight Strong Yes D9 Rain Cold Hight Weak Yes D10 Sunny Hot Hight Weak Yes D11 Rain Hot Hight Strong No D12 Rain Hot Hight Strong Yes D13 Overcast Cold Normal Strong Yes D14 Rain Mild Hight Strong No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 3 B 1 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,3); G2(1,2). lOMoAR cPSD| 40190299 Đề 3
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau: Transaction Data TID Content 1 DW 2 ATW 3 ACTW 4 ACDTW 5 ACT 6 AW
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên trẻ
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không mua máy tính. RID Age Income Student Credit_rating By_computer D1 Old High No Fair No D2 Young High Yes Excellent No D3 Old Medium No Excellent Yes D4 Young High Yes Excellent Yes D5 Old Low No Excellent No D6 Medium Medium Yes Excellent Yes D7 Medium Low Yes Excellent No D8 Young Medium No Excellent No D9 Young High No Fair No D10 Old High No Fair No D11 Young Low No Excellent No D12 Old Low Yes Fair Yes D13 Old Medium No Excellent No D14 Young High No Excellent No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 2 B 3 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,2); G2(3,2). lOMoAR cPSD| 40190299 Đề 4
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau: Transaction Data TID Content 1 AD 2 ACW 3 ACTW 4 ACDTW 5 ACT 6 DT
Câu 2: (2.5đ): S dụng phương pháp phân loại d liu của Bayesian để xác định mt
ngày tri nng, nhiệt độ trung bình, độ ẩm cao và gió mạnh thì người ta có chơi(YES) hay không chơi(No) tenis Day Outlook Temperature Humidity Wind Play Tennis D1 Sunny Cold Normal Weak No D2 Sunny Mild Normal Strong Yes D3 Sunny Hot Normal Weak Yes D4 Rain Hot Hight Strong Yes D5 Rain Mild Hight Strong No D6 Overcast Cold Normal Weak Yes D7 Rain Cold Normal Strong Yes D8 Sunny Hot Hight Strong Yes D9 Sunny Mild Hight Weak Yes D10 Overcast Hot Hight Strong No D11 Overcast Hot Hight Strong Yes D12 Sunny Mild Hight Weak Yes D13 Sunny Hot Normal Weak No D14 Sunny Cold Hight Strong No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 3 B 1 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,3); G2(1,2). lOMoAR cPSD| 40190299 Đề 5
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau: Transaction Data TID Content 1 AW 2 ADW 3 ACTW 4 ACDTW 5 ADW 6 CW
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên trẻ
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không mua máy tính. RID Age Income Student Credit_rating By_computer D1 Medium Low Yes Excellent No D2 Medium Low Yes Fair Yes D3 Old Medium No Excellent No D4 Medium Low No Excellent No D5 Old Low No Excellent No D6 Young Low No Fair Yes D7 Medium High No Excellent No D8 Old Medium No Excellent Yes D9 Old High Yes Excellent Yes D10 Young Low No Excellent Yes D11 Young Low No Fair Yes D12 Young High No Fair No D13 Young High Yes Excellent Yes D14 Medium Low Yes Excellent Yes
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 2 B 3 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,2); G2(3,2). lOMoAR cPSD| 40190299 Đề 6
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau: Transaction Data TID Content 1 AT 2 ACT 3 ACDT 4 ACDTW 5 ACT 6 CD
Câu 2: (2.5đ): S dụng phương pháp phân loại d liu của Bayesian để xác định mt
ngày tri nng, nhiệt độ trung bình, độ ẩm cao và gió mạnh thì người ta có chơi(YES) hay không chơi(No) tenis Day Outlook Temperature Humidity Wind Play Tennis D1 Sunny Cold Normal Strong No D2 Rain Mild Normal Strong Yes D3 Sunny Hot Hight Strong Yes D4 Sunny Hot Hight Weak Yes D5 Sunny Cold Normal Weak No D6 Sunny Mild Hight Strong No D7 Rain Mild Hight Weak No D8 Overcast Hot Hight Strong Yes D9 Rain Cold Hight Weak Yes D10 Sunny Hot Hight Weak Yes D11 Rain Hot Hight Strong No D12 Rain Hot Hight Strong Yes D13 Overcast Cold Normal Strong Yes D14 Rain Mild Hight Strong No D15 Sunny Mild Hight Weak Yes
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 3 B 1 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,3); G2(1,2). lOMoAR cPSD| 40190299 Đề 7
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau: Transaction Data TID Content 1 AW 2 ATW 3 ACTW 4 ACDTW 5 ADT 6 CT
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên trẻ
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không mua máy tính. RID Age Income Student Credit_rating By_computer D1 Medium High Yes Fair Yes D2 Medium Medium No Excellent Yes D3 Young Medium No Fair Yes D4 Medium Low No Excellent Yes D5 Young Medium Yes Fair Yes D6 Medium Low No Excellent No D7 Medium High No Fair Yes D8 Medium High No Fair No D9 Young High Yes Fair No D10 Old Medium No Fair Yes D11 Young High No Excellent Yes D12 Medium Medium Yes Excellent No D13 Young Medium Yes Fair Yes D14 Medium Low No Excellent Yes
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 2 B 3 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(3,2); G2(4,3). lOMoAR cPSD| 40190299 Đề 8
Câu 1: (5đ): Xây dng cây FP-Tree và tìm các tp mc ph biến bng thut toán FP-
Grow vi min_sup=3 cho CSDL giao dch sau: Transaction Data TID Content 1 DW 2 ATW 3 ACTW 4 ACDTW 5 ACT 6 AW
Câu 2: (2.5đ): S dụng phương pháp phân loại d liu của Bayesian để xác định mt
ngày tri nng, nhiệt độ trung bình, độ ẩm cao và gió mạnh thì người ta có chơi(YES) hay không chơi(No) tenis Play Day Outlook Temperature Humidity Wind Tennis D1 Sunny Hot Normal Weak Yes D2 Overcast Mild Hight Weak Yes D3 Overcast Cold Hight Weak Yes D4 Sunny Cold Normal Strong No D5 Overcast Cold Hight Strong Yes D6 Sunny Hot Normal Strong Yes D7 Overcast Mild Normal Weak No D8 Overcast Mild Hight Weak Yes D9 Rain Mild Hight Weak No D10 Overcast Hot Hight Strong Yes D11 Overcast Mild Normal Weak No D12 Overcast Mild Normal Strong No D13 Rain Mild Normal Strong No D14 Overcast Hot Normal Strong No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 3 B 1 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(4,3); G2(5,4)