HƯỚNG DẪN SINH VIÊN LÀM BÀI TẬP LỚN HỌC PHẦN KPDL | Đại học Kinh tế Kỹ thuật Công nghiệp
Bài tập lớn trong học phần KPDL không chỉ là cơ hội để sinh viên áp dụng kiến thức lý thuyết mà còn giúp phát triển các kỹ năng thực tế cần thiết trong lĩnh vực công nghệ thông tin. Hãy chú ý làm việc nghiêm túc và sáng tạo để đạt được kết quả tốt nhất!
Môn: Khai phá dữ liệu (KTKTCN)
Trường: Đại học Kinh tế kỹ thuật công nghiệp
Thông tin:
Tác giả:
Preview text:
lOMoAR cPSD| 40190299
HƯỚNG DẪN SINH VIÊN LÀM BÀI TẬP LỚN HỌC PHẦN KPDL
Bài tập lớn được chia làm 3 nội dung tương ứng với 3 bài toán Luật kết hợp, Phân
lớp và Phân cụm.
Đối với mỗi bài toán có 2 yêu cầu:
- Làm bài tập lý thuyết
- Sử dụng ngôn ngữ lập trình hoặc Excel để minh họa bài toán. Sinh viên có thể
sử dụng Weka để thay thế.
Sinh viên làm việc theo nhóm 5 người, viết quyển báo cáo nội dung bài tập lý
thuyết và kết quả thực hiện của chương trình minh họa khoảng 20 trang.
Sinh viên gửi lại quyển báo cáo cho giảng viên hướng dẫn trước khi thi kết thúc
môn học 1 tuần để đánh giá sơ bộ. lOMoAR cPSD| 40190299 Đề 1
Câu 1: (5đ): Xây dựng cây FP-Tree và tìm các tập mục phổ biến bằng thuật toán FP-
Grow với min_sup=3 cho CSDL giao dịch sau: Transaction Data TID Content 1 AT 2 ACT 3 ACDT 4 ACDTW 5 ACT 6 CD
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên trẻ
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không mua máy tính. RID Age Income Student Credit_rating By_computer D1 Medium High Yes Excellent Yes D2 Medium Medium No Fair Yes D3 Old High No Excellent Yes D4 Medium High Yes Fair Yes D5 Medium High Yes Fair No D6 Old Low No Fair No D7 Young Low Yes Excellent No D8 Old Medium Yes Excellent No D9 Medium High Yes Fair No D10 Medium Medium Yes Excellent Yes D11 Medium Low No Excellent No D12 Old Low No Fair No D13 Old Low Yes Fair No D14 Old Medium Yes Excellent Yes
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 2 B 3 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,2); G2(3,2). lOMoAR cPSD| 40190299 Đề 2
Câu 1: (5đ): Xây dựng cây FP-Tree và tìm các tập mục phổ biến bằng thuật toán FP-
Grow với min_sup=3 cho CSDL giao dịch sau: Transaction Data TID Content 1 AW 2 ATW 3 ACTW 4 ACDTW 5 ADT 6 CT
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một
ngày trời nắng, nhiệt độ trung bình, độ ẩm cao và gió mạnh thì người ta có chơi(YES) hay không chơi(No) tenis Play Day Outlook Temperature Humidity Wind Tennis D1 Sunny Cold Normal Strong No D2 Rain Mild Normal Strong Yes D3 Sunny Hot Hight Strong Yes D4 Sunny Hot Hight Weak Yes D5 Sunny Cold Normal Weak No D6 Sunny Mild Hight Strong No D7 Rain Mild Hight Weak No D8 Overcast Hot Hight Strong Yes D9 Rain Cold Hight Weak Yes D10 Sunny Hot Hight Weak Yes D11 Rain Hot Hight Strong No D12 Rain Hot Hight Strong Yes D13 Overcast Cold Normal Strong Yes D14 Rain Mild Hight Strong No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 3 B 1 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,3); G2(1,2). lOMoAR cPSD| 40190299 Đề 3
Câu 1: (5đ): Xây dựng cây FP-Tree và tìm các tập mục phổ biến bằng thuật toán FP-
Grow với min_sup=3 cho CSDL giao dịch sau: Transaction Data TID Content 1 DW 2 ATW 3 ACTW 4 ACDTW 5 ACT 6 AW
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên trẻ
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không mua máy tính. RID Age Income Student Credit_rating By_computer D1 Old High No Fair No D2 Young High Yes Excellent No D3 Old Medium No Excellent Yes D4 Young High Yes Excellent Yes D5 Old Low No Excellent No D6 Medium Medium Yes Excellent Yes D7 Medium Low Yes Excellent No D8 Young Medium No Excellent No D9 Young High No Fair No D10 Old High No Fair No D11 Young Low No Excellent No D12 Old Low Yes Fair Yes D13 Old Medium No Excellent No D14 Young High No Excellent No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 2 B 3 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,2); G2(3,2). lOMoAR cPSD| 40190299 Đề 4
Câu 1: (5đ): Xây dựng cây FP-Tree và tìm các tập mục phổ biến bằng thuật toán FP-
Grow với min_sup=3 cho CSDL giao dịch sau: Transaction Data TID Content 1 AD 2 ACW 3 ACTW 4 ACDTW 5 ACT 6 DT
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một
ngày trời nắng, nhiệt độ trung bình, độ ẩm cao và gió mạnh thì người ta có chơi(YES) hay không chơi(No) tenis Day Outlook Temperature Humidity Wind Play Tennis D1 Sunny Cold Normal Weak No D2 Sunny Mild Normal Strong Yes D3 Sunny Hot Normal Weak Yes D4 Rain Hot Hight Strong Yes D5 Rain Mild Hight Strong No D6 Overcast Cold Normal Weak Yes D7 Rain Cold Normal Strong Yes D8 Sunny Hot Hight Strong Yes D9 Sunny Mild Hight Weak Yes D10 Overcast Hot Hight Strong No D11 Overcast Hot Hight Strong Yes D12 Sunny Mild Hight Weak Yes D13 Sunny Hot Normal Weak No D14 Sunny Cold Hight Strong No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 3 B 1 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,3); G2(1,2). lOMoAR cPSD| 40190299 Đề 5
Câu 1: (5đ): Xây dựng cây FP-Tree và tìm các tập mục phổ biến bằng thuật toán FP-
Grow với min_sup=3 cho CSDL giao dịch sau: Transaction Data TID Content 1 AW 2 ADW 3 ACTW 4 ACDTW 5 ADW 6 CW
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên trẻ
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không mua máy tính. RID Age Income Student Credit_rating By_computer D1 Medium Low Yes Excellent No D2 Medium Low Yes Fair Yes D3 Old Medium No Excellent No D4 Medium Low No Excellent No D5 Old Low No Excellent No D6 Young Low No Fair Yes D7 Medium High No Excellent No D8 Old Medium No Excellent Yes D9 Old High Yes Excellent Yes D10 Young Low No Excellent Yes D11 Young Low No Fair Yes D12 Young High No Fair No D13 Young High Yes Excellent Yes D14 Medium Low Yes Excellent Yes
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 2 B 3 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,2); G2(3,2). lOMoAR cPSD| 40190299 Đề 6
Câu 1: (5đ): Xây dựng cây FP-Tree và tìm các tập mục phổ biến bằng thuật toán FP-
Grow với min_sup=3 cho CSDL giao dịch sau: Transaction Data TID Content 1 AT 2 ACT 3 ACDT 4 ACDTW 5 ACT 6 CD
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một
ngày trời nắng, nhiệt độ trung bình, độ ẩm cao và gió mạnh thì người ta có chơi(YES) hay không chơi(No) tenis Day Outlook Temperature Humidity Wind Play Tennis D1 Sunny Cold Normal Strong No D2 Rain Mild Normal Strong Yes D3 Sunny Hot Hight Strong Yes D4 Sunny Hot Hight Weak Yes D5 Sunny Cold Normal Weak No D6 Sunny Mild Hight Strong No D7 Rain Mild Hight Weak No D8 Overcast Hot Hight Strong Yes D9 Rain Cold Hight Weak Yes D10 Sunny Hot Hight Weak Yes D11 Rain Hot Hight Strong No D12 Rain Hot Hight Strong Yes D13 Overcast Cold Normal Strong Yes D14 Rain Mild Hight Strong No D15 Sunny Mild Hight Weak Yes
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 3 B 1 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(2,3); G2(1,2). lOMoAR cPSD| 40190299 Đề 7
Câu 1: (5đ): Xây dựng cây FP-Tree và tìm các tập mục phổ biến bằng thuật toán FP-
Grow với min_sup=3 cho CSDL giao dịch sau: Transaction Data TID Content 1 AW 2 ATW 3 ACTW 4 ACDTW 5 ADT 6 CT
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một sinh viên trẻ
với mức thu nhập trung bình, được đánh giá tín dụng bình thường thì có mua hay không mua máy tính. RID Age Income Student Credit_rating By_computer D1 Medium High Yes Fair Yes D2 Medium Medium No Excellent Yes D3 Young Medium No Fair Yes D4 Medium Low No Excellent Yes D5 Young Medium Yes Fair Yes D6 Medium Low No Excellent No D7 Medium High No Fair Yes D8 Medium High No Fair No D9 Young High Yes Fair No D10 Old Medium No Fair Yes D11 Young High No Excellent Yes D12 Medium Medium Yes Excellent No D13 Young Medium Yes Fair Yes D14 Medium Low No Excellent Yes
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 2 B 3 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(3,2); G2(4,3). lOMoAR cPSD| 40190299 Đề 8
Câu 1: (5đ): Xây dựng cây FP-Tree và tìm các tập mục phổ biến bằng thuật toán FP-
Grow với min_sup=3 cho CSDL giao dịch sau: Transaction Data TID Content 1 DW 2 ATW 3 ACTW 4 ACDTW 5 ACT 6 AW
Câu 2: (2.5đ): Sử dụng phương pháp phân loại dữ liệu của Bayesian để xác định một
ngày trời nắng, nhiệt độ trung bình, độ ẩm cao và gió mạnh thì người ta có chơi(YES) hay không chơi(No) tenis Play Day Outlook Temperature Humidity Wind Tennis D1 Sunny Hot Normal Weak Yes D2 Overcast Mild Hight Weak Yes D3 Overcast Cold Hight Weak Yes D4 Sunny Cold Normal Strong No D5 Overcast Cold Hight Strong Yes D6 Sunny Hot Normal Strong Yes D7 Overcast Mild Normal Weak No D8 Overcast Mild Hight Weak Yes D9 Rain Mild Hight Weak No D10 Overcast Hot Hight Strong Yes D11 Overcast Mild Normal Weak No D12 Overcast Mild Normal Strong No D13 Rain Mild Normal Strong No D14 Overcast Hot Normal Strong No
Câu 3: (2.5đ): Giả sử ta có 4 loại thuốc A,B,C,D, mỗi loại được biểu diễn bởi 2 đặc trưng X,Y như sau. U X Y A 2 3 B 1 2 C 4 3 D 5 4
Sử dụng thuật toán K-Mean để phân loại 4 đối tượng trên vào 2 nhóm G1 và G2 với
tâm cụm ban đầu là G1(4,3); G2(5,4)