Khai thác dữ liệu và ứng dụng | Cơ sở dữ liệu | Trường Đại học Công nghiệp TP.HCM

Khai thác dữ liệu và ứng dụng môn Cơ sở dữ liệu của Trường Đại học Công nghiệp Thành phố Hồ Chí Minh. Hi vọng tài liệu này sẽ giúp các bạn học tốt, ôn tập hiệu quả, đạt kết quả cao trong các bài thi, bài kiểm tra sắp tới. Mời các bạn cùng tham khảo chi tiết bài viết dưới đây nhé.

Môn:
Thông tin:
5 trang 3 tuần trước

Bình luận

Vui lòng đăng nhập hoặc đăng ký để gửi bình luận.

Khai thác dữ liệu và ứng dụng | Cơ sở dữ liệu | Trường Đại học Công nghiệp TP.HCM

Khai thác dữ liệu và ứng dụng môn Cơ sở dữ liệu của Trường Đại học Công nghiệp Thành phố Hồ Chí Minh. Hi vọng tài liệu này sẽ giúp các bạn học tốt, ôn tập hiệu quả, đạt kết quả cao trong các bài thi, bài kiểm tra sắp tới. Mời các bạn cùng tham khảo chi tiết bài viết dưới đây nhé.

27 14 lượt tải Tải xuống
lOMoARcPSD|45470709
Mẫu: 1a_ĐTTL
TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP
ĐỀ KIỂM TRA THỰC HÀNH – Đề 2 – Lần 2 THÀNH
PHỐ HỒ CHÍ MINH Môn thi : Khai thác dữ liệu và ứng dụng
KHOA CÔNG NGHỆ THÔNG TIN Lớp/Lớp học phần:
- ĐHKTPM15A3
- ĐHKHDL15A1
Ngày kiểm tra: 12/12/2021
Thời gian làm bài: 60 phút
(Không kể thời gian phát đề)
STT: 22...............; Họ và tên thí sinh :Phùng Ngọc Diễm Hân....................................
MSSV:18051321................................ ; Lớp:DHHTTT14..............................................
Cho bộ dữ liệu trong tập tin heart.arff. Anh/Chị hãy sử dụng môi trường Weka để thực hiện
bài toán khai thác dữ liệu với các yêu cầu sau:
1. Cho biết dữ liệu bao nhiêu mẫu, bao nhiêu thuộc tính. Với mỗi thuộc tính cho biết
kiểu của thuộc tính cũng như các giá trị thống kê. Yêu cầu trình bày kết quả vào bảng
như sau:
lOMoARcPSD|45470709
Mẫu: 1a_ĐTTL
lOMoARcPSD|45470709
Mẫu: 1a_ĐTTL
2. Bộ dữ liệu trên được sử dụng cho bài toán phân lớp dựa trên J48. Theo anh/chị bộ dữ
liệu trên đã phù hợp chưa? Giải thích do nếu phù hợp, nếu không, anh/chị hãy biến
đổi cho phù hợp. Lưu bộ dữ liệu với cấu trúc file: STT_MaSV_Hoten_heart.arff. Cho
biết thuộc tính lớp trong tập dữ liệu.
Hiện tại bộ dữ liệu trên chưa phù hợp, chưa đồng bộ tất cả thuộc tính nên chúng ta phải
đưa về cùng một thuộc tính giống nhau. Chúng ta sẽ chuyển tất cả sang kiểu dữ liệu
nominal để tiến hành phân lớp
Chuyển đổi NumericToNominal để tiến hành phân lớp với thuật toán J48
Chọn choose file, sau đó chọn weka->filters->unsupervised-> NumericToNominal
Sau đó Apply
Tất cả đã về cùng 1 thuộc tính.
Trong đó thuộc tính lớp là age
lOMoARcPSD|45470709
Mẫu: 1a_ĐTTL
3. Trình bày chi tiết các bước để thực hiện bài toán phân lớp cho bộ dữ liệu trên bằng
phương pháp J48, phương pháp đánh giá mô hình phân lớp được sử dụng là
“Percentage split” với các giá trị tham số tùy chọn. Sau đó hãy cho biết:
a. Mô hình phân lớp được xây dựng theo các bước trên. Đầu tiên chọn
Classify sau đó chọn choose->trees->J48
Sau đó chọn test options-> Percentage split với giá trị mặc định của nó là 66% nhấn chọn start
lOMoARcPSD|45470709
Mẫu: 1a_ĐTTL
b. Với mỗi phương pháp đánh giá hình lớp, cho biết bao nhiêu
mẫu phân lớp đúng, bao nhiêu mẫu phân lớp saigiá trị các độ đo
đánh giá chất lượng của mô hình.
Ta có thể thấy có 79-79% mẫu phân lớp đúng, 21-21% mẫu phân lớp sai
Và giá trị độ đo là
4. Sử dụng Weka KnowledgeFlow để thực hiện các yêu cầu trên bằng thuật toán J48 với
phương pháp đánh giá hình lớp “cross-validation” với k=10. Cho biết kết quả
của mô hình, số mẫu phân lớp đúng, số mẫu phân lớp sai giá trị các độ đo đánh giá
chất lượng của mô hình.
--------------------------- Hết ------------------------------
Lưu ý: - Đề thi được sử dụng tài liệu giấy
- Cán bộ coi thi không giải thích gì thêm.
| 1/5

Preview text:

TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP ĐỀ KIỂM TRA THỰC HÀNH – Đề 2 – Lần 2 THÀNH PHỐ HỒ CHÍ MINH Môn thi : Khai thác dữ liệu và ứng dụng

KHOA CÔNG NGHỆ THÔNG TIN Lớp/Lớp học phần:

  • ĐHKTPM15A3
  • ĐHKHDL15A1

Ngày kiểm tra: 12/12/2021

Thời gian làm bài: 60 phút

(Không kể thời gian phát đề)

STT: 22...............; Họ và tên thí sinh :Phùng Ngọc Diễm Hân....................................

MSSV:18051321................................ ; Lớp:DHHTTT14..............................................

Cho bộ dữ liệu trong tập tin heart.arff. Anh/Chị hãy sử dụng môi trường Weka để thực hiện bài toán khai thác dữ liệu với các yêu cầu sau:

  1. Cho biết dữ liệu có bao nhiêu mẫu, bao nhiêu thuộc tính. Với mỗi thuộc tính cho biết kiểu của thuộc tính cũng như các giá trị thống kê. Yêu cầu trình bày kết quả vào bảng như sau:

  1. Bộ dữ liệu trên được sử dụng cho bài toán phân lớp dựa trên J48. Theo anh/chị bộ dữ liệu trên đã phù hợp chưa? Giải thích lý do nếu phù hợp, nếu không, anh/chị hãy biến đổi cho phù hợp. Lưu bộ dữ liệu với cấu trúc file: STT_MaSV_Hoten_heart.arff. Cho biết thuộc tính lớp trong tập dữ liệu.

Hiện tại bộ dữ liệu trên chưa phù hợp, chưa đồng bộ ở tất cả thuộc tính nên chúng ta phải đưa về cùng một thuộc tính giống nhau. Chúng ta sẽ chuyển tất cả sang kiểu dữ liệu nominal để tiến hành phân lớp

Chuyển đổi NumericToNominal để tiến hành phân lớp với thuật toán J48

Chọn choose file, sau đó chọn weka->filters->unsupervised-> NumericToNominal

Sau đó Apply

Tất cả đã về cùng 1 thuộc tính.

Trong đó thuộc tính lớp là age

  1. Trình bày chi tiết các bước để thực hiện bài toán phân lớp cho bộ dữ liệu trên bằng phương pháp J48, phương pháp đánh giá mô hình phân lớp được sử dụng là

“Percentage split” với các giá trị tham số tùy chọn. Sau đó hãy cho biết:

    1. Mô hình phân lớp được xây dựng theo các bước trên. Đầu tiên chọn Classify sau đó chọn choose->trees->J48

Sau đó chọn test options-> Percentage split với giá trị mặc định của nó là 66% nhấn chọn start

    1. Với mỗi phương pháp đánh giá mô hình lớp, cho biết bao nhiêu mẫu phân lớp đúng, bao nhiêu mẫu phân lớp sai và giá trị các độ đo đánh giá chất lượng của mô hình.

Ta có thể thấy có 79-79% mẫu phân lớp đúng, 21-21% mẫu phân lớp sai

Và giá trị độ đo là

  1. Sử dụng Weka KnowledgeFlow để thực hiện các yêu cầu trên bằng thuật toán J48 với phương pháp đánh giá mô hình lớp là “cross-validation” với k=10. Cho biết kết quả của mô hình, số mẫu phân lớp đúng, số mẫu phân lớp sai và giá trị các độ đo đánh giá chất lượng của mô hình.

--------------------------- Hết ------------------------------

Lưu ý: - Đề thi được sử dụng tài liệu giấy

- Cán bộ coi thi không giải thích gì thêm.