Bài kiểm tra : Môn Khai Phá Dữ Liệu | Trường đại học Kinh Doanh và Công Nghê Hà Nội
Câu 1: Hãy trình bày ý nghĩa của việc tiền xử lý dữ liệu trong kỹthuật
khai phá dữ liệu? (1 điểm) Trả lời : Tiền xử lý dữ liệu là một phần quan trọng trong quá trình khai phá dữ liệu (data mining). Tài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!
Preview text:
lOMoAR cPSD| 45469857
Bài kiểm tra : Môn Khai Phá Dữ Liệu
Họ và tên: Vũ Minh Vương Lớp : K17.14
Câu 1: Hãy trình bày ý nghĩa của việc tiền xử lý dữ liệu trong kỹ thuật
khai phá dữ liệu? (1 điểm) Trả lời :
Tiền xử lý dữ liệu là một phần quan trọng trong quá trình khai phá dữ liệu (data mining).
Việc tiền xử lý dữ liệu trong kỹ thuật khai phá dữ liệu có ý nghĩa quan
trọng trong việc cải thiện chất lượng và độ tin cậy của quá trình phân tích dữ
liệu. Nó giúp loại bỏ nhiễu, xử lý dữ liệu thiếu, chuẩn hóa và chuyển đổi dữ
liệu, tạo điều kiện cho mô hình học tốt hơn, và đồng thời tăng cường khả năng
áp dụng mô hình vào thực tế. Điều này đảm bảo rằng quá trình khai phá dữ liệu
được thực hiện trên cơ sở dữ liệu chất lượng, dễ hiểu, và mang lại kết quả phân
tích đáng tin cậy và hữu ích.
Ý nghĩa của việc tiền xử lý dữ liệu có thể được thấy rõ qua các khía cạnh sau:
Loại bỏ dữ liệu nhiễu (Noise Removal): Dữ liệu thường chứa những giá
trị nhiễu, thông tin không chính xác hoặc không đầy đủ. Tiền xử lý giúp loại bỏ
những nhiễu này để đảm bảo rằng mô hình không bị ảnh hưởng bởi dữ liệu
không mong muốn, từ đó tăng độ chính xác của kết quả khai phá.
Xử lý dữ liệu thiếu (Handling Missing Data): Nếu dữ liệu bị thiếu, đôi khi
có thể gây ra sai lệch trong quá trình phân tích. Tiền xử lý giúp điền giá trị hoặc
loại bỏ các mẫu dữ liệu thiếu, tùy thuộc vào tình huống cụ thể.
Chuẩn hóa dữ liệu (Data Standardization): Khi có nhiều biến có đơn vị đo
khác nhau, việc chuẩn hóa dữ liệu giúp đồng nhất chúng thành cùng một khoảng
giá trị, giúp mô hình dễ dàng học từ tất cả các biến mà không bị ảnh hưởng bởi
sự chênh lệch về đơn vị đo.
Chuyển đổi dữ liệu (Data Transformation): Thông qua việc chuyển đổi dữ
liệu, chúng ta có thể tạo ra các biến mới hoặc giảm số lượng biến để làm tăng i lOMoAR cPSD| 45469857
hiệu suất của mô hình. Ví dụ, có thể áp dụng các phép biến đổi như logarit, căn
bậc hai để làm giảm độ biến động của dữ liệu.
Tách dữ liệu (Data Splitting): Trong quá trình phát triển mô hình, cần phải
tách dữ liệu thành các tập huấn luyện (training set), tập kiểm tra (test set), và
tập xác thực (validation set). Việc này giúp đánh giá hiệu suất của mô hình trên
dữ liệu mà nó chưa từng thấy trước đó.
Chọn thuộc tính (Feature Selection): Đối với các tập dữ liệu có số lượng
biến lớn, việc chọn ra các thuộc tính quan trọng giúp giảm chiều của dữ liệu,
tăng tốc quá trình huấn luyện và giảm nguy cơ overfitting.
Biểu diễn dữ liệu (Data Representation): Trong một số trường hợp, việc
biểu diễn dữ liệu dưới dạng mới có thể cải thiện khả năng phân loại hoặc dự đoán của mô hình.
Tóm lại, việc tiền xử lý dữ liệu là bước quan trọng để đảm bảo dữ liệu đầu
vào cho mô hình khai phá là chất lượng, chuẩn xác, và có thể tạo ra các mô
hình hiệu quả và tổng quát hóa tốt trên dữ liệu mới.
Câu 2: Chọn một ứng dụng của một trong các kỹ thuật: phân lớp dữ
liệu, khai phá luật kết hợp hoặc gom cụm dữ liệu trong cuộc sống hoặc trong
sản xuất/kinh doanh. Hãy mô tả sơ bộ về ứng dụng này (3 điểm). Trả lời :
Hãy xem xét một ứng dụng của kỹ thuật "phân lớp dữ liệu" trong lĩnh vực
y tế, cụ thể là phân lớp dữ liệu y tế để dự đoán rủi ro bệnh. Ứng dụng: Phân lớp
dữ liệu y tế để dự đoán rủi ro bệnh Mô tả sơ bộ:
Trong lĩnh vực y tế, việc phân lớp dữ liệu có thể được sử dụng để xây dựng
các mô hình dự đoán rủi ro bệnh cho từng cá nhân. Điều này mang lại nhiều lợi
ích, từ việc dự đoán sớm bệnh tình đến việc tối ưu hóa quản lý bệnh lý. Cách thức triển khai: ii lOMoAR cPSD| 45469857
Thu thập dữ liệu y tế: Hệ thống y tế có thể thu thập thông tin từ nhiều
nguồn, bao gồm lịch sử bệnh lý, kết quả xét nghiệm, thông tin gen, thông tin
lối sống, và các dữ liệu y tế khác.
Phân lớp dữ liệu: Sử dụng kỹ thuật phân lớp, dữ liệu y tế của bệnh nhân
có thể được phân thành các phân khúc dựa trên yếu tố như mức độ hoạt động,
chế độ ăn, di truyền, và lịch sử bệnh lý cá nhân.
Xây dựng mô hình dự đoán rủi ro: Dựa trên dữ liệu đã được phân loại, các
mô hình học máy có thể được xây dựng để dự đoán rủi ro bệnh, ví dụ như nguy
cơ mắc bệnh tim mạch, tiểu đường, hoặc các bệnh lý khác.
Tích hợp mô hình vào hệ thống y tế: Kết quả từ mô hình dự đoán có thể
được tích hợp vào hệ thống quản lý bệnh nhân, cung cấp thông tin hữu ích cho
bác sĩ và nhân viên y tế trong việc theo dõi sức khỏe của bệnh nhân và áp dụng
các biện pháp phòng ngừa.
Quản lý và điều chỉnh: Hệ thống có thể liên tục cập nhật mô hình dự đoán
dựa trên dữ liệu mới và theo dõi hiệu suất của nó, giúp điều chỉnh chiến lược
quản lý và chăm sóc bệnh nhân.
Ứng dụng phân lớp dữ liệu trong lĩnh vực y tế không chỉ giúp cá nhân hóa
chăm sóc sức khỏe mà còn có thể giảm nguy cơ mắc bệnh thông qua việc đưa
ra cảnh báo và hỗ trợ quyết định chăm sóc y tế hiệu quả hơn.
Câu 3: Cho tập dữ liệu dùng để phân tích về độ tuổi được sắp xếp
tăng dần như sau: {13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25,
25 , 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70} a.
Sử dụng phương pháp làm mịn biên với độ rộng bin là 5.
Minh họa các bước thực hiện? (1 điểm) b.
Sử dụng phương phương pháp chuẩn hóa min-max để
biến đổi giá trị tuổi về khoảng [0.0, 1.0]. (1 điểm) Trả lời :
a. Sử dụng phương pháp làm mịn biên với độ rộng bin là 5:
Để thực hiện phương pháp làm mịn biên, chúng ta sẽ chia tập dữ liệu thành các
bin với độ rộng là 5. Sau đó, đếm số lượng mẫu trong mỗi bin và làm mịn giá
trị bằng cách sử dụng trung bình cộng. Dưới đây là các bước thực hiện: Chia bin: iii lOMoAR cPSD| 45469857 Bin 1: [13, 14, 15, 16, 16] Bin 2: [19, 20, 20, 21, 22] Bin 3: [22, 25, 25, 25, 25] Bin 4: [30, 33, 33, 35, 35] Bin 5: [35, 35, 36, 40, 45] Bin 6: [46, 52, 70]
Đếm số lượng mẫu trong mỗi bin: Bin 1: 5 mẫu Bin 2: 5 mẫu Bin 3: 5 mẫu Bin 4: 5 mẫu Bin 5: 5 mẫu Bin 6: 3 mẫu
Làm mịn giá trị bằng trung bình cộng:
Bin 1: (13 + 14 + 15 + 16 + 16) / 5 = 14
Bin 2: (19 + 20 + 20 + 21 + 22) / 5 = 20.4
Bin 3: (22 + 25 + 25 + 25 + 25) / 5 = 24.4
Bin 4: (30 + 33 + 33 + 35 + 35) / 5 = 33.2
Bin 5: (35 + 35 + 36 + 40 + 45) / 5 = 38.2
Bin 6: (46 + 52 + 70) / 3 = 56 iv lOMoAR cPSD| 45469857
Kết quả sau khi làm mịn biên là: [14, 20.4, 24.4, 33.2, 38.2, 56].
b. Sử dụng phương pháp chuẩn hóa min-max:
Để chuẩn hóa giá trị tuổi về khoảng [0.0, 1.0], chúng ta sử dụng công thức:
Giá trị chuẩn hóa = (Giá trị ban đầu – Giá trị tối thiểu) / Độ phạm vi (max – min) Trong trường hợp này:
Giá trị tối thiểu (min) = 13
Giá trị tối đa (max) = 70
Độ phạm vi = max - min = 70 - 13 = 57
Kết quả sau khi chuẩn hóa là: [0.0, 0.035, 0.053, 0.105, 0.123, 0.158, 0.211,
0.298 , 0.351, 0.386, 0.404, 0.474, 0.553, 0.570, 0.684, 1.0].
Câu 4: Xây dựng cây quyết định theo thuật toán phân lớp ID3 cho bộ dữ
liệu huấn luyện sau (4 điểm):
Nghenghiep Thunhap Nhucau Thichcongnghe MuadienthoaiThongminh HS-SV Cao Coban Khong Khong HS-SV Cao Coban Co Khong Vanphong Cao Coban Khong Co Kinhdoanh Thap Coban Co Co Kinhdoanh Trungbinh Giaitri Co Co Kinhdoanh Trungbinh Giaitri Khong Khong Vanphong Trungbinh Giaitri Co Co HS-SV Thap Coban Khong Khong HS-SV Trungbinh Giaitri Khong Co Kinhdoanh Trungbinh Giaitri Co Co HS-SV Thap Giaitri Co Co Vanphong Thap Coban Co Co Vanphong Cao Giaitri Khong Co Kinhdoanh Thap Coban Khong Khong v lOMoAR cPSD| 45469857 Tudo Cao Giaitri Co Co Tudo Cao Giaitri Khong Co Tudo Thap Giaitri Co Co Trả lời :
Tập dữ liệu huấn luyện có 6 thuộc tính: • Nghề nghiệp • Thu nhập • Nhu cầu • Thích công nghệ •
Mua điện thoại thông minh Cây quyết định:
Bước 1: Tính entropy H(S) của tập ban đầu
Bước 2: Tính độ tăng thông tin IG trong tập S cho từng thuộc tính
Bước 3: Kiểm tra IG max và kết luận nút gốc là thuộc tính đó vi