Bài kiểm tra : Môn Khai Phá Dữ Liệu | Trường đại học Kinh Doanh và Công Nghê Hà Nội

Câu 1: Hãy trình bày ý nghĩa của việc tiền xử lý dữ liệu trong kỹthuật
khai phá dữ liệu? (1 điểm) Trả lời : Tiền xử lý dữ liệu là một phần quan trọng trong quá trình khai phá dữ liệu (data mining). Tài liệu giúp bạn tham  khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!

lOMoARcPSD| 45469857
i
Bài kiểm tra : Môn Khai Phá Dữ Liệu
Họ và tên: Vũ Minh Vương
Lớp : K17.14
Câu 1: Hãy trình bày ý nghĩa của việc tiền xử lý dữ liệu trong kỹ thuật
khai phá dữ liệu? (1 điểm) Trả lời :
Tiền xử dữ liệu một phần quan trọng trong quá trình khai phá dữ liệu
(data mining).
Việc tiền xử dữ liệu trong kỹ thuật khai phá dữ liệu ý nghĩa quan
trọng trong việc cải thiện chất lượng độ tin cậy của quá trình phân tích dữ
liệu. giúp loại bỏ nhiễu, xử dữ liệu thiếu, chuẩn hóa chuyển đổi dữ
liệu, tạo điều kiện cho mô hình học tốt hơn, và đồng thời tăng cường khả năng
áp dụng mô hình vào thực tế. Điều này đảm bảo rằng quá trình khai pdữ liệu
được thực hiện trên sở dữ liệu chất lượng, dễ hiểu, và mang lại kết quả phân
tích đáng tin cậy và hữu ích.
Ý nghĩa của việc tiền xử lý d liệu có thể được thấyqua các khía cạnh
sau:
Loại bỏ dữ liệu nhiễu (Noise Removal): Dữ liệu thường chứa những giá
trị nhiễu, thông tin không chính xác hoặc không đầy đủ. Tiền xử giúp loại bỏ
những nhiễu này để đảm bảo rằng hình không bị ảnh hưởng bởi dữ liệu
không mong muốn, từ đó tăng độ chính xác của kết quả khai phá.
Xử lý dữ liệu thiếu (Handling Missing Data): Nếu d liệu bị thiếu, đôi khi
thể gây ra sai lệch trong quá trình phân tích. Tiền xử giúp điền giá trị hoặc
loại bỏ các mẫu dữ liệu thiếu, tùy thuộc vào tình huống cụ thể.
Chuẩn hóa dữ liệu (Data Standardization): Khi có nhiều biến có đơn vị đo
khác nhau, việc chuẩn hóa dữ liệu giúp đồng nhất chúng thành cùng mt khoảng
giá trị, giúp mô hình dễ dàng học từ tất cả các biến mà không bị ảnh hưởng bởi
sự chênh lệch về đơn vị đo.
Chuyển đổi dữ liệu (Data Transformation): Thông qua việc chuyển đổi dữ
liệu, chúng ta có thể tạo ra các biến mới hoặc giảm số lượng biến để làm tăng
lOMoARcPSD| 45469857
ii
hiệu suất của hình. Ví dụ, có thể áp dụng các phép biến đổi như logarit, căn
bậc hai để làm giảm độ biến động của dữ liệu.
Tách dữ liệu (Data Splitting): Trong quá trình phát triển hình, cần phải
tách dữ liệu thành các tập huấn luyện (training set), tập kiểm tra (test set),
tập xác thực (validation set). Việc này giúp đánh giá hiệu suất của hình trên
dữ liệu mà nó chưa từng thấy trước đó.
Chọn thuộc tính (Feature Selection): Đối với các tập dữ liệu số lượng
biến lớn, việc chọn ra các thuộc tính quan trọng giúp giảm chiều của dữ liệu,
tăng tốc quá trình huấn luyện và giảm nguy cơ overfitting.
Biểu diễn dữ liệu (Data Representation): Trong một số trường hợp, việc
biểu diễn dữ liệu dưới dạng mới thể cải thiện khả năng phân loại hoặc dự
đoán của mô hình.
Tóm lại, việc tiền xử lý dữ liệu bước quan trọng để đảm bảo dữ liệu đầu
vào cho mô hình khai phá là cht lượng, chuẩn xác, và thể tạo ra các
hình hiệu quả và tổng quát hóa tốt trên dữ liệu mới.
Câu 2: Chọn một ng dụng của một trong các kỹ thuật: phân lớp dữ
liệu, khai phá luật kết hợp hoặc gom cụm dữ liệu trong cuộc sống hoặc trong
sản xuất/kinh doanh. Hãy mô tả sơ bộ về ứng dụng này (3 điểm).
Trả lời :
Hãy xem xét một ứng dụng của kỹ thuật "phân lớp dữ liệu" trong lĩnh vực
y tế, cụ thể phân lớp d liệu y tế để dự đoán rủi ro bệnh. Ứng dụng: Phân lớp
dữ liệu y tế để dự đoán rủi ro bệnh
Mô tả sơ bộ:
Trong lĩnh vực y tế, việc phân lớp dữ liệu có thể được sử dụng để xây dựng
các hình dự đoán rủi ro bệnh cho từng nn. Điều này mang lại nhiều lợi
ích, từ việc dự đoán sớm bệnh tình đến việc tối ưu hóa quản lý bệnh lý.
Cách thức triển khai:
lOMoARcPSD| 45469857
iii
Thu thp dữ liệu y tế: Hệ thống y tế thể thu thập thông tin từ nhiu
nguồn, bao gồm lịch sử bệnh lý, kết quả xét nghiệm, thông tin gen, thông tin
lối sống, và các dữ liệu y tế khác.
Phân lớp dữ liệu: Sử dụng kỹ thuật phân lớp, dữ liệu y tế của bệnh nhân
thể được phân thành các phân khúc dựa trên yếu tố như mc độ hoạt động,
chế độ ăn, di truyền, và lịch sử bệnh lý cá nhân.
Xây dựng mô hình dự đoán rủi ro: Dựa trên dữ liệu đã được phân loại, các
nh học máy có thể được xây dựng để dự đoán rủi ro bệnh, dụ như nguy
cơ mắc bệnh tim mạch, tiểu đường, hoặc các bệnh lý khác.
Tích hợp hình vào hệ thống y tế: Kết quả từ hình dự đoán thể
được tích hợp vào hệ thống quản lý bệnh nhân, cung cấp thông tin hữu ích cho
bác sĩ và nhân vn y tế trong việc theo dõi sức khỏe của bnh nhân và áp dụng
các biện pháp phòng ngừa.
Quản lý và điều chỉnh: Hệ thống có thể liên tục cập nhật mô hình dự đoán
dựa trên dữ liệu mới theo dõi hiệu suất của nó, giúp điều chỉnh chiến lược
quản lý và chăm sóc bệnh nhân.
Ứng dụng phân lớp dữ liệu trong lĩnh vực y tế không chỉ giúp cá nhân hóa
chăm sóc sức khỏe mà còn có thể giảm nguymắc bệnh thông qua việc đưa
ra cảnh báo và hỗ trợ quyết định chăm sóc y tế hiệu quả hơn.
Câu 3: Cho tp d liệu dùng để phân tích v độ tuổi được sp xếp
tăng dần như sau: {13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25,
25 , 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70}
a. S dụng phương pháp làm mịn biên với độ rng bin là 5.
Minh họa các bước thc hiện? (1 điểm)
b. S dụng phương phương pháp chuẩn hóa min-max để
biến đổi giá tr tui v khoảng [0.0, 1.0]. (1 điểm)
Trả lời :
a. Sử dụng phương pháp làm mịn biên với độ rộng bin là 5:
Để thực hiện phương pháp làm mịn biên, chúng ta sẽ chia tập dữ liệu thành các
bin vi độ rộng là 5. Sau đó, đếm số lượng mẫu trong mỗi bin và làm mịn giá
trị bằng cách sử dụng trung bình cộng. Dưới đây là các bước thực hiện:
Chia bin:
lOMoARcPSD| 45469857
iv
Bin 1: [13, 14, 15, 16, 16]
Bin 2: [19, 20, 20, 21, 22]
Bin 3: [22, 25, 25, 25, 25]
Bin 4: [30, 33, 33, 35, 35]
Bin 5: [35, 35, 36, 40, 45]
Bin 6: [46, 52, 70]
Đếm số lượng mẫu trong mỗi bin:
Bin 1: 5 mẫu
Bin 2: 5 mẫu
Bin 3: 5 mẫu
Bin 4: 5 mẫu
Bin 5: 5 mẫu
Bin 6: 3 mẫu
Làm mịn giá trị bằng trung bình cộng:
Bin 1: (13 + 14 + 15 + 16 + 16) / 5 = 14
Bin 2: (19 + 20 + 20 + 21 + 22) / 5 = 20.4
Bin 3: (22 + 25 + 25 + 25 + 25) / 5 = 24.4
Bin 4: (30 + 33 + 33 + 35 + 35) / 5 = 33.2
Bin 5: (35 + 35 + 36 + 40 + 45) / 5 = 38.2
Bin 6: (46 + 52 + 70) / 3 = 56
lOMoARcPSD| 45469857
v
Kết quả sau khi làm mịn biên là: [14, 20.4, 24.4, 33.2, 38.2, 56].
b. Sử dụng phương pháp chuẩn hóa min-max:
Để chuẩn hóa giá trị tuổi về khoảng [0.0, 1.0], chúng ta sử dụng công thức:
Giá trị chuẩn hóa = (Giá trị ban đầu Giá trị tối thiểu) / Độ phạm vi (max
min)
Trong trường hợp này:
Giá trị tối thiểu (min) = 13
Giá trị tối đa (max) = 70
Độ phạm vi = max - min = 70 - 13 = 57
Kết quả sau khi chuẩn hóa là: [0.0, 0.035, 0.053, 0.105, 0.123, 0.158, 0.211,
0.298 , 0.351, 0.386, 0.404, 0.474, 0.553, 0.570, 0.684, 1.0].
Câu 4: Xây dng cây quyết định theo thut toán phân lp ID3 cho b d
liu hun luyện sau (4 điểm):
Nghenghiep
Thunhap
Nhucau
Thichcongnghe
MuadienthoaiThongminh
HS-SV
Cao
Coban
Khong
Khong
HS-SV
Cao
Coban
Co
Khong
Vanphong
Cao
Coban
Khong
Co
Kinhdoanh
Thap
Coban
Co
Co
Kinhdoanh
Trungbinh
Giaitri
Co
Co
Kinhdoanh
Trungbinh
Giaitri
Khong
Khong
Vanphong
Trungbinh
Giaitri
Co
Co
HS-SV
Thap
Coban
Khong
Khong
HS-SV
Trungbinh
Giaitri
Khong
Co
Kinhdoanh
Trungbinh
Giaitri
Co
Co
HS-SV
Thap
Giaitri
Co
Co
Vanphong
Thap
Coban
Co
Co
Vanphong
Cao
Giaitri
Khong
Co
Kinhdoanh
Thap
Coban
Khong
Khong
lOMoARcPSD| 45469857
vi
Tudo
Cao
Giaitri
Co
Co
Tudo
Cao
Giaitri
Khong
Co
Tudo
Thap
Giaitri
Co
Co
Tr li :
Tp d liu hun luyn có 6 thuc tính:
Ngh nghip
Thu nhp
Nhu cu
Thích công ngh
Mua điện thoi thông minh
Cây quyết đnh:
c 1: Tính entropy H(S) ca tập ban đầu
ớc 2: Tính độ tăng thông tin IG trong tập S cho tng thuc tính
c 3: Kim tra IG max và kết lun nút gc là thuộc tính đó
| 1/6

Preview text:

lOMoAR cPSD| 45469857
Bài kiểm tra : Môn Khai Phá Dữ Liệu
Họ và tên: Vũ Minh Vương Lớp : K17.14
Câu 1: Hãy trình bày ý nghĩa của việc tiền xử lý dữ liệu trong kỹ thuật
khai phá dữ liệu? (1 điểm) Trả lời :
Tiền xử lý dữ liệu là một phần quan trọng trong quá trình khai phá dữ liệu (data mining).
Việc tiền xử lý dữ liệu trong kỹ thuật khai phá dữ liệu có ý nghĩa quan
trọng trong việc cải thiện chất lượng và độ tin cậy của quá trình phân tích dữ
liệu. Nó giúp loại bỏ nhiễu, xử lý dữ liệu thiếu, chuẩn hóa và chuyển đổi dữ
liệu, tạo điều kiện cho mô hình học tốt hơn, và đồng thời tăng cường khả năng
áp dụng mô hình vào thực tế. Điều này đảm bảo rằng quá trình khai phá dữ liệu
được thực hiện trên cơ sở dữ liệu chất lượng, dễ hiểu, và mang lại kết quả phân
tích đáng tin cậy và hữu ích.
Ý nghĩa của việc tiền xử lý dữ liệu có thể được thấy rõ qua các khía cạnh sau:
Loại bỏ dữ liệu nhiễu (Noise Removal): Dữ liệu thường chứa những giá
trị nhiễu, thông tin không chính xác hoặc không đầy đủ. Tiền xử lý giúp loại bỏ
những nhiễu này để đảm bảo rằng mô hình không bị ảnh hưởng bởi dữ liệu
không mong muốn, từ đó tăng độ chính xác của kết quả khai phá.
Xử lý dữ liệu thiếu (Handling Missing Data): Nếu dữ liệu bị thiếu, đôi khi
có thể gây ra sai lệch trong quá trình phân tích. Tiền xử lý giúp điền giá trị hoặc
loại bỏ các mẫu dữ liệu thiếu, tùy thuộc vào tình huống cụ thể.
Chuẩn hóa dữ liệu (Data Standardization): Khi có nhiều biến có đơn vị đo
khác nhau, việc chuẩn hóa dữ liệu giúp đồng nhất chúng thành cùng một khoảng
giá trị, giúp mô hình dễ dàng học từ tất cả các biến mà không bị ảnh hưởng bởi
sự chênh lệch về đơn vị đo.
Chuyển đổi dữ liệu (Data Transformation): Thông qua việc chuyển đổi dữ
liệu, chúng ta có thể tạo ra các biến mới hoặc giảm số lượng biến để làm tăng i lOMoAR cPSD| 45469857
hiệu suất của mô hình. Ví dụ, có thể áp dụng các phép biến đổi như logarit, căn
bậc hai để làm giảm độ biến động của dữ liệu.
Tách dữ liệu (Data Splitting): Trong quá trình phát triển mô hình, cần phải
tách dữ liệu thành các tập huấn luyện (training set), tập kiểm tra (test set), và
tập xác thực (validation set). Việc này giúp đánh giá hiệu suất của mô hình trên
dữ liệu mà nó chưa từng thấy trước đó.
Chọn thuộc tính (Feature Selection): Đối với các tập dữ liệu có số lượng
biến lớn, việc chọn ra các thuộc tính quan trọng giúp giảm chiều của dữ liệu,
tăng tốc quá trình huấn luyện và giảm nguy cơ overfitting.
Biểu diễn dữ liệu (Data Representation): Trong một số trường hợp, việc
biểu diễn dữ liệu dưới dạng mới có thể cải thiện khả năng phân loại hoặc dự đoán của mô hình.
Tóm lại, việc tiền xử lý dữ liệu là bước quan trọng để đảm bảo dữ liệu đầu
vào cho mô hình khai phá là chất lượng, chuẩn xác, và có thể tạo ra các mô
hình hiệu quả và tổng quát hóa tốt trên dữ liệu mới.
Câu 2: Chọn một ứng dụng của một trong các kỹ thuật: phân lớp dữ
liệu, khai phá luật kết hợp hoặc gom cụm dữ liệu trong cuộc sống hoặc trong
sản xuất/kinh doanh. Hãy mô tả sơ bộ về ứng dụng này (3 điểm).
Trả lời :
Hãy xem xét một ứng dụng của kỹ thuật "phân lớp dữ liệu" trong lĩnh vực
y tế, cụ thể là phân lớp dữ liệu y tế để dự đoán rủi ro bệnh. Ứng dụng: Phân lớp
dữ liệu y tế để dự đoán rủi ro bệnh Mô tả sơ bộ:
Trong lĩnh vực y tế, việc phân lớp dữ liệu có thể được sử dụng để xây dựng
các mô hình dự đoán rủi ro bệnh cho từng cá nhân. Điều này mang lại nhiều lợi
ích, từ việc dự đoán sớm bệnh tình đến việc tối ưu hóa quản lý bệnh lý. Cách thức triển khai: ii lOMoAR cPSD| 45469857
Thu thập dữ liệu y tế: Hệ thống y tế có thể thu thập thông tin từ nhiều
nguồn, bao gồm lịch sử bệnh lý, kết quả xét nghiệm, thông tin gen, thông tin
lối sống, và các dữ liệu y tế khác.
Phân lớp dữ liệu: Sử dụng kỹ thuật phân lớp, dữ liệu y tế của bệnh nhân
có thể được phân thành các phân khúc dựa trên yếu tố như mức độ hoạt động,
chế độ ăn, di truyền, và lịch sử bệnh lý cá nhân.
Xây dựng mô hình dự đoán rủi ro: Dựa trên dữ liệu đã được phân loại, các
mô hình học máy có thể được xây dựng để dự đoán rủi ro bệnh, ví dụ như nguy
cơ mắc bệnh tim mạch, tiểu đường, hoặc các bệnh lý khác.
Tích hợp mô hình vào hệ thống y tế: Kết quả từ mô hình dự đoán có thể
được tích hợp vào hệ thống quản lý bệnh nhân, cung cấp thông tin hữu ích cho
bác sĩ và nhân viên y tế trong việc theo dõi sức khỏe của bệnh nhân và áp dụng
các biện pháp phòng ngừa.
Quản lý và điều chỉnh: Hệ thống có thể liên tục cập nhật mô hình dự đoán
dựa trên dữ liệu mới và theo dõi hiệu suất của nó, giúp điều chỉnh chiến lược
quản lý và chăm sóc bệnh nhân.
Ứng dụng phân lớp dữ liệu trong lĩnh vực y tế không chỉ giúp cá nhân hóa
chăm sóc sức khỏe mà còn có thể giảm nguy cơ mắc bệnh thông qua việc đưa
ra cảnh báo và hỗ trợ quyết định chăm sóc y tế hiệu quả hơn.
Câu 3: Cho tập dữ liệu dùng để phân tích về độ tuổi được sắp xếp
tăng dần như sau: {13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25,
25 , 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70} a.
Sử dụng phương pháp làm mịn biên với độ rộng bin là 5.
Minh họa các bước thực hiện? (1 điểm) b.
Sử dụng phương phương pháp chuẩn hóa min-max để
biến đổi giá trị tuổi về khoảng [0.0, 1.0]. (1 điểm) Trả lời :
a. Sử dụng phương pháp làm mịn biên với độ rộng bin là 5:
Để thực hiện phương pháp làm mịn biên, chúng ta sẽ chia tập dữ liệu thành các
bin với độ rộng là 5. Sau đó, đếm số lượng mẫu trong mỗi bin và làm mịn giá
trị bằng cách sử dụng trung bình cộng. Dưới đây là các bước thực hiện: Chia bin: iii lOMoAR cPSD| 45469857 Bin 1: [13, 14, 15, 16, 16] Bin 2: [19, 20, 20, 21, 22] Bin 3: [22, 25, 25, 25, 25] Bin 4: [30, 33, 33, 35, 35] Bin 5: [35, 35, 36, 40, 45] Bin 6: [46, 52, 70]
Đếm số lượng mẫu trong mỗi bin: Bin 1: 5 mẫu Bin 2: 5 mẫu Bin 3: 5 mẫu Bin 4: 5 mẫu Bin 5: 5 mẫu Bin 6: 3 mẫu
Làm mịn giá trị bằng trung bình cộng:
Bin 1: (13 + 14 + 15 + 16 + 16) / 5 = 14
Bin 2: (19 + 20 + 20 + 21 + 22) / 5 = 20.4
Bin 3: (22 + 25 + 25 + 25 + 25) / 5 = 24.4
Bin 4: (30 + 33 + 33 + 35 + 35) / 5 = 33.2
Bin 5: (35 + 35 + 36 + 40 + 45) / 5 = 38.2
Bin 6: (46 + 52 + 70) / 3 = 56 iv lOMoAR cPSD| 45469857
Kết quả sau khi làm mịn biên là: [14, 20.4, 24.4, 33.2, 38.2, 56].
b. Sử dụng phương pháp chuẩn hóa min-max:
Để chuẩn hóa giá trị tuổi về khoảng [0.0, 1.0], chúng ta sử dụng công thức:
Giá trị chuẩn hóa = (Giá trị ban đầu – Giá trị tối thiểu) / Độ phạm vi (max – min) Trong trường hợp này:
Giá trị tối thiểu (min) = 13
Giá trị tối đa (max) = 70
Độ phạm vi = max - min = 70 - 13 = 57
Kết quả sau khi chuẩn hóa là: [0.0, 0.035, 0.053, 0.105, 0.123, 0.158, 0.211,
0.298 , 0.351, 0.386, 0.404, 0.474, 0.553, 0.570, 0.684, 1.0].
Câu 4: Xây dựng cây quyết định theo thuật toán phân lớp ID3 cho bộ dữ
liệu huấn luyện sau (4 điểm):

Nghenghiep Thunhap Nhucau Thichcongnghe MuadienthoaiThongminh HS-SV Cao Coban Khong Khong HS-SV Cao Coban Co Khong Vanphong Cao Coban Khong Co Kinhdoanh Thap Coban Co Co Kinhdoanh Trungbinh Giaitri Co Co Kinhdoanh Trungbinh Giaitri Khong Khong Vanphong Trungbinh Giaitri Co Co HS-SV Thap Coban Khong Khong HS-SV Trungbinh Giaitri Khong Co Kinhdoanh Trungbinh Giaitri Co Co HS-SV Thap Giaitri Co Co Vanphong Thap Coban Co Co Vanphong Cao Giaitri Khong Co Kinhdoanh Thap Coban Khong Khong v lOMoAR cPSD| 45469857 Tudo Cao Giaitri Co Co Tudo Cao Giaitri Khong Co Tudo Thap Giaitri Co Co Trả lời :
Tập dữ liệu huấn luyện có 6 thuộc tính: • Nghề nghiệp • Thu nhập • Nhu cầu • Thích công nghệ •
Mua điện thoại thông minh Cây quyết định:
Bước 1: Tính entropy H(S) của tập ban đầu
Bước 2: Tính độ tăng thông tin IG trong tập S cho từng thuộc tính
Bước 3: Kiểm tra IG max và kết luận nút gốc là thuộc tính đó vi