6 trang 260 lượt tải

Bài kiểm tra : Môn Khai Phá Dữ Liệu | Trường đại học Kinh Doanh và Công Nghê Hà Nội

519

Câu 1: Hãy trình bày ý nghĩa của việc tiền xử lý dữ liệu trong kỹthuật
khai phá dữ liệu? (1 điểm) Trả lời : Tiền xử lý dữ liệu là một phần quan trọng trong quá trình khai phá dữ liệu (data mining). Tài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!

Môn: Khai Phá Dữ Liệu (HUBT) 1 tài liệu

Trường: Trường Đại học Kinh Doanh và Công Nghệ Hà Nội 1.8 K tài liệu

Tác giả:

VietJack

1 năm trước

Tải xuống Báo cáo

Danh sách Quiz

lOMoARcPSD| 45469857

Bài kiểm tra : Môn Khai Phá Dữ Liệu

Họ và tên: Vũ Minh Vương

Lớp : K17.14

Câu 1: Hãy trình bày ý nghĩa của việc tiền xử lý dữ liệu trong kỹ thuật

khai phá dữ liệu? (1 điểm) Trả lời :

Tiền xử lý dữ liệu là một phần quan trọng trong quá trình khai phá dữ liệu

(data mining).

Việc tiền xử lý dữ liệu trong kỹ thuật khai phá dữ liệu có ý nghĩa quan

trọng trong việc cải thiện chất lượng và độ tin cậy của quá trình phân tích dữ

liệu. Nó giúp loại bỏ nhiễu, xử lý dữ liệu thiếu, chuẩn hóa và chuyển đổi dữ

liệu, tạo điều kiện cho mô hình học tốt hơn, và đồng thời tăng cường khả năng

áp dụng mô hình vào thực tế. Điều này đảm bảo rằng quá trình khai phá dữ liệu

được thực hiện trên cơ sở dữ liệu chất lượng, dễ hiểu, và mang lại kết quả phân

tích đáng tin cậy và hữu ích.

Ý nghĩa của việc tiền xử lý dữ liệu có thể được thấy rõ qua các khía cạnh

Loại bỏ dữ liệu nhiễu (Noise Removal): Dữ liệu thường chứa những giá

trị nhiễu, thông tin không chính xác hoặc không đầy đủ. Tiền xử lý giúp loại bỏ

những nhiễu này để đảm bảo rằng mô hình không bị ảnh hưởng bởi dữ liệu

không mong muốn, từ đó tăng độ chính xác của kết quả khai phá.

Xử lý dữ liệu thiếu (Handling Missing Data): Nếu dữ liệu bị thiếu, đôi khi

có thể gây ra sai lệch trong quá trình phân tích. Tiền xử lý giúp điền giá trị hoặc

loại bỏ các mẫu dữ liệu thiếu, tùy thuộc vào tình huống cụ thể.

Chuẩn hóa dữ liệu (Data Standardization): Khi có nhiều biến có đơn vị đo

khác nhau, việc chuẩn hóa dữ liệu giúp đồng nhất chúng thành cùng một khoảng

giá trị, giúp mô hình dễ dàng học từ tất cả các biến mà không bị ảnh hưởng bởi

sự chênh lệch về đơn vị đo.

Chuyển đổi dữ liệu (Data Transformation): Thông qua việc chuyển đổi dữ

liệu, chúng ta có thể tạo ra các biến mới hoặc giảm số lượng biến để làm tăng

lOMoARcPSD| 45469857

hiệu suất của mô hình. Ví dụ, có thể áp dụng các phép biến đổi như logarit, căn

bậc hai để làm giảm độ biến động của dữ liệu.

Tách dữ liệu (Data Splitting): Trong quá trình phát triển mô hình, cần phải

tách dữ liệu thành các tập huấn luyện (training set), tập kiểm tra (test set), và

tập xác thực (validation set). Việc này giúp đánh giá hiệu suất của mô hình trên

dữ liệu mà nó chưa từng thấy trước đó.

Chọn thuộc tính (Feature Selection): Đối với các tập dữ liệu có số lượng

biến lớn, việc chọn ra các thuộc tính quan trọng giúp giảm chiều của dữ liệu,

tăng tốc quá trình huấn luyện và giảm nguy cơ overfitting.

Biểu diễn dữ liệu (Data Representation): Trong một số trường hợp, việc

biểu diễn dữ liệu dưới dạng mới có thể cải thiện khả năng phân loại hoặc dự

đoán của mô hình.

Tóm lại, việc tiền xử lý dữ liệu là bước quan trọng để đảm bảo dữ liệu đầu

vào cho mô hình khai phá là chất lượng, chuẩn xác, và có thể tạo ra các mô

hình hiệu quả và tổng quát hóa tốt trên dữ liệu mới.

Câu 2: Chọn một ứng dụng của một trong các kỹ thuật: phân lớp dữ

liệu, khai phá luật kết hợp hoặc gom cụm dữ liệu trong cuộc sống hoặc trong

sản xuất/kinh doanh. Hãy mô tả sơ bộ về ứng dụng này (3 điểm).

Trả lời :

Hãy xem xét một ứng dụng của kỹ thuật "phân lớp dữ liệu" trong lĩnh vực

y tế, cụ thể là phân lớp dữ liệu y tế để dự đoán rủi ro bệnh. Ứng dụng: Phân lớp

dữ liệu y tế để dự đoán rủi ro bệnh

Mô tả sơ bộ:

Trong lĩnh vực y tế, việc phân lớp dữ liệu có thể được sử dụng để xây dựng

các mô hình dự đoán rủi ro bệnh cho từng cá nhân. Điều này mang lại nhiều lợi

ích, từ việc dự đoán sớm bệnh tình đến việc tối ưu hóa quản lý bệnh lý.

Cách thức triển khai:

lOMoARcPSD| 45469857

iii

Thu thập dữ liệu y tế: Hệ thống y tế có thể thu thập thông tin từ nhiều

nguồn, bao gồm lịch sử bệnh lý, kết quả xét nghiệm, thông tin gen, thông tin

lối sống, và các dữ liệu y tế khác.

Phân lớp dữ liệu: Sử dụng kỹ thuật phân lớp, dữ liệu y tế của bệnh nhân

có thể được phân thành các phân khúc dựa trên yếu tố như mức độ hoạt động,

chế độ ăn, di truyền, và lịch sử bệnh lý cá nhân.

Xây dựng mô hình dự đoán rủi ro: Dựa trên dữ liệu đã được phân loại, các

mô hình học máy có thể được xây dựng để dự đoán rủi ro bệnh, ví dụ như nguy

cơ mắc bệnh tim mạch, tiểu đường, hoặc các bệnh lý khác.

Tích hợp mô hình vào hệ thống y tế: Kết quả từ mô hình dự đoán có thể

được tích hợp vào hệ thống quản lý bệnh nhân, cung cấp thông tin hữu ích cho

bác sĩ và nhân viên y tế trong việc theo dõi sức khỏe của bệnh nhân và áp dụng

các biện pháp phòng ngừa.

Quản lý và điều chỉnh: Hệ thống có thể liên tục cập nhật mô hình dự đoán

dựa trên dữ liệu mới và theo dõi hiệu suất của nó, giúp điều chỉnh chiến lược

quản lý và chăm sóc bệnh nhân.

Ứng dụng phân lớp dữ liệu trong lĩnh vực y tế không chỉ giúp cá nhân hóa

chăm sóc sức khỏe mà còn có thể giảm nguy cơ mắc bệnh thông qua việc đưa

ra cảnh báo và hỗ trợ quyết định chăm sóc y tế hiệu quả hơn.

Câu 3: Cho tập dữ liệu dùng để phân tích về độ tuổi được sắp xếp

tăng dần như sau: {13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25,

25 , 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70}

a. Sử dụng phương pháp làm mịn biên với độ rộng bin là 5.

Minh họa các bước thực hiện? (1 điểm)

b. Sử dụng phương phương pháp chuẩn hóa min-max để

biến đổi giá trị tuổi về khoảng [0.0, 1.0]. (1 điểm)

Trả lời :

a. Sử dụng phương pháp làm mịn biên với độ rộng bin là 5:

Để thực hiện phương pháp làm mịn biên, chúng ta sẽ chia tập dữ liệu thành các

bin với độ rộng là 5. Sau đó, đếm số lượng mẫu trong mỗi bin và làm mịn giá

trị bằng cách sử dụng trung bình cộng. Dưới đây là các bước thực hiện:

Chia bin:

lOMoARcPSD| 45469857

Bin 1: [13, 14, 15, 16, 16]

Bin 2: [19, 20, 20, 21, 22]

Bin 3: [22, 25, 25, 25, 25]

Bin 4: [30, 33, 33, 35, 35]

Bin 5: [35, 35, 36, 40, 45]

Bin 6: [46, 52, 70]

Đếm số lượng mẫu trong mỗi bin:

Bin 1: 5 mẫu

Bin 2: 5 mẫu

Bin 3: 5 mẫu

Bin 4: 5 mẫu

Bin 5: 5 mẫu

Bin 6: 3 mẫu

Làm mịn giá trị bằng trung bình cộng:

Bin 1: (13 + 14 + 15 + 16 + 16) / 5 = 14

Bin 2: (19 + 20 + 20 + 21 + 22) / 5 = 20.4

Bin 3: (22 + 25 + 25 + 25 + 25) / 5 = 24.4

Bin 4: (30 + 33 + 33 + 35 + 35) / 5 = 33.2

Bin 5: (35 + 35 + 36 + 40 + 45) / 5 = 38.2

Bin 6: (46 + 52 + 70) / 3 = 56

lOMoARcPSD| 45469857

Kết quả sau khi làm mịn biên là: [14, 20.4, 24.4, 33.2, 38.2, 56].

b. Sử dụng phương pháp chuẩn hóa min-max:

Để chuẩn hóa giá trị tuổi về khoảng [0.0, 1.0], chúng ta sử dụng công thức:

Giá trị chuẩn hóa = (Giá trị ban đầu – Giá trị tối thiểu) / Độ phạm vi (max –

min)

Trong trường hợp này:

Giá trị tối thiểu (min) = 13

Giá trị tối đa (max) = 70

Độ phạm vi = max - min = 70 - 13 = 57

Kết quả sau khi chuẩn hóa là: [0.0, 0.035, 0.053, 0.105, 0.123, 0.158, 0.211,

0.298 , 0.351, 0.386, 0.404, 0.474, 0.553, 0.570, 0.684, 1.0].

Câu 4: Xây dựng cây quyết định theo thuật toán phân lớp ID3 cho bộ dữ

liệu huấn luyện sau (4 điểm):

Nghenghiep

Thunhap

Nhucau

Thichcongnghe

MuadienthoaiThongminh

HS-SV

Cao

Coban

Khong

HS-SV

Cao

Coban

Khong

Vanphong

Cao

Coban

Khong

Kinhdoanh

Thap

Coban

Kinhdoanh

Trungbinh

Giaitri

Kinhdoanh

Trungbinh

Giaitri

Khong

Vanphong

Trungbinh

Giaitri

HS-SV

Thap

Coban

Khong

HS-SV

Trungbinh

Giaitri

Khong

Kinhdoanh

Trungbinh

Giaitri

HS-SV

Thap

Giaitri

Vanphong

Thap

Coban

Vanphong

Cao

Giaitri

Khong

Kinhdoanh

Thap

Coban

Khong

lOMoARcPSD| 45469857

Tudo

Cao

Giaitri

Tudo

Cao

Giaitri

Khong

Tudo

Thap

Giaitri

Trả lời :

Tập dữ liệu huấn luyện có 6 thuộc tính:

• Nghề nghiệp

• Thu nhập

• Nhu cầu

• Thích công nghệ

• Mua điện thoại thông minh

Cây quyết định:

Bước 1: Tính entropy H(S) của tập ban đầu

Bước 2: Tính độ tăng thông tin IG trong tập S cho từng thuộc tính

Bước 3: Kiểm tra IG max và kết luận nút gốc là thuộc tính đó

Bấm Tải xuống để xem toàn bộ.

Preview text:

lOMoAR cPSD| 45469857
Bài kiểm tra : Môn Khai Phá Dữ Liệu
Họ và tên: Vũ Minh Vương Lớp : K17.14
Câu 1: Hãy trình bày ý nghĩa của việc tiền xử lý dữ liệu trong kỹ thuật
khai phá dữ liệu? (1 điểm) Trả lời :
Tiền xử lý dữ liệu là một phần quan trọng trong quá trình khai phá dữ liệu (data mining).
Việc tiền xử lý dữ liệu trong kỹ thuật khai phá dữ liệu có ý nghĩa quan
trọng trong việc cải thiện chất lượng và độ tin cậy của quá trình phân tích dữ
liệu. Nó giúp loại bỏ nhiễu, xử lý dữ liệu thiếu, chuẩn hóa và chuyển đổi dữ
liệu, tạo điều kiện cho mô hình học tốt hơn, và đồng thời tăng cường khả năng
áp dụng mô hình vào thực tế. Điều này đảm bảo rằng quá trình khai phá dữ liệu
được thực hiện trên cơ sở dữ liệu chất lượng, dễ hiểu, và mang lại kết quả phân
tích đáng tin cậy và hữu ích.
Ý nghĩa của việc tiền xử lý dữ liệu có thể được thấy rõ qua các khía cạnh sau:
Loại bỏ dữ liệu nhiễu (Noise Removal): Dữ liệu thường chứa những giá
trị nhiễu, thông tin không chính xác hoặc không đầy đủ. Tiền xử lý giúp loại bỏ
những nhiễu này để đảm bảo rằng mô hình không bị ảnh hưởng bởi dữ liệu
không mong muốn, từ đó tăng độ chính xác của kết quả khai phá.
Xử lý dữ liệu thiếu (Handling Missing Data): Nếu dữ liệu bị thiếu, đôi khi
có thể gây ra sai lệch trong quá trình phân tích. Tiền xử lý giúp điền giá trị hoặc
loại bỏ các mẫu dữ liệu thiếu, tùy thuộc vào tình huống cụ thể.
Chuẩn hóa dữ liệu (Data Standardization): Khi có nhiều biến có đơn vị đo
khác nhau, việc chuẩn hóa dữ liệu giúp đồng nhất chúng thành cùng một khoảng
giá trị, giúp mô hình dễ dàng học từ tất cả các biến mà không bị ảnh hưởng bởi
sự chênh lệch về đơn vị đo.
Chuyển đổi dữ liệu (Data Transformation): Thông qua việc chuyển đổi dữ
liệu, chúng ta có thể tạo ra các biến mới hoặc giảm số lượng biến để làm tăng i lOMoAR cPSD| 45469857
hiệu suất của mô hình. Ví dụ, có thể áp dụng các phép biến đổi như logarit, căn
bậc hai để làm giảm độ biến động của dữ liệu.
Tách dữ liệu (Data Splitting): Trong quá trình phát triển mô hình, cần phải
tách dữ liệu thành các tập huấn luyện (training set), tập kiểm tra (test set), và
tập xác thực (validation set). Việc này giúp đánh giá hiệu suất của mô hình trên
dữ liệu mà nó chưa từng thấy trước đó.
Chọn thuộc tính (Feature Selection): Đối với các tập dữ liệu có số lượng
biến lớn, việc chọn ra các thuộc tính quan trọng giúp giảm chiều của dữ liệu,
tăng tốc quá trình huấn luyện và giảm nguy cơ overfitting.
Biểu diễn dữ liệu (Data Representation): Trong một số trường hợp, việc
biểu diễn dữ liệu dưới dạng mới có thể cải thiện khả năng phân loại hoặc dự đoán của mô hình.
Tóm lại, việc tiền xử lý dữ liệu là bước quan trọng để đảm bảo dữ liệu đầu
vào cho mô hình khai phá là chất lượng, chuẩn xác, và có thể tạo ra các mô
hình hiệu quả và tổng quát hóa tốt trên dữ liệu mới.
Câu 2: Chọn một ứng dụng của một trong các kỹ thuật: phân lớp dữ
liệu, khai phá luật kết hợp hoặc gom cụm dữ liệu trong cuộc sống hoặc trong
sản xuất/kinh doanh. Hãy mô tả sơ bộ về ứng dụng này (3 điểm). Trả lời :
Hãy xem xét một ứng dụng của kỹ thuật "phân lớp dữ liệu" trong lĩnh vực
y tế, cụ thể là phân lớp dữ liệu y tế để dự đoán rủi ro bệnh. Ứng dụng: Phân lớp
dữ liệu y tế để dự đoán rủi ro bệnh Mô tả sơ bộ:
Trong lĩnh vực y tế, việc phân lớp dữ liệu có thể được sử dụng để xây dựng
các mô hình dự đoán rủi ro bệnh cho từng cá nhân. Điều này mang lại nhiều lợi
ích, từ việc dự đoán sớm bệnh tình đến việc tối ưu hóa quản lý bệnh lý. Cách thức triển khai: ii lOMoAR cPSD| 45469857
Thu thập dữ liệu y tế: Hệ thống y tế có thể thu thập thông tin từ nhiều
nguồn, bao gồm lịch sử bệnh lý, kết quả xét nghiệm, thông tin gen, thông tin
lối sống, và các dữ liệu y tế khác.
Phân lớp dữ liệu: Sử dụng kỹ thuật phân lớp, dữ liệu y tế của bệnh nhân
có thể được phân thành các phân khúc dựa trên yếu tố như mức độ hoạt động,
chế độ ăn, di truyền, và lịch sử bệnh lý cá nhân.
Xây dựng mô hình dự đoán rủi ro: Dựa trên dữ liệu đã được phân loại, các
mô hình học máy có thể được xây dựng để dự đoán rủi ro bệnh, ví dụ như nguy
cơ mắc bệnh tim mạch, tiểu đường, hoặc các bệnh lý khác.
Tích hợp mô hình vào hệ thống y tế: Kết quả từ mô hình dự đoán có thể
được tích hợp vào hệ thống quản lý bệnh nhân, cung cấp thông tin hữu ích cho
bác sĩ và nhân viên y tế trong việc theo dõi sức khỏe của bệnh nhân và áp dụng
các biện pháp phòng ngừa.
Quản lý và điều chỉnh: Hệ thống có thể liên tục cập nhật mô hình dự đoán
dựa trên dữ liệu mới và theo dõi hiệu suất của nó, giúp điều chỉnh chiến lược
quản lý và chăm sóc bệnh nhân.
Ứng dụng phân lớp dữ liệu trong lĩnh vực y tế không chỉ giúp cá nhân hóa
chăm sóc sức khỏe mà còn có thể giảm nguy cơ mắc bệnh thông qua việc đưa
ra cảnh báo và hỗ trợ quyết định chăm sóc y tế hiệu quả hơn.
Câu 3: Cho tập dữ liệu dùng để phân tích về độ tuổi được sắp xếp
tăng dần như sau: {13, 15, 16, 16, 19, 20, 20, 21, 22, 22, 25, 25, 25,
25 , 30, 33, 33, 35, 35, 35, 35, 36, 40, 45, 46, 52, 70} a.
Sử dụng phương pháp làm mịn biên với độ rộng bin là 5.
Minh họa các bước thực hiện? (1 điểm) b.
Sử dụng phương phương pháp chuẩn hóa min-max để
biến đổi giá trị tuổi về khoảng [0.0, 1.0]. (1 điểm) Trả lời :
a. Sử dụng phương pháp làm mịn biên với độ rộng bin là 5:
Để thực hiện phương pháp làm mịn biên, chúng ta sẽ chia tập dữ liệu thành các
bin với độ rộng là 5. Sau đó, đếm số lượng mẫu trong mỗi bin và làm mịn giá
trị bằng cách sử dụng trung bình cộng. Dưới đây là các bước thực hiện: Chia bin: iii lOMoAR cPSD| 45469857 Bin 1: [13, 14, 15, 16, 16] Bin 2: [19, 20, 20, 21, 22] Bin 3: [22, 25, 25, 25, 25] Bin 4: [30, 33, 33, 35, 35] Bin 5: [35, 35, 36, 40, 45] Bin 6: [46, 52, 70]
Đếm số lượng mẫu trong mỗi bin: Bin 1: 5 mẫu Bin 2: 5 mẫu Bin 3: 5 mẫu Bin 4: 5 mẫu Bin 5: 5 mẫu Bin 6: 3 mẫu
Làm mịn giá trị bằng trung bình cộng:
Bin 1: (13 + 14 + 15 + 16 + 16) / 5 = 14
Bin 2: (19 + 20 + 20 + 21 + 22) / 5 = 20.4
Bin 3: (22 + 25 + 25 + 25 + 25) / 5 = 24.4
Bin 4: (30 + 33 + 33 + 35 + 35) / 5 = 33.2
Bin 5: (35 + 35 + 36 + 40 + 45) / 5 = 38.2
Bin 6: (46 + 52 + 70) / 3 = 56 iv lOMoAR cPSD| 45469857
Kết quả sau khi làm mịn biên là: [14, 20.4, 24.4, 33.2, 38.2, 56].
b. Sử dụng phương pháp chuẩn hóa min-max:
Để chuẩn hóa giá trị tuổi về khoảng [0.0, 1.0], chúng ta sử dụng công thức:
Giá trị chuẩn hóa = (Giá trị ban đầu – Giá trị tối thiểu) / Độ phạm vi (max – min) Trong trường hợp này:
Giá trị tối thiểu (min) = 13
Giá trị tối đa (max) = 70
Độ phạm vi = max - min = 70 - 13 = 57
Kết quả sau khi chuẩn hóa là: [0.0, 0.035, 0.053, 0.105, 0.123, 0.158, 0.211,
0.298 , 0.351, 0.386, 0.404, 0.474, 0.553, 0.570, 0.684, 1.0].
Câu 4: Xây dựng cây quyết định theo thuật toán phân lớp ID3 cho bộ dữ
liệu huấn luyện sau (4 điểm):
Nghenghiep Thunhap Nhucau Thichcongnghe MuadienthoaiThongminh HS-SV Cao Coban Khong Khong HS-SV Cao Coban Co Khong Vanphong Cao Coban Khong Co Kinhdoanh Thap Coban Co Co Kinhdoanh Trungbinh Giaitri Co Co Kinhdoanh Trungbinh Giaitri Khong Khong Vanphong Trungbinh Giaitri Co Co HS-SV Thap Coban Khong Khong HS-SV Trungbinh Giaitri Khong Co Kinhdoanh Trungbinh Giaitri Co Co HS-SV Thap Giaitri Co Co Vanphong Thap Coban Co Co Vanphong Cao Giaitri Khong Co Kinhdoanh Thap Coban Khong Khong v lOMoAR cPSD| 45469857 Tudo Cao Giaitri Co Co Tudo Cao Giaitri Khong Co Tudo Thap Giaitri Co Co Trả lời :
Tập dữ liệu huấn luyện có 6 thuộc tính: • Nghề nghiệp • Thu nhập • Nhu cầu • Thích công nghệ •
Mua điện thoại thông minh Cây quyết định:
Bước 1: Tính entropy H(S) của tập ban đầu
Bước 2: Tính độ tăng thông tin IG trong tập S cho từng thuộc tính
Bước 3: Kiểm tra IG max và kết luận nút gốc là thuộc tính đó vi