3 trang 86 lượt tải

Data Preprocessing| Trường Đại học Sư phạm Hà Nội

172

Data Preprocessing| Trường Đại học Sư phạm Hà Nội với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học vào

Môn: Nhập môn khoa học xã hội và nhân văn 143 tài liệu

Trường: Trường Đại học Sư Phạm Hà Nội 3.3 K tài liệu

Tác giả:

VietJack

1 năm trước

Tải xuống Báo cáo

Danh sách Quiz

1753069-Hoàng Hùng Mạnh

Data Preprocessing

Tiền xử lý dữ liệu là một kỹ thuật khai thác dữ liệu được sử dụng để chuyển đổi dữ

liệu thô sang một định dạng hiệu quả với mô hình mà người dùng cần.

Data Cleaning:

Dữ liệu có thể có nhiều phần bị sai hoặc là thiếu. Để xử lí vấn đề này thì chúng ta

cần phải xử lí những dữ liệu nhiễu này

1. Missing Data

a. Bỏ luôn tuple. Ví dụ như trong 1 file excel mà có nhiều giá trị trong

cột Age có giá trị NULL thì chúng ta bỏ luôn cột Age. Cách này nên

áp dụng vào bộ dataset lớn và nhiều giá trị thiếu trong 1 tuple.

b. Điền vào các giá trị thiếu: Có rất nhiều cách để thực hiện. Ví dụ như

có thể ta điền vào giá trị trung bình của 1 tuple, đơn vị xuất hiện nhiều

lần nhất,…

2. Noisy Data

a. Binning Method

i. Phương pháp này hoạt động trên dữ liệu đã được sắp xếp để

làm mịn nó. Toàn bộ dữ liệu được chia thành các phân đoạn có

kích thước bằng nhau và sau đó thực hiện các phương pháp

khác nhau để hoàn thành nhiệm vụ. Mỗi phân đoạn được xử lý

riêng biệt. Người ta có thể thay thế tất cả dữ liệu trong một

phân đoạn bằng giá trị trung bình hoặc giá trị biên của nó có thể

được sử dụng để hoàn thành nhiệm vụ.

b. Regression

i. Ở đây, dữ liệu có thể được làm trơn tru bằng cách điều chỉnh nó

với một hàm hồi quy. Hồi quy được sử dụng có thể là tuyến tính

(có một biến độc lập) hoặc nhiều (có nhiều biến độc lập).

Data Transformation:

1. Normalization

Nó được thực hiện để chia tỷ lệ các giá trị dữ liệu trong một phạm vi được

chỉ định (-1,0 đến 1,0 hoặc 0,0 đến 1,0)

2. Attribute Selection:

các thuộc tính mới được xây dựng từ tập hợp các thuộc tính đã cho để giúp

quá trình khai thác.

3. Discretization

Điều này được thực hiện để thay thế các giá trị thô của thuộc tính số bằng

các mức khoảng hoặc mức khái niệm.

Data Reduction:

Data Cube Aggregation:

Phép toán tổng hợp được áp dụng cho dữ liệu để xây dựng khối dữ liệu.

Attribute Subset Selection:

Các thuộc tính có liên quan cao nên được sử dụng, phần còn lại tất cả có thể được

loại bỏ. Để thực hiện lựa chọn thuộc tính, người ta có thể sử dụng mức ý nghĩa và

giá trị p của thuộc tính. Thuộc tính có giá trị p lớn hơn mức ý nghĩa có thể bị loại

bỏ.

Numerosity Reduction:

Điều này cho phép lưu trữ mô hình dữ liệu thay vì toàn bộ dữ liệu, ví dụ: Mô hình

hồi quy.

Dimensionality Reduction:

Điều này làm giảm kích thước của dữ liệu bằng cơ chế mã hóa.

Bấm Tải xuống để xem toàn bộ.

Preview text:

1753069-Hoàng Hùng Mạnh Data Preprocessing
Tiền xử lý dữ liệu là một kỹ thuật khai thác dữ liệu được sử dụng để chuyển đổi dữ
liệu thô sang một định dạng hiệu quả với mô hình mà người dùng cần. Data Cleaning:
Dữ liệu có thể có nhiều phần bị sai hoặc là thiếu. Để xử lí vấn đề này thì chúng ta
cần phải xử lí những dữ liệu nhiễu này 1. Missing Data
a. Bỏ luôn tuple. Ví dụ như trong 1 file excel mà có nhiều giá trị trong
cột Age có giá trị NULL thì chúng ta bỏ luôn cột Age. Cách này nên
áp dụng vào bộ dataset lớn và nhiều giá trị thiếu trong 1 tuple.
b. Điền vào các giá trị thiếu: Có rất nhiều cách để thực hiện. Ví dụ như
có thể ta điền vào giá trị trung bình của 1 tuple, đơn vị xuất hiện nhiều lần nhất,… 2. Noisy Data a. Binning Method
i. Phương pháp này hoạt động trên dữ liệu đã được sắp xếp để
làm mịn nó. Toàn bộ dữ liệu được chia thành các phân đoạn có
kích thước bằng nhau và sau đó thực hiện các phương pháp
khác nhau để hoàn thành nhiệm vụ. Mỗi phân đoạn được xử lý
riêng biệt. Người ta có thể thay thế tất cả dữ liệu trong một
phân đoạn bằng giá trị trung bình hoặc giá trị biên của nó có thể
được sử dụng để hoàn thành nhiệm vụ. b. Regression
i. Ở đây, dữ liệu có thể được làm trơn tru bằng cách điều chỉnh nó
với một hàm hồi quy. Hồi quy được sử dụng có thể là tuyến tính
(có một biến độc lập) hoặc nhiều (có nhiều biến độc lập). Data Transformation: 1. Normalization
Nó được thực hiện để chia tỷ lệ các giá trị dữ liệu trong một phạm vi được
chỉ định (-1,0 đến 1,0 hoặc 0,0 đến 1,0) 2. Attribute Selection:
các thuộc tính mới được xây dựng từ tập hợp các thuộc tính đã cho để giúp quá trình khai thác. 3. Discretization
Điều này được thực hiện để thay thế các giá trị thô của thuộc tính số bằng
các mức khoảng hoặc mức khái niệm. Data Reduction: Data Cube Aggregation:
Phép toán tổng hợp được áp dụng cho dữ liệu để xây dựng khối dữ liệu. Attribute Subset Selection:
Các thuộc tính có liên quan cao nên được sử dụng, phần còn lại tất cả có thể được
loại bỏ. Để thực hiện lựa chọn thuộc tính, người ta có thể sử dụng mức ý nghĩa và
giá trị p của thuộc tính. Thuộc tính có giá trị p lớn hơn mức ý nghĩa có thể bị loại bỏ. Numerosity Reduction:
Điều này cho phép lưu trữ mô hình dữ liệu thay vì toàn bộ dữ liệu, ví dụ: Mô hình hồi quy.
Dimensionality Reduction:
Điều này làm giảm kích thước của dữ liệu bằng cơ chế mã hóa.