Data Preprocessing| Trường Đại học Sư phạm Hà Nội

Data Preprocessing| Trường Đại học Sư phạm Hà Nội với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học vào

1753069-Hoàng Hùng Mạnh
Data Preprocessing
Tiền xử lý dữ liệu là một kỹ thuật khai thác dữ liệu được sử dụng để chuyển đổi dữ
liệu thô sang một định dạng hiệu quả với mô hình mà người dùng cần.
Data Cleaning:
Dữ liệu có thể có nhiều phần bị sai hoặc là thiếu. Để xử lí vấn đề này thì chúng ta
cần phải xử lí những dữ liệu nhiễu này
1. Missing Data
a. Bỏ luôn tuple. Ví dụ như trong 1 file excel mà có nhiều giá trị trong
cột Age có giá trị NULL thì chúng ta bỏ luôn cột Age. Cách này nên
áp dụng vào bộ dataset lớn và nhiều giá trị thiếu trong 1 tuple.
b. Điền vào các giá trị thiếu: Có rất nhiều cách để thực hiện. Ví dụ như
có thể ta điền vào giá trị trung bình của 1 tuple, đơn vị xuất hiện nhiều
lần nhất,…
2. Noisy Data
a. Binning Method
i. Phương pháp này hoạt động trên dữ liệu đã được sắp xếp để
làm mịn nó. Toàn bộ dữ liệu được chia thành các phân đoạn có
kích thước bằng nhau và sau đó thực hiện các phương pháp
khác nhau để hoàn thành nhiệm vụ. Mỗi phân đoạn được xử lý
riêng biệt. Người ta có thể thay thế tất cả dữ liệu trong một
phân đoạn bằng giá trị trung bình hoặc giá trị biên của nó có thể
được sử dụng để hoàn thành nhiệm vụ.
b. Regression
i. Ở đây, dữ liệu có thể được làm trơn tru bằng cách điều chỉnh nó
với một hàm hồi quy. Hồi quy được sử dụng có thể là tuyến tính
(có một biến độc lập) hoặc nhiều (có nhiều biến độc lập).
Data Transformation:
1. Normalization
Nó được thực hiện để chia tỷ lệ các giá trị dữ liệu trong một phạm vi được
chỉ định (-1,0 đến 1,0 hoặc 0,0 đến 1,0)
2. Attribute Selection:
các thuộc tính mới được xây dựng từ tập hợp các thuộc tính đã cho để giúp
quá trình khai thác.
3. Discretization
Điều này được thực hiện để thay thế các giá trị thô của thuộc tính số bằng
các mức khoảng hoặc mức khái niệm.
Data Reduction:
Data Cube Aggregation:
Phép toán tổng hợp được áp dụng cho dữ liệu để xây dựng khối dữ liệu.
Attribute Subset Selection:
Các thuộc tính có liên quan cao nên được sử dụng, phần còn lại tất cả có thể được
loại bỏ. Để thực hiện lựa chọn thuộc tính, người ta có thể sử dụng mức ý nghĩa và
giá trị p của thuộc tính. Thuộc tính có giá trị p lớn hơn mức ý nghĩa có thể bị loại
bỏ.
Numerosity Reduction:
Điều này cho phép lưu trữ mô hình dữ liệu thay vì toàn bộ dữ liệu, ví dụ: Mô hình
hồi quy.
Dimensionality Reduction:
Điều này làm giảm kích thước của dữ liệu bằng cơ chế mã hóa.
| 1/3

Preview text:

1753069-Hoàng Hùng Mạnh Data Preprocessing
Tiền xử lý dữ liệu là một kỹ thuật khai thác dữ liệu được sử dụng để chuyển đổi dữ
liệu thô sang một định dạng hiệu quả với mô hình mà người dùng cần. Data Cleaning:
Dữ liệu có thể có nhiều phần bị sai hoặc là thiếu. Để xử lí vấn đề này thì chúng ta
cần phải xử lí những dữ liệu nhiễu này 1. Missing Data
a. Bỏ luôn tuple. Ví dụ như trong 1 file excel mà có nhiều giá trị trong
cột Age có giá trị NULL thì chúng ta bỏ luôn cột Age. Cách này nên
áp dụng vào bộ dataset lớn và nhiều giá trị thiếu trong 1 tuple.
b. Điền vào các giá trị thiếu: Có rất nhiều cách để thực hiện. Ví dụ như
có thể ta điền vào giá trị trung bình của 1 tuple, đơn vị xuất hiện nhiều lần nhất,… 2. Noisy Data a. Binning Method
i. Phương pháp này hoạt động trên dữ liệu đã được sắp xếp để
làm mịn nó. Toàn bộ dữ liệu được chia thành các phân đoạn có
kích thước bằng nhau và sau đó thực hiện các phương pháp
khác nhau để hoàn thành nhiệm vụ. Mỗi phân đoạn được xử lý
riêng biệt. Người ta có thể thay thế tất cả dữ liệu trong một
phân đoạn bằng giá trị trung bình hoặc giá trị biên của nó có thể
được sử dụng để hoàn thành nhiệm vụ. b. Regression
i. Ở đây, dữ liệu có thể được làm trơn tru bằng cách điều chỉnh nó
với một hàm hồi quy. Hồi quy được sử dụng có thể là tuyến tính
(có một biến độc lập) hoặc nhiều (có nhiều biến độc lập). Data Transformation: 1. Normalization
Nó được thực hiện để chia tỷ lệ các giá trị dữ liệu trong một phạm vi được
chỉ định (-1,0 đến 1,0 hoặc 0,0 đến 1,0) 2. Attribute Selection:
các thuộc tính mới được xây dựng từ tập hợp các thuộc tính đã cho để giúp quá trình khai thác. 3. Discretization
Điều này được thực hiện để thay thế các giá trị thô của thuộc tính số bằng
các mức khoảng hoặc mức khái niệm. Data Reduction: Data Cube Aggregation:
Phép toán tổng hợp được áp dụng cho dữ liệu để xây dựng khối dữ liệu. Attribute Subset Selection:
Các thuộc tính có liên quan cao nên được sử dụng, phần còn lại tất cả có thể được
loại bỏ. Để thực hiện lựa chọn thuộc tính, người ta có thể sử dụng mức ý nghĩa và
giá trị p của thuộc tính. Thuộc tính có giá trị p lớn hơn mức ý nghĩa có thể bị loại bỏ. Numerosity Reduction:
Điều này cho phép lưu trữ mô hình dữ liệu thay vì toàn bộ dữ liệu, ví dụ: Mô hình hồi quy.
Dimensionality Reduction:
Điều này làm giảm kích thước của dữ liệu bằng cơ chế mã hóa.