10 trang 46 lượt tải

IS252 - Phân Tích Dữ Liệu và Khai Phá Dữ Liệu: Tương Lai Dựa Trên Dữ Liệu. Môn Khai phá dữ liệu và kho dữ liệu | Đại học Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh.

Tài liệu gồm 10 trang giúp bạn tham khảo, củng cố kiến thức và ôn tập đạt kết quả cao trong kỳ thi sắp tới. Mời bạn đọc đón xem!

Môn: Khai phá dữ liệu và kho dữ liệu 16 tài liệu

Trường: Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh 666 tài liệu

Tác giả:

VietJack

5 tháng trước

Tải xuống Báo cáo

Danh sách Quiz

lOMoARcPSD| 59285474

Chức năng

Định nghĩa

Đầu vào

Đầu ra

Thuật toán

thường sử dụng

Ứng dụng

Ví dụ minh họa

Generalizaon – Khái

quát dữ liệu

Giảm độ chi ết để đưa

ra các quan sát tổng

quát hoặc mô hình.

Dữ liệu chi ết

cao.

Bảng tóm

tắt, biểu đồ tổng

quan, luật khái

quát.

Decision

Trees,

Summarizao n.

Tóm tắt hành vi

khách hàng.

Nhóm sản phẩm

phổ biến theo

mùa.

Associaon and

Correlaon Analysis –

Phân ch tương quan và

luật kết hợp

Tìm mối quan hệ giữa

các mục trong dữ liệu.

Dữ liệu giao

dịch, dữ liệu có

nhiều thuộc

nh.

Các luật kết hợp

(e.g., A → B).

Apriori, FPGrowth.

Khuyến nghị sản

phẩm.

Nếu mua bánh

mì, có 60% khả

năng mua sữa.

lOMoARcPSD| 59285474

Classicaon and

Predicon – Phân lớp và

Dự báo

Phân lớp: Gán nhãn cho

dữ liệu. Dự báo: Ước

lượng giá trị

Dữ liệu có nhãn

hoặc không

nhãn.

Mô hình phân

lớp hoặc giá trị

dự báo.

Naïve Bayes,

Random

Forest.

Phân loại khách

hàng, dự báo

doanh thu.

Phân loại email

thành "Spam"

hoặc

"Không

tương lai dựa trên dữ

liệu lịch sử.

Spam".

Cluster Analysis –

Gom cụm

Nhóm các đối tượng

tương đồng vào cùng

một cụm.

Dữ liệu chưa

phân cụm.

Các cụm đối

tượng tương

đồng.

K-Means, DBSCAN.

Phân khúc khách

hàng.

Gom cụm khách

hàng dựa trên độ

tuổi và hành vi

mua hàng.

Outlier Analysis –

Phân ch mẫu

cá biệt, bất thường

Phát hiện các điểm dữ

liệu bất thường so với

phần còn lại.

Bộ dữ liệu tổng

quát.

Các mẫu bất

thường.

Isolaon

Forest, LOF.

Phát hiện gian

lận tài chính.

Phát hiện giao

dịch bất thường

trong ngân hàng.

Trend and

Evoluon Analysis –

Phân ch xu thế phát

triển

Xác định các xu

hướng, mẫu thay đổi

theo thời gian.

Dữ liệu thời gian

(chuỗi thời

gian).

Xu hướng hoặc

mẫu thay đổi.

ARIMA, Time-

Series

Analysis.

Dự đoán thị

trường chứng

khoán.

Phân ch tăng

trưởng doanh số

theo quý.

Structure and

Network

Analysis – Phân

ch cấu trúc và

mạng

Phân ch mối quan hệ

và cấu trúc trong dữ

liệu mạng.

Dữ liệu mạng,

đồ thị.

Mô hình cấu

trúc mạng, mối

quan hệ.

PageRank,

Graph Neural

Networks.

Phân ch mạng xã

hội, tối ưu hệ

thống giao thông.

Xác định nút có

ảnh hưởng nhất

trong mạng xã

hội.

Bước Mục tiêu

Hoạt động

1. Làm sạch dữ liệu

Xử lý dữ liệu thô để loại bỏ lỗi, thiếu sót và bất

thường.

- Loại bỏ giá trị thiếu hoặc thay thế bằng giá

trị hợp lý.

- Sửa lỗi như dữ liệu trùng lặp hoặc sai lệch.

2. Tích hợp dữ liệu

Kết hợp dữ liệu từ nhiều nguồn vào một dạng thống

nhất.

- Tích hợp cơ sở dữ liệu, file log, dữ liệu cảm biến. -

Giải quyết xung đột định dạng hoặc đơn vị.

3. Lựa chọn dữ liệu

Chọn các tập dữ liệu liên quan để phân tích.

- Xác định các đặc trưng phù hợp.

- Loại bỏ các trường dữ liệu không cần thiết.

4. Biến đổi dữ liệu

Chuyển đổi dữ liệu sang định dạng phù hợp cho khai

phá.

- Chuẩn hóa dữ liệu để đồng nhất thang đo. -

Rút gọn hoặc mã hóa để giảm kích thước.

5. Khai phá dữ liệu

Áp dụng thuật toán tìm mẫu hoặc quy luật.

- Sử dụng kỹ thuật phân lớp, phân cụm, hồi quy. -

Khai thác dữ liệu theo mục tiêu.

6. Đánh giá mẫu

Xác định và chọn mẫu tri thức có giá trị, ý nghĩa.

- Dùng tiêu chí như độ chính xác, độ tin cậy. -

Loại bỏ mẫu không hữu ích.

7. Trình bày tri thức

Hiển thị tri thức dưới dạng dễ hiểu cho người dùng.

- Trình bày bằng biểu đồ, bảng biểu, báo cáo.

- Triển khai tri thức vào hệ thống ra quyết định.

Bảng Phân Biệt Các Loại Thuộc Tính và Ví Dụ

Loại Thuộc

Tính

Định Nghĩa

Đặc Điểm

Ví Dụ

Nominal

Thuộc nh không có thứ tự, chỉ thể

hiện các giá trị định danh hoặc phân

loại.

- Các giá trị là tên hoặc nhãn. - Không thực

hiện được các phép toán (>, <, +, -).

- Giới nh: Nam,

Nữ

- Loại xe: Ô tô, Xe

máy

- Màu sắc: Đỏ,

Xanh,

Vàng

Binary

Thuộc nh chỉ có hai giá trị (0 hoặc

1, đúng hoặc sai).

- Hai giá trị có thể là đối xứng (có tầm quan

trọng ngang nhau) hoặc bất đối xứng (một giá

trị quan trọng hơn).

- Giới nh: Nam

(0),

Nữ (1)

- Tình trạng thanh

toán: Đã thanh toán

(1), Chưa thanh toán

(0)

lOMoARcPSD| 59285474

Ordinal

Thuộc nh có thứ tự, - Chỉ xác định được thứ tự (>, <). nhưng khoảng cách

giữa - Không thể nh toán khoảng các giá trị không xác định. cách hoặc tỷ lệ

giữa các giá trị.

- Xếp hạng: Cao,

Trung bình, Thấp - Đánh

giá: 1 sao, 2

sao, 3 sao, 4 sao, 5

sao

Numeric:

Interval

Giá trị là số lượng với - Có thể cộng hoặc trừ giá trị. khoảng cách có ý nghĩa,

- Không nh được tỷ lệ (như gấp nhưng không có gốc (0) đôi, một nửa).

- Nhiệt độ (°C):

20°C, 30°C

- Năm sinh: 1990,

Kiến trúc cơ bản

• Tầng đầu vào (Input Layer):

o Nhận dữ liệu đầu vào từ các nguồn khác

nhau (dạng vector số).

o Số lượng neuron trong tầng này tương

ứng với số đặc trưng (features) của dữ

liệu.

• Tầng ẩn (Hidden Layers): o Gồm một hoặc nhiều

tầng neuron nằm giữa đầu vào và đầu ra.

o Mỗi neuron nh toán một giá trị dựa trên

hàm kích hoạt (acvaon funcon).

o Số lượng tầng và số neuron trong mỗi

tầng quyết định khả năng học và độ phức

tạp của mạng.

• Tầng đầu ra (Output Layer):

o Cung cấp kết quả cuối cùng của mạng

(phân loại, dự đoán, hoặc các đầu ra

khác).

o Số lượng neuron phụ thuộc vào bài toán,

ví dụ: một neuron cho bài toán hồi quy,

nhiều neuron cho phân loại đa lớp.

Hàm kích hoạt (Acvaon

Funcon): o Các hàm như ReLU,

sigmoid, hoặc somax giúp mạng học các

mẫu phi tuyến.

- Ưu điểm

• Hỗ trợ nh toán song song rất cao

• Đạt độ chính xác cao trong nhiều bài toán

(ảnh, video, âm thanh,văn bản, thư viết tay, …)

• Kiến trúc mạng rất linh hoạt

• Khả năng thích ứng tốt với dữ liệu nhiễu

- Nhược điểm

• Thời gian huấn luyện dài

• Không có quy tắc chung để xác định cấu trúc mạng và

các thamsố tối ưu cho một vấn đề nhất định. Thường

dựa trên kinh nghiệm • Khả năng diễn giải kém: Khó diễn

giải ý nghĩa tượng trưng đằng sau các trọng số đã học và

các “node ẩn” trong mạng

- Feed-forward network (mạng lan truyền tiến):

nếu không có bất kỳoutput nào của 1 neuron là

input của 1 neuron khác trong cùng layerhoặc

layer trước đó

- Feedback network (mạng phản hồi): output của 1

neuron là inputcủa neuron cùng layer hoặc layer

trước đó.

Nếu feeback kết nối với input của các neuron của

cùng một layer,được gọi là lateral feedback (mạng

phản hồi bên).

- Recurrent network (mạng truy hồi): feedback

network với các vòngkhép kín

K-fold Cross-Validation - Chia dữ liệu thành

k phần bằng nhau.

- Sử dụng k-1 phần để huấn luyện, 1 phần để kiểm

tra.

- Lặp lại k lần và tính trung bình các chỉ số. - Sử

dụng toàn bộ dữ liệu cho huấn luyện và kiểm tra.

- Giảm rủi ro do dữ liệu bị thiên lệch. - Có thể

mất nhiều thời gian với dữ liệu lớn. - Dữ liệu

1000 mẫu, chia thành k=5 (200 mẫu/phần). - Lần

1: Huấn luyện trên phần 2-5, kiểm tra phần 1.

- Kết quả cuối cùng là trung bình của 5 lần kiểm

tra.

Các yếu tố đánh giá:

- Tính chính xác (Accuracy):

• Có các giá trị không chính xác• Có thể là lỗi của

con người hoặc máy tính - Tính đầy đủ, toàn vẹn

(Completeness):

• Dữ liệu không đầy đủ có thể xảy ra

• VD: thông tin khách hàng cho dữ liệu bán hàng

&giao dịch có thể không phải lúc nào cũng có sẵn.

Các yếu tố đánh giá:

- Tính nhất quán (Consistency):

• Có thể do quy ước đặt tên, đặt mã, định dạng

không nhất quán

• Các bộ dữ liệu trùng lặp.

- Tính kịp thời (Currency/ Timeliness): Dữ liệu

được cập nhật đầy đủ và kịp thời? - Độ tin cậy

(Believability): Mức độ người dùng tin tưởng vào

dữ liệu

- Khả năng diễn giải (Interpretability): Mức độ dễ

hiểu của người dùng đối với dữliệu.

- Làm sạch dữ liệu (Data cleaning)

• Điền vào các giá trị còn thiếu

tuyệt đối.

2000, 2010

Numeric: Rao

Giá trị là số lượng với gốc (0) tuyệt

đối, cho phép nh tỷ lệ.

- Thực hiện được tất cả các phép toán (+, -, *,

/).

- Thu nhập: 5 triệu,

10 triệu

- Cân nặng: 50kg,

100kg

lOMoARcPSD| 59285474

• Khử dữ liệu nhiễu

• Xác định hoặc loại bỏ các giá trị ngoại lệ, sailệch

• Giải quyết các dữ liệu không nhất quán,

mâuthuẫn

- Tích hợp dữ liệu (Data integration):

• Tổng hợp, tích hợp dữ liệu từ nhiều CSDL,

khốidữ liệu hoặc tập tin - Rút gọn dữ liệu

(Data reduction)

• Giảm chiều dữ liệu (Dimensionality reduction)

• Giảm số lượng (Numerosity reduction)• Nén

dữ liệu (Data compression) - Biến đổi và rời

rạc hóa dữ liệu (Data transformation,

datadiscretization): • Chuẩn hóa dữ liệu

(Normalization)

• Hệ thống khái niệm phân cấp (Concept

hierarchy generation)

Data mining

- Quá trình trích xuất tri thức (extracting or

miningknowledge) từlượng lớn dữ liệu [1]. - Quá

trình không dễ (non-trivial) để trích xuất thông

tin ẩn (implicit),chưa được biết trước (previously

unknown) và hữu ích (potentiallyuseful)

từ dữ liệu (2)

- Khai thác dữ liệu ~ Khám phá tri thức

3. Các nhóm tri thức từ Quá trình KTDL -

Description of data classes / concepts: các mô hình

môtả các lớp/ khái niệm(Đặc trưng hóa/ phân biên

hóa)

- Prediction and Classification: mô hình dự

đoán hoặc phân lớp các đối tượng

- Frequent patterns, association patterns: các

mẫu phổbiến, khả năng kết hợpcác phần tử trong

các đối tượng.

- Clustering, outliers/ abnormality analysis:

gom nhómcác đối tượng tương đồng,tìm các điểm

ngoại biên, các điểm bất thường.

- Analysis of trends from data: mô hình thể

hiện các xu hướng, khả năng thay đổicủa các đối

tượng theo thời gian

3.2. Thuộc tính rời rạc và Thuộc tính liên tục

- Thuộc tính rời rạc (Discrete Attribute) •

Chỉ có một tập giá trị hữu hạn hoặc vô hạn đếm

được

• VD: zip code, nghề nghiệp, tập hợp các

từ trong bộ sưu tập tài liệu

• Được biểu diễn dưới dạng số nguyên, số

thực• Thuộc tính binary là trường hợp đặc biệt

của thuộc tính rời rạc

- Thuộc tính liên tục (Continuous Attribute)

• Giá trị thuộc tính: số thực

• VD: nhiệt độ, chiều cao hoặc cân nặng• Trên

thực tế, các giá trị thực chỉ có thể được đo lường

và biểu diễn bằng số lượng chữ sốhữu hạn •

Thường được biểu diễn dưới dạng các biến dấu

phẩy động

1. Các dạng bộ dữ liệu (Type of Data sets)

- Record

• Relational records

• Data matrix: numerical matrix,crosstabs•

Document data: text documents termfrequency

vector • Transaction data

- Graph and network

• World Wide Web

• Social or information networks•

Molecular Structures

a) Record

b) Data matrix

c) Transaction data

d) Document-term matrix6- Ordered

• Video data: sequence of images

• Temporal data: time-series

• Sequential Data: transaction sequences• Genetic

sequence data - Spatial, image and multimedia:

• Spatial data: maps

• Image data

• Video data

3.2. Thuộc tính rời rạc và Thuộc tính liên tục

- Thuộc tính rời rạc (Discrete Attribute) • Chỉ có

một tập giá trị hữu hạn hoặc vô hạn đếm được

• VD: zip code, nghề nghiệp, tập hợp các

từ trong bộ sưu tập tài liệu

• Được biểu diễn dưới dạng số nguyên, số

thực• Thuộc tính binary là trường hợp đặc biệt

của thuộc tính rời rạc

- Thuộc tính liên tục (Continuous Attribute)

• Giá trị thuộc tính: số thực

• VD: nhiệt độ, chiều cao hoặc cân nặng• Trên

thực tế, các giá trị thực chỉ có thể được đo lường

và biểu diễn bằng số lượng chữ sốhữu hạn •

Thường được biểu diễn dưới dạng các biến dấu

phẩy động

Nguyên tắc lấy mẫu (Sampling): - WHAT: Lấy

tập mẫu phổ biến, đại diện cho lĩnh vực cần học,

khai thác.

- WHY: Không thể học, khai thác toàn bộ. Giới

hạnvề thời gian và khả năng tính toán. - HOW:

Thu thập các mẫu từ thực tế, hoặc từ các nguồn

chứa dữ liệu (web, database,…) 4. Thu thập dữ

liệu Lấy mẫu như thế nào?

- Variety: Tập thu được đủ đa dạng để phủ hết các

ngữ cảnh, đặc trưng của lĩnh vực. - Bias: Dữ liệu

cần tổng quát, cân bằng, không bị sai lệnh, thiên

vị về 1 bộ phận nhỏnào đó của lĩnh vực.

Các kỹ thuật thu thập dữ liệu:

- Crow-sourcing: Survey – các khảo sát.- Logging:

Lưu lại lịch sử tương tác, truy cập của người

dùng, …

- Scrapping: Lưu lại dữ liệu từ các website

lOMoARcPSD| 59285474

2. Phương pháp ước tính độ chính xác

- Phương pháp Holdout:

• Phân chia ngẫu nhiên dữ liệu:

§ Tập train (2/3) để xây dựng mô hình

§ Tập test (1/3) để ước tính độ chính xác

• Thích hợp cho tập dữ liệu nhỏ

• Lấy mẫu sao cho mỗi lớp được phân bổ đều trong

train và test

• Lấy mẫu ngẫu nhiên: Lặp lại holdout k lần, độ

chính xác = trung bình của độ chính xác thu

được. - Phương pháp Cross-validation (k-fold):

• Phân chia ngẫu nhiên dữ liệu thành k tập con loại

trừ lẫn nhau, mỗi tập có kích thước xấp xỉ bằng

nhau

• Tại mỗi vòng lặp, sử dụng một tập con làm tập

test và các tập còn lại làm tập train

• Thường chọn k =10

• Leave-one-out: k lần trong đó k = số mẫu (đối với

dữ liệu nhỏ)

• Stratified cross-validation: dùng phương pháp

lấymẫu để phân bố

các lớp trong từng tập con giống như trên toàn bộ

dữ liệu - Phương pháp Bootstrap:

• Hoạt động tốt với các bộ dữ liệu nhỏ• Khi một bộ

dữ liệu được chọn, nó có khả năng được chọn lại

và thêm lại vào tập huấn luyện. - Ngoài ra, còn

nhiều phương pháp khác như:

• Comparing classifiers

• Confidence intervals

• Cost-benefit analysis and ROC Curves

Các vấn đề ảnh hưởng đến việc lựa chön mô hình -

Accuracy: Độ chính xác của bộ phân lớp, dự đoán

nhãn lớp - Tốc độ (Speed):

• Thời gian xây dựng mô hình (thời gian huấn

luyện)

• Thời gian sử dụng mô hình (thời gian phân

lớp/dựđoán)

- Mạnh mẽ (Robustness): xử lý dữ liệu noise và các

giá trị bị thiếu

- Khả năng mở rộng (Scalability): hiệu quả với

CSDL lớn

- khả năng diễn giải (Interpretability): sự hiểu biết

và diễn giải mô hình

- Các vấn đề khác: mức độ tốt của các luật, chẳng

hạn như kích thướccây quyết định hoặc độ chặt

chẽ của các luật phân lớp

Bấm Tải xuống để xem toàn bộ.

Preview text:

lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 Chức năng Định nghĩa Đầu vào Đầu ra Thuật toán Ứng dụng Ví dụ minh họa thường sử dụng
Generalization – Khái
Giảm độ chi tiết để đưa Dữ liệu chi tiết Bảng tóm Decision Tóm tắt hành vi Nhóm sản phẩm quát dữ liệu ra các quan sát tổng cao.
tắt, biểu đồ tổng Trees, khách hàng. phổ biến theo
quát hoặc mô hình. quan, luật khái Summarizatio n. mùa. quát. Association and
Tìm mối quan hệ giữa Dữ liệu giao
Các luật kết hợp Apriori, FPGrowth. Khuyến nghị sản Nếu mua bánh
Correlation Analysis –
các mục trong dữ liệu. dịch, dữ liệu có (e.g., A → B). phẩm. mì, có 60% khả
Phân tích tương quan và nhiều thuộc năng mua sữa. luật kết hợp tính. lOMoAR cPSD| 59285474 Classification and
Phân lớp: Gán nhãn cho Dữ liệu có nhãn Mô hình phân Naïve Bayes,
Phân loại khách Phân loại email
Prediction – Phân lớp và dữ liệu. Dự báo: Ước hoặc không lớp hoặc giá trị Random hàng, dự báo thành "Spam" Dự báo lượng giá trị nhãn. dự báo. Forest. doanh thu. hoặc "Không
tương lai dựa trên dữ Spam". liệu lịch sử. Cluster Analysis – Nhóm các đối tượng Dữ liệu chưa Các cụm đối
K-Means, DBSCAN. Phân khúc khách Gom cụm khách Gom cụm
tương đồng vào cùng phân cụm. tượng tương hàng. hàng dựa trên độ một cụm. đồng. tuổi và hành vi mua hàng. Outlier Analysis –
Phát hiện các điểm dữ Bộ dữ liệu tổng Các mẫu bất Isolation Phát hiện gian Phát hiện giao Phân tích mẫu
liệu bất thường so với quát. thường. Forest, LOF. lận tài chính. dịch bất thường
cá biệt, bất thường phần còn lại. trong ngân hàng. Trend and Xác định các xu
Dữ liệu thời gian Xu hướng hoặc ARIMA, Time- Dự đoán thị Phân tích tăng Evolution Analysis – hướng, mẫu thay đổi (chuỗi thời mẫu thay đổi. Series trường chứng trưởng doanh số
Phân tích xu thế phát theo thời gian. gian). Analysis. khoán. theo quý. triển Structure and
Phân tích mối quan hệ Dữ liệu mạng, Mô hình cấu PageRank,
Phân tích mạng xã Xác định nút có Network và cấu trúc trong dữ đồ thị.
trúc mạng, mối Graph Neural hội, tối ưu hệ ảnh hưởng nhất Analysis – Phân liệu mạng. quan hệ. Networks.
thống giao thông. trong mạng xã tích cấu trúc và hội. mạng Bước Mục tiêu Hoạt động -
Loại bỏ giá trị thiếu hoặc thay thế bằng giá
1. Làm sạch dữ liệu Xử lý dữ liệu thô để loại bỏ lỗi, thiếu sót và bất trị hợp lý. thường. -
Sửa lỗi như dữ liệu trùng lặp hoặc sai lệch.
- Tích hợp cơ sở dữ liệu, file log, dữ liệu cảm biến. -
2. Tích hợp dữ liệu Kết hợp dữ liệu từ nhiều nguồn vào một dạng thống nhất.
Giải quyết xung đột định dạng hoặc đơn vị.
3. Lựa chọn dữ liệu Chọn các tập dữ liệu liên quan để phân tích.
- Xác định các đặc trưng phù hợp.
- Loại bỏ các trường dữ liệu không cần thiết.
- Chuẩn hóa dữ liệu để đồng nhất thang đo. -
4. Biến đổi dữ liệu Chuyển đổi dữ liệu sang định dạng phù hợp cho khai phá.
Rút gọn hoặc mã hóa để giảm kích thước.
5. Khai phá dữ liệu Áp dụng thuật toán tìm mẫu hoặc quy luật.
- Sử dụng kỹ thuật phân lớp, phân cụm, hồi quy. -
Khai thác dữ liệu theo mục tiêu. 6. Đánh giá mẫu
Xác định và chọn mẫu tri thức có giá trị, ý nghĩa.
- Dùng tiêu chí như độ chính xác, độ tin cậy. -
Loại bỏ mẫu không hữu ích.
7. Trình bày tri thức Hiển thị tri thức dưới dạng dễ hiểu cho người dùng.
- Trình bày bằng biểu đồ, bảng biểu, báo cáo.
- Triển khai tri thức vào hệ thống ra quyết định.
Bảng Phân Biệt Các Loại Thuộc Tính và Ví Dụ Loại Thuộc Định Nghĩa Đặc Điểm Ví Dụ Tính Nominal
Thuộc tính không có thứ tự, chỉ thể - Các giá trị là tên hoặc nhãn. - Không thực - Giới tính: Nam,
hiện các giá trị định danh hoặc phân hiện được các phép toán (>, <, +, -). Nữ loại. - Loại xe: Ô tô, Xe máy - Màu sắc: Đỏ, Xanh, Vàng Binary
Thuộc tính chỉ có hai giá trị (0 hoặc
- Hai giá trị có thể là đối xứng (có tầm quan - Giới tính: Nam 1, đúng hoặc sai).
trọng ngang nhau) hoặc bất đối xứng (một giá (0), trị quan trọng hơn). Nữ (1) - Tình trạng thanh toán: Đã thanh toán (1), Chưa thanh toán (0) lOMoAR cPSD| 59285474 Ordinal
Thuộc tính có thứ tự,
- Chỉ xác định được thứ tự (>, <). nhưng khoảng cách - Xếp hạng: Cao, giữa
- Không thể tính toán khoảng các giá trị không xác định. cách hoặc tỷ lệ
Trung bình, Thấp - Đánh
giữa các giá trị. giá: 1 sao, 2 sao, 3 sao, 4 sao, 5 sao Numeric:
Giá trị là số lượng với
- Có thể cộng hoặc trừ giá trị. khoảng cách có ý nghĩa, - Nhiệt độ (°C): Interval
- Không tính được tỷ lệ (như gấp nhưng không có gốc (0) đôi, một nửa). 20°C, 30°C - Năm sinh: 1990, tuyệt đối. 2000, 2010
Numeric: Ratio Giá trị là số lượng với gốc (0) tuyệt - Thực hiện được tất cả các phép toán (+, -, *, - Thu nhập: 5 triệu,
đối, cho phép tính tỷ lệ. /). 10 triệu - Cân nặng: 50kg, 100kg Kiến trúc cơ bản
- Feedback network (mạng phản hồi): output của 1 •
Tầng đầu vào (Input Layer):
neuron là inputcủa neuron cùng layer hoặc layer
o Nhận dữ liệu đầu vào từ các nguồn khác trước đó.
nhau (dạng vector số).
Nếu feeback kết nối với input của các neuron của
o Số lượng neuron trong tầng này tương
cùng một layer,được gọi là lateral feedback (mạng
ứng với số đặc trưng (features) của dữ phản hồi bên). liệu.
- Recurrent network (mạng truy hồi): feedback •
Tầng ẩn (Hidden Layers): o Gồm một hoặc nhiều
network với các vòngkhép kín
tầng neuron nằm giữa đầu vào và đầu ra.
o Mỗi neuron tính toán một giá trị dựa trên
K-fold Cross-Validation
- Chia dữ liệu thành
hàm kích hoạt (activation function). k phần bằng nhau.
o Số lượng tầng và số neuron trong mỗi
- Sử dụng k-1 phần để huấn luyện, 1 phần để kiểm
tầng quyết định khả năng học và độ phức tra. tạp của mạng.
- Lặp lại k lần và tính trung bình các chỉ số. - Sử •
Tầng đầu ra (Output Layer):
dụng toàn bộ dữ liệu cho huấn luyện và kiểm tra.
o Cung cấp kết quả cuối cùng của mạng
- Giảm rủi ro do dữ liệu bị thiên lệch. - Có thể
(phân loại, dự đoán, hoặc các đầu ra
mất nhiều thời gian với dữ liệu lớn. - Dữ liệu khác).
1000 mẫu, chia thành k=5 (200 mẫu/phần). - Lần
o Số lượng neuron phụ thuộc vào bài toán,
1: Huấn luyện trên phần 2-5, kiểm tra phần 1.
ví dụ: một neuron cho bài toán hồi quy,
- Kết quả cuối cùng là trung bình của 5 lần kiểm
nhiều neuron cho phân loại đa lớp. tra.
Hàm kích hoạt (Activation
Function): o Các hàm như ReLU,
Các yếu tố đánh giá:
sigmoid, hoặc softmax giúp mạng học các
- Tính chính xác (Accuracy): mẫu phi tuyến. - Ưu điểm
• Có các giá trị không chính xác• Có thể là lỗi của
• Hỗ trợ tính toán song song rất cao
con người hoặc máy tính - Tính đầy đủ, toàn vẹn
• Đạt độ chính xác cao trong nhiều bài toán (Completeness):
(ảnh, video, âm thanh,văn bản, thư viết tay, …)
• Dữ liệu không đầy đủ có thể xảy ra
• Kiến trúc mạng rất linh hoạt
• VD: thông tin khách hàng cho dữ liệu bán hàng
• Khả năng thích ứng tốt với dữ liệu nhiễu
&giao dịch có thể không phải lúc nào cũng có sẵn. - Nhược điểm
Các yếu tố đánh giá:
• Thời gian huấn luyện dài
- Tính nhất quán (Consistency):
• Không có quy tắc chung để xác định cấu trúc mạng và
• Có thể do quy ước đặt tên, đặt mã, định dạng
các thamsố tối ưu cho một vấn đề nhất định. Thường không nhất quán
dựa trên kinh nghiệm • Khả năng diễn giải kém: Khó diễn
• Các bộ dữ liệu trùng lặp.
giải ý nghĩa tượng trưng đằng sau các trọng số đã học và
- Tính kịp thời (Currency/ Timeliness): Dữ liệu
các “node ẩn” trong mạng
được cập nhật đầy đủ và kịp thời? - Độ tin cậy
(Believability): Mức độ người dùng tin tưởng vào
- Feed-forward network (mạng lan truyền tiến): dữ liệu
nếu không có bất kỳoutput nào của 1 neuron là
- Khả năng diễn giải (Interpretability): Mức độ dễ
input của 1 neuron khác trong cùng layerhoặc
hiểu của người dùng đối với dữliệu. layer trước đó
- Làm sạch dữ liệu (Data cleaning)
• Điền vào các giá trị còn thiếu lOMoAR cPSD| 59285474
• Khử dữ liệu nhiễu
1. Các dạng bộ dữ liệu (Type of Data sets)
• Xác định hoặc loại bỏ các giá trị ngoại lệ, sailệch - Record
• Giải quyết các dữ liệu không nhất quán, • Relational records mâuthuẫn
• Data matrix: numerical matrix,crosstabs•
- Tích hợp dữ liệu (Data integration):
Document data: text documents termfrequency
• Tổng hợp, tích hợp dữ liệu từ nhiều CSDL,
vector • Transaction data
khốidữ liệu hoặc tập tin - Rút gọn dữ liệu - Graph and network (Data reduction) • World Wide Web
• Giảm chiều dữ liệu (Dimensionality reduction)
• Social or information networks•
• Giảm số lượng (Numerosity reduction)• Nén Molecular Structures
dữ liệu (Data compression) - Biến đổi và rời a) Record
rạc hóa dữ liệu (Data transformation, b) Data matrix
datadiscretization): • Chuẩn hóa dữ liệu c) Transaction data (Normalization)
d) Document-term matrix6- Ordered
• Hệ thống khái niệm phân cấp (Concept
• Video data: sequence of images hierarchy generation)
• Temporal data: time-series Data mining
• Sequential Data: transaction sequences• Genetic
- Quá trình trích xuất tri thức (extracting or
sequence data - Spatial, image and multimedia:
miningknowledge) từlượng lớn dữ liệu [1]. - Quá • Spatial data: maps
trình không dễ (non-trivial) để trích xuất thông • Image data
tin ẩn (implicit),chưa được biết trước (previously • Video data
unknown) và hữu ích (potentiallyuseful) từ dữ liệu (2)
3.2. Thuộc tính rời rạc và Thuộc tính liên tục
- Khai thác dữ liệu ~ Khám phá tri thức
- Thuộc tính rời rạc (Discrete Attribute) • Chỉ có
một tập giá trị hữu hạn hoặc vô hạn đếm được
3. Các nhóm tri thức từ Quá trình KTDL - •
VD: zip code, nghề nghiệp, tập hợp các
Description of data classes / concepts: các mô hình
từ trong bộ sưu tập tài liệu
môtả các lớp/ khái niệm(Đặc trưng hóa/ phân biên •
Được biểu diễn dưới dạng số nguyên, số hóa)
thực• Thuộc tính binary là trường hợp đặc biệt -
Prediction and Classification: mô hình dự
của thuộc tính rời rạc
đoán hoặc phân lớp các đối tượng
- Thuộc tính liên tục (Continuous Attribute) -
Frequent patterns, association patterns: các
• Giá trị thuộc tính: số thực
mẫu phổbiến, khả năng kết hợpcác phần tử trong
• VD: nhiệt độ, chiều cao hoặc cân nặng• Trên các đối tượng.
thực tế, các giá trị thực chỉ có thể được đo lường -
Clustering, outliers/ abnormality analysis:
và biểu diễn bằng số lượng chữ sốhữu hạn •
gom nhómcác đối tượng tương đồng,tìm các điểm
Thường được biểu diễn dưới dạng các biến dấu
ngoại biên, các điểm bất thường. phẩy động -
Analysis of trends from data: mô hình thể
hiện các xu hướng, khả năng thay đổicủa các đối
Nguyên tắc lấy mẫu (Sampling): - WHAT: Lấy
tượng theo thời gian
tập mẫu phổ biến, đại diện cho lĩnh vực cần học,
3.2. Thuộc tính rời rạc và Thuộc tính liên tục khai thác. -
Thuộc tính rời rạc (Discrete Attribute) •
- WHY: Không thể học, khai thác toàn bộ. Giới
Chỉ có một tập giá trị hữu hạn hoặc vô hạn đếm
hạnvề thời gian và khả năng tính toán. - HOW: được
Thu thập các mẫu từ thực tế, hoặc từ các nguồn •
VD: zip code, nghề nghiệp, tập hợp các
chứa dữ liệu (web, database,…) 4. Thu thập dữ
từ trong bộ sưu tập tài liệu
liệu Lấy mẫu như thế nào? •
Được biểu diễn dưới dạng số nguyên, số
- Variety: Tập thu được đủ đa dạng để phủ hết các
thực• Thuộc tính binary là trường hợp đặc biệt
ngữ cảnh, đặc trưng của lĩnh vực. - Bias: Dữ liệu
của thuộc tính rời rạc
cần tổng quát, cân bằng, không bị sai lệnh, thiên
- Thuộc tính liên tục (Continuous Attribute)
vị về 1 bộ phận nhỏnào đó của lĩnh vực.
• Giá trị thuộc tính: số thực
• VD: nhiệt độ, chiều cao hoặc cân nặng• Trên
Các kỹ thuật thu thập dữ liệu:
thực tế, các giá trị thực chỉ có thể được đo lường
- Crow-sourcing: Survey – các khảo sát.- Logging:
và biểu diễn bằng số lượng chữ sốhữu hạn •
Lưu lại lịch sử tương tác, truy cập của người
Thường được biểu diễn dưới dạng các biến dấu dùng, … phẩy động
- Scrapping: Lưu lại dữ liệu từ các website lOMoAR cPSD| 59285474
2. Phương pháp ước tính độ chính xác
- Phương pháp Holdout:
• Phân chia ngẫu nhiên dữ liệu:
§ Tập train (2/3) để xây dựng mô hình
§ Tập test (1/3) để ước tính độ chính xác
• Thích hợp cho tập dữ liệu nhỏ
• Lấy mẫu sao cho mỗi lớp được phân bổ đều trong train và test
• Lấy mẫu ngẫu nhiên: Lặp lại holdout k lần, độ
chính xác = trung bình của độ chính xác thu
được. - Phương pháp Cross-validation (k-fold):
• Phân chia ngẫu nhiên dữ liệu thành k tập con loại
trừ lẫn nhau, mỗi tập có kích thước xấp xỉ bằng nhau
• Tại mỗi vòng lặp, sử dụng một tập con làm tập
test và các tập còn lại làm tập train • Thường chọn k =10
• Leave-one-out: k lần trong đó k = số mẫu (đối với dữ liệu nhỏ)
• Stratified cross-validation: dùng phương pháp
lấymẫu để phân bố
các lớp trong từng tập con giống như trên toàn bộ
dữ liệu - Phương pháp Bootstrap:
• Hoạt động tốt với các bộ dữ liệu nhỏ• Khi một bộ
dữ liệu được chọn, nó có khả năng được chọn lại
và thêm lại vào tập huấn luyện. - Ngoài ra, còn
nhiều phương pháp khác như: • Comparing classifiers • Confidence intervals
• Cost-benefit analysis and ROC Curves
Các vấn đề ảnh hưởng đến việc lựa chön mô hình -
Accuracy: Độ chính xác của bộ phân lớp, dự đoán
nhãn lớp - Tốc độ (Speed):
• Thời gian xây dựng mô hình (thời gian huấn luyện)
• Thời gian sử dụng mô hình (thời gian phân lớp/dựđoán)
- Mạnh mẽ (Robustness): xử lý dữ liệu noise và các
giá trị bị thiếu
- Khả năng mở rộng (Scalability): hiệu quả với CSDL lớn
- khả năng diễn giải (Interpretability): sự hiểu biết
và diễn giải mô hình
- Các vấn đề khác: mức độ tốt của các luật, chẳng
hạn như kích thướccây quyết định hoặc độ chặt
chẽ của các luật phân lớp

IS252 - Phân Tích Dữ Liệu và Khai Phá Dữ Liệu: Tương Lai Dựa Trên Dữ Liệu. Môn Khai phá dữ liệu và kho dữ liệu | Đại học Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh.

Tài liệu liên quan:

Đề thi thực hành học kì I năm học 2024 - 2025 môn Cơ sở dữ liệu | Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Đề thi thực hành học kì I môn Cơ sở dữ liệu | Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Bài giảng Chương 5: Ràng buộc toàn vẹn môn Cơ sở dữ liệu | Trường Đại học Công nghệ Thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh

Báo cáo thực tập Công ty TNHH Haludo | Trường Đại học Công nghệ thông tin, Đại học Quốc gia thành phố Hồ Chí Minh

Bài thực hành ôn tập cơ sở dữ liệu | Trường Đại học Công nghệ thông tin, Đại học Quốc gia Thành phố Hồ Chí Minh