lOMoARcPSD| 59285474
lOMoARcPSD| 59285474
lOMoARcPSD| 59285474
lOMoARcPSD| 59285474
lOMoARcPSD| 59285474
lOMoARcPSD| 59285474
Chức năng
Định nghĩa
Đầu vào
Đầu ra
Thuật toán
thường sử dụng
Ứng dụng
Generalizaon – Khái
quát dữ liệu
Gim độ chi ết để đưa
ra các quan sát tổng
quát hoặc mô hình.
Dữ liệu chi ết
cao.
Bảng tóm
tắt, biểu đồ tổng
quan, luật khái
quát.
Decision
Trees,
Summarizao n.
Tóm tắt hành vi
khách hàng.
Associaon and
Correlaon Analysis –
Phân ch tương quan và
lut kết hợp
Tìm mối quan hệ gia
các mục trong dữ liu.
Dữ liệu giao
dịch, dữ liệu có
nhiều thuộc
nh.
Các luật kết hợp
(e.g., A B).
Apriori, FPGrowth.
Khuyến nghị sản
phm.
lOMoARcPSD| 59285474
Classicaon and
Predicon – Phân lớp và
Dự báo
Phân lớp: Gán nhãn cho
dữ liệu. Dự báo: Ưc
ợng giá trị
Dữ liệu có nhãn
hoặc không
nhãn.
Mô hình phân
lớp hoặc giá trị
dự báo.
Naïve Bayes,
Random
Forest.
Phân loại khách
hàng, dự báo
doanh thu.
tương lai dựa trên dữ
liệu lịch sử.
Cluster Analysis –
Gom cụm
Nhóm các đối tượng
tương đồng vào cùng
một cụm.
Dữ liệu chưa
phân cụm.
Các cụm đi
ợng tương
đồng.
K-Means, DBSCAN.
Phân khúc khách
hàng.
Outlier Analysis –
Phân ch mẫu
cá biệt, bất thường
Phát hiện các điểm dữ
liệu bất thường so với
phần còn lại.
Bộ dữ liệu tổng
quát.
Các mẫu bất
thường.
Isolaon
Forest, LOF.
Phát hiện gian
lận tài chính.
Trend and
Evoluon Analysis –
Phân ch xu thế phát
triển
Xác định các xu
ớng, mẫu thay đổi
theo thời gian.
Dữ liệu thời gian
(chuỗi thời
gian).
Xu hướng hoặc
mẫu thay đổi.
ARIMA, Time-
Series
Analysis.
Dự đoán thị
trường chứng
khoán.
Structure and
Network
Analysis – Phân
ch cấu trúc và
mạng
Phân ch mối quan hệ
và cấu trúc trong dữ
liệu mạng.
Dữ liệu mạng,
đồ thị.
Mô hình cấu
trúc mạng, mối
quan hệ.
PageRank,
Graph Neural
Networks.
Phân ch mạng xã
hội, tối ưu hệ
thống giao thông.
Bước Mục tiêu
Hoạt động
1. Làm sạch dữ liệu
Xử lý dữ liệu thô để loại bỏ lỗi, thiếu sót và bất
thường.
- Loại bỏ giá trị thiếu hoặc thay thế bằng giá
trị hợp lý.
- Sửa lỗi như dữ liệu trùng lặp hoặc sai lệch.
2. Tích hợp dữ liệu
Kết hợp dữ liệu từ nhiều nguồn vào một dạng thống
nhất.
- Tích hợp cơ sở dữ liệu, file log, dữ liệu cảm biến. -
Giải quyết xung đột định dạng hoặc đơn vị.
3. Lựa chọn dữ liệu
Chọn các tập dữ liệu liên quan để phân tích.
- Xác định các đặc trưng phù hợp.
- Loại bỏ các trường dữ liệu không cần thiết.
4. Biến đổi dữ liệu
Chuyển đổi dữ liệu sang định dạng phù hợp cho khai
phá.
- Chuẩn hóa dữ liệu để đồng nhất thang đo. -
Rút gọn hoặc mã hóa để giảm kích thước.
5. Khai phá dữ liệu
Áp dụng thuật toán tìm mẫu hoặc quy luật.
- Sử dụng kỹ thuật phân lớp, phân cụm, hồi quy. -
Khai thác dữ liệu theo mục tiêu.
6. Đánh giá mẫu
Xác định và chọn mẫu tri thức có giá trị, ý nghĩa.
- Dùng tiêu chí như độ chính xác, độ tin cậy. -
Loại bỏ mẫu không hữu ích.
7. Trình bày tri thức
Hiển thị tri thức dưới dạng dễ hiểu cho người dùng.
- Trình bày bằng biểu đồ, bảng biểu, báo cáo.
- Triển khai tri thức vào hệ thống ra quyết định.
Bảng Phân Biệt Các Loại Thuộc Tính và Ví Dụ
Loại Thuộc
Tính
Định Nghĩa
Đặc Điểm
Ví Dụ
Nominal
Thuộc nh không có thứ tự, chỉ th
hiện các giá trị định danh hoặc phân
loi.
- Các giá trị là tên hoặc nhãn. - Không thực
hiện được các phép toán (>, <, +, -).
- Giới nh: Nam,
Nữ
- Loại xe: Ô tô, Xe
máy
- Màu sắc: Đỏ,
Xanh,
Vàng
Binary
Thuộc nh chỉ có hai giá trị (0 hoặc
1, đúng hoặc sai).
- Hai giá trị có thể là đối xứng (có tầm quan
trọng ngang nhau) hoặc bất đối xứng (một giá
trị quan trọng hơn).
- Giới nh: Nam
(0),
Nữ (1)
- Tình trạng thanh
toán: Đã thanh toán
(1), Chưa thanh toán
(0)
lOMoARcPSD| 59285474
Ordinal
Thuộc nh có thứ tự, - Chỉ xác định được thứ tự (>, <). nhưng khoảng cách
gia - Không thể nh toán khoảng các giá trị không xác định. cách hoặc tỷ lệ
giữa các giá trị.
- Xếp hạng: Cao,
Trung bình, Thấp - Đánh
giá: 1 sao, 2
sao, 3 sao, 4 sao, 5
sao
Numeric:
Interval
Giá trị là số ợng với - Có thể cộng hoặc trừ giá trị. khoảng cách có ý nghĩa,
- Không nh được tỷ lệ (như gấp nhưng không có gốc (0) đôi, một nửa).
- Nhiệt độ (°C):
20°C, 30°C
- Năm sinh: 1990,
Kiến trúc cơ bản
Tầng đầu vào (Input Layer):
o Nhận dữ liệu đầu vào từ các nguồn khác
nhau (dạng vector số).
o Số ợng neuron trong tầng này tương
ứng với số đặc trưng (features) của d
liu.
Tầng ẩn (Hidden Layers): o Gồm một hoặc nhiều
tầng neuron nằm giữa đầu vào và đầu ra.
o Mỗi neuron nh toán một giá trị dựa trên
hàm kích hoạt (acvaon funcon).
o Số ợng tầng và số neuron trong mỗi
tầng quyết định khả năng học và độ phc
tạp của mạng.
Tầng đầu ra (Output Layer):
o Cung cấp kết quả cuối cùng của mạng
(phân loại, dự đoán, hoặc các đầu ra
khác).
o Số ợng neuron phụ thuộc vào bài toán,
ví dụ: một neuron cho bài toán hồi quy,
nhiều neuron cho phân loại đa lớp.
Hàm kích hoạt (Acvaon
Funcon): o Các hàm như ReLU,
sigmoid, hoặc somax giúp mạng học các
mẫu phi tuyến.
- Ưu điểm
Hỗ trợ nh toán song song rất cao
Đạt độ chính xác cao trong nhiều bài toán
(ảnh, video, âm thanh,văn bản, thư viết tay, …)
Kiến trúc mạng rất linh hoạt
Khả năng thích ứng tốt với dữ liệu nhiễu
- Nhược điểm
Thời gian huấn luyện dài
Không có quy tắc chung để xác định cấu trúc mạng và
các thamsố tối ưu cho một vấn đề nht định. Thường
dựa trên kinh nghiệm • Khả năng diễn giải kém: Khó diễn
giải ý nghĩa tượng trưng đằng sau các trọng số đã học và
các “node ẩn” trong mạng
- Feed-forward network (mạng lan truyền tiến):
nếu không có bất kỳoutput nào của 1 neuron
input của 1 neuron khác trong cùng layerhoặc
layer trước đó
- Feedback network (mạng phản hồi): output của 1
neuron là inputcủa neuron cùng layer hoặc layer
trước đó.
Nếu feeback kết nối với input của các neuron của
cùng một layer,được gọi là lateral feedback (mạng
phản hồi bên).
- Recurrent network (mạng truy hồi): feedback
network với các vòngkhép kín
K-fold Cross-Validation - Chia dữ liệu thành
k phần bằng nhau.
- Sử dụng k-1 phần để huấn luyện, 1 phần để kiểm
tra.
- Lặp lại k lần và tính trung bình các chỉ số. - Sử
dụng toàn bộ dữ liệu cho huấn luyện và kiểm tra.
- Giảm rủi ro do dữ liệu bị thiên lệch. - Có thể
mất nhiều thời gian với dữ liệu lớn. - Dữ liệu
1000 mẫu, chia thành k=5 (200 mẫu/phần). - Lần
1: Huấn luyện trên phần 2-5, kiểm tra phần 1.
- Kết quả cuối cùng là trung bình của 5 lần kiểm
tra.
Các yếu tố đánh giá:
- Tính chính xác (Accuracy):
Có các giá trị không chính xác• Có thể là lỗi của
con người hoặc máy nh - Tính đầy đủ, toàn vẹn
(Completeness):
Dữ liệu không đầy đủ có thể xảy ra
VD: thông tin khách hàng cho dữ liệu bán hàng
&giao dịch có thể không phải lúc nào cũng có sẵn.
Các yếu tố đánh giá:
- Tính nhất quán (Consistency):
Có thể do quy ước đặt tên, đặt mã, định dạng
không nhất quán
Các bộ dữ liệu trùng lặp.
- Tính kịp thời (Currency/ Timeliness): Dữ liệu
được cập nhật đầy đủ và kịp thời? - Độ tin cậy
(Believability): Mức độ người dùng tin tưởng vào
dữ liệu
- Khả năng diễn giải (Interpretability): Mức độ d
hiểu của người dùng đối với dữliệu.
- Làm sạch dữ liệu (Data cleaning)
Điền vào các giá trị còn thiếu
tuyệt đi.
2000, 2010
Numeric: Rao
Giá trị là số ợng với gốc (0) tuyệt
đối, cho phép nh tỷ lệ.
- Thực hiện được tất cả các phép toán (+, -, *,
/).
- Thu nhập: 5 triệu,
10 triệu
- Cân nặng: 50kg,
100kg
lOMoARcPSD| 59285474
Khử dữ liệu nhiễu
Xác định hoặc loại bỏ các giá trị ngoại lệ, sailệch
Giải quyết các dữ liệu không nhất quán,
mâuthuẫn
- Tích hợp dữ liệu (Data integration):
Tổng hợp, tích hợp dữ liệu từ nhiều CSDL,
khốidữ liệu hoặc tập tin - Rút gọn dữ liệu
(Data reduction)
Giảm chiều dữ liệu (Dimensionality reduction)
Giảm số lượng (Numerosity reduction)• Nén
dữ liệu (Data compression) - Biến đổi và rời
rạc hóa dữ liệu (Data transformation,
datadiscretization): • Chuẩn hóa dữ liệu
(Normalization)
Hệ thống khái niệm phân cấp (Concept
hierarchy generation)
Data mining
- Quá trình trích xuất tri thức (extracting or
miningknowledge) từlượng lớn dữ liệu [1]. - Quá
trình không dễ (non-trivial) để trích xuất thông
tin ẩn (implicit),chưa được biết trước (previously
unknown) và hữu ích (potentiallyuseful)
từ dữ liệu (2)
- Khai thác dữ liệu ~ Khám phá tri thức
3. Các nhóm tri thức từ Quá trình KTDL -
Description of data classes / concepts: các mô hình
môtả các lớp/ khái niệm(Đặc trưng hóa/ phân biên
hóa)
- Prediction and Classification: mô hình dự
đoán hoặc phân lớp các đối tượng
- Frequent patterns, association patterns: các
mẫu phổbiến, khả năng kết hợpcác phần tử trong
các đối tượng.
- Clustering, outliers/ abnormality analysis:
gom nhómcác đối tượng tương đồng,tìm các điểm
ngoại biên, các điểm bất thường.
- Analysis of trends from data: mô hình th
hiện các xu hướng, khả năng thay đổicủa các đối
tượng theo thời gian
3.2. Thuộc tính rời rạc và Thuộc tính liên tục
- Thuộc tính rời rạc (Discrete Attribute) •
Chỉ có một tập giá trị hữu hạn hoặc vô hạn đếm
được
VD: zip code, nghề nghiệp, tập hợp các
từ trong bộ sưu tập tài liệu
Được biểu diễn dưới dạng số nguyên, số
thực• Thuộc tính binary là trường hợp đặc biệt
của thuộc tính rời rạc
- Thuộc tính liên tục (Continuous Attribute)
Giá trị thuộc tính: số thực
VD: nhiệt độ, chiều cao hoặc cân nặng• Trên
thực tế, các giá trị thực chỉ có thể được đo lường
và biểu diễn bằng số lượng chữ sốhữu hạn
Thường được biểu diễn dưới dạng các biến dấu
phẩy động
1. Các dạng bộ dữ liệu (Type of Data sets)
- Record
Relational records
Data matrix: numerical matrix,crosstabs•
Document data: text documents termfrequency
vector • Transaction data
- Graph and network
World Wide Web
Social or information networks•
Molecular Structures
a) Record
b) Data matrix
c) Transaction data
d) Document-term matrix6- Ordered
Video data: sequence of images
Temporal data: time-series
Sequential Data: transaction sequences• Genetic
sequence data - Spatial, image and multimedia:
Spatial data: maps
Image data
Video data
3.2. Thuộc tính rời rạc và Thuộc tính liên tục
- Thuộc tính rời rạc (Discrete Attribute) • Chỉ có
một tập giá trị hữu hạn hoặc vô hạn đếm được
VD: zip code, nghề nghiệp, tập hợp các
từ trong bộ sưu tập tài liệu
Được biểu diễn dưới dạng số nguyên, số
thực• Thuộc tính binary là trường hợp đặc biệt
của thuộc tính rời rạc
- Thuộc tính liên tục (Continuous Attribute)
Giá trị thuộc tính: số thực
VD: nhiệt độ, chiều cao hoặc cân nặng• Trên
thực tế, các giá trị thực chỉ có thể được đo lường
và biểu diễn bằng số lượng chữ sốhữu hạn
Thường được biểu diễn dưới dạng các biến dấu
phẩy động
Nguyên tắc lấy mẫu (Sampling): - WHAT: Lấy
tập mẫu phổ biến, đại diện cho lĩnh vực cần học,
khai thác.
- WHY: Không thể học, khai thác toàn bộ. Giới
hạnvề thời gian và khả năng tính toán. - HOW:
Thu thập các mẫu từ thực tế, hoặc từ các nguồn
chứa dữ liệu (web, database,…) 4. Thu thập dữ
liệu Lấy mẫu như thế nào?
- Variety: Tập thu được đủ đa dạng để phủ hết các
ngữ cảnh, đặc trưng của lĩnh vực. - Bias: Dữ liệu
cần tổng quát, cân bằng, không bị sai lệnh, thiên
vị về 1 bộ phận nhỏnào đó của lĩnh vực.
Các kỹ thuật thu thập dữ liệu:
- Crow-sourcing: Survey – các khảo sát.- Logging:
Lưu lại lịch sử tương tác, truy cập của người
dùng, …
- Scrapping: Lưu lại dữ liệu từ các website
lOMoARcPSD| 59285474
2. Phương pháp ước tính độ chính xác
- Phương pháp Holdout:
• Phân chia ngẫu nhiên dữ liệu:
§ Tập train (2/3) để xây dựng mô hình
§ Tập test (1/3) để ước tính độ chính xác
Thích hợp cho tập dữ liệu nh
Lấy mẫu sao cho mỗi lớp được phân bổ đều trong
train và test
Lấy mẫu ngẫu nhiên: Lặp lại holdout k lần, độ
chính xác = trung bình của độ chính xác thu
được. - Phương pháp Cross-validation (k-fold):
Phân chia ngẫu nhiên dữ liệu thành k tập con loại
trừ lẫn nhau, mỗi tập có kích thước xấp xỉ bằng
nhau
Tại mỗi vòng lặp, sử dụng một tập con làm tập
test và các tập còn lại làm tập train
Thường chọn k =10
Leave-one-out: k lần trong đó k = số mẫu (đối với
dữ liệu nhỏ)
Stratified cross-validation: dùng phương pháp
lấymẫu để phân bố
các lớp trong từng tập con giống như trên toàn b
dữ liệu - Phương pháp Bootstrap:
Hoạt động tốt với các bộ dữ liệu nhỏ• Khi một bộ
dữ liệu được chọn, nó có khả năng được chọn lại
và thêm lại vào tập huấn luyện. - Ngoài ra, còn
nhiều phương pháp khác như:
Comparing classifiers
Confidence intervals
Cost-benefit analysis and ROC Curves
Các vấn đề ảnh hưởng đến việc lựa chön mô hình -
Accuracy: Độ chính xác của bộ phân lớp, dự đoán
nhãn lớp - Tốc độ (Speed):
Thời gian xây dựng mô hình (thời gian huấn
luyện)
Thời gian sử dụng mô hình (thời gian phân
lớp/dựđoán)
- Mạnh mẽ (Robustness): xử lý dữ liệu noise và các
giá trị bị thiếu
- Khả năng mở rộng (Scalability): hiệu quả với
CSDL lớn
- khả năng diễn giải (Interpretability): sự hiểu biết
và diễn giải mô hình
- Các vấn đề khác: mức độ tốt của các luật, chẳng
hạn như kích thướccây quyết định hoặc độ chặt
chẽ của các luật phân lớp

Preview text:

lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 Chức năng Định nghĩa Đầu vào Đầu ra Thuật toán Ứng dụng Ví dụ minh họa thường sử dụng
Generalization – Khái
Giảm độ chi tiết để đưa Dữ liệu chi tiết Bảng tóm Decision Tóm tắt hành vi Nhóm sản phẩm quát dữ liệu ra các quan sát tổng cao.
tắt, biểu đồ tổng Trees, khách hàng. phổ biến theo
quát hoặc mô hình. quan, luật khái Summarizatio n. mùa. quát. Association and
Tìm mối quan hệ giữa Dữ liệu giao
Các luật kết hợp Apriori, FPGrowth. Khuyến nghị sản Nếu mua bánh
Correlation Analysis –
các mục trong dữ liệu. dịch, dữ liệu có (e.g., A → B). phẩm. mì, có 60% khả
Phân tích tương quan và nhiều thuộc năng mua sữa. luật kết hợp tính. lOMoAR cPSD| 59285474 Classification and
Phân lớp: Gán nhãn cho Dữ liệu có nhãn Mô hình phân Naïve Bayes,
Phân loại khách Phân loại email
Prediction – Phân lớp và dữ liệu. Dự báo: Ước hoặc không lớp hoặc giá trị Random hàng, dự báo thành "Spam" Dự báo lượng giá trị nhãn. dự báo. Forest. doanh thu. hoặc "Không
tương lai dựa trên dữ Spam". liệu lịch sử. Cluster Analysis – Nhóm các đối tượng Dữ liệu chưa Các cụm đối
K-Means, DBSCAN. Phân khúc khách Gom cụm khách Gom cụm
tương đồng vào cùng phân cụm. tượng tương hàng. hàng dựa trên độ một cụm. đồng. tuổi và hành vi mua hàng. Outlier Analysis –
Phát hiện các điểm dữ Bộ dữ liệu tổng Các mẫu bất Isolation Phát hiện gian Phát hiện giao Phân tích mẫu
liệu bất thường so với quát. thường. Forest, LOF. lận tài chính. dịch bất thường
cá biệt, bất thường phần còn lại. trong ngân hàng. Trend and Xác định các xu
Dữ liệu thời gian Xu hướng hoặc ARIMA, Time- Dự đoán thị Phân tích tăng Evolution Analysis – hướng, mẫu thay đổi (chuỗi thời mẫu thay đổi. Series trường chứng trưởng doanh số
Phân tích xu thế phát theo thời gian. gian). Analysis. khoán. theo quý. triển Structure and
Phân tích mối quan hệ Dữ liệu mạng, Mô hình cấu PageRank,
Phân tích mạng xã Xác định nút có Network và cấu trúc trong dữ đồ thị.
trúc mạng, mối Graph Neural hội, tối ưu hệ ảnh hưởng nhất Analysis – Phân liệu mạng. quan hệ. Networks.
thống giao thông. trong mạng xã tích cấu trúc và hội. mạng Bước Mục tiêu Hoạt động -
Loại bỏ giá trị thiếu hoặc thay thế bằng giá
1. Làm sạch dữ liệu Xử lý dữ liệu thô để loại bỏ lỗi, thiếu sót và bất trị hợp lý. thường. -
Sửa lỗi như dữ liệu trùng lặp hoặc sai lệch.
- Tích hợp cơ sở dữ liệu, file log, dữ liệu cảm biến. -
2. Tích hợp dữ liệu Kết hợp dữ liệu từ nhiều nguồn vào một dạng thống nhất.
Giải quyết xung đột định dạng hoặc đơn vị.
3. Lựa chọn dữ liệu Chọn các tập dữ liệu liên quan để phân tích.
- Xác định các đặc trưng phù hợp.
- Loại bỏ các trường dữ liệu không cần thiết.
- Chuẩn hóa dữ liệu để đồng nhất thang đo. -
4. Biến đổi dữ liệu Chuyển đổi dữ liệu sang định dạng phù hợp cho khai phá.
Rút gọn hoặc mã hóa để giảm kích thước.
5. Khai phá dữ liệu Áp dụng thuật toán tìm mẫu hoặc quy luật.
- Sử dụng kỹ thuật phân lớp, phân cụm, hồi quy. -
Khai thác dữ liệu theo mục tiêu. 6. Đánh giá mẫu
Xác định và chọn mẫu tri thức có giá trị, ý nghĩa.
- Dùng tiêu chí như độ chính xác, độ tin cậy. -
Loại bỏ mẫu không hữu ích.
7. Trình bày tri thức Hiển thị tri thức dưới dạng dễ hiểu cho người dùng.
- Trình bày bằng biểu đồ, bảng biểu, báo cáo.
- Triển khai tri thức vào hệ thống ra quyết định.
Bảng Phân Biệt Các Loại Thuộc Tính và Ví Dụ Loại Thuộc Định Nghĩa Đặc Điểm Ví Dụ Tính Nominal
Thuộc tính không có thứ tự, chỉ thể - Các giá trị là tên hoặc nhãn. - Không thực - Giới tính: Nam,
hiện các giá trị định danh hoặc phân hiện được các phép toán (>, <, +, -). Nữ loại. - Loại xe: Ô tô, Xe máy - Màu sắc: Đỏ, Xanh, Vàng Binary
Thuộc tính chỉ có hai giá trị (0 hoặc
- Hai giá trị có thể là đối xứng (có tầm quan - Giới tính: Nam 1, đúng hoặc sai).
trọng ngang nhau) hoặc bất đối xứng (một giá (0), trị quan trọng hơn). Nữ (1) - Tình trạng thanh toán: Đã thanh toán (1), Chưa thanh toán (0) lOMoAR cPSD| 59285474 Ordinal
Thuộc tính có thứ tự,
- Chỉ xác định được thứ tự (>, <). nhưng khoảng cách - Xếp hạng: Cao, giữa
- Không thể tính toán khoảng các giá trị không xác định. cách hoặc tỷ lệ
Trung bình, Thấp - Đánh
giữa các giá trị. giá: 1 sao, 2 sao, 3 sao, 4 sao, 5 sao Numeric:
Giá trị là số lượng với
- Có thể cộng hoặc trừ giá trị. khoảng cách có ý nghĩa, - Nhiệt độ (°C): Interval
- Không tính được tỷ lệ (như gấp nhưng không có gốc (0) đôi, một nửa). 20°C, 30°C - Năm sinh: 1990, tuyệt đối. 2000, 2010
Numeric: Ratio Giá trị là số lượng với gốc (0) tuyệt - Thực hiện được tất cả các phép toán (+, -, *, - Thu nhập: 5 triệu,
đối, cho phép tính tỷ lệ. /). 10 triệu - Cân nặng: 50kg, 100kg Kiến trúc cơ bản
- Feedback network (mạng phản hồi): output của 1
Tầng đầu vào (Input Layer):
neuron là inputcủa neuron cùng layer hoặc layer
o Nhận dữ liệu đầu vào từ các nguồn khác trước đó.
nhau (dạng vector số).
Nếu feeback kết nối với input của các neuron của
o Số lượng neuron trong tầng này tương
cùng một layer,được gọi là lateral feedback (mạng
ứng với số đặc trưng (features) của dữ phản hồi bên). liệu.
- Recurrent network (mạng truy hồi): feedback
Tầng ẩn (Hidden Layers): o Gồm một hoặc nhiều
network với các vòngkhép kín
tầng neuron nằm giữa đầu vào và đầu ra.
o Mỗi neuron tính toán một giá trị dựa trên
K-fold Cross-Validation
- Chia dữ liệu thành
hàm kích hoạt (activation function). k phần bằng nhau.
o Số lượng tầng và số neuron trong mỗi
- Sử dụng k-1 phần để huấn luyện, 1 phần để kiểm
tầng quyết định khả năng học và độ phức tra. tạp của mạng.
- Lặp lại k lần và tính trung bình các chỉ số. - Sử
Tầng đầu ra (Output Layer):
dụng toàn bộ dữ liệu cho huấn luyện và kiểm tra.
o Cung cấp kết quả cuối cùng của mạng
- Giảm rủi ro do dữ liệu bị thiên lệch. - Có thể
(phân loại, dự đoán, hoặc các đầu ra
mất nhiều thời gian với dữ liệu lớn. - Dữ liệu khác).
1000 mẫu, chia thành k=5 (200 mẫu/phần). - Lần
o Số lượng neuron phụ thuộc vào bài toán,
1: Huấn luyện trên phần 2-5, kiểm tra phần 1.
ví dụ: một neuron cho bài toán hồi quy,
- Kết quả cuối cùng là trung bình của 5 lần kiểm
nhiều neuron cho phân loại đa lớp. tra.
Hàm kích hoạt (Activation
Function): o Các hàm như ReLU,
Các yếu tố đánh giá:
sigmoid, hoặc softmax giúp mạng học các
- Tính chính xác (Accuracy): mẫu phi tuyến. - Ưu điểm
• Có các giá trị không chính xác• Có thể là lỗi của
• Hỗ trợ tính toán song song rất cao
con người hoặc máy tính - Tính đầy đủ, toàn vẹn
• Đạt độ chính xác cao trong nhiều bài toán (Completeness):
(ảnh, video, âm thanh,văn bản, thư viết tay, …)
• Dữ liệu không đầy đủ có thể xảy ra
• Kiến trúc mạng rất linh hoạt
• VD: thông tin khách hàng cho dữ liệu bán hàng
• Khả năng thích ứng tốt với dữ liệu nhiễu
&giao dịch có thể không phải lúc nào cũng có sẵn. - Nhược điểm
Các yếu tố đánh giá:
• Thời gian huấn luyện dài
- Tính nhất quán (Consistency):
• Không có quy tắc chung để xác định cấu trúc mạng và
• Có thể do quy ước đặt tên, đặt mã, định dạng
các thamsố tối ưu cho một vấn đề nhất định. Thường không nhất quán
dựa trên kinh nghiệm • Khả năng diễn giải kém: Khó diễn
• Các bộ dữ liệu trùng lặp.
giải ý nghĩa tượng trưng đằng sau các trọng số đã học và
- Tính kịp thời (Currency/ Timeliness): Dữ liệu
các “node ẩn” trong mạng
được cập nhật đầy đủ và kịp thời? - Độ tin cậy
(Believability): Mức độ người dùng tin tưởng vào

- Feed-forward network (mạng lan truyền tiến): dữ liệu
nếu không có bất kỳoutput nào của 1 neuron là
- Khả năng diễn giải (Interpretability): Mức độ dễ
input của 1 neuron khác trong cùng layerhoặc
hiểu của người dùng đối với dữliệu. layer trước đó
- Làm sạch dữ liệu (Data cleaning)
• Điền vào các giá trị còn thiếu
lOMoAR cPSD| 59285474
• Khử dữ liệu nhiễu
1. Các dạng bộ dữ liệu (Type of Data sets)
• Xác định hoặc loại bỏ các giá trị ngoại lệ, sailệch - Record
• Giải quyết các dữ liệu không nhất quán, • Relational records mâuthuẫn
• Data matrix: numerical matrix,crosstabs•
- Tích hợp dữ liệu (Data integration):
Document data: text documents termfrequency
• Tổng hợp, tích hợp dữ liệu từ nhiều CSDL,
vector • Transaction data
khốidữ liệu hoặc tập tin - Rút gọn dữ liệu - Graph and network (Data reduction) • World Wide Web
• Giảm chiều dữ liệu (Dimensionality reduction)
• Social or information networks•
• Giảm số lượng (Numerosity reduction)• Nén Molecular Structures
dữ liệu (Data compression) - Biến đổi và rời a) Record
rạc hóa dữ liệu (Data transformation, b) Data matrix
datadiscretization): • Chuẩn hóa dữ liệu c) Transaction data (Normalization)
d) Document-term matrix6- Ordered
• Hệ thống khái niệm phân cấp (Concept
• Video data: sequence of images hierarchy generation)
• Temporal data: time-series Data mining
• Sequential Data: transaction sequences• Genetic
- Quá trình trích xuất tri thức (extracting or
sequence data - Spatial, image and multimedia:
miningknowledge) từlượng lớn dữ liệu [1]. - Quá • Spatial data: maps
trình không dễ (non-trivial) để trích xuất thông • Image data
tin ẩn (implicit),chưa được biết trước (previously • Video data
unknown) và hữu ích (potentiallyuseful) từ dữ liệu (2)
3.2. Thuộc tính rời rạc và Thuộc tính liên tục
- Khai thác dữ liệu ~ Khám phá tri thức
- Thuộc tính rời rạc (Discrete Attribute) • Chỉ có
một tập giá trị hữu hạn hoặc vô hạn đếm được
3. Các nhóm tri thức từ Quá trình KTDL -
VD: zip code, nghề nghiệp, tập hợp các
Description of data classes / concepts: các mô hình
từ trong bộ sưu tập tài liệu
môtả các lớp/ khái niệm(Đặc trưng hóa/ phân biên
Được biểu diễn dưới dạng số nguyên, số hóa)
thực• Thuộc tính binary là trường hợp đặc biệt -
Prediction and Classification: mô hình dự
của thuộc tính rời rạc
đoán hoặc phân lớp các đối tượng
- Thuộc tính liên tục (Continuous Attribute) -
Frequent patterns, association patterns: các
• Giá trị thuộc tính: số thực
mẫu phổbiến, khả năng kết hợpcác phần tử trong
• VD: nhiệt độ, chiều cao hoặc cân nặng• Trên các đối tượng.
thực tế, các giá trị thực chỉ có thể được đo lường -
Clustering, outliers/ abnormality analysis:
và biểu diễn bằng số lượng chữ sốhữu hạn •
gom nhómcác đối tượng tương đồng,tìm các điểm
Thường được biểu diễn dưới dạng các biến dấu
ngoại biên, các điểm bất thường. phẩy động -
Analysis of trends from data: mô hình thể
hiện các xu hướng, khả năng thay đổicủa các đối
Nguyên tắc lấy mẫu (Sampling): - WHAT: Lấy
tượng theo thời gian
tập mẫu phổ biến, đại diện cho lĩnh vực cần học,
3.2. Thuộc tính rời rạc và Thuộc tính liên tục khai thác. -
Thuộc tính rời rạc (Discrete Attribute) •
- WHY: Không thể học, khai thác toàn bộ. Giới
Chỉ có một tập giá trị hữu hạn hoặc vô hạn đếm
hạnvề thời gian và khả năng tính toán. - HOW: được
Thu thập các mẫu từ thực tế, hoặc từ các nguồn
VD: zip code, nghề nghiệp, tập hợp các
chứa dữ liệu (web, database,…) 4. Thu thập dữ
từ trong bộ sưu tập tài liệu
liệu Lấy mẫu như thế nào?
Được biểu diễn dưới dạng số nguyên, số
- Variety: Tập thu được đủ đa dạng để phủ hết các
thực• Thuộc tính binary là trường hợp đặc biệt
ngữ cảnh, đặc trưng của lĩnh vực. - Bias: Dữ liệu
của thuộc tính rời rạc
cần tổng quát, cân bằng, không bị sai lệnh, thiên
- Thuộc tính liên tục (Continuous Attribute)
vị về 1 bộ phận nhỏnào đó của lĩnh vực.
• Giá trị thuộc tính: số thực
• VD: nhiệt độ, chiều cao hoặc cân nặng• Trên

Các kỹ thuật thu thập dữ liệu:
thực tế, các giá trị thực chỉ có thể được đo lường
- Crow-sourcing: Survey – các khảo sát.- Logging:
và biểu diễn bằng số lượng chữ sốhữu hạn •
Lưu lại lịch sử tương tác, truy cập của người
Thường được biểu diễn dưới dạng các biến dấu dùng, … phẩy động
- Scrapping: Lưu lại dữ liệu từ các website lOMoAR cPSD| 59285474
2. Phương pháp ước tính độ chính xác
- Phương pháp Holdout:
• Phân chia ngẫu nhiên dữ liệu:
§ Tập train (2/3) để xây dựng mô hình
§ Tập test (1/3) để ước tính độ chính xác

• Thích hợp cho tập dữ liệu nhỏ
• Lấy mẫu sao cho mỗi lớp được phân bổ đều trong
train và test
• Lấy mẫu ngẫu nhiên: Lặp lại holdout k lần, độ
chính xác = trung bình của độ chính xác thu
được. - Phương pháp Cross-validation (k-fold):

• Phân chia ngẫu nhiên dữ liệu thành k tập con loại
trừ lẫn nhau, mỗi tập có kích thước xấp xỉ bằng nhau
• Tại mỗi vòng lặp, sử dụng một tập con làm tập
test và các tập còn lại làm tập train • Thường chọn k =10
• Leave-one-out: k lần trong đó k = số mẫu (đối với
dữ liệu nhỏ)
• Stratified cross-validation: dùng phương pháp
lấymẫu để phân bố
các lớp trong từng tập con giống như trên toàn bộ
dữ liệu - Phương pháp Bootstrap:
• Hoạt động tốt với các bộ dữ liệu nhỏ• Khi một bộ

dữ liệu được chọn, nó có khả năng được chọn lại
và thêm lại vào tập huấn luyện. - Ngoài ra, còn
nhiều phương pháp khác như:
• Comparing classifiers • Confidence intervals
• Cost-benefit analysis and ROC Curves

Các vấn đề ảnh hưởng đến việc lựa chön mô hình -
Accuracy: Độ chính xác của bộ phân lớp, dự đoán
nhãn lớp - Tốc độ (Speed):
• Thời gian xây dựng mô hình (thời gian huấn
luyện)
• Thời gian sử dụng mô hình (thời gian phân lớp/dựđoán)
- Mạnh mẽ (Robustness): xử lý dữ liệu noise và các
giá trị bị thiếu
- Khả năng mở rộng (Scalability): hiệu quả với CSDL lớn
- khả năng diễn giải (Interpretability): sự hiểu biết
và diễn giải mô hình
- Các vấn đề khác: mức độ tốt của các luật, chẳng
hạn như kích thướccây quyết định hoặc độ chặt
chẽ của các luật phân lớp