









Preview text:
lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 lOMoAR cPSD| 59285474 Chức năng Định nghĩa Đầu vào Đầu ra Thuật toán Ứng dụng Ví dụ minh họa thường sử dụng
Generalization – Khái
Giảm độ chi tiết để đưa Dữ liệu chi tiết Bảng tóm Decision Tóm tắt hành vi Nhóm sản phẩm quát dữ liệu ra các quan sát tổng cao.
tắt, biểu đồ tổng Trees, khách hàng. phổ biến theo
quát hoặc mô hình. quan, luật khái Summarizatio n. mùa. quát. Association and
Tìm mối quan hệ giữa Dữ liệu giao
Các luật kết hợp Apriori, FPGrowth. Khuyến nghị sản Nếu mua bánh
Correlation Analysis –
các mục trong dữ liệu. dịch, dữ liệu có (e.g., A → B). phẩm. mì, có 60% khả
Phân tích tương quan và nhiều thuộc năng mua sữa. luật kết hợp tính. lOMoAR cPSD| 59285474 Classification and
Phân lớp: Gán nhãn cho Dữ liệu có nhãn Mô hình phân Naïve Bayes,
Phân loại khách Phân loại email
Prediction – Phân lớp và dữ liệu. Dự báo: Ước hoặc không lớp hoặc giá trị Random hàng, dự báo thành "Spam" Dự báo lượng giá trị nhãn. dự báo. Forest. doanh thu. hoặc "Không
tương lai dựa trên dữ Spam". liệu lịch sử. Cluster Analysis – Nhóm các đối tượng Dữ liệu chưa Các cụm đối
K-Means, DBSCAN. Phân khúc khách Gom cụm khách Gom cụm
tương đồng vào cùng phân cụm. tượng tương hàng. hàng dựa trên độ một cụm. đồng. tuổi và hành vi mua hàng. Outlier Analysis –
Phát hiện các điểm dữ Bộ dữ liệu tổng Các mẫu bất Isolation Phát hiện gian Phát hiện giao Phân tích mẫu
liệu bất thường so với quát. thường. Forest, LOF. lận tài chính. dịch bất thường
cá biệt, bất thường phần còn lại. trong ngân hàng. Trend and Xác định các xu
Dữ liệu thời gian Xu hướng hoặc ARIMA, Time- Dự đoán thị Phân tích tăng Evolution Analysis – hướng, mẫu thay đổi (chuỗi thời mẫu thay đổi. Series trường chứng trưởng doanh số
Phân tích xu thế phát theo thời gian. gian). Analysis. khoán. theo quý. triển Structure and
Phân tích mối quan hệ Dữ liệu mạng, Mô hình cấu PageRank,
Phân tích mạng xã Xác định nút có Network và cấu trúc trong dữ đồ thị.
trúc mạng, mối Graph Neural hội, tối ưu hệ ảnh hưởng nhất Analysis – Phân liệu mạng. quan hệ. Networks.
thống giao thông. trong mạng xã tích cấu trúc và hội. mạng Bước Mục tiêu Hoạt động -
Loại bỏ giá trị thiếu hoặc thay thế bằng giá
1. Làm sạch dữ liệu Xử lý dữ liệu thô để loại bỏ lỗi, thiếu sót và bất trị hợp lý. thường. -
Sửa lỗi như dữ liệu trùng lặp hoặc sai lệch.
- Tích hợp cơ sở dữ liệu, file log, dữ liệu cảm biến. -
2. Tích hợp dữ liệu Kết hợp dữ liệu từ nhiều nguồn vào một dạng thống nhất.
Giải quyết xung đột định dạng hoặc đơn vị.
3. Lựa chọn dữ liệu Chọn các tập dữ liệu liên quan để phân tích.
- Xác định các đặc trưng phù hợp.
- Loại bỏ các trường dữ liệu không cần thiết.
- Chuẩn hóa dữ liệu để đồng nhất thang đo. -
4. Biến đổi dữ liệu Chuyển đổi dữ liệu sang định dạng phù hợp cho khai phá.
Rút gọn hoặc mã hóa để giảm kích thước.
5. Khai phá dữ liệu Áp dụng thuật toán tìm mẫu hoặc quy luật.
- Sử dụng kỹ thuật phân lớp, phân cụm, hồi quy. -
Khai thác dữ liệu theo mục tiêu. 6. Đánh giá mẫu
Xác định và chọn mẫu tri thức có giá trị, ý nghĩa.
- Dùng tiêu chí như độ chính xác, độ tin cậy. -
Loại bỏ mẫu không hữu ích.
7. Trình bày tri thức Hiển thị tri thức dưới dạng dễ hiểu cho người dùng.
- Trình bày bằng biểu đồ, bảng biểu, báo cáo.
- Triển khai tri thức vào hệ thống ra quyết định.
Bảng Phân Biệt Các Loại Thuộc Tính và Ví Dụ Loại Thuộc Định Nghĩa Đặc Điểm Ví Dụ Tính Nominal
Thuộc tính không có thứ tự, chỉ thể - Các giá trị là tên hoặc nhãn. - Không thực - Giới tính: Nam,
hiện các giá trị định danh hoặc phân hiện được các phép toán (>, <, +, -). Nữ loại. - Loại xe: Ô tô, Xe máy - Màu sắc: Đỏ, Xanh, Vàng Binary
Thuộc tính chỉ có hai giá trị (0 hoặc
- Hai giá trị có thể là đối xứng (có tầm quan - Giới tính: Nam 1, đúng hoặc sai).
trọng ngang nhau) hoặc bất đối xứng (một giá (0), trị quan trọng hơn). Nữ (1) - Tình trạng thanh toán: Đã thanh toán (1), Chưa thanh toán (0) lOMoAR cPSD| 59285474 Ordinal
Thuộc tính có thứ tự,
- Chỉ xác định được thứ tự (>, <). nhưng khoảng cách - Xếp hạng: Cao, giữa
- Không thể tính toán khoảng các giá trị không xác định. cách hoặc tỷ lệ
Trung bình, Thấp - Đánh
giữa các giá trị. giá: 1 sao, 2 sao, 3 sao, 4 sao, 5 sao Numeric:
Giá trị là số lượng với
- Có thể cộng hoặc trừ giá trị. khoảng cách có ý nghĩa, - Nhiệt độ (°C): Interval
- Không tính được tỷ lệ (như gấp nhưng không có gốc (0) đôi, một nửa). 20°C, 30°C - Năm sinh: 1990, tuyệt đối. 2000, 2010
Numeric: Ratio Giá trị là số lượng với gốc (0) tuyệt - Thực hiện được tất cả các phép toán (+, -, *, - Thu nhập: 5 triệu,
đối, cho phép tính tỷ lệ. /). 10 triệu - Cân nặng: 50kg, 100kg Kiến trúc cơ bản
- Feedback network (mạng phản hồi): output của 1 •
Tầng đầu vào (Input Layer):
neuron là inputcủa neuron cùng layer hoặc layer
o Nhận dữ liệu đầu vào từ các nguồn khác trước đó.
nhau (dạng vector số).
Nếu feeback kết nối với input của các neuron của
o Số lượng neuron trong tầng này tương
cùng một layer,được gọi là lateral feedback (mạng
ứng với số đặc trưng (features) của dữ phản hồi bên). liệu.
- Recurrent network (mạng truy hồi): feedback •
Tầng ẩn (Hidden Layers): o Gồm một hoặc nhiều
network với các vòngkhép kín
tầng neuron nằm giữa đầu vào và đầu ra.
o Mỗi neuron tính toán một giá trị dựa trên
K-fold Cross-Validation
- Chia dữ liệu thành
hàm kích hoạt (activation function). k phần bằng nhau.
o Số lượng tầng và số neuron trong mỗi
- Sử dụng k-1 phần để huấn luyện, 1 phần để kiểm
tầng quyết định khả năng học và độ phức tra. tạp của mạng.
- Lặp lại k lần và tính trung bình các chỉ số. - Sử •
Tầng đầu ra (Output Layer):
dụng toàn bộ dữ liệu cho huấn luyện và kiểm tra.
o Cung cấp kết quả cuối cùng của mạng
- Giảm rủi ro do dữ liệu bị thiên lệch. - Có thể
(phân loại, dự đoán, hoặc các đầu ra
mất nhiều thời gian với dữ liệu lớn. - Dữ liệu khác).
1000 mẫu, chia thành k=5 (200 mẫu/phần). - Lần
o Số lượng neuron phụ thuộc vào bài toán,
1: Huấn luyện trên phần 2-5, kiểm tra phần 1.
ví dụ: một neuron cho bài toán hồi quy,
- Kết quả cuối cùng là trung bình của 5 lần kiểm
nhiều neuron cho phân loại đa lớp. tra.
Hàm kích hoạt (Activation
Function): o Các hàm như ReLU,
Các yếu tố đánh giá:
sigmoid, hoặc softmax giúp mạng học các
- Tính chính xác (Accuracy): mẫu phi tuyến. - Ưu điểm
• Có các giá trị không chính xác• Có thể là lỗi của
• Hỗ trợ tính toán song song rất cao
con người hoặc máy tính - Tính đầy đủ, toàn vẹn
• Đạt độ chính xác cao trong nhiều bài toán (Completeness):
(ảnh, video, âm thanh,văn bản, thư viết tay, …)
• Dữ liệu không đầy đủ có thể xảy ra
• Kiến trúc mạng rất linh hoạt
• VD: thông tin khách hàng cho dữ liệu bán hàng
• Khả năng thích ứng tốt với dữ liệu nhiễu
&giao dịch có thể không phải lúc nào cũng có sẵn. - Nhược điểm
Các yếu tố đánh giá:
• Thời gian huấn luyện dài
- Tính nhất quán (Consistency):
• Không có quy tắc chung để xác định cấu trúc mạng và
• Có thể do quy ước đặt tên, đặt mã, định dạng
các thamsố tối ưu cho một vấn đề nhất định. Thường không nhất quán
dựa trên kinh nghiệm • Khả năng diễn giải kém: Khó diễn
• Các bộ dữ liệu trùng lặp.
giải ý nghĩa tượng trưng đằng sau các trọng số đã học và
- Tính kịp thời (Currency/ Timeliness): Dữ liệu
các “node ẩn” trong mạng
được cập nhật đầy đủ và kịp thời? - Độ tin cậy
(Believability): Mức độ người dùng tin tưởng vào
- Feed-forward network (mạng lan truyền tiến): dữ liệu
nếu không có bất kỳoutput nào của 1 neuron là
- Khả năng diễn giải (Interpretability): Mức độ dễ
input của 1 neuron khác trong cùng layerhoặc
hiểu của người dùng đối với dữliệu. layer trước đó
- Làm sạch dữ liệu (Data cleaning)
• Điền vào các giá trị còn thiếu lOMoAR cPSD| 59285474
• Khử dữ liệu nhiễu
1. Các dạng bộ dữ liệu (Type of Data sets)
• Xác định hoặc loại bỏ các giá trị ngoại lệ, sailệch - Record
• Giải quyết các dữ liệu không nhất quán, • Relational records mâuthuẫn
• Data matrix: numerical matrix,crosstabs•
- Tích hợp dữ liệu (Data integration):
Document data: text documents termfrequency
• Tổng hợp, tích hợp dữ liệu từ nhiều CSDL,
vector • Transaction data
khốidữ liệu hoặc tập tin - Rút gọn dữ liệu - Graph and network (Data reduction) • World Wide Web
• Giảm chiều dữ liệu (Dimensionality reduction)
• Social or information networks•
• Giảm số lượng (Numerosity reduction)• Nén Molecular Structures
dữ liệu (Data compression) - Biến đổi và rời a) Record
rạc hóa dữ liệu (Data transformation, b) Data matrix
datadiscretization): • Chuẩn hóa dữ liệu c) Transaction data (Normalization)
d) Document-term matrix6- Ordered
• Hệ thống khái niệm phân cấp (Concept
• Video data: sequence of images hierarchy generation)
• Temporal data: time-series Data mining
• Sequential Data: transaction sequences• Genetic
- Quá trình trích xuất tri thức (extracting or
sequence data - Spatial, image and multimedia:
miningknowledge) từlượng lớn dữ liệu [1]. - Quá • Spatial data: maps
trình không dễ (non-trivial) để trích xuất thông • Image data
tin ẩn (implicit),chưa được biết trước (previously • Video data
unknown) và hữu ích (potentiallyuseful) từ dữ liệu (2)
3.2. Thuộc tính rời rạc và Thuộc tính liên tục
- Khai thác dữ liệu ~ Khám phá tri thức
- Thuộc tính rời rạc (Discrete Attribute) • Chỉ có
một tập giá trị hữu hạn hoặc vô hạn đếm được
3. Các nhóm tri thức từ Quá trình KTDL - •
VD: zip code, nghề nghiệp, tập hợp các
Description of data classes / concepts: các mô hình
từ trong bộ sưu tập tài liệu
môtả các lớp/ khái niệm(Đặc trưng hóa/ phân biên •
Được biểu diễn dưới dạng số nguyên, số hóa)
thực• Thuộc tính binary là trường hợp đặc biệt -
Prediction and Classification: mô hình dự
của thuộc tính rời rạc
đoán hoặc phân lớp các đối tượng
- Thuộc tính liên tục (Continuous Attribute) -
Frequent patterns, association patterns: các
• Giá trị thuộc tính: số thực
mẫu phổbiến, khả năng kết hợpcác phần tử trong
• VD: nhiệt độ, chiều cao hoặc cân nặng• Trên các đối tượng.
thực tế, các giá trị thực chỉ có thể được đo lường -
Clustering, outliers/ abnormality analysis:
và biểu diễn bằng số lượng chữ sốhữu hạn •
gom nhómcác đối tượng tương đồng,tìm các điểm
Thường được biểu diễn dưới dạng các biến dấu
ngoại biên, các điểm bất thường. phẩy động -
Analysis of trends from data: mô hình thể
hiện các xu hướng, khả năng thay đổicủa các đối
Nguyên tắc lấy mẫu (Sampling): - WHAT: Lấy
tượng theo thời gian
tập mẫu phổ biến, đại diện cho lĩnh vực cần học,
3.2. Thuộc tính rời rạc và Thuộc tính liên tục khai thác. -
Thuộc tính rời rạc (Discrete Attribute) •
- WHY: Không thể học, khai thác toàn bộ. Giới
Chỉ có một tập giá trị hữu hạn hoặc vô hạn đếm
hạnvề thời gian và khả năng tính toán. - HOW: được
Thu thập các mẫu từ thực tế, hoặc từ các nguồn •
VD: zip code, nghề nghiệp, tập hợp các
chứa dữ liệu (web, database,…) 4. Thu thập dữ
từ trong bộ sưu tập tài liệu
liệu Lấy mẫu như thế nào? •
Được biểu diễn dưới dạng số nguyên, số
- Variety: Tập thu được đủ đa dạng để phủ hết các
thực• Thuộc tính binary là trường hợp đặc biệt
ngữ cảnh, đặc trưng của lĩnh vực. - Bias: Dữ liệu
của thuộc tính rời rạc
cần tổng quát, cân bằng, không bị sai lệnh, thiên
- Thuộc tính liên tục (Continuous Attribute)
vị về 1 bộ phận nhỏnào đó của lĩnh vực.
• Giá trị thuộc tính: số thực
• VD: nhiệt độ, chiều cao hoặc cân nặng• Trên
Các kỹ thuật thu thập dữ liệu:
thực tế, các giá trị thực chỉ có thể được đo lường
- Crow-sourcing: Survey – các khảo sát.- Logging:
và biểu diễn bằng số lượng chữ sốhữu hạn •
Lưu lại lịch sử tương tác, truy cập của người
Thường được biểu diễn dưới dạng các biến dấu dùng, … phẩy động
- Scrapping: Lưu lại dữ liệu từ các website lOMoAR cPSD| 59285474
2. Phương pháp ước tính độ chính xác
- Phương pháp Holdout:
• Phân chia ngẫu nhiên dữ liệu:
§ Tập train (2/3) để xây dựng mô hình
§ Tập test (1/3) để ước tính độ chính xác
• Thích hợp cho tập dữ liệu nhỏ
• Lấy mẫu sao cho mỗi lớp được phân bổ đều trong train và test
• Lấy mẫu ngẫu nhiên: Lặp lại holdout k lần, độ
chính xác = trung bình của độ chính xác thu
được. - Phương pháp Cross-validation (k-fold):
• Phân chia ngẫu nhiên dữ liệu thành k tập con loại
trừ lẫn nhau, mỗi tập có kích thước xấp xỉ bằng nhau
• Tại mỗi vòng lặp, sử dụng một tập con làm tập
test và các tập còn lại làm tập train • Thường chọn k =10
• Leave-one-out: k lần trong đó k = số mẫu (đối với dữ liệu nhỏ)
• Stratified cross-validation: dùng phương pháp
lấymẫu để phân bố
các lớp trong từng tập con giống như trên toàn bộ
dữ liệu - Phương pháp Bootstrap:
• Hoạt động tốt với các bộ dữ liệu nhỏ• Khi một bộ
dữ liệu được chọn, nó có khả năng được chọn lại
và thêm lại vào tập huấn luyện. - Ngoài ra, còn
nhiều phương pháp khác như: • Comparing classifiers • Confidence intervals
• Cost-benefit analysis and ROC Curves
Các vấn đề ảnh hưởng đến việc lựa chön mô hình -
Accuracy: Độ chính xác của bộ phân lớp, dự đoán
nhãn lớp - Tốc độ (Speed):
• Thời gian xây dựng mô hình (thời gian huấn luyện)
• Thời gian sử dụng mô hình (thời gian phân lớp/dựđoán)
- Mạnh mẽ (Robustness): xử lý dữ liệu noise và các
giá trị bị thiếu
- Khả năng mở rộng (Scalability): hiệu quả với CSDL lớn
- khả năng diễn giải (Interpretability): sự hiểu biết
và diễn giải mô hình
- Các vấn đề khác: mức độ tốt của các luật, chẳng
hạn như kích thướccây quyết định hoặc độ chặt
chẽ của các luật phân lớp