








Preview text:
QUÁ TRÌNH KHÁM PHÁ CÁC MẪU TRONG CÁC TẬP DỮ LIỆU LỚN LIÊN
QUAN ĐẾN CÁC PHƯƠNG PHÁP TẠI GIAO THỪA CỦA HỌC MÁY, THỐNG
KÊ VÀ CÁC HỆ THỐNG CƠ SỞ DỮ LIỆU. Mục đích của data mining là giúp các
tổ chức hoặc cá nhân đưa ra quyết định dựa trên các thông tin chính xác
Thu thập và làm sạch dữ liệu: Tập hợp dữ liệu từ các nguồn khác nhau và xử
lý những dữ liệu không đầy đủ hoặc sai lệch.
Chọn lựa mô hình và thuật toán: Sử dụng các thuật toán như phân loại, phân
cụm, hồi quy, hoặc phát hiện bất thường để phân tích dữ liệu.
Đánh giá mô hình: Đánh giá kết quả của mô hình và đảm bảo rằng các phát
hiện là chính xác và hữu ích.
Triển khai và sử dụng thông tin Áp dụng kết quả từ quá trình khai thác để đưa
ra các quyết định hoặc cải tiến quy trình. CÁC CÂN NHẮC BỔ SUNG
CHẤT LƯỢNG DỮ LIỆU: ĐẢM BẢO ĐỘ CHÍNH XÁC, ĐẦY ĐỦ VÀ NHẤT
QUÁN CỦA DỮ LIỆU LÀ YẾU TỐ QUAN TRỌNG ĐỂ CÓ KẾT QUẢ ĐÁNG TIN CẬY.
Đảm bảo bảo mật và quyền riêng tư: Trong một số trường hợp, dữ liệu khai thác
có thể chứa thông tin nhạy cảm như thông tin cá nhân. Cần tuân thủ các quy định về
bảo mật và quyền riêng tư để bảo vệ dữ liệu và tránh rủi ro liên quan đến việc lạm
dụng hoặc rò rỉ thông tin.
CÁC CÂN NHẮC ĐẠO ĐỨC: GIẢI QUYẾT CÁC MỐI QUAN TÂM VỀ
QUYỀN RIÊNG TƯ, THIÊN VỊ VÀ CÔNG BẰNG TRONG KHAI THÁC DỮ
LIỆU VÀ KHÁM PHÁ KIẾN THỨC.
Chi phí và thời gian: Việc triển khai một dự án khai thác dữ liệu đòi hỏi chi phí về
tài nguyên tính toán, nhân lực và thời gian. Các công ty và tổ chức cần phải đánh
giá chi phí so với lợi ích thu được từ việc khai thác dữ liệu.
KHẢ NĂNG DIỄN GIẢI: LÀM CHO KẾT QUẢ KHAI THÁC DỮ LIỆU CÓ
THỂ HIỂU ĐƯỢC. Việc hiểu được lý do tại sao một mô hình đưa ra quyết định nào
đó có thể giúp tăng cường sự tin tưởng của người dùng vào kết quả. Mục tiêu
DỰ ĐOÁN: DỰ ĐOÁN XU HƯỚNG HOẶC KẾT QUẢ TRONG TƯƠNG LAI
DỰA TRÊN DỮ LIỆU LỊCH SỬ.
MÔ TẢ: TÓM TẮT ĐẶC ĐIỂM CỦA MỘT TẬP DỮ LIỆU ĐỂ CÓ ĐƯỢC NHỮNG THÔNG TIN CHI TIẾT.
KHÁM PHÁ CÁC MẪU MỚI: XÁC ĐỊNH CÁC MỐI QUAN HỆ HOẶC SỰ BẤT THƯỜNG chưa biết. KỸ THUẬT CHUNG
PHÂN LOẠI: GÁN CÁC ĐIỂM DỮ LIỆU CHO CÁC DANH MỤC ĐÃ XÁC
ĐỊNH TRƯỚC. là một kỹ thuật giám sát, nơi dữ liệu đã được gán nhãn sẵn và mô
hình sẽ học cách phân loại dữ liệu mới dựa trên các đặc điểm đã học.
PHÂN NHÓM: NHÓM CÁC ĐIỂM DỮ LIỆU TƯƠNG TỰ LẠI VỚI NHAU. Đây
là một kỹ thuật không giám sát, mục tiêu là xác định các nhóm (hoặc cụm)
KHAI THÁC QUY TẮC LIÊN KẾT: KHÁM PHÁ MỐI QUAN HỆ GIỮA CÁC
MỤC TRONG MỘT TẬP DỮ LIỆU. Mục tiêu là phát hiện các mẫu quy luật trong dữ liệu giao dịch.
PHÁT HIỆN DỊCH TỘI: XÁC ĐỊNH CÁC ĐIỂM DỮ LIỆU NGOẠI LỆ HOẶC
CÁC ĐIỂM DỮ LIỆU BẤT THƯỜNG. ĐỊNH NGHĨA
MỘT QUY TRÌNH NHIỀU BƯỚC BAO GỒM LÀM SẠCH DỮ LIỆU, TÍCH
HỢP, LỰA CHỌN, CHUYỂN ĐỔI, KHAI THÁC DỮ LIỆU VÀ ĐÁNH GIÁ MẪU.
Chọn lọc dữ liệu (Data Selection): Chọn các dữ liệu phù hợp từ các nguồn dữ
liệu khác nhau để phục vụ cho quá trình phân tích.
Tiền xử lý dữ liệu (Data Preprocessing): Làm sạch và xử lý dữ liệu để loại bỏ
những dữ liệu lỗi, thiếu hoặc không phù hợp, đồng thời chuẩn hóa dữ liệu để phân tích dễ dàng hơn.
Biến đổi dữ liệu (Data Transformation): Chuyển đổi dữ liệu thành định dạng
hoặc dạng thức phù hợp hơn cho các phương pháp khai thác, chẳng hạn như tổng
hợp hoặc phân loại dữ liệu.
Khai thác dữ liệu (Data Mining): Sử dụng các thuật toán và kỹ thuật phân tích
(như phân loại, phân nhóm, khai thác quy tắc liên kết) để tìm ra các mẫu, xu hướng
hoặc thông tin tiềm ẩn trong dữ liệu.
Đánh giá (Evaluation): Đánh giá và kiểm tra các mẫu đã phát hiện để đảm bảo
tính chính xác và hữu ích của chúng. Việc này có thể bao gồm việc phân tích độ tin
cậy và tính khả thi của các mẫu đó.
Triển khai (Deployment): Ứng dụng các kết quả và mẫu đã khám phá vào các
quyết định thực tế hoặc tích hợp vào các hệ thống quản lý để sử dụng trong kinh
doanh, y tế, tài chính, v.v. CÁC BƯỚC CHÍNH
Tiền xử lý dữ liệu (Data Preprocessing): Làm sạch và xử lý dữ liệu để loại bỏ
những dữ liệu lỗi, thiếu hoặc không phù hợp, đồng thời chuẩn hóa dữ liệu để phân tích dễ dàng hơn.
TÍCH HỢP DỮ LIỆU: KẾT HỢP DỮ LIỆU TỪ NHIỀU NGUỒN THÀNH MỘT
TẬP DỮ LIỆU THỐNG NHẤT.
LỰA CHỌN DỮ LIỆU: CHỌN DỮ LIỆU CÓ LIÊN QUAN ĐỂ PHÂN TÍCH.
CHUYỂN ĐỔI DỮ LIỆU: CHUYỂN ĐỔI DỮ LIỆU SANG ĐỊNH DẠNG PHÙ HỢP ĐỂ KHAI THÁC.
Khai thác dữ liệu: ÁP DỤNG CÁC THUẬT TOÁN ĐỂ TRÍCH XUẤT CÁC MẪU.
ĐÁNH GIÁ MẪU: ĐÁNH GIÁ Ý NGHĨA VÀ TÍNH HỮU ÍCH CỦA CÁC MẪU ĐÃ PHÁT HIỆN. ỨNG DỤNG
KINH DOANH: PHÂN ĐOẠN KHÁCH HÀNG, PHÂN TÍCH GIỎ HÀNG THỊ
TRƯỜNG, PHÁT HIỆN GIAN LẬN, ĐÁNH GIÁ RỦI RO.
CHĂM SÓC SỨC KHỎE: CHẨN ĐOÁN BỆNH TẬT, PHÁT HIỆN THUỐC,
LẬP HỒ SƠ BỆNH NHÂN, PHÂN TÍCH HÌNH ẢNH Y KHOA.
KHOA HỌC: MÔ HÌNH KHÍ HẬU, GEN HỌC, THIÊN VĂN HỌC, KHOA HỌC XÃ HỘI.
AN NINH: PHÁT HIỆN XÂM NHẬP MẠNG, PHÂN TÍCH MỐI ĐE DỌA AN
NINH MẠNG, PHÁT HIỆN DỰA TRÊN SỰ DỄ THƯƠNG. THUẬT TOÁN PHÂN LOẠI
CÂY QUYẾT ĐỊNH: Cây quyết định là một thuật toán phân loại và hồi quy, trong
đó dữ liệu được chia thành các nhóm thông qua một cấu trúc dạng cây. NAIVE BAYES MÁY VECTOR HỖ TRỢ (SVM) K-NEAREST NEIGHBORS (KNN) THUẬT TOÁN NHÓM NHÓM K-MEANS NHÓM PHÂN CẤP DBSCAN PHÁT HIỆN DỊ TẬT
PHƯƠNG PHÁP THỐNG KÊ (VÍ DỤ: Z-SCORE, PHÁT HIỆN NGOẠI LỆ)
KỸ THUẬT HỌC MÁY (VÍ DỤ: RỪNG CÔ LẬP, SVM MỘT LỚP)
QUY TẮC KẾT HỢP KHAI THÁC
SỰ LỰA CHỌN THUẬT TOÁN PHỤ THUỘC VÀO NHIỀU YẾU TỐ KHÁC NHAU
ĐẶC ĐIỂM CỦA TẬP DỮ LIỆU: KÍCH THƯỚC, VÀ PHÂN BỐ dữ liệu.
MỤC TIÊU PHÂN TÍCH: DỰ ĐOÁN ( Nếu mục tiêu là dự đoán giá trị số liên tục
(hồi quy), các thuật toán như Linear Regression Decision , Trees (cho hồi quy),
hoặc Random Forest có thể là lựa chọn tốt. Nếu mục tiêu là dự đoán các lớp phân
loại, các thuật toán như SVM, KNN, hoặc Naive Bayes có thể được sử dụng.),
PHÂN LOẠI, CỤM HOẶC KHAI THÁC QUY TẮC LIÊN KẾT.
MỨC ĐỘ DIỄN GIẢI MONG MUỐN: MỘT SỐ THUẬT TOÁN (VÍ DỤ: CÂY
QUYẾT ĐỊNH) DỄ DIỄN GIẢI HƠN CÁC THUẬT TOÁN KHÁC (VÍ DỤ: MẠNG NƠ-RON).
TÀI NGUYÊN TÍNH TOÁN: ĐỘ PHỨC tạp trong TÍNH TOÁN VÀ YÊU CẦU
BỘ NHỚ CỦA THUẬT TOÁN. KNN hoặc Decision Trees có độ phức tạp tính toán thấp hơn
Các thuật toán như SVM hoặc Deep Learning yêu cầu tài nguyên tính toán mạnh
mẽ hơn, vì chúng có độ phức tạp tính toán cao và cần bộ nhớ lớn khi xử lý dữ liệu lớn. KHÁI NIỆM CỐT LÕI
XÁC ĐỊNH CÁC MẶT HÀNG THƯỜNG XUYÊN.
(Mặt hàng thường xuyên là những tập hợp các mặt hàng xuất hiện với tần suất
(hoặc xác suất) cao trong các giao dịch của cơ sở dữ liệu.)
TẬN DỤNG "ĐỘC TÍNH APRIORI": là một đặc điểm quan trọng của thuật toán
Apriori. BẤT KỲ TẬP CON NÀO CỦA MỘT MẶT HÀNG THƯỜNG XUYÊN CŨNG PHẢI THƯỜNG XUYÊN. QUY TRÌNH
QUY TRÌNH: TẠO ỨNG VIÊN: TẠO CÁC MẶT HÀNG ỨNG VIÊN DỰA
TRÊN CÁC MẶT HÀNG THƯỜNG XUYÊN TỪ LẶP LẠI TRƯỚC ĐÓ.
ĐẾM HỖ TRỢ: Đếm tần suất (hoặc hỗ trợ) của mỗi mặt hàng ứng viên trong tập dữ liệu.
CẮT CẮT: XÓA CÁC MẶT HÀNG KHÔNG THƯỜNG XUYÊN.
LẶP LẠI: LẶP LẠI CÁC BƯỚC 1-3 CHO ĐẾN KHI KHÔNG TÌM THẤY BẤT
KỲ MẶT HÀNG THƯỜNG XUYÊN NÀO NỮA. ƯU ĐIỂM
DỄ HIỂU VÀ TRIỂN KHAI. Thuật toán Apriori có cấu trúc đơn giản và dễ dàng để
hiểu, vì nó hoạt động theo cách chia nhỏ bài toán thành các bước dễ dàng thực hiện
(tạo ứng viên, đếm hỗ trợ, cắt bớt ứng viên không hợp lệ) NHƯỢC ĐIỂM
CÓ THỂ KHÔNG HIỆU QUẢ ĐỐI VỚI CÁC TẬP DỮ LIỆU LỚN DO PHƯƠNG
PHÁP KIỂM TRA TẠO ỨNG VIÊN. KHÁI NIỆM CỐT LÕI
XÂY DỰNG MỘT BIỂU DIỄN NÉN CỦA TẬP DỮ LIỆU ĐƯỢC GỌI LÀ FP- TREE.
thuật toán FP-Growth sử dụng một cấu trúc dữ liệu đặc biệt gọi là FP-tree
(Frequent Pattern Tree) để biểu diễn các giao dịch và hiệu quả hơn trong việc khai
thác các tập mục thường xuyên.
Khai thác HIỆU QUẢ CÁC TẬP MỤC THƯỜNG XUYÊN BẰNG CÁCH DUYỆT FP TREE.
Các tập mục thường xuyên được tìm thấy bằng cách duyệt từ các nhánh của FP- tree.
Mỗi nhánh trong cây FP đại diện cho một tập hợp các mục thường xuyên. Thuật
toán sử dụng các kỹ thuật chia nhỏ và tái sử dụng thông tin để khai thác tất cả các
tập mục thường xuyên mà không cần tạo ứng viên. QUY TRÌNH
QUY TRÌNH:SẮP XẾP TẦN SUẤT CỦA MỤC: SẮP XẾP CÁC MỤC DỰA
TRÊN TẦN SUẤT CỦA CHÚNG.
Mục tiêu: Xác định các mục phổ biến nhất trong tập dữ liệu và sắp xếp chúng theo tần suất giảm dần. Cách thực hiện:
Tính tần suất (support) của từng mục trong tập dữ liệu.
Sắp xếp các mục theo tần suất từ cao đến thấp, chỉ giữ lại các mục có tần
suất lớn hơn hoặc bằng ngưỡng hỗ trợ tối thiểu (min_support).
Điều này giúp giảm độ phức tạp của việc xây dựng FP-tree vì các mục phổ
biến hơn sẽ được ưu tiên trong quá trình xây dựng cây.
XÂY DỰNG FP-TREE: TẠO FP-TREE BẰNG CÁCH CHÈN GIAO DỊCH, XEM
XÉT TẦN SUẤT CỦA MỤC VÀ BẢNG TIÊU ĐỀ.
Mục tiêu: Tạo ra một cấu trúc cây FP (Frequent Pattern Tree) để lưu trữ các
giao dịch trong tập dữ liệu một cách nén, giúp việc khai thác các tập mục thường
xuyên trở nên hiệu quả.
Cách thực hiện:
Chèn giao dịch: Với mỗi giao dịch trong tập dữ liệu, các mục sẽ được sắp
xếp theo tần suất giảm dần và chèn vào FP-tree. Nếu một nhánh đã tồn tại
trong cây, giao dịch sẽ chia sẻ nhánh đó, giảm thiểu việc lưu trữ lại dữ liệu trùng lặp.
Xem xét tần suất của mục: Các mục trong giao dịch được kiểm tra và chỉ
các mục thỏa mãn ngưỡng hỗ trợ tối thiểu sẽ được thêm vào FP-tree.
Bảng tiêu đề (Header Table): Một bảng tiêu đề (header table) được xây
dựng để lưu trữ các mục và con trỏ đến các vị trí của chúng trong cây FP,
giúp dễ dàng truy xuất các mục trong cây.
PHÁT TRIỂN MẪU: ĐỆ QUY KHAI THÁC MẪU TẦN SUẤT BẰNG CÁCH
DUYỆT FP-TREE VÀ TẠO FP-TREE CÓ ĐIỀU KIỆN.
Mục tiêu: Khai thác các tập mục thường xuyên từ FP-tree và tạo ra các mẫu có điều
kiện để cải thiện hiệu suất. ƯU ĐIỂM
HIỆU QUẢ HƠN APRIORI, ĐẶC BIỆT LÀ ĐỐI VỚI CÁC TẬP DỮ LIỆU LỚN.
Không cần tạo ứng viên: FP-Growth không cần phải tạo ra các ứng viên như
Apriori, điều này giúp giảm đáng kể chi phí tính toán. Trong khi Apriori tạo và kiểm
tra các ứng viên, FP-Growth xây dựng một FP-tree để nén thông tin và khai thác các
mẫu thường xuyên từ đó.
Tiết kiệm bộ nhớ và tài nguyên tính toán: FP-Growth chỉ cần lưu trữ FP-tree
và bảng tiêu đề, điều này giúp tiết kiệm bộ nhớ và thời gian tính toán, đặc biệt khi
làm việc với tập dữ liệu lớn.
Hiệu quả trong các dữ liệu lớn: FP-Growth có thể xử lý các bộ dữ liệu rất lớn
một cách nhanh chóng và hiệu quả mà không gặp phải vấn đề hiệu suất như Apriori,
vì FP-Growth giảm thiểu số lần quét dữ liệu và không yêu cầu kiểm tra tất cả các kết hợp của các mục. NHƯỢC ĐIỂM
PHỨC TẠP HƠN ĐỂ TRIỂN KHAI VÀ HIỂU
Khó hiểu và triển khai: Mặc dù FP-Growth hiệu quả hơn Apriori, nhưng nó yêu
cầu người triển khai phải hiểu và làm việc với các cấu trúc dữ liệu phức tạp như FP-