HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THÔNG TIN
QUẢN LÝ
KHO DỮ LIỆU
DATA WAREHOUSE
1
Câu hỏi?
1. Tại sao phải làm DWH?
2. Tại sao phải tổ chức Dim, Fact mà không phải
kiểu 3NF
Tại sao lại là star-schema hoặc snowflake?
3. Loại DB nào phù hợp làm DWH?
4. Doanh nghiệp có lợi ích gì từ việc làm DWH?
Đầu ra của DWH là gì?
5. Phương pháp xây dựng như thế nào?
2
8/30/2022
Danh sách khách hàng sử dụng thATM mà chưa đăng ký dch vụ
Internet Banking?
Số dư bình quân năm 2017 của các khách hàng có tiền gửi có k hn 6
tháng là bao nhiêu?
Phần trăm tăng trưởng thẻ tín dụng ca chi nhánh Hà Nội bao nhiêu?
CORE BANKING
CARD SYSTEM INTERNET BANKING HUMAN RESOURCES CRM
OLTP
Tổng số dư các khoản tiền gửi có kỳ hạn
Số ợng khách hàng
đăng DV Internet Banking
Số ợng khách hàng
sử dụng thẻ ghi nợ nội địa (ATM)
CÁC VẤN ĐỀ CẦN PHẢI GIẢI QUYẾT ĐỂ ĐÁP ỨNG YÊU CẦU
QUẢN LÝ/PHÂN TÍCH
Danh sách khách hàng sử dụng thATM chưa đăng dch vụ
Internet Banking?
Số dư bình quân năm 2017 của các khách hàng có tiền gửi kỳ hạn 6
tháng là bao nhiêu?
Phần trăm ng trưởng thẻ tín dụng ca chi nhánh Nội là bao nhiêu?
Làm sao tổng hợp được dữ liệu từ nhiều nguồn?
Làm sao tổng hợp được dữ liệu từ nhiều hạ tầng CSDL khác nhau?
Làm sao lưu trữ dữ liệu lịch sử của m 2017 số của các khoản tiền
gửi?
Làm sao để xử tính toán 1 năm dữ liệu không ảnh hưởng đến
các hoạt động khác của Corebanking?
Làm sao so sánh được biến động giữa các tháng?
DATA WAREHOUSE là giải pháp?
Profile Extract
Transform -
Load
Customer
Mortgages
Deposits
Foreign Exchange
Credit Cards
Investments
Portfolio Management
Etc.
Reporting &
Analysis
ED
W
Risk
Applications
Data Marts / Cubes
Extract, Transform,
and Load (ETL)
Enterprise Data
Warehouse
Calculation Engines Data Marts
Decision Support/
Reporting
Data Sources /
Operational
Systems
Enterprise Data
Warehouse
Dự báo
Phân tích, ra quyết định kinh doanh
Báo cáo
Nội dung
1.Khái niệm kho dữ liệu
2. Mô hình dữ liệu đa chiều
3. Kiến trúc kho dữ liệu
4. Xây dựng kho dữ liệu
5. Từ xây dựng kho dữ liệu tới KPDL
6
THE TRENDS OF DATA ANALYTICS
7
Evolution of Decision Support, Business Intelligence,
and Analytics
8
Bài 1: Khái niệm kho dữ liệu
Khái niệm kho dữ liệu
Mô hình dữ liệu đa chiều
Kiến trúc kho dữ liệu
Xây dựng kho dữ liệu
Từ xây dựng kho dữ liệu tới KPDL
9
Cơ sở dữ liệu vận hành
hình dữ liệu quan hệ
4 tính chất (Tính chất ACID):
Tính nguyên tố (Atomicity)
Tính nhất quán (Consistency)
Tính tách biệt (Isolation)
Tính bền vững (Durability)
Các chuẩn 1NF, 2NF, 3NF, BCNF
10
Ví dụ về CSDL
11
Sau khi chuẩn hoá
12
Which Architecture is the Best?
Bill Inmon versus Ralph Kimball
Enterprise DW versus Data Marts approach
Empirical study by Ariyachandra and Watson (2006)
Data Warehouse Development
Data warehouse development approaches
Inmon Model: EDW approach (top-down)
Kimball Model: Data mart approach (bottom-up)
Which model is best?
There is no one-size-fits-all strategy to DW
One alternative is the hosted warehouse
Data warehouse structure:
The Star Schema vs. Relational
Real-time data warehousing?
DW Development Approaches
(Kimball Approach) (Inmon Approach)
Cơ sở dữ liệu vận hành/ CSDL tác nghiệp
(Traditional operational or transactional databases)
Nhược điểm của OLTP trong phân tích:
Các số liệu ở mức quá chi tiết
Dữ liệu phân bố ở những hệ thống khác nhau, có các thủ
tục truy cập khác nhau và ở những CSDL hoàn toàn khác
nhau.
Các số liệu không được cập nhập cùng một chu kỳ dẫn
đến sự mất đồng bộ.
Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác
nhau có ảnh hưởng rất xấu tới hiệu suất của các hệ
thống vì mục đích của các hệ thống này là nhằm phục
vụ các giao dịch trực tuyến.
16
Khái niệm kho dữ liệu
Kho dữ liệu (KDL) được định nghĩa theo nhiều cách song không nghiêm
ngặt (chính xác).
CSDL hỗ trợ quyết định được duy trì ch biệt với CSDL tác nghiệp
của tổ chức.
Hỗ trợ xử lý thông tin nhờ cung cấp một nền tảng vững chắc dữ liệu
hợp nhất, lịch sử để phân tích.
“KDL là một tập hợp dữ liệu hướng chủ đề, tích hợp, có tính thời gian
không thay đổi để hỗ trợ quá trình ra quyết định quản lý.”W. H. Inmon
[Inm02]
[Inm02] W. H. Inmon (2002). Building the Data Warehouse (Third Edition). John Wiley & Sons, Inc.
17
Kho dữ liệu: khái niệm
Kho dữ liệu là một môi trường thông tin [Pon01]:
Cung cấp một khung nhìn tích hợp tổng thể về doanh nghiệp
Tạo sự sẵn thông tin hiện tại lịch sử của doanh nghiệp để thuận
lợi ra quyết định
Tạo khả năng giao dịch hỗ trợ quyết định không cản trở hệ thống
tác nghiệp
Cung cấp tính nhất quán thông tin doanh nghiệp
Trình diễn nguồn thông tin chiến lược linh hoạt tương tác được
Bổ sung đặc trưng thứ năm là “kết hạt dữ liệu - Data Granularity
[Pon01] Paulraj Ponniah, Data warehousing fundamentals, John Wiley & Sons Inc., 2001
18
Kiến trúc kho dữ liệu: sơ bộ
19
Kiến trúc tổng thể của kho dữ liệu
KDL đặc trưng hướng chủ đề
Được tổ chức xung quanh các chủ đề chính, chẳng hạn như
khách hàng, sản phẩm, bán hàng.
Tập trung vào xây dựng mô hình phân tích dữ liệu để tạo
quyết định; không phải quá trình tác nghiệp hoặc giao dịch
hàng này.
Cung cấp một khung nhìn đơn giản và ngắn gọn về các đề tài
thuộc chủ đề cụ thể nhờ loại bỏ các dữ liệu vô dụng trong quá
trình ra quyết định.
20

Preview text:

HỌC VIỆN NGÂN HÀNG
KHOA HỆ THỐNG THÔNG TIN QUẢN LÝ KHO DỮ LIỆU DATA WAREHOUSE 1 Câu hỏi?
❖1. Tại sao phải làm DWH?
❖2. Tại sao phải tổ chức Dim, Fact mà không phải kiểu 3NF
▪ Tại sao lại là star-schema hoặc snowflake?
❖3. Loại DB nào phù hợp làm DWH?
❖4. Doanh nghiệp có lợi ích gì từ việc làm DWH? Đầu ra của DWH là gì?
❖5. Phương pháp xây dựng như thế nào? 8/30/2022 2
Danh sách khách hàng có sử dụng thẻ ATM mà chưa đăng ký dịch vụ Internet Banking?
Số dư bình quân năm 2017 của các khách hàng có tiền gửi có kỳ hạn 6 tháng là bao nhiêu?
Phần trăm tăng trưởng thẻ tín dụng của chi nhánh Hà Nội là bao nhiêu?
Tổng số dư các khoản tiền gửi có kỳ hạn Số lượng khách hàng đăng ký DV Internet Banking Số lượng khách hàng
sử dụng thẻ ghi nợ nội địa (ATM) O LTP CORE BANKING CARD SYSTEM INTERNET BANKING HUMAN RESOURCES CRM
CÁC VẤN ĐỀ CẦN PHẢI GIẢI QUYẾT ĐỂ ĐÁP ỨNG YÊU CẦU QUẢN LÝ/PHÂN TÍCH
Danh sách khách hàng có sử dụng thẻ ATM mà chưa đăng ký dịch vụ •
Làm sao tổng hợp được dữ liệu từ nhiều nguồn? Internet Banking? •
Làm sao tổng hợp được dữ liệu từ nhiều hạ tầng CSDL khác nhau? •
Làm sao lưu trữ dữ liệu lịch sử của năm 2017 số dư của các khoản tiền
Số dư bình quân năm 2017 của các khách hàng có tiền gửi có kỳ hạn 6 gửi? tháng là bao nhiêu? •
Làm sao để xử lý tính toán 1 năm dữ liệu mà không ảnh hưởng đến
các hoạt động khác của Corebanking?
Phần trăm tăng trưởng thẻ tín dụng của chi nhánh Hà Nội là bao nhiêu?
• Làm sao so sánh được biến động giữa các tháng?
DATA WAREHOUSE là giải pháp? Dự báo
Phân tích, ra quyết định kinh doanh Báo cáo Reporting & Analysis
Data Marts / Cubes Enterprise Data Warehouse ED W Profile – Extract – Transform - Load Customer Mortgages Deposits Foreign Exchange Credit Cards Investments Risk Portfolio Management Applications Etc. Data Sources / Extract, Transform, Enterprise Data Decision Support/ Operational Calculation Engines Data Marts and Load (ETL) Warehouse Reporting Systems Nội dung
❖1.Khái niệm kho dữ liệu
❖2. Mô hình dữ liệu đa chiều
❖3. Kiến trúc kho dữ liệu
❖4. Xây dựng kho dữ liệu
❖5. Từ xây dựng kho dữ liệu tới KPDL 6
THE TRENDS OF DATA ANALYTICS 7
Evolution of Decision Support, Business Intelligence, and Analytics 8
Bài 1: Khái niệm kho dữ liệu
❖Khái niệm kho dữ liệu
❖Mô hình dữ liệu đa chiều
❖Kiến trúc kho dữ liệu ❖Xây dựng kho dữ liệu
❖Từ xây dựng kho dữ liệu tới KPDL 9
Cơ sở dữ liệu vận hành
• Mô hình dữ liệu quan hệ
• 4 tính chất (Tính chất ACID):
•Tính nguyên tố (Atomicity)
•Tính nhất quán (Consistency)
•Tính tách biệt (Isolation)
•Tính bền vững (Durability)
• Các chuẩn 1NF, 2NF, 3NF, BCNF 10 Ví dụ về CSDL 11 Sau khi chuẩn hoá 12
Which Architecture is the Best?
❖Bill Inmon versus Ralph Kimball
❖Enterprise DW versus Data Marts approach
Empirical study by Ariyachandra and Watson (2006)
Data Warehouse Development
❖ Data warehouse development approaches ▪
Inmon Model: EDW approach (top-down) ▪
Kimball Model: Data mart approach (bottom-up) ▪ Which model is best? •
There is no one-size-fits-all strategy to DW ▪
One alternative is the hosted warehouse ❖ Data warehouse structure: ▪
The Star Schema vs. Relational
❖ Real-time data warehousing?
DW Development Approaches
(Kimball Approach) (Inmon Approach)
Cơ sở dữ liệu vận hành/ CSDL tác nghiệp
(Traditional operational or transactional databases)
❖Nhược điểm của OLTP trong phân tích:
▪ Các số liệu ở mức quá chi tiết
▪ Dữ liệu phân bố ở những hệ thống khác nhau, có các thủ
tục truy cập khác nhau và ở những CSDL hoàn toàn khác nhau.
▪ Các số liệu không được cập nhập cùng một chu kỳ dẫn
đến sự mất đồng bộ.
▪ Việc tổ chức truy cập từ rất nhiều bảng dữ liệu khác
nhau có ảnh hưởng rất xấu tới hiệu suất của các hệ
thống vì mục đích của các hệ thống này là nhằm phục
vụ các giao dịch trực tuyến. 16
Khái niệm kho dữ liệu
❖ Kho dữ liệu (KDL) được định nghĩa theo nhiều cách song không nghiêm ngặt (chính xác).
▪ CSDL hỗ trợ quyết định được duy trì tách biệt với CSDL tác nghiệp của tổ chức.
▪ Hỗ trợ xử lý thông tin nhờ cung cấp một nền tảng vững chắc dữ liệu
hợp nhất, lịch sử để phân tích.
❖ “KDL là một tập hợp dữ liệu hướng chủ đề, tích hợp, có tính thời gian
không thay đổi để hỗ trợ quá trình ra quyết định quản lý.”—W. H. Inmon [Inm02]
[Inm02] W. H. Inmon (2002). Building the Data Warehouse (Third Edition). John Wiley & Sons, Inc. 17
Kho dữ liệu: khái niệm
❖ Kho dữ liệu là một môi trường thông tin [Pon01]:
▪ Cung cấp một khung nhìn tích hợp và tổng thể về doanh nghiệp
▪ Tạo sự sẵn có thông tin hiện tại và lịch sử của doanh nghiệp để thuận lợi ra quyết định
▪ Tạo khả năng giao dịch hỗ trợ quyết định mà không cản trở hệ thống tác nghiệp
▪ Cung cấp tính nhất quán thông tin doanh nghiệp
▪ Trình diễn nguồn thông tin chiến lược linh hoạt và tương tác được
Bổ sung đặc trưng thứ năm là “kết hạt dữ liệu - Data Granularity
[Pon01] Paulraj Ponniah, Data warehousing fundamentals, John Wiley & Sons Inc., 2001 18
Kiến trúc kho dữ liệu: sơ bộ
Kiến trúc tổng thể của kho dữ liệu 19
KDL — đặc trưng hướng chủ đề
❖ Được tổ chức xung quanh các chủ đề chính, chẳng hạn như
khách hàng, sản phẩm, bán hàng.
❖ Tập trung vào xây dựng mô hình phân tích dữ liệu để tạo
quyết định; không phải quá trình tác nghiệp hoặc giao dịch hàng này.
❖ Cung cấp một khung nhìn đơn giản và ngắn gọn về các đề tài
thuộc chủ đề cụ thể nhờ loại bỏ các dữ liệu vô dụng trong quá trình ra quyết định. 20