Tiểu luận cuối kì - Cấu trúc dữ liệu và giải thuật (ET2100) | Trường Đại học Bách khoa Hà Nội
Tiểu luận cuối kì - Cấu trúc dữ liệu và giải thuật (ET2100) | Trường Đại học Bách khoa Hà Nội được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn sinh viên cùng tham khảo. Mời bạn đọc đón xem!
Môn: Cấu trúc dữ liệu và giải thuật (ET2100)
Trường: Đại học Bách Khoa Hà Nội
Thông tin:
Tác giả:
Preview text:
lOMoAR cPSD| 44729304
ĐẠI HỌC BÁCH KHOA HÀ NỘI
TIỂU LUẬN HỌC PHẦN
PHÂN TÍCH DỮ LIỆU VÀ TRI THỨC KINH DOANH NHÓM 7
NGUYỄN TRỌNG CHIẾN chien.nt202997@sis.hust.edu.vn LÊ THẾ HÙNG hung.lt203015@sis.hust.edu.vn BÙI NGỌC DIỆP diep.bn203000@sis.hust.edu.vn
Ngành Quản trị Kinh doanh
Giảng viên hướng dẫn ThS. Nguyễn Danh Tú Bộ môn
Phân tích dữ liệu và tri thức kinh doanh Chữ ký của GVHD Viện
Toán ứng dụng và Tin học lOMoAR cPSD| 44729304 HÀ NỘI, 01/2023
MỤC LỤC ĐÁNH GIÁ THÀNH VIÊN NHÓM ................................................... 2
TỰ ĐÁNH GIÁ BÁO CÁO ..................................................................................... 2
LỜI MỞ ĐẦU ........................................................................................................... 3
DANH MỤC HÌNH VẼ ........................................................................................... 4
DANH MỤC BẢNG BIỂU ...................................................................................... 5
PHẦN 1: TỒNG QUAN VỀ DATA WAREHOUSE ............................................. 6
1.1. Data Warehouse là gì? ......................................................................................... 6
1.3. Cấu trúc dữ liệu cho kho dữ liệu ........................................................................ 7
1.4. Các loại lược ồ của kho dữ liệu .......................................................................... 8
1.4.1. Lược ồ hình sao (Start Schema) ............................................................... 8
1.4.2. Lược ồ bông tuyết (Snow Flake Schema) ................................................ 8
1.4.3. Galaxy Schema .......................................................................................... 9
1.4.4. Fact Constellation Schema ....................................................................... 9
1.5. Nguyên lý thiết kế Data Warehouse ................................................................. 10
PHẦN 2: TỒNG QUAN VỀ BI ............................................................................. 11
2.1. Các khái niêm cơ bản về BI .............................................................................. 11
2.2. Một số hoạt ộng chính của BI ........................................................................... 11
2.3. Ứng dụng và lợi ích của BI trong kinh doanh ................................................ 12
2.3.1. Ứng dụng ................................................................................................. 12
2.3.2. Lợi ích ...................................................................................................... 13
PHẦN 3: ỨNG DỤNG DATAWAREHOUSE VÀ BI VÀO PHÂN TÍCH
DỮ LIỆU LĨNH VỰC BÁN LẺ ............................................................................ 15
3.1. Giới thiệu về bài toán và ODS .......................................................................... 15
3.2. Kiến trúc DataWarehouse ................................................................................ 16
3.3. Tiền xử lý dữ liệu ............................................................................................... 17
3.4. Mô hình dữ liệu OLTP ...................................................................................... 19
3.4.1. Sơ ồ quan hệ thực thể ............................................................................. 19
3.4.2. Mô tả cấu trúc trong cơ sở dữ liệu ......................................................... 19
3.4.3. Phân tích các chiều Dimension .............................................................. 21
3.5. Mô hình dữ liệu OLAP ..................................................................................... 24
3.6. Các mẫu Dashboard .......................................................................................... 25
3.6.1. DashboardSale - Doanh thu ................................................................... 25
3.6.2. Dashboard Quantity - Sản lượng ........................................................... 32
3.6.3. Dashboard Profit - Lợi nhuận ................................................................ 39
KẾT LUẬN ............................................................................................................. 45
TÀI LIỆU THAM KHẢO ..................................................................................... 46 lOMoAR cPSD| 44729304
ĐÁNH GIÁ THÀNH VIÊN NHÓM HỌ VÀ TÊN Nguyễn Trọng Chiến LỚP
Quản trị kinh doanh 02 - K65 NHÓM Nhóm 7 STT Tên thành Làm tốt Liên hệ Khả năng
Sẵn sàng Đóng góp viên phần ược óng góp giúp ỡ chung vào việc ược khi cần sáng kiến, ý kết quả của giao kiến cho nhóm hoạt ộng nhóm 1 Lê Thế Hùng 4 5 4 5 5 2 Bùi Ngọc Diệp 4 5 4 5 5 Ký (Ghi rõ họ tên) Chiến Nguyễn Trọng Chiến
TỰ ĐÁNH GIÁ BÁO CÁO
Khoản thời gian học tập môn Phân tích dữ liệu và tri thức kinh doanh trong học kì 2022.1
là giai oạn nhóm em ược tiếp xúc với một mảng kiến thức mới. Để giờ ây, vào cuối kì nhóm có
cơ hội tổng hợp và hệ thống hóa lại một vài kiến thức ã học, ồng thời kết hợp với dữ liệu thực
tế ể nâng cao kiến thức chuyên môn, ược trình bày thông qua bài báo cáo cuối kì của nhóm. Tuy
chỉ có 17 tuần học, nhưng qua quá trình học tập và trao ổi, nhóm em ã mở rộng tầm nhìn và tiếp
thu nhiều kiến thức sẽ ược sử dụng trong suốt 04 năm ại học. Từ ó nhóm em nhận thấy, việc
thực hiện báo cáo vơi dữ liệu ngoài thực tế là vô cùng quan trọng - nó giúp sinh viên xây dựng
nền tảng lý thuyết ược học cũng như cách thức trình bày một bài tiểu luận báo cáo. Trong quá
trình thực hiện bài báo cáo, từ chỗ còn bỡ ngỡ cho ến thiếu kiến thức và kinh nghiệm, nhóm em
ã gặp phải rất nhiều khó khăn nhưng với sự giúp ỡ tận tình của thầy Nguyễn Danh Tú ã giúp
nhóm em có ược những kinh nghiệm, trải nghiệm quý báu ể hoàn thành tốt bài báo cáo.
Vì thời gian và kiến thức còn hạn hệp nên bài báo cáo không thể tránh khỏi những thiếu
sót, rất mong sự góp ý của thầy Nguyễn Danh Tú, ể nhóm em rút kinh nghiệm và hoàn thành
tốt hơn trong những bài báo cáo tiếp theo.
Em xin chân thành cảm ơn! 2 lOMoAR cPSD| 44729304 LỜI MỞ ĐẦU
Trong những năm gần ây xu thế hội nhập về kinh tế hiện nay, sự cạnh tranh diễn ra gay
gắt, ể tồn tại và phát triển các doanh nghiệp phải ối mặt với rất nhiều khó khăn. Đứng trước
những thách thức như hiện nay, các doanh nghiệp phải không ngừng hoàn thiện, nâng cao hoạt
ộng kinh doanh của mình, ồng thời phải có những chiến lược kinh doanh ể thích ứng cho mỗi
giai oạn phát triển. Chính vì vậy, việc phân tích thường xuyên hoạt ộng kinh doanh của doanh
nghiệp sẽ giúp cho các nhà quản trị ánh giá ầy ủ, chính xác mọi diễn biến và kết quả hoạt ộng
sản xuất kinh doanh, biết ược những iểm mạnh, iểm yếu của doanh ng iệp ể củng cố, phát huy
hay khắc phục, cải tiến quản lý. Từ ó, doanh ghiệp tận dụng phát huy mọi tiềm năng, khai thắc
tối a nguồn lực nhằm ạt ến hiệu quả cao nhất trong kinh doanh. Kết quả của phân tích là cơ sở
ể ưa ra các quyết ịnh quản trị ngắn hạn và dài hạn. Phân tích hiệu quả hoạt ộng kinh doanh
thông qua dữ liệu thu thập ược, giúp dự báo, ề phòng và hạn chế những rủi ro trong kinh doanh.
Hiện nay, xu thế phát triển hung của nền kinh tế thế giới nói chung và nền kinh tế của nước ta
nói riêng òi hỏi các doanh nghiệp phải nổ lực rất lớn mới có tể tồn tại và phát triển ược. Điều
này òi hỏi các nhà quản trị doanh nghiệp phải biết rõ thực lực của doanh nghiệp mình mà ề ra
các phương hướng phát triển phù hợp. Để làm ược iều này nhà quản trị phải thực hiện nghiêm
túc việc phân tích kết quả hoạt ộng kinh doanh dựa trên dữ liệu của doanh nghiệp mình.
Vì vậy, phân tích kết quả hoạt ộng kinh doanh có vai trò rất quan trọng ối với mọi doanh
nghiệp. Việc hoàn thành hay không ạt ược kế hoạch kinh doanh ề ra sẽ quyết ịnh sự sống còn
của một doanh nghiệp. Để rút ngắn khoảng cách của những dự tính kế hoạch thì việc phân tích
kết quả hoạt ộng kinh doanh của doanh nghiệp phải ược thực hiện cẩn trọng nhằm có sự ánh
giá úng ắn và chính xác. Từ ó, nhà quản trị sẽ có những ịnh hướng cho tương lai của doanh
nghiệp phù hợp với sự phát triển chung của nền kinh tế ất nước, tăng khả năng cạnh tranh cho
doanh nghiệp, giúp doanh nghiệp phát triển bền vững. 3 lOMoAR cPSD| 44729304
Đồng thời với sự phát triển ngày càng nhanh của Công nghệ, việc phân tích dữ liệu từ o
xây dựng lên các Dashboard ngày càng trở nên dễ dàng. Vì vậy, nhóm em ã lựa chọn Phân tích
dữ liệu với bài toán “Bán lẻ” thông qua Hệ cơ sở dữ liệu và Quá trình kinh doanh thông minh (BI). Báo cáo gồm 03 phần:
• Phần I: Tổng quan về Data warehouse
• Phần II: Tổng quan về BI
• Phần III: Ứng dụng Datawarehouse và BI vào phân tích dữ liệu lĩnh vực bán lẻ DANH MỤC HÌNH VẼ
Hình 1. 1. Mô hình dữ liệu nhiều chiều. ..................................................................................... 9
Hình 1. 2. Đồ thị lược ồ hình sao. .......................................................................................... 10
Hình 1. 3. Đồ thị lược ồ hình sao. .......................................................................................... 11
Hình 1. 4. Đồ thị lược ồ Galaxy. ............................................................................................ 11
Hình 3. 1. Sơ ồ quy trình nghiệp vụ. ...................................................................................... 17
Hình 3. 2. Kiến trúc Data Warehouse của hệ thống quản lý hoạt ộng bán lẻ. ........................ 18
Hình 3. 3. Thêm cột Category ID. ........................................................................................... 19
Hình 3. 4. Thêm cột PriceBuy. ................................................................................................. 19
Hình 3. 5. Xóa dữ liệu trùng lặp. .............................................................................................. 19
Hình 3. 6. Xóa dữ liệu null. ...................................................................................................... 20
Hình 3. 7. Định dạng lại dữ liệu. .............................................................................................. 20
Hình 3. 8. Tách dữ liệu thành từng bảng. ................................................................................. 20
Hình 3. 9. Chuyển dữ liệu sang Power BI. ............................................................................... 21
Hình 3. 10. Sơ ồ quan hệ thực thể OLTP. .............................................................................. 21
Hình 3. 11. Dữ liệu về chiều thời gian. .................................................................................... 24
Hình 3. 12. Dữ liệu về chiều sản phẩm. ................................................................................... 24
Hình 3. 13. Dữ liệu về chiều vận chuyển. ................................................................................ 24
Hình 3. 14. Dữ liệu về chiều khách khàng. .............................................................................. 25
Hình 3. 15. Mô hình quan hệ ER của hệ thống OLAP. ............................................................ 25
Hình 3. 16. Mô hình quan hệ của hệ thống OLAP. .................................................................. 26
Hình 3. 17. Dashboard Doanh thu_Tổng quát .......................................................................... 28
Hình 3. 18. Dashboard Doanh thu_Năm 2014 ......................................................................... 29
Hình 3. 19. Dashboard Doanh thu_Năm 2015 ......................................................................... 30
Hình 3. 20. Dashboard Doanh thu_Năm 2016 ......................................................................... 31
Hình 3. 21. Dashboard Doanh thu_Năm 2017 ......................................................................... 32
Hình 3. 22. Dashboard Sản lượng_Tổng quát .......................................................................... 34
Hình 3. 23. Dashboard Sản lượng_Năm 2014 .......................................................................... 35
Hình 3. 24. Dashboard Sản lượng_Năm 2015 .......................................................................... 36
Hình 3. 25. Dashboard Sản lượng_Năm 2016 .......................................................................... 37 4 lOMoAR cPSD| 44729304
Hình 3. 26. Dashboard Sản lượng_Năm 2017 .......................................................................... 38
Hình 3. 27. Dashboard Lợi nhuận_Tổng quát .......................................................................... 40
Hình 3. 28. Dashboard Lợi nhuận_Năm 2014 .......................................................................... 41
Hình 3. 29. Dashboard Lợi nhuận_Năm 2015 .......................................................................... 42
Hình 3. 30. Dashboard Lợi nhuận_Năm 2016 .......................................................................... 43
Hình 3. 31. Dashboard Lợi nhuận_Năm 2017 .......................................................................... 44
DANH MỤC BẢNG BIỂU
Bảng 3. 1. Mô tả các trường dữ liệu ......................................................................................... 17
Bảng 3. 2. Mô tả cấu trúc DetailOrde ....................................................................................... 22
Bảng 3. 3. Mô tả cấu trúc Customer ......................................................................................... 22
Bảng 3. 4. Mô tả cấu trúc Order ............................................................................................... 22
Bảng 3. 5. Mô tả cấu trúc Category .......................................................................................... 22
Bảng 3. 6. Mô tả cấu trúc Product ............................................................................................ 23
Bảng 3. 7. OLTP - Dim_Date ................................................................................................... 23
Bảng 3. 8. OLTP - Dim_Product .............................................................................................. 23
Bảng 3. 9. OLTP - Dim_Delivery ............................................................................................ 23
Bảng 3. 10. OLTP - Dim_Customer ......................................................................................... 23
Bảng 3. 11. OLTP - Dim_DistCustomer .................................................................................. 24 5 lOMoAR cPSD| 44729304
PHẦN 1: TỒNG QUAN VỀ DATA WAREHOUSE
1.1. Data Warehouse là gì?
Data warehouse (gọi tắt là DW) là tập dữ liệu hướng chủ ề, tích hợp, chiều thời gian và
bền vững hỗ trợ ra quyết ịnh. [1] Về cơ bản có thể hiểu Data Warehouse là một tập hợp các dữ
liệu, thông tin có chung một chủ ề, ược tổng hợp từ nhiều nguồn khác nhau trong nhiều mốc
thời gian và không chỉnh sửa. Được dùng cho việc hỗ trợ ra quyết ịnh, phân tích dữ liệu và lập
báo cáo trong công tác quản lý.
Data Warehouse hoạt ộng như một kho lưu trữ trung tâm. Dữ liệu i vào kho dữ liệu từ hệ
thống giao dịch và các cơ sở dữ liệu liên quan khác. Sau ó, dữ liệu ược xử lý, chuyển ổi ể người
dùng có thể truy cập những dữ liệu này thông qua công cụ Business Intelligence, SQL client hay bảng tính.
Một Data Warehouse thường bao gồm các yếu tố như: • Một cơ
sở dữ liệu quan hệ ể lưu trữ và quản lý dữ liệu.
• Giải pháp trích xuất, tải và biến ổi ELT ể chuẩn bị dữ liệu cho phân tích.
• Khả năng phân tích thống kê, báo cáo và khai thác dữ liệu.
• Các công cụ phân tích khách hàng ể trực quan hóa và trình bày dữ liệu cho người dùng doanh nghiệp.
• Các ứng dụng phân tích khác, phức tạp hơn tạo ra thông tin có thể hành ộng bằng
cách áp dụng khoa học dữ liệu và thuật toán trí tuệ nhân tạo AI hoặc các tính
năng ồ thị và không gian cho phép nhiều loại phân tích dữ liệu hơn trên quy mô lớn.
Bên cạnh ó, Data Warehouse cũng có những ặc tính nhất ịnh của bản thân hệ cơ sở, bao
gồm 04 ặc tính: hướng chủ ề, tích hợp, dữ liệu theo thời gian và bền vững; giống như Inmon,
W.H - một chuyên gia hàng ầu trong việc xây dựng hệ thống kho dữ liệu - từng ề cập "Một kho
dữ liệu là một tập hợp dữ liệu hướng chủ ề, tích hợp, biến thể thời gian, ít biến ộng hỗ trợ cho
quá trình ưa ra quyết ịnh của doanh nghiệp"; cụ thể như sau:
Hướng chủ ề: Thông tin trong Data Warehouse sẽ ược tập trung vào việc mô hình và
phân tích dữ liệu cho việc ra quyết ịnh chứ không phải xử lý các giao dịch hay tác nghiệp hàng
ngày xoay quanh các chủ thể như: khách hàng, sản phẩm và doanh thu. Mục ích của Kho dữ
liệu là phục vụ các yêu cầu phân tích, hoặc khai phá cụ thể ược gọi là chủ ề dưới một góc nhìn
cụ thể và ơn giản quanh một chủ ề bằng cách loại trừ dữ liệu thừa ối với quá trình ưa ra quyết ịnh.
Tích hợp: Một kho dữ liệu thường ược xây dựng bởi việc tích hợp nhiều nguồn dữ liệu
khác nhau chẳng hạn như cơ sở dữ liệu quan hệ, các tập tin, và hồ sơ giao dịch trực tuyến. Áp
dụng các kỹ thuật, tiền xử lý dữ liệu ETL nhằm làm sạch dữ liệu, tổng hợp dữ liệu từ nhiều
nguồn vào một kho dữ liệu cho phép người sử dụng có thể xem ồng thời nhiều nhóm chỉ tiêu
khác nhau, từ ó ảm bảo tính nhất quán giữa các nguồn dữ liệu.
Dữ liệu theo thời gian: Vì dữ liệu thay ổi liên tục nên chúng sẽ ược gán 1 nhãn thời gian
tương ứng tại thời iểm nhập liệu. Việc gắn thời gian này giúp người sử dụng dễ dàng so sánh
dữ liệu với nhau ể biết ược các thay ổi ang i theo chiều hướng tích cực hay tiêu cực.
Dữ liệu ược lưu trữ ể cung cấp thông tin mang tính lịch sử (ví dụ: trong 5-10 năm qua). Tất cả
các cấu trúc quan trọng trong kho dữ liệu chứa, hoặc ngầm chứa một phần tử của thời gian. Bền 6 lOMoAR cPSD| 44729304
vững: Một kho dữ liệu luôn luôn là kho riêng biệt về mặt vật lý ối với dữ liệu trong xử lý giao
tác hàng ngày. Do việc tách biệt này, một kho dữ liệu không yêu cầu xử lý giao dịch, phục hồi,
và cơ chế kiểm soát xử lý ồng thời. Nó thường òi hỏi chỉ có hai hoạt ộng trên dữ liệu là tải dữ
liệu và làm mới dữ liệu.
1.2. Vai trò của Data Warehouse
Sự xuất hiện của kho dữ liệu nhằm mục ích áp ứng lượng dữ liệu ngày càng tăng cần ược
xử lý. Nhu cầu lưu trữ dữ liệu tăng lên i kèm với ó là sự phức tạp của hệ thống máy tính. Từ ó,
ta thấy ược những lợi ích mà kho dữ liệu mang lại cho doanh nghiệp như:
• Tích hợp dữ liệu vào một nguồn, ở cùng một ịnh dạng, giải quyết sự phân mảnh và mất
cân bằng dữ liệu ể áp ứng nhu cầu thông tin của tất cả người dùng.
• Tiết kiệm thời gian và hiệu quả trong việc tìm kiếm dữ liệu cần thiết.
• Thông qua xử lý và phân tích dữ liệu Data Warehouse giúp cho dữ liệu của doanh nghiệp hiệu quả hơn.
• Giúp người dùng ưa ra các quyết ịnh hợp lý, nhanh chóng và hiệu quả, em lại nhiều lợi nhuận hơn,…
• Giúp tổ chức, xác ịnh, quản lý và thực hiện các dự án/hoạt ộng một cách hiệu quả và chính xác.
• Tăng áng kể lượng dữ liệu cần ược tổng hợp, lưu trữ và xử lý.
1.3. Cấu trúc dữ liệu cho kho dữ liệu
Lượng dữ liệu trong kho là rất lớn và không có những thao tác như sửa ổi hay tạo mới
nên nó cần ược tối ưu cho việc phân tích và báo cáo. Các thao tác với dữ liệu của kho dựa trên
cơ sở Mô hình dữ liệu a chiều (multidimensional data model), ược mô hình hoá vào ối tượng
ược gọi là data cube. Data cube là trung tâm phân tích, nó bao gồm nhiều dữ kiện (fact) và dữ
kiện tạo ra nhiều chiều dữ kiện khác nhau (dimention).
Hình 1. 1. Mô hình dữ liệu nhiều chiều.
Trong kho dữ liệu Data Warehouse, ta sẽ bắt gặp 03 loại dữ kiện như: (1) Additive - dữ
kiện có thể ược tổng hợp thông qua tất cả các các Dimension trong bảng Fact; (2) SemiAdditive
những sự kiện có thể ược tóm tắt cho một số Dimension trong bảng Fact chứ không phải là 7 lOMoAR cPSD| 44729304
những bảng khác; (3) Non-Additive Là những sự kiện không ược tóm tắt cho bất kỳ Dimension
hiện tại nào trong bảng Fact. Đồng thời, hệ thống kho dữ liệu gồm 3 tầng: (1) Tầng áy - cung
cấp dịch vụ lấy dữ liệu từ nhiều nguồn sau ó chuẩn hoá, làm sạch, tối ưu và lưu trữ dữ liệu ã tập
trung; (2) Tầng giữa - cung cấp các dịch vụ thực hiện các thao tác với dữ liệu hay là dịch vụ
OLAP; (3) Tầng trên - nơi chứa các câu truy vấn, báo cao, phân tích.
Bên cạnh ó, trong quá trình phân tích dữ liệu ta sẽ bắt gặp các hoạt ộng OLAP chính:
• Thu nhỏ (roll-up): Tập hợp thành những tập có phạm vi lớn hơn. VD: tập hợp theo năm thay vì theo quý.
• Mở rộng (drill-down): Chia nhỏ thành nhiều tập dữ liệu. VD: Nhóm theo tháng thay vì theo quý.
• Cắt lát (slice): Nhìn theo từng lớp một VD: Từ danh mục bán hàng của Q1,Q2,Q3, Q4 chỉ xem của quý Q1.
• Thu nhỏ (dice): Bỏ bớt một phần của dữ liệu.
• Pivot (rotate): Trực quan hóa, 3D thành hàng mặt phẳng 2D.
1.4. Các loại lược ồ của kho dữ liệu
1.4.1. Lược ồ hình sao (Start Schema)
Gồm 1 bảng Fact (bảng sự kiện) nằm ở trung tâm và ược bao quanh bởi những bảng
Dimension (bảng chiều). Dữ liệu của lược ồ hình sao không ược chuẩn hoá. Các câu hỏi nhằm
vào bảng Fact và ược cấu trúc bởi các bảng Dimension.
Hình 1. 2. Đồ thị lược ồ hình sao.
Ưu iểm: Bảng Fact, Dimension ược mô tả rõ ràng, dễ hiểu. Bảng Dim là bảng dữ liệu
tĩnh, và bảng Fact là dữ liệu ộng ược nạp bằng các thao tác. Khoá của Fact ược tạo bởi khoá của
các bảng Dim. Nghĩa là khoá chính của các bảng Dim chính là khoá của bảng Fact.
Nhược: Dữ liệu không ược chuẩn hoá.
1.4.2. Lược ồ bông tuyết (Snow Flake Schema)
Lược ồ bông tuyết là dạng mở rộng của lược ồ hình sao bằng các bổ sung các Dim. Bảng
Fact như lược ồ hình sao, bảng Dim ược chuẩn hoá. Các chiều ược cấu trúc rõ ràng.
Bảng Dim ược chia thành chiều chính hay chiều phụ,
Ưu iểm: Số chiều ược phân cấp thể hiện dạng chuẩn của bảng Dim. 8 lOMoAR cPSD| 44729304
Nhược: Cấu trúc phi dạng chuẩn của lược ồ hình sao phù hợp hơn cho việc duyệt các chiều.
Hình 1. 3. Đồ thị lược ồ hình sao.
1.4.3. Galaxy Schema
Galaxy Schema chứa nhiều bảng Fact sử dụng chung một số bảng Dim. Lược ồ là sự kết
hợp của nhiều data mart (kho dữ liệu có chủ ề, dạng thu nhỏ của kho dữ liệu, kho dữ liệu ược
chia thành nhiều phần nhỏ khác nhau).
Hình 1. 4. Đồ thị lược ồ Galaxy.
1.4.4. Fact Constellation Schema
Dimension trong lược ồ ược tách thành các Dimension ộc lập dựa trên các cấp ộ của hệ thống phân cấp.
Hình 1.5. Đồ thị lược ồ Fact Constellation. 9 lOMoAR cPSD| 44729304
1.5. Nguyên lý thiết kế Data Warehouse
Trong quá trình thiết kế Data Warehouse, ta cần ể ý tới 03 vấn ề chính bao gồm: Data, Structure
và Process; cụ thể, ta cần trả lời một số câu hỏi như sau:
Data: Cần thông tin gì ể hỗ trợ ra quyết ịnh? Ở cấp ộ nào? Dữ liệu ược lấy từ âu?
ịnh dạng như thế nào? Độ lớn dữ liệu? Mức ộ tăng trưởng dữ liệu như thế nào? cần bao nhiêu
không gian ể chứa?
Structure: Dữ liệu cần ược xây dựng theo những chiều nào ể phục vụ phân tích? Cấu
trúc dữ liệu nào là phù hợp với yêu cầu? (Relational OLAP, Multi-Dimensional OLAP, Hybrid OLAP).
Process: Tiến trình Extract (truy cập hệ thống nguồn ể trích xuất dữ liệu) -Tranform
(Kiểm tra, làm sạch, iều chỉnh phù hợp các yêu cầu của DW) -Load (cập nhật DW với dữ liệu
ược cung cấp từ load Data) ược thực hiện như thế nào? ặt ở âu? lập lịch như nào? Có những
ngoại lệ nào cần xử lý? ở cấp ộ nào? 10 lOMoAR cPSD| 44729304
PHẦN 2: TỒNG QUAN VỀ BI
2.1. Các khái niêm cơ bản về BI
Business Intelligence (BI, tạm dịch là Kinh doanh thông minh hay trí tuệ doanh nghiệp).
Có rất nhiều ịnh nghĩa về BI, mỗi ịnh nghĩa ề cập ến một ặc trưng nổi bật của BI.
Định nghĩa 1: Business Intelligence ề cập ến các kỹ năng, quy trình, công nghệ, ứng dụng ược
sử dụng ể hỗ trợ ra quyết ịnh.
Định nghĩa 2: BI là công cụ ể chuyển ổi những dữ liệu thô thành những thông tin có nghĩa,
phục vụ cho mục tiêu phân tích kinh doanh.
Định nghĩa 3: BI là các ứng dụng và công nghệ giúp chuyển ổi dữ liệu doanh nghiệp thành hành ộng.
Định nghĩa 4: BI là công nghệ giúp doanh nghiệp hiểu biết về quá khứ và dự oán tương lai.
Tóm lại BI là quy trình và công nghệ mà các doanh nghiệp sử dụng ể kiểm soát khối
lượng dữ liệu khổng lồ, khai phá tri thức giúp cho các doanh nghiệp có thể ưa các các quyết ịnh
hiệu quả hơn trong hoạt ộng kinh doanh của mình. Công nghệ BI (BI Technology) cung cấp
một cách nhìn toàn cảnh hoạt ộng của doanh nghiệp từ quá khứ, hiện tại và các dự oán tương
lai. Mục ích của BI là hỗ trợ cho doanh nghiệp ra quyết ịnh tốt hơn. Vì vậy một hệ thống BI (BI
System) còn ược gọi là hệ thống hỗ trợ quyết ịnh (Decision Support System DSS).
2.2. Một số hoạt ộng chính của BI
BI ược ứng dụng cho mọi tổ chức/doanh nghiệp ể giải quyết nhu cầu tích hợp dữ liệu và phân tích thông tin
Thông thường, khi Ban lãnh ạo doanh nghiệp cần các thông tin ể thống kê, phân tích và
ưa ra quyết ịnh chiến lược, phương pháp truyền thống là họ sẽ yêu cầu các bộ phận hỗ trợ
(thường là các phòng ban tài chính) ưa ra các báo cáo. Công việc này thường mất nhiều thời
gian ể liên hệ, tạo lập báo cáo. Đặc biệt, ôi khi các số liệu cũng chỉ là tương ối, bởi công việc
này hầu như ược làm một cách thủ công với sự hỗ trợ của các công cụ tin học văn phòng, mà chủ yếu là MS Excel.
BI ra ời ược ứng dụng ể trả lời các câu hỏi như:
• Top 5 khách hàng quan trọng nhất của doanh nghiệp hiện nay là ai?
• Thị trường nào ang mang lại tỷ trọng lợi nhuận chính
• Ngày nào thu ược bao nhiêu tiền?”
Với những doanh nghiệp ứng dụng hệ thống quản trị nguồn lực doanh nghiệp ERP hay
các hệ thống thông tin ặc thù khác, BI sẽ tự ộng móc nối vào các nền tảng nói trên ể tự ộng cung
cấp báo cáo thống kê phân tích phục vụ quá trình quản lý và ra quyết ịnh tức thời. Từ ó, BI giúp
xác lập báo cáo ộng theo nhiều chiều thông tin như:
• Tạo ra hệ thống các biểu ồ ộng (graphical chart);
• Bộ chỉ tiêu quản lý hiệu năng công việc (KPIs);
• Tạo ra hệ thống phân tích báo cáo giả lập (Simulation and Forecasting reports);
• Phân tích xử lý trực tuyến (Online analytical processing (OLAP);
• Khai thác dữ liệu (Data mining); • Phân tích thống kê (Statistical analysis); • Dự oán (Forecasting).
Bên cạnh ó, việc xác lập báo cáo trong hệ thống BI cần lưu ý các bước quan trọng, bao gồm: 11 lOMoAR cPSD| 44729304
• Data sources: Đầu tiên, các dữ liệu sẽ ược thu thập từ các nguồn dữ liệu a dạng như
CRM, HRM, các trang web Thương mại iện tử,..
• Data warehousing (Kho dữ liệu): Kho dữ liệu là nơi dữ liệu ược lưu trữ lâu dài bằng
hệ thống các thiết bị iện tử của doanh nghiệp;
• Integrating Server (Tích hợp máy chủ): Giúp vận hành công cụ ETL ể chuyển ổi dữ
liệu từ Data Sources sang Data Warehouse;
• Analysis Server (Máy chủ phân tích): Đầu vào của dữ liệu, sau ó thu nhận dữ liệu sẽ
trả về kết quả dựa trên tri thức nghiệp vụ ã ịnh nghĩa sẵn;
• Reporting Server (Máy chủ báo cáo): Bộ phận báo cáo các output nhận ược từ Analysis Server;
• Data Mining (Khai thác dữ liệu): Đây là quá trình dữ liệu ã qua xử lý ược em i trích
xuất, ược ánh giá là một trong những khâu khá quan trọng! Data Mining bao gồm phân
loại (classification), phân cụm (Clustering), hoặc dự oán (Prediction);
• Data Presentation (Trình bày dữ liệu): Cuối cùng, dữ liệu sẽ ược tổng hợp thành các
biểu ồ từ quá trình data mining ược tạo ra từ ây.
2.3. Ứng dụng và lợi ích của BI trong kinh doanh
2.3.1. Ứng dụng
2.3.1.1. Trực quan dữ liệu
Phần mềm BI sử dụng một loạt các công cụ phân tích dữ liệu ược thiết kế ể phân tích và
quản lý dữ liệu liên quan ến hoạt ộng kinh doanh của doanh nghiệp. Dữ liệu này, ược trình bày
dưới dạng trực quan, cho phép tổ chức theo dõi hoạt ộng hậu cần, bán hàng, năng suất và hơn thế nữa.
Một số nền tảng BI cung cấp khả năng báo cáo tùy chỉnh, nơi người dùng có thể chỉ ịnh
các thông số của họ. Những người khác cung cấp các mẫu báo cáo sẵn có ã bao gồm các chỉ số tiêu chuẩn ngành.
Trình bày dữ liệu bằng hình ảnh trực quan và ịnh dạng dễ hiểu, hệ thống BI cho phép
ngay cả nhân viên ít kinh nghiệm nhất cũng có thể rút ra thông tin chi tiết từ dữ liệu. Thay vì
dựa vào các nhà khoa học dữ liệu ược ào tạo ể phân tích dữ liệu của mình, nhà quản trị có thể
phân tích và trình bày dữ liệu của chính mình cho các cổ ông, các bộ phận khác hoặc nhóm của công ty.
Trên thực tế, ta có thể nghĩ ến một số hệ thống BI như: QlikView, Power BI, Spago,
Pentaho, SAP BO, Oracle BI, IBM Cognos. 2.3.1.2. Báo cáo
Một ứng dụng kinh doanh quan trọng của BI là báo cáo. Các công cụ BI thu thập và
nghiên cứu các tập hợp dữ liệu phi cấu trúc ngoài việc tổ chức và sử dụng chúng ể tạo ra một
loạt các loại báo cáo khác nhau. Chúng có thể bao gồm nhân sự, chi phí, bán hàng, dịch vụ
khách hàng và các quy trình khác.
Báo cáo và phân tích dữ liệu tương tự nhau nhưng chúng khác nhau áng kể về mục ích,
phân phối, nhiệm vụ và giá trị. Báo cáo là quá trình sắp xếp dữ liệu dưới dạng tóm tắt với mục
ích theo dõi hoạt ộng kinh doanh. Phân tích là quá trình khám phá dữ liệu ể rút ra những hiểu
biết sâu sắc có thể ược áp dụng ể cải thiện thực tiễn kinh doanh. 12 lOMoAR cPSD| 44729304
Về cơ bản, báo cáo biến dữ liệu thành thông tin ơn giản. Phân tích lấy dữ liệu và biến
nó thành thông tin chi tiết hữu ích. Cả hai ều giúp doanh nghiệp cải thiện hiệu suất và giám sát
hoạt ộng nhưng sử dụng các phương pháp khác nhau ể làm iều ó.
Báo cáo cho người dùng biết iều gì ang xảy ra và phân tích giải thích lý do tại sao iều ó
lại xảy ra. Cả hai quy trình ều có thể ược thực hiện bằng hình ảnh hóa nhưng không nhất thiết phải làm như vậy.
Các công cụ BI là lý tưởng ể xử lý dữ liệu ộng. Về mặt lịch sử, trực quan hóa dữ liệu là
tĩnh và một cái mới sẽ phải ược tạo cho mỗi lần thay ổi biến. Phần mềm BI hiện ại cung cấp các
bảng iều khiển tương tác có thể cập nhật theo thời gian thực, mang ến một cấp ộ mới về khả
năng sử dụng và sự nhanh nhạy trong phân tích dữ liệu.
2.3.1.3. Quản lý hiệu suất
Với các ứng dụng BI, các tổ chức có thể theo dõi tiến ộ mục tiêu dựa trên khung thời
gian ược xác ịnh trước hoặc có thể tùy chỉnh. Các mục tiêu theo hướng dữ liệu như thời hạn
hoàn thành dự án, mục tiêu thời gian giao hàng hoặc mục tiêu bán hàng. Ví dụ, nếu nhà quản lý
muốn ạt ược một mục tiêu bán hàng nhất ịnh, hệ thống BI của họ có thể phân tích dữ liệu của
các tháng trước ó và ề xuất một mục tiêu hợp lý ể hướng tới dựa trên hiệu suất trong quá khứ.
Các mục tiêu này có thể ược theo dõi chặt chẽ ể cung cấp thông tin cập nhật thường
xuyên về tiến ộ mục tiêu. Điều này giúp nhà quản lý hiểu những khoảng trống có thể còn lại.
Người dùng có thể cài ặt hệ thống cảnh báo khi họ sắp ạt ược mục tiêu hoặc nếu thời
hạn kết thúc mà họ vẫn chưa ạt ược mục tiêu. Điều này giúp các nhà quản lý và nhân viên luôn
cập nhật tiến ộ của họ và giúp các nhóm luôn hướng tới mục tiêu.
Người dùng cũng có thể theo dõi việc hoàn thành mục tiêu và sử dụng dữ liệu tiến ộ ể
ánh giá năng suất tổng thể của một tổ chức. Không giống như các trường hợp mất một lượng
thời gian áng kể ể theo dõi hoặc sắp xếp dữ liệu cần thiết khẩn cấp, thông tin luôn có thể truy
cập dễ dàng. Điều này giúp doanh nghiệp tiết kiệm thời gian và tiền bạc.
2.3.2. Lợi ích
BI không ơn thuần chỉ là công cụ hỗ trợ doanh nghiệp tạo ra những chiến lược, quyết
ịnh quan trọng mà phía sau ó là cả một hệ thống thông tin ược kiểm soát chặt chẽ.
Từ những thông tin ó sẽ ược sàng lọc, phân tích kết hợp khai thác nguồn dữ liệu bên
ngoài sau ó tiến hành ưa ra những dự oán. Tất cả những thông tin chúng ta tiếp cận mỗi ngày
như: Xu hướng tiêu dùng, giá cả, dịch vụ,...hành vi khách hàng, khách hàng tiềm năng… ều là
kết quả thu ược sau quá trình phân tích dữ liệu của BI.
Từ ó, mỗi doanh nghiệp sẽ tìm cho mình những hướng i phù hợp với ịnh hướng phát
triển và gia tăng tính cạnh tranh trong quá trình kinh doanh của mình. Ngoài ra, khi áp dụng BI
vào quá trình kinh doanh, doanh nghiệp còn ược nhận những lợi ích sau:
• Đưa ra những thông tin và giúp doanh nghiệp sử dụng những thông tin một cách hiệu
quả, thích ứng ược với tất cả các trường hợp có thể xảy ra khi môi trường thay ổi.
• Giúp doanh nghiệp ưa ra những quyết ịnh nhanh chóng, kịp thời.
• Phân tích và dự oán xu hướng và hành vi của khách hàng, giúp doanh nghiệp vẽ lên bức
tranh khách hàng tổng thể. 13 lOMoAR cPSD| 44729304
• BI giúp doanh nghiệp hoạch ịnh tất cả kế hoạch, chiến lược marketing trong tương lai.
• Giúp doanh nghiệp có cái nhìn khách quan, tổng thể về doanh nghiệp của mình
• Tối ưu chi phí và thời gian hoạt ộng cũng như hỗ trợ sát sao công tác iều hành của doanh nghiệp.
• Lợi thế tính về cạnh tranh, nắm trong tay nhiều cơ hội kinh doanh.
• Giúp doanh nghiệp ánh giá và cải thiện bộ máy của tổ chức. 14 lOMoAR cPSD| 44729304
PHẦN 3: ỨNG DỤNG DATAWAREHOUSE VÀ BI VÀO PHÂN TÍCH DỮ
LIỆU LĨNH VỰC BÁN LẺ
3.1. Giới thiệu về bài toán và ODS
Tập dữ liệu ược sử dụng trong bài phân tích thuộc lĩnh vực bán hàng tại thị trường Hoa kỳ trong
giai oạn 2014 - 2017, ược cung cấp bởi Michael Martin. Dữ liệu gồm 21 cột, tương ứng với 21
giữ liệu với 9994 ơn hàng ược thực hiện trong suốt 04 năm bao gồm 792 khách hàng khác nhau
ược chia ra làm 03 bộ phận khách hàng chính: Người tiêu dùng (Consumer), tổ chức (Corporate), văn phòng (Home Office). STT Trường dữ liệu Mô tả 1
Row ID (Order Item Id) Đơn hàng thứ n 2 Order ID Mã ID ơn hàng 3 Order Date Ngày ặt hàng 4 Ship Date Ngày giao hàng 5 Ship Mode Chế ộ vận chuyển 6 Customer ID Mã ID khách hàng 7 Customer Name Tên khách hàng 8 Segment Phân khúc khách hàng 9 Country
Quốc gia cư trú của khách hàng 10 City
Thành phố cư trú của khách hàng 11 State
Bang cư trú của khách hàng 12 Postal Code Mã bưu chính 13 Region Khu vực 14 Product ID Mã ID sản phẩm 15 Category Danh mục sản phẩm 16 Sub-Category
Danh mục con của sản phẩm 17 Product Name Tên sản phẩm 18 Quantity Số lượng sản phẩm 19 Discount Phần trăm giảm giá 20 Sale Doanh thu 21 Profit Lợi nhuận
Bảng 3. 1. Mô tả các trường dữ liệu 15 lOMoAR cPSD| 44729304
Hình 3. 1. Sơ ồ quy trình nghiệp vụ.
Sau khi xác ịnh ược dữ liệu, nhóm bắt ầu xác ịnh các chủ iểm phân tích (Requirement), bao
gồm: Sale, Quantity, Profit; các FACT ược ược phân tích dựa trên các DIM như: Order Date
(Month, Quarter, Year), Ship Mode, Segment, Region, State, City, Category, Sub - Category, Product.
Việc phân tích các chủ iểm dựa vào các DIM trên sẽ giúp người sử dụng có cái nhìn tổng quát
nhất về kết quả kinh doanh, cung cấp những thông tin cần thiết cho việc ra quyết ịnh (chân dung
khách hàng tiềm năng, dòng sản phẩm ược sử dụng nhiều, doanh thu của sản phẩm...) từ ó cải
thiện hiệu suất kinh doanh.
3.2. Kiến trúc DataWarehouse
Hình 3. 2. Kiến trúc Data Warehouse của hệ thống quản lý hoạt ộng bán lẻ.
Tầng ầu tiên của kiến trúc là Data Source - “Sample Superstore” ược lấy tự hệ cơ sở dữ
liệu hoạt ộng từ các nguồn bên ngoài (file csv, excel...). Những công cụ và tiện ích này thực
hiện việc loại bỏ dữ liệu thừa, làm sạch dữ liệu, chuyển ổi dữ liệu, cập nhật dữ liệu. Dữ liệu ược lưu trữ vào 5 bảng: (1) Bảng Detail Order; (2) Bảng Customer; (3) Bảng Order;
(4) Bảng Produc; (5) Bảng Category.
Tầng tiếp theo là việc sử dụng các công cụ tích hợp trên Excel hoặc Power Query nhằm
ETL - tiền xử lý dữ liệu trước khi ưa vào Data Warehouse. Tầng giữa là “Storage Layer” bao
gồm các Data Warehouse và Data marts ược cài ặt dùng mô hình quan hệ OLAP. Tầng trên
cùng là tầng người dùng cuối, gồm các câu truy vấn và các công cụ làm báo cáo, phân tích,
công cụ khai thác dữ liệu, thông qua công cụ Power BI về:
(1) Quantity: Số lượng ơn ặt hàng ược ặt; (2) Sale: Doanh thu;
(3) Profit: Lợi nhuận thu ược. 16 lOMoAR cPSD| 44729304
3.3. Tiền xử lý dữ liệu
Đối với dữ liệu ược sử dụng trong bài toán, nhóm tiến hành các thao tác như: Thêm cột, xóa
dữ liệu trùng lặp, xóa dữ liệu trống, ịnh dạng lại dữ liệu, tách sheet, transform dữ liệu sang Power BI. Thêm cột
Hình 3. 3. Thêm cột Category ID.
Hình 3. 4. Thêm cột PriceBuy.
Xóa bỏ dữ liệu trùng lặp
Hình 3. 5. Xóa dữ liệu trùng lặp. 17 lOMoAR cPSD| 44729304
Xóa dữ liệu trống (null)
Hình 3. 6. Xóa dữ liệu null.
Định dạng lại dữ liệu
Hình 3. 7. Định dạng lại dữ liệu. Tách sheet
Hình 3. 8. Tách dữ liệu thành từng bảng. 18 lOMoAR cPSD| 44729304
Transform dữ liệu sang Power BI
Hình 3. 9. Chuyển dữ liệu sang Power BI.
3.4. Mô hình dữ liệu OLTP
3.4.1. Sơ ồ quan hệ thực thể
Hình 3. 10. Sơ ồ quan hệ thực thể OLTP.
3.4.2. Mô tả cấu trúc trong cơ sở dữ liệu
Bảng “FACT DetailOrder” STT Tên thuộc tính Kiểu 1 Order ID Nvarchar(255) 2 Customer ID Nvarchar(255) 3 Product ID Nvarchar(255) 19