lOMoARcPSD| 58702377
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HCM
KHOA KINH TẾ
BÁO CÁO
GIỮA KỲ
Online Analytical Processing (OLAP)
MÔN HỌC:
Big Data
MÃ LỚP:
ABDA433708_23_2_02CLC
GVHD:
Cô Lê Thị Minh Châu
SVTH:
MSSV
1.
Phạm Thị Xuân Quỳnh
21126076
2.
Trương Diễm Quỳnh
21126
0
7
7
3.
Nguyễn Lê Vy Thảo
21126
275
4.
Nguyễn Minh Nhật
211260
61
Tp. Hồ Chí Minh, tháng
4
năm 202
4
lOMoARcPSD| 58702377
ĐIỂM SỐ
TIÊU CHÍ
NỘI DUNG
TRÌNH BÀY
TỔNG
ĐIỂM
NHẬN XÉT
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
Ký tên
Lê Thị Minh Châu
lOMoARcPSD| 58702377
LỜI CẢM ƠN
Qua quá trình học tập, nghiên cứu nhóm đã hoàn thành bài báo cáo giữa kỳ môn
Big Data. Nhóm xin chân thành cảm ơn Thị Minh Châu đã ớng dẫn giảng
dạy tận tình, đóng góp nhiều ý kiến quý báu để nhóm có thể hoàn thành bài báo cáo giữa
kỳ này.
Trong quá trình nghiên cứu, nhóm đã cố gắng để hoàn thành bài nghiên cứu, bằng
việc tham khảo nhiều tài liệu, trao đổi, tiếp thu ý kiến của cô và bạn bè. Do điều kiện về
thời gian và trình độ nghiên cứu của nhóm còn nhiều hạn chế, cũng như chưa có đủ kinh
nghiệm thực tế nên việc nghiên cứu khó tránh khỏi những thiếu sót trong cách hiểu
trong cách phân tích vấn đề . Vì vậy, nhóm rất mong nhận được sự quan tâm, đóng góp
ý kiến của cô để bài nghiên cứu này trở nên hoàn thiện hơn.
Cuối lời, nhóm xin chúc thật nhiều sức khỏe thành công hơn nữa trong
công tác giảng dạy cũng như trong cuộc sống.
Nhóm xin trân trọng cảm ơn cô!
Tp. Hồ Chí Minh tháng 4 năm 2024
Sinh viên
BẢNG PHÂN CÔNG NHIỆM VỤ
Họ và tên
MSSV
Nhiệm vụ
Phần
trăm hoàn
thành
Phạm Thị Xuân Quỳnh
21126076
- Chương 1, chương 2
100%
Trương Diễm Quỳnh
21126077
- Demo, tổng hợp
100%
Nguyễn Lê Vy Thảo
21126275
- Chương 1, chương 2
100%
Nguyễn Minh Nhật
21126061
- Demo, tài liệu tham khảo
100%
lOMoARcPSD| 58702377
DANH MỤC CÁC TỪ VIẾT TẮT
Từ viết tắt
Nghĩa tiếng Anh
Nghĩa tiếng Việt
OLAP
Online Analytical Processing
Xử lý Phân tích Trực tuyến
OLTP
Online Transaction Processing
Xử lý giao dịch trực tuyến
lOMoARcPSD| 58702377
DANH MỤC HÌNH ẢNH
Hình 1. dụ 1 giản đồ khối hình sao...........................................................................5
Hình 2. Giản đồ khối hình tuyết rơi...............................................................................6
Hình 3. Bảng thống kê chi tiết đơn hàng online với các chiều dữ liệu...........................6
Hình 4. Mô hình dữ liệu đa chiều..................................................................................7
Hình 5. Khối Olap..........................................................................................................8
Hình 6. Kiến trúc ROLAP.............................................................................................9
Hình 7. Kiến trúc MOLAP...........................................................................................10
Hình 8. Cấu trúc Hybrid OLAP (HOLAP)..................................................................12
Hình 9. Thực hiện lệnh................................................................................................14
Hình 10. Đổi tên..........................................................................................................15
Hình 11. Thực hiện lệnh Close&Load to….................................................................15
Hình 12. Thực hiện lệnh trong phần import data.........................................................16
Hình 13. Thực hiện tương tự với các sheet khác..........................................................16
Hình 14. Tạo Diagram View........................................................................................17
Hình 15. Thêm trường Sales........................................................................................18
Hình 16. Liên Kết oderDetail và product bằng productCode......................................18
Hình 17. Thêm trường Cost.........................................................................................19
Hình 18. Tạo bảng phân tích........................................................................................19
Hình 19. Tính lợi nhuận...............................................................................................20
Hình 20. Thống kê.......................................................................................................20
MỤC LỤCLỜI MỞ ĐẦU .......................... Lỗi! Th đánh du không đưc xác định.
1. Lý do chọn đề tài ......................................................................................................... 1
2. Phương pháp nghiên cứu ............................................................................................. 1
3. Mục tiêu nghiên cứu .................................................................................................... 2
4. Bố cục tiểu luận ........................................................................................................... 2
CHƯƠNG 1. TỔNG QUAN VỀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP ........... 3
1.1. Giới thiệu về OLAP ................................................................................................. 3
1.2. Đặc trưng của OLAP ................................................................................................ 3
lOMoARcPSD| 58702377
1.2.1. Khung hình đa chiều ......................................................................................... 3
1.2.2. Tính truy xuất:................................................................................................... 3
1.2.3. Tính trong suốt .................................................................................................. 4
CHƯƠNG 2 ..................................................................................................................... 5
KIẾN TRÚC KHỐI CỦA OLAP .................................................................................... 5
2.1. Giới thiệu về kiến trúc khối ...................................................................................... 5
2.2. Chiều (Dimensions) .................................................................................................. 6
2.3. Cube.......................................................................................................................... 7
2.4. Các phương pháp lưu trữ dữ liệu ............................................................................. 8
2.4.1. Relational OLAP (ROLAP) ............................................................................... 8
2.4.2. Multidimensional OLAP (MOLAP) Server ..................................................... 10
2.4.3. Hybrid OLAP (HOLAP) .................................................................................. 11
2.5. Ứng dụng của OLAP .............................................................................................. 12
CHƯƠNG 3. DEMO HỆ THỐNG XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP ..... 14
3.1. Giới thiệu hệ thống xử lý phân tích trực tuyến OLAP ........................................... 14
CHƯƠNG 4. KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN ................................................. 21
4.1. Kết quả đạt được .................................................................................................... 21
4.2. Hướng phát triển..................................................................................................... 21
TÀI LIỆU THAM KHẢO ............................................................................................. 22
lOMoARcPSD| 58702377
LỜI MỞ ĐẦU
1. Lý do chọn đề tài
Trong thời đại đang từng bước số hóa, khối lượng dữ liệu ngày càng tăng lên một
cách nhanh chóng đạt đến con số rất khổng lồ. Từ đó, doanh nghiệp và tổ chức phải
đối mặt với một lượng lớn dữ liệu được tạo ra từ nhiều nguồn khác nhau như hệ thống
giao dịch, máy chủ web, dữ liệu xã hội và nhiều nguồn dữ liệu khác. Đối với việc quản
phân tích các tập dữ liệu lớn như thế OLAP một công nghệ cung cấp khả
năng truy xuất và phân tích dữ liệu một cách hiệu quả.
OLAP cung cấp khả năng truy xuất dữ liệu theo nhiều chiều khác nhau, cho phép
người dùng drill-down và roll-up để xem dữ liệu ở các mức chi tiết hoặc tổng quan hơn.
Điều này giúp người dùng cái nhìn toàn diện sâu sắc về dữ liệu, từ đó đưa ra các
quyết định thông minh và cải thiện hiệu suất kinh doanh.
Chính thế, OLAP trở thành đề tài quan trọng trong việc nắm bắt hiểu dữ
liệu trong thế giới kinh doanh ngày nay. Nghiên cứu về OLAP sẽ đóng góp vào việc tăng
cường khả năng quản lý phân tích dữ liệu, đồng thời cung cấp cái nhìn chi tiết toàn
diện hơn về hoạt động kinh doanh và cơ hội phát triển cho doanh nghiệp.
2. Phương pháp nghiên cứu
Phương pháp phân tích tổng hợp: Phương pháp này gồm bốn bước cần thiết.
Đầu tiên, tiến hành thu thập thông tin, bao gồm việc tìm kiếm các tài liệu, báo cáo, sách
vở liên quan đến vấn đề nghiên cứu. Thứ hai, cần đọc và phân tích thông tin để xem xét
các tài liệu đã thu thập, phân tích đưa ra nhận xét về các thông tin đã thu thập được.
Thứ ba, tiếp tục phân tích so sánh thông tin từ các thông tin đã thu thập được, tiến
hành phân tích so sánh để đưa ra những kết luận. Cuối cùng, tổng hợp trình bày
thông tin từ những kết luận đã đưa ra, tiến hành tổng hợp và trình bày thông tin theo
cách thức phù hợp.
Phương pháp quy nạp: Phương pháp liên kết những hiện ợng riêng lẻ, rời rạc,
độc lập ngẫu nhiên để tìm ra quy luật, bản chất của sự vật, hiện tượng. Từ những kinh
nghiệm, hiểu biết về các sự vật riêng lẻ người ta đúc kết thành những cái chung, cái tổng
thể. Tìm ra những nguyên chung thông qua sự lặp đi lặp lại của những sự vật, hiện
tượng riêng biệt được liên kết từ những kinh nghiệm, lý thuyết thực tiễn có được.
lOMoARcPSD| 58702377
3. Mục tiêu nghiên cứu
Nhóm sẽ tìm hiểu tổng quan về OLAP xây dựng hệ thống demo OLAP, đánh
giá ưu và nhược điểm của hệ thống, đánh giá kết quả và đề xuất hướng phát triển.
4. Bố cục tiểu luận
Ngoài phần lời mở đầu, tài liệu tham khảo, tiểu luận được chia làm 4 chương:
- Chương 1: Tổng quan về xử lý phân tích trực tuyến OLAP
- Chương 2: Kiến trúc khối của OLAP
- Chương 3: Demo hệ thống xử lý phân tích trực tuyến OLAP
- Chương 4: Kết quả và hướng phát triển
lOMoARcPSD| 58702377
CHƯƠNG 1. TỔNG QUAN VỀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN
OLAP
1.1. Giới thiệu về OLAP
Cơ sở dữ liệu Xử lý Phân tích Trực tuyến (OLAP) là một công nghệ giúp chúng ta
dễ dàng truy vấn thông tin trong các hoạt động kinh doanh thông minh. Thay xử
các giao dịch, OLAP tập trung o việc tối ưu hóa truy vấn báo cáo trong sở dữ
liệu.
Dữ liệu nguồn của OLAP sở dữ liệu giao dịch trực tuyến OLTP. Dữ liệu
OLAP được tổ chức theo cấu trúc phân cấp lưu trữ trong cube thay bảng thông
thường. Đây là một công nghệ thông minh sử dụng cấu trúc đa chiều cho phép truy cập
nhanh chóng vào dữ liệu để phân tích. Cơ sở dữ liệu OLAP giúp tạo điều kiện thuận lợi
cho việc tạo báo cáo PivotTable hoặc PivotChart, cho phép hiển thị các bản tóm tắt dữ
liệu mức tổng quan. dụ, thể dễ dàng xem tổng doanh thu trên toàn quốc hoặc
khu vực. Đồng thời, nó cũng cho phép bạn xem chi tiết về c site cụ thể doanh số
mạnh hoặc yếu.
1.2. Đặc trưng của OLAP
1.2.1. Khung hình đa chiều
Dữ liệu được tổ chức thành các khối (cube) đa chiều, mỗi chiều đại diện cho một
thuộc tính (dimension) của dữ liệu. Sử dụng các cấu trúc hình OLAP truyền thống
(hình khối, kích thước, số đo).
1.2.2. Tính truy xuất:
Tính năng truy xuất của OLAP một trong những đặc trưng nổi bật mang lại lợi
ích quan trọng cho người dùng trong việc trích xuất thông tin từ những dữ liệu đã được
phân tích. Nó giúp người dùng có thể kết nối với nguồn dữ liệu OLAP ơng tự như khi
tiếp cận với các nguồn dữ liệu ngoài khác.
Một số chức năng chính của truy xuất gồm:
- Truy xuất đa chiều (Multidimensional Retrieval): Cho phép người dùng truy xuất
dữ liệu đồng thời từ nhiều chiều khác nhau. Người dùng thể xem thông tin từ nhiều
góc độ khác nhau.
lOMoARcPSD| 58702377
- Tính tương c (Interactive Retrieval): Tính năng này cho phép người dùng ơng
tác trực tiếp với dữ liệu. Người dùng cho thể lọc, sắp xếp, phân nhóm thay đổi cấu
trúc của báo cáo tùy theo nhu cầu của họ.
- Tính linh hoạt (Flexibility): Giúp người dùng truy xuất dữ liệu theo các tiêu chí
và điều kiện khác nhau một cách linh hoạt và dễ dàng.
- Tính tùy chỉnh (Customization): Cho phép người dùng tạo các truy vấn tùy chỉnh
để trích xuất dữ liệu theo từng nhu cầu phân tích cụ thể của họ.
- Truy xuất dữ liệu thời gian thực (Real-time Data Retrieval): Một số hệ thống
OLAP có chức năng hỗ trợ người dùng truy xuất dữ liệu trong thời gian thực, cung cấp
kết quả ngay khi được cập nhật.
Ngoài ra, với tính truy xuất của OLAP, người dùng thể dễ dàng thực hiện các
hoạt động như:
Drill-down: Người dùng thể điều chỉnh mức độ chi tiết của dữ liệu bằng cách
tiếp tục phân tách dữ liệu thành các mức con. dụ, từ mức tổng quan, người dùng
thể drill-down để xem dữ liệu theo quốc gia, sau đó theo thành phố, và cuối cùng là theo
chi nhánh.
Tính năng Roll-up: Ngược lại với drill-down, người dùng thể tổng hợp dữ liệu
từ mức chi tiết lên mức tổng quan hơn. dụ, từ dữ liệu theo ngày, người dùng thể
roll-up để xem dữ liệu theo tuần, tháng hoặc năm.
Tính năng Slice and Dice: Người dùng thể lọc cắt dữ liệu theo các tiêu chí
nhất định. Ví dụ, người dùng có thể lọc dữ liệu chỉ cho các sản phẩm của một nhóm cụ
thể hoặc chỉ cho một khoảng thời gian nhất định.
Tính năng Pivot: Người dùng thể xoay dữ liệu để hiển thị theo cột hoặc theo
hàng khác nhau, giúp thấy được quan hệ giữa các chiều dữ liệu khác nhau.
1.2.3. Tính trong suốt
Tính trong suốt ( Transparency ): Tính trong suốt của OLAP là điều cần thiết giúp
người dùng dễ dàng sử dụng, xem, trao đổi phân tích dữ liệu kinh doanh không
cần phải kiến thức về cấu trúc của dữ liệu, điều này sẽ giúp người dùng dễ tiếp cận
các công cụ Olap đơn giản hóa quá trình sử dụng các công cụ vì đã được loại bỏ
những yếu tố kỹ thuật phức tạp.
lOMoARcPSD| 58702377
CHƯƠNG 2
KIẾN TRÚC KHỐI CỦA OLAP
2.1. Giới thiệu về kiến trúc khối
Cơ sở dữ liệu OLAP dùng kiến trúc khối dữ liệu làm căn bản. OLAP xuất phát từ
việc truy vấn dữ liệu từ các bảng dữ liệu Fact và Dimensions. Để trình bày dữ liệu dưới
dạng khối, ta thể hình dung rằng dữ liệu trong bảng Fact được tổ chức như sau: Trong
OLAP, đối tượng chính cube (khối), một biểu diễn đa chiều của dữ liệu chi tiết
tổng thể. Mỗi cube bao gồm một bảng sự kiện (Fact), có thể đi kèm với một hoặc nhiều
bảng chiều (Dimensions), các đơn vị đo (Measures) và các phân vùng (Partitions). Thiết
kế các cube có thể được tùy chỉnh dựa trên nhu cầu phân tích của người dùng. Một kho
dữ liệu thể chứa nhiều cube khác nhau, dụ như cube về lương, cube về hàng tồn
kho, hoặc nhiều loại khác.
Hình 1. Ví dụ 1 giản đồ khối hình sao
Nếu muốn mở rộng cube theo nhiều năm, ta có thể thực hiện điều này bằng cách
bổ sung cột "Year_ID" vào bảng "Time_Dimension_Table" tạo ra một bảng
Dimension mới là "Time_Dimension_Table_2", chứa hai cột "Year_ID" và "Year". Khi
đó, chúng ta có thể tạo ra một cube mở rộng với cấu trúc ơng tự như một giản đồ khối
hình tuyết rơi.
lOMoARcPSD| 58702377
Hình 2. Giản đồ khối hình tuyết rơi
2.2. Chiều (Dimensions)
Dimension ( Chiều dữ liệu): Chiều của dữ liệu giúp mô tả thông tin, ngữ cảnh của
bộ dữ liệu cho người dùng, Chiều dữ liệu giúp người ng dễ dàng truy vấn, xử lí thông
tin theo mong muốn. Ví dụ: theo hình 1, dữ liệu bán hàng online được chia thành nhiều
chiều dữ liệu khác nhau.
Hình 3. Bảng thống kê chi tiết đơn hàng online với các chiều dữ liệu
lOMoARcPSD| 58702377
Hiện nay, s dữ liệu OLAP được phát triển theo hướng đa chiều (
Multidimension) và đi vào công nghệ cơ sở dữ liệu để phục vụ người dùng xử lí những
bộ dữ liệu lớn. sở dữ liệu đa chiều hệ thống được thiết kế cho phép người dùng
truy cập, lưu trữ một khối lượng lớn dữ liệu. Những bộ dữ liệu đa chiều phải mối
quan hệ với nhau và được lưu trữ, phân tích từ nhiều khía cạnh khác nhau. Những khía
cạnh đó được gọi là các chiều ( Dimension ).[4]
Mô hình dữ liệu đa chiều không phù hợp cho hệ thống OLTP, mô hình dữ liệu này
được thao tác bởi các công cụ OLAP. Các công cụ này cung cấp khả năng truy vấn mạnh
dựa trên mô hình sở dữ liệu đã được thiết kế. Ví dụ: TARGIT Analysis, SQL OLAP
Server.
Hình 4. Mô hình dữ liệu đa chiều
sở dữ liệu đa chiều kích thước lớn liên quan đến hai mức độ: Mức độ tổng
hợp và mức độ chi tiết ( dữ liệu nguồn). Yếu tố thời gian rất quan trọng đối với cơ sở dữ
liệu đa chiều, dung để theo dõi biến động thực tế theo dòng thời gian. Do đó, chiều thời
gian được dung làm thước đo cho những phép phân tích.
2.3. Cube
Cube ( khối ): Khối là một mảng dữ liệu đa chiều, một khối có thể có nhiều chiều.
Nếu một khối nhiều hơn 3 chiều thì được gọi siêu khối ( Hypercube). Số chiều
trong khối thể nhiều hạn nhưng trên thực tế số chiều thường trong khoảng từ 4
đến 12 chiều.
lOMoARcPSD| 58702377
Các khối chính là trung tâm của hệ thống OLAP. cho phép khai thác dữ liệu nhanh
và hiệu quả, mang lại góc nhìn đa chiều về dữ liệu giúp người dùng phân tích dữ liệu
nhiều góc độ khác nhau.
Một khối gồm nhiều ô dữ liệu. Ô dữ liệu là một liên kết giữa các giá trị của chiều.
Một ô có thể rỗng. Khối thưa có nhiều ô rỗng, khối dày đặc có ít ô rỗng. [5]
Hình 5. Khối Olap
Trong khối OLAP trên (Hình 3), các số liệu có thể bao gồm doanh số bán hàng,
quốc gia, sản phẩm, ngày đặt hàng,...Khối có thể được cắt thành từng phần, từng khối
nhỏ hơn, được xoay theo nhiều hướng khác nhau để trực quan hóa dữ liệu theo nhiều
góc độ và giúp người dùng đưa ra nhiều phân tích khác nhau. [3]
2.4. Các phương pháp lưu trữ dữ liệu
2.4.1. Relational OLAP (ROLAP)
ROLAP (Relational OLAP) là một phương pháp phân tích dữ liệu sử dụng mô
hình quan hệ. Phương pháp này lưu trữ quản dữ liệu trong cơ sdữ liệu quan hệ,
cho phép phân tích dữ liệu lớn không cần chuyển đổi sang cấu trúc đa chiều trước
đó.
Sử dụng hệ quản trị sở dữ liệu (DBMS) quan hệ hay mở rộng để lưu trữ xử
dữ liệu kho, kết hợp với phần mềm trung gian OLAP để bổ sung các chức năng còn
thiếu.
Máy chủ ROLAP được tối ưu cho cả DBMS và OLAP, bao gồm logic tổng hợp
các công cụ dịch vụ hỗ trợ. So với công nghệ MOLAP, ROLAP khuynh hướng
mở rộng cao hơn.
lOMoARcPSD| 58702377
Hệ thống ROLAP chủ yếu hoạt động dựa trên dữ liệu được lưu trữ trong cơ sở dữ
liệu quan hệ, gồm bảng thứ nguyên dữ liệu sở, dữ liệu được lưu trữ dưới dạng
bảng quan hệ, cho phép phân tích dữ liệu đa chiều.
Phương pháp sử dụng thao tác trên dữ liệu trong cơ sở dữ liệu quan hệ để thực hiện
cắt và cắt, tương đương với việc áp dụng điều kiện "WHERE" trong câu lệnh SQL.
Kiến trúc của ROLAP gồm:
- Máy chủ cơ sở dữ liệu.
- Máy chủ ROLAP.
- Công cụ front-end.
Hình 6. Kiến trúc ROLAP
ROLAP là phân khúc công nghệ OLAP mới phát triển nhanh nhất, cho phép tạo
nhiều khung nhìn đa chiều của bảng quan hệ hai chiều không cần cấu trúc bản ghi
xung quanh.
Trong phân khúc này, một số sản phẩm đã ch hợp các công cụ SQL để giảm sự
phức tạp của phân tích đa chiều, bao gồm việc tạo nhiều câu lệnh SQL để xử lý u cầu
người dùng và nhận diện “RDBMS”.
Thuận lợi:
Xử lý lượng thông tin lớn: Công nghệ ROLAP không bị giới hạn về kích thước dữ
liệu do phụ thuộc vào kích thước của RDBMS bên dưới.
Kiểm soát các tính năng của RDBMS: Công nghệ ROLAP có thể sử dụng các tính
năng của RDBMS để quản lý dữ liệu.
lOMoARcPSD| 58702377
Nhược điểm:
Hiệu suất thể chậm do mỗi o cáo ROLAP một truy vấn SQL trong sở
dữ liệu quan hệ, có thể kéo dài thời gian truy vấn với dữ liệu lớn.
Hạn chế bởi SQL, ROLAP sử dụng câu lệnh truy vấn dữ liệu, nhưng không phải
tất cả các nhu cầu đều phù hợp.
2.4.2. Multidimensional OLAP (MOLAP) Server
MOLAP sử dụng hình logic nguyên gốc lưu trữ dữ liệu dưới dạng mảng
nhiều chiều, sử dụng kỹ thuật vị trí để truy cập.
MOLAP tóm tắt và lưu trữ dữ liệu trong định dạng tối ưu trong các khối đa chiều,
khác với ROLAP lưu trữ trong sở dữ liệu quan hệ. Dữ liệu trong MOLAP được cấu
trúc theo yêu cầu báo cáo của khách hàng, kèm theo các phép tính đã được tạo sẵn trên
các khối dữ liệu.
Kiến trúc MOLAP gồm:
- Máy chủ cơ sở dữ liệu.
- Máy chủ MOLAP.
- Công cụ front-end.
Hình 7. Kiến trúc MOLAP
Cấu trúc MOLAP chủ yếu hoạt động trên dữ liệu đã được tổng hợp trước. Cấu trúc
này thể hạn chế trong việc tạo tổng hợp mới hoặc đánh giá kết quả chưa tính toán
trước.
lOMoARcPSD| 58702377
Các ứng dụng yêu cầu phân tích phân tích chuỗi thời gian và nhu cầu tổng quát về
các xu hướng thường được MOLAP đáp ứng. (ví dụ: lập ngân sách phân tích tài
chính).
Thuận lợi:
Khối lập phương MOLAP đảm bảo hiệu suất tuyệt vời trong việc truy xuất thông
tin cho hoạt động cắt và cắt hạt.
Tất cả các đánh giá được thực hiện trước khi tạo khối lập phương, giúp thực hiện
các phép tính phức tạp một cách nhanh chóng và linh hoạt.
Nhược điểm:
Khả năng xử thông tin bị hạn chế các đánh giá được thực hiện khi xây dựng
khối lập phương, không thể chứa lượng lớn dữ liệu.
Yêu cầu đầu bổ sung: Công nghệ lập phương thường độc quyền không phổ
biến trong tổ chức, điều này thể đòi hỏi đầu bổ sung vào nguồn nhân lực vốn
để triển khai công nghệ MOLAP.
2.4.3. Hybrid OLAP (HOLAP)
HOLAP tổng hợp ưu điểm của cả MOLAP ROLAP trong một kiến trúc duy
nhất. Cho phép u trữ dữ liệu cả trong cơ sở dữ liệu quan hệ lẫn trong cấu trúc đa chiều.
HOLAP cung cấp một giải pháp linh hoạt, cho phép người dùng tận dụng tốc độ của
MOLAP cho phân tích tổng hợp, đồng thời duy trì khả năng chi tiết mở rộng của
ROLAP. HOLAP lưu trữ các tổng hợp trong các khối tính toán trước để tiết kiệm dữ liệu
chi tiết từ các bảng quan hệ, đồng thời cho phép truy xuất dữ liệu chi tiết.
Microsoft SQL Server 2000 có sẵn một máy chủ OLAP kết hợp.
lOMoARcPSD| 58702377
Hình 8. Cấu trúc Hybrid OLAP (HOLAP)
Ưu điểm
- HOLAP tổ hợp những ưu điểm của cả MOLAP và ROLAP.
- Nó cho phép truy cập nhanh chóng ở mọi cấp độ tổng hợp.
- HOLAP cân bằng dung ợng đĩa bằng cách lưu trữ thông tin tổng hợp
trênmáy chủ OLAP, trong khi bản ghi chi tiết vẫn nằm trong cơ sở dữ liệu quan hệ
để tránh sự trùng lặp.
Nhược điểm
Kiến trúc HOLAP phức tạp vì nó phải hỗ trợ cả máy chủ MOLAP và ROLAP.
2.5. Ứng dụng của OLAP
OLAP cho phép các nhà quản lý và người dùng cuối khám phá và phân tích dữ liệu
kinh doanh từ nhiều c độ khác nhau. Các o cáo đa chiều biểu đồ đồ thị động giúp
hiểu rõ hơn về các xu hướng, mô hình kinh doanh và mối quan hệ giữa các yếu tố khác
nhau trong doanh nghiệp.
OLAP còn được sử dụng để phân tích dữ liệu tài chính, bao gồm các chỉ số tài
chính, báo cáo thu chi, quản nguồn lực tài chính dự báo tài chính. Điều này giúp
cho các nhà quản lý và nhà đầu có cái nhìn tổng quan về tình hình tài chính và đưa ra
quyết định dựa trên thông tin xác thực.
lOMoARcPSD| 58702377
OLAP giúp theo dõi phân tích các hoạt động trong chuỗi cung ứng, từ nguồn
cung cấp đến khách ng cuối cùng. Nhờ đó, các nhà quản lý có thể tối ưu hóa quy trình
sản xuất và phân phối, đảm bảo sự tuân thủ các tiêu chuẩn chất lượng và tăng cường sự
linh hoạt trong chuỗi cung ứng.
Phân tích dữ liệu thị trường để xác định xu hướng tiêu dùng, sự phân bổ đất đai,
sự tiếp cận thị trường và các yếu tố khác trong một ngành công nghiệp cụ thể. Điều này
giúp các doanh nghiệp đưa ra chiến lược kinh doanh phù hợp tận dụng hội thị
trường.
Phân tích dữ liệu khách hàng, bao gồm hành vi mua hàng, sự tương tác với sản
phẩm và dịch vụ, phản hồi khách hàng và các thông tin cá nhân khác. Điều này giúp tạo
ra các chiến ợc marketing đích thực cung cấp trải nghiệm nhân hóa cho khách
hàng.
OLAP được sử dụng trong quá trình dự báo và lập kế hoạch. Dựa trên dữ liệu quá
khứ các hình tính toán, OLAP thhỗ trợ trong việc dự đoán xu hướng ơng
lai và xác định kịch bản kế hoạch khác nhau dựa trên các giả định khác nhau.
lOMoARcPSD| 58702377
CHƯƠNG 3. DEMO HỆ THỐNG XỬ LÝ PHÂN TÍCH TRỰC TUYẾN
OLAP
3.1. Giới thiệu hệ thống xử lý phân tích trực tuyến OLAP
Demo dùng để phân tích lợi nhuận theo nhiều chiều đưa ra giải pháp tăng lợi nhuận
dựa vào các dữ liệu có sẵn, bao gồm: - Đơn đặt hàng (Orders)
- Chi tiết đơn đặt hàng (Order Details)
- Khách hàng (Customers)
- Sản phẩm (Products)
- Dòng sản phẩm (Product Lines)
- Văn phòng bán hàng (Offices)
- Nhân viên (Employees)
3.2. Các bước thực hiện demo
Bước 1: Load các bảng dữ liệu vào data model
Vào thanh Data -> Tranform
Hình 9. Thực hiện lệnh
Đổi tên Table_1 thành Customer

Preview text:

lOMoAR cPSD| 58702377
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP. HCM KHOA KINH TẾ
BÁO CÁO GIỮA KỲ
Online Analytical Processing (OLAP)
MÔN HỌC: Big Data
MÃ LỚP: ABDA433708_23_2_02CLC
GVHD: Cô Lê Thị Minh Châu SVTH: MSSV
1. Phạm Thị Xuân Quỳnh 21126076
2. Trương Diễm Quỳnh
21126 0 7 7
3. Nguyễn Lê Vy Thảo 21126 275
4. Nguyễn Minh Nhật 211260 61
Tp. Hồ Chí Minh, tháng 4 năm 202 4 lOMoAR cPSD| 58702377 ĐIỂM SỐ TIÊU CHÍ NỘI DUNG TRÌNH BÀY TỔNG ĐIỂM NHẬN XÉT
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
......................................................................................................................................... Ký tên Lê Thị Minh Châu lOMoAR cPSD| 58702377 LỜI CẢM ƠN
Qua quá trình học tập, nghiên cứu nhóm đã hoàn thành bài báo cáo giữa kỳ môn
Big Data. Nhóm xin chân thành cảm ơn cô Lê Thị Minh Châu đã hướng dẫn và giảng
dạy tận tình, đóng góp nhiều ý kiến quý báu để nhóm có thể hoàn thành bài báo cáo giữa kỳ này.
Trong quá trình nghiên cứu, nhóm đã cố gắng để hoàn thành bài nghiên cứu, bằng
việc tham khảo nhiều tài liệu, trao đổi, tiếp thu ý kiến của cô và bạn bè. Do điều kiện về
thời gian và trình độ nghiên cứu của nhóm còn nhiều hạn chế, cũng như chưa có đủ kinh
nghiệm thực tế nên việc nghiên cứu khó tránh khỏi những thiếu sót trong cách hiểu và
trong cách phân tích vấn đề . Vì vậy, nhóm rất mong nhận được sự quan tâm, đóng góp
ý kiến của cô để bài nghiên cứu này trở nên hoàn thiện hơn.
Cuối lời, nhóm xin chúc cô có thật nhiều sức khỏe và thành công hơn nữa trong
công tác giảng dạy cũng như trong cuộc sống.
Nhóm xin trân trọng cảm ơn cô!
Tp. Hồ Chí Minh tháng 4 năm 2024 Sinh viên
BẢNG PHÂN CÔNG NHIỆM VỤ Họ và tên MSSV Nhiệm vụ Phần trăm hoàn thành Phạm Thị Xuân Quỳnh 21126076 - Chương 1, chương 2 100% Trương Diễm Quỳnh 21126077 - Demo, tổng hợp 100% Nguyễn Lê Vy Thảo 21126275 - Chương 1, chương 2 100% Nguyễn Minh Nhật 21126061
- Demo, tài liệu tham khảo 100% lOMoAR cPSD| 58702377
DANH MỤC CÁC TỪ VIẾT TẮT Từ viết tắt Nghĩa tiếng Anh Nghĩa tiếng Việt OLAP Online Analytical Processing
Xử lý Phân tích Trực tuyến OLTP Online Transaction Processing
Xử lý giao dịch trực tuyến lOMoAR cPSD| 58702377 DANH MỤC HÌNH ẢNH
Hình 1. Ví dụ 1 giản đồ khối hình sao...........................................................................5
Hình 2. Giản đồ khối hình tuyết rơi...............................................................................6
Hình 3. Bảng thống kê chi tiết đơn hàng online với các chiều dữ liệu...........................6
Hình 4. Mô hình dữ liệu đa chiều..................................................................................7
Hình 5. Khối Olap..........................................................................................................8
Hình 6. Kiến trúc ROLAP.............................................................................................9
Hình 7. Kiến trúc MOLAP...........................................................................................10
Hình 8. Cấu trúc Hybrid OLAP (HOLAP)..................................................................12
Hình 9. Thực hiện lệnh................................................................................................14
Hình 10. Đổi tên..........................................................................................................15
Hình 11. Thực hiện lệnh Close&Load to….................................................................15
Hình 12. Thực hiện lệnh trong phần import data.........................................................16
Hình 13. Thực hiện tương tự với các sheet khác..........................................................16
Hình 14. Tạo Diagram View........................................................................................17
Hình 15. Thêm trường Sales........................................................................................18
Hình 16. Liên Kết oderDetail và product bằng productCode......................................18
Hình 17. Thêm trường Cost.........................................................................................19
Hình 18. Tạo bảng phân tích........................................................................................19
Hình 19. Tính lợi nhuận...............................................................................................20
Hình 20. Thống kê.......................................................................................................20
MỤC LỤCLỜI MỞ ĐẦU .......................... Lỗi! Thẻ đánh dấu không được xác định.
1. Lý do chọn đề tài ......................................................................................................... 1
2. Phương pháp nghiên cứu ............................................................................................. 1
3. Mục tiêu nghiên cứu .................................................................................................... 2
4. Bố cục tiểu luận ........................................................................................................... 2
CHƯƠNG 1. TỔNG QUAN VỀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP ........... 3
1.1. Giới thiệu về OLAP ................................................................................................. 3
1.2. Đặc trưng của OLAP ................................................................................................ 3 lOMoAR cPSD| 58702377
1.2.1. Khung hình đa chiều ......................................................................................... 3
1.2.2. Tính truy xuất:................................................................................................... 3
1.2.3. Tính trong suốt .................................................................................................. 4
CHƯƠNG 2 ..................................................................................................................... 5
KIẾN TRÚC KHỐI CỦA OLAP .................................................................................... 5
2.1. Giới thiệu về kiến trúc khối ...................................................................................... 5
2.2. Chiều (Dimensions) .................................................................................................. 6
2.3. Cube.......................................................................................................................... 7
2.4. Các phương pháp lưu trữ dữ liệu ............................................................................. 8
2.4.1. Relational OLAP (ROLAP) ............................................................................... 8
2.4.2. Multidimensional OLAP (MOLAP) Server ..................................................... 10
2.4.3. Hybrid OLAP (HOLAP) .................................................................................. 11
2.5. Ứng dụng của OLAP .............................................................................................. 12
CHƯƠNG 3. DEMO HỆ THỐNG XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP ..... 14
3.1. Giới thiệu hệ thống xử lý phân tích trực tuyến OLAP ........................................... 14
CHƯƠNG 4. KẾT QUẢ VÀ HƯỚNG PHÁT TRIỂN ................................................. 21
4.1. Kết quả đạt được .................................................................................................... 21
4.2. Hướng phát triển..................................................................................................... 21
TÀI LIỆU THAM KHẢO ............................................................................................. 22 lOMoAR cPSD| 58702377 LỜI MỞ ĐẦU
1. Lý do chọn đề tài
Trong thời đại đang từng bước số hóa, khối lượng dữ liệu ngày càng tăng lên một
cách nhanh chóng và đạt đến con số rất khổng lồ. Từ đó, doanh nghiệp và tổ chức phải
đối mặt với một lượng lớn dữ liệu được tạo ra từ nhiều nguồn khác nhau như hệ thống
giao dịch, máy chủ web, dữ liệu xã hội và nhiều nguồn dữ liệu khác. Đối với việc quản
lý và phân tích các tập dữ liệu lớn như thế và OLAP là một công nghệ cung cấp khả
năng truy xuất và phân tích dữ liệu một cách hiệu quả.
OLAP cung cấp khả năng truy xuất dữ liệu theo nhiều chiều khác nhau, cho phép
người dùng drill-down và roll-up để xem dữ liệu ở các mức chi tiết hoặc tổng quan hơn.
Điều này giúp người dùng có cái nhìn toàn diện và sâu sắc về dữ liệu, từ đó đưa ra các
quyết định thông minh và cải thiện hiệu suất kinh doanh.
Chính vì thế, OLAP trở thành đề tài quan trọng trong việc nắm bắt và hiểu rõ dữ
liệu trong thế giới kinh doanh ngày nay. Nghiên cứu về OLAP sẽ đóng góp vào việc tăng
cường khả năng quản lý và phân tích dữ liệu, đồng thời cung cấp cái nhìn chi tiết và toàn
diện hơn về hoạt động kinh doanh và cơ hội phát triển cho doanh nghiệp.
2. Phương pháp nghiên cứu
Phương pháp phân tích và tổng hợp: Phương pháp này gồm bốn bước cần thiết.
Đầu tiên, tiến hành thu thập thông tin, bao gồm việc tìm kiếm các tài liệu, báo cáo, sách
vở liên quan đến vấn đề nghiên cứu. Thứ hai, cần đọc và phân tích thông tin để xem xét
các tài liệu đã thu thập, phân tích và đưa ra nhận xét về các thông tin đã thu thập được.
Thứ ba, tiếp tục phân tích và so sánh thông tin từ các thông tin đã thu thập được, tiến
hành phân tích và so sánh để đưa ra những kết luận. Cuối cùng, tổng hợp và trình bày
thông tin từ những kết luận đã đưa ra, tiến hành tổng hợp và trình bày thông tin theo cách thức phù hợp.
Phương pháp quy nạp: Phương pháp liên kết những hiện tượng riêng lẻ, rời rạc,
độc lập ngẫu nhiên để tìm ra quy luật, bản chất của sự vật, hiện tượng. Từ những kinh
nghiệm, hiểu biết về các sự vật riêng lẻ người ta đúc kết thành những cái chung, cái tổng
thể. Tìm ra những nguyên lý chung thông qua sự lặp đi lặp lại của những sự vật, hiện
tượng riêng biệt được liên kết từ những kinh nghiệm, lý thuyết thực tiễn có được. lOMoAR cPSD| 58702377
3. Mục tiêu nghiên cứu
Nhóm sẽ tìm hiểu tổng quan về OLAP và xây dựng hệ thống demo OLAP, đánh
giá ưu và nhược điểm của hệ thống, đánh giá kết quả và đề xuất hướng phát triển.
4. Bố cục tiểu luận
Ngoài phần lời mở đầu, tài liệu tham khảo, tiểu luận được chia làm 4 chương:
- Chương 1: Tổng quan về xử lý phân tích trực tuyến OLAP
- Chương 2: Kiến trúc khối của OLAP
- Chương 3: Demo hệ thống xử lý phân tích trực tuyến OLAP
- Chương 4: Kết quả và hướng phát triển lOMoAR cPSD| 58702377
CHƯƠNG 1. TỔNG QUAN VỀ XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP
1.1. Giới thiệu về OLAP
Cơ sở dữ liệu Xử lý Phân tích Trực tuyến (OLAP) là một công nghệ giúp chúng ta
dễ dàng truy vấn thông tin trong các hoạt động kinh doanh thông minh. Thay vì xử lý
các giao dịch, OLAP tập trung vào việc tối ưu hóa truy vấn và báo cáo trong cơ sở dữ liệu.
Dữ liệu nguồn của OLAP là cơ sở dữ liệu giao dịch trực tuyến OLTP. Dữ liệu
OLAP được tổ chức theo cấu trúc phân cấp và lưu trữ trong cube thay vì bảng thông
thường. Đây là một công nghệ thông minh sử dụng cấu trúc đa chiều cho phép truy cập
nhanh chóng vào dữ liệu để phân tích. Cơ sở dữ liệu OLAP giúp tạo điều kiện thuận lợi
cho việc tạo báo cáo PivotTable hoặc PivotChart, cho phép hiển thị các bản tóm tắt dữ
liệu ở mức tổng quan. Ví dụ, có thể dễ dàng xem tổng doanh thu trên toàn quốc hoặc
khu vực. Đồng thời, nó cũng cho phép bạn xem chi tiết về các site cụ thể có doanh số mạnh hoặc yếu.
1.2. Đặc trưng của OLAP
1.2.1. Khung hình đa chiều
Dữ liệu được tổ chức thành các khối (cube) đa chiều, mỗi chiều đại diện cho một
thuộc tính (dimension) của dữ liệu. Sử dụng các cấu trúc mô hình OLAP truyền thống
(hình khối, kích thước, số đo).
1.2.2. Tính truy xuất:
Tính năng truy xuất của OLAP là một trong những đặc trưng nổi bật mang lại lợi
ích quan trọng cho người dùng trong việc trích xuất thông tin từ những dữ liệu đã được
phân tích. Nó giúp người dùng có thể kết nối với nguồn dữ liệu OLAP tương tự như khi
tiếp cận với các nguồn dữ liệu ngoài khác.
Một số chức năng chính của truy xuất gồm:
- Truy xuất đa chiều (Multidimensional Retrieval): Cho phép người dùng truy xuất
dữ liệu đồng thời từ nhiều chiều khác nhau. Người dùng có thể xem thông tin từ nhiều góc độ khác nhau. lOMoAR cPSD| 58702377
- Tính tương tác (Interactive Retrieval): Tính năng này cho phép người dùng tương
tác trực tiếp với dữ liệu. Người dùng cho thể lọc, sắp xếp, phân nhóm và thay đổi cấu
trúc của báo cáo tùy theo nhu cầu của họ.
- Tính linh hoạt (Flexibility): Giúp người dùng truy xuất dữ liệu theo các tiêu chí
và điều kiện khác nhau một cách linh hoạt và dễ dàng.
- Tính tùy chỉnh (Customization): Cho phép người dùng tạo các truy vấn tùy chỉnh
để trích xuất dữ liệu theo từng nhu cầu phân tích cụ thể của họ.
- Truy xuất dữ liệu thời gian thực (Real-time Data Retrieval): Một số hệ thống
OLAP có chức năng hỗ trợ người dùng truy xuất dữ liệu trong thời gian thực, cung cấp
kết quả ngay khi được cập nhật.
Ngoài ra, với tính truy xuất của OLAP, người dùng có thể dễ dàng thực hiện các hoạt động như:
Drill-down: Người dùng có thể điều chỉnh mức độ chi tiết của dữ liệu bằng cách
tiếp tục phân tách dữ liệu thành các mức con. Ví dụ, từ mức tổng quan, người dùng có
thể drill-down để xem dữ liệu theo quốc gia, sau đó theo thành phố, và cuối cùng là theo chi nhánh.
Tính năng Roll-up: Ngược lại với drill-down, người dùng có thể tổng hợp dữ liệu
từ mức chi tiết lên mức tổng quan hơn. Ví dụ, từ dữ liệu theo ngày, người dùng có thể
roll-up để xem dữ liệu theo tuần, tháng hoặc năm.
Tính năng Slice and Dice: Người dùng có thể lọc và cắt dữ liệu theo các tiêu chí
nhất định. Ví dụ, người dùng có thể lọc dữ liệu chỉ cho các sản phẩm của một nhóm cụ
thể hoặc chỉ cho một khoảng thời gian nhất định.
Tính năng Pivot: Người dùng có thể xoay dữ liệu để hiển thị theo cột hoặc theo
hàng khác nhau, giúp thấy được quan hệ giữa các chiều dữ liệu khác nhau.
1.2.3. Tính trong suốt
Tính trong suốt ( Transparency ): Tính trong suốt của OLAP là điều cần thiết giúp
người dùng dễ dàng sử dụng, xem, trao đổi và phân tích dữ liệu kinh doanh mà không
cần phải có kiến thức về cấu trúc của dữ liệu, điều này sẽ giúp người dùng dễ tiếp cận
các công cụ Olap và đơn giản hóa quá trình sử dụng các công cụ vì đã được loại bỏ
những yếu tố kỹ thuật phức tạp. lOMoAR cPSD| 58702377 CHƯƠNG 2
KIẾN TRÚC KHỐI CỦA OLAP
2.1. Giới thiệu về kiến trúc khối
Cơ sở dữ liệu OLAP dùng kiến trúc khối dữ liệu làm căn bản. OLAP xuất phát từ
việc truy vấn dữ liệu từ các bảng dữ liệu Fact và Dimensions. Để trình bày dữ liệu dưới
dạng khối, ta có thể hình dung rằng dữ liệu trong bảng Fact được tổ chức như sau: Trong
OLAP, đối tượng chính là cube (khối), một biểu diễn đa chiều của dữ liệu chi tiết và
tổng thể. Mỗi cube bao gồm một bảng sự kiện (Fact), có thể đi kèm với một hoặc nhiều
bảng chiều (Dimensions), các đơn vị đo (Measures) và các phân vùng (Partitions). Thiết
kế các cube có thể được tùy chỉnh dựa trên nhu cầu phân tích của người dùng. Một kho
dữ liệu có thể chứa nhiều cube khác nhau, ví dụ như cube về lương, cube về hàng tồn
kho, hoặc nhiều loại khác.
Hình 1. Ví dụ 1 giản đồ khối hình sao
Nếu muốn mở rộng cube theo nhiều năm, ta có thể thực hiện điều này bằng cách
bổ sung cột "Year_ID" vào bảng "Time_Dimension_Table" và tạo ra một bảng
Dimension mới là "Time_Dimension_Table_2", chứa hai cột "Year_ID" và "Year". Khi
đó, chúng ta có thể tạo ra một cube mở rộng với cấu trúc tương tự như một giản đồ khối hình tuyết rơi. lOMoAR cPSD| 58702377
Hình 2. Giản đồ khối hình tuyết rơi
2.2. Chiều (Dimensions)
Dimension ( Chiều dữ liệu): Chiều của dữ liệu giúp mô tả thông tin, ngữ cảnh của
bộ dữ liệu cho người dùng, Chiều dữ liệu giúp người dùng dễ dàng truy vấn, xử lí thông
tin theo mong muốn. Ví dụ: theo hình 1, dữ liệu bán hàng online được chia thành nhiều
chiều dữ liệu khác nhau.
Hình 3. Bảng thống kê chi tiết đơn hàng online với các chiều dữ liệu lOMoAR cPSD| 58702377
Hiện nay, cơ sở dữ liệu OLAP được phát triển theo hướng đa chiều (
Multidimension) và đi vào công nghệ cơ sở dữ liệu để phục vụ người dùng xử lí những
bộ dữ liệu lớn. Cơ sở dữ liệu đa chiều là hệ thống được thiết kế cho phép người dùng
truy cập, lưu trữ một khối lượng lớn dữ liệu. Những bộ dữ liệu đa chiều phải có mối
quan hệ với nhau và được lưu trữ, phân tích từ nhiều khía cạnh khác nhau. Những khía
cạnh đó được gọi là các chiều ( Dimension ).[4]
Mô hình dữ liệu đa chiều không phù hợp cho hệ thống OLTP, mô hình dữ liệu này
được thao tác bởi các công cụ OLAP. Các công cụ này cung cấp khả năng truy vấn mạnh
dựa trên mô hình cơ sở dữ liệu đã được thiết kế. Ví dụ: TARGIT Analysis, SQL OLAP Server.
Hình 4. Mô hình dữ liệu đa chiều
Cơ sở dữ liệu đa chiều có kích thước lớn vì liên quan đến hai mức độ: Mức độ tổng
hợp và mức độ chi tiết ( dữ liệu nguồn). Yếu tố thời gian rất quan trọng đối với cơ sở dữ
liệu đa chiều, dung để theo dõi biến động thực tế theo dòng thời gian. Do đó, chiều thời
gian được dung làm thước đo cho những phép phân tích. 2.3. Cube
Cube ( khối ): Khối là một mảng dữ liệu đa chiều, một khối có thể có nhiều chiều.
Nếu một khối có nhiều hơn 3 chiều thì được gọi là siêu khối ( Hypercube). Số chiều
trong khối có thể nhiều vô hạn nhưng trên thực tế số chiều thường trong khoảng từ 4 đến 12 chiều. lOMoAR cPSD| 58702377
Các khối chính là trung tâm của hệ thống OLAP. cho phép khai thác dữ liệu nhanh
và hiệu quả, mang lại góc nhìn đa chiều về dữ liệu giúp người dùng phân tích dữ liệu ở
nhiều góc độ khác nhau.
Một khối gồm nhiều ô dữ liệu. Ô dữ liệu là một liên kết giữa các giá trị của chiều.
Một ô có thể rỗng. Khối thưa có nhiều ô rỗng, khối dày đặc có ít ô rỗng. [5] Hình 5. Khối Olap
Trong khối OLAP trên (Hình 3), các số liệu có thể bao gồm doanh số bán hàng,
quốc gia, sản phẩm, ngày đặt hàng,...Khối có thể được cắt thành từng phần, từng khối
nhỏ hơn, được xoay theo nhiều hướng khác nhau để trực quan hóa dữ liệu theo nhiều
góc độ và giúp người dùng đưa ra nhiều phân tích khác nhau. [3]
2.4. Các phương pháp lưu trữ dữ liệu
2.4.1. Relational OLAP (ROLAP)
ROLAP (Relational OLAP) là là một phương pháp phân tích dữ liệu sử dụng mô
hình quan hệ. Phương pháp này lưu trữ và quản lý dữ liệu trong cơ sở dữ liệu quan hệ,
cho phép phân tích dữ liệu lớn mà không cần chuyển đổi sang cấu trúc đa chiều trước đó.
Sử dụng hệ quản trị cơ sở dữ liệu (DBMS) quan hệ hay mở rộng để lưu trữ và xử
lý dữ liệu kho, kết hợp với phần mềm trung gian OLAP để bổ sung các chức năng còn thiếu.
Máy chủ ROLAP được tối ưu cho cả DBMS và OLAP, bao gồm logic tổng hợp và
các công cụ và dịch vụ hỗ trợ. So với công nghệ MOLAP, ROLAP có khuynh hướng mở rộng cao hơn. lOMoAR cPSD| 58702377
Hệ thống ROLAP chủ yếu hoạt động dựa trên dữ liệu được lưu trữ trong cơ sở dữ
liệu quan hệ, gồm bảng thứ nguyên và dữ liệu cơ sở, dữ liệu được lưu trữ dưới dạng
bảng quan hệ, cho phép phân tích dữ liệu đa chiều.
Phương pháp sử dụng thao tác trên dữ liệu trong cơ sở dữ liệu quan hệ để thực hiện
cắt và cắt, tương đương với việc áp dụng điều kiện "WHERE" trong câu lệnh SQL.
Kiến trúc của ROLAP gồm:
- Máy chủ cơ sở dữ liệu. - Máy chủ ROLAP. - Công cụ front-end.
Hình 6. Kiến trúc ROLAP
ROLAP là phân khúc công nghệ OLAP mới và phát triển nhanh nhất, cho phép tạo
nhiều khung nhìn đa chiều của bảng quan hệ hai chiều mà không cần cấu trúc bản ghi xung quanh.
Trong phân khúc này, một số sản phẩm đã tích hợp các công cụ SQL để giảm sự
phức tạp của phân tích đa chiều, bao gồm việc tạo nhiều câu lệnh SQL để xử lý yêu cầu
người dùng và nhận diện “RDBMS”. Thuận lợi:
Xử lý lượng thông tin lớn: Công nghệ ROLAP không bị giới hạn về kích thước dữ
liệu do phụ thuộc vào kích thước của RDBMS bên dưới.
Kiểm soát các tính năng của RDBMS: Công nghệ ROLAP có thể sử dụng các tính
năng của RDBMS để quản lý dữ liệu. lOMoAR cPSD| 58702377
Nhược điểm:
Hiệu suất có thể chậm do mỗi báo cáo ROLAP là một truy vấn SQL trong cơ sở
dữ liệu quan hệ, có thể kéo dài thời gian truy vấn với dữ liệu lớn.
Hạn chế bởi SQL, ROLAP sử dụng câu lệnh truy vấn dữ liệu, nhưng không phải
tất cả các nhu cầu đều phù hợp.
2.4.2. Multidimensional OLAP (MOLAP) Server
MOLAP sử dụng mô hình logic nguyên gốc và lưu trữ dữ liệu dưới dạng mảng
nhiều chiều, sử dụng kỹ thuật vị trí để truy cập.
MOLAP tóm tắt và lưu trữ dữ liệu trong định dạng tối ưu trong các khối đa chiều,
khác với ROLAP lưu trữ trong cơ sở dữ liệu quan hệ. Dữ liệu trong MOLAP được cấu
trúc theo yêu cầu báo cáo của khách hàng, kèm theo các phép tính đã được tạo sẵn trên các khối dữ liệu. Kiến trúc MOLAP gồm:
- Máy chủ cơ sở dữ liệu. - Máy chủ MOLAP. - Công cụ front-end.
Hình 7. Kiến trúc MOLAP
Cấu trúc MOLAP chủ yếu hoạt động trên dữ liệu đã được tổng hợp trước. Cấu trúc
này có thể hạn chế trong việc tạo tổng hợp mới hoặc đánh giá kết quả chưa tính toán trước. lOMoAR cPSD| 58702377
Các ứng dụng yêu cầu phân tích phân tích chuỗi thời gian và nhu cầu tổng quát về
các xu hướng thường được MOLAP đáp ứng. (ví dụ: lập ngân sách và phân tích tài chính). Thuận lợi:
Khối lập phương MOLAP đảm bảo hiệu suất tuyệt vời trong việc truy xuất thông
tin cho hoạt động cắt và cắt hạt.
Tất cả các đánh giá được thực hiện trước khi tạo khối lập phương, giúp thực hiện
các phép tính phức tạp một cách nhanh chóng và linh hoạt.
Nhược điểm:
Khả năng xử lý thông tin bị hạn chế vì các đánh giá được thực hiện khi xây dựng
khối lập phương, không thể chứa lượng lớn dữ liệu.
Yêu cầu đầu tư bổ sung: Công nghệ lập phương thường là độc quyền và không phổ
biến trong tổ chức, điều này có thể đòi hỏi đầu tư bổ sung vào nguồn nhân lực và vốn
để triển khai công nghệ MOLAP.
2.4.3. Hybrid OLAP (HOLAP)
HOLAP tổng hợp ưu điểm của cả MOLAP và ROLAP trong một kiến trúc duy
nhất. Cho phép lưu trữ dữ liệu cả trong cơ sở dữ liệu quan hệ lẫn trong cấu trúc đa chiều.
HOLAP cung cấp một giải pháp linh hoạt, cho phép người dùng tận dụng tốc độ của
MOLAP cho phân tích tổng hợp, đồng thời duy trì khả năng chi tiết và mở rộng của
ROLAP. HOLAP lưu trữ các tổng hợp trong các khối tính toán trước để tiết kiệm dữ liệu
chi tiết từ các bảng quan hệ, đồng thời cho phép truy xuất dữ liệu chi tiết.
Microsoft SQL Server 2000 có sẵn một máy chủ OLAP kết hợp. lOMoAR cPSD| 58702377
Hình 8. Cấu trúc Hybrid OLAP (HOLAP) Ưu điểm
- HOLAP tổ hợp những ưu điểm của cả MOLAP và ROLAP.
- Nó cho phép truy cập nhanh chóng ở mọi cấp độ tổng hợp.
- HOLAP cân bằng dung lượng đĩa bằng cách lưu trữ thông tin tổng hợp
trênmáy chủ OLAP, trong khi bản ghi chi tiết vẫn nằm trong cơ sở dữ liệu quan hệ
để tránh sự trùng lặp.
Nhược điểm
Kiến trúc HOLAP phức tạp vì nó phải hỗ trợ cả máy chủ MOLAP và ROLAP.
2.5. Ứng dụng của OLAP
OLAP cho phép các nhà quản lý và người dùng cuối khám phá và phân tích dữ liệu
kinh doanh từ nhiều góc độ khác nhau. Các báo cáo đa chiều và biểu đồ đồ thị động giúp
hiểu rõ hơn về các xu hướng, mô hình kinh doanh và mối quan hệ giữa các yếu tố khác nhau trong doanh nghiệp.
OLAP còn được sử dụng để phân tích dữ liệu tài chính, bao gồm các chỉ số tài
chính, báo cáo thu chi, quản lý nguồn lực tài chính và dự báo tài chính. Điều này giúp
cho các nhà quản lý và nhà đầu tư có cái nhìn tổng quan về tình hình tài chính và đưa ra
quyết định dựa trên thông tin xác thực. lOMoAR cPSD| 58702377
OLAP giúp theo dõi và phân tích các hoạt động trong chuỗi cung ứng, từ nguồn
cung cấp đến khách hàng cuối cùng. Nhờ đó, các nhà quản lý có thể tối ưu hóa quy trình
sản xuất và phân phối, đảm bảo sự tuân thủ các tiêu chuẩn chất lượng và tăng cường sự
linh hoạt trong chuỗi cung ứng.
Phân tích dữ liệu thị trường để xác định xu hướng tiêu dùng, sự phân bổ đất đai,
sự tiếp cận thị trường và các yếu tố khác trong một ngành công nghiệp cụ thể. Điều này
giúp các doanh nghiệp đưa ra chiến lược kinh doanh phù hợp và tận dụng cơ hội thị trường.
Phân tích dữ liệu khách hàng, bao gồm hành vi mua hàng, sự tương tác với sản
phẩm và dịch vụ, phản hồi khách hàng và các thông tin cá nhân khác. Điều này giúp tạo
ra các chiến lược marketing đích thực và cung cấp trải nghiệm cá nhân hóa cho khách hàng.
OLAP được sử dụng trong quá trình dự báo và lập kế hoạch. Dựa trên dữ liệu quá
khứ và các mô hình tính toán, OLAP có thể hỗ trợ trong việc dự đoán xu hướng tương
lai và xác định kịch bản kế hoạch khác nhau dựa trên các giả định khác nhau. lOMoAR cPSD| 58702377
CHƯƠNG 3. DEMO HỆ THỐNG XỬ LÝ PHÂN TÍCH TRỰC TUYẾN OLAP
3.1. Giới thiệu hệ thống xử lý phân tích trực tuyến OLAP
Demo dùng để phân tích lợi nhuận theo nhiều chiều đưa ra giải pháp tăng lợi nhuận
dựa vào các dữ liệu có sẵn, bao gồm: - Đơn đặt hàng (Orders)
- Chi tiết đơn đặt hàng (Order Details) - Khách hàng (Customers) - Sản phẩm (Products)
- Dòng sản phẩm (Product Lines)
- Văn phòng bán hàng (Offices) - Nhân viên (Employees)
3.2. Các bước thực hiện demo
Bước 1: Load các bảng dữ liệu vào data model
Vào thanh Data -> Tranform
Hình 9. Thực hiện lệnh
Đổi tên Table_1 thành Customer