Báo cáo Phân tích dữ liệu thế vận hội Olympic từ năm 1986 - Ngôn ngữ Anh | Trường Đại học Bách khoa Thành phố Hồ Chí Minh

Thế vận hội Olympic là một trong những sự kiện thể thao nổi tiếng nhất và quan trọng nhất trên Trái đất. Sự kiện Thế vận hội có nhiều cuộc thi thể thao mùa đông và mùa hè với hàng ngàn đối thủ từ khắp nơi trên thế giới tham gia vào các trò chơi khác nhau. Hơn 200 quốc gia tham gia Thế vận hội Olympic. Tài liệu được sưu tầm giúp bạn tham khảo, ôn tập và đạt kết quả cao trong kì thi sắp tới. Mời bạn đọc đón xem !

Thông tin:
191 trang 1 tháng trước

Bình luận

Vui lòng đăng nhập hoặc đăng ký để gửi bình luận.

Báo cáo Phân tích dữ liệu thế vận hội Olympic từ năm 1986 - Ngôn ngữ Anh | Trường Đại học Bách khoa Thành phố Hồ Chí Minh

Thế vận hội Olympic là một trong những sự kiện thể thao nổi tiếng nhất và quan trọng nhất trên Trái đất. Sự kiện Thế vận hội có nhiều cuộc thi thể thao mùa đông và mùa hè với hàng ngàn đối thủ từ khắp nơi trên thế giới tham gia vào các trò chơi khác nhau. Hơn 200 quốc gia tham gia Thế vận hội Olympic. Tài liệu được sưu tầm giúp bạn tham khảo, ôn tập và đạt kết quả cao trong kì thi sắp tới. Mời bạn đọc đón xem !

42 21 lượt tải Tải xuống
lOMoARcPSD|46342985
lOMoARcPSD|46342985
ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN
BÁO CÁO ĐỒ ÁN
KHO DỮ LIỆU VÀ OLAP
ĐỀ TÀI
PHÂN TÍCH DỮ LIỆU THẾ VẬN
HỘI OLYMPIC TỪ NĂM 1986 - 2021
Giảng viên hướng dẫn:
ThS. Đỗ Thị Minh Phụng
Sinh viên thực hiện:
Nguyễn Hữu Thắng 19522209
Trần Dương Thùy Ngân 19521889
TP. Hồ Chí Minh, tháng 2 năm 2022
lOMoARcPSD|46342985
LỜI CẢM ƠN
Đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến quý giảng viên
Trường Đại học Công nghệ thông tin Đại học Quốc gia TP.HCM quý thầy khoa Hệ
thống Thông tin đã giúp cho nhóm chúng em những kiến thức bản làm nền tảng để
thực hiện đề tài này.
Đặc biệt, nhóm chúng em xin gửi lời cảm ơn lòng biết ơn sâu sắc nhất tới thầy
giáo ThS. Đỗ Thị Minh Phụng, người đã hướng dẫn cho em trong suốt thời gian làm đề
tài. đã trực tiếp hướng dẫn tận tình, sửa chữa đóng góp nhiều ý kiến quý báu giúp
nhóm chúng em hoàn thành tốt báo cáo môn học của mình. Một lần nữa em chân thành cảm
ơn cô và chúc cô dồi dào sức khoẻ.
Trong thời gian một học kỳ thực hiện đề tài, nhóm chúng em đã vận dụng những
kiến thức nền tảng đã tích lũy đồng thời kết hợp với việc học hỏi nghiên cứu những kiến
thức mới từ thầy cô, bạn cũng như nhiều nguồn tài liệu tham khảo. Từ đó, nhóm chúng
em vận dụng tối đa những đã thu thập được để hoàn thành một báo cáo đồ án tốt nhất.
Tuy nhiên, kiến thức chuyên môn còn hạn chế bản thân còn thiếu nhiều kinh nghiệm
thực tiễn n nội dung của báo cáo không tránh khỏi những thiếu xót, em rất mong nhận
được sự góp ý, chỉ bảo thêm của quý thầy cô nhằm hoàn thiện những kiến thức của mình để
nhóm chúng em thể dùng làm hành trang thực hiện tiếp các đề tài khác trong tương lai
cũng như là trong việc học tập và làm việc sau này.
Một lần nữa xin gửi đến thầy cô, bạn bè lời cảm ơn chân thành và tốt đẹp
nhất! Thành phố Hồ Chí Minh, tháng 1 năm 2022
Nhóm sinh viên thực hiện
i
lOMoARcPSD|46342985
NHẬN XÉT CỦA GIẢNG VIÊN
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
ii
lOMoARcPSD|46342985
MỤC
LỜI CẢM ƠN...............................................................................................................i
NHẬN XÉT CỦA GIẢNG VIÊN...............................................................................ii
MỤC LỤC..................................................................................................................iii
DANH MỤC HÌNH ẢNH...........................................................................................1
DANH MỤC CÁC TỪ VIẾT TẮT.............................................................................2
PHẦN 1: GIỚI THIỆU ĐỒ ÁN..................................................................................3
1.1 Lý do chọn đề tài...................................................................................................3
1.2 Giới thiệu về dataset.............................................................................................3
1.2.1 Dataset.............................................................................................................3
1.2.2 Đơn vị cung cấp...............................................................................................4
1.2.3 Mô tả số dòng, số cột, thời gian thu thập.........................................................4
1.2.4 Link dataset......................................................................................................4
1.2.5 Mô tả chi tiết các thuộc tính dữ liệu gốc..........................................................4
1.2.6 Kho dữ liệu đã xử lý.........................................................................................6
1.2.7 Hướng chủ đề...................................................................................................6
1.3 Xây dựng kho dữ liệu...........................................................................................6
1.3.1 Lược đồ hình sao.............................................................................................6
1.3.2 Các bảng chiều................................................................................................6
1.3.3 Bảng sự kiện FACT_Olympic..........................................................................8
1.4 Các câu truy vấn...................................................................................................8
PHẦN 2: QUÁ TRÌNH TRÍCH XUẤT DỮ LIỆU, BIẾN ĐỔI VÀ NẠP DỮ LIỆU
VÀO KHO DỮ LIỆU (QUÁ TRÌNH SSIS).............................................................10
2.1 Chuẩn bị công cụ và Data Warehouse...............................................................10
2.2 Tạo project và thiết lập kết nối..........................................................................10
2.2.1 Tạo project “Integration Service Project” mới.............................................10
2.2.2 Tạo cơ sở dữ liệu và thiết lập kết nối.............................................................12
2.2.3 Quá trình đưa dữ liệu từ file CSV vào SQL Server........................................17
2.2.4 Quá trình merge dữ liệu từ bốn bảng.............................................................24
2.2.5 Quá trình làm sạch dữ liệu............................................................................55
2.2.6 Quá trình tạo các bảng Dimension................................................................72
2.2.7 Quá trình tạo bảng FACT............................................................................144
2.2.8 Tạo các ràng buộc khoá ngoại giữa bảng FACT và bảng DIM...................172
lOMoARcPSD|46342985
2.2.9 Thực thi Package.........................................................................................175
2.2.10 Dữ liệu sau khi hoàn thành........................................................................178
TÀI LIỆU THAM KHẢO.......................................................................................183
lOMoARcPSD|46342985
DANH MỤC HÌNH ẢNHYY
Hình 1.1 Logo công ty...........................................................................................................4
Hình 3.1 Quy trình tổng thể hoạt dộng của doanh nghiệp....................................................15
Hình 3.2 Sơ đồ tổ chức công ty dệt may..............................................................................15
Hình 5.1 Giải pháp ERP cho Công ty TNHH Dệt May Sài Gòn..........................................36
Hình 5.2 Quy trình mua hàng...............................................................................................37
Hình 5.3 Quy trình sản xuất.................................................................................................41
Hình 5.4 Quy trình quản lý hoạt động nhập kho..................................................................45
Hình 5.5 Quy trình quản lý hoạt động xuất kho...................................................................45
Hình 5.6 Quy trình bán hàng................................................................................................48
Hình 5.7 Quy trình quản lý nhân sự.....................................................................................51
Hình 5.8 Quy trình thanh toán lương...................................................................................52
Hình 5.9 Quản trị kế toán tổng hợp......................................................................................57
lOMoARcPSD|46342985
DANH MỤC CÁC TỪ VIẾT TẮT
STT
Từ viết tắt
1 CNTT
2 NPL
3 ERP
4 BOM
5 CSDL
6 GL
7 EU
8 WTO
9 VAS
10 IAS
11 ISO
12 CRM
13 SCM
14 CNTT
15
CAD
CAM
16 FOB
17 CIF
18 LIFO
19 FIFO
20 DN
21 VN
22
23
24
Giải nghĩa
Công nghệ thông tin
Nguyên phụ liệu Enterprise Resource Planning- Hệ hống hoạch
định nguồn lực doanh nghiệp
Bill of Material: Cấu trúc sản phẩm, nguyên phụ liệu
Cơ sở dữ liệu
General Ledger: Sổ cái tổng hợp
European Union- Liên minh châu Âu World Trade Organization-
Tổ chức thương mại thế giới mà Việt Nam là thành viên thứ 150.
Các chuẩn mực kế toán Việt Nam
Các chuẩn mực kế toán quốc tế Bộ tiêu chuẩn ISO do Tổ chức
Tiêu chuẩn hóa quốc tế (ISO) ban hành lần đầu năm 1987. Đây
bộ tiêu chuẩn về quản chất lượng, quy tụ kinh nghiệm quốc tế
và được nhiều quốc gia áp dụng.
Customer Relationship Management- Hệ thống quản lý mối
quan hệ khách hàng.
Supply Change Management – Hệ thống quản lý chuỗi cung ứng
Công nghệ thông tin
Các phần mềm thiết kế tự động
Phương thức tính giá trong vật tư, kho, thương mại quốc tế
Phương thức tính giá trong vật tư, kho, thương mại quốc tế
Phương thức tính giá trong vật tư, kho
Phương thức tính giá trong vật tư, kho
Doanh nghiệp
Việt Nam
lOMoARcPSD|46342985
PHẦN 1: GIỚI THIỆU ĐỒ ÁN
1.1 Lý do chọn đề tài
Thế vận hội Olympic một trong những sự kiện thể thao nổi tiếng nhất quan trọng
nhất trên Trái đất. Sự kiện Thế vận hội nhiều cuộc thi thể thao mùa đông mùa với
hàng ngàn đối thủ từ khắp nơi trên thế giới tham gia vào các trò chơi khác nhau. Hơn 200
quốc gia tham gia Thế vận hội Olympic. Ủy ban Olympic quốc tế (IOC) tổ chức cả Thế vận
hội Olympic mùa đông Thế vận hội Olympic mùa cứ bốn năm một lần, nhưng cách
nhau hai năm. Thế vận hội mùa đông tiếp theo đang được tổ chức tại PyeongChang, Hàn
Quốc vào năm 2018 Bắc Kinh, Trung Quốc vào năm 2022. Thế vận hội mùa được tổ
chức tại Tokyo, Nhật Bản vào năm 2020, Paris, Pháp vào năm 2024 Los Angeles, Mỹ
vào năm 2028.
Lần đầu tiên ngọn đuốc Olympic 2008 đến Việt Nam vào cuối tháng 04/2008 qua
Thành phố Hồ Chí Minh. Đó chính vị thế danh dự của Thành phố Hồ Chí Minh đối
với cả nước và trên trường quốc tế.
Với tinh thần thể thao cao thượng trong sáng, nhân dân Việt Nam nói chung và nhân
dân Thành phố Hồ Chí Minh nói riêng hết lòng ủng hộ cổ cho Olympic 2008, sự kiện
thể thao quan trọng nhất của nhân dân thế giới được tổ chức tại Bắc Kinh. Đội tuyển quốc
gia của Việt Nam cũng tham gia nhiều môn thi đấu tại Olympic Bắc Kinh 2008 lần này như
một sự hưởng ứng tinh thần thượng của Đại hội thể thao lớn nhất hành tinh Thế vận
hội Olympic. Khỏe để xây dựng bảo vệ Tổ quốc Việt Nam hội chủ nghĩa luôn mục
tiêu phấn đấu và là nhiệm vụ quan trọng mà Đảng ta đặt ra cho nền thể thao nước nhà. Hoạt
động, luyện tập và thi đấu thể thao theo tinh thần Olympic trong sáng và cao thượng cũng là
thiết thực ủng hộ cổ cho phong trào Olympic quốc tế, hòa bình, ổn định phát
triển trên toàn thế giới.
Chính vậy nhóm em đã chọn đề tài “Phân tích dữ liệu về Olympic Games” để
muốn tìm hiểu rõ hơn cũng như muốn có thêm nhiều kiến thức về môn thể thao này.
1.2 Giới thiệu về dataset
1.2.1 Dataset
Tên dataset: Olympic Games, 1986-2021 (Phân tích dữ liệu về Olympic Games từ
1986 đến 2021)
Ngày cập nhật gần nhất: 1 tháng trước
Datasets này dùng để phân tích dữ liệu về hơn 19.000 huy chương, 150.000 kết quả,
74.000 vận động viên, 20.000 tiểu sử và 52 nước tổ chức Thế vận hội Olympic mùa
hè và mùa đông.
lOMoARcPSD|46342985
1.2.2 Đơn vị cung cấp
Nguồn dữ liệu gốc của dataset này được lấy từ https://olympics.com/ và được tác giả
Petro, Data Scientist, PhD at CheAI Lviv, Lviv Oblast, Ukrainethu thập và xử lý kỹ
lưỡng.
1.2.3 Mô tả số dòng, số cột, thời gian thu thập
Bộ dữ liệu gồm 159021 dòng dữ liệu và 41 cột thuộc tính bao gồm:
Bảng olympic_athletes gồm 74732 dòng dữ liệu và 7 cột thuộc tính
Bảng olympic_host gồm 53 dòng dữ liệu và 7 cột thuộc tính.
Bảng olympic_medals gồm 21311 dòng dữ liệu 12 cột thuộc tính.
Bảng olympic_results gồm 159021 dòng dữ liệu và 15 cột thuộc tính.
Dữ liệu được thu thập từ năm 1986 đến 2021
1.2.4 Link dataset
Link dataset: https://www.kaggle.com/piterfm/olympic-games-medals-19862018
1.2.5 Mô tả chi tiết các thuộc tính dữ liệu gốc
STT
1
2
3
4
5
6
7
Tên thuộc tính
athlete_url
athelete_full_name
first_game
athlete_year_birthd
ay
athlete_medals
games_participants
bio
Ý nghĩa
Kiểu dữ liệu
Link giới thiệu vận động viên Url
Tên đầy đủ vận động viên String
Tên giải đấu đầu tiên tham gia String
Năm sinh vận động viên Integer
Số huy chương đạt được theo từng loại String
Tổng số lần tham gia giải đấu Integer
Tiểu sử vận động viên String
Table 1 Mô tả chi tiết bảng olympic_athletes
STT
Tên thuộc tính
1 game_slug
2 game_end_date
3
game_start_date
4 game_location
5 game_name
6 game_season
7 game_year
Ý nghĩa
Kiểu dữ liệu
Mã giải đấu String
Thời gian kết thúc String
Thời gian bắt đầu String
Địa điểm tổ chức String
Tên giải đấu String
Mùa giải đấu String
Năm tổ chức giải đấu Integer
Table 2 Mô tả chi tiết bảng olympic_host
lOMoARcPSD|46342985
STT
Tên thuộc tính
1 discipline_title
2 slug_game
3 event_title
4 event_gender
5 medal_type
6 participant_type
7 participant_title
8 athlete_url
9 athlete_full_name
10 country_name
11 country_code
12
country_3_letter_co
de
Ý nghĩa
Kiểu dữ liệu
Thể loại môn thi đấu String
Mã giải đấu String
Nội dung của thể loại môn thi đấu String
Giới tính được tham gia String
Loại huân chương đạt được String
Tham gia theo cá nhân hoặc theo đội String
Tên của đội tham gia String
Link giới thiệu vận động viên Url
Tên vận động viên String
Tên quốc gia String
Mã quốc gia String
Mã quốc gia gồm 3 ký tự String
Table 3 Mô tả chi tiết bảng olympic_medals
STT
Tên thuộc tính
1 discipline_title
2 event_title
3 slug_game
4 participant_type
5 medal_type
6 athlete
7 rank_equal
8 rank_position
9 country_name
10 country_code
11
country_3_letter_co
de
12 athelete_url
13 athlete_full_name
14 value_unit
15 value_type
Ý nghĩa
Kiểu dữ liệu
Thể loại môn thi đấu String
Nội dung thể loại môn thi đấu String
Mã giải đấu String
Tham gia theo cá nhân hoặc theo đội String
Loại huân chương đạt được String
Link giới thiệu vận động viên (team từ 2 Url
người)
Đồng vị trí hay không String
Vị trí Integer
Tên quốc gia String
Mã quốc gia String
Mã quốc gia gồm 3 ký tự String
Link giới thiệu vận động viên Url
Tên đầy đủ vận động viên String
Giá trị của trận đấu String
Loại giá trị String
Table 4 Mô tả chi tiết bảng olympic_results
lOMoARcPSD|46342985
1.2.6 Kho dữ liệu đã xử lý
Sau khi lọc dữ liệu ta được 159021 dòng 20 thuộc tính để sdụng cho việc phân tích
đề tài
1.2.7 Hướng chủ đề
Hướng chủ đề của nhóm sẽ phân tích kết quả đánh giá về các trận đấu Olympic
Games.
1.3 Xây dựng kho dữ liệu
1.3.1 Lược đồ hình sao
Lược đồ hình sao chứa 7 bảng. Trong đó bảng FACT_olympic bảng sự kiện chứa các
khoá ngoại c độ đo. DIM_Host, DIM_Country, DIM_Time, DIM_Location,
DIM_Game và DIM_Athlete là các bảng chiều chứa thuộc tính khoá chính và các thuộc tính
khác của chiều.
Figure 1 Lược đồ hình sao (Vẽ bằng công cụ Creatly)
1.3.2 Các bảng chiều
a. Bảng DIM_Host
Khoá Tên thuộc tính Kiểu d Mô tả
lOMoARcPSD|46342985
chính liệu
game_slug String Mã giải đấu
game_name String
Tên giải đấu
b. Bảng DIM_Country
Khoá
Tên thuộc tính
chính
country_id
country_name
country_code
country_code_3_letter_code
c. Bảng DIM_Time
Kiểu
dữ
Mô tả
liệu
Integer Mã quốc gia
String Tên quốc gia
String Mã quốc gia
String Mã quốc gia (3 ký tự)
Khoá Tên thuộc tính
chính
time_id
game_end_date
game_start_date
game_season
game_year
d. Bảng DIM_Location
Khoá
Tên thuộc tính
chính
location_id
game_location
e. Bảng DIM_Game
Khoá
Tên thuộc tính
chính
game_id
discipline_title
event_title
event_gender
participant_type
participant_title
f. Bảng DIM_Athlete
Kiểu Mô tả
dữ
liệu
Integer Mã thời gian
String Thời gian kết thúc giải đấu
String Thời gian bắt đầu giải đấu
String Mùa tổ chức giải đấu
Integer Năm tổ chức giải đấu
Kiểu
dữ Mô tả
liệu
Integer Mã địa điểm tổ chức
String Tên địa điểm tổ chức
Kiểu
dữ Mô tả
liệu
Integer Mã trận đấu
String Tên bộ môn thi đấu
String Tên nội dung thi đấu
String Giới tính vdv tham gia thi đấu
String Hình thức thi đấu theo cá nhân hoặc đội
String Tên đội thi (nếu thi đấu theo đội)
lOMoARcPSD|46342985
Khoá
Tên thuộc tính
chính
athlete_id
athlete_full_name
athlete_year_birth
1.3.3 Bảng sự kiện FACT_Olympic
Khoá
Tên thuộc tính
chính
id
country_id
athlete_id
time_id
location_id
game_id
game_slug
medal_type
rank_equal
rank_position
Kiểu
dữ
Mô tả
liệu
Integer Mã vận động viên
String
Tên đầy đủ vận động viên
Integer Năm sinh vận động viên
Kiểu
dữ
Mô tả
liệu
Integer Mã thứ tự
Integer Mã quốc gia
Integer Mã vận động viên
Integer Mã thời gian
Integer Mã địa điểm
Integer Mã bộ môn thi đấu
Integer Mã giải đấu
String Loại huy chương
String Đồng vị trí
Integer Vị trí
1.4 Các câu truy vấn
Câu 1: Liệt kê top 10 vận động viên có nhiều huy chương vàng nhất, sắp xếp theo thứ tự
lượt giảm dần.
Câu 2: Liệt kê tất cả các vận động viên tham gia Olympic từ 4 lần trở lên, sắp theo theo
thứ tự tăng dần
Câu 3: Tìm các vận động viên có số tuổi lớn nhất tham dự Tokyo 2020
Câu 4: Vận động viên London dành được nhiều huy chương bạc nhất
Câu 5: Quốc gia dành được nhiều huy vàng nhất từ năm 1990 đến năm 2000
Câu 6: Cho biết Olympic mùa đông đã tổ chức ở US bao nhiêu lần tính từ 1982 đến năm
2020.
Câu 7: Thống kê số lượng thành viên thi đấu theo đội tham gia Ice Hockey trong thế vận
hội Sochi 2014
Câu 8: Tính từ năm 1982 đến năm 2020, có bao nhiêu vận động viên nữ Trung Quốc
tham gia thế vận hội Olympic Games.
lOMoARcPSD|46342985
Câu 9: Truy vấn danh sách vận động viên đứng vị trí đầu trong lượt thi bắt súng nội
dung bắn súng 50m từ năm 2000 đến 2020, sắp xếp từ theo năm tăng dần
Câu 10: Tìm quốc gia có đội tuyển nữ đạt được nhiều huy chương bạc nhất thế vận hội
Tokyo 2020.
Câu 11: Liệt kê danh sách vận động viên có thứ hạng là 2 trong giải Boxing nam ở thế
vận hội Olympic Games Tokyo 2020
Câu 12: Liệt kê danh sách các team bị loại trong 3 mùa thế vận hội Olympic từ năm
2016-2020
Câu 13: Danh sách các vận động viên Việt Nam tham gia thế vận hội Olympic từ trước
năm 2000 đến nay
Câu 14: Liệt kê 5 giải đấu thế vận hội Olympic Games mùa đông có thời gian tổ chức
dài nhất.
Câu 15: Có bao nhiêu môn thi đấu theo hình thức đội cho phép cả nam và nữ đều được
tham gia trong thế vận hội Olympic Tokyo 2020.
lOMoARcPSD|46342985
PHẦN 2: QUÁ TRÌNH TRÍCH XUẤT DỮ LIỆU, BIẾN
ĐỔI VÀ NẠP DỮ LIỆU VÀO KHO DỮ LIỆU (QUÁ
TRÌNH SSIS)
2.1 Chuẩn bị công cụ và Data Warehouse
Sử dụng công cụ SQL Server Data Tools
Tải công cụ SQL Server Integration Service Projects tại:
https://marketplace.visualstudio.com/items?
itemName=SSIS.SqlServerIntegrationServicesProjects
2.2 Tạo project và thiết lập kết nối
2.2.1 Tạo project “Integration Service Project” mới
Mở Visual Studio 2019. Chọn create a new project.
lOMoARcPSD|46342985
Ở tab Create a new project , chọn Integration Services Project.
Sau khi đặt tên file, chọn nơi lưu trữ và chọn Create để hoàn tất
lOMoARcPSD|46342985
2.2.2 Tạo cơ sở dữ liệu và thiết lập kết nối
2.2.2.1 Tạo cơ sở dữ liệu
Database có đuôi OriginalData sẽ là các database chứa dữ liệu gốc, bao gồm các dữ liệu:
Data_Original: được import thẳng từ file csv.
Data_Clean: chứa dữ liệu sử dụng sau khi làm sạch
Data_NULL: chứa dữ liệu Null trong quá trình làm sạch
lOMoARcPSD|46342985
2.2.2.2 Thiết lập kết nối
Tại cửa sổ Solution Explorer, click chuột phải chọn New Connection Manager
Chọn OLEDB, sau đó chọn Add để kết nối tới hệ quản trị SQL Server:
lOMoARcPSD|46342985
Chọn New để tiến hành thêm 1 Connection:
Điền tên Server SQL vào hàng Server name, sau đó chọn Database “OriginalData” ở
mục Select or enter a database name. Tiếp theo nhấn Enter để hoàn tất.
| 1/191

Preview text:

lOMoARcPSD|46342985 lOMoARcPSD|46342985
ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN BÁO CÁO ĐỒ ÁN
KHO DỮ LIỆU VÀ OLAP ĐỀ TÀI
PHÂN TÍCH DỮ LIỆU THẾ VẬN
HỘI OLYMPIC TỪ NĂM 1986 - 2021 Giảng viên hướng dẫn:
ThS. Đỗ Thị Minh Phụng Sinh viên thực hiện: Nguyễn Hữu Thắng 19522209
Trần Dương Thùy Ngân 19521889
TP. Hồ Chí Minh, tháng 2 năm 2022 lOMoARcPSD|46342985 LỜI CẢM ƠN
Đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến quý Cô giảng viên
Trường Đại học Công nghệ thông tin – Đại học Quốc gia TP.HCM và quý thầy cô khoa Hệ
thống Thông tin đã giúp cho nhóm chúng em có những kiến thức cơ bản làm nền tảng để thực hiện đề tài này.
Đặc biệt, nhóm chúng em xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới thầy
giáo – ThS. Đỗ Thị Minh Phụng, người đã hướng dẫn cho em trong suốt thời gian làm đề
tài. Cô đã trực tiếp hướng dẫn tận tình, sửa chữa và đóng góp nhiều ý kiến quý báu giúp
nhóm chúng em hoàn thành tốt báo cáo môn học của mình. Một lần nữa em chân thành cảm
ơn cô và chúc cô dồi dào sức khoẻ.
Trong thời gian một học kỳ thực hiện đề tài, nhóm chúng em đã vận dụng những
kiến thức nền tảng đã tích lũy đồng thời kết hợp với việc học hỏi và nghiên cứu những kiến
thức mới từ thầy cô, bạn bè cũng như nhiều nguồn tài liệu tham khảo. Từ đó, nhóm chúng
em vận dụng tối đa những gì đã thu thập được để hoàn thành một báo cáo đồ án tốt nhất.
Tuy nhiên, vì kiến thức chuyên môn còn hạn chế và bản thân còn thiếu nhiều kinh nghiệm
thực tiễn nên nội dung của báo cáo không tránh khỏi những thiếu xót, em rất mong nhận
được sự góp ý, chỉ bảo thêm của quý thầy cô nhằm hoàn thiện những kiến thức của mình để
nhóm chúng em có thể dùng làm hành trang thực hiện tiếp các đề tài khác trong tương lai
cũng như là trong việc học tập và làm việc sau này.
Một lần nữa xin gửi đến thầy cô, bạn bè lời cảm ơn chân thành và tốt đẹp
nhất! Thành phố Hồ Chí Minh, tháng 1 năm 2022 Nhóm sinh viên thực hiện i lOMoARcPSD|46342985
NHẬN XÉT CỦA GIẢNG VIÊN
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
………………………………………………………………………………………………… ii lOMoARcPSD|46342985 MỤC
LỜI CẢM ƠN...............................................................................................................i
NHẬN XÉT CỦA GIẢNG VIÊN
...............................................................................ii
MỤC LỤC..................................................................................................................iii
DANH MỤC HÌNH ẢNH...........................................................................................1
DANH MỤC CÁC TỪ VIẾT TẮT.............................................................................2
PHẦN 1: GIỚI THIỆU ĐỒ ÁN..................................................................................3
1.1 Lý do chọn đề tài
...................................................................................................3
1.2 Giới thiệu về dataset.
............................................................................................3
1.2.1 Dataset.............................................................................................................3
1.2.2 Đơn vị cung cấp...............................................................................................4
1.2.3 Mô tả số dòng, số cột, thời gian thu thập.
........................................................4
1.2.4 Link dataset
......................................................................................................4
1.2.5 Mô tả chi tiết các thuộc tính dữ liệu gốc.
.........................................................4
1.2.6 Kho dữ liệu đã xử lý.........................................................................................6
1.2.7 Hướng chủ đề
...................................................................................................6
1.3 Xây dựng kho dữ liệu...........................................................................................6
1.3.1 Lược đồ hình sao.............................................................................................6
1.3.2 Các bảng chiều.
...............................................................................................6
1.3.3 Bảng sự kiện FACT_Olympic..........................................................................8
1.4 Các câu truy vấn...................................................................................................8
PHẦN 2: QUÁ TRÌNH TRÍCH XUẤT DỮ LIỆU, BIẾN ĐỔI VÀ NẠP DỮ LIỆU
VÀO KHO DỮ LIỆU (QUÁ TRÌNH SSIS).
............................................................10
2.1 Chuẩn bị công cụ và Data Warehouse.
..............................................................10
2.2 Tạo project và thiết lập kết nối
..........................................................................10
2.2.1 Tạo project “Integration Service Project” mới.............................................10
2.2.2 Tạo cơ sở dữ liệu và thiết lập kết nối.............................................................12
2.2.3 Quá trình đưa dữ liệu từ file CSV vào SQL Server........................................17
2.2.4 Quá trình merge dữ liệu từ bốn bảng.
............................................................24
2.2.5 Quá trình làm sạch dữ liệu.
...........................................................................55
2.2.6 Quá trình tạo các bảng Dimension.
...............................................................72
2.2.7 Quá trình tạo bảng FACT.
...........................................................................144
2.2.8 Tạo các ràng buộc khoá ngoại giữa bảng FACT và bảng DIM.
..................172 lOMoARcPSD|46342985
2.2.9 Thực thi Package.........................................................................................175
2.2.10 Dữ liệu sau khi hoàn thành.
.......................................................................178
TÀI LIỆU THAM KHẢO.......................................................................................183 lOMoARcPSD|46342985
DANH MỤC HÌNH ẢNHYY
Hình 1.1 Logo công ty...........................................................................................................4
Hình 3.1 Quy trình tổng thể hoạt dộng của doanh nghiệp....................................................15
Hình 3.2 Sơ đồ tổ chức công ty dệt may..............................................................................15
Hình 5.1 Giải pháp ERP cho Công ty TNHH Dệt May Sài Gòn..........................................36
Hình 5.2 Quy trình mua hàng...............................................................................................37
Hình 5.3 Quy trình sản xuất.................................................................................................41
Hình 5.4 Quy trình quản lý hoạt động nhập kho..................................................................45
Hình 5.5 Quy trình quản lý hoạt động xuất kho...................................................................45
Hình 5.6 Quy trình bán hàng................................................................................................48
Hình 5.7 Quy trình quản lý nhân sự.....................................................................................51
Hình 5.8 Quy trình thanh toán lương...................................................................................52
Hình 5.9 Quản trị kế toán tổng hợp......................................................................................57 lOMoARcPSD|46342985
DANH MỤC CÁC TỪ VIẾT TẮT STT
Từ viết tắt Giải nghĩa 1 CNTT Công nghệ thông tin 2 NPL
Nguyên phụ liệu Enterprise Resource Planning- Hệ hống hoạch 3 ERP
định nguồn lực doanh nghiệp
Bill of Material: Cấu trúc sản phẩm, nguyên phụ liệu 4 BOM Cơ sở dữ liệu 5 CSDL
General Ledger: Sổ cái tổng hợp 6 GL
European Union- Liên minh châu Âu World Trade Organization- 7 EU
Tổ chức thương mại thế giới mà Việt Nam là thành viên thứ 150. 8 WTO
Các chuẩn mực kế toán Việt Nam 9 VAS
Các chuẩn mực kế toán quốc tế Bộ tiêu chuẩn ISO do Tổ chức
Tiêu chuẩn hóa quốc tế (ISO) ban hành lần đầu năm 1987. Đây là 10 IAS
bộ tiêu chuẩn về quản lý chất lượng, quy tụ kinh nghiệm quốc tế
và được nhiều quốc gia áp dụng. 11 ISO
Customer Relationship Management- Hệ thống quản lý mối quan hệ khách hàng.
Supply Change Management – Hệ thống quản lý chuỗi cung ứng 12 CRM Công nghệ thông tin 13 SCM
Các phần mềm thiết kế tự động 14 CNTT
Phương thức tính giá trong vật tư, kho, thương mại quốc tế CAD
Phương thức tính giá trong vật tư, kho, thương mại quốc tế 15 CAM
Phương thức tính giá trong vật tư, kho 16 FOB
Phương thức tính giá trong vật tư, kho 17 CIF Doanh nghiệp 18 LIFO Việt Nam 19 FIFO 20 DN 21 VN 22 23 24 lOMoARcPSD|46342985
PHẦN 1: GIỚI THIỆU ĐỒ ÁN
1.1 Lý do chọn đề tài
Thế vận hội Olympic là một trong những sự kiện thể thao nổi tiếng nhất và quan trọng
nhất trên Trái đất. Sự kiện Thế vận hội có nhiều cuộc thi thể thao mùa đông và mùa hè với
hàng ngàn đối thủ từ khắp nơi trên thế giới tham gia vào các trò chơi khác nhau. Hơn 200
quốc gia tham gia Thế vận hội Olympic. Ủy ban Olympic quốc tế (IOC) tổ chức cả Thế vận
hội Olympic mùa đông và Thế vận hội Olympic mùa hè cứ bốn năm một lần, nhưng cách
nhau hai năm. Thế vận hội mùa đông tiếp theo đang được tổ chức tại PyeongChang, Hàn
Quốc vào năm 2018 và Bắc Kinh, Trung Quốc vào năm 2022. Thế vận hội mùa hè được tổ
chức tại Tokyo, Nhật Bản vào năm 2020, Paris, Pháp vào năm 2024 và Los Angeles, Mỹ vào năm 2028.
Lần đầu tiên ngọn đuốc Olympic 2008 đến Việt Nam vào cuối tháng 04/2008 và là qua
Thành phố Hồ Chí Minh. Đó chính là vị thế và danh dự của Thành phố Hồ Chí Minh đối
với cả nước và trên trường quốc tế.
Với tinh thần thể thao cao thượng và trong sáng, nhân dân Việt Nam nói chung và nhân
dân Thành phố Hồ Chí Minh nói riêng hết lòng ủng hộ và cổ vũ cho Olympic 2008, sự kiện
thể thao quan trọng nhất của nhân dân thế giới được tổ chức tại Bắc Kinh. Đội tuyển quốc
gia của Việt Nam cũng tham gia nhiều môn thi đấu tại Olympic Bắc Kinh 2008 lần này như
một sự hưởng ứng tinh thần thượng võ của Đại hội thể thao lớn nhất hành tinh – Thế vận
hội Olympic. Khỏe để xây dựng và bảo vệ Tổ quốc Việt Nam xã hội chủ nghĩa luôn là mục
tiêu phấn đấu và là nhiệm vụ quan trọng mà Đảng ta đặt ra cho nền thể thao nước nhà. Hoạt
động, luyện tập và thi đấu thể thao theo tinh thần Olympic trong sáng và cao thượng cũng là
thiết thực ủng hộ và cổ vũ cho phong trào Olympic quốc tế, vì hòa bình, ổn định và phát
triển trên toàn thế giới.
Chính vì vậy mà nhóm em đã chọn đề tài “Phân tích dữ liệu về Olympic Games” để
muốn tìm hiểu rõ hơn cũng như muốn có thêm nhiều kiến thức về môn thể thao này.
1.2 Giới thiệu về dataset 1.2.1 Dataset
Tên dataset: Olympic Games, 1986-2021 (Phân tích dữ liệu về Olympic Games từ 1986 đến 2021)
Ngày cập nhật gần nhất: 1 tháng trước
Datasets này dùng để phân tích dữ liệu về hơn 19.000 huy chương, 150.000 kết quả,
74.000 vận động viên, 20.000 tiểu sử và 52 nước tổ chức Thế vận hội Olympic mùa hè và mùa đông. lOMoARcPSD|46342985
1.2.2 Đơn vị cung cấp
Nguồn dữ liệu gốc của dataset này được lấy từ https
://olympics.com/ và được tác giả
Petro, Data Scientist, PhD at CheAI Lviv, Lviv Oblast, Ukrainethu thập và xử lý kỹ lưỡng.
1.2.3 Mô tả số dòng, số cột, thời gian thu thập
• Bộ dữ liệu gồm 159021 dòng dữ liệu và 41 cột thuộc tính bao gồm:
Bảng olympic_athletes gồm 74732 dòng dữ liệu và 7 cột thuộc tính
Bảng olympic_host gồm 53 dòng dữ liệu và 7 cột thuộc tính.
Bảng olympic_medals gồm 21311 dòng dữ liệu và 12 cột thuộc tính.
Bảng olympic_results gồm 159021 dòng dữ liệu và 15 cột thuộc tính.
• Dữ liệu được thu thập từ năm 1986 đến 2021
1.2.4 Link dataset
Link dataset: https://www.kaggle.com/piterfm/olympic-games-medals-19862018
1.2.5 Mô tả chi tiết các thuộc tính dữ liệu gốc STT Tên thuộc tính Ý nghĩa Kiểu dữ liệu 1 athlete_url
Link giới thiệu vận động viên Url 2 athelete_full_name
Tên đầy đủ vận động viên String 3 first_game
Tên giải đấu đầu tiên tham gia String athlete_year_birthd Năm sinh vận động viên Integer 4 ay 5 athlete_medals
Số huy chương đạt được theo từng loại String 6 games_participants
Tổng số lần tham gia giải đấu Integer 7 bio
Tiểu sử vận động viên String
Table 1 Mô tả chi tiết bảng olympic_athletes STT Tên thuộc tính Ý nghĩa Kiểu dữ liệu 1 game_slug Mã giải đấu String 2 game_end_date Thời gian kết thúc String 3 game_start_date Thời gian bắt đầu String 4 game_location Địa điểm tổ chức String 5 game_name Tên giải đấu String 6 game_season Mùa giải đấu String 7 game_year Năm tổ chức giải đấu Integer
Table 2 Mô tả chi tiết bảng olympic_host lOMoARcPSD|46342985 STT Tên thuộc tính Ý nghĩa Kiểu dữ liệu 1 discipline_title Thể loại môn thi đấu String 2 slug_game Mã giải đấu String 3 event_title
Nội dung của thể loại môn thi đấu String 4 event_gender Giới tính được tham gia String 5 medal_type
Loại huân chương đạt được String 6 participant_type
Tham gia theo cá nhân hoặc theo đội String 7 participant_title Tên của đội tham gia String 8 athlete_url
Link giới thiệu vận động viên Url 9 athlete_full_name Tên vận động viên String 10 country_name Tên quốc gia String 11 country_code Mã quốc gia String 12 country_3_letter_co
Mã quốc gia gồm 3 ký tự String de
Table 3 Mô tả chi tiết bảng olympic_medals STT Tên thuộc tính Ý nghĩa Kiểu dữ liệu 1 discipline_title Thể loại môn thi đấu String 2 event_title
Nội dung thể loại môn thi đấu String 3 slug_game Mã giải đấu String 4 participant_type
Tham gia theo cá nhân hoặc theo đội String 5 medal_type
Loại huân chương đạt được String
Link giới thiệu vận động viên (team từ 2 Url 6 athlete người) 7 rank_equal Đồng vị trí hay không String 8 rank_position Vị trí Integer 9 country_name Tên quốc gia String 10 country_code Mã quốc gia String 11 country_3_letter_co
Mã quốc gia gồm 3 ký tự String de 12 athelete_url
Link giới thiệu vận động viên Url 13 athlete_full_name
Tên đầy đủ vận động viên String 14 value_unit Giá trị của trận đấu String 15 value_type Loại giá trị String
Table 4 Mô tả chi tiết bảng olympic_results lOMoARcPSD|46342985
1.2.6 Kho dữ liệu đã xử lý
Sau khi lọc dữ liệu ta được 159021 dòng và 20 thuộc tính để sử dụng cho việc phân tích đề tài
1.2.7 Hướng chủ đề
Hướng chủ đề của nhóm sẽ là phân tích kết quả và đánh giá về các trận đấu Olympic Games.
1.3 Xây dựng kho dữ liệu
1.3.1 Lược đồ hình sao
Lược đồ hình sao chứa 7 bảng. Trong đó bảng FACT_olympic là bảng sự kiện chứa các
khoá ngoại và các độ đo. DIM_Host, DIM_Country, DIM_Time, DIM_Location,
DIM_Game và DIM_Athlete là các bảng chiều chứa thuộc tính khoá chính và các thuộc tính khác của chiều.
Figure 1 Lược đồ hình sao (Vẽ bằng công cụ Creatly)
1.3.2 Các bảng chiều a. Bảng DIM_Host
Khoá Tên thuộc tính Kiểu dữ Mô tả lOMoARcPSD|46342985 chính liệu game_slug String Mã giải đấu game_name String Tên giải đấu b. Bảng DIM_Country Kiểu Khoá Tên thuộc tính dữ Mô tả chính liệu Integer Mã quốc gia country_id String Tên quốc gia country_name String Mã quốc gia country_code String Mã quốc gia (3 ký tự) country_code_3_letter_code c. Bảng DIM_Time Khoá Tên thuộc tính Kiểu Mô tả chính dữ liệu time_id Integer Mã thời gian game_end_date
String Thời gian kết thúc giải đấu game_start_date
String Thời gian bắt đầu giải đấu game_season
String Mùa tổ chức giải đấu game_year
Integer Năm tổ chức giải đấu d. Bảng DIM_Location Kiểu Khoá Tên thuộc tính dữ Mô tả chính liệu location_id
Integer Mã địa điểm tổ chức
String Tên địa điểm tổ chức game_location e. Bảng DIM_Game Kiểu Khoá dữ Mô tả Tên thuộc tính chính liệu Integer Mã trận đấu game_id
String Tên bộ môn thi đấu discipline_title
String Tên nội dung thi đấu event_title
String Giới tính vdv tham gia thi đấu event_gender
String Hình thức thi đấu theo cá nhân hoặc đội participant_type
String Tên đội thi (nếu thi đấu theo đội) participant_title f. Bảng DIM_Athlete lOMoARcPSD|46342985 Kiểu Khoá Tên thuộc tính dữ Mô tả chính liệu
Integer Mã vận động viên athlete_id String
Tên đầy đủ vận động viên athlete_full_name
Integer Năm sinh vận động viên athlete_year_birth
1.3.3 Bảng sự kiện FACT_Olympic Kiểu Khoá dữ Mô tả Tên thuộc tính chính liệu Integer Mã thứ tự id Integer Mã quốc gia country_id
Integer Mã vận động viên athlete_id Integer Mã thời gian time_id Integer Mã địa điểm location_id
Integer Mã bộ môn thi đấu game_id Integer Mã giải đấu game_slug String Loại huy chương medal_type String Đồng vị trí rank_equal Integer Vị trí rank_position
1.4 Các câu truy vấn
Câu 1: Liệt kê top 10 vận động viên có nhiều huy chương vàng nhất, sắp xếp theo thứ tự lượt giảm dần.
Câu 2: Liệt kê tất cả các vận động viên tham gia Olympic từ 4 lần trở lên, sắp theo theo thứ tự tăng dần
Câu 3: Tìm các vận động viên có số tuổi lớn nhất tham dự Tokyo 2020
Câu 4: Vận động viên London dành được nhiều huy chương bạc nhất
Câu 5: Quốc gia dành được nhiều huy vàng nhất từ năm 1990 đến năm 2000
Câu 6: Cho biết Olympic mùa đông đã tổ chức ở US bao nhiêu lần tính từ 1982 đến năm 2020.
Câu 7: Thống kê số lượng thành viên thi đấu theo đội tham gia Ice Hockey trong thế vận hội Sochi 2014
Câu 8: Tính từ năm 1982 đến năm 2020, có bao nhiêu vận động viên nữ Trung Quốc
tham gia thế vận hội Olympic Games. lOMoARcPSD|46342985
Câu 9: Truy vấn danh sách vận động viên đứng vị trí đầu trong lượt thi bắt súng nội
dung bắn súng 50m từ năm 2000 đến 2020, sắp xếp từ theo năm tăng dần
Câu 10: Tìm quốc gia có đội tuyển nữ đạt được nhiều huy chương bạc nhất thế vận hội Tokyo 2020.
Câu 11: Liệt kê danh sách vận động viên có thứ hạng là 2 trong giải Boxing nam ở thế
vận hội Olympic Games Tokyo 2020
Câu 12: Liệt kê danh sách các team bị loại trong 3 mùa thế vận hội Olympic từ năm 2016-2020
Câu 13: Danh sách các vận động viên Việt Nam tham gia thế vận hội Olympic từ trước năm 2000 đến nay
Câu 14: Liệt kê 5 giải đấu thế vận hội Olympic Games mùa đông có thời gian tổ chức dài nhất.
Câu 15: Có bao nhiêu môn thi đấu theo hình thức đội cho phép cả nam và nữ đều được
tham gia trong thế vận hội Olympic Tokyo 2020. lOMoARcPSD|46342985
PHẦN 2: QUÁ TRÌNH TRÍCH XUẤT DỮ LIỆU, BIẾN
ĐỔI VÀ NẠP DỮ LIỆU VÀO KHO DỮ LIỆU (QUÁ TRÌNH SSIS)
2.1 Chuẩn bị công cụ và Data Warehouse
Sử dụng công cụ SQL Server Data Tools
Tải công cụ SQL Server Integration Service Projects tại:
https://marketplace.visualstudio.com/items?
itemName=SSIS.SqlServerIntegrationServicesProjects
2.2 Tạo project và thiết lập kết nối
2.2.1 Tạo project “Integration Service Project” mới
Mở Visual Studio 2019. Chọn create a new project. lOMoARcPSD|46342985
Ở tab Create a new project , chọn Integration Services Project.
Sau khi đặt tên file, chọn nơi lưu trữ và chọn Create để hoàn tất lOMoARcPSD|46342985
2.2.2 Tạo cơ sở dữ liệu và thiết lập kết nối
2.2.2.1 Tạo cơ sở dữ liệu
Database có đuôi OriginalData sẽ là các database chứa dữ liệu gốc, bao gồm các dữ liệu:
Data_Original: được import thẳng từ file csv.
Data_Clean: chứa dữ liệu sử dụng sau khi làm sạch
Data_NULL: chứa dữ liệu Null trong quá trình làm sạch lOMoARcPSD|46342985
2.2.2.2 Thiết lập kết nối
Tại cửa sổ Solution Explorer, click chuột phải chọn New Connection Manager
Chọn OLEDB, sau đó chọn Add để kết nối tới hệ quản trị SQL Server: lOMoARcPSD|46342985
Chọn New để tiến hành thêm 1 Connection:
Điền tên Server SQL vào hàng Server name, sau đó chọn Database “OriginalData” ở
mục Select or enter a database name. Tiếp theo nhấn Enter để hoàn tất.