-
Thông tin
-
Hỏi đáp
Báo cáo Phân tích dữ liệu thế vận hội Olympic từ năm 1986 - Ngôn ngữ Anh | Trường Đại học Bách khoa Thành phố Hồ Chí Minh
Thế vận hội Olympic là một trong những sự kiện thể thao nổi tiếng nhất và quan trọng nhất trên Trái đất. Sự kiện Thế vận hội có nhiều cuộc thi thể thao mùa đông và mùa hè với hàng ngàn đối thủ từ khắp nơi trên thế giới tham gia vào các trò chơi khác nhau. Hơn 200 quốc gia tham gia Thế vận hội Olympic. Tài liệu được sưu tầm giúp bạn tham khảo, ôn tập và đạt kết quả cao trong kì thi sắp tới. Mời bạn đọc đón xem !
Môn: Tiếng anh học phần
Trường: Đại học Bách khoa Thành phố Hồ Chí Minh
Thông tin:
Tác giả:
Preview text:
lOMoARcPSD|46342985 lOMoARcPSD|46342985
ĐẠI HỌC QUỐC GIA TP.HỒ CHÍ MINH
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN
KHOA HỆ THỐNG THÔNG TIN BÁO CÁO ĐỒ ÁN
KHO DỮ LIỆU VÀ OLAP ĐỀ TÀI
PHÂN TÍCH DỮ LIỆU THẾ VẬN
HỘI OLYMPIC TỪ NĂM 1986 - 2021 Giảng viên hướng dẫn:
ThS. Đỗ Thị Minh Phụng Sinh viên thực hiện: Nguyễn Hữu Thắng 19522209
Trần Dương Thùy Ngân 19521889
TP. Hồ Chí Minh, tháng 2 năm 2022 lOMoARcPSD|46342985 LỜI CẢM ƠN
Đầu tiên, nhóm chúng em xin gửi lời cảm ơn chân thành đến quý Cô giảng viên
Trường Đại học Công nghệ thông tin – Đại học Quốc gia TP.HCM và quý thầy cô khoa Hệ
thống Thông tin đã giúp cho nhóm chúng em có những kiến thức cơ bản làm nền tảng để thực hiện đề tài này.
Đặc biệt, nhóm chúng em xin gửi lời cảm ơn và lòng biết ơn sâu sắc nhất tới thầy
giáo – ThS. Đỗ Thị Minh Phụng, người đã hướng dẫn cho em trong suốt thời gian làm đề
tài. Cô đã trực tiếp hướng dẫn tận tình, sửa chữa và đóng góp nhiều ý kiến quý báu giúp
nhóm chúng em hoàn thành tốt báo cáo môn học của mình. Một lần nữa em chân thành cảm
ơn cô và chúc cô dồi dào sức khoẻ.
Trong thời gian một học kỳ thực hiện đề tài, nhóm chúng em đã vận dụng những
kiến thức nền tảng đã tích lũy đồng thời kết hợp với việc học hỏi và nghiên cứu những kiến
thức mới từ thầy cô, bạn bè cũng như nhiều nguồn tài liệu tham khảo. Từ đó, nhóm chúng
em vận dụng tối đa những gì đã thu thập được để hoàn thành một báo cáo đồ án tốt nhất.
Tuy nhiên, vì kiến thức chuyên môn còn hạn chế và bản thân còn thiếu nhiều kinh nghiệm
thực tiễn nên nội dung của báo cáo không tránh khỏi những thiếu xót, em rất mong nhận
được sự góp ý, chỉ bảo thêm của quý thầy cô nhằm hoàn thiện những kiến thức của mình để
nhóm chúng em có thể dùng làm hành trang thực hiện tiếp các đề tài khác trong tương lai
cũng như là trong việc học tập và làm việc sau này.
Một lần nữa xin gửi đến thầy cô, bạn bè lời cảm ơn chân thành và tốt đẹp
nhất! Thành phố Hồ Chí Minh, tháng 1 năm 2022 Nhóm sinh viên thực hiện i lOMoARcPSD|46342985
NHẬN XÉT CỦA GIẢNG VIÊN
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
…………………………………………………………………………………………………
………………………………………………………………………………………………… ii lOMoARcPSD|46342985 MỤC
LỜI CẢM ƠN...............................................................................................................i
NHẬN XÉT CỦA GIẢNG VIÊN...............................................................................ii
MỤC LỤC..................................................................................................................iii
DANH MỤC HÌNH ẢNH...........................................................................................1
DANH MỤC CÁC TỪ VIẾT TẮT.............................................................................2
PHẦN 1: GIỚI THIỆU ĐỒ ÁN..................................................................................3
1.1 Lý do chọn đề tài...................................................................................................3
1.2 Giới thiệu về dataset.............................................................................................3
1.2.1 Dataset.............................................................................................................3
1.2.2 Đơn vị cung cấp...............................................................................................4
1.2.3 Mô tả số dòng, số cột, thời gian thu thập.........................................................4
1.2.4 Link dataset......................................................................................................4
1.2.5 Mô tả chi tiết các thuộc tính dữ liệu gốc..........................................................4
1.2.6 Kho dữ liệu đã xử lý.........................................................................................6
1.2.7 Hướng chủ đề...................................................................................................6
1.3 Xây dựng kho dữ liệu...........................................................................................6
1.3.1 Lược đồ hình sao.............................................................................................6
1.3.2 Các bảng chiều................................................................................................6
1.3.3 Bảng sự kiện FACT_Olympic..........................................................................8
1.4 Các câu truy vấn...................................................................................................8
PHẦN 2: QUÁ TRÌNH TRÍCH XUẤT DỮ LIỆU, BIẾN ĐỔI VÀ NẠP DỮ LIỆU
VÀO KHO DỮ LIỆU (QUÁ TRÌNH SSIS).............................................................10
2.1 Chuẩn bị công cụ và Data Warehouse...............................................................10
2.2 Tạo project và thiết lập kết nối..........................................................................10
2.2.1 Tạo project “Integration Service Project” mới.............................................10
2.2.2 Tạo cơ sở dữ liệu và thiết lập kết nối.............................................................12
2.2.3 Quá trình đưa dữ liệu từ file CSV vào SQL Server........................................17
2.2.4 Quá trình merge dữ liệu từ bốn bảng.............................................................24
2.2.5 Quá trình làm sạch dữ liệu............................................................................55
2.2.6 Quá trình tạo các bảng Dimension................................................................72
2.2.7 Quá trình tạo bảng FACT............................................................................144
2.2.8 Tạo các ràng buộc khoá ngoại giữa bảng FACT và bảng DIM...................172 lOMoARcPSD|46342985
2.2.9 Thực thi Package.........................................................................................175
2.2.10 Dữ liệu sau khi hoàn thành........................................................................178
TÀI LIỆU THAM KHẢO.......................................................................................183 lOMoARcPSD|46342985
DANH MỤC HÌNH ẢNHYY
Hình 1.1 Logo công ty...........................................................................................................4
Hình 3.1 Quy trình tổng thể hoạt dộng của doanh nghiệp....................................................15
Hình 3.2 Sơ đồ tổ chức công ty dệt may..............................................................................15
Hình 5.1 Giải pháp ERP cho Công ty TNHH Dệt May Sài Gòn..........................................36
Hình 5.2 Quy trình mua hàng...............................................................................................37
Hình 5.3 Quy trình sản xuất.................................................................................................41
Hình 5.4 Quy trình quản lý hoạt động nhập kho..................................................................45
Hình 5.5 Quy trình quản lý hoạt động xuất kho...................................................................45
Hình 5.6 Quy trình bán hàng................................................................................................48
Hình 5.7 Quy trình quản lý nhân sự.....................................................................................51
Hình 5.8 Quy trình thanh toán lương...................................................................................52
Hình 5.9 Quản trị kế toán tổng hợp......................................................................................57 lOMoARcPSD|46342985
DANH MỤC CÁC TỪ VIẾT TẮT STT
Từ viết tắt Giải nghĩa 1 CNTT Công nghệ thông tin 2 NPL
Nguyên phụ liệu Enterprise Resource Planning- Hệ hống hoạch 3 ERP
định nguồn lực doanh nghiệp
Bill of Material: Cấu trúc sản phẩm, nguyên phụ liệu 4 BOM Cơ sở dữ liệu 5 CSDL
General Ledger: Sổ cái tổng hợp 6 GL
European Union- Liên minh châu Âu World Trade Organization- 7 EU
Tổ chức thương mại thế giới mà Việt Nam là thành viên thứ 150. 8 WTO
Các chuẩn mực kế toán Việt Nam 9 VAS
Các chuẩn mực kế toán quốc tế Bộ tiêu chuẩn ISO do Tổ chức
Tiêu chuẩn hóa quốc tế (ISO) ban hành lần đầu năm 1987. Đây là 10 IAS
bộ tiêu chuẩn về quản lý chất lượng, quy tụ kinh nghiệm quốc tế
và được nhiều quốc gia áp dụng. 11 ISO
Customer Relationship Management- Hệ thống quản lý mối quan hệ khách hàng.
Supply Change Management – Hệ thống quản lý chuỗi cung ứng 12 CRM Công nghệ thông tin 13 SCM
Các phần mềm thiết kế tự động 14 CNTT
Phương thức tính giá trong vật tư, kho, thương mại quốc tế CAD
Phương thức tính giá trong vật tư, kho, thương mại quốc tế 15 CAM
Phương thức tính giá trong vật tư, kho 16 FOB
Phương thức tính giá trong vật tư, kho 17 CIF Doanh nghiệp 18 LIFO Việt Nam 19 FIFO 20 DN 21 VN 22 23 24 lOMoARcPSD|46342985
PHẦN 1: GIỚI THIỆU ĐỒ ÁN
1.1 Lý do chọn đề tài
Thế vận hội Olympic là một trong những sự kiện thể thao nổi tiếng nhất và quan trọng
nhất trên Trái đất. Sự kiện Thế vận hội có nhiều cuộc thi thể thao mùa đông và mùa hè với
hàng ngàn đối thủ từ khắp nơi trên thế giới tham gia vào các trò chơi khác nhau. Hơn 200
quốc gia tham gia Thế vận hội Olympic. Ủy ban Olympic quốc tế (IOC) tổ chức cả Thế vận
hội Olympic mùa đông và Thế vận hội Olympic mùa hè cứ bốn năm một lần, nhưng cách
nhau hai năm. Thế vận hội mùa đông tiếp theo đang được tổ chức tại PyeongChang, Hàn
Quốc vào năm 2018 và Bắc Kinh, Trung Quốc vào năm 2022. Thế vận hội mùa hè được tổ
chức tại Tokyo, Nhật Bản vào năm 2020, Paris, Pháp vào năm 2024 và Los Angeles, Mỹ vào năm 2028.
Lần đầu tiên ngọn đuốc Olympic 2008 đến Việt Nam vào cuối tháng 04/2008 và là qua
Thành phố Hồ Chí Minh. Đó chính là vị thế và danh dự của Thành phố Hồ Chí Minh đối
với cả nước và trên trường quốc tế.
Với tinh thần thể thao cao thượng và trong sáng, nhân dân Việt Nam nói chung và nhân
dân Thành phố Hồ Chí Minh nói riêng hết lòng ủng hộ và cổ vũ cho Olympic 2008, sự kiện
thể thao quan trọng nhất của nhân dân thế giới được tổ chức tại Bắc Kinh. Đội tuyển quốc
gia của Việt Nam cũng tham gia nhiều môn thi đấu tại Olympic Bắc Kinh 2008 lần này như
một sự hưởng ứng tinh thần thượng võ của Đại hội thể thao lớn nhất hành tinh – Thế vận
hội Olympic. Khỏe để xây dựng và bảo vệ Tổ quốc Việt Nam xã hội chủ nghĩa luôn là mục
tiêu phấn đấu và là nhiệm vụ quan trọng mà Đảng ta đặt ra cho nền thể thao nước nhà. Hoạt
động, luyện tập và thi đấu thể thao theo tinh thần Olympic trong sáng và cao thượng cũng là
thiết thực ủng hộ và cổ vũ cho phong trào Olympic quốc tế, vì hòa bình, ổn định và phát
triển trên toàn thế giới.
Chính vì vậy mà nhóm em đã chọn đề tài “Phân tích dữ liệu về Olympic Games” để
muốn tìm hiểu rõ hơn cũng như muốn có thêm nhiều kiến thức về môn thể thao này.
1.2 Giới thiệu về dataset 1.2.1 Dataset
Tên dataset: Olympic Games, 1986-2021 (Phân tích dữ liệu về Olympic Games từ 1986 đến 2021)
Ngày cập nhật gần nhất: 1 tháng trước
Datasets này dùng để phân tích dữ liệu về hơn 19.000 huy chương, 150.000 kết quả,
74.000 vận động viên, 20.000 tiểu sử và 52 nước tổ chức Thế vận hội Olympic mùa hè và mùa đông. lOMoARcPSD|46342985
1.2.2 Đơn vị cung cấp
Nguồn dữ liệu gốc của dataset này được lấy từ https
://olympics.com/ và được tác giả
Petro, Data Scientist, PhD at CheAI Lviv, Lviv Oblast, Ukrainethu thập và xử lý kỹ lưỡng.
1.2.3 Mô tả số dòng, số cột, thời gian thu thập
• Bộ dữ liệu gồm 159021 dòng dữ liệu và 41 cột thuộc tính bao gồm:
Bảng olympic_athletes gồm 74732 dòng dữ liệu và 7 cột thuộc tính
Bảng olympic_host gồm 53 dòng dữ liệu và 7 cột thuộc tính.
Bảng olympic_medals gồm 21311 dòng dữ liệu và 12 cột thuộc tính.
Bảng olympic_results gồm 159021 dòng dữ liệu và 15 cột thuộc tính.
• Dữ liệu được thu thập từ năm 1986 đến 2021
1.2.4 Link dataset
Link dataset: https://www.kaggle.com/piterfm/olympic-games-medals-19862018
1.2.5 Mô tả chi tiết các thuộc tính dữ liệu gốc STT Tên thuộc tính Ý nghĩa Kiểu dữ liệu 1 athlete_url
Link giới thiệu vận động viên Url 2 athelete_full_name
Tên đầy đủ vận động viên String 3 first_game
Tên giải đấu đầu tiên tham gia String athlete_year_birthd Năm sinh vận động viên Integer 4 ay 5 athlete_medals
Số huy chương đạt được theo từng loại String 6 games_participants
Tổng số lần tham gia giải đấu Integer 7 bio
Tiểu sử vận động viên String
Table 1 Mô tả chi tiết bảng olympic_athletes STT Tên thuộc tính Ý nghĩa Kiểu dữ liệu 1 game_slug Mã giải đấu String 2 game_end_date Thời gian kết thúc String 3 game_start_date Thời gian bắt đầu String 4 game_location Địa điểm tổ chức String 5 game_name Tên giải đấu String 6 game_season Mùa giải đấu String 7 game_year Năm tổ chức giải đấu Integer
Table 2 Mô tả chi tiết bảng olympic_host lOMoARcPSD|46342985 STT Tên thuộc tính Ý nghĩa Kiểu dữ liệu 1 discipline_title Thể loại môn thi đấu String 2 slug_game Mã giải đấu String 3 event_title
Nội dung của thể loại môn thi đấu String 4 event_gender Giới tính được tham gia String 5 medal_type
Loại huân chương đạt được String 6 participant_type
Tham gia theo cá nhân hoặc theo đội String 7 participant_title Tên của đội tham gia String 8 athlete_url
Link giới thiệu vận động viên Url 9 athlete_full_name Tên vận động viên String 10 country_name Tên quốc gia String 11 country_code Mã quốc gia String 12 country_3_letter_co
Mã quốc gia gồm 3 ký tự String de
Table 3 Mô tả chi tiết bảng olympic_medals STT Tên thuộc tính Ý nghĩa Kiểu dữ liệu 1 discipline_title Thể loại môn thi đấu String 2 event_title
Nội dung thể loại môn thi đấu String 3 slug_game Mã giải đấu String 4 participant_type
Tham gia theo cá nhân hoặc theo đội String 5 medal_type
Loại huân chương đạt được String
Link giới thiệu vận động viên (team từ 2 Url 6 athlete người) 7 rank_equal Đồng vị trí hay không String 8 rank_position Vị trí Integer 9 country_name Tên quốc gia String 10 country_code Mã quốc gia String 11 country_3_letter_co
Mã quốc gia gồm 3 ký tự String de 12 athelete_url
Link giới thiệu vận động viên Url 13 athlete_full_name
Tên đầy đủ vận động viên String 14 value_unit Giá trị của trận đấu String 15 value_type Loại giá trị String
Table 4 Mô tả chi tiết bảng olympic_results lOMoARcPSD|46342985
1.2.6 Kho dữ liệu đã xử lý
Sau khi lọc dữ liệu ta được 159021 dòng và 20 thuộc tính để sử dụng cho việc phân tích đề tài
1.2.7 Hướng chủ đề
Hướng chủ đề của nhóm sẽ là phân tích kết quả và đánh giá về các trận đấu Olympic Games.
1.3 Xây dựng kho dữ liệu
1.3.1 Lược đồ hình sao
Lược đồ hình sao chứa 7 bảng. Trong đó bảng FACT_olympic là bảng sự kiện chứa các
khoá ngoại và các độ đo. DIM_Host, DIM_Country, DIM_Time, DIM_Location,
DIM_Game và DIM_Athlete là các bảng chiều chứa thuộc tính khoá chính và các thuộc tính khác của chiều.
Figure 1 Lược đồ hình sao (Vẽ bằng công cụ Creatly)
1.3.2 Các bảng chiều a. Bảng DIM_Host
Khoá Tên thuộc tính Kiểu dữ Mô tả lOMoARcPSD|46342985 chính liệu game_slug String Mã giải đấu game_name String Tên giải đấu b. Bảng DIM_Country Kiểu Khoá Tên thuộc tính dữ Mô tả chính liệu Integer Mã quốc gia country_id String Tên quốc gia country_name String Mã quốc gia country_code String Mã quốc gia (3 ký tự) country_code_3_letter_code c. Bảng DIM_Time Khoá Tên thuộc tính Kiểu Mô tả chính dữ liệu time_id Integer Mã thời gian game_end_date
String Thời gian kết thúc giải đấu game_start_date
String Thời gian bắt đầu giải đấu game_season
String Mùa tổ chức giải đấu game_year
Integer Năm tổ chức giải đấu d. Bảng DIM_Location Kiểu Khoá Tên thuộc tính dữ Mô tả chính liệu location_id
Integer Mã địa điểm tổ chức
String Tên địa điểm tổ chức game_location e. Bảng DIM_Game Kiểu Khoá dữ Mô tả Tên thuộc tính chính liệu Integer Mã trận đấu game_id
String Tên bộ môn thi đấu discipline_title
String Tên nội dung thi đấu event_title
String Giới tính vdv tham gia thi đấu event_gender
String Hình thức thi đấu theo cá nhân hoặc đội participant_type
String Tên đội thi (nếu thi đấu theo đội) participant_title f. Bảng DIM_Athlete lOMoARcPSD|46342985 Kiểu Khoá Tên thuộc tính dữ Mô tả chính liệu
Integer Mã vận động viên athlete_id String
Tên đầy đủ vận động viên athlete_full_name
Integer Năm sinh vận động viên athlete_year_birth
1.3.3 Bảng sự kiện FACT_Olympic Kiểu Khoá dữ Mô tả Tên thuộc tính chính liệu Integer Mã thứ tự id Integer Mã quốc gia country_id
Integer Mã vận động viên athlete_id Integer Mã thời gian time_id Integer Mã địa điểm location_id
Integer Mã bộ môn thi đấu game_id Integer Mã giải đấu game_slug String Loại huy chương medal_type String Đồng vị trí rank_equal Integer Vị trí rank_position
1.4 Các câu truy vấn
Câu 1: Liệt kê top 10 vận động viên có nhiều huy chương vàng nhất, sắp xếp theo thứ tự lượt giảm dần.
Câu 2: Liệt kê tất cả các vận động viên tham gia Olympic từ 4 lần trở lên, sắp theo theo thứ tự tăng dần
Câu 3: Tìm các vận động viên có số tuổi lớn nhất tham dự Tokyo 2020
Câu 4: Vận động viên London dành được nhiều huy chương bạc nhất
Câu 5: Quốc gia dành được nhiều huy vàng nhất từ năm 1990 đến năm 2000
Câu 6: Cho biết Olympic mùa đông đã tổ chức ở US bao nhiêu lần tính từ 1982 đến năm 2020.
Câu 7: Thống kê số lượng thành viên thi đấu theo đội tham gia Ice Hockey trong thế vận hội Sochi 2014
Câu 8: Tính từ năm 1982 đến năm 2020, có bao nhiêu vận động viên nữ Trung Quốc
tham gia thế vận hội Olympic Games. lOMoARcPSD|46342985
Câu 9: Truy vấn danh sách vận động viên đứng vị trí đầu trong lượt thi bắt súng nội
dung bắn súng 50m từ năm 2000 đến 2020, sắp xếp từ theo năm tăng dần
Câu 10: Tìm quốc gia có đội tuyển nữ đạt được nhiều huy chương bạc nhất thế vận hội Tokyo 2020.
Câu 11: Liệt kê danh sách vận động viên có thứ hạng là 2 trong giải Boxing nam ở thế
vận hội Olympic Games Tokyo 2020
Câu 12: Liệt kê danh sách các team bị loại trong 3 mùa thế vận hội Olympic từ năm 2016-2020
Câu 13: Danh sách các vận động viên Việt Nam tham gia thế vận hội Olympic từ trước năm 2000 đến nay
Câu 14: Liệt kê 5 giải đấu thế vận hội Olympic Games mùa đông có thời gian tổ chức dài nhất.
Câu 15: Có bao nhiêu môn thi đấu theo hình thức đội cho phép cả nam và nữ đều được
tham gia trong thế vận hội Olympic Tokyo 2020. lOMoARcPSD|46342985
PHẦN 2: QUÁ TRÌNH TRÍCH XUẤT DỮ LIỆU, BIẾN
ĐỔI VÀ NẠP DỮ LIỆU VÀO KHO DỮ LIỆU (QUÁ TRÌNH SSIS)
2.1 Chuẩn bị công cụ và Data Warehouse
Sử dụng công cụ SQL Server Data Tools
Tải công cụ SQL Server Integration Service Projects tại:
https://marketplace.visualstudio.com/items?
itemName=SSIS.SqlServerIntegrationServicesProjects
2.2 Tạo project và thiết lập kết nối
2.2.1 Tạo project “Integration Service Project” mới
Mở Visual Studio 2019. Chọn create a new project. lOMoARcPSD|46342985
Ở tab Create a new project , chọn Integration Services Project.
Sau khi đặt tên file, chọn nơi lưu trữ và chọn Create để hoàn tất lOMoARcPSD|46342985
2.2.2 Tạo cơ sở dữ liệu và thiết lập kết nối
2.2.2.1 Tạo cơ sở dữ liệu
Database có đuôi OriginalData sẽ là các database chứa dữ liệu gốc, bao gồm các dữ liệu:
Data_Original: được import thẳng từ file csv.
Data_Clean: chứa dữ liệu sử dụng sau khi làm sạch
Data_NULL: chứa dữ liệu Null trong quá trình làm sạch lOMoARcPSD|46342985
2.2.2.2 Thiết lập kết nối
Tại cửa sổ Solution Explorer, click chuột phải chọn New Connection Manager
Chọn OLEDB, sau đó chọn Add để kết nối tới hệ quản trị SQL Server: lOMoARcPSD|46342985
Chọn New để tiến hành thêm 1 Connection:
Điền tên Server SQL vào hàng Server name, sau đó chọn Database “OriginalData” ở
mục Select or enter a database name. Tiếp theo nhấn Enter để hoàn tất.