lOMoARcPSD| 59387619
TRƯỜNG ĐẠI HỌC PHENIKAA
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO BÀI TẬP LỚN
MÔN HỌC: TRỰC QUAN HÓA DỮ LIỆU
Nhóm 10
Đề tài: Trực quan hóa dữ liệu xếp hạng cầu thủ FIFA 18
Thành viên nhóm
Lê Duy Sơn 21010607 K15.CNTT
Nguyễn Đại Phát 21010625 K15.CNTT
GVHD: TS Đặng Thị Thuý An
11/2024 – Hà Nội
lOMoARcPSD| 59387619
1
Mục Lục
1. Giới thiệu ......................................................................................................................... 3
1.1 Giới thiệu và đặt vấn đề ................................................................................................ 3
1.2 Phương pháp và công cụ ............................................................................................... 3
2. Kiến thức nền tảng .......................................................................................................... 4
2.1 Khái niệm trực quan hoá dữ liệu ................................................................................... 4
2.2 Phương pháp trực quan hoá chính ................................................................................. 4
2.3 Công cụ và nguyên tắc thiết kế ..................................................................................... 4
3. Phân tích dữ liệu dựa vào trực quan hóa ......................................................................... 5
3.1 Dữ liệu và tiền xử lý ...................................................................................................... 5
3.2 Thiết kế biểu đồ và trực quan hoá ................................................................................. 6
3.2.1 Phân bố ....................................................................................................................... 6
3.2.1.1 Phân bố thuộc tính tổng quan .................................................................................. 6
3.2.1.2 Phân bố thuộc tính giữa cầu thủ và thủ môn ........................................................... 7
3.2.1.3 Phân bố thuộc tính kĩ thuật theo vị trí cầu thủ ........................................................ 8
3.2.2 Tương quan............................................................................................................... 10
3.2.2.1 Tương quan các thuộc tính cầu thủ ....................................................................... 10
3.2.2.2 Tương quan giữa chỉ số tăng tốc và khả năng bắt bóng ........................................ 11
3.2.2.3 Tương quan giữa cầu thủ ngoài sân và thủ môn ................................................... 12
3.2.3 Phân tán .................................................................................................................... 14
3.2.3.1 Phân tán thuộc tính cầu thủ ................................................................................... 14
3.2.3.2 Phân tán lương và giá trị cầu thủ ........................................................................... 16
3.2.3.3 Phân tán tuổi và tiềm năng cầu thủ ....................................................................... 17
3.2.4 Biểu Đồ Geography .................................................................................................. 20
3.2.4.2 Áp dụng Geography.......................................................................................24 ... 21
3.2.4.3 Phân phối tiền lương giữa các quốc gia ................................................................ 23
3.2.4.4 Phân phối giá trị giữa các quốc gia ....................................................................... 24
3.3 Nguyên tắc thiết kế áp dụng..................................................................................31 .. 29
4. Kết quả và thảo luận ...................................................................................................... 29
4.1 Kết quả ........................................................................................................................ 29
4.2 Thảo luận ..................................................................................................................... 31
5. Tổng kết bài tập lớn ....................................................................................................... 32
5.1 Phân công công việc .................................................................................................... 32
5.2 Tổng kết ....................................................................................................................... 32
6. Tài liệu tham khảo ......................................................................................................... 33
3.2.4.1 Giới thiệu.......................................................................................................23
lOMoARcPSD| 59387619
2
Danh sách hình vẽ
Hnh 1: Biểu đồ bar chart phân bố thuộc tính tổng quan....................................................6
Hnh 2: Biểu đồ histogram phân bố thuộc tính giữa cầu thủ và thủ môn............................7
Hnh 3: Biểu đồ histogram phân bố thuộc tính kĩ thuật theo từng vị trí cầu thủ.................8
Hnh 4: Biểu đồ heatmap biểu diễn ma trận tương quan....................................................9
Hnh 5: Biểu đồ tương quan giữa chỉ số tăng tốc và khả năng bắt bóng...........................10
Hnh 6: Biểu đồ tương quan giữa non-goalkeepers và goalkeepers..................................11
Hnh 7: Biểu đồ đường mối quan hệ non-goalkeepers và goalkeepers.............................12
Hnh 8: Biểu đồ phân tán các thuộc tính cầu thủ..............................................................13
Hnh 9:Biểu đồ phân tán lương và giá trị cầu thủ.............................................................14
Hnh 10: Biểu đồ phân tán tổng thể và lương...................................................................15
Hnh 11: Biểu đồ phân tán tuổi và tiềm năng của cầu thủ................................................15
Hnh 12: Biểu đồ về tiềm năng và chỉ số tổng quan theo độ tuổi.....................................16
Hnh 13: Biểu đồ phân tán tiềm năng và phản xạ đã điều chỉnh theo tuổi........................17
lOMoARcPSD| 59387619
3
1. Giới thiệu
1.1 Giới thiệu và đặt vấn đề
Trực quan hóa dữ liệu là một lĩnh vực quan trọng trong phân tích dữ liệu, giúp người
dùng chuyển đổi các tập dữ liệu phức tạp thành các biểu đồ và đồ thị dễ hiểu. Trực quan
hóa dữ liệu không chỉ phân tích mà còn hỗ trợ trnh bày thông tin một cách trực quan và
hấp dẫn, phù hợp với nhiều đối tượng người dùng, từ người không chuyên đến các
chuyên gia.
Trong bối cảnh phân tích dữ liệu thể thao, việc trực quan hóa thông tin về cầu thủ không
chỉ mang lại giá trị cho các nhà quản lý đội bóng mà còn giúp người hâm mộ, nhà nghiên
cứu, hoặc thậm chí các nhà phát triển hiểu rõ hơn về cách đánh giá và xếp hạng cầu thủ.
Tập dữ liệu FIFA 18 cung cấp một cơ hội tuyệt vời để thực hành các kỹ năng trực quan
hóa, với thông tin chi tiết với gần 18,000 cầu thủ từ khắp nơi trên thế giới.
Bài tập lớn này tập trung vào câu hỏi nghiên cứu chính: Làm thế nào để trực quan hóa
các chỉ số cầu thủ trong FIFA 18 một cách hiệu quả, từ đó rút ra được những thông tin giá
trị và hữu ích
1.2 Phương pháp và công cụ
Phương pháp: Để giải quyết vấn đề, nhóm em đã sử dụng các phương pháp và công cụ
hiện đại trong trực quan hóa dữ liệu. Các bước thực hiện chính bao gồm:
Tiền xử lý và chuẩn hóa dữ liệu nhằm đảm bảo tính chính xác và đồng nhất.
Thiết kế và xây dựng các biểu đồ phù hợp để minh họa thông tin từ dữ liệu.
Đưa ra phân tích và nhận xét dựa trên các trực quan hóa đã thực hiện.
Công cụ:
Nhóm em sử dụng Python với các thư viện như Pandas, Matplotlib, Seaborn và
Plotly để xử lý và trực quan hóa dữ liệu.
Các phương pháp phân tích chính gồm biểu đồ phân phối, so sánh và mối quan hệ
(histogram, scatterplot, …).
Jupyter Notebook được sử dụng làm môi trường triển khai, giúp trnh bày báo cáo
và kết quả trực quan dễ dàng.
Bài tập lớn này là cơ hội thực hành áp dụng lý thuyết vào thực tế và minh chứng sức
mạnh của trực quan hóa dữ liệu trong việc phân tích và đưa ra kết luận từ dữ liệu thô.
lOMoARcPSD| 59387619
4
2. Kiến thức nền tảng
2.1 Khái niệm trực quan hoá dữ liệu
Khái niệm: Trực quan hóa dữ liệu là quá trnh chuyển đổi dữ liệu số hoặc văn bản thành
các biểu đồ, đồ thị nhằm truyền tải thông tin nhanh chóng và dễ hiểu hơn.
Vai trò: Giúp người xem dễ dàng nhận ra các xu hướng, mô hnh và mối quan hệ ẩn trong
dữ liệu mà khó có thể nhận thấy khi chỉ xem qua các con số thô.
2.2 Phương pháp trực quan hoá chính
Bar Chart: Được sử dụng để so sánh số lượng hoặc giá trị trung bnh của một chỉ số giữa
các nhóm. Ví dụ: So sánh số lượng cầu thủ thuộc các quốc tịch khác nhau hoặc phân tích
mức lương trung bnh của các cầu thủ theo từng câu lạc bộ.
Histogram: Phân tích phân phối dữ liệu, như phân phối chỉ số Overall của cầu thủ.
Scatterplot: Khám phá mối quan hệ giữa các chỉ số như Wage, Value và Overall...
Heatmap: Minh họa mối tương quan giữa các chỉ số kỹ thuật như Dribbling, Finishing,
Passing.
Choropleth Map: Hiển thị mức lương trung bnh hoặc chỉ số Overall của cầu thủ theo
quốc gia.
Marker Map: Thể hiện các cầu thủ theo quốc gia hoặc câu lạc bộ, với điểm đánh dấu và
màu sắc tùy chỉnh.
Flow Map: Minh họa sự di chuyển của cầu thủ giữa các quốc gia hoặc câu lạc bộ.
2.3 Công cụ và nguyên tắc thiết kế
Công cụ:
Python: Với thư viện Pandas để xử lý dữ liệu, Matplotlib, Seaborn… để trực quan
hóa.
Jupyter Notebook: Nền tảng triển khai, hỗ trợ kết hợp mã nguồn và trực quan hóa.
Nguyên tắc thiết kế hiệu quả:
Tính rõ ràng: Biểu đồ cần truyền tải thông tin một cách dễ hiểu và không gây
nhầm lẫn.
lOMoARcPSD| 59387619
5
Tối ưu màu sắc: Sử dụng màu sắc tương phản để dễ nhận diện các yếu tố, hạn chế
sử dụng màu sắc quá sặc sỡ để dễ dàng hơn khi đọc đồ thị.
Hạn chế thông tin thừa: Tập trung vào trọng tâm và loại bỏ các yếu tố không cần
thiết để giữ biểu đồ gọn gàng và tối ưu.
3. Phân tích dữ liệu dựa vào trực quan hóa
3.1 Dữ liệu và tiền xử lý
Mô tả dữ liệu: Tập dữ liệu bao gồm gần 18,000 cầu thủ với các thông tin như Name, Age,
Overall, Potential, Wage, Value, ... và các chỉ số kỹ thuật khác (Dribbling, Crossing,
Speed, ...). Dữ liệu còn bao gồm các thông tin khác như quốc gia, câu lạc bộ và vị trí
thi đấu của mỗi cầu thủ… Quy trnh tiền xử lý:
Đọc dữ liệu: Đọc tệp CSV vào DataFrame và loại bỏ khoảng trắng thừa trong cột
"League".
Kiểm tra giá trị NaN: Kiểm tra và xác định xem có giá trị NaN (thiếu dữ liệu)
trong DataFrame không và đếm số lượng NaN trong từng cột.
Xử lý người chơi tự do (Free Agents): Loại bỏ các hàng có giá trị NaN trong cột
"Club" (cầu thủ làm tự do).
Xử lý tên cầu thủ: Kiểm tra và đếm số lượng hàng có tên cầu thủ trống, mặc dù
không có giá trị trống trong trường hợp này!
Xử lý cột "Preferred Positions": Chuyển giá trị trong cột "Preferred Positions"
thành một vị trí duy nhất và loại bỏ khoảng trắng thừa.
Loại bỏ cột không cần thiết: Loại bỏ các cột không hữu ích cho phân tích như
"Photo", "Flag", "Club Logo", "Special".
Đổi kiểu dữ liệu: Thay đổi kiểu dữ liệu của cột "League Level" thành kiểu số
nguyên (int) và đổi các giá trị trong cột "Wage" và "Value" thành số thực (float)
bằng cách loại bỏ ký hiệu tiền tệ và chuyển đổi giá trị.
Chuyển Đổi Dữ Liệu Cột Các Chỉ Số Kỹ Thuật: Chuyển đổi các cột từ kiểu dữ
liệu "object" (chuỗi) thành số thực (float) cho các chỉ số như "Acceleration",
"Volleys", v.v. bằng cách sửa các giá trị không hợp lệ (ví dụ: "78+3" thành "78").
Loại Bỏ Dữ Liệu Trùng Lặp: Kiểm tra xem có trùng lặp trong cột "ID" không và
loại bỏ các bản sao trùng lặp.
Thiết Lập Cột "ID" Làm Chỉ Mục: Kiểm tra tính duy nhất của "ID" và thiết lập cột
"ID" làm chỉ mục (index) cho DataFrame.
Lưu Dữ Liệu Đã Xử Lý: Lưu DataFrame đã được xử lý vào một tệp CSV mới với
tên 'cleaned_data.csv'.
lOMoARcPSD| 59387619
6
3.2 Thiết kế biểu đồ và trực quan hoá
3.2.1 Phân bố
3.2.1.1 Phân bố thuộc tính tổng quan
Hnh 1: Biểu đồ bar chart phân bố thuộc tính tổng quan
Tổng quan: Biểu đồ trên cung cấp một cái nhn tổng quan về phân bố các thuộc tính của
cầu thủ trong một trò chơi bóng đá. Mỗi thuộc tính (như tuổi, tốc độ, khả năng sút
bóng...) được biểu diễn dưới dạng một biểu đồ histogram, cho thấy tần suất xuất hiện của
các giá trị khác nhau cho thuộc tính đó.
Nhận xét chi tiết:
Phân bố tuổi: Đa số cầu thủ tập trung ở độ tuổi trung bnh, với một số lượng đáng
kể cầu thủ trẻ và một số ít cầu thủ có kinh nghiệm.
Phân bố các thuộc tính kỹ thuật: Các thuộc tính như rê bóng, dứt điểm, chuyền
bóng... có phân bố khá rộng, cho thấy sự đa dạng về kỹ năng của các cầu thủ. Tuy
lOMoARcPSD| 59387619
7
nhiên, có thể thấy một số thuộc tính tập trung ở mức trung bnh hoặc khá, ít cầu
thủ có kỹ năng vượt trội ở tất cả các mặt.
Phân bố các thuộc tính thể lực: Tương tự như các thuộc tính kỹ thuật, các thuộc
tính thể lực cũng có phân bố khá rộng. Tuy nhiên, một số thuộc tính như tốc độ,
sức mạnh có thể có sự phân hóa rõ rệt hơn với những cầu thủ có thể lực vượt trội.
Phân bố vị trí: Các vị trí trên sân có sự phân bố không đồng đều. Có thể thấy một
số vị trí như tiền vệ trung tâm, hậu vệ trung tâm có số lượng cầu thủ đông hơn so
với các vị trí khác.
Một số điểm đáng chú ý: Có một số mối tương quan nhất định giữa các thuộc tính.
Ví dụ, các cầu thủ có tốc độ cao thường cũng có khả năng rê bóng tốt
3.2.1.2 Phân bố thuộc tính giữa cầu thủ và thủ môn
Hnh 2: Biểu đồ histogram phân bố thuộc tính giữa cầu thủ và thủ môn
Tổng quan: Mỗi biểu đồ trong hnh là một biểu đồ phân bố tần số, thể hiện số lượng cầu
thủ có giá trị thuộc tính nhất định. Màu xanh biểu diễn cho các cầu thủ ngoài thủ môn
(Outfield Player - OP), màu cam biểu diễn cho các thủ môn (Goalkeeper - GK). Trục
hoành thể hiện giá trị của thuộc tính (ví dụ: tốc độ, sức mạnh), trục tung thể hiện số
lượng cầu thủ có giá trị đó.
Nhận xét chung:
Sự khác biệt giữa thủ môn và cầu thủ ngoài sân: Rõ ràng có sự khác biệt lớn về
phân bố các thuộc tính giữa thủ môn và cầu thủ ngoài sân. Các thủ môn thường có
chỉ số cao hơn ở các thuộc tính liên quan đến thủ môn như phản xạ, bắt bóng,
lOMoARcPSD| 59387619
8
trong khi các cầu thủ ngoài sân lại có chỉ số cao hơn ở các thuộc tính kỹ thuật và
thể lực như rê bóng, sút bóng, tốc độ.
Phân bố rộng của các thuộc tính: Các thuộc tính của cầu thủ phân bố khá rộng, cho
thấy sự đa dạng về khả năng của các cầu thủ. Không có nhiều cầu thủ có chỉ số
quá xuất sắc ở tất cả các thuộc tính.
Một số thuộc tính có sự tập trung: Một số thuộc tính như đánh chặn, kèm người có
xu hướng tập trung ở một khoảng giá trị nhất định, cho thấy đây là những kỹ năng
quan trọng mà hầu hết các cầu thủ đều cần có.
Phân tích chi tiết từng nhóm thuộc tính:
Các thuộc tính kỹ thuật: Rê bóng, dứt điểm, chuyền bóng... cho thấy sự phân bố
khá rộng, có nghĩa là có nhiều cầu thủ có kỹ năng ở mức độ khác nhau.
Các thuộc tính thể lực: Tốc độ, sức mạnh, thể lực... cũng có phân bố rộng, nhưng
có sự khác biệt rõ rệt giữa các vị trí. Ví dụ, tiền đạo thường có tốc độ và sức mạnh
tốt hơn hậu vệ.
Các thuộc tính chuyên biệt: Các thuộc tính như phản xạ, bắt bóng chỉ dành cho thủ
môn, và chúng có sự phân bố tập trung hơn so với các thuộc tính khác.
3.2.1.3 Phân bố thuộc tính kĩ thuật theo vị trí cầu thủ
Hnh 3: Biểu đồ histogram phân bố thuộc tính kĩ thuật theo từng vị trí cầu thủ
Tổng quan: Biểu đồ trên cung cấp một cái nhn tổng quan về phân bố các thuộc tính kỹ
thuật của cầu thủ bóng đá theo từng vị trí trên sân. Mỗi biểu đồ đại diện cho một thuộc
tính cụ thể (ví dụ: Interceptions, Marking,...) và được phân chia theo các vị trí trên sân
(Wing, Mid, Str, Def, Forw, CB, LCB, RCB).
Nhận xét chi tiết:
Có sự khác biệt lớn về phân bố các thuộc tính giữa các vị trí trên sân. Ví dụ:
lOMoARcPSD| 59387619
9
o Hậu vệ: Có chỉ số cao ở các thuộc tính như Interceptions, Marking,
Standing tackle, cho thấy khả năng phòng ngự tốt.
o Tiền vệ: Có sự cân bằng hơn giữa các thuộc tính tấn công và phòng ngự.
o Tiền đạo: Có chỉ số cao hơn ở các thuộc tính liên quan đến tấn công n
Finishing, Dribbling.
Phân bố thuộc tính theo vị trí:
o Hậu vệ trung tâm (CB, LCB, RCB): Có chỉ số cao nhất ở các thuộc tính
phòng ngự như Interceptions, Marking, Standing tackle.
o Hậu vệ cánh (Wing): Có chỉ số cân bằng hơn giữa phòng ngự và tấn công,
thường có khả năng tạt bóng tốt.
o Tiền vệ trung tâm (Mid): Có chỉ số khá cao ở các thuộc tính chuyền bóng,
tranh chấp bóng.
o Tiền đạo (Forw): Có chỉ số cao nhất ở các thuộc tính tấn công như
Finishing, Dribbling, Pace.
Sự chồng chéo: Mặc dù có sự khác biệt rõ ràng giữa các vị trí, nhưng vẫn có sự
chồng chéo nhất định về các thuộc tính. Điều này cho thấy rằng một cầu thủ có thể
có nhiều hơn một vai trò trên sân.
Ý nghĩa và ứng dụng biểu đồ:
Đánh giá cầu thủ: Biểu đồ giúp đánh giá một cách khách quan về điểm mạnh,
điểm yếu của từng cầu thủ dựa trên các chỉ số thống kê.
Xây dựng đội hnh: Giúp huấn luyện viên lựa chọn cầu thủ phù hợp với từng vị trí,
tạo ra một đội hnh cân bằng và hiệu quả.
Phân tích đối thủ: Giúp các đội bóng phân tích điểm mạnh, điểm yếu của đối thủ
để đưa ra chiến thuật phù hợp.
Phát triển cầu thủ: Giúp cầu thủ xác định những kỹ năng cần cải thiện để nâng cao
trnh độ.
lOMoARcPSD| 59387619
10
3.2.2 Tương quan
3.2.2.1 Tương quan các thuộc tính cầu thủ
Hnh 4: Biểu đồ heatmap biểu diễn ma trận tương quan
Tổng quan: Biểu đồ trên cho thấy mối liên hệ giữa các thuộc tính khác nhau của một cầu
thủ bóng đá. Mỗi ô trong biểu đồ đại diện cho mối tương quan giữa hai thuộc tính. Màu
sắc và cường độ màu của ô thể hiện mức độ và hướng của mối tương quan đó:
Màu vàng: Tương quan dương mạnh: Khi thuộc tính này tăng, thuộc tính kia cũng
có xu hướng tăng.
Màu xanh đậm: Tương quan âm mạnh: Khi thuộc tính này tăng, thuộc tính kia có
xu hướng giảm.
Màu xanh nhạt: Tương quan yếu hoặc không có tương quan.
Đọc biểu đồ:
Chọn một thuộc tính: Ví dụ, chọn thuộc tính "Overall".
So sánh thuộc tính: Các ô có màu vàng sáng dọc theo hàng "Overall" cho biết các
thuộc tính có tương quan dương mạnh với "Overall". Ngược lại, các ô màu xanh
đậm cho biết các thuộc tính có tương quan âm.
Nhận xét chung:
Tương quan dương mạnh: Các thuộc tính như "Overall", "Potential", "Value",
"Wage" có tương quan dương mạnh với nhau, cho thấy các cầu thủ có chỉ số tổng
lOMoARcPSD| 59387619
11
quan cao thường có tiềm năng phát triển tốt, giá trị chuyển nhượng cao và mức
lương cao.
Tương quan giữa các kỹ năng: Các kỹ năng như "Dribbling", "Finishing", "Shot
Power" có tương quan dương mạnh, cho thấy các cầu thủ giỏi rê bóng cũng sẽ sút
bóng tốt.
Tương quan giữa các kỹ năng phòng ngự: Các kỹ năng phòng ngự như
"Interceptions", "Marking", "Standing tackle" có tương quan dương mạnh, cho
thấy các cầu thủ giỏi tranh bóng sẽ giỏi kèm người.
Tương quan âm: Một số thuộc tính tương quan âm như giữa các kỹ năng tấn công
và phòng ngự ở một số vị trí nhất định cho thấy sự phân hoá chuyên môn của các
cầu thủ ở các vị trí khác nhau.
3.2.2.2 Tương quan giữa chỉ số tăng tốc và khả năng bắt bóng
Có một số vùng có tương quan tiêu cực mạnh. Các biến này tương ứng với các thuộc tính
của thủ môn, v vậy chúng ta có thể chia nhỏ dữ liệu.
Hnh 5: Biểu đồ tương quan giữa chỉ số tăng tốc và khả năng bắt bóng
Tổng quan: Biểu đồ trên so sánh mối quan hệ giữa hai chỉ số của cầu thủ bóng đá: tăng
tốc (Acceleration) và khả năng bắt bóng (GK diving). Biểu đồ được chia thành hai phần
gồm thủ môn và tất cả cầu thủ (cả thủ môn và các vị trí khác trên sân)
Trên mỗi biểu đồ, mỗi điểm đại diện cho một cầu thủ, vị trí của điểm trên đồ thị cho biết
chỉ số tăng tốc và khả năng bắt bóng của cầu thủ đó.
Phân tích kết quả:
Tất cả cầu thủ:
lOMoARcPSD| 59387619
12
o Tương quan âm: Đường xu hướng chung có xu hướng đi xuống. Nhn
chung, các cầu thủ có chỉ số tăng tốc cao thường có chỉ số bắt bóng thấp và
ngược lại.
o Sự phân tán: Các điểm dữ liệu phân tán khá rộng, cho thấy không phải tất
cả các cầu thủ đều tuân theo quy luật này. Có một số cầu thủ có cả chỉ số
tăng tốc và bắt bóng cao.
Thủ môn: Có tương quan dương yếu với đường xu hướng chung đi lên nhẹ. Nghĩa
là đối với các thủ môn, những người có chỉ số tăng tốc cao thường có khả năng bắt
bóng tốt hơn một chút so với những người có chỉ số tăng tốc thấp. Tuy nhiên, mối
quan hệ này không rõ ràng và có nhiều ngoại lệ.
Giải thích kết quả:
Tất cả cầu thủ: Việc một cầu thủ có chỉ số tăng tốc cao thường đi kèm với việc khả
năng bắt bóng thấp là điều dễ hiểu. Các cầu thủ có chỉ số tăng tốc cao thường là
những cầu thủ tấn công, họ cần tốc độ để vượt qua đối thủ và ghi bàn. Ngược lại,
các thủ môn cần sự ổn định và phản xạ nhanh để bắt bóng, tốc độ quá cao có thể
làm giảm sự ổn định này.
Thủ môn: Đối với thủ môn, khả năng tăng tốc có thể giúp họ di chuyển nhanh hơn
để bọc lót hoặc bắt những quả bóng bổng. Tuy nhiên, khả năng bắt bóng chủ yếu
phụ thuộc vào kỹ thuật và kinh nghiệm hơn là tốc độ.
Kết luận:
Khả năng tăng tốc và bắt bóng thường là hai yếu tố đối lập nhau, các cầu thủ giỏi
về tốc độ thường không giỏi về khả năng bắt bóng và ngược lại.
Đối với thủ môn, khả năng tăng tốc có thể là một lợi thế. Tuy nhiên, mối quan hệ
giữa hai chỉ số này không rõ ràng và còn phụ thuộc vào nhiều yếu tố khác.
Đây là một ví dụ về nghịch lý Simpson. Chúng ta có tương quan dương cho một
nhóm (thủ môn), hầu như không có tương quan cho các nhóm khác và dữ liệu kết
quả dường như có tương quan âm.
3.2.2.3 Tương quan giữa cầu thủ ngoài sân và thủ môn
lOMoARcPSD| 59387619
13
Hnh 6: Biểu đồ tương quan giữa non-goalkeepers và goalkeepers
Tổng quan: Biểu đồ trên cung cấp một cái nhn tổng quan về mối quan hệ giữa các thuộc
tính khác nhau của cầu thủ bóng đá, được chia thành hai nhóm chính: cầu thủ ngoài sân
(non-goalkeepers) và thủ môn (goalkeepers). Mỗi ô trong biểu đồ đại diện cho mối tương
quan giữa hai thuộc tính. Màu sắc và cường độ màu của ô thể hiện mức độ và hướng của
mối tương quan đó. Trong biểu đồ, các cột và hàng được sắp xếp theo giá trị tương quan
trung bnh.
Phân tích chi tiết:
Cầu thủ ngoài sân:
o Các kỹ năng tấn công có tương quan cao: Các kỹ năng như dứt điểm, sút
xa, rê bóng thường có tương quan dương cao với nhau. Điều này cho thấy
các cầu thủ giỏi một kỹ năng thường cũng giỏi các kỹ năng khác liên quan
đến tấn công.
o Các kỹ năng phòng ngự có tương quan cao: Tương tự, các kỹ năng như tắc
bóng, đánh chặn, kèm người cũng có tương quan dương cao. Điều này cho
thấy các cầu thủ giỏi một kỹ năng phòng ngự thường cũng giỏi các kỹ năng
phòng ngự khác.
o Mối quan hệ giữa kỹ năng tấn công và phòng ngự: Thường có mối tương
quan âm giữa các kỹ năng tấn công và phòng ngự. Điều này cho thấy các
cầu thủ thiên về tấn công thường không mạnh ở các kỹ năng phòng ngự và
ngược lại.
o Các thuộc tính chung: Các thuộc tính như tổng quan, tiềm năng, giá trị
thường có tương quan dương cao với các kỹ năng khác, cho thấy các cầu
thủ có chỉ số tổng quan cao thường có nhiều kỹ năng tốt.
Thủ môn:
o Các kỹ năng bắt bóng có tương quan cao: Các kỹ năng như phản xạ, bắt
bóng, xử lý bóng bằng chân thường có tương quan dương cao. Điều này
cho thấy các thủ môn giỏi một kỹ năng thường cũng giỏi các kỹ năng khác
liên quan đến bắt bóng.
o Mối quan hệ với các thuộc tính khác: Các kỹ năng của thủ môn thường có
mối tương quan yếu hơn với các thuộc tính của cầu thủ ngoài sân. Điều này
cho thấy vai trò và yêu cầu kỹ năng của thủ môn khác biệt so với các vị trí
khác.
Nhận xét chung: Đánh giá tổng thể có giá trị tương quan trung bnh cao nhất, có nghĩa là
các thuộc tính cao hơn sẽ dẫn đến đánh giá tổng thể cao hơn. Giá trị tương quan trung
bnh thấp nhất (âm cao nhất) thuộc về cấp độ giải đấu, tức là tham số cao hơn tương ứng
với số nhỏ hơn (cấp độ cao hơn) của giải đấu, trong đó 1 là giải đấu tốt nhất.
lOMoARcPSD| 59387619
14
Hnh 7: Biểu đồ đường mối quan hệ non-goalkeepers và goalkeepers
Tổng quan: Biểu đồ trên cung cấp một cái nhn tổng quan về mối quan hệ giữa các thuộc
tính khác nhau của cầu thủ bóng đá, được chia thành hai nhóm chính: cầu thủ ngoài sân
(non-goalkeepers) và thủ môn (goalkeepers).
Trục hoành: Đại diện cho các cặp thuộc tính khác nhau, được sắp xếp theo thứ tự
giảm dần của độ tương quan tuyệt đối.
Trục tung: Đại diện cho độ lớn của hệ số tương quan (từ 0 đến 1), càng cao th mối
quan hệ giữa hai thuộc tính càng chặt chẽ.
Đường màu xanh: Đại diện cho cầu thủ ngoài sân.
Đường màu cam: Đại diện cho thủ môn.
Phân tích chi tiết:
Độ lớn của tương quan: Nhn chung, các cặp thuộc tính của cầu thủ ngoài sân có
độ tương quan cao hơn so với thủ môn. Điều này có nghĩa là, các kỹ năng của cầu
thủ ngoài sân có liên hệ chặt chẽ với nhau hơn so với các kỹ năng của thủ môn.
Cấu trúc tương quan: Hnh dạng của hai đường biểu diễn cho thấy sự khác biệt
trong cấu trúc tương quan giữa hai nhóm cầu thủ. Cầu thủ ngoài sân có nhiều cặp
thuộc tính có độ tương quan rất cao, trong khi thủ môn có sự phân bố tương quan
đồng đều hơn.
Ý nghĩa của các đoạn giảm:
Các đoạn giảm trên đồ thị cho thấy khi xét đến các cặp thuộc tính có độ tương
quan thấp hơn, mối liên hệ giữa các thuộc tính trở nên yếu hơn.
Việc so sánh độ dốc của các đoạn giảm giữa hai nhóm cầu thủ có thể giúp chúng ta
hiểu rõ hơn về sự khác biệt trong cấu trúc tương quan của chúng.
3.2.3 Phân tán
3.2.3.1 Phân tán thuộc tính cầu thủ
Trên biểu đồ đường mối quan hệ non-goalkeepers và goalkeepers (H7), 'elbow' có thể
thay đổi hành vi do đó chúng ta sẽ xem xét khoảng 25 cặp đầu tiên.
lOMoARcPSD| 59387619
15
Hnh 8: Biểu đồ phân tán các thuộc tính cầu thủ
Các biểu đồ trên cho thấy mối quan hệ dương giữa các thuộc tính. Điều này có nghĩa là
khi một thuộc tính tăng, thuộc tính kia cũng có xu hướng tăng. Ví dụ: các kỹ năng phòng
ngự như tắc bóng, đánh chặn thường đi kèm với nhau.
Phân tích chi tiết từng nhóm thuộc tính:
Các kỹ năng phòng ngự: Các kỹ năng như tắc bóng, đánh chặn, kèm người thường
có mối quan hệ dương mạnh với nhau. Điều này cho thấy các cầu thủ giỏi một kỹ
năng phòng ngự thường cũng giỏi các kỹ năng phòng ngự khác. Ngoài ra một số
biểu đồ cho thấy mối quan hệ dương giữa tốc độ và khả năng phòng ngự. Điều này
cho thấy tốc độ có thể giúp cầu thủ thực hiện các pha tắc bóng hiệu quả hơn.
Các kỹ năng tấn công: Các kỹ năng như dứt điểm, sút xa, rê bóng thường có mối
quan hệ dương mạnh với nhau. Điều này cho thấy các cầu thủ giỏi một kỹ năng
tấn công thường cũng giỏi các kỹ năng tấn công khác. Ngoài ra kỹ năng chuyền
bóng và tầm nhn có mối quan hệ dương cho thấy cầu thủ có khả năng chuyền
bóng tốt thường có tầm nhn tốt hơn.
lOMoARcPSD| 59387619
16
Các thuộc tính tổng quan: Giá trị của cầu thủ thường có mối quan hệ dương với
các kỹ năng tổng hợp. Điều này cho thấy các cầu thủ có giá trị cao thường có
nhiều kỹ năng tốt.
3.2.3.2 Phân tán lương và giá trị cầu th
Hnh 9:Biểu đồ phân tán lương và giá trị cầu thủ
Tổng quan: Hai biểu đồ trên thể hiện mối quan hệ giữa lương và giá trị của các cầu thủ
bóng đá, được chia thành hai nhóm: cầu thủ ngoài sân và thủ môn. Mỗi điểm trên biểu đ
đại diện cho một cầu thủ, vị trí của điểm cho biết lương và giá trị của cầu thủ đó.
Phân tích chi tiết:
Mối quan hệ dương và tuyến tính: Cả hai biểu đồ đều cho thấy một mối quan hệ
dương rõ ràng giữa lương và giá trị. Điều này có nghĩa là, nhn chung, các cầu thủ
có giá trị cao thường có mức lương cao hơn. Chúng ta còn có thể thấy mối quan hệ
tuyến tính, nhưng với sự tăng trưởng theo cấp số nhân, nghĩa là, khi giá trị (lương)
tăng lên, số lượng cầu thủ có mức lương đó giảm đi. Điều này nhất quán đối với
tất cả các cầu thủ. Chúng ta có thể đưa ra một giả định khác, dựa trên phân phối
chuẩn của xếp hạng tổng thể. Lương của các cầu thủ tăng theo cấp số nhân với xếp
hạng của họ. Chúng ta không thấy điều này trong các hệ số tương quan v chúng ta
chỉ đang tm kiếm các mối quan hệ tuyến tính.
Sự khác biệt giữa hai nhóm:
o Cầu thủ ngoài sân: Biểu đồ cho thấy sự phân tán rộng của dữ liệu, có nghĩa
là có sự khác biệt lớn về lương và giá trị giữa các cầu thủ ngoài sân. Một số
cầu thủ có giá trị rất cao nhưng lương lại tương đối thấp và ngược lại.
o Thủ môn: Biểu đồ cho thấy sự phân tán dữ liệu hẹp hơn so với cầu th
ngoài sân, đặc biệt là về giá trị. Điều này có nghĩa là, giá trị của các thủ
môn thường có sự tương đồng nhau hơn so với cầu thủ ngoài sân.
Giải thích kết quả:
lOMoARcPSD| 59387619
17
Giá trị và lương: Giá trị của một cầu thủ thường được xác định bởi nhiều yếu tố
như tuổi tác, kinh nghiệm, kỹ năng, tiềm năng phát triển,... Lương của một cầu thủ
phụ thuộc vào giá trị của cầu thủ, vị trí thi đấu, thành tích và sức mạnh thương mại
của cầu thủ đó.
Sự khác biệt giữa các vị trí: Cầu thủ ngoài sân thường có sự đa dạng về kỹ năng và
vai trò hơn so với thủ môn. Điều này dẫn đến sự khác biệt lớn hơn về giá trị và
lương giữa các cầu thủ ngoài sân. Trong khi đó, thủ môn thường có vai trò đặc biệt
và yêu cầu kỹ năng chuyên biệt hơn, dẫn đến sự đồng đều hơn về giá trị và lương.
Hnh 10: Biểu đồ phân tán tổng thể và lương
Dạng hnh tam giác của biểu đồ log có nghĩa là có rất nhiều cầu thủ bị trả lương thấp
(một số cầu thủ có xếp hạng trên 80 nhận mức lương tối thiểu, trong khi theo xu hướng
cấp số nhân, họ đáng lẽ phải được trả gấp 100 lần mức đó).
Kết luận:
Giá trị và lương có mối quan hệ chặt chẽ: Các cầu thủ có giá trị cao thường có
mức lương cao hơn.
Có sự khác biệt giữa cầu thủ ngoài sân và thủ môn: Cầu thủ ngoài sân có sự đa
dạng hơn về giá trị và lương so với thủ môn.
Các yếu tố khác ảnh hưởng: Ngoài giá trị, còn nhiều yếu tố khác ảnh hưởng đến
mức lương của một cầu thủ như vị trí thi đấu, đội bóng, quốc tịch, thành tích,...
3.2.3.3 Phân tán tuổi và tiềm năng cầu thủ
lOMoARcPSD| 59387619
18
Hnh 11: Biểu đồ phân tán tuổi và tiềm năng của cầu thủ
Tổng quan: Bộ bốn biểu đồ phân tán này cung cấp một cái nhn tổng quan về mối quan
hệ giữa các thuộc tính khác nhau của cầu thủ bóng đá, bao gồm:
Tuổi (Age): Tuổi của cầu thủ.
Tiềm năng (Potential): Khả năng phát triển của cầu thủ trong tương lai.
Chỉ số tổng quan (Overall): Chỉ số đánh giá tổng thể khả năng hiện tại của cầu thủ.
Phản xạ (Reactions): Khả năng phản ứng nhanh của cầu thủ.
Phân tích chi tiết từng biểu đồ:
Biểu đồ 1: Biểu đồ cho thấy tuổi và tiềm năng đang theo một xu hướng giảm rõ
ràng. Nhn chung, tiềm năng của cầu thủ sẽ giảm dần theo tuổi tác. Cầu thủ trẻ
thường có tiềm năng phát triển cao hơn so với cầu thủ lớn tuổi.
Biểu đồ 2: Tiềm năng và chỉ số tổng quan theo xu hướng tăng đồng nghĩa với việc
các cầu thủ có tiềm năng cao thường có chỉ số tổng quan hiện tại cũng cao hơn.
Biểu đồ 3: Biểu đồ không cho thấy một mối quan hệ rõ ràng giữa tuổi và phản xạ.
Điều này có nghĩa là, khả năng phản xạ của cầu thủ không nhất thiết phải giảm
theo tuổi tác.
Biểu đồ 4: Tương tự như biểu đồ 3, biểu đồ này cũng không cho thấy một mối
quan hệ rõ ràng giữa tiềm năng và phản xạ.
Hnh 12: Biểu đồ về tiềm năng và chỉ số tổng quan theo độ tuổi
Tổng quan: Biểu đồ này cung cấp một cái nhn tổng quan về sự thay đổi của tiềm năng,
chỉ số tổng quan và tiềm năng còn lại của một cầu thủ bóng đá theo độ tuổi.
Phân tích chi tiết:
Biểu đồ đường:
o Tiềm năng: Đường biểu diễn tiềm năng của cầu thủ có xu hướng giảm dần
theo tuổi. Điều này cho thấy, tiềm năng phát triển của một cầu thủ thường
đạt đỉnh ở độ tuổi trẻ và giảm dần khi cầu thủ lớn tuổi hơn.
o Chỉ số tổng quan: Đường biểu diễn chỉ số tổng quan ban đầu tăng lên, đạt
đỉnh ở một độ tuổi nhất định, sau đó giảm dần. Điều này cho thấy, chỉ số
lOMoARcPSD| 59387619
19
tổng quan của một cầu thủ thường tăng lên khi cầu thủ tích lũy kinh nghiệm
và kỹ năng, nhưng sau đó sẽ giảm dần do ảnh hưởng của tuổi tác và thể lực.
o Tiềm năng còn lại: Đường biểu diễn tiềm năng còn lại giảm nhanh chóng ở
những năm đầu sự nghiệp, sau đó giảm chậm dần và tiến về 0. Điều này
cho thấy, phần lớn tiềm năng của một cầu thủ sẽ được phát triển trong
những năm đầu sự nghiệp.
Biểu đồ phân tán:
o Biểu đồ này tập trung vào mối quan hệ giữa tuổi và tiềm năng còn lại.
o Các điểm dữ liệu tập trung chủ yếu ở phần dưới bên trái của biểu đồ, cho
thấy phần lớn cầu thủ có tiềm năng còn lại thấp khi họ lớn tuổi hơn.
o Một số điểm dữ liệu nằm ở phía trên bên trái biểu đồ, cho thấy một số cầu
thủ vẫn còn tiềm năng phát triển đáng kể ở độ tuổi lớn hơn.
Nhận xét: Đối với độ tuổi khoảng 30, không ai có thể có tiềm năng cao hơn. Các dao
động mạnh ở cuối biểu đồ chỉ ra rằng không có nhiều cầu thủ bóng đá lớn tuổi. Từ nhóm
thứ hai, chúng ta có thể kết luận rằng tuổi tác cùng với phản ứng (reactions) có thể cung
cấp tiềm năng cho một cầu thủ. Dưới đây, hệ số được sử dụng để đạt được sự tương quan
cao nhất, v trong phân tích trước, chúng ta đã sử dụng các giá trị chuẩn hóa. Phản ứng có
sự tương quan với tiềm năng, nhưng không đủ để lọt vào top 25 trong phân tích đầu tiên.
Khi trừ tuổi đi, chúng ta có được sự tương ứng cao.
Hnh 13: Biểu đồ phân tán tiềm năng và phản xạ đã điều chỉnh theo tuổi
Tổng quan: Biểu đồ này cho thấy mối quan hệ giữa tiềm năng và phản xạ đã điều chỉnh
theo tuổi của các cầu thủ bóng đá. Mỗi điểm trên biểu đồ đại diện cho một cầu thủ, vị trí
của điểm cho biết tiềm năng và phản xạ đã điều chỉnh của cầu thủ đó.
Phân tích chi tiết:

Preview text:

lOMoAR cPSD| 59387619
TRƯỜNG ĐẠI HỌC PHENIKAA
KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO BÀI TẬP LỚN
MÔN HỌC: TRỰC QUAN HÓA DỮ LIỆU Nhóm 10
Đề tài: Trực quan hóa dữ liệu xếp hạng cầu thủ FIFA 18 Thành viên nhóm Lê Duy Sơn 21010607 K15.CNTT Nguyễn Đại Phát 21010625 K15.CNTT
GVHD: TS Đặng Thị Thuý An 11/2024 – Hà Nội lOMoAR cPSD| 59387619 Mục Lục
1. Giới thiệu ......................................................................................................................... 3
1.1 Giới thiệu và đặt vấn đề ................................................................................................ 3
1.2 Phương pháp và công cụ ............................................................................................... 3
2. Kiến thức nền tảng .......................................................................................................... 4
2.1 Khái niệm trực quan hoá dữ liệu ................................................................................... 4
2.2 Phương pháp trực quan hoá chính ................................................................................. 4
2.3 Công cụ và nguyên tắc thiết kế ..................................................................................... 4
3. Phân tích dữ liệu dựa vào trực quan hóa ......................................................................... 5
3.1 Dữ liệu và tiền xử lý ...................................................................................................... 5
3.2 Thiết kế biểu đồ và trực quan hoá ................................................................................. 6
3.2.1 Phân bố ....................................................................................................................... 6
3.2.1.1 Phân bố thuộc tính tổng quan .................................................................................. 6
3.2.1.2 Phân bố thuộc tính giữa cầu thủ và thủ môn ........................................................... 7
3.2.1.3 Phân bố thuộc tính kĩ thuật theo vị trí cầu thủ ........................................................ 8
3.2.2 Tương quan............................................................................................................... 10
3.2.2.1 Tương quan các thuộc tính cầu thủ ....................................................................... 10
3.2.2.2 Tương quan giữa chỉ số tăng tốc và khả năng bắt bóng ........................................ 11
3.2.2.3 Tương quan giữa cầu thủ ngoài sân và thủ môn ................................................... 12
3.2.3 Phân tán .................................................................................................................... 14
3.2.3.1 Phân tán thuộc tính cầu thủ ................................................................................... 14
3.2.3.2 Phân tán lương và giá trị cầu thủ ........................................................................... 16
3.2.3.3 Phân tán tuổi và tiềm năng cầu thủ ....................................................................... 17
3.2.4 Biểu Đồ Geography .................................................................................................. 20
3.2.4.2 Áp dụng Geography.......................................................................................24 ... 21
3.2.4.3 Phân phối tiền lương giữa các quốc gia ................................................................ 23
3.2.4.4 Phân phối giá trị giữa các quốc gia ....................................................................... 24
3.3 Nguyên tắc thiết kế áp dụng..................................................................................31 .. 29
4. Kết quả và thảo luận ...................................................................................................... 29
4.1 Kết quả ........................................................................................................................ 29
4.2 Thảo luận ..................................................................................................................... 31
5. Tổng kết bài tập lớn ....................................................................................................... 32
5.1 Phân công công việc .................................................................................................... 32
5.2 Tổng kết ....................................................................................................................... 32
6. Tài liệu tham khảo ......................................................................................................... 33 3.2.4.1
Giới thiệu.......................................................................................................23 1 lOMoAR cPSD| 59387619 Danh sách hình vẽ
Hình 1: Biểu đồ bar chart phân bố thuộc tính tổng quan....................................................6
Hình 2: Biểu đồ histogram phân bố thuộc tính giữa cầu thủ và thủ môn............................7
Hình 3: Biểu đồ histogram phân bố thuộc tính kĩ thuật theo từng vị trí cầu thủ.................8
Hình 4: Biểu đồ heatmap biểu diễn ma trận tương quan....................................................9
Hình 5: Biểu đồ tương quan giữa chỉ số tăng tốc và khả năng bắt bóng...........................10
Hình 6: Biểu đồ tương quan giữa non-goalkeepers và goalkeepers..................................11
Hình 7: Biểu đồ đường mối quan hệ non-goalkeepers và goalkeepers.............................12
Hình 8: Biểu đồ phân tán các thuộc tính cầu thủ..............................................................13
Hình 9:Biểu đồ phân tán lương và giá trị cầu thủ.............................................................14
Hình 10: Biểu đồ phân tán tổng thể và lương...................................................................15
Hình 11: Biểu đồ phân tán tuổi và tiềm năng của cầu thủ................................................15
Hình 12: Biểu đồ về tiềm năng và chỉ số tổng quan theo độ tuổi.....................................16
Hình 13: Biểu đồ phân tán tiềm năng và phản xạ đã điều chỉnh theo tuổi........................17 2 lOMoAR cPSD| 59387619 1. Giới thiệu 1.1
Giới thiệu và đặt vấn đề
Trực quan hóa dữ liệu là một lĩnh vực quan trọng trong phân tích dữ liệu, giúp người
dùng chuyển đổi các tập dữ liệu phức tạp thành các biểu đồ và đồ thị dễ hiểu. Trực quan
hóa dữ liệu không chỉ phân tích mà còn hỗ trợ trình bày thông tin một cách trực quan và
hấp dẫn, phù hợp với nhiều đối tượng người dùng, từ người không chuyên đến các chuyên gia.
Trong bối cảnh phân tích dữ liệu thể thao, việc trực quan hóa thông tin về cầu thủ không
chỉ mang lại giá trị cho các nhà quản lý đội bóng mà còn giúp người hâm mộ, nhà nghiên
cứu, hoặc thậm chí các nhà phát triển hiểu rõ hơn về cách đánh giá và xếp hạng cầu thủ.
Tập dữ liệu FIFA 18 cung cấp một cơ hội tuyệt vời để thực hành các kỹ năng trực quan
hóa, với thông tin chi tiết với gần 18,000 cầu thủ từ khắp nơi trên thế giới.
Bài tập lớn này tập trung vào câu hỏi nghiên cứu chính: Làm thế nào để trực quan hóa
các chỉ số cầu thủ trong FIFA 18 một cách hiệu quả, từ đó rút ra được những thông tin giá trị và hữu ích 1.2
Phương pháp và công cụ
Phương pháp: Để giải quyết vấn đề, nhóm em đã sử dụng các phương pháp và công cụ
hiện đại trong trực quan hóa dữ liệu. Các bước thực hiện chính bao gồm:
• Tiền xử lý và chuẩn hóa dữ liệu nhằm đảm bảo tính chính xác và đồng nhất.
• Thiết kế và xây dựng các biểu đồ phù hợp để minh họa thông tin từ dữ liệu.
• Đưa ra phân tích và nhận xét dựa trên các trực quan hóa đã thực hiện. Công cụ:
• Nhóm em sử dụng Python với các thư viện như Pandas, Matplotlib, Seaborn và
Plotly để xử lý và trực quan hóa dữ liệu.
• Các phương pháp phân tích chính gồm biểu đồ phân phối, so sánh và mối quan hệ
(histogram, scatterplot, …).
• Jupyter Notebook được sử dụng làm môi trường triển khai, giúp trình bày báo cáo
và kết quả trực quan dễ dàng.
Bài tập lớn này là cơ hội thực hành áp dụng lý thuyết vào thực tế và minh chứng sức
mạnh của trực quan hóa dữ liệu trong việc phân tích và đưa ra kết luận từ dữ liệu thô. 3 lOMoAR cPSD| 59387619 2.
Kiến thức nền tảng 2.1
Khái niệm trực quan hoá dữ liệu
Khái niệm: Trực quan hóa dữ liệu là quá trình chuyển đổi dữ liệu số hoặc văn bản thành
các biểu đồ, đồ thị nhằm truyền tải thông tin nhanh chóng và dễ hiểu hơn.
Vai trò: Giúp người xem dễ dàng nhận ra các xu hướng, mô hình và mối quan hệ ẩn trong
dữ liệu mà khó có thể nhận thấy khi chỉ xem qua các con số thô. 2.2
Phương pháp trực quan hoá chính
Bar Chart: Được sử dụng để so sánh số lượng hoặc giá trị trung bình của một chỉ số giữa
các nhóm. Ví dụ: So sánh số lượng cầu thủ thuộc các quốc tịch khác nhau hoặc phân tích
mức lương trung bình của các cầu thủ theo từng câu lạc bộ.
Histogram: Phân tích phân phối dữ liệu, như phân phối chỉ số Overall của cầu thủ.
Scatterplot: Khám phá mối quan hệ giữa các chỉ số như Wage, Value và Overall...
Heatmap: Minh họa mối tương quan giữa các chỉ số kỹ thuật như Dribbling, Finishing, Passing.
Choropleth Map: Hiển thị mức lương trung bình hoặc chỉ số Overall của cầu thủ theo quốc gia.
Marker Map: Thể hiện các cầu thủ theo quốc gia hoặc câu lạc bộ, với điểm đánh dấu và màu sắc tùy chỉnh.
Flow Map: Minh họa sự di chuyển của cầu thủ giữa các quốc gia hoặc câu lạc bộ.
2.3 Công cụ và nguyên tắc thiết kế Công cụ:
• Python: Với thư viện Pandas để xử lý dữ liệu, Matplotlib, Seaborn… để trực quan hóa.
• Jupyter Notebook: Nền tảng triển khai, hỗ trợ kết hợp mã nguồn và trực quan hóa.
Nguyên tắc thiết kế hiệu quả:
• Tính rõ ràng: Biểu đồ cần truyền tải thông tin một cách dễ hiểu và không gây nhầm lẫn. 4 lOMoAR cPSD| 59387619
• Tối ưu màu sắc: Sử dụng màu sắc tương phản để dễ nhận diện các yếu tố, hạn chế
sử dụng màu sắc quá sặc sỡ để dễ dàng hơn khi đọc đồ thị.
• Hạn chế thông tin thừa: Tập trung vào trọng tâm và loại bỏ các yếu tố không cần
thiết để giữ biểu đồ gọn gàng và tối ưu. 3.
Phân tích dữ liệu dựa vào trực quan hóa 3.1
Dữ liệu và tiền xử lý
Mô tả dữ liệu: Tập dữ liệu bao gồm gần 18,000 cầu thủ với các thông tin như Name, Age,
Overall, Potential, Wage, Value, ... và các chỉ số kỹ thuật khác (Dribbling, Crossing,
Speed, ...). Dữ liệu còn bao gồm các thông tin khác như quốc gia, câu lạc bộ và vị trí
thi đấu của mỗi cầu thủ… Quy trình tiền xử lý:
• Đọc dữ liệu: Đọc tệp CSV vào DataFrame và loại bỏ khoảng trắng thừa trong cột "League".
• Kiểm tra giá trị NaN: Kiểm tra và xác định xem có giá trị NaN (thiếu dữ liệu)
trong DataFrame không và đếm số lượng NaN trong từng cột.
• Xử lý người chơi tự do (Free Agents): Loại bỏ các hàng có giá trị NaN trong cột
"Club" (cầu thủ làm tự do).
• Xử lý tên cầu thủ: Kiểm tra và đếm số lượng hàng có tên cầu thủ trống, mặc dù
không có giá trị trống trong trường hợp này!
• Xử lý cột "Preferred Positions": Chuyển giá trị trong cột "Preferred Positions"
thành một vị trí duy nhất và loại bỏ khoảng trắng thừa.
• Loại bỏ cột không cần thiết: Loại bỏ các cột không hữu ích cho phân tích như
"Photo", "Flag", "Club Logo", "Special".
• Đổi kiểu dữ liệu: Thay đổi kiểu dữ liệu của cột "League Level" thành kiểu số
nguyên (int) và đổi các giá trị trong cột "Wage" và "Value" thành số thực (float)
bằng cách loại bỏ ký hiệu tiền tệ và chuyển đổi giá trị.
• Chuyển Đổi Dữ Liệu Cột Các Chỉ Số Kỹ Thuật: Chuyển đổi các cột từ kiểu dữ
liệu "object" (chuỗi) thành số thực (float) cho các chỉ số như "Acceleration",
"Volleys", v.v. bằng cách sửa các giá trị không hợp lệ (ví dụ: "78+3" thành "78").
• Loại Bỏ Dữ Liệu Trùng Lặp: Kiểm tra xem có trùng lặp trong cột "ID" không và
loại bỏ các bản sao trùng lặp.
• Thiết Lập Cột "ID" Làm Chỉ Mục: Kiểm tra tính duy nhất của "ID" và thiết lập cột
"ID" làm chỉ mục (index) cho DataFrame.
• Lưu Dữ Liệu Đã Xử Lý: Lưu DataFrame đã được xử lý vào một tệp CSV mới với tên 'cleaned_data.csv'. 5 lOMoAR cPSD| 59387619 3.2
Thiết kế biểu đồ và trực quan hoá
3.2.1 Phân bố
3.2.1.1 Phân bố thuộc tính tổng quan
Hình 1: Biểu đồ bar chart phân bố thuộc tính tổng quan
Tổng quan: Biểu đồ trên cung cấp một cái nhìn tổng quan về phân bố các thuộc tính của
cầu thủ trong một trò chơi bóng đá. Mỗi thuộc tính (như tuổi, tốc độ, khả năng sút
bóng...) được biểu diễn dưới dạng một biểu đồ histogram, cho thấy tần suất xuất hiện của
các giá trị khác nhau cho thuộc tính đó. Nhận xét chi tiết: •
Phân bố tuổi: Đa số cầu thủ tập trung ở độ tuổi trung bình, với một số lượng đáng
kể cầu thủ trẻ và một số ít cầu thủ có kinh nghiệm. •
Phân bố các thuộc tính kỹ thuật: Các thuộc tính như rê bóng, dứt điểm, chuyền
bóng... có phân bố khá rộng, cho thấy sự đa dạng về kỹ năng của các cầu thủ. Tuy 6 lOMoAR cPSD| 59387619
nhiên, có thể thấy một số thuộc tính tập trung ở mức trung bình hoặc khá, ít cầu
thủ có kỹ năng vượt trội ở tất cả các mặt. •
Phân bố các thuộc tính thể lực: Tương tự như các thuộc tính kỹ thuật, các thuộc
tính thể lực cũng có phân bố khá rộng. Tuy nhiên, một số thuộc tính như tốc độ,
sức mạnh có thể có sự phân hóa rõ rệt hơn với những cầu thủ có thể lực vượt trội. •
Phân bố vị trí: Các vị trí trên sân có sự phân bố không đồng đều. Có thể thấy một
số vị trí như tiền vệ trung tâm, hậu vệ trung tâm có số lượng cầu thủ đông hơn so với các vị trí khác. •
Một số điểm đáng chú ý: Có một số mối tương quan nhất định giữa các thuộc tính.
Ví dụ, các cầu thủ có tốc độ cao thường cũng có khả năng rê bóng tốt…
3.2.1.2 Phân bố thuộc tính giữa cầu thủ và thủ môn
Hình 2: Biểu đồ histogram phân bố thuộc tính giữa cầu thủ và thủ môn
Tổng quan: Mỗi biểu đồ trong hình là một biểu đồ phân bố tần số, thể hiện số lượng cầu
thủ có giá trị thuộc tính nhất định. Màu xanh biểu diễn cho các cầu thủ ngoài thủ môn
(Outfield Player - OP), màu cam biểu diễn cho các thủ môn (Goalkeeper - GK). Trục
hoành thể hiện giá trị của thuộc tính (ví dụ: tốc độ, sức mạnh), trục tung thể hiện số
lượng cầu thủ có giá trị đó. Nhận xét chung: •
Sự khác biệt giữa thủ môn và cầu thủ ngoài sân: Rõ ràng có sự khác biệt lớn về
phân bố các thuộc tính giữa thủ môn và cầu thủ ngoài sân. Các thủ môn thường có
chỉ số cao hơn ở các thuộc tính liên quan đến thủ môn như phản xạ, bắt bóng, 7 lOMoAR cPSD| 59387619
trong khi các cầu thủ ngoài sân lại có chỉ số cao hơn ở các thuộc tính kỹ thuật và
thể lực như rê bóng, sút bóng, tốc độ. •
Phân bố rộng của các thuộc tính: Các thuộc tính của cầu thủ phân bố khá rộng, cho
thấy sự đa dạng về khả năng của các cầu thủ. Không có nhiều cầu thủ có chỉ số
quá xuất sắc ở tất cả các thuộc tính. •
Một số thuộc tính có sự tập trung: Một số thuộc tính như đánh chặn, kèm người có
xu hướng tập trung ở một khoảng giá trị nhất định, cho thấy đây là những kỹ năng
quan trọng mà hầu hết các cầu thủ đều cần có.
Phân tích chi tiết từng nhóm thuộc tính: •
Các thuộc tính kỹ thuật: Rê bóng, dứt điểm, chuyền bóng... cho thấy sự phân bố
khá rộng, có nghĩa là có nhiều cầu thủ có kỹ năng ở mức độ khác nhau. •
Các thuộc tính thể lực: Tốc độ, sức mạnh, thể lực... cũng có phân bố rộng, nhưng
có sự khác biệt rõ rệt giữa các vị trí. Ví dụ, tiền đạo thường có tốc độ và sức mạnh tốt hơn hậu vệ. •
Các thuộc tính chuyên biệt: Các thuộc tính như phản xạ, bắt bóng chỉ dành cho thủ
môn, và chúng có sự phân bố tập trung hơn so với các thuộc tính khác.
3.2.1.3 Phân bố thuộc tính kĩ thuật theo vị trí cầu thủ
Hình 3: Biểu đồ histogram phân bố thuộc tính kĩ thuật theo từng vị trí cầu thủ
Tổng quan: Biểu đồ trên cung cấp một cái nhìn tổng quan về phân bố các thuộc tính kỹ
thuật của cầu thủ bóng đá theo từng vị trí trên sân. Mỗi biểu đồ đại diện cho một thuộc
tính cụ thể (ví dụ: Interceptions, Marking,...) và được phân chia theo các vị trí trên sân
(Wing, Mid, Str, Def, Forw, CB, LCB, RCB). Nhận xét chi tiết: •
Có sự khác biệt lớn về phân bố các thuộc tính giữa các vị trí trên sân. Ví dụ: 8 lOMoAR cPSD| 59387619
o Hậu vệ: Có chỉ số cao ở các thuộc tính như Interceptions, Marking,
Standing tackle, cho thấy khả năng phòng ngự tốt.
o Tiền vệ: Có sự cân bằng hơn giữa các thuộc tính tấn công và phòng ngự.
o Tiền đạo: Có chỉ số cao hơn ở các thuộc tính liên quan đến tấn công như Finishing, Dribbling. •
Phân bố thuộc tính theo vị trí:
o Hậu vệ trung tâm (CB, LCB, RCB): Có chỉ số cao nhất ở các thuộc tính
phòng ngự như Interceptions, Marking, Standing tackle.
o Hậu vệ cánh (Wing): Có chỉ số cân bằng hơn giữa phòng ngự và tấn công,
thường có khả năng tạt bóng tốt.
o Tiền vệ trung tâm (Mid): Có chỉ số khá cao ở các thuộc tính chuyền bóng, tranh chấp bóng.
o Tiền đạo (Forw): Có chỉ số cao nhất ở các thuộc tính tấn công như Finishing, Dribbling, Pace. •
Sự chồng chéo: Mặc dù có sự khác biệt rõ ràng giữa các vị trí, nhưng vẫn có sự
chồng chéo nhất định về các thuộc tính. Điều này cho thấy rằng một cầu thủ có thể
có nhiều hơn một vai trò trên sân.
Ý nghĩa và ứng dụng biểu đồ: •
Đánh giá cầu thủ: Biểu đồ giúp đánh giá một cách khách quan về điểm mạnh,
điểm yếu của từng cầu thủ dựa trên các chỉ số thống kê. •
Xây dựng đội hình: Giúp huấn luyện viên lựa chọn cầu thủ phù hợp với từng vị trí,
tạo ra một đội hình cân bằng và hiệu quả. •
Phân tích đối thủ: Giúp các đội bóng phân tích điểm mạnh, điểm yếu của đối thủ
để đưa ra chiến thuật phù hợp. •
Phát triển cầu thủ: Giúp cầu thủ xác định những kỹ năng cần cải thiện để nâng cao trình độ. 9 lOMoAR cPSD| 59387619
3.2.2 Tương quan
3.2.2.1 Tương quan các thuộc tính cầu thủ
Hình 4: Biểu đồ heatmap biểu diễn ma trận tương quan
Tổng quan: Biểu đồ trên cho thấy mối liên hệ giữa các thuộc tính khác nhau của một cầu
thủ bóng đá. Mỗi ô trong biểu đồ đại diện cho mối tương quan giữa hai thuộc tính. Màu
sắc và cường độ màu của ô thể hiện mức độ và hướng của mối tương quan đó: •
Màu vàng: Tương quan dương mạnh: Khi thuộc tính này tăng, thuộc tính kia cũng có xu hướng tăng. •
Màu xanh đậm: Tương quan âm mạnh: Khi thuộc tính này tăng, thuộc tính kia có xu hướng giảm. •
Màu xanh nhạt: Tương quan yếu hoặc không có tương quan. Đọc biểu đồ: •
Chọn một thuộc tính: Ví dụ, chọn thuộc tính "Overall". •
So sánh thuộc tính: Các ô có màu vàng sáng dọc theo hàng "Overall" cho biết các
thuộc tính có tương quan dương mạnh với "Overall". Ngược lại, các ô màu xanh
đậm cho biết các thuộc tính có tương quan âm. Nhận xét chung: •
Tương quan dương mạnh: Các thuộc tính như "Overall", "Potential", "Value",
"Wage" có tương quan dương mạnh với nhau, cho thấy các cầu thủ có chỉ số tổng 10 lOMoAR cPSD| 59387619
quan cao thường có tiềm năng phát triển tốt, giá trị chuyển nhượng cao và mức lương cao. •
Tương quan giữa các kỹ năng: Các kỹ năng như "Dribbling", "Finishing", "Shot
Power" có tương quan dương mạnh, cho thấy các cầu thủ giỏi rê bóng cũng sẽ sút bóng tốt. •
Tương quan giữa các kỹ năng phòng ngự: Các kỹ năng phòng ngự như
"Interceptions", "Marking", "Standing tackle" có tương quan dương mạnh, cho
thấy các cầu thủ giỏi tranh bóng sẽ giỏi kèm người. •
Tương quan âm: Một số thuộc tính tương quan âm như giữa các kỹ năng tấn công
và phòng ngự ở một số vị trí nhất định cho thấy sự phân hoá chuyên môn của các
cầu thủ ở các vị trí khác nhau.
3.2.2.2 Tương quan giữa chỉ số tăng tốc và khả năng bắt bóng
Có một số vùng có tương quan tiêu cực mạnh. Các biến này tương ứng với các thuộc tính
của thủ môn, vì vậy chúng ta có thể chia nhỏ dữ liệu.
Hình 5: Biểu đồ tương quan giữa chỉ số tăng tốc và khả năng bắt bóng
Tổng quan: Biểu đồ trên so sánh mối quan hệ giữa hai chỉ số của cầu thủ bóng đá: tăng
tốc (Acceleration) và khả năng bắt bóng (GK diving). Biểu đồ được chia thành hai phần
gồm thủ môn và tất cả cầu thủ (cả thủ môn và các vị trí khác trên sân)
Trên mỗi biểu đồ, mỗi điểm đại diện cho một cầu thủ, vị trí của điểm trên đồ thị cho biết
chỉ số tăng tốc và khả năng bắt bóng của cầu thủ đó. Phân tích kết quả: • Tất cả cầu thủ: 11 lOMoAR cPSD| 59387619
o Tương quan âm: Đường xu hướng chung có xu hướng đi xuống. Nhìn
chung, các cầu thủ có chỉ số tăng tốc cao thường có chỉ số bắt bóng thấp và ngược lại.
o Sự phân tán: Các điểm dữ liệu phân tán khá rộng, cho thấy không phải tất
cả các cầu thủ đều tuân theo quy luật này. Có một số cầu thủ có cả chỉ số
tăng tốc và bắt bóng cao. •
Thủ môn: Có tương quan dương yếu với đường xu hướng chung đi lên nhẹ. Nghĩa
là đối với các thủ môn, những người có chỉ số tăng tốc cao thường có khả năng bắt
bóng tốt hơn một chút so với những người có chỉ số tăng tốc thấp. Tuy nhiên, mối
quan hệ này không rõ ràng và có nhiều ngoại lệ. Giải thích kết quả: •
Tất cả cầu thủ: Việc một cầu thủ có chỉ số tăng tốc cao thường đi kèm với việc khả
năng bắt bóng thấp là điều dễ hiểu. Các cầu thủ có chỉ số tăng tốc cao thường là
những cầu thủ tấn công, họ cần tốc độ để vượt qua đối thủ và ghi bàn. Ngược lại,
các thủ môn cần sự ổn định và phản xạ nhanh để bắt bóng, tốc độ quá cao có thể
làm giảm sự ổn định này. •
Thủ môn: Đối với thủ môn, khả năng tăng tốc có thể giúp họ di chuyển nhanh hơn
để bọc lót hoặc bắt những quả bóng bổng. Tuy nhiên, khả năng bắt bóng chủ yếu
phụ thuộc vào kỹ thuật và kinh nghiệm hơn là tốc độ. Kết luận: •
Khả năng tăng tốc và bắt bóng thường là hai yếu tố đối lập nhau, các cầu thủ giỏi
về tốc độ thường không giỏi về khả năng bắt bóng và ngược lại. •
Đối với thủ môn, khả năng tăng tốc có thể là một lợi thế. Tuy nhiên, mối quan hệ
giữa hai chỉ số này không rõ ràng và còn phụ thuộc vào nhiều yếu tố khác. •
Đây là một ví dụ về nghịch lý Simpson. Chúng ta có tương quan dương cho một
nhóm (thủ môn), hầu như không có tương quan cho các nhóm khác và dữ liệu kết
quả dường như có tương quan âm.
3.2.2.3 Tương quan giữa cầu thủ ngoài sân và thủ môn 12 lOMoAR cPSD| 59387619
Hình 6: Biểu đồ tương quan giữa non-goalkeepers và goalkeepers
Tổng quan: Biểu đồ trên cung cấp một cái nhìn tổng quan về mối quan hệ giữa các thuộc
tính khác nhau của cầu thủ bóng đá, được chia thành hai nhóm chính: cầu thủ ngoài sân
(non-goalkeepers) và thủ môn (goalkeepers). Mỗi ô trong biểu đồ đại diện cho mối tương
quan giữa hai thuộc tính. Màu sắc và cường độ màu của ô thể hiện mức độ và hướng của
mối tương quan đó. Trong biểu đồ, các cột và hàng được sắp xếp theo giá trị tương quan trung bình. Phân tích chi tiết: • Cầu thủ ngoài sân:
o Các kỹ năng tấn công có tương quan cao: Các kỹ năng như dứt điểm, sút
xa, rê bóng thường có tương quan dương cao với nhau. Điều này cho thấy
các cầu thủ giỏi một kỹ năng thường cũng giỏi các kỹ năng khác liên quan đến tấn công.
o Các kỹ năng phòng ngự có tương quan cao: Tương tự, các kỹ năng như tắc
bóng, đánh chặn, kèm người cũng có tương quan dương cao. Điều này cho
thấy các cầu thủ giỏi một kỹ năng phòng ngự thường cũng giỏi các kỹ năng phòng ngự khác.
o Mối quan hệ giữa kỹ năng tấn công và phòng ngự: Thường có mối tương
quan âm giữa các kỹ năng tấn công và phòng ngự. Điều này cho thấy các
cầu thủ thiên về tấn công thường không mạnh ở các kỹ năng phòng ngự và ngược lại.
o Các thuộc tính chung: Các thuộc tính như tổng quan, tiềm năng, giá trị
thường có tương quan dương cao với các kỹ năng khác, cho thấy các cầu
thủ có chỉ số tổng quan cao thường có nhiều kỹ năng tốt. • Thủ môn:
o Các kỹ năng bắt bóng có tương quan cao: Các kỹ năng như phản xạ, bắt
bóng, xử lý bóng bằng chân thường có tương quan dương cao. Điều này
cho thấy các thủ môn giỏi một kỹ năng thường cũng giỏi các kỹ năng khác
liên quan đến bắt bóng.
o Mối quan hệ với các thuộc tính khác: Các kỹ năng của thủ môn thường có
mối tương quan yếu hơn với các thuộc tính của cầu thủ ngoài sân. Điều này
cho thấy vai trò và yêu cầu kỹ năng của thủ môn khác biệt so với các vị trí khác.
Nhận xét chung: Đánh giá tổng thể có giá trị tương quan trung bình cao nhất, có nghĩa là
các thuộc tính cao hơn sẽ dẫn đến đánh giá tổng thể cao hơn. Giá trị tương quan trung
bình thấp nhất (âm cao nhất) thuộc về cấp độ giải đấu, tức là tham số cao hơn tương ứng
với số nhỏ hơn (cấp độ cao hơn) của giải đấu, trong đó 1 là giải đấu tốt nhất. 13 lOMoAR cPSD| 59387619
Hình 7: Biểu đồ đường mối quan hệ non-goalkeepers và goalkeepers
Tổng quan: Biểu đồ trên cung cấp một cái nhìn tổng quan về mối quan hệ giữa các thuộc
tính khác nhau của cầu thủ bóng đá, được chia thành hai nhóm chính: cầu thủ ngoài sân
(non-goalkeepers) và thủ môn (goalkeepers). •
Trục hoành: Đại diện cho các cặp thuộc tính khác nhau, được sắp xếp theo thứ tự
giảm dần của độ tương quan tuyệt đối. •
Trục tung: Đại diện cho độ lớn của hệ số tương quan (từ 0 đến 1), càng cao thì mối
quan hệ giữa hai thuộc tính càng chặt chẽ. •
Đường màu xanh: Đại diện cho cầu thủ ngoài sân. •
Đường màu cam: Đại diện cho thủ môn. Phân tích chi tiết: •
Độ lớn của tương quan: Nhìn chung, các cặp thuộc tính của cầu thủ ngoài sân có
độ tương quan cao hơn so với thủ môn. Điều này có nghĩa là, các kỹ năng của cầu
thủ ngoài sân có liên hệ chặt chẽ với nhau hơn so với các kỹ năng của thủ môn. •
Cấu trúc tương quan: Hình dạng của hai đường biểu diễn cho thấy sự khác biệt
trong cấu trúc tương quan giữa hai nhóm cầu thủ. Cầu thủ ngoài sân có nhiều cặp
thuộc tính có độ tương quan rất cao, trong khi thủ môn có sự phân bố tương quan đồng đều hơn.
Ý nghĩa của các đoạn giảm: •
Các đoạn giảm trên đồ thị cho thấy khi xét đến các cặp thuộc tính có độ tương
quan thấp hơn, mối liên hệ giữa các thuộc tính trở nên yếu hơn. •
Việc so sánh độ dốc của các đoạn giảm giữa hai nhóm cầu thủ có thể giúp chúng ta
hiểu rõ hơn về sự khác biệt trong cấu trúc tương quan của chúng.
3.2.3 Phân tán
3.2.3.1 Phân tán thuộc tính cầu thủ
Trên biểu đồ đường mối quan hệ non-goalkeepers và goalkeepers (H7), 'elbow' có thể
thay đổi hành vi do đó chúng ta sẽ xem xét khoảng 25 cặp đầu tiên. 14 lOMoAR cPSD| 59387619
Hình 8: Biểu đồ phân tán các thuộc tính cầu thủ
Các biểu đồ trên cho thấy mối quan hệ dương giữa các thuộc tính. Điều này có nghĩa là
khi một thuộc tính tăng, thuộc tính kia cũng có xu hướng tăng. Ví dụ: các kỹ năng phòng
ngự như tắc bóng, đánh chặn thường đi kèm với nhau.
Phân tích chi tiết từng nhóm thuộc tính: •
Các kỹ năng phòng ngự: Các kỹ năng như tắc bóng, đánh chặn, kèm người thường
có mối quan hệ dương mạnh với nhau. Điều này cho thấy các cầu thủ giỏi một kỹ
năng phòng ngự thường cũng giỏi các kỹ năng phòng ngự khác. Ngoài ra một số
biểu đồ cho thấy mối quan hệ dương giữa tốc độ và khả năng phòng ngự. Điều này
cho thấy tốc độ có thể giúp cầu thủ thực hiện các pha tắc bóng hiệu quả hơn. •
Các kỹ năng tấn công: Các kỹ năng như dứt điểm, sút xa, rê bóng thường có mối
quan hệ dương mạnh với nhau. Điều này cho thấy các cầu thủ giỏi một kỹ năng
tấn công thường cũng giỏi các kỹ năng tấn công khác. Ngoài ra kỹ năng chuyền
bóng và tầm nhìn có mối quan hệ dương cho thấy cầu thủ có khả năng chuyền
bóng tốt thường có tầm nhìn tốt hơn. 15 lOMoAR cPSD| 59387619 •
Các thuộc tính tổng quan: Giá trị của cầu thủ thường có mối quan hệ dương với
các kỹ năng tổng hợp. Điều này cho thấy các cầu thủ có giá trị cao thường có nhiều kỹ năng tốt.
3.2.3.2 Phân tán lương và giá trị cầu thủ
Hình 9:Biểu đồ phân tán lương và giá trị cầu thủ
Tổng quan: Hai biểu đồ trên thể hiện mối quan hệ giữa lương và giá trị của các cầu thủ
bóng đá, được chia thành hai nhóm: cầu thủ ngoài sân và thủ môn. Mỗi điểm trên biểu đồ
đại diện cho một cầu thủ, vị trí của điểm cho biết lương và giá trị của cầu thủ đó. Phân tích chi tiết: •
Mối quan hệ dương và tuyến tính: Cả hai biểu đồ đều cho thấy một mối quan hệ
dương rõ ràng giữa lương và giá trị. Điều này có nghĩa là, nhìn chung, các cầu thủ
có giá trị cao thường có mức lương cao hơn. Chúng ta còn có thể thấy mối quan hệ
tuyến tính, nhưng với sự tăng trưởng theo cấp số nhân, nghĩa là, khi giá trị (lương)
tăng lên, số lượng cầu thủ có mức lương đó giảm đi. Điều này nhất quán đối với
tất cả các cầu thủ. Chúng ta có thể đưa ra một giả định khác, dựa trên phân phối
chuẩn của xếp hạng tổng thể. Lương của các cầu thủ tăng theo cấp số nhân với xếp
hạng của họ. Chúng ta không thấy điều này trong các hệ số tương quan vì chúng ta
chỉ đang tìm kiếm các mối quan hệ tuyến tính. •
Sự khác biệt giữa hai nhóm:
o Cầu thủ ngoài sân: Biểu đồ cho thấy sự phân tán rộng của dữ liệu, có nghĩa
là có sự khác biệt lớn về lương và giá trị giữa các cầu thủ ngoài sân. Một số
cầu thủ có giá trị rất cao nhưng lương lại tương đối thấp và ngược lại.
o Thủ môn: Biểu đồ cho thấy sự phân tán dữ liệu hẹp hơn so với cầu thủ
ngoài sân, đặc biệt là về giá trị. Điều này có nghĩa là, giá trị của các thủ
môn thường có sự tương đồng nhau hơn so với cầu thủ ngoài sân. Giải thích kết quả: 16 lOMoAR cPSD| 59387619 •
Giá trị và lương: Giá trị của một cầu thủ thường được xác định bởi nhiều yếu tố
như tuổi tác, kinh nghiệm, kỹ năng, tiềm năng phát triển,... Lương của một cầu thủ
phụ thuộc vào giá trị của cầu thủ, vị trí thi đấu, thành tích và sức mạnh thương mại của cầu thủ đó. •
Sự khác biệt giữa các vị trí: Cầu thủ ngoài sân thường có sự đa dạng về kỹ năng và
vai trò hơn so với thủ môn. Điều này dẫn đến sự khác biệt lớn hơn về giá trị và
lương giữa các cầu thủ ngoài sân. Trong khi đó, thủ môn thường có vai trò đặc biệt
và yêu cầu kỹ năng chuyên biệt hơn, dẫn đến sự đồng đều hơn về giá trị và lương.
Hình 10: Biểu đồ phân tán tổng thể và lương
Dạng hình tam giác của biểu đồ log có nghĩa là có rất nhiều cầu thủ bị trả lương thấp
(một số cầu thủ có xếp hạng trên 80 nhận mức lương tối thiểu, trong khi theo xu hướng
cấp số nhân, họ đáng lẽ phải được trả gấp 100 lần mức đó). Kết luận: •
Giá trị và lương có mối quan hệ chặt chẽ: Các cầu thủ có giá trị cao thường có mức lương cao hơn. •
Có sự khác biệt giữa cầu thủ ngoài sân và thủ môn: Cầu thủ ngoài sân có sự đa
dạng hơn về giá trị và lương so với thủ môn. •
Các yếu tố khác ảnh hưởng: Ngoài giá trị, còn nhiều yếu tố khác ảnh hưởng đến
mức lương của một cầu thủ như vị trí thi đấu, đội bóng, quốc tịch, thành tích,...
3.2.3.3 Phân tán tuổi và tiềm năng cầu thủ 17 lOMoAR cPSD| 59387619
Hình 11: Biểu đồ phân tán tuổi và tiềm năng của cầu thủ
Tổng quan: Bộ bốn biểu đồ phân tán này cung cấp một cái nhìn tổng quan về mối quan
hệ giữa các thuộc tính khác nhau của cầu thủ bóng đá, bao gồm: •
Tuổi (Age): Tuổi của cầu thủ. •
Tiềm năng (Potential): Khả năng phát triển của cầu thủ trong tương lai. •
Chỉ số tổng quan (Overall): Chỉ số đánh giá tổng thể khả năng hiện tại của cầu thủ. •
Phản xạ (Reactions): Khả năng phản ứng nhanh của cầu thủ.
Phân tích chi tiết từng biểu đồ: •
Biểu đồ 1: Biểu đồ cho thấy tuổi và tiềm năng đang theo một xu hướng giảm rõ
ràng. Nhìn chung, tiềm năng của cầu thủ sẽ giảm dần theo tuổi tác. Cầu thủ trẻ
thường có tiềm năng phát triển cao hơn so với cầu thủ lớn tuổi. •
Biểu đồ 2: Tiềm năng và chỉ số tổng quan theo xu hướng tăng đồng nghĩa với việc
các cầu thủ có tiềm năng cao thường có chỉ số tổng quan hiện tại cũng cao hơn. •
Biểu đồ 3: Biểu đồ không cho thấy một mối quan hệ rõ ràng giữa tuổi và phản xạ.
Điều này có nghĩa là, khả năng phản xạ của cầu thủ không nhất thiết phải giảm theo tuổi tác. •
Biểu đồ 4: Tương tự như biểu đồ 3, biểu đồ này cũng không cho thấy một mối
quan hệ rõ ràng giữa tiềm năng và phản xạ.
Hình 12: Biểu đồ về tiềm năng và chỉ số tổng quan theo độ tuổi
Tổng quan: Biểu đồ này cung cấp một cái nhìn tổng quan về sự thay đổi của tiềm năng,
chỉ số tổng quan và tiềm năng còn lại của một cầu thủ bóng đá theo độ tuổi. Phân tích chi tiết: • Biểu đồ đường:
o Tiềm năng: Đường biểu diễn tiềm năng của cầu thủ có xu hướng giảm dần
theo tuổi. Điều này cho thấy, tiềm năng phát triển của một cầu thủ thường
đạt đỉnh ở độ tuổi trẻ và giảm dần khi cầu thủ lớn tuổi hơn.
o Chỉ số tổng quan: Đường biểu diễn chỉ số tổng quan ban đầu tăng lên, đạt
đỉnh ở một độ tuổi nhất định, sau đó giảm dần. Điều này cho thấy, chỉ số 18 lOMoAR cPSD| 59387619
tổng quan của một cầu thủ thường tăng lên khi cầu thủ tích lũy kinh nghiệm
và kỹ năng, nhưng sau đó sẽ giảm dần do ảnh hưởng của tuổi tác và thể lực.
o Tiềm năng còn lại: Đường biểu diễn tiềm năng còn lại giảm nhanh chóng ở
những năm đầu sự nghiệp, sau đó giảm chậm dần và tiến về 0. Điều này
cho thấy, phần lớn tiềm năng của một cầu thủ sẽ được phát triển trong
những năm đầu sự nghiệp. • Biểu đồ phân tán:
o Biểu đồ này tập trung vào mối quan hệ giữa tuổi và tiềm năng còn lại.
o Các điểm dữ liệu tập trung chủ yếu ở phần dưới bên trái của biểu đồ, cho
thấy phần lớn cầu thủ có tiềm năng còn lại thấp khi họ lớn tuổi hơn.
o Một số điểm dữ liệu nằm ở phía trên bên trái biểu đồ, cho thấy một số cầu
thủ vẫn còn tiềm năng phát triển đáng kể ở độ tuổi lớn hơn.
Nhận xét: Đối với độ tuổi khoảng 30, không ai có thể có tiềm năng cao hơn. Các dao
động mạnh ở cuối biểu đồ chỉ ra rằng không có nhiều cầu thủ bóng đá lớn tuổi. Từ nhóm
thứ hai, chúng ta có thể kết luận rằng tuổi tác cùng với phản ứng (reactions) có thể cung
cấp tiềm năng cho một cầu thủ. Dưới đây, hệ số được sử dụng để đạt được sự tương quan
cao nhất, vì trong phân tích trước, chúng ta đã sử dụng các giá trị chuẩn hóa. Phản ứng có
sự tương quan với tiềm năng, nhưng không đủ để lọt vào top 25 trong phân tích đầu tiên.
Khi trừ tuổi đi, chúng ta có được sự tương ứng cao.
Hình 13: Biểu đồ phân tán tiềm năng và phản xạ đã điều chỉnh theo tuổi
Tổng quan: Biểu đồ này cho thấy mối quan hệ giữa tiềm năng và phản xạ đã điều chỉnh
theo tuổi của các cầu thủ bóng đá. Mỗi điểm trên biểu đồ đại diện cho một cầu thủ, vị trí
của điểm cho biết tiềm năng và phản xạ đã điều chỉnh của cầu thủ đó. Phân tích chi tiết: 19