lOMoARcPSD| 58728417
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM
KHOA CÔNG NGHỆ THÔNG TIN
ĐỒ ÁN CUỐI KỲ
MÔN HỌC: LẬP TRÌNH PYTHON
HỆ THỐNG PHÂN TÍCH TRỰC QUAN DỮ
LIỆU COVID-19
Mã lớp học phần: IPPA233277_04
Học kỳ 1 – Năm học 2024-2025
Giảng viên hướng dẫn: ThS. Trần Quang Khải
Danh sách sinh viên thực hiện:
MSSV
Họ tên










Thành phố Hồ Chí Minh, tháng 11 năm 2024
lOMoARcPSD| 58728417
Nhận xét của giảng viên
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
TP. Hồ Chí Minh, ngày … tháng… năm 2024
Giảng viên ký tên
lOMoARcPSD| 58728417
MỤC LỤC
PHẦN 1: MỞ ĐẦU......................................................................................................1
1. Lý do chọn đề tài.......................................................................................1
2. Mục tiêu đề tài...........................................................................................1
3. Đối tượng và phạm vi nghiên cứu............................................................1
PHẦN 2. NỘI DUNG...................................................................................................2
CHƯƠNG 1: MÔ TẢ TẬP DỮ LIỆU................................................................2
1.1. Giới thiêu về Kaggle..............................................................................2
1.2. Giới thiêu về COVID-19.......................................................................2
1.3. Lịch sử....................................................................................................3
1.4. Nguồn gốc..............................................................................................5
1.5. Công dụng và ứng dụng của dữ liệu COVID-19.................................6
1.6. Đặc trưng và cấu trúc của dữ liệu COVID-19:...................................7
1.7. Hạn chế và khiếm khuyết của dữ liệu COVID-19:...........................10
CHƯƠNG 2: CHUN HA VÀ X L DỮ LIÊU TRÊN TẬ P DỮ LIU 
COVID 19...........................................................................................................11
2.1. Create, Read, Update, Delete.............................................................11
2.2. Chun ha, làm sạch...........................................................................15
2.3. Tm kiếm, Sp xếp, Lọc......................................................................18
CHƯƠNG 3: THỐNG KÊ VÀ BIU ĐỒ V COVID 19...............................29
3.1. Thống kê..............................................................................................29
3.1.1. Giới thiệu..................................................................................29
3.1.2. Phương pháp.............................................................................29
3.1.3. Quy trnh thực hiện...................................................................29
3.1.4. Kết quả......................................................................................31
3.2. V biu đồ............................................................................................32
CHƯƠNG 4: GIAO DIÊN................................................................................37
4.1. Tổ chức Modules – Packages:............................................................37
4.2. Giao diện website.................................................................................38
4.2.1. Trang chủ..................................................................................38
4.2.2. Trang làm sạch dữ liệu.............................................................40
lOMoARcPSD| 58728417
4.2.3. Trang thêm dữ liệu...................................................................41
4.2.4. Trang web sửa dữ liệu..............................................................42
4.2.5. Trang web xa dữ liệu..............................................................43
4.2.6. Trang thống kê........................................................................44
4.2.7. Trang sp xếp dữ liệu..............................................................45
4.2.8. Trang lọc dữ liệu......................................................................45
4.2.9. Trang v biu đồ.......................................................................46
PHẦN KẾT LUẬN
PHẦN TÀI LIỆU THAM KHẢO
lOMoARcPSD| 58728417
DANH MỤC HÌNH ẢNH
Hình 1. Tập dữ liệu full_grouped.csv lưu trữ thông tin của các ca COVID-19 trên toàn
th gii..........................................................................................................................8
Hình 2. Tập dữ liệu data_dirty.csv lưu trữ thông tin của các ca COVID-19 trên toàn
th gii..........................................................................................................................9
Hình 3. Hàm creat.......................................................................................................11
Hình 4. Hàm read........................................................................................................12
Hình 5. Hàm update....................................................................................................13
Hình 6. Hàm delete......................................................................................................14
Hình 7. Hàm delete_empty..........................................................................................15
Hình 8. Hàm format_number.......................................................................................16
Hình 9. Hàm cleanData c chc năng làm sch dữ liêu.............................................17
Hình 10. Hàm sorted_dt..............................................................................................19
Hình 11. Hàm filter_dataFrame..................................................................................20
Hình 12. sort_route.....................................................................................................23
Hình 13. filter_route....................................................................................................26
Hình 14. Biểu đồ đưng thể hiện xu hưng từ tháng 1 đn tháng 7 năm 2020 của các
trưng hợp COVID-19 bao gồm số ca nhiễm mi, số ca tử vong mi, số ca hồi phục
mi...............................................................................................................................32
Hình 15. Biểu đồ tròn thể hiện tỉ lệ phân bố các ca nhiễm COVID-19 theo từng khu
vực của Tổ chc y t th gii WHO.............................................................................33
Hình 16. Biểu đồ cột về sự gia tăng và độ chênh lệch số ca nhiễm qua hàng tháng....34
Hình 17. Biểu đồ mât đ thể hiệ n sự thay đổi về số lượng ca nhiễm, tử vong
và hồi  phục do COVID-19 theo thi gian ti các khu vực khác nhau trên th gii do
Tổ chc
Y t Th gii (WHO) quản lý.......................................................................................35
Hình 18. Modules - Packages......................................................................................37
Hình 19. Trang chủ.....................................................................................................38
Hình 20. Thanh menu..................................................................................................39
Hình 21. Trang làm sch dữ liệu.................................................................................40
Hình 22. Trang web Thêm dữ liêu mi........................................................................41
Hình 23. Trang web Update dữ liêu_1........................................................................42
lOMoARcPSD| 58728417
Hình 24. Trang web Update dữ liêu_2........................................................................42
Hình 25. Trang web xa dữ liêu..................................................................................43
Hình 26. Trang web thống kê dữ liêu..........................................................................44
Hình 27. Trang web Sp xp dữ liêu...........................................................................45
Hình 28. Trang web đc dữ liêu..................................................................................45
Hình 29. Trang v biểu đồ...........................................................................................46
lOMoARcPSD| 58728417
DANH MỤC BẢNG
Bảng 1. Bảng mô tả tập dữ liệu full_grouped.csv ........................................................... 8
Bảng 2. Bảng mô tả tập dữ liệu data_dirty.csv ............................................................... 9
lOMoARcPSD| 58728417
BẢNG DANH MỤC CÁC TỪ VIẾT TẮT
Ký hiệu chữ viết tt
Cách viết đầy đủ






lOMoARcPSD| 58728417
KẾ HOẠCH PHÂN CÔNG NHIỆM VỤ THỰC HIỆN Đ TÀI
CUỐI KỲ MÔN LẬP TRÌNH PYTHON
HỌC KỲ I NĂM HỌC 2024-2025
1. Mã lớp môn học: IPPA233277_04
2. Giảng viên hướng dẫn: ThS. Trần Quang Khải
3. Tên đề tài: HỆ THỐNG PHÂN TÍCH VÀ TRỰC QUAN DỮ LIỆU COVID-19
4. Bảng phân công nhiệm vụ:
Sinh viên thực hiện
Nội dung thực hiện

Thu thâp dữ liệ
Delete, Update

Thit k giao diện
Làm sch dữ liêụ

Lc dữ liêụ
Sp xp dữ liêụ

Create, Read
V biểu đồ

Thống kê dữ liêụ
Thit k giao diê
LỜI CẢM ƠN


lOMoARcPSD| 58728417
   







lOMoARcPSD| 58728417
 
PHẦN 1: MỞ ĐẦU
1. Lý do chọn đề tài










2. Mục tiêu đề tài



3. Đối tượng và phạm vi nghiên cứu











lOMoARcPSD| 58728417
 
PHẦN 2. NỘI DUNG
CHƯƠNG 1: MÔ TẢ TẬP DỮ LIỆU
1.1. Giới thiêu về Kaggl








               












1.2. Giới thiêu về COVID-19





lOMoARcPSD| 58728417
 
























1.3. Lịch sử




lOMoARcPSD| 58728417
 


- Giai đoạn khởi đầu (Cuối năm 2019 – Đầu năm 2020)











- Giai đoạn mở rộng dữ liệu (Giữa năm 2020 – Cuối năm 2020)









- Giai đoạn chuyên sâu và phân tích dữ liệu (2021 – 2022)





lOMoARcPSD| 58728417
 










- Giai đoạn sau đại dịch (2023 trở đi)















1.4. Nguồn gốc

             
         
lOMoARcPSD| 58728417
 
        






1.5. Công dụng và ứng dụng của dữ liệu COVID-19






















lOMoARcPSD| 58728417
 





























lOMoARcPSD| 58728417
 


1.6. Đặc trưng và cấu trúc của dữ liệu COVID-19:
Thông tin



Hình 1. Tập dữ liệu full_grouped.csv lưu trữ thông tin của các ca COVID-19
trên toàn th gii
Bảng 1. Bảng mô tả tập dữ liệu full_grouped.csv


Thông tin
Mô tả




lOMoARcPSD| 58728417
 


Hình 2. Tập dữ liệu data_dirty.csv lưu trữ thông tin của các ca COVID-19 trên
toàn th gii
Bảng 2. Bảng mô tả tập dữ liệu data_dirty.csv


 


 


              


 

 

lOMoARcPSD| 58728417
 
               


 


 


              


 


1.7. Hạn chế và khiếm khuyết của dữ liệu COVID-19:















Preview text:

lOMoAR cPSD| 58728417
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM
KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CUỐI KỲ
MÔN HỌC: LẬP TRÌNH PYTHON
HỆ THỐNG PHÂN TÍCH VÀ TRỰC QUAN DỮ LIỆU COVID-19
Mã lớp học phần: IPPA233277_04
Học kỳ 1 – Năm học 2024-2025
Giảng viên hướng dẫn: ThS. Trần Quang Khải
Danh sách sinh viên thực hiện: MSSV Họ tên 23110231 Xín Lợi Huy 23110340 Nguyễn Thành Tin 23110186 Tôn Hoàng Cầm 23110352 Võ Chí Trung 23110192 Phan Đình Duẩn
Thành phố Hồ Chí Minh, tháng 11 năm 2024 lOMoAR cPSD| 58728417
Nhận xét của giảng viên
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
.........................................................................................................................................
TP. Hồ Chí Minh, ngày … tháng… năm 2024 Giảng viên ký tên lOMoAR cPSD| 58728417 MỤC LỤC
PHẦN 1: MỞ ĐẦU......................................................................................................1 1.
Lý do chọn đề tài.......................................................................................1 2.
Mục tiêu đề tài...........................................................................................1 3.
Đối tượng và phạm vi nghiên cứu............................................................1
PHẦN 2. NỘI DUNG...................................................................................................2
CHƯƠNG 1: MÔ TẢ TẬP DỮ LIỆU................................................................2
1.1. Giới thiêu về Kaggle..............................................................................2̣
1.2. Giới thiêu về COVID-19.......................................................................2̣
1.3. Lịch sử....................................................................................................3
1.4. Nguồn gốc..............................................................................................5
1.5. Công dụng và ứng dụng của dữ liệu COVID-19.................................6
1.6. Đặc trưng và cấu trúc của dữ liệu COVID-19:...................................7
1.7. Hạn chế và khiếm khuyết của dữ liệu COVID-19:...........................10
CHƯƠNG 2: CHUẨN HÓA VÀ XỬ LÝ DỮ LIÊU TRÊN TẬ P DỮ LIỆU ̣
COVID 19...........................................................................................................11
2.1. Create, Read, Update, Delete.............................................................11
2.2. Chuẩn hóa, làm sạch...........................................................................15
2.3. Tìm kiếm, Sắp xếp, Lọc......................................................................18
CHƯƠNG 3: THỐNG KÊ VÀ BIỂU ĐỒ VỀ COVID 19...............................29
3.1. Thống kê..............................................................................................29
3.1.1. Giới thiệu..................................................................................29
3.1.2. Phương pháp.............................................................................29
3.1.3. Quy trình thực hiện...................................................................29
3.1.4. Kết quả......................................................................................31
3.2. Vẽ biểu đồ............................................................................................32
CHƯƠNG 4: GIAO DIÊN................................................................................37̣
4.1. Tổ chức Modules – Packages:............................................................37
4.2. Giao diện website.................................................................................38
4.2.1. Trang chủ..................................................................................38
4.2.2. Trang làm sạch dữ liệu.............................................................40 lOMoAR cPSD| 58728417
4.2.3. Trang thêm dữ liệu...................................................................41
4.2.4. Trang web sửa dữ liệu..............................................................42
4.2.5. Trang web xóa dữ liệu..............................................................43
4.2.6. Trang thống kê........................................................................44
4.2.7. Trang sắp xếp dữ liệu..............................................................45
4.2.8. Trang lọc dữ liệu......................................................................45
4.2.9. Trang vẽ biểu đồ.......................................................................46 PHẦN KẾT LUẬN
PHẦN TÀI LIỆU THAM KHẢO lOMoAR cPSD| 58728417 DANH MỤC HÌNH ẢNH
Hình 1. Tập dữ liệu full_grouped.csv lưu trữ thông tin của các ca COVID-19 trên toàn
thế giới..........................................................................................................................8
Hình 2. Tập dữ liệu data_dirty.csv lưu trữ thông tin của các ca COVID-19 trên toàn
thế giới..........................................................................................................................9
Hình 3. Hàm creat.......................................................................................................11
Hình 4. Hàm read........................................................................................................12
Hình 5. Hàm update....................................................................................................13
Hình 6. Hàm delete......................................................................................................14
Hình 7. Hàm delete_empty..........................................................................................15
Hình 8. Hàm format_number.......................................................................................16
Hình 9. Hàm cleanData có chức năng làm sạch dữ liêu.............................................17̣
Hình 10. Hàm sorted_dt..............................................................................................19
Hình 11. Hàm filter_dataFrame..................................................................................20
Hình 12. sort_route.....................................................................................................23
Hình 13. filter_route....................................................................................................26
Hình 14. Biểu đồ đường thể hiện xu hướng từ tháng 1 đến tháng 7 năm 2020 của các
trường hợp COVID-19 bao gồm số ca nhiễm mới, số ca tử vong mới, số ca hồi phục
mới...............................................................................................................................32
Hình 15. Biểu đồ tròn thể hiện tỉ lệ phân bố các ca nhiễm COVID-19 theo từng khu
vực của Tổ chức y tế thế giới WHO.............................................................................33
Hình 16. Biểu đồ cột về sự gia tăng và độ chênh lệch số ca nhiễm qua hàng tháng....34
Hình 17. Biểu đồ mât độ thể hiệ
n sự thay đổi về số lượng ca nhiễm, tử vong
và hồi ̣ phục do COVID-19 theo thời gian tại các khu vực khác nhau trên thế giới do Tổ chức
Y tế Thế giới (WHO) quản lý.......................................................................................35
Hình 18. Modules - Packages......................................................................................37
Hình 19. Trang chủ.....................................................................................................38
Hình 20. Thanh menu..................................................................................................39
Hình 21. Trang làm sạch dữ liệu.................................................................................40
Hình 22. Trang web Thêm dữ liêu mới........................................................................41̣
Hình 23. Trang web Update dữ liêu_1........................................................................42̣ lOMoAR cPSD| 58728417
Hình 24. Trang web Update dữ liêu_2........................................................................42̣
Hình 25. Trang web xóa dữ liêu..................................................................................43̣
Hình 26. Trang web thống kê dữ liêu..........................................................................44̣
Hình 27. Trang web Sắp xếp dữ liêu...........................................................................45̣
Hình 28. Trang web đọc dữ liêu..................................................................................45̣
Hình 29. Trang vẽ biểu đồ...........................................................................................46 lOMoAR cPSD| 58728417 DANH MỤC BẢNG
Bảng 1. Bảng mô tả tập dữ liệu full_grouped.csv ........................................................... 8
Bảng 2. Bảng mô tả tập dữ liệu data_dirty.csv ............................................................... 9 lOMoAR cPSD| 58728417
BẢNG DANH MỤC CÁC TỪ VIẾT TẮT
Ký hiệu chữ viết tắt
Cách viết đầy đủ AI Artifical Intelligence WHO The World Health Organization CSV Comma-separated values lOMoAR cPSD| 58728417
KẾ HOẠCH PHÂN CÔNG NHIỆM VỤ THỰC HIỆN ĐỀ TÀI
CUỐI KỲ MÔN LẬP TRÌNH PYTHON
HỌC KỲ I NĂM HỌC 2024-2025
1. Mã lớp môn học: IPPA233277_04
2. Giảng viên hướng dẫn: ThS. Trần Quang Khải
3. Tên đề tài: HỆ THỐNG PHÂN TÍCH VÀ TRỰC QUAN DỮ LIỆU COVID-19
4. Bảng phân công nhiệm vụ:
Sinh viên thực hiện
Nội dung thực hiện Xín Lợi Huy
Thu thâp dữ liệụ Delete, Update Nguyễn Thành Tin
Thiết kế giao diện
Làm sạch dữ liêụ Tôn Hoàng Cầm Lọc dữ liêụ
Sắp xếp dữ liêụ Võ Chí Trung Create, Read Vẽ biểu đồ Phan Đình Duẩn
Thống kê dữ liêụ
Thiết kế giao diêṇ LỜI CẢM ƠN
Chúng em cảm ơn thầy Trần Quang Khải vì trong khoảng thời gian vừa qua đã
giúp nhóm em thực hiên được đề tài này. Thầy đã hướng dẫn và giải đáp thắc mắc ma ̣̀ lOMoAR cPSD| 58728417
chúng em găp phải cũng như đưa ra những gợi ý để chúng em hoàn thiệ n bài đồ án.̣̀
Nhóm em trong quá trình làm vẫn còn nhiều khó khăn, bất câp nên có thể bài báọ
cáo và bài đồ án cuối kì vẫn chưa đạt kỳ vọng của thầy. Nhóm chúng em rất mong thầy
có thể giúp bọn em tìm ra những khuyết điểm, thiếu sót về bài đồ án cũng như bài báo
cáo này để bọn em có thể cải thiên và rút kinh nghiệ m cho những bài báo cáo sau.̣̀
Nhóm chúng em xin chân thành cảm ơn thầy vì đã đồng hành cùng bọn em trong
chăng đường vừa qua.̣̀ lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ Trang 1 PHẦN 1: MỞ ĐẦU
1. Lý do chọn đề tài
Nhóm em chọn đề tài này vì: sự nguy hiểm và khả năng lây lan nhanh
chóng của COVID-19, việc thu thập, quản lý và phân tích dữ liệu về dịch bệnh
đã trở thành một nhiệm vụ cốt lõi. Những thông tin này không chỉ giúp theo
dõi sự lây lan của dịch bệnh mà còn hỗ trợ việc đưa ra các quyết định chiến
lược nhằm giảm thiểu thiệt hại và bảo vệ sức khỏe cộng đồng. Tập dữ liệu
COVID-19 bao gồm nhiều loại thông tin khác nhau, từ số ca nhiễm, số ca tử
vong, số ca hồi phục cho đến các thông số như độ tuổi, giới tính, bệnh lý nền
của bệnh nhân và thậm chí là các yếu tố về địa lý, kinh tế, xã hội. Các dữ liệu
này được sử dụng để lập bản đồ dịch tễ học, dự báo xu hướng và đánh giá hiệu
quả của các biện pháp can thiệp.
2. Mục tiêu đề tài
Xây dựng một giao diện hỗ trợ thao tác trên tập dữ liệu COVID-19, bao
gồm các chức năng cơ bản như thêm, xóa, sửa, sắp xếp (sort) và tìm kiếm
(search), giúp người dùng dễ dàng quản lý và phân tích dữ liệu.
3. Đối tượng và phạm vi nghiên cứu -
Tập dữ liệu liên quan đến đại dịch COVID-19, bao gồm các thông tin
chínhnhư số ca nhiễm, số ca tử vong, số ca hồi phục, số ca đang điều trị, số ca
nhiễm mới, số ca tử vong mới và các thông tin về ngày tháng, quốc gia/vùng lãnh thổ. -
Các đặc trưng dữ liệu phục vụ cho việc phân tích, sắp xếp và tìm kiếm,
đảmbảo khả năng thao tác hiệu quả trên dữ liệu. -
Phạm vi nghiên cứu: Tập dữ liệu COVID-19 sử dụng trong nghiên cứu
baogồm các thông tin từ nhiều quốc gia và vùng lãnh thổ trên thế giới, được
thu thập từ các nguồn uy tín như Tổ chức Y tế Thế giới (WHO), Trung tâm
Kiểm soát và Phòng ngừa Dịch bệnh (CDC), hoặc các cơ sở dữ liệu mở. Phần Mở Đầu lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ Trang 2 PHẦN 2. NỘI DUNG
CHƯƠNG 1: MÔ TẢ TẬP DỮ LIỆU
1.1. Giới thiêu về Kagglẹ
Kaggle là một nền tảng trực tuyến chuyên cung cấp các công cụ và tài
nguyên cho việc học máy, khoa học dữ liệu và phân tích dữ liệu. Được ra mắt
vào năm 2010 và được Google mua lại vào năm 2017, Kaggle là cộng đồng
lớn của các nhà khoa học dữ liệu, kỹ sư AI và những người đam mê về dữ liệu.
Là một nền tảng lớn với nhiều loại dữ liệu khác nhau, Kaggle là kho dữ
liệu phong phú, đa dạng từ nhiều lĩnh vực. Người dùng có thể tải lên, chia sẻ
hoặc tải xuống các bộ dữ liệu một cách miễn phí. Các bộ dữ liệu này có thể
chưa được làm sạch hoàn toàn, giúp người học thực hành các bước làm sạch
và xử lý dữ liệu. Bên cạnh đó, người dung còn có thể sử dụng Kaggle
Notebooks (tương tự Jupyter Notebook) để viết mã Python hoặc R, thực hiện
các thao tác xử lý dữ liệu và học máy trực tiếp trên trình duyệt mà không cần
cài đặt phần mềm, vô cùng tiện ích và dễ dàng. Ngoài ra, Kaggle có một cộng
đồng năng động, nơi người dùng chia sẻ kiến thức, kỹ thuật và hỗ trợ nhau
trong quá trình học và làm việc với dữ liệu giúp kết nối giữa những người đi tìm kiến thức.
Vì Kaggle là một kho dữ liệu vô cùng phong phú và đa dạng, nên đây
chính là nơi lý tưởng để tìm kiếm dữ liệu cho chủ đề hệ thống phân tích và
trực quan dữ liệu COVID-19 của nhóm. Vì dữ liệu trên Kaggle thường chưa
được làm sạch hoàn toàn nên có thể dễ dàng tìm kiếm và tải về bộ dữ liệu chưa
sạch về COVID-19 và bộ dữ liệu này cũng vô cùng cụ thể và lớn, giúp cho
việc khai thác chủ đề đồ án càng thêm rõ ràng và sâu sắc.
1.2. Giới thiêu về COVID-19̣
Trong bối cảnh COVID-19, nhiều tổ chức quốc tế và khu vực đã vào
cuộc, phối hợp thu thập dữ liệu với quy mô chưa từng có. Tổ chức Y tế Thế
giới (WHO) đã trở thành đầu mối chính trong việc cung cấp hướng dẫn và tổng
hợp thông tin từ các quốc gia thành viên. Trung tâm Kiểm soát và Phòng ngừa
Dịch bệnh (CDC) của Hoa Kỳ, Viện Y tế Quốc gia (NIH), cùng nhiều tổ chức lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ Trang 3
nghiên cứu và đại học lớn trên thế giới, cũng triển khai các dự án riêng để theo
dõi tình hình dịch bệnh. Bên cạnh đó, các sáng kiến mở như "Our World in
Data" hay "COVID-19 Data Repository" của Đại học Johns Hopkins đã đóng
vai trò quan trọng trong việc cung cấp dữ liệu công khai cho cộng đồng nghiên cứu và công chúng.
Việc phân tích dữ liệu COVID-19 không chỉ dừng lại ở việc theo dõi tình
hình hiện tại mà còn giúp các nhà khoa học hiểu rõ hơn về cơ chế lây truyền,
thời gian ủ bệnh và những yếu tố ảnh hưởng đến mức độ nghiêm trọng của
bệnh. Từ đó, các mô hình toán học và trí tuệ nhân tạo (AI) được áp dụng để dự
báo sự phát triển của đại dịch, đánh giá kịch bản "nếu-thì" và đưa ra các khuyến
nghị nhằm tối ưu hóa việc phân bổ nguồn lực y tế. Nhờ dữ liệu chính xác và
cập nhật, nhiều quốc gia đã triển khai các chiến dịch xét nghiệm, cách ly và
tiêm chủng hiệu quả, góp phần làm chậm tốc độ lây lan và giảm tỷ lệ tử vong.
Không thể phủ nhận rằng, dữ liệu COVID-19 là một kho tàng thông tin
quý giá, nhưng việc thu thập và xử lý dữ liệu cũng đặt ra những thách thức
không nhỏ. Các quốc gia có tiêu chuẩn và cách thức báo cáo khác nhau, dẫn
đến sự không đồng nhất trong dữ liệu. Thêm vào đó, vấn đề bảo mật và quyền
riêng tư cá nhân cũng cần được cân nhắc kỹ lưỡng, đặc biệt khi dữ liệu liên
quan đến thông tin nhạy cảm của bệnh nhân.
Tuy nhiên, nhìn chung thì việc chia sẻ và sử dụng dữ liệu COVID-19 đã
thúc đẩy sự hợp tác toàn cầu. Đây không chỉ là một ví dụ điển hình về tầm
quan trọng của dữ liệu trong thời kỳ khủng hoảng mà còn là bài học quý giá
về cách con người có thể hợp tác để ứng phó với các thách thức mang tính toàn cầu trong tương lai. 1.3. Lịch sử
Khi đại dịch COVID-19 bùng phát vào cuối năm 2019 tại Vũ Hán, Trung
Quốc, việc thu thập dữ liệu dịch tễ học trở thành một ưu tiên hàng đầu đối với
các nhà khoa học, tổ chức y tế và chính phủ trên toàn cầu. Từ những ngày đầu,
các nỗ lực ghi nhận số ca nhiễm, tử vong và hồi phục đã được triển khai để lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ Trang 4
cung cấp cái nhìn tổng quan về tình hình dịch bệnh, phục vụ cho việc ra quyết
định và kiểm soát sự lây lan.
- Giai đoạn khởi đầu (Cuối năm 2019 – Đầu năm 2020)
Ban đầu, các báo cáo dịch bệnh chỉ giới hạn ở cấp địa phương tại Trung
Quốc, do các tổ chức như Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh
Trung Quốc (China CDC) và chính quyền tỉnh Hồ Bắc cung cấp. Các dữ liệu
này chủ yếu bao gồm số ca nhiễm mới, số ca tử vong, và các thông tin cơ bản
về bệnh nhân. Tuy nhiên, sự lây lan nhanh chóng của virus SARS-CoV2 đã
khiến các tổ chức quốc tế như Tổ chức Y tế Thế giới (WHO) phải vào cuộc.
Vào tháng 1/2020, WHO chính thức công bố tình trạng khẩn cấp y tế công cộng toàn
cầu. Kể từ đó, họ bắt đầu tập hợp dữ liệu từ các quốc gia thành viên thông qua các hệ
thống báo cáo tiêu chuẩn hóa. Tuy nhiên, trong giai đoạn này, dữ liệu còn hạn chế về
số lượng và chất lượng, do thiếu sự thống nhất trong cách thu thập và báo cáo thông
tin giữa các quốc gia.
- Giai đoạn mở rộng dữ liệu (Giữa năm 2020 – Cuối năm 2020)
Khi đại dịch trở thành vấn đề toàn cầu, việc thu thập dữ liệu được mở
rộng với sự tham gia của nhiều tổ chức và nền tảng độc lập. Đại học Johns
Hopkins đã tạo ra COVID-19 Data Repository, một cơ sở dữ liệu công khai
đầu tiên, tập hợp thông tin từ các cơ quan y tế trên toàn thế giới. Dự án này
nhanh chóng trở thành nguồn dữ liệu chính cho nhiều nghiên cứu và báo cáo.
Ngoài ra, các nền tảng như "Our World in Data" và "Worldometer" cũng
bắt đầu tổng hợp và công bố dữ liệu hàng ngày, bao gồm không chỉ số ca nhiễm
mà còn các thông tin chi tiết về xét nghiệm, nhập viện, tiêm chủng và các biện
pháp phòng chống dịch của từng quốc gia.
- Giai đoạn chuyên sâu và phân tích dữ liệu (2021 – 2022)
Khi các chiến dịch tiêm chủng được triển khai trên diện rộng, tập dữ liệu
COVID-19 trở nên phức tạp hơn. Thay vì chỉ tập trung vào số ca nhiễm và tử
vong, dữ liệu bắt đầu bao gồm:
+ Thống kê tiêm chủng (số liều đã tiêm, tỷ lệ tiêm chủng theo quốc gia và khu vực). lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ Trang 5
+ Biến thể virus (dữ liệu giải trình tự gen để theo dõi các biến thể như Alpha, Delta, Omicron).
+ Tỷ lệ nhập viện và điều trị hồi sức tích cực (ICU).
+ Ảnh hưởng xã hội và kinh tế (dữ liệu về tỷ lệ thất nghiệp, gián đoạn giáo
dục và bất bình đẳng trong tiêm chủng).
Sự phát triển của công nghệ đã giúp việc thu thập và xử lý dữ liệu trở nên
hiệu quả hơn. Các quốc gia bắt đầu sử dụng các ứng dụng theo dõi tiếp xúc và
cơ sở dữ liệu điện tử để ghi nhận chi tiết các trường hợp nhiễm bệnh. Đồng
thời, dữ liệu được phân tích bằng các công cụ AI và học máy, hỗ trợ dự báo và
ra quyết định chính sách.
- Giai đoạn sau đại dịch (2023 trở đi)
Khi đại dịch dần được kiểm soát, tập dữ liệu COVID-19 tiếp tục đóng
vai trò quan trọng trong việc đánh giá tác động dài hạn của đại dịch. Dữ liệu
này không chỉ được sử dụng để nghiên cứu các bài học kinh nghiệm mà còn
hỗ trợ chuẩn bị cho các đại dịch trong tương lai.
Tuy nhiên, việc thu thập dữ liệu đã giảm dần về quy mô. Một số quốc
gia không còn báo cáo hàng ngày, chuyển sang cập nhật theo tuần hoặc
tháng. Trong giai đoạn này, dữ liệu COVID-19 được sử dụng để:
+ Theo dõi sự lưu hành của virus trong cộng đồng (endemic phase).
+ Đánh giá hiệu quả lâu dài của vắc-xin và miễn dịch cộng đồng.
+ Phân tích tác động kinh tế và xã hội sau đại dịch.
Tóm lại, lịch sử của tập dữ liệu COVID-19 là minh chứng cho sức mạnh
của dữ liệu trong việc đối phó với các thách thức toàn cầu. Từ những ngày đầu
đầy hỗn loạn đến các nỗ lực phối hợp quốc tế, dữ liệu COVID-19 không chỉ
giúp hiểu rõ hơn về dịch bệnh mà còn đặt nền tảng cho sự hợp tác khoa học và
phát triển các công cụ đối phó trong tương lai. 1.4. Nguồn gốc
Tâp dữ liệ u COVID-19 được tổng hợp và đóng góp bởi Devakumar K.̣̀
P., Abhinand và Tarun Kumar, được tham khảo từ nhiều nơi uy tín như
COVID-19 Data Repository by the Center for Systems Science and lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ Trang 6
Engineering (CSSE) at Johns Hopkins University; WHO; Johns Hopkins
University Applied Physics Lab (JHU APL); ECDC; US CDC; BNO News;
và các nguồn uy tín ở tất cả các nước trên thế giới.
Tâp dữ liệ u được tổng hợp trong giai đoạn 22/01/2020 đến 27/07/2020.̣̀
Đây là giai đoạn khi mà đại dịch bắt đầu bùng nổ ra pham vi toàn cầu, do đó
các tâp dữ liệ u về COVID-19 được ra đời để có thể nghiên cứu và báo cáọ rồi
tìm ra các giải pháp hiêu quả để ngăn chặ n kịp thời dịch bệ nh.̣̀
1.5. Công dụng và ứng dụng của dữ liệu COVID-19
Dữ liệu COVID-19 không chỉ là nền tảng cơ bản để hiểu và ứng phó với
đại dịch mà còn mang lại những ứng dụng quan trọng trong các lĩnh vực như
y tế, khoa học, kinh tế và chính trị. Việc khai thác và phân tích dữ liệu này đã
tạo điều kiện cho các cơ quan y tế, nhà khoa học và chính phủ đưa ra các quyết
định sáng suốt và kịp thời nhằm kiểm soát dịch bệnh hiệu quả.
Một trong những ứng dụng quan trọng nhất của dữ liệu COVID-19 là
theo dõi sự lây lan của virus trên phạm vi địa phương và toàn cầu. Thông qua
việc thu thập và phân tích dữ liệu về số ca nhiễm, tử vong và hồi phục theo
từng khu vực, các cơ quan y tế có thể xác định được các “điểm nóng” của dịch
bệnh. Điều này giúp các chính phủ triển khai các biện pháp kiểm soát như
phong tỏa, hạn chế di chuyển, hoặc tăng cường xét nghiệm tại các khu vực có nguy cơ cao.
Dữ liệu COVID-19 cũng hỗ trợ việc phân bổ nguồn lực y tế một cách
hiệu quả. Trong giai đoạn dịch bệnh bùng nổ, các bệnh viện và trung tâm y tế
phải đối mặt với tình trạng quá tải. Dữ liệu cập nhật về số ca nhập viện, số
giường bệnh khả dụng, và nhu cầu về thiết bị y tế như máy thở hay oxy y tế đã
giúp các nhà quản lý y tế điều phối nguồn lực, giảm áp lực cho các khu vực bị
ảnh hưởng nặng nề nhất.
Dữ liệu COVID-19 cung cấp cơ sở cho các nhà khoa học nghiên cứu sâu
về dịch tễ học, từ việc xác định các yếu tố ảnh hưởng đến sự lây lan của virus
đến đánh giá mức độ nghiêm trọng của bệnh. Nhờ những phân tích chi tiết,
các nhóm dân số có nguy cơ cao như người cao tuổi, người mắc bệnh mãn lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ Trang 7
tính, và những cộng đồng bị hạn chế tiếp cận y tế đã được xác định. Từ đó, các
chính sách phòng chống dịch được thiết kế riêng cho từng nhóm, đảm bảo tính
hiệu quả và công bằng.
Dữ liệu COVID-19 đã trở thành nền tảng cho việc xây dựng các mô hình
dự đoán, giúp dự báo sự phát triển của đại dịch trong tương lai. Những mô
hình này sử dụng các thuật toán phức tạp để phân tích dữ liệu hiện tại, từ đó
dự đoán các yếu tố như:
+ Làn sóng dịch bệnh mới có thể bùng phát ở đâu.
+ Mức độ nghiêm trọng của các đợt bùng phát.
+ Thời gian kéo dài của một chu kỳ dịch bệnh.
Những dự đoán này không chỉ mang lại lợi ích về mặt lý thuyết mà còn
hỗ trợ trực tiếp cho các nhà hoạch định chính sách trong việc chuẩn bị và triển
khai các biện pháp ứng phó. Ví dụ, nếu mô hình dự đoán cho thấy một khu
vực sắp đối mặt với làn sóng dịch mới, chính phủ có thể tăng cường năng lực
xét nghiệm, bổ sung nhân lực y tế, và chuẩn bị sẵn các thiết bị cần thiết để
giảm thiểu tác động.
Dữ liệu COVID-19 cũng đóng vai trò quan trọng trong quá trình nghiên
cứu và phát triển vắc-xin, cũng như các phương pháp điều trị. Thông qua dữ
liệu về đặc điểm di truyền của virus, các nhà khoa học đã có thể nhanh chóng
phát hiện ra các biến thể mới, đánh giá mức độ lây nhiễm và khả năng né tránh miễn dịch của chúng.
Ngoài y tế, dữ liệu COVID-19 còn được sử dụng để đánh giá tác động
sâu rộng của đại dịch đối với xã hội và nền kinh tế. Các nhà kinh tế và xã hội
học đã sử dụng dữ liệu này để nghiên cứu tình trạng thất nghiệp, sự gián đoạn
trong giáo dục, và mức độ bất bình đẳng trong tiêm chủng. Từ đó, họ đưa ra
các khuyến nghị nhằm giảm thiểu thiệt hại và hỗ trợ phục hồi sau đại dịch.
Cuối cùng, dữ liệu COVID-19 đã thúc đẩy sự hợp tác quốc tế ở mức độ
chưa từng có. Các tổ chức như WHO, Đại học Johns Hopkins, và các chính
phủ trên toàn thế giới đã chia sẻ dữ liệu một cách minh bạch và thường xuyên. lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ Trang 8
Điều này không chỉ giúp cải thiện khả năng ứng phó của từng quốc gia mà còn
tạo ra một tiền lệ tốt cho việc đối phó với các đại dịch trong tương lai.
1.6. Đặc trưng và cấu trúc của dữ liệu COVID-19: Thông tin Mô tả Tên tập dữ liệu full_grouped.csv Kích thước
10 cột và hơn 35000 dòng Loại dữ liệu
Số nguyên, thời gian, chuỗi ký tự
Hình 1. Tập dữ liệu full_grouped.csv lưu trữ thông tin của các ca COVID-19
trên toàn thế giới
Bảng 1. Bảng mô tả tập dữ liệu full_grouped.csv
Bên cạnh đó nhóm em cũng thực hiên công việ c làm sạch và chuẩn hóạ
dữ liêu trên tậ p dữ liệ u data_dirty.csṿ Thông tin Mô tả Tên tập dữ liệu data_dirty.csv Kích thước
10 cột và hơn 35000 dòng lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ Trang 9 Loại dữ liệu
Số nguyên, thời gian, chuỗi ký tự
Hình 2. Tập dữ liệu data_dirty.csv lưu trữ thông tin của các ca COVID-19 trên toàn thế giới
Bảng 2. Bảng mô tả tập dữ liệu data_dirty.csv
Dữ liệu COVID-19 gồm các đăc trưng quan trọng vào thời điểm dịcḥ
bênh bùng phát. Các đặc trưng của dữ liệu bao gồm:̣̀ 1.
Date: Ngày ghi nhận dữ liệu, thể hiện thời điểm để theo dõi diễn biến của
dịchbệnh. Đặc trưng này thường được lưu trữ ở định dạng `datetime` hoặc `string`,
cho phép phân tích dữ liệu theo dòng thời gian. 2.
Country/Region: Quốc gia hoặc vùng lãnh thổ nơi dữ liệu được thu thập. Đây
làđặc trưng kiểu `string`, cho phép phân tích dữ liệu theo vị trí địa lý và so sánh giữa
các quốc gia và vùng lãnh thổ. 3.
Confirmed: Những ca nhiễm covid 19 đã được xác nhân, kiểu dữ liệ u
`integer`.̣̀ Số ca nhiễm bênh confirmed này giúp chúng ta đánh giá quy mô lây lan của
dịcḥ bệnh và xác định mức độ ảnh hưởng tại từng khu vực 4.
Deaths: Những ca nhiễm đã tử vong, kiểu dữ liêu `integer`, dữ liệ u này cho tạ
biết mức đô nghiêm trọng của dịch bệ nh ở khu vực đó nghiêm trọng ra sao.̣̀ 5.
Recovered: Số ca nhiễm đã hồi phục, kiểu dữ liêu `integer`, dữ liệ u Recovereḍ
đánh giá năng lực y tế của từng khu vực, quốc gia lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ Trang 10 6.
Active: Số ca dương tính với covid 19 đang được điều trị, kiểu dữ liêu
`integer`,̣̀ dữ liêu này giúp theo dõi tải trọng của hệ thống y tế và quản lý tài nguyên
y tế, đánḥ giá được số lượng đang mắc bênh ở các khu vực.̣̀ 7.
New Cases: Số ca nhiễm mới ghi nhận trong ngày, kiểu dữ liệu `integer`. Đây
làchỉ số quan trọng giúp đánh giá tốc độ lây lan của virus vào thời điểm đó, điều đó
giúp chúng ta xác định các đợt bùng phát dịch mới. 8.
New Deaths: Số ca tử vong mới ghi nhận trong ngày, kiểu dữ liệu `integer`.
Chỉsố này thể hiện mức độ nghiêm trọng của dịch bệnh và giúp đánh giá hiệu quả của
các biện pháp phòng chống dịch bệnh tại từng thời điểm. 9.
New recovered: Số ca hồi phục mới được ghi nhận trong ngày, kiểu dữ
liệu`integer`, giúp đánh giá được hiệu quả điều trị trong ngắn hạn và xu hướng phục hồi của cộng đồng 10.
WHO Region: Khu vực quản lý của Tổ chức Y tế Thế giới (WHO), kiểu dữ
liêụ `string`, Giúp đánh giá chiến lược ứng phó của từng khu vực, và so sánh hiệu
quả kiểm soát dịch bệnh giữa các khu vực.
1.7. Hạn chế và khiếm khuyết của dữ liệu COVID-19:
Dữ liệu có thể có nhầm lẫn do các quốc gia có quy trình thu thập và báo cáo khác nhau.
Việc chuẩn hóa dữ liệu cũng gặp nhiều khó khăn. Các quốc gia áp dụng
các phương pháp xét nghiệm khác nhau, dẫn đến sự khác biệt trong việc ghi
nhận ca nhiễm và tử vong.
Thiếu dữ liệu và gián đoạn báo cáo cũng là một vấn đề lớn. Một số quốc
gia có thể không báo cáo dữ liệu đầy đủ hoặc chỉ báo cáo dữ liệu theo từng
đợt, dẫn đến sự gián đoạn trong quá trình phân tích. Đặc biệt, ở các nước đang
phát triển, việc xét nghiệm và ghi nhận dữ liệu có thể không được thực hiện
đều đặn, làm giảm độ chính xác và toàn diện của dữ liệu.
Sự khác biệt về múi giờ và thời điểm báo cáo cũng gây ra những bất cập
trong việc tổng hợp và phân tích dữ liệu theo thời gian thực. Điều này đặc biệt
quan trọng khi các quốc gia đưa ra các quyết định dựa trên dữ liệu hàng ngày,
nhưng thông tin không đồng nhất có thể làm chậm quá trình này.