


















Preview text:
  lOMoAR cPSD| 58728417
BỘ GIÁO DỤC VÀ ĐÀO TẠO 
 TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM 
 KHOA CÔNG NGHỆ THÔNG TIN    ĐỒ ÁN CUỐI KỲ 
MÔN HỌC: LẬP TRÌNH PYTHON 
HỆ THỐNG PHÂN TÍCH VÀ TRỰC QUAN DỮ  LIỆU COVID-19 
Mã lớp học phần: IPPA233277_04 
Học kỳ 1 – Năm học 2024-2025 
Giảng viên hướng dẫn: ThS. Trần Quang Khải 
Danh sách sinh viên thực hiện:  MSSV  Họ tên  23110231  Xín Lợi Huy  23110340  Nguyễn Thành Tin  23110186  Tôn Hoàng Cầm  23110352  Võ Chí Trung  23110192  Phan Đình Duẩn 
Thành phố Hồ Chí Minh, tháng 11 năm 2024            lOMoAR cPSD| 58728417
Nhận xét của giảng viên 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
......................................................................................................................................... 
TP. Hồ Chí Minh, ngày … tháng… năm 2024  Giảng viên ký tên      lOMoAR cPSD| 58728417 MỤC LỤC 
PHẦN 1: MỞ ĐẦU......................................................................................................1  1. 
Lý do chọn đề tài.......................................................................................1  2. 
Mục tiêu đề tài...........................................................................................1  3. 
Đối tượng và phạm vi nghiên cứu............................................................1 
PHẦN 2. NỘI DUNG...................................................................................................2 
CHƯƠNG 1: MÔ TẢ TẬP DỮ LIỆU................................................................2 
1.1. Giới thiêu về Kaggle..............................................................................2̣ 
1.2. Giới thiêu về COVID-19.......................................................................2̣ 
1.3. Lịch sử....................................................................................................3 
1.4. Nguồn gốc..............................................................................................5 
1.5. Công dụng và ứng dụng của dữ liệu COVID-19.................................6 
1.6. Đặc trưng và cấu trúc của dữ liệu COVID-19:...................................7 
1.7. Hạn chế và khiếm khuyết của dữ liệu COVID-19:...........................10   
CHƯƠNG 2: CHUẨN HÓA VÀ XỬ LÝ DỮ LIÊU TRÊN TẬ P DỮ LIỆU ̣ 
COVID 19...........................................................................................................11 
2.1. Create, Read, Update, Delete.............................................................11 
2.2. Chuẩn hóa, làm sạch...........................................................................15 
2.3. Tìm kiếm, Sắp xếp, Lọc......................................................................18 
CHƯƠNG 3: THỐNG KÊ VÀ BIỂU ĐỒ VỀ COVID 19...............................29 
3.1. Thống kê..............................................................................................29 
3.1.1. Giới thiệu..................................................................................29 
3.1.2. Phương pháp.............................................................................29 
3.1.3. Quy trình thực hiện...................................................................29 
3.1.4. Kết quả......................................................................................31 
3.2. Vẽ biểu đồ............................................................................................32 
CHƯƠNG 4: GIAO DIÊN................................................................................37̣ 
4.1. Tổ chức Modules – Packages:............................................................37 
4.2. Giao diện website.................................................................................38 
4.2.1. Trang chủ..................................................................................38 
4.2.2. Trang làm sạch dữ liệu.............................................................40      lOMoAR cPSD| 58728417
4.2.3. Trang thêm dữ liệu...................................................................41 
4.2.4. Trang web sửa dữ liệu..............................................................42 
4.2.5. Trang web xóa dữ liệu..............................................................43 
4.2.6. Trang thống kê........................................................................44 
4.2.7. Trang sắp xếp dữ liệu..............................................................45 
4.2.8. Trang lọc dữ liệu......................................................................45 
4.2.9. Trang vẽ biểu đồ.......................................................................46  PHẦN KẾT LUẬN 
PHẦN TÀI LIỆU THAM KHẢO        lOMoAR cPSD| 58728417 DANH MỤC HÌNH ẢNH 
Hình 1. Tập dữ liệu full_grouped.csv lưu trữ thông tin của các ca COVID-19 trên toàn 
thế giới..........................................................................................................................8 
Hình 2. Tập dữ liệu data_dirty.csv lưu trữ thông tin của các ca COVID-19 trên toàn  
thế giới..........................................................................................................................9 
Hình 3. Hàm creat.......................................................................................................11 
Hình 4. Hàm read........................................................................................................12 
Hình 5. Hàm update....................................................................................................13 
Hình 6. Hàm delete......................................................................................................14 
Hình 7. Hàm delete_empty..........................................................................................15 
Hình 8. Hàm format_number.......................................................................................16 
Hình 9. Hàm cleanData có chức năng làm sạch dữ liêu.............................................17̣ 
Hình 10. Hàm sorted_dt..............................................................................................19 
Hình 11. Hàm filter_dataFrame..................................................................................20 
Hình 12. sort_route.....................................................................................................23 
Hình 13. filter_route....................................................................................................26 
Hình 14. Biểu đồ đường thể hiện xu hướng từ tháng 1 đến tháng 7 năm 2020 của các 
trường hợp COVID-19 bao gồm số ca nhiễm mới, số ca tử vong mới, số ca hồi phục  
mới...............................................................................................................................32 
Hình 15. Biểu đồ tròn thể hiện tỉ lệ phân bố các ca nhiễm COVID-19 theo từng khu  
vực của Tổ chức y tế thế giới WHO.............................................................................33 
Hình 16. Biểu đồ cột về sự gia tăng và độ chênh lệch số ca nhiễm qua hàng tháng....34 
Hình 17. Biểu đồ mât độ thể hiệ 
n sự thay đổi về số lượng ca nhiễm, tử vong 
và hồi ̣ phục do COVID-19 theo thời gian tại các khu vực khác nhau trên thế giới do  Tổ chức  
Y tế Thế giới (WHO) quản lý.......................................................................................35 
Hình 18. Modules - Packages......................................................................................37 
Hình 19. Trang chủ.....................................................................................................38 
Hình 20. Thanh menu..................................................................................................39 
Hình 21. Trang làm sạch dữ liệu.................................................................................40 
Hình 22. Trang web Thêm dữ liêu mới........................................................................41̣ 
Hình 23. Trang web Update dữ liêu_1........................................................................42̣      lOMoAR cPSD| 58728417
Hình 24. Trang web Update dữ liêu_2........................................................................42̣ 
Hình 25. Trang web xóa dữ liêu..................................................................................43̣ 
Hình 26. Trang web thống kê dữ liêu..........................................................................44̣ 
Hình 27. Trang web Sắp xếp dữ liêu...........................................................................45̣ 
Hình 28. Trang web đọc dữ liêu..................................................................................45̣ 
Hình 29. Trang vẽ biểu đồ...........................................................................................46        lOMoAR cPSD| 58728417 DANH MỤC BẢNG 
Bảng 1. Bảng mô tả tập dữ liệu full_grouped.csv ........................................................... 8 
Bảng 2. Bảng mô tả tập dữ liệu data_dirty.csv ............................................................... 9            lOMoAR cPSD| 58728417
BẢNG DANH MỤC CÁC TỪ VIẾT TẮT 
Ký hiệu chữ viết tắt 
Cách viết đầy đủ  AI  Artifical Intelligence  WHO  The World Health Organization  CSV  Comma-separated values          lOMoAR cPSD| 58728417
KẾ HOẠCH PHÂN CÔNG NHIỆM VỤ THỰC HIỆN ĐỀ TÀI 
CUỐI KỲ MÔN LẬP TRÌNH PYTHON 
HỌC KỲ I NĂM HỌC 2024-2025 
1. Mã lớp môn học: IPPA233277_04 
2. Giảng viên hướng dẫn: ThS. Trần Quang Khải 
3. Tên đề tài: HỆ THỐNG PHÂN TÍCH VÀ TRỰC QUAN DỮ LIỆU COVID-19 
4. Bảng phân công nhiệm vụ: 
Sinh viên thực hiện 
Nội dung thực hiện  Xín Lợi Huy 
Thu thâp dữ liệụ  Delete, Update  Nguyễn Thành Tin 
Thiết kế giao diện 
Làm sạch dữ liêụ  Tôn Hoàng Cầm  Lọc dữ liêụ 
Sắp xếp dữ liêụ  Võ Chí Trung  Create, Read  Vẽ biểu đồ  Phan Đình Duẩn 
Thống kê dữ liêụ 
Thiết kế giao diêṇ  LỜI CẢM ƠN  
Chúng em cảm ơn thầy Trần Quang Khải vì trong khoảng thời gian vừa qua đã 
giúp nhóm em thực hiên được đề tài này. Thầy đã hướng dẫn và giải đáp thắc mắc ma ̣̀      lOMoAR cPSD| 58728417
chúng em găp phải cũng như đưa ra những gợi ý để chúng em hoàn thiệ  n bài đồ  án.̣̀ 
Nhóm em trong quá trình làm vẫn còn nhiều khó khăn, bất câp nên có thể bài báọ 
cáo và bài đồ án cuối kì vẫn chưa đạt kỳ vọng của thầy. Nhóm chúng em rất mong thầy 
có thể giúp bọn em tìm ra những khuyết điểm, thiếu sót về bài đồ án cũng như bài báo 
cáo này để bọn em có thể cải thiên và rút kinh nghiệ m cho những bài báo cáo sau.̣̀ 
Nhóm chúng em xin chân thành cảm ơn thầy vì đã đồng hành cùng bọn em trong 
chăng đường vừa qua.̣̀      lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ  Trang 1  PHẦN 1: MỞ ĐẦU 
1. Lý do chọn đề tài 
Nhóm em chọn đề tài này vì: sự nguy hiểm và khả năng lây lan nhanh 
chóng của COVID-19, việc thu thập, quản lý và phân tích dữ liệu về dịch bệnh 
đã trở thành một nhiệm vụ cốt lõi. Những thông tin này không chỉ giúp theo 
dõi sự lây lan của dịch bệnh mà còn hỗ trợ việc đưa ra các quyết định chiến 
lược nhằm giảm thiểu thiệt hại và bảo vệ sức khỏe cộng đồng. Tập dữ liệu 
COVID-19 bao gồm nhiều loại thông tin khác nhau, từ số ca nhiễm, số ca tử 
vong, số ca hồi phục cho đến các thông số như độ tuổi, giới tính, bệnh lý nền 
của bệnh nhân và thậm chí là các yếu tố về địa lý, kinh tế, xã hội. Các dữ liệu 
này được sử dụng để lập bản đồ dịch tễ học, dự báo xu hướng và đánh giá hiệu 
quả của các biện pháp can thiệp. 
2. Mục tiêu đề tài  
Xây dựng một giao diện hỗ trợ thao tác trên tập dữ liệu COVID-19, bao 
gồm các chức năng cơ bản như thêm, xóa, sửa, sắp xếp (sort) và tìm kiếm 
(search), giúp người dùng dễ dàng quản lý và phân tích dữ liệu. 
3. Đối tượng và phạm vi nghiên cứu  - 
Tập dữ liệu liên quan đến đại dịch COVID-19, bao gồm các thông tin 
chínhnhư số ca nhiễm, số ca tử vong, số ca hồi phục, số ca đang điều trị, số ca 
nhiễm mới, số ca tử vong mới và các thông tin về ngày tháng, quốc gia/vùng  lãnh thổ.  - 
Các đặc trưng dữ liệu phục vụ cho việc phân tích, sắp xếp và tìm kiếm, 
đảmbảo khả năng thao tác hiệu quả trên dữ liệu.  - 
Phạm vi nghiên cứu: Tập dữ liệu COVID-19 sử dụng trong nghiên cứu 
baogồm các thông tin từ nhiều quốc gia và vùng lãnh thổ trên thế giới, được 
thu thập từ các nguồn uy tín như Tổ chức Y tế Thế giới (WHO), Trung tâm 
Kiểm soát và Phòng ngừa Dịch bệnh (CDC), hoặc các cơ sở dữ liệu mở.  Phần Mở Đầu      lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ  Trang 2  PHẦN 2. NỘI DUNG 
CHƯƠNG 1: MÔ TẢ TẬP DỮ LIỆU 
1.1. Giới thiêu về Kagglẹ 
Kaggle là một nền tảng trực tuyến chuyên cung cấp các công cụ và tài 
nguyên cho việc học máy, khoa học dữ liệu và phân tích dữ liệu. Được ra mắt 
vào năm 2010 và được Google mua lại vào năm 2017, Kaggle là cộng đồng 
lớn của các nhà khoa học dữ liệu, kỹ sư AI và những người đam mê về dữ liệu. 
Là một nền tảng lớn với nhiều loại dữ liệu khác nhau, Kaggle là kho dữ 
liệu phong phú, đa dạng từ nhiều lĩnh vực. Người dùng có thể tải lên, chia sẻ 
hoặc tải xuống các bộ dữ liệu một cách miễn phí. Các bộ dữ liệu này có thể 
chưa được làm sạch hoàn toàn, giúp người học thực hành các bước làm sạch 
và xử lý dữ liệu. Bên cạnh đó, người dung còn có thể sử dụng Kaggle 
Notebooks (tương tự Jupyter Notebook) để viết mã Python hoặc R, thực hiện 
các thao tác xử lý dữ liệu và học máy trực tiếp trên trình duyệt mà không cần 
cài đặt phần mềm, vô cùng tiện ích và dễ dàng. Ngoài ra, Kaggle có một cộng 
đồng năng động, nơi người dùng chia sẻ kiến thức, kỹ thuật và hỗ trợ nhau 
trong quá trình học và làm việc với dữ liệu giúp kết nối giữa những người đi  tìm kiến thức. 
Vì Kaggle là một kho dữ liệu vô cùng phong phú và đa dạng, nên đây 
chính là nơi lý tưởng để tìm kiếm dữ liệu cho chủ đề hệ thống phân tích và 
trực quan dữ liệu COVID-19 của nhóm. Vì dữ liệu trên Kaggle thường chưa 
được làm sạch hoàn toàn nên có thể dễ dàng tìm kiếm và tải về bộ dữ liệu chưa 
sạch về COVID-19 và bộ dữ liệu này cũng vô cùng cụ thể và lớn, giúp cho 
việc khai thác chủ đề đồ án càng thêm rõ ràng và sâu sắc. 
1.2. Giới thiêu về COVID-19̣ 
Trong bối cảnh COVID-19, nhiều tổ chức quốc tế và khu vực đã vào 
cuộc, phối hợp thu thập dữ liệu với quy mô chưa từng có. Tổ chức Y tế Thế 
giới (WHO) đã trở thành đầu mối chính trong việc cung cấp hướng dẫn và tổng 
hợp thông tin từ các quốc gia thành viên. Trung tâm Kiểm soát và Phòng ngừa 
Dịch bệnh (CDC) của Hoa Kỳ, Viện Y tế Quốc gia (NIH), cùng nhiều tổ chức      lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ  Trang 3 
nghiên cứu và đại học lớn trên thế giới, cũng triển khai các dự án riêng để theo 
dõi tình hình dịch bệnh. Bên cạnh đó, các sáng kiến mở như "Our World in 
Data" hay "COVID-19 Data Repository" của Đại học Johns Hopkins đã đóng 
vai trò quan trọng trong việc cung cấp dữ liệu công khai cho cộng đồng nghiên  cứu và công chúng. 
Việc phân tích dữ liệu COVID-19 không chỉ dừng lại ở việc theo dõi tình 
hình hiện tại mà còn giúp các nhà khoa học hiểu rõ hơn về cơ chế lây truyền, 
thời gian ủ bệnh và những yếu tố ảnh hưởng đến mức độ nghiêm trọng của 
bệnh. Từ đó, các mô hình toán học và trí tuệ nhân tạo (AI) được áp dụng để dự 
báo sự phát triển của đại dịch, đánh giá kịch bản "nếu-thì" và đưa ra các khuyến 
nghị nhằm tối ưu hóa việc phân bổ nguồn lực y tế. Nhờ dữ liệu chính xác và 
cập nhật, nhiều quốc gia đã triển khai các chiến dịch xét nghiệm, cách ly và 
tiêm chủng hiệu quả, góp phần làm chậm tốc độ lây lan và giảm tỷ lệ tử vong. 
Không thể phủ nhận rằng, dữ liệu COVID-19 là một kho tàng thông tin 
quý giá, nhưng việc thu thập và xử lý dữ liệu cũng đặt ra những thách thức 
không nhỏ. Các quốc gia có tiêu chuẩn và cách thức báo cáo khác nhau, dẫn 
đến sự không đồng nhất trong dữ liệu. Thêm vào đó, vấn đề bảo mật và quyền 
riêng tư cá nhân cũng cần được cân nhắc kỹ lưỡng, đặc biệt khi dữ liệu liên 
quan đến thông tin nhạy cảm của bệnh nhân. 
Tuy nhiên, nhìn chung thì việc chia sẻ và sử dụng dữ liệu COVID-19 đã 
thúc đẩy sự hợp tác toàn cầu. Đây không chỉ là một ví dụ điển hình về tầm 
quan trọng của dữ liệu trong thời kỳ khủng hoảng mà còn là bài học quý giá 
về cách con người có thể hợp tác để ứng phó với các thách thức mang tính toàn  cầu trong tương lai.  1.3. Lịch sử 
Khi đại dịch COVID-19 bùng phát vào cuối năm 2019 tại Vũ Hán, Trung 
Quốc, việc thu thập dữ liệu dịch tễ học trở thành một ưu tiên hàng đầu đối với 
các nhà khoa học, tổ chức y tế và chính phủ trên toàn cầu. Từ những ngày đầu, 
các nỗ lực ghi nhận số ca nhiễm, tử vong và hồi phục đã được triển khai để      lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ  Trang 4 
cung cấp cái nhìn tổng quan về tình hình dịch bệnh, phục vụ cho việc ra quyết 
định và kiểm soát sự lây lan. 
- Giai đoạn khởi đầu (Cuối năm 2019 – Đầu năm 2020) 
Ban đầu, các báo cáo dịch bệnh chỉ giới hạn ở cấp địa phương tại Trung 
Quốc, do các tổ chức như Trung tâm Kiểm soát và Phòng ngừa Dịch bệnh 
Trung Quốc (China CDC) và chính quyền tỉnh Hồ Bắc cung cấp. Các dữ liệu 
này chủ yếu bao gồm số ca nhiễm mới, số ca tử vong, và các thông tin cơ bản 
về bệnh nhân. Tuy nhiên, sự lây lan nhanh chóng của virus SARS-CoV2 đã 
khiến các tổ chức quốc tế như Tổ chức Y tế Thế giới (WHO) phải vào cuộc. 
Vào tháng 1/2020, WHO chính thức công bố tình trạng khẩn cấp y tế công cộng toàn 
cầu. Kể từ đó, họ bắt đầu tập hợp dữ liệu từ các quốc gia thành viên thông qua các hệ 
thống báo cáo tiêu chuẩn hóa. Tuy nhiên, trong giai đoạn này, dữ liệu còn hạn chế về 
số lượng và chất lượng, do thiếu sự thống nhất trong cách thu thập và báo cáo thông 
tin giữa các quốc gia. 
- Giai đoạn mở rộng dữ liệu (Giữa năm 2020 – Cuối năm 2020) 
Khi đại dịch trở thành vấn đề toàn cầu, việc thu thập dữ liệu được mở 
rộng với sự tham gia của nhiều tổ chức và nền tảng độc lập. Đại học Johns 
Hopkins đã tạo ra COVID-19 Data Repository, một cơ sở dữ liệu công khai 
đầu tiên, tập hợp thông tin từ các cơ quan y tế trên toàn thế giới. Dự án này 
nhanh chóng trở thành nguồn dữ liệu chính cho nhiều nghiên cứu và báo cáo. 
Ngoài ra, các nền tảng như "Our World in Data" và "Worldometer" cũng 
bắt đầu tổng hợp và công bố dữ liệu hàng ngày, bao gồm không chỉ số ca nhiễm 
mà còn các thông tin chi tiết về xét nghiệm, nhập viện, tiêm chủng và các biện 
pháp phòng chống dịch của từng quốc gia. 
- Giai đoạn chuyên sâu và phân tích dữ liệu (2021 – 2022) 
Khi các chiến dịch tiêm chủng được triển khai trên diện rộng, tập dữ liệu 
COVID-19 trở nên phức tạp hơn. Thay vì chỉ tập trung vào số ca nhiễm và tử 
vong, dữ liệu bắt đầu bao gồm: 
+ Thống kê tiêm chủng (số liều đã tiêm, tỷ lệ tiêm chủng theo quốc gia và  khu vực).      lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ  Trang 5 
+ Biến thể virus (dữ liệu giải trình tự gen để theo dõi các biến thể như  Alpha, Delta, Omicron). 
+ Tỷ lệ nhập viện và điều trị hồi sức tích cực (ICU). 
+ Ảnh hưởng xã hội và kinh tế (dữ liệu về tỷ lệ thất nghiệp, gián đoạn giáo 
dục và bất bình đẳng trong tiêm chủng). 
Sự phát triển của công nghệ đã giúp việc thu thập và xử lý dữ liệu trở nên 
hiệu quả hơn. Các quốc gia bắt đầu sử dụng các ứng dụng theo dõi tiếp xúc và 
cơ sở dữ liệu điện tử để ghi nhận chi tiết các trường hợp nhiễm bệnh. Đồng 
thời, dữ liệu được phân tích bằng các công cụ AI và học máy, hỗ trợ dự báo và 
ra quyết định chính sách. 
- Giai đoạn sau đại dịch (2023 trở đi) 
Khi đại dịch dần được kiểm soát, tập dữ liệu COVID-19 tiếp tục đóng 
vai trò quan trọng trong việc đánh giá tác động dài hạn của đại dịch. Dữ liệu 
này không chỉ được sử dụng để nghiên cứu các bài học kinh nghiệm mà còn 
hỗ trợ chuẩn bị cho các đại dịch trong tương lai. 
Tuy nhiên, việc thu thập dữ liệu đã giảm dần về quy mô. Một số quốc 
gia không còn báo cáo hàng ngày, chuyển sang cập nhật theo tuần hoặc 
tháng. Trong giai đoạn này, dữ liệu COVID-19 được sử dụng để: 
+ Theo dõi sự lưu hành của virus trong cộng đồng (endemic phase). 
+ Đánh giá hiệu quả lâu dài của vắc-xin và miễn dịch cộng đồng. 
+ Phân tích tác động kinh tế và xã hội sau đại dịch. 
Tóm lại, lịch sử của tập dữ liệu COVID-19 là minh chứng cho sức mạnh 
của dữ liệu trong việc đối phó với các thách thức toàn cầu. Từ những ngày đầu 
đầy hỗn loạn đến các nỗ lực phối hợp quốc tế, dữ liệu COVID-19 không chỉ 
giúp hiểu rõ hơn về dịch bệnh mà còn đặt nền tảng cho sự hợp tác khoa học và 
phát triển các công cụ đối phó trong tương lai.  1.4. Nguồn gốc 
Tâp dữ liệ u COVID-19 được tổng hợp và đóng góp bởi Devakumar K.̣̀ 
P., Abhinand và Tarun Kumar, được tham khảo từ nhiều nơi uy tín như 
COVID-19 Data Repository by the Center for Systems Science and      lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ  Trang 6 
Engineering (CSSE) at Johns Hopkins University; WHO; Johns Hopkins 
University Applied Physics Lab (JHU APL); ECDC; US CDC; BNO News; 
và các nguồn uy tín ở tất cả các nước trên thế giới. 
Tâp dữ liệ u được tổng hợp trong giai đoạn 22/01/2020 đến 27/07/2020.̣̀ 
Đây là giai đoạn khi mà đại dịch bắt đầu bùng nổ ra pham vi toàn cầu, do đó 
các tâp dữ liệ u về COVID-19 được ra đời để có thể nghiên cứu và báo cáọ rồi 
tìm ra các giải pháp hiêu quả để ngăn chặ n kịp thời dịch bệ nh.̣̀ 
1.5. Công dụng và ứng dụng của dữ liệu COVID-19 
Dữ liệu COVID-19 không chỉ là nền tảng cơ bản để hiểu và ứng phó với 
đại dịch mà còn mang lại những ứng dụng quan trọng trong các lĩnh vực như 
y tế, khoa học, kinh tế và chính trị. Việc khai thác và phân tích dữ liệu này đã 
tạo điều kiện cho các cơ quan y tế, nhà khoa học và chính phủ đưa ra các quyết 
định sáng suốt và kịp thời nhằm kiểm soát dịch bệnh hiệu quả. 
Một trong những ứng dụng quan trọng nhất của dữ liệu COVID-19 là 
theo dõi sự lây lan của virus trên phạm vi địa phương và toàn cầu. Thông qua 
việc thu thập và phân tích dữ liệu về số ca nhiễm, tử vong và hồi phục theo 
từng khu vực, các cơ quan y tế có thể xác định được các “điểm nóng” của dịch 
bệnh. Điều này giúp các chính phủ triển khai các biện pháp kiểm soát như 
phong tỏa, hạn chế di chuyển, hoặc tăng cường xét nghiệm tại các khu vực có  nguy cơ cao. 
Dữ liệu COVID-19 cũng hỗ trợ việc phân bổ nguồn lực y tế một cách 
hiệu quả. Trong giai đoạn dịch bệnh bùng nổ, các bệnh viện và trung tâm y tế 
phải đối mặt với tình trạng quá tải. Dữ liệu cập nhật về số ca nhập viện, số 
giường bệnh khả dụng, và nhu cầu về thiết bị y tế như máy thở hay oxy y tế đã 
giúp các nhà quản lý y tế điều phối nguồn lực, giảm áp lực cho các khu vực bị 
ảnh hưởng nặng nề nhất. 
Dữ liệu COVID-19 cung cấp cơ sở cho các nhà khoa học nghiên cứu sâu 
về dịch tễ học, từ việc xác định các yếu tố ảnh hưởng đến sự lây lan của virus 
đến đánh giá mức độ nghiêm trọng của bệnh. Nhờ những phân tích chi tiết, 
các nhóm dân số có nguy cơ cao như người cao tuổi, người mắc bệnh mãn      lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ  Trang 7 
tính, và những cộng đồng bị hạn chế tiếp cận y tế đã được xác định. Từ đó, các 
chính sách phòng chống dịch được thiết kế riêng cho từng nhóm, đảm bảo tính 
hiệu quả và công bằng. 
Dữ liệu COVID-19 đã trở thành nền tảng cho việc xây dựng các mô hình 
dự đoán, giúp dự báo sự phát triển của đại dịch trong tương lai. Những mô 
hình này sử dụng các thuật toán phức tạp để phân tích dữ liệu hiện tại, từ đó 
dự đoán các yếu tố như: 
+ Làn sóng dịch bệnh mới có thể bùng phát ở đâu. 
+ Mức độ nghiêm trọng của các đợt bùng phát. 
+ Thời gian kéo dài của một chu kỳ dịch bệnh. 
Những dự đoán này không chỉ mang lại lợi ích về mặt lý thuyết mà còn 
hỗ trợ trực tiếp cho các nhà hoạch định chính sách trong việc chuẩn bị và triển 
khai các biện pháp ứng phó. Ví dụ, nếu mô hình dự đoán cho thấy một khu 
vực sắp đối mặt với làn sóng dịch mới, chính phủ có thể tăng cường năng lực 
xét nghiệm, bổ sung nhân lực y tế, và chuẩn bị sẵn các thiết bị cần thiết để 
giảm thiểu tác động. 
Dữ liệu COVID-19 cũng đóng vai trò quan trọng trong quá trình nghiên 
cứu và phát triển vắc-xin, cũng như các phương pháp điều trị. Thông qua dữ 
liệu về đặc điểm di truyền của virus, các nhà khoa học đã có thể nhanh chóng 
phát hiện ra các biến thể mới, đánh giá mức độ lây nhiễm và khả năng né tránh  miễn dịch của chúng. 
Ngoài y tế, dữ liệu COVID-19 còn được sử dụng để đánh giá tác động 
sâu rộng của đại dịch đối với xã hội và nền kinh tế. Các nhà kinh tế và xã hội 
học đã sử dụng dữ liệu này để nghiên cứu tình trạng thất nghiệp, sự gián đoạn 
trong giáo dục, và mức độ bất bình đẳng trong tiêm chủng. Từ đó, họ đưa ra 
các khuyến nghị nhằm giảm thiểu thiệt hại và hỗ trợ phục hồi sau đại dịch. 
Cuối cùng, dữ liệu COVID-19 đã thúc đẩy sự hợp tác quốc tế ở mức độ 
chưa từng có. Các tổ chức như WHO, Đại học Johns Hopkins, và các chính 
phủ trên toàn thế giới đã chia sẻ dữ liệu một cách minh bạch và thường xuyên.      lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ  Trang 8 
Điều này không chỉ giúp cải thiện khả năng ứng phó của từng quốc gia mà còn 
tạo ra một tiền lệ tốt cho việc đối phó với các đại dịch trong tương lai. 
1.6. Đặc trưng và cấu trúc của dữ liệu COVID-19:  Thông tin  Mô tả  Tên tập dữ liệu  full_grouped.csv  Kích thước 
10 cột và hơn 35000 dòng  Loại dữ liệu 
Số nguyên, thời gian, chuỗi ký tự   
Hình 1. Tập dữ liệu full_grouped.csv lưu trữ thông tin của các ca COVID-19  
trên toàn thế giới 
Bảng 1. Bảng mô tả tập dữ liệu full_grouped.csv 
Bên cạnh đó nhóm em cũng thực hiên công việ c làm sạch và chuẩn hóạ 
dữ liêu trên tậ p dữ liệ u data_dirty.csṿ  Thông tin  Mô tả  Tên tập dữ liệu  data_dirty.csv  Kích thước 
10 cột và hơn 35000 dòng      lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ  Trang 9  Loại dữ liệu 
Số nguyên, thời gian, chuỗi ký tự   
Hình 2. Tập dữ liệu data_dirty.csv lưu trữ thông tin của các ca COVID-19 trên  toàn thế giới 
Bảng 2. Bảng mô tả tập dữ liệu data_dirty.csv 
Dữ liệu COVID-19 gồm các đăc trưng quan trọng vào thời điểm dịcḥ 
bênh bùng phát. Các đặc trưng của dữ liệu bao gồm:̣̀  1. 
Date: Ngày ghi nhận dữ liệu, thể hiện thời điểm để theo dõi diễn biến của 
dịchbệnh. Đặc trưng này thường được lưu trữ ở định dạng `datetime` hoặc `string`, 
cho phép phân tích dữ liệu theo dòng thời gian.  2. 
Country/Region: Quốc gia hoặc vùng lãnh thổ nơi dữ liệu được thu thập. Đây 
làđặc trưng kiểu `string`, cho phép phân tích dữ liệu theo vị trí địa lý và so sánh giữa 
các quốc gia và vùng lãnh thổ.  3. 
Confirmed: Những ca nhiễm covid 19 đã được xác nhân, kiểu dữ liệ u 
`integer`.̣̀ Số ca nhiễm bênh confirmed này giúp chúng ta đánh giá quy mô lây lan của 
dịcḥ bệnh và xác định mức độ ảnh hưởng tại từng khu vực  4. 
Deaths: Những ca nhiễm đã tử vong, kiểu dữ liêu `integer`, dữ liệ u này cho tạ 
biết mức đô nghiêm trọng của dịch bệ nh ở khu vực đó nghiêm trọng ra sao.̣̀  5. 
Recovered: Số ca nhiễm đã hồi phục, kiểu dữ liêu `integer`, dữ liệ u Recovereḍ 
đánh giá năng lực y tế của từng khu vực, quốc gia      lOMoAR cPSD| 58728417
Báo Cáo Đồ Án Cuối Kỳ  Trang 10  6. 
Active: Số ca dương tính với covid 19 đang được điều trị, kiểu dữ liêu 
`integer`,̣̀ dữ liêu này giúp theo dõi tải trọng của hệ thống y tế và quản lý tài nguyên 
y tế, đánḥ giá được số lượng đang mắc bênh ở các khu vực.̣̀  7. 
New Cases: Số ca nhiễm mới ghi nhận trong ngày, kiểu dữ liệu `integer`. Đây 
làchỉ số quan trọng giúp đánh giá tốc độ lây lan của virus vào thời điểm đó, điều đó 
giúp chúng ta xác định các đợt bùng phát dịch mới.  8. 
New Deaths: Số ca tử vong mới ghi nhận trong ngày, kiểu dữ liệu `integer`. 
Chỉsố này thể hiện mức độ nghiêm trọng của dịch bệnh và giúp đánh giá hiệu quả của 
các biện pháp phòng chống dịch bệnh tại từng thời điểm.  9. 
New recovered: Số ca hồi phục mới được ghi nhận trong ngày, kiểu dữ 
liệu`integer`, giúp đánh giá được hiệu quả điều trị trong ngắn hạn và xu hướng phục  hồi của cộng đồng  10. 
WHO Region: Khu vực quản lý của Tổ chức Y tế Thế giới (WHO), kiểu dữ 
liêụ `string`, Giúp đánh giá chiến lược ứng phó của từng khu vực, và so sánh hiệu 
quả kiểm soát dịch bệnh giữa các khu vực. 
1.7. Hạn chế và khiếm khuyết của dữ liệu COVID-19: 
Dữ liệu có thể có nhầm lẫn do các quốc gia có quy trình thu thập và báo  cáo khác nhau. 
Việc chuẩn hóa dữ liệu cũng gặp nhiều khó khăn. Các quốc gia áp dụng 
các phương pháp xét nghiệm khác nhau, dẫn đến sự khác biệt trong việc ghi 
nhận ca nhiễm và tử vong. 
Thiếu dữ liệu và gián đoạn báo cáo cũng là một vấn đề lớn. Một số quốc 
gia có thể không báo cáo dữ liệu đầy đủ hoặc chỉ báo cáo dữ liệu theo từng 
đợt, dẫn đến sự gián đoạn trong quá trình phân tích. Đặc biệt, ở các nước đang 
phát triển, việc xét nghiệm và ghi nhận dữ liệu có thể không được thực hiện 
đều đặn, làm giảm độ chính xác và toàn diện của dữ liệu. 
Sự khác biệt về múi giờ và thời điểm báo cáo cũng gây ra những bất cập 
trong việc tổng hợp và phân tích dữ liệu theo thời gian thực. Điều này đặc biệt 
quan trọng khi các quốc gia đưa ra các quyết định dựa trên dữ liệu hàng ngày, 
nhưng thông tin không đồng nhất có thể làm chậm quá trình này.      
