



















Preview text:
lOMoAR cPSD| 58728417
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC SƯ PHẠM KỸ THUẬT TP.HCM
KHOA CÔNG NGHỆ THÔNG TIN ĐỒ ÁN CUỐI KỲ
MÔN HỌC: LẬP TRÌNH PYTHON
LỌC VÀ XỬ LÝ DỮ LIỆU NHÀ ĐẤT
Mã lớp học phần: IPPA233277
Học kỳ 1 – Năm học 2023-2024
Giảng viên hướng dẫn: ThS. Trần Quang Khải
Danh sách sinh viên thực hiện: MSSV Họ tên 21110738 Nguyễn Tùng Lâm 23162046 Nguyễn Minh Khôi 23162045 Lục Nhật Khôi
Thành phố Hồ Chí Minh, tháng 11 năm 2024 lOMoAR cPSD| 58728417
Nhận xét của giảng viên
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
....................................................................................................................................
TP. Hồ Chí Minh, ngày … tháng… năm 2024 Giảng viên ký tên lOMoAR cPSD| 58728417 MỤC LỤC
DANH MỤC HÌNH ẢNH ................................................................................................ 4
PHÂN CÔNG NHIỆM VỤ THỰC HIỆN ĐỀ TÀI ....................................................... 5
LỜI CẢM ƠN ................................................................................................................... 5
PHẦN 1: MỞ ĐẦU ........................................................................................................... 8
1. Lý do chọn đề tài .......................................................................................................... 8
2. Mục tiêu đề tài .............................................................................................................. 8
3. Đối tượng và phạm vi nghiên cứu ............................................................................... 8
PHẦN 2. NỘI DUNG ....................................................................................................... 9
CHƯƠNG 1: TÓM TẮT CƠ SỞ LÝ THUYẾT ................................................................ 9
CHƯƠNG 2: MÔ TẢ TẬP DỮ LIỆU GIÁ CƯỚC TAXI Ở NEW YORK CITY .......... 10
2.1. Các tập dữ liệu cần thu thập .................................................................................. 10
2.2. Khó khăn trong quá trình xử lý dữ liệu ................................................................ 10
2.2.1. Những vấn đề gặp phải ........................................................................................... 10
2.2.2. Giải Pháp Để Giải Quyết Các Vấn Đề ................................................................... 11
2.2.3. Xử Lý Dữ Liệu Mới ............................................................................................... 11
CHƯƠNG 3: XỬ LÝ DỮ LIỆU BẤT ĐỘNG SẢN Ở PAKISTAN ............................... 12
CHƯƠNG 4: PHÂN TÍCH DỮ LIỆU BẤT ĐỘNG SẢN Ở PAKISTAN ....................... 18
4.1. Thống kê dữ liệu nhà đất ở Pakistan ..................................................................... 18
4.2. Vẽ biểu đồ phân tích dữ liệu nhà đất ở Pakistan .................................................. 19
4.2.1 Đồ thị Histogram phân phối giá bất động sản ......................................................... 19
4.2.2 Đồ thị Histogram giá của các loại bất động sản ...................................................... 20
4.2.3 Đồ thị Scatter plot quan hệ giữa diện tích và giá .................................................... 20
4.2.4 Đồ thị Scatter plot quan hệ giữa diện tích và giá .................................................... 21
PHẦN KẾT LUẬN ......................................................................................................... 21
1. Kết quả đạt được ........................................................................................................ 21
2. Ưu và nhược điểm ...................................................................................................... 22 lOMoAR cPSD| 58728417
3. Hướng phát triển ........................................................................................................ 22
PHẦN TÀI LIỆU THAM KHẢO ................................................................................. 22 DANH MỤC HÌNH ẢNH
Hình 1 . Tập dữ liệu Cleaned_data_for_model.csv lưu trữ thông tin của các
bất động sản ...............................................................................................
Hình 2 . Code nhập các thư viện cần thiết cho chương trình ..............................
Hình 3 . Code xây dựng đường dẫn đến tập tin Cleaned_data_for_model.csv
.....................................................................................................................
Hình 4 . Code tải dữ liệu trang hiển thị................................................................
Hình 5 . Kết quả hiển thị dữ liệu trang hiển thị....................................................
Hình 6 . Code thêm dữ liệu Cleaned_data_for_model.csv...................................
Hình 7 . Kết quả việc thêm dữ liệu Cleaned_data_for_model.csv.......................
Hình 8 . Code xóa một hay nhiều hàng trong tệp dữ liệu.....................................
Hình 9 . Code chọn dòng để xóa Cleaned_data_for_model.csv...........................
Hình 10 . Code cập nhật dữ liệu..........................................................................
Hình 11 . Code chỉ định dòng cần cập nhật dữ liệu.............................................
Hình 12 . Kết quả cập nhật dữ liệu......................................................................
Hình 13 . Code sắp xếp và tìm kiếm.....................................................................
Hình 14 . Kết quả hiển thị sắp xếp và tìm kiếm....................................................
Hình 15 . Code phần hiển thị thông tin cơ bản của dữ liệu..................................
Hình 16 . Kết quả hiển thị thông tin cơ bản.........................................................
Hình 17 . Code vẽ và hiển thị biểu đồ..................................................................
Hình 18 . Kết quả hiển thị biểu đồ histogram.......................................................
Hình 19 . Kết quả hiển thị biểu đồ Box plot.........................................................
Hình 20 . Kết quả hiển thị biểu đồ Scatter plot....................................................
Hình 21 . Kết quả hiển thị biểu đồ Bar chart....................................................... DANH MỤC BẢNG lOMoAR cPSD| 58728417
Bảng 1 . Bảng mô tả tập dữ liệu Cleaned_data_for_model.csv..............................
PHÂN CÔNG NHIỆM VỤ THỰC HIỆN ĐỀ TÀI
CUỐI KỲ MÔN LẬP TRÌNH PYTHON
HỌC KỲ I NĂM HỌC 2023-2024
1. Mã lớp môn học: IPPA233277
2. Giảng viên hướng dẫn: ThS. Trần Quang Khải
3. Tên đề tài: Lọc và phân tích dữ liệu nhà đất sử dụng Python
4. Bảng phân công nhiệm vụ:
Sinh viên thực hiện
Nội dung thực hiện Nguyễn Tùng Lâm
❖ Code xử lý dữ liệu và phân tích dữ liệu.
❖ Xây dựng và thiết kế giao diện GUI.
❖ Tổng hợp và hoàn thiện báo cáo.
Nguyễn Dương Tiến Thông
❖ Code xử lý và phân tích dữ liệu. ❖ Xây dựng báo cáo. Lục Nhật Khôi
❖ Thiết kế slides thuyết trình LỜI CẢM ƠN
Để thực hiện được đề tài này, em xin gửi lời cảm ơn chân thành đến thầy Trần
Quang Khải - giảng viên dạy học và hướng dẫn bộ môn Lập Trình Python của lớp
IPPA233277 vì đã chỉ dẫn và hỗ trợ chúng em hết mình trong việc học tập và trong
quá trình thực hiện tiểu luận cuối kỳ.
Trong quá trình học tập, nghiên cứu và thực hiện đề tài chúng em đã nổ lực và cố
gắng rất nhiều, nhưng do kinh nghiệm và hiểu biết còn hạn hẹp nên có thể phần báo
cáo có thể còn nhiều thiếu sót. Chúng em rất mong nhận được sự động viên, hỗ trợ
và góp ý từ thầy để nhóm em có thể hoàn thiện hơn không chỉ trong môn học này mà
còn làm tốt hơn nữa trong những chặng đường sắp tới. lOMoAR cPSD| 58728417
Một lần nữa, chúng em xin trân trọng cảm ơn sự quan tâm giúp đỡ của thầy trong suốt hành trình vừa qua. lOMoAR cPSD| 58728417 PHẦN 1: MỞ ĐẦU
1. Lý do chọn đề tài
Pakistan là một trong những quốc gia có nền kinh tế bất động sản biến động bậc
nhất. Việc lọc và xử lý lượng lớn dữ liệu nhà đất không chỉ hữu ích cho khách hàng mà
còn có lợi cho các công ty và cá nhân môi giới nhà đất trong quá trình giao dịch. Khách
nhanh chóng tìm được bất động sản đúng với nhu cầu giúp họ lên kế hoạch tốt hơn về
tài chính. Các công ty và cá nhân môi giới nhà đất có thể dựa vào dữ liệu đã được xử lý
để lên kế hoạch kinh doanh và tìm kiếm tệp khách hàng phù hợp một cách hiệu quả.
Bất động sản đóng vai trò quan trọng trong nền kinh tế của một quốc gia, đặc biệt
là với đất nước như Pakistan. Với trữ lượng bất động sản phong phú, việc có thể lọc và
phân tích tất cả dữ liệu này giúp tối ưu thời gian, mang lại sự thoải mái cho khách hàng
và thuận tiện cho cá nhân môi giới nhà đất.
Vậy câu hỏi đặt ra là làm thế nào để có thể tạo ra một chương trình để thực hiện
nhiệm vụ đó? Để giải đáp điều này, nhóm chúng em đã chọn thực hiện đề tài này dựa
trên tất cả những kiến thức được lĩnh hội từ bộ môn Lập trình Python và các kiến thức
về Phân tích dữ liệu để biểu diễn tập dữ liệu một cách trực quan và khái quát nhất.
2. Mục tiêu đề tài
Mục tiêu cho đề tài “Lọc và phân tích dữ liệu nhà đất ở Pakistan” là xây dựng
một chương trình Python để lọc, phân tích và biểu diễn dữ liệu nhà đất một cách trực
quan. Nhóm em sẽ xử lý và phân tích dữ liệu lớn từ hệ thống dữ liệu nhà đất Pakistan
để tạo ra một công cụ hữu ích cho các công ty môi giới nhà đất, giúp tối ưu hóa thời gian
giao dịch lộ và chiến lược kinh doanh.
3. Đối tượng và phạm vi nghiên cứu
Đối tượng nghiên cứu của đề tài này là:
● Tập dữ liệu nhà đất ở Pakistan: Bao gồm thông tin về loại bất động sản,
vị trí, thành phố, số lượng phòng tắm, số lượng phòng ngủ, diện tích và
mục đích sử dụng của bất động sản.
● Khách hàng và Người kinh doanh bất động sản: Những người tìm kiếm
bất động sản và người buôn bán nó.
Phạm vi nghiên cứu, chúng em sẽ tập trung vào việc:
● Phân tích dữ liệu: Tiến hành khai thác, xử lý dữ liệu lớn từ hệ thống nhà đất của Pakistan. lOMoAR cPSD| 58728417 PHẦN 2. NỘI DUNG
CHƯƠNG 1: TÓM TẮT CƠ SỞ LÝ THUYẾT
1.1. Giới thiệu về lọc và xử lý dữ liệu sử dụng Python
Lọc và xử lý dữ liệu là một bước quan trọng trong quá trình phân tích dữ liệu để đảm
bảo dữ liệu sạch, phù hợp và có thể sử dụng được cho các bước phân tích tiếp theo.
Python, với hệ sinh thái thư viện phong phú, cung cấp các công cụ mạnh mẽ để xử lý dữ liệu hiệu quả.
1.2. Giới thiệu về các thư viện thường được sử dụng trong xây dựng chương trình
lọc và xử lý dữ liệu
Các thư viện phổ biến được sử dụng trong chương trình bao gồm: 1.
NumPy (Numerical Python) : cung cấp một đối tượng đa chiều (ndarray)
hiệu quả, giúp thực hiện các phép toán số học nhanh chóng. Dùng trong các phép toán
ma trận và các thao tác tính toán khoa học 2.
Pandas : cung cấp các cấu trúc dữ liệu linh hoạt DataFarme giúp làm việc
với dữ liệu dạng bảng dễ dàng. Đọc được nhiều định dạng file như CSV, SQL, …, làm
sạch dữ liệu, thực hiện các thao tác cơ bản trên dữ liệu. 3.
Matplotlib : tạo các biểu đồ và đồ thị để hiển thị dữ liệu. Hỗ trợ vẽ nhiều
loại biểu đồ như đường, cột, hình trò và nhiều loại biểu đồ khác. 5.
Tkinter : là thư viện tích hợp trong Python, được sử dụng để xây dựng
giao diện đồ họa người dùng (GUI). 6.
Seaborn : là một thư viện trực quan hóa dữ liệu dựa trên Matplotlib. Nó
giúp tạo các biểu đồ thống kê đẹp mắt và dễ dàng.
Môi trường lập trình phổ biến cho chương trình bao gồm Google Colab và Visual
Studio Code. Đây là môi trường linh hoạt và hỗ trợ tốt cho việc phát triển và thử nghiệm
các chương trình sử dụng Python. lOMoAR cPSD| 58728417
CHƯƠNG 2: MÔ TẢ TẬP DỮ LIỆU GIÁ CƯỚC TAXI Ở NEW YORK CITY
2.1. Các tập dữ liệu cần thu thập
Ở đề tài này, nhóm em đã thu thập những tập dữ liệu có chứa những thông tin chi
tiết về những bất động sản tại Pakistan:
● File Cleaned_data_for_model.csv:
○ Được sử dụng để chạy chương trình.
○ Bao gồm các đặc trưng đầu vào (input features) và giá cước thực tế (target
fare_amount) các chuyến đi taxi. Thông tin Mô tả Tên tập dữ liệu Cleaned_data_for_model.csv Kích thước
7 cột và khoảng 100 nghìn dòng Loại dữ liệu
Số nguyên, số thực, chuỗi ký tự
Hình 1. Tập dữ liệu Cleaned_data_for_model.csv lưu trữ thông tin bất động sản ở Pakistan
Bảng 1. Bảng mô tả tập dữ liệu Cleaned_data_for_model.csv
2.2. Khó khăn trong quá trình xử lý dữ liệu
2.2.1. Những vấn đề gặp phải.
Giá Trị Thiếu: Một số trường có thể thiếu thông tin (ví dụ: số phòng ngủ, số phòng tắm).
Định Dạng Dữ Liệu Không Đồng Nhất: Các định dạng khác nhau cho giá hoặc diện
tích (ví dụ: một số có thể sử dụng dấu phẩy).
Giá Trị Ngoại Lai: Những giá trị bất thường cao hoặc thấp mà không phù hợp với
giá thị trường thông thường.
Bản Ghi Trùng Lặp: Nhiều danh sách cho cùng một bất động sản.
Dữ Liệu Phân Loại: Tên địa điểm hoặc loại tài sản không đồng nhất (ví dụ: lOMoAR cPSD| 58728417 "flat" so với "apartment").
2.2.2. Giải Pháp Để Giải Quyết Các Vấn Đề Giá Trị Thiếu:
Bù Đắp: Điền giá trị thiếu bằng trung bình, trung vị hoặc mode dựa trên loại tài sản hoặc địa điểm.
Xóa Bỏ: Loại bỏ các bản ghi có thông tin thiếu quan trọng.
Định Dạng Dữ Liệu Không Đồng Nhất:
Chuẩn Hóa: Chuyển đổi tất cả giá thành định dạng nhất quán (ví dụ: số thực) và đảm
bảo các phép đo diện tích đồng nhất (ví dụ: tất cả đều tính bằng feet vuông hoặc Marla). Giá Trị Ngoại Lai:
Phát Hiện: Sử dụng các phương pháp thống kê (ví dụ: Z-score) để xác định và xem xét các giá trị ngoại lai.
Điều Chỉnh: Cân nhắc việc giới hạn hoặc loại bỏ các giá trị cực đoan dựa trên phân tích thị trường. Bản Ghi Trùng Lặp:
Xóa Trùng: Xác định và loại bỏ các bản ghi trùng lặp dựa trên các định danh duy nhất
(như ID tài sản hoặc địa chỉ). Dữ Liệu Phân Loại:
Chuẩn Hóa: Tạo danh sách chuẩn hóa cho các loại tài sản và địa điểm để thay thế các mục không đồng nhất.
2.2.3. Xử Lý Dữ Liệu Mới
Kiểm Tra Tự Động: Triển khai các kiểm tra để đảm bảo các mục mới tuân thủ các định
dạng và tiêu chuẩn đã thiết lập.
Quản Lý Phiên Bản: Duy trì các phiên bản của dữ liệu để theo dõi thay đổi và dễ dàng khôi phục nếu cần. lOMoAR cPSD| 58728417
CHƯƠNG 3: XỬ LÝ DỮ LIỆU BẤT ĐỘNG SẢN Ở PAKISTAN
3.1. Khởi tạo dữ liệu
3.1.1. Import các thư viện cần thiết
Hình 2. Code import các thư viện cần thiết cho việc phân tích và xây dự chương trình
lọc và phân tích dữ liệu bất động sản ở pakistan.
3.1.2. Xây dựng đường dẫn đến tập tin Cleaned_data_for_model.csv
Tùy vào thư mục chứa các tập tin này ở đường dẫn nào thì điều hướng sang đường dẫn đó.
● Cách 1: Lưu tập tin trên máy tính cá nhân:
Hình 3. Code xây dựng đường dẫn đến tập tin Cleaned_data_for_model.csv và test.csv trên máy tính
3.2. Hiển thị, xử lý và làm sạch dữ liệu (Data validation and cleaning)
Ở đây chúng ta sẽ tiến hành hiển thị nội dung file csv để xem và kiểm tra phân tích,
tuy nhiên, do kích thước file quá lớn nên chúng ta phải tiến hành phân trang nhằm giúp
người dùng thuận tiện hơn trong việc sử dụng.
● Hiển thị dữ liệu được phân trang trong Cleaned_data_for_model.csv : lOMoAR cPSD| 58728417
Hình 4: Code tải dữ liệu trang hiển thị
Hình 5: Kết quả hiển thị lOMoAR cPSD| 58728417
3.3. Thêm dữ liệu mới vào Cleaned_data_for_model.csv
Vì dữ liệu bao gồm 7 cột, với nhiều loại dữ liệu, nên chúng em thiết kế để người dùng
có thể nhập từng loại dữ liệu vào từng cột, giúp tăng tính chính xác và giảm thiểu sai sót cho dữ liệu.
Hình 6. Code thêm dữ liệu mới vào file Cleaned_data_for_model.csv
Hình 7. Kết quả việc thêm dữ liệu Cleaned_data_for_model.csv lOMoAR cPSD| 58728417 3.4. Xóa dữ liệu
Hình 8. Code xóa một hay nhiều hàng trong tệp dữ liệu Cleaned_data_for_model.csv
Hình 9. Code chọn dòng để xóa Cleaned_data_for_model.csv lOMoAR cPSD| 58728417
3.5. Cập nhật dữ liệu được chọn
Hình 10. Code cập nhật dữ liệu
Hình 11. Code chỉ định vị trí cần cập nhật dữ liệu
Hình 12. Kết quả cập nhật dữ liệu lOMoAR cPSD| 58728417
3.6. Sắp xếp và tìm kiếm trên dữ liệu
Hình 13. Code sắp xếp và tìm kiếm dữ liệu
Hình 14. Kết quả hiển thị sắp xếp và tìm kiếm lOMoAR cPSD| 58728417
CHƯƠNG 4: PHÂN TÍCH DỮ LIỆU BẤT ĐỘNG SẢN Ở PAKISTAN
4.1. Thống kê dữ liệu nhà đất ở Pakistan
Hình 15. Code phần hiển thị thông tin cơ bản của dữ liệu
Hình 16. Kết quả hiển thị thông tin cơ bản lOMoAR cPSD| 58728417
4.2. Vẽ biểu đồ phân tích dữ liệu nhà đất ở Pakistan
Hình 17. Code vẽ và hiển thị biểu đồ
4.2.1 Đồ thị Histogram phân phối giá bất động sản
Hình 18. Kết quả hiển thị biểu đồ histogram
Qua biểu đồ này có thể thấy được bất động sản tại Pakistan chủ yếu là phân khúc giả rẻ,
với số lượng lớn và cực kỳ phong phú, đa dạng chủng loại. Biểu đồ hạ dần theo chiều
tăng của giá tiền, có thể nhìn được rằng giá tiền càng cao, số lượng càng ít, thị trường
sẽ tập trung nhiều hơn vào phân khúc bất động sản hạ - trung cấp. lOMoAR cPSD| 58728417
4.2.2 Đồ thị Histogram giá của các loại bất động sản
Hình 19. Kết quả hiển thị biểu đồ Box plot
Qua đồ thị, có thể nhận thấy sự khác biệt rõ rệt trong giá giữa các loại bất động sản,
điều này có thể ảnh hưởng đến quyết định đầu tư cũng như chiến lược kinh doanh trong
lĩnh vực bất động sản.
4.2.3 Đồ thị Scatter plot quan hệ giữa diện tích và giá
Hình 20. Kết quả hiển thị biểu đồ Scatter plot
Đồ thị cho ta thấy rằng diện tích là một yếu tố quan trọng ảnh hưởng đến giá bất động
sản. Tuy nhiên, vẫn tồn tại những bất động sản có diện tích lớn nhưng giá lại thấp hoặc lOMoAR cPSD| 58728417
ngược lại. Điều này có thể chỉ ra rằng có những yếu tố khác (như vị trí, tình trạng bất
động sản) đang ảnh hưởng đến giá.
4.2.4 Đồ thị Scatter plot quan hệ giữa diện tích và giá
Hình 21. Kết quả hiển thị biểu đồ Bar chart
Qua đồ thị, ta có thể thấy thị trường đang ở mức khá cân bằng, các loại bất động sản đều
có giá gần tương đương nhau trừ room PHẦN KẾT LUẬN
1. Kết quả đạt được - Về kiến thức
+ Đựa trên tập dữ liệu:
Kiến thức về phần tích dữ liệu lớn, đến rất lớn. Tập trung hiểu được cốt
lõi các giá trị thành phần chính quan trọng của dữ liệu, cách chúng tác động tới nhau.
Bằng các bước tìm hiểu trên tập dữ liệu lớn giúp chúng em: Bước đầu
nắm bắt được những lỗi trong dữ liệu và trong quá trình thu thập. Kế đến
cách xử lý và phân tích những tập dữ liệu có trữ lượng lớn. Tốc độ tính
toán trên tập dữ liệu lớn khá chậm, nên cần có các phương pháp xử lý
giúp cải thiện tốc độ. Mang lại hiệu qua bao phủ cao.