-
Thông tin
-
Quiz
Bài thực hành Excel 1 | Học viện Nông nghiệp Việt Nam
Bài thực hành này yêu cầu sinh viên tải dữ liệu từ UCI hoặc Kaggle dưới dạng file .csv hoặc .txt, sau đó sử dụng MS Excel để khám phá dữ liệu. Sinh viên cần thực hiện các thao tác như thống kê cơ bản, vẽ biểu đồ tương quan, chuẩn hóa dữ liệu và đo độ tương đồng của dữ liệu. Cuối cùng, sinh viên cần nộp file Excel và một file Word giải thích các công việc đã thực hiện.
Công nghệ phần mềm (HVNN) 35 tài liệu
Học viện Nông nghiệp Việt Nam 593 tài liệu
Bài thực hành Excel 1 | Học viện Nông nghiệp Việt Nam
Bài thực hành này yêu cầu sinh viên tải dữ liệu từ UCI hoặc Kaggle dưới dạng file .csv hoặc .txt, sau đó sử dụng MS Excel để khám phá dữ liệu. Sinh viên cần thực hiện các thao tác như thống kê cơ bản, vẽ biểu đồ tương quan, chuẩn hóa dữ liệu và đo độ tương đồng của dữ liệu. Cuối cùng, sinh viên cần nộp file Excel và một file Word giải thích các công việc đã thực hiện.
Môn: Công nghệ phần mềm (HVNN) 35 tài liệu
Trường: Học viện Nông nghiệp Việt Nam 593 tài liệu
Thông tin:
Tác giả:
Tài liệu khác của Học viện Nông nghiệp Việt Nam
Preview text:
THỰC HÀNH 1 I.
Nguồn lấy dữ liệu
1. UCI: https://archive.ics.uci.edu/ml/datasets.php
2. Kaggle: https://www.kaggle.com/datasets II.
Thực hành khám phá dữ liệu với MS Excel
NỘI DUNG 1:
1. Download 02 bộ dữ liệu từ các nguồn (phía trên) dưới dạng file: .csv, .txt, .data,… (ghi rõ
link đến bộ dữ liệu đó)
2. Mở excel, load dữ liệu vào (data/import) (mỗi bộ dữ liệu trên một sheet)
3. Thực hành khám phá dữ liệu với Excel: • Tên bộ dữ liệu
• Có bao nhiêu mẫu (samples? (số hàng), Có bao nhiêu lớp (classes)?
• Có bao nhiêu thuộc tính (feature)? (số cột)
• Các thuộc tính của dữ liệu có những kiểu gì?
• Dữ liệu có bị mất mát (missing value) không? Thiếu ở thuộc tính nào?
NỘI DUNG 2: Chọn 1 trong 2 bộ dữ liệu trên và thực hiện:
1. Các thống kê cơ bản: min, max, mean, độ lệch chuẩn (stdev),… cho tất cả các cột số
2. Vẽ biểu đồ tương quan
i. Thống kê cho toàn bộ dữ liệu
ii. Thống kê cho từng lớp
3. Chuẩn hóa dữ liệu (sử dụng các cách khác nhau)
4. Đo độ tương đồng của dữ liệu: Độ đo Euclide
i. Tạo trang tính mới, thực hành độ đo với 2 cột (thuộc tính) số khác nhau
5. Nếu thuộc tính là giá trị liên tục à rời rạc hóa
6. Dữ liệu thiếu: (nếu tập dl không có dl thiếu à xóa bớt 1 số giá trị) à đề xuất hướng giải
quyết (điền dl thiếu???)
Yêu cầu nộp bài: -
SV cần nộp ít nhất file excel trong đó trình bày các nội dung SV đã thực hiện khám
phá dữ liệu. SV có thể nộp kèm theo file word trong file giải thích các công việc SV
đã thực hiện. -
Tất cả tên file đặt theo định dạng: Mã SV_tên SV_TH1 (ví dụ: 661234_Nguyễn Văn A_TH1)