Bài thực hành Excel 1 | Học viện Nông nghiệp Việt Nam

Bài thực hành này yêu cầu sinh viên tải dữ liệu từ UCI hoặc Kaggle dưới dạng file .csv hoặc .txt, sau đó sử dụng MS Excel để khám phá dữ liệu. Sinh viên cần thực hiện các thao tác như thống kê cơ bản, vẽ biểu đồ tương quan, chuẩn hóa dữ liệu và đo độ tương đồng của dữ liệu. Cuối cùng, sinh viên cần nộp file Excel và một file Word giải thích các công việc đã thực hiện.

Trường:

Học viện Nông nghiệp Việt Nam 593 tài liệu

Thông tin:
1 trang 9 tháng trước

Bình luận

Vui lòng đăng nhập hoặc đăng ký để gửi bình luận.

Bài thực hành Excel 1 | Học viện Nông nghiệp Việt Nam

Bài thực hành này yêu cầu sinh viên tải dữ liệu từ UCI hoặc Kaggle dưới dạng file .csv hoặc .txt, sau đó sử dụng MS Excel để khám phá dữ liệu. Sinh viên cần thực hiện các thao tác như thống kê cơ bản, vẽ biểu đồ tương quan, chuẩn hóa dữ liệu và đo độ tương đồng của dữ liệu. Cuối cùng, sinh viên cần nộp file Excel và một file Word giải thích các công việc đã thực hiện.

51 26 lượt tải Tải xuống
THỰC HÀNH 1
I. Nguồn lấy dữ liệu
1. UCI: https://archive.ics.uci.edu/ml/datasets.php
2. Kaggle: https://www.kaggle.com/datasets
II. Thực hành khám phá dữ liệu với MS Excel
NỘI DUNG 1:
1. Download 02 bộ dữ liệu từ các ngun (phía trên) i dạng file: .csv, .txt, .data,… (ghi rõ
link đến bộ dữ liệu đó)
2. Mở excel, load dữ liệu vào (data/import) (mi bộ dữ liệu trên một sheet)
3. Thc hành khám phá dữ liu vi Excel:
Tên b dữ liệu
bao nhu mu (samples? (số hàng), bao nhiêu lớp (classes)?
bao nhiêu thucnh (feature)? (s cột)
Các thuộc tính ca dữ liu có nhng kiểu gì?
Dữ liệu bị mt mát (missing value) không? Thiếu thuộc tính nào?
NỘI DUNG 2: Chọn 1 trong 2 bộ dữ liệu trên thực hiện:
1. Các thống bản: min, max, mean, đ lệch chuẩn (stdev),… cho tất cả các cột số
2. Vẽ biểu đồ tương quan
i. Thống kê cho toàn bộ dữ liệu
ii. Thống cho từng lớp
3. Chuẩn hóa dữ liệu (s dụngc cách khác nhau)
4. Đo độ tương đồng của dữ liu: Độ đo Euclide
i. Tạo trang tính mi, thc hành độ đo với 2 cột (thuộc tính) số khác nhau
5. Nếu thuộc tính giá tr liên tục à rời rạc hóa
6. Dữ liệu thiếu: (nếu tập dl không dl thiếu à xóa bớt 1 số giá trị) à đề xuất hướng giải
quyết (điền dl thiếu???)
Yêu cầu nộp bài:
- SV cần nộp ít nhất file excel trong đó trình bày các nội dung SV đã thực hiện khám
phá dữ liệu. SV thể nộp kèm theo file word trong file giải tch các công việc SV
đã thc hiện.
- Tất cả tên file đt theo định dạng: SV_tên SV_TH1 (ví dụ: 661234_Nguyễn Văn
A_TH1)
| 1/1

Preview text:

THỰC HÀNH 1 I.
Nguồn lấy dữ liệu
1. UCI: https://archive.ics.uci.edu/ml/datasets.php
2. Kaggle: https://www.kaggle.com/datasets II.
Thực hành khám phá dữ liệu với MS Excel
NỘI DUNG 1:
1. Download 02 bộ dữ liệu từ các nguồn (phía trên) dưới dạng file: .csv, .txt, .data,… (ghi rõ
link đến bộ dữ liệu đó)
2. Mở excel, load dữ liệu vào (data/import) (mỗi bộ dữ liệu trên một sheet)
3. Thực hành khám phá dữ liệu với Excel: • Tên bộ dữ liệu
• Có bao nhiêu mẫu (samples? (số hàng), Có bao nhiêu lớp (classes)?
• Có bao nhiêu thuộc tính (feature)? (số cột)
• Các thuộc tính của dữ liệu có những kiểu gì?
• Dữ liệu có bị mất mát (missing value) không? Thiếu ở thuộc tính nào?
NỘI DUNG 2: Chọn 1 trong 2 bộ dữ liệu trên thực hiện:
1. Các thống kê cơ bản: min, max, mean, độ lệch chuẩn (stdev),… cho tất cả các cột số
2. Vẽ biểu đồ tương quan
i. Thống kê cho toàn bộ dữ liệu
ii. Thống kê cho từng lớp
3. Chuẩn hóa dữ liệu (sử dụng các cách khác nhau)
4. Đo độ tương đồng của dữ liệu: Độ đo Euclide
i. Tạo trang tính mới, thực hành độ đo với 2 cột (thuộc tính) số khác nhau
5. Nếu thuộc tính là giá trị liên tục à rời rạc hóa
6. Dữ liệu thiếu: (nếu tập dl không có dl thiếu à xóa bớt 1 số giá trị) à đề xuất hướng giải
quyết (điền dl thiếu???)
Yêu cầu nộp bài: -
SV cần nộp ít nhất file excel trong đó trình bày các nội dung SV đã thực hiện khám
phá dữ liệu. SV thể nộp kèm theo file word trong file giải thích các công việc SV
đã thực hiện. -
Tất cả tên file đặt theo định dạng: SV_tên SV_TH1 (ví dụ: 661234_Nguyễn Văn A_TH1)