




Preview text:
lOMoAR cPSD| 59561309
BỘ GIÁO DỤC VÀ ĐÀO TẠO
BÀI TẬP ÔN TẬP HỌC PHẦN ĐẠI HỌC PHENIKAA
“NHẬP MÔN KHOA HỌC DỮ LIỆU VÀ TRÍ TUỆ NHÂN TẠO”
TRƯỜNG CÔNG NGHỆ THÔNG TIN
(CHƯƠNG ‘MỞ ĐẦU’ VÀ ‘PHÂN TÍCH THỐNG KÊ’)
-----------------------------------------
Chủ đề 1: Giới thiệu về Khoa học Dữ liệu và Trí tuệ Nhân tạo (15 câu)
1. Khoa học dữ liệu là gì?
A. Một lĩnh vực nghiên cứu về con người
B. Một lĩnh vực sử dụng toán học, thống kê để phân tích dữ liệu
C. Một cách để thu thập dữ liệu từ internet
D. Một phương pháp lưu trữ dữ liệu
2. Big Data có những đặc điểm nào sau đây?
A. Variety, Velocity, Volume, Variability
B. Small, Medium, Large, Extra Large
C. Structured, Semi-Structured, Unstructured
D. Fast, Slow, Real-time, Batch
3. Dữ liệu có thể thuộc các dạng nào?
A. Hình ảnh, âm thanh, văn bản
B. Số nguyên, số thực, Boolean
C. Dữ liệu có cấu trúc, bán cấu trúc, không có cấu trúc
D. Tất cả các phương án trên
4. Mục tiêu chính của Trí tuệ Nhân tạo (AI) là gì?
A. Mô phỏng hành vi của con người
B. Thay thế hoàn toàn con người
C. Tự động hóa các nhiệm vụ đơn giản D. Phát triển phần mềm
5. Các ứng dụng của AI trong đời sống bao gồm? A. Nhận diện khuôn mặt B. Xe tự lái
C. Gợi ý sản phẩm trực tuyến
D. Tất cả các phương án trên
6. Loại học máy nào dựa trên dữ liệu có nhãn?
A. Học có giám sát (Supervised Learning)
B. Học không giám sát (Unsupervised Learning)
C. Học tăng cường (Reinforcement Learning)
D. Không có phương án nào đúng
7. Học không giám sát (Unsupervised Learning) thường được sử dụng trong?
A. Phân cụm dữ liệu (Clustering)
B. Dự đoán giá chứng khoán C. Phát hiện gian lận lOMoAR cPSD| 59561309
D. Phát hiện lỗi trong phần mềm
8. Dữ liệu lớn có thể được lưu trữ trong các hệ thống nào sau đây? A. Database, Data warehouse B. CSV, XML, JSON C. Video, Audio, Image
D. Tất cả các phương án trên
9. Công việc nào không thuộc về một Data Scientist? A. Phân tích dữ liệu B. Thiết kế trang web
C. Xây dựng mô hình máy học
D. Dự báo xu hướng thị trường
10. Bước nào KHÔNG thuộc quy trình xử lý dữ liệu? A. Thu thập dữ liệu B. Chuẩn bị dữ liệu C. Phát minh ra dữ liệu D. Triển khai mô hình
11. Thuật ngữ nào mô tả việc trích xuất thông tin từ tập dữ liệu lớn? A. Data Mining B. Data Cleaning C. Data Storing D. Data Viewing
12. Học sâu (Deep Learning) là một phần của? A. Học máy B. AI C. Khoa học dữ liệu
D. Tất cả các phương án trên
13. Mô hình Machine Learning nào thường được sử dụng cho bài toán phân loại?
A. Hồi quy tuyến tính (Linear Regression)
B. Hồi quy logistic (Logistic Regression) C. K-means Clustering D. Apriori Algorithm
14. Lĩnh vực nào không liên quan trực tiếp đến khoa học dữ liệu? A. Thống kê B. Khoa học máy tính C. Marketing D. Nông nghiệp
15. Trong một hệ thống AI, dữ liệu đầu vào thường được biểu diễn dưới dạng gì? A. Hình ảnh B. Chuỗi ký tự C. Dữ liệu số
D. Tất cả các phương án trên lOMoAR cPSD| 59561309
Chủ đề 2: Phân tích Thống kê (15 câu)
16. Thống kê mô tả bao gồm các phương pháp nào?
A. Trung bình, trung vị, phương sai B. Hồi quy tuyến tính C. Phân tích tương quan D. Thu thập dữ liệu
17. Giá trị trung bình (Mean) có nhược điểm gì?
A. Không bị ảnh hưởng bởi ngoại lệ
B. Dễ bị ảnh hưởng bởi giá trị ngoại lệ
C. Không phản ánh phân phối dữ liệu
D. Luôn lớn hơn trung vị
18. Giá trị trung vị (Median) là gì?
A. Giá trị phổ biến nhất trong tập dữ liệu
B. Giá trị nằm giữa tập dữ liệu đã sắp xếp
C. Trung bình cộng của tập dữ liệu
D. Tổng các giá trị chia cho số lượng phần tử
19. Trong phân tích dữ liệu, phương sai (Variance) đo lường điều gì?
A. Mức độ tập trung của dữ liệu quanh giá trị trung bình
B. Giá trị phổ biến nhất
C. Tổng của các giá trị trong tập dữ liệu
D. Khoảng cách lớn nhất giữa hai giá trị trong tập dữ liệu
20. Độ lệch chuẩn (Standard Deviation) là gì?
A. Bình phương của phương sai
B. Căn bậc hai của phương sai
C. Tổng của các giá trị trong tập dữ liệu
D. Giá trị phổ biến nhất trong tập dữ liệu
21. Trong phân tích dữ liệu, phân vị (Percentile) dùng để?
A. Phân chia dữ liệu thành phần bằng nhau
B. Tính giá trị trung bình
C. Dự đoán xu hướng dữ liệu
D. Tăng tốc độ tính toán
22. Tứ phân vị thứ hai (Q2) trong tập dữ liệu chính là? A. Trung vị B. Trung bình C. Giá trị nhỏ nhất lOMoAR cPSD| 59561309 D. Giá trị lớn nhất
23. Mối quan hệ giữa hai biến số trong tập dữ liệu có thể đo lường bằng?
A. Độ tương quan (Correlation) B. Phương sai C. Trung bình D. Độ lệch chuẩn
24. Một mẫu dữ liệu có thể được sử dụng để?
A. Thay thế toàn bộ quần thể
B. Đưa ra kết luận về quần thể
C. Dự đoán chính xác 100%
D. Chỉ áp dụng cho nghiên cứu nhỏ
25. Ma trận hiệp phương sai (Covariance Matrix) giúp xác định điều gì?
A. Mối quan hệ giữa nhiều biến số
B. Giá trị trung bình của tập dữ liệu C. Điểm trung vị D. Độ lệch chuẩn
26. Hệ số tương quan (Correlation Coefficient) có giá trị nằm trong khoảng? A. 0 đến 1 B. -1 đến 1 C. -∞ đến ∞ D. 0 đến ∞
27. Mối quan hệ nhân quả có thể được suy ra từ? A. Phân tích tương quan B. Phân tích hồi quy C. Phân tích phương sai
D. Không có phương án nào chính xác
28. Phương pháp nào không phải là một phần của thống kê mô tả? A. Trung vị B. Phương sai C. Hồi quy tuyến tính
D. Khoảng giá trị (Range)
29. Một tập dữ liệu có độ lệch chuẩn cao thì?
A. Các giá trị phân bố xa trung bình
B. Các giá trị tập trung gần trung bình
C. Dữ liệu ít biến động
D. Dữ liệu không có giá trị ngoại lệ
30. Phương pháp tốt nhất để xử lý giá trị ngoại lệ trong dữ liệu là?
A. Loại bỏ ngay lập tức
B. Kiểm tra và xem xét nguyên nhân
C. Sử dụng luôn mà không cần kiểm tra
D. Thêm nhiều dữ liệu hơn lOMoAR cPSD| 59561309
31. Cho tập dữ liệu sau: x = [-0.703, -0.344, -0.669, -0.636, -0.913] Giá trị trung bình của tập dữ liệu trên là? A. 0.653 B. -0.653 C. 0.365 D. -0.365
32. Cho tập dữ liệu sau: x = [-1.217, -2.059, -0.868, -0.341, -1.237] Giá trị độ lệch chuẩn (std) của tập dữ liệu trên là? A. -0.651 B. 0.561 C. 0.615 D. -0.615
33. Cho tập dữ liệu sau: x = [-0.044, -0.314, -0.03, -0.01, -0.205] Giá trị TRUNG VỊ (median) của tập dữ liệu trên là? A. -0.044 B. -0.314 C. -0.03 D. -0.205