



Preview text:
Nhập ngành KHDL TKD ÔN TẬP CUỐI KỲ Câu 1.
Một nền tảng thương mại điện tử thống kê số lượng đơn hàng được hủy trong 10 ngày liên tiếp tại
một khu vực giao hàng cụ thể. Dữ liệu thu được như sau:
12, 15, 12, 55, 14, 12, 18, 16, 13, 11
a. Tính các giá trị đo lường độ tập trung: Trung bình (Mean), Trung vị (Median) và Yếu vị (Mode).
b. Tính các giá trị đo lường độ phân tán: Khoảng biến thiên (Range), Phương sai mẫu (Sample
Variance) và Độ lệch chuẩn mẫu (Sample Standard Deviation).
c. Tìm Tứ phân vị thứ nhất (Q1), Tứ phân vị thứ ba (Q3) và Khoảng tứ phân vị (IQR).
d. Xác định xem trong dữ liệu trên có giá trị ngoại lai (Outliers) dựa trên phương pháp IQR không? Nếu có, hãy liệt kê.
e. Nếu loại bỏ các giá trị ngoại lai tìm được ở câu d, hãy tính lại giá trị trung bình mới. Giá trị này
thay đổi như thế nào so với ban đầu? Câu 2.
Một startup công nghệ khảo sát thời gian (tính bằng giây) mà người dùng nán lại trên trang landing
page mới. Dữ liệu từ 12 người dùng đầu tiên như sau:
5, 120, 15, 10, 180, 12, 8, 450, 14, 6, 9, 11
a. Tính Trung bình (Mean) và Trung vị (Median). So sánh hai giá trị này và cho biết phân phối dữ
liệu đang bị lệch về phía nào (Skewness)?
b. Sử dụng phương pháp IQR (Khoảng tứ phân vị) để xác định các giá trị ngoại lai (Outliers).
c. Trong bối cảnh kinh doanh thực tế, startup này nên dùng giá trị nào (Mean hay Median) để làm
đại diện cho "thời gian xem trung bình" của khách hàng nhằm tránh cái nhìn sai lệch về hiệu quả
trang web? Giải thích ngắn gọn. GV: Vương Trọng Nhân Nhập ngành KHDL TKD Câu 3.
Cho tập dữ liệu huấn luyện Strain gồm thông tin về Thu nhập hàng tháng (X1: triệu đồng), Số
năm kinh nghiệm (X2: năm) và Hạn mức tín dụng được cấp (y: triệu đồng) như bảng bên dưới:
ID (Mẫu) Thu nhập (X1) Kinh nghiệm (X2) Hạn mức tín dụng (y) 1 20 2 50 2 35 5 100 3 25 3 60 4 40 6 120 5 15 1 30
Cho tập kiểm tra (Stest) cần dự đoán gồm mẫu sau:
Mẫu (A): Thu nhập = 30 triệu đồng, Kinh nghiệm = 4 năm.
a. Hãy thực hiện chuẩn hóa Min-Max Normalization để đưa các đặc trưng X1, X2 của các mẫu trên
tập Strain và mẫu A về đoạn [0, 1].
(Lưu ý: Dùng giá trị Min, Max của tập $S_{train}$ để chuẩn hóa).
b. Sử dụng thuật toán k-Nearest Neighbors (k-NN) với k = 3 và độ đo khoảng cách Euclid trên
dữ liệu đã chuẩn hóa, hãy dự đoán Hạn mức tín dụng (𝑦") cho Mẫu (A). Câu 4
Cho tập dữ liệu huấn luyện về giá cho thuê căn hộ, bao gồm 3 đặc trưng: Diện tích (X1: m2), Số
phòng ngủ (X2), Khoảng cách tới ga tàu (X3: km) và biến mục tiêu là Giá thuê (y: triệu đồng).
ID Diện tích (X1) Số phòng ngủ (X2) Khoảng cách (X3) Giá thuê (y) M1 50 1 0.5 10 M2 80 2 2.0 18 M3 60 1 1.0 12 M4 90 3 5.0 20 M5 100 2 0.2 25
Cần dự báo cho căn hộ M_new: Diện tích = 70 m2, 2 phòng ngủ, cách ga 1.5 km.
a. Thực hiện chuẩn hóa Min-Max cho tất cả các đặc trưng X1, X2, X3 của tập huấn luyện và mẫu M_new về đoạn [0, 1].
b. Sử dụng độ đo Manhattan (L1) để tính khoảng cách giữa M_new và các mẫu trong tập huấn
luyện (trên dữ liệu đã chuẩn hóa).
c. Dự báo giá thuê cho M_new với k=3. GV: Vương Trọng Nhân Nhập ngành KHDL TKD Câu 5
Một ngân hàng sử dụng mô hình học máy để phân loại hồ sơ vay vốn là "An toàn" (Class 0) hoặc
"Rủi ro" (Class 1). Giả sử chúng ta đã có danh sách 5 láng giềng gần nhất (Nearest Neighbors) của
một hồ sơ A dựa trên khoảng cách Euclid. Nhãn thực tế của 5 láng giềng này lần lượt là:
Neigbhors(A) = {0, 1, 1, 0, 1}
a. Dự đoán nhãn cho hồ sơ A với k=5 theo cơ chế bầu chọn đa số (Majority Voting).
b. Giả sử mô hình đã thực hiện dự đoán trên một tập kiểm tra (Test Set) gồm 10 mẫu và thu được
kết quả so với thực tế như bảng sau:
ID Thực tế (Actual) Dự đoán (Predicted) 1 0 0 2 1 1 3 0 1 4 1 0 5 1 1 6 0 0 7 0 0 8 1 1 9 1 1 10 0 1
Hãy lập Ma trận nhầm lẫn (Confusion Matrix).
c. Từ ma trận trên, tính các chỉ số: Accuracy (Độ chính xác toàn cục), Precision (Độ chính xác
của lớp 1), và Recall (Độ phủ của lớp 1).
d. Nếu ngân hàng muốn ưu tiên việc không bỏ sót bất kỳ hồ sơ rủi ro nào (chấp nhận bắt nhầm
còn hơn bỏ sót), thì ngân hàng nên quan tâm tối ưu chỉ số nào trong câu c? Câu 6
Một mô hình hồi quy được sử dụng để dự báo doanh thu của 4 cửa hàng. Bảng dưới đây thể hiện
giá trị thực tế (y) và giá trị dự báo (𝑦"):
ID (Mẫu) Thực tế (y) Dự báo (𝒚 $) 1 10.0 11.5 2 15.0 14.2 3 8.0 8.5 4 20.0 18.0
a. Tính Sai số tuyệt đối và Sai số bình phương cho từng mẫu.
b. Tính các chỉ số đánh giá hiệu năng: Sai số tuyệt đối trung bình (MAE) và Sai số bình phương trung bình (MSE). GV: Vương Trọng Nhân Nhập ngành KHDL TKD Câu 7
Sinh viên đã chạy 2 mô hình khác nhau để dự báo doanh số bán hàng. Kết quả sai số trên tập Test như sau:
• Mô hình A: MAE = 5.0, MSE = 30.0
• Mô hình B: MAE = 4.8, MSE = 80.0
Ta thấy Mô hình B có sai số tuyệt đối trung bình (MAE) thấp hơn (tốt hơn về mặt trung bình),
nhưng Mô hình A lại có MSE thấp hơn nhiều.
Điều này ám chỉ điều gì về tính ổn định của dự báo trong Mô hình B? Nguyên nhân gây ra có thể
do đâu? Hãy giải thích dựa trên bản chất của công thức bình phương trong MSE. GV: Vương Trọng Nhân