



Preview text:
TRƯỜNG ĐẠI HỌC GIA ĐỊNH MÃ ĐỂ/ĐỀ SỐ KHOA: CÔNG NGHỆ THÔNG TIN
ĐỀ THI GIỮA HỌC PHẦN Môn thi: Nhập môn TTNT HÌNH THỨC THI Lớp học phần: o Tự luận ¨ Trắc nghiệm ¨ Thực hành þTiểu luận Tên đề tài:
Huấn luyện mô hình AI dự đoán phân khúc giá điện thoại
I. Mục tiêu Project:
1. Hiểu và phân tích được ảnh hưởng của các đặc trưng trong tập dữ liệu đến khả năng
dự đoán phân khúc giá điện thoại.
2. Biết cách so sánh hiệu quả giữa ít nhất hai thuật toán học máy khác nhau (ví dụ:
Decision Tree, Random Forest, Logistic Regression, SVM, v.v.).
3. Nhận thức được tầm quan trọng của việc phân tích và tiền xử lý dữ liệu trong việc
cải thiện độ chính xác của mô hình học máy.
II. Yêu cầu thực hiện
1. Phân tích và trực quan hóa dữ liệu
o Sử dụng thư viện pandas và matplotlib để đọc, thống kê và trực quan hóa dữ liệu.
o Thực hiện các thống kê mô tả cho từng đặc trưng: số lượng mẫu, giá trị nhỏ
nhất, lớn nhất, trung vị (median), trung bình, độ lệch chuẩn,...
o Trực quan hóa dữ liệu bằng các biểu đồ:
§ Biểu đồ phân phối (Histogram, Boxplot)
§ Ma trận tương quan (Correlation heatmap)
§ Phân tích mối quan hệ giữa các đặc trưng và nhãn price_range.
2. Tiền xử lý dữ liệu o Phát hiện và xử lý:
§ Giá trị thiếu (missing values),
§ Điểm ngoại lai (outliers),
§ Các đặc trưng kém quan trọng.
o Chuẩn hóa hoặc biến đổi dữ liệu nếu cần (ví dụ: StandardScaler, OneHotEncoder).
3. Xây dựng mô hình học máy
o Huấn luyện ít nhất 2 mô hình Machine Learning bằng thư viện scikit-learn.
o Gợi ý: Decision Tree, Random Forest, Logistic Regression, SVM, KNN, Gradient Boosting...
o Chia tập dữ liệu thành train/test theo tỉ lệ hợp lý (ví dụ: 80/20 hoặc 70/30).
4. Đánh giá và so sánh mô hình
o Sử dụng các chỉ số đánh giá:
§ Accuracy, Precision, Recall, F1-score
o Vẽ Confusion Matrix để trực quan hóa kết quả phân loại.
o So sánh hiệu năng giữa các mô hình và đưa ra nhận xét kết luận.
5. Nhận xét tổng hợp
o Phân tích xem việc tiền xử lý dữ liệu có cải thiện độ chính xác của mô hình không.
o Đưa ra kết luận và đề xuất cho mô hình dự đoán tốt nhất.
III. Mô tả tập dữ liệu Tên cột Ý nghĩa Kiểu dữ liệu battery_mAh Dung lượng pin (mAh) Numeric screen_height_cm Chiều cao màn hình (cm) Numeric screen_width_cm
Chiều rộng màn hình (cm) Numeric screen_width_px
Chiều rộng độ phân giải (pixel) Numeric screen_height_px
Chiều cao độ phân giải (pixel) Numeric weight_g
Trọng lượng điện thoại (gram) Numeric internal_memory_GB Bộ nhớ trong (GB) Numeric ram_MB Dung lượng RAM (MB) Numeric color_variety Số màu có sẵn (1–5) Numeric has_3g / has_4g /
Tính năng kết nối (1 = có, 0 = không) Binary has_wifi / has_bluetooth / has_touchscreen / has_dual_sim talk_time_hr
Thời gian thoại tối đa (giờ) Numeric primary_camera_mp
Độ phân giải camera sau (MP) Numeric front_camera_mp
Độ phân giải camera trước (MP) Numeric cpu_cores Số lõi CPU Numeric cpu_speed_GHz Tốc độ CPU (GHz) Numeric brand_popularity
Mức độ phổ biến thương hiệu (1–10) Numeric thickness_cm
Độ dày điện thoại (cm) Numeric year_release
Năm phát hành (2015–2023) Numeric price_range
Phân khúc giá (nhãn cần dự đoán): 0–3 Categorical
Giá trị nhãn price_range: • 0: Low price (giá rẻ)
• 1: Medium-low price (trung bình thấp)
• 2: Medium-high price (trung bình cao) • 3: High price (cao cấp)
IV. Yêu cầu & hình thức báo cáo Project: • File nộp:
o Notebook (.ipynb) hoặc Python script (.py)
o Có thể kèm theo report ngắn (.pdf) tóm tắt kết quả, biểu đồ, và nhận xét chính.
• Nội dung nộp phải có:
o Mã nguồn có chú thích.
o Kết quả huấn luyện và đánh giá mô hình. o Biểu đồ minh họa.
o Phần nhận xét và kết luận cuối cùng.
V. Tiêu chí đánh giá Tiêu chí Trọng số
Phân tích và trực quan hóa dữ liệu 15% Tiền xử lý dữ liệu 15%
Huấn luyện & đánh giá mô hình 20%
So sánh & nhận xét kết quả 20% Báo cáo & trình bày 30% -Hết-
DUYỆT CỦA BỘ MÔN/KHOA QLHP GIẢNG VIÊN RA ĐỀ
(ký và ghi rõ họ tên)
(ký và ghi rõ họ tên)
TS. NGUYỄN VĂN MÙI
......................................................................................................................................