TRƯNG ĐI HC GIA ĐNH
KHOA: CÔNG NGHTHÔNG TIN
ĐỀ THI GIỮA HỌC PHẦN
Môn thi: Nhp môn TTNT
Lớp hc phn:
MÃ ĐỂ/ĐỀ SỐ
HÌNH THC THI
o Tự luận
¨ Trc nghiệm
¨ Thc hành
þTiểu luận
Tên đề tài:
Hun luyn mô hình AI dđoán phân khúc giá đin thoại
I. Mc tiêu Project:
1. Hiu và phân tích đưc nh hưng ca các đc trưng trong tp dliu đến khnăng
dự đoán phân khúc giá đin thoại.
2. Biết cách so sánh hiu qu gia ít nht hai thut toán hc máy khác nhau (ví d:
Decision Tree, Random Forest, Logistic Regression, SVM, v.v.).
3. Nhn thc đưc tầm quan trng ca vic phân tích và tin xlý dliệu trong vic
cải thin đchính xác ca mô hình hc máy.
II. Yêu cu thc hiện
1. Phân tích và trc quan hóa dliệu
o Sử dụng thư vin pandas matplotlib để đọc, thng kê và trc quan hóa d
liu.
o Thc hin các thng kê mô tcho tng đc trưng: số ng mu, giá trnh
nht, ln nht, trung v(median), trung bình, độ lệch chuẩn,...
o Trc quan hóa dliu bng các biu đồ:
§ Biu đphân phi (Histogram, Boxplot)
§ Ma trn tương quan (Correlation heatmap)
§ Phân tích mi quan hgia các đc trưng và nhãn price_range.
2. Tin x dliệu
o Phát hin và xlý:
§ Giá trthiếu (missing values),
§ Đim ngoi lai (outliers),
§ Các đc trưng kém quan trng.
o Chun hóa hoc biến đi dliu nếu cn (ví d: StandardScaler,
OneHotEncoder).
3. Xây dng mô hình hc máy
o Hun luyn ít nht 2 mô hình Machine Learning bằng thư vin scikit-learn.
o Gợi ý: Decision Tree, Random Forest, Logistic Regression, SVM, KNN,
Gradient Boosting...
o Chia tp dliu thành train/test theo tỉ lệ hợp lý (ví d: 80/20 hoc 70/30).
4. Đánh giá và so sánh mô hình
o Sử dụng các chỉ số đánh giá:
§ Accuracy, Precision, Recall, F1-score
o Vẽ Confusion Matrix để trc quan hóa kết quphân loi.
o So sánh hiu năng gia các mô hình và đưa ra nhn xét kết luận.
5. Nhn xét tng hợp
o Phân tích xem vic tin xlý dliệu có ci thin đchính xác ca mô hình
không.
o Đưa ra kết lun và đxuất cho mô hình dđoán tt nht.
III. Mô tả tập dliệu
Tên cột
Ý nghĩa
Kiu d
liệu
battery_mAh
Dung lưng pin (mAh)
Numeric
screen_height_cm
Chiu cao màn hình (cm)
Numeric
screen_width_cm
Chiu rng màn hình (cm)
Numeric
screen_width_px
Chiu rng đphân gii (pixel)
Numeric
screen_height_px
Chiu cao đphân gii (pixel)
Numeric
weight_g
Trng lưng đin thoi (gram)
Numeric
internal_memory_GB
Bộ nhtrong (GB)
Numeric
ram_MB
Dung lưng RAM (MB)
Numeric
color_variety
Số màu có sn (15)
Numeric
has_3g / has_4g /
has_wifi /
has_bluetooth /
has_touchscreen /
has_dual_sim
Tính năng kết ni (1 = có, 0 = không)
Binary
talk_time_hr
Thi gian thoi ti đa (giờ)
Numeric
primary_camera_mp
Độ phân gii camera sau (MP)
Numeric
front_camera_mp
Độ phân gii camera trưc (MP)
Numeric
cpu_cores
Số lõi CPU
Numeric
cpu_speed_GHz
Tốc đCPU (GHz)
Numeric
brand_popularity
Mức đphbiến thương hiu (110)
Numeric
thickness_cm
Độ dày đin thoi (cm)
Numeric
year_release
Năm phát hành (20152023)
Numeric
price_range
Phân khúc giá (nhãn cn dđoán): 0–3
Categorical
Giá trnhãn price_range:
0: Low price (giá rẻ)
1: Medium-low price (trung bình thp)
2: Medium-high price (trung bình cao)
3: High price (cao cp)
IV. Yêu cầu & hình thc báo cáo Project:
File np:
o Notebook (.ipynb) hoc Python script (.py)
o Có thkèm theo report ngn (.pdf) tóm tt kết qu, biu đ, và nhn xét
chính.
Nội dung np phi có:
o Mã ngun có chú thích.
o Kết quhun luyn và đánh giá mô hình.
o Biu đminh ha.
o Phn nhn xét và kết lun cui cùng.
V. Ti ê u c h í đ á n h g i á
Tiêu chí
Trng s
Phân tích và trc quan hóa dliệu
15%
Tin xlý dliệu
15%
Hun luyn & đánh giá mô hình
20%
So sánh & nhn xét kết qu
20%
Báo cáo & trình bày
30%
-Hết-
DUYT CA BỘ MÔN/KHOA QLHP
(ký và ghi rõ htên)
TS. NGUYN VĂN MÙI
......................................................................................................................................

Preview text:


TRƯỜNG ĐẠI HỌC GIA ĐỊNH MÃ ĐỂ/ĐỀ SỐ KHOA: CÔNG NGHỆ THÔNG TIN
ĐỀ THI GIỮA HỌC PHẦN Môn thi: Nhập môn TTNT HÌNH THỨC THI Lớp học phần: o Tự luận ¨ Trắc nghiệm ¨ Thực hành þTiểu luận Tên đề tài:
Huấn luyện mô hình AI dự đoán phân khúc giá điện thoại
I. Mục tiêu Project:
1. Hiểu và phân tích được ảnh hưởng của các đặc trưng trong tập dữ liệu đến khả năng
dự đoán phân khúc giá điện thoại.
2. Biết cách so sánh hiệu quả giữa ít nhất hai thuật toán học máy khác nhau (ví dụ:
Decision Tree, Random Forest, Logistic Regression, SVM, v.v.).
3. Nhận thức được tầm quan trọng của việc phân tích và tiền xử lý dữ liệu trong việc
cải thiện độ chính xác của mô hình học máy.
II. Yêu cầu thực hiện
1. Phân tích và trực quan hóa dữ liệu
o Sử dụng thư viện pandasmatplotlib để đọc, thống kê và trực quan hóa dữ liệu.
o Thực hiện các thống kê mô tả cho từng đặc trưng: số lượng mẫu, giá trị nhỏ
nhất, lớn nhất, trung vị (median), trung bình, độ lệch chuẩn,...
o Trực quan hóa dữ liệu bằng các biểu đồ:
§ Biểu đồ phân phối (Histogram, Boxplot)
§ Ma trận tương quan (Correlation heatmap)
§ Phân tích mối quan hệ giữa các đặc trưng và nhãn price_range.
2. Tiền xử lý dữ liệu o Phát hiện và xử lý:
§ Giá trị thiếu (missing values),
§ Điểm ngoại lai (outliers),
§ Các đặc trưng kém quan trọng.
o Chuẩn hóa hoặc biến đổi dữ liệu nếu cần (ví dụ: StandardScaler, OneHotEncoder).
3. Xây dựng mô hình học máy
o Huấn luyện ít nhất 2 mô hình Machine Learning bằng thư viện scikit-learn.
o Gợi ý: Decision Tree, Random Forest, Logistic Regression, SVM, KNN, Gradient Boosting...
o Chia tập dữ liệu thành train/test theo tỉ lệ hợp lý (ví dụ: 80/20 hoặc 70/30).
4. Đánh giá và so sánh mô hình
o Sử dụng các chỉ số đánh giá:
§ Accuracy, Precision, Recall, F1-score
o Vẽ Confusion Matrix để trực quan hóa kết quả phân loại.
o So sánh hiệu năng giữa các mô hình và đưa ra nhận xét kết luận.
5. Nhận xét tổng hợp
o Phân tích xem việc tiền xử lý dữ liệu có cải thiện độ chính xác của mô hình không.
o Đưa ra kết luận và đề xuất cho mô hình dự đoán tốt nhất.
III. Mô tả tập dữ liệu Tên cột Ý nghĩa Kiểu dữ liệu battery_mAh Dung lượng pin (mAh) Numeric screen_height_cm Chiều cao màn hình (cm) Numeric screen_width_cm
Chiều rộng màn hình (cm) Numeric screen_width_px
Chiều rộng độ phân giải (pixel) Numeric screen_height_px
Chiều cao độ phân giải (pixel) Numeric weight_g
Trọng lượng điện thoại (gram) Numeric internal_memory_GB Bộ nhớ trong (GB) Numeric ram_MB Dung lượng RAM (MB) Numeric color_variety Số màu có sẵn (1–5) Numeric has_3g / has_4g /
Tính năng kết nối (1 = có, 0 = không) Binary has_wifi / has_bluetooth / has_touchscreen / has_dual_sim talk_time_hr
Thời gian thoại tối đa (giờ) Numeric primary_camera_mp
Độ phân giải camera sau (MP) Numeric front_camera_mp
Độ phân giải camera trước (MP) Numeric cpu_cores Số lõi CPU Numeric cpu_speed_GHz Tốc độ CPU (GHz) Numeric brand_popularity
Mức độ phổ biến thương hiệu (1–10) Numeric thickness_cm
Độ dày điện thoại (cm) Numeric year_release
Năm phát hành (2015–2023) Numeric price_range
Phân khúc giá (nhãn cần dự đoán): 0–3 Categorical
Giá trị nhãn price_range: • 0: Low price (giá rẻ)
• 1: Medium-low price (trung bình thấp)
• 2: Medium-high price (trung bình cao) • 3: High price (cao cấp)
IV. Yêu cầu & hình thức báo cáo Project: • File nộp:
o Notebook (.ipynb) hoặc Python script (.py)
o Có thể kèm theo report ngắn (.pdf) tóm tắt kết quả, biểu đồ, và nhận xét chính.
• Nội dung nộp phải có:
o Mã nguồn có chú thích.
o Kết quả huấn luyện và đánh giá mô hình. o Biểu đồ minh họa.
o Phần nhận xét và kết luận cuối cùng.
V. Tiêu chí đánh giá Tiêu chí Trọng số
Phân tích và trực quan hóa dữ liệu 15% Tiền xử lý dữ liệu 15%
Huấn luyện & đánh giá mô hình 20%
So sánh & nhận xét kết quả 20% Báo cáo & trình bày 30% -Hết-
DUYỆT CỦA BỘ MÔN/KHOA QLHP GIẢNG VIÊN RA ĐỀ
(ký và ghi rõ họ tên)
(ký và ghi rõ họ tên)
TS. NGUYỄN VĂN MÙI
......................................................................................................................................