







Preview text:
lOMoAR cPSD| 59561309 BÀI I:
1. Trí tuệ nhân tạo (AI) là gì?
A. Hệ thống máy tính có khả năng thực hiện công việc cần đến trí tuệ con người 2.
Ví dụ nào sau đây không phải là ứng dụng của trí tuệ nhân tạo?
B. Cảnh báo lỗi chính tả trong văn bản 3.
AI được chia thành bao nhiêu loại chính? C. 3 4.
Trong các loại AI, AI nào có khả năng thực hiện các tác vụ mà chỉ con người có thể làm được?
B. ANI (Artificial Narrow Intelligence) 5.
Machine Learning làm AI trở nên phổ biến như thế nào?
B. Cho phép máy tính phân tích dữ liệu và cải thiện hiệu suất mà không cần lập trình rõ ràng
6. Học máy (Machine Learning) là gì?
D. Một phương pháp cho phép máy tính học từ dữ liệu và cải thiện theo thời gian
7. Large Language Models (LLMs) hoạt động như thế nào?
C. Bằng cách dự đoán tuần tự các từ tiếp theo trong một câu
8. Big Data có các tính chất nào?
D. Volume, Value, Velocity, Veracity
9. Dữ liệu lớn (Big Data) là gì?
A. Dữ liệu có khối lượng lớn, bao gồm cả dữ liệu có cấu trúc và không có cấu trúc
10. Những ví dụ nào dưới đây là dữ liệu bán cấu trúc? A. JSON, XML, CSV
11. Khoa học dữ liệu (Data Science) làm gì?
A. Áp dụng các phương pháp khoa học để phân tích dữ liệu và hỗ trợ ra quyết định
12. Công việc của một Data Scientist thường liên quan đến những gì?
D. Phân tích thống kê và biểu diễn dữ liệu
13. Trí tuệ nhân tạo (AI) trong ngành công nghiệp ô tô có thể ứng dụng trong lĩnh vực nào?
A. Hệ thống lái tự động
14. Dữ liệu trong Khoa học dữ liệu có thể đến từ đâu?
D. Từ nhiều nguồn như điện thoại, internet, và các thiết bị cảm biến
15. Học máy (Machine Learning) cho phép hệ thống làm gì theo thời gian?
A. Tự cải thiện hiệu suất khi được cung cấp thêm dữ liệu 16. Generative AI là gì? lOMoAR cPSD| 59561309
A. Một loại AI có khả năng sáng tạo và tạo ra các nội dung mới
17. Ứng dụng của AI trong ngành ngân hàng và tài chính là gì?
C. Phân tích rủi ro và phát hiện gian lận
18. Cơ hội nghề nghiệp trong lĩnh vực Khoa học dữ liệu bao gồm những vị trí nào?
C. Data analyst, Machine learning engineer, Data scientist
19. Nguyên lý hoạt động của các mô hình ngôn ngữ lớn (LLMs) như thế nào?
C. Sử dụng học máy có giám sát để dự đoán tuần tự các từ tiếp theo
20. Các bài toán trong học máy thường bao gồm những loại nào?
B. Bài toán hồi quy, bài toán phân loại dữ liệu, bài toán phân cụm dữ liệu BÀI II:
1. Học máy ( machine learning) là gì?
A. Một ứng dụng của trí tuệ nhân tạo cho phép thiết bị học từ trải nghiệm và không cần lập trình
2. Dữ liệu đầu vào và đầu ra trong huấn luyện mô hình học máy là gì
A. Đầu vào: Dữ liệu và thông tin cần dự đoán: Đầu ra: các quy tắc (hay mô hình)
3. Tuần tự các bước chính của huấn luyện mô hình học máy
A. Thu thập dữ liệu, tiền xử lý dữ liệu, lựa chọn mô hình, huấn luyện mô hình và đánh giá mô hình
4. Trong học máy overfit là gì
A. Mô hình học quá chi tiết và không thể tổng quát
5. Một ví dụ về ứng dụng của không phải học máy
A. Hệ thống trả lời tự động ở máy bán hàng tự động phenikaa
6. Trong học máy, mục tiêu của thuật toán hồi quy là gì ?
A. Dự đoán giá trị liên tục
7. Thuật toán gradient descent dùng để làm gì trong học máy
A. Tối ưu hóa hàm mất mát ( hàm loss)
8. Trong học máy hiện tượng underfitt xảy ra khi nào?
A. Mô hình hóa đơn giản và không phù hợp với dữ liệu huấn luyện
9. Ví dụ nào sau đây thuộc bài toán học máy không giám sát
A. Phân nhóm khách hàng dựa trên hành vi mua sắm của họ
10. Phát triển game tự chơi ( như Mario) thì nên sử dụng loại học máy nào? A. Học tăng cường BÀI III:
1. Những bước nào sau đây là một phần của quá trình phát triển sản phẩm AI/KHDL? lOMoAR cPSD| 59561309
A. Thu thập dữ liệu, Tiền xử lý dữ liệu, Chuẩn bị dữ liệu
2. Định nghĩa bài toán AI/KHDL bao gồm những yếu tố nào?
B. Xác định trường thông tin (features) và biến dự đoán (label), Xác định chiến lược thu thập dữ liệu, Đánh giá
tính khả thi của sử dụng học máy
3. Những vai trò nào sau đây thường tham gia trong một dự án AI/KHDL?
D. Chuyên gia về lĩnh vực, Nhà khoa học dữ liệu, Kỹ sư dữ liệu
4. Quá trình ETL trong xử lý dữ liệu bao gồm các bước nào?
B. Trích xuất dữ liệu, Biến đổi dữ liệu, Tải dữ liệu vào hệ thống lưu trữ
5. Khi gặp dữ liệu thiếu trong quá trình tiền xử lý, bạn nên làm gì?
B. Thay thế dữ liệu thiếu bằng giá trị 0 hoặc giá trị trung bình
6. Tại sao việc xác định mục tiêu kinh doanh lại quan trọng trong dự án AI/KHDL?
C. Nó giúp xác định rõ ràng vấn đề cần giải quyết và cách đánh giá thành công
7. Trong một dự án AI, ai là người chịu trách nhiệm chính về việc thu thập và xử lý dữ liệu D. Kỹ sư dữ liệu
8. Biến mục tiêu (target) trong bài toán nhận diện gian lận bảo hiểm thường là gì?
C. Liệu yêu cầu bảo hiểm có phải là gian lận hay không (1: Có, 0: Không)
9. Dữ liệu nào sau đây thường được sử dụng để phát hiện gian lận bảo hiểm?
A. Lịch sử yêu cầu bồi thường, Hành vi bất thường, Điểm tín dụng
B. Địa điểm của khách hàng, Loại bảo hiểm, Tình trạng hôn nhân
C. Nghề nghiệp của khách hàng, Thời gian kể từ khi hợp đồng được cấp, Tần suất giao dịch
10. Khi nào bạn cần sử dụng quá trình ELT thay vì ETL
B. Khi dữ liệu không có cấu trúc hoặc có cấu trúc và cần tải vào dạng thô trước khi biến đổi BÀI IIII:
1. Giá trị R² trong mô hình hồi quy tuyến tính biểu thị điều gì?
D. Mức độ phù hợp của mô hình
2. Điều kiện nào sau đây là cần thiết để mô hình hồi quy tuyến tính đơn giản hoạt động tốt?
C. Mối quan hệ tuyến tính giữa biển độc lập và biến phụ thuộc
3. Hồi quy tuyến tính đơn giản nhằm mục đích dự đoán giá trị của biến nào? D. Biến phụ thuộc
4. Độ đo nào sau đây không phải là độ đo đánh giá mô hình hồi quy tuyến tính? A. Precision
5. Hệ số B1, trong phương trình hồi quy tuyến tính y=B0 + B1x + e biểu thị điều gì? lOMoAR cPSD| 59561309
D. Độ dốc của đường hồi quy
6. Hồi quy logistic và hồi quy tuyến tính khác nhau như thế nào?
B. Hồi quy logistic sử dụng hàm sigmoid để tính toán đầu ra trong khi hồi quy tuyến tính không sử dụng Aam sigmoid
C. Hồi quy logistic dược sử dụng cho bài toán phân loại, trong khi thời quy tuyến tính được sử dụng cho bài toán dự báo giá trị
D. Hồi quy logistic có đầu ra dạng xác suất, trong khi hồi quy tuyến tính có đầu ra là giá trị liên tục
7. Các đặc trưng (features) trong bài toán phân loại được sử dụng để làm gì?
A. Để biểu diễn dữ liệu vào mô hình
8. Hồi quy logistic có thể sử dụng các phương pháp tối ưu hóa nào để tìm nghiệm gần đúng?
B. Mini-batch gradient descent
C. Stochastic gradient descent D. Gradient descent
9. Trong bài toán phân loại, hàm sigmoid được sử dụng để làm gì?
A. Chuyển đối đầu ra thành xác suất
10. Hồi quy logistic được sử dụng để giải quyết bài toán gì? A. Bài toán phân loại
11. Cho mô hình cây quyết định như hình vẽ. Các node A, B, K là node gì? A Node root B Node decision K Node leaf
12. Điều nào sau đây không phải là một metric phân loại? A. Mean Squared Error BÀI VI:
1. Mục tiêu chính của khoa học dữ liệu là gì?
B. Để trực quan hoà dữ liệu và xây dựng báo cáo
C. Nghiên cứu để trích xuất các giá trị ấn trong dữ liệu phục vụ việc đưa ra các quyết định để giải quyết một
bàitoán nghiệp vụ nào đó lOMoAR cPSD| 59561309
D. Nghiên cứu để lưu trữ và quản lý dữ liệu
2. Phần mềm nào sau đây KHÔNG phải là công cụ chính của khoa học dữ liệu? A. Microsoft Word
3. Định nghĩa của khoa học dữ liệu là gì?
C. Là lĩnh vực nghiên cứu liên ngành kết hợp toán thông kê khoa học dữ liệu và một số kiến thức chuyên môn
sâu của dữ liệu để tìm kiếm các quy luật từ các tập dữ liệu
4. Vai trò của nhà khoa học dữ liệu là gì? D. Tất cả trên
5. Mục đích chính trong công việc của các nhà khoa học dữ liệu là gì?
B. Tất cả các phương án khác
6. Các kỹ năng cần có để thực thi một nhà phân tích dữ liệu cần có?
C. Tất cả các kỹ năng được liệt kê
7. Một đặc trưng của các mẫu (đối tượng) trong tập dữ liệu là gì?
A. Là một hàng trong bảng dữ liệu
8. Các hàng trong một bảng dữ liệu thường chứa các thông tin gì?
A. Là các mẫu (đối tượng) trong tập dữ liệu
9. Phát biểu nào sau đây là KHÔNG chính xác?
D. Giá trị trung bình của một tập dữ liệu luôn lớn hơn giá trị lớn nhất
10. Đại lượng nào sau đây KHÔNG được coi là đặc trưng thống kẻ về cân nặng của đàn gà trong một trang trại? D. Tên người chủ trại
11. Cho tập dữ liệu X = [x1 x2 ... xm] biểu thức tính giá trị trung bình của tập dữ liệu là? B. x=(x1+ x2+...+ xm)/m
12. Công cụ nào sau đây KHÔNG được dùng để biểu diễn trực quan hoá dữ liệu?
C. Các mô hình hồi qui tuyến tỉnh (linear regression)
13. Giá trị trung vị là gì?
A. Là giá trị có tần suất xuất hiện nhiều nhất
B. Là trung bình cộng của tập dữ liệu
C. Là giá trị trung bình của tập dữ liệu
D. Là đại lượng chia đôi tập dữ liệu
14. Cho một tập dữ liệu về tuổi của khách hàng để biểu diễn tần suất xuất hiện của mỗi tuổi trong tập dữ
liệu người ta thường dùng đồ thị nào? A. Scatter plot lOMoAR cPSD| 59561309 B. Box Plot C. Pie chart D. Bar plot
15. Một tập dữ liệu là gì?
A. Tập hợp thông tin nguyên thay của các đối tượng thòa mán một điều kiện nghiên cứu nào đó
16. Bước đầu tiên trong một quá trình làm khan học dữ liệu là gì? A. Thu thập dữ liệu
17. Mục tiêu chính của việc làm sạch dữ liệu là gì?
B. Để loại bỏ những điểm dữ liệu bị thiếu và không phù hợp
C. Để đảm bảo tính chính xác và tương thích của dữ liệu
18. Một tập dữ liệu thường được coi là một bảng:
A. Số hàng bằng số mẫu (đối tượng) của tập dữ liệu số cột là số thuộc tính của các mẫu (đổi tượng) dữ liệu
19. Đặc trưng (Thuộc tỉnh) của tập dữ liệu là gì?
D. Là tập hợp các thuộc tính (giá trị thuộc tỉnh) của các đối tượng nghiên cứu
20. Chương trình máy tính nào sau đây KHÔNG được coi là một ứng dụng của trí tuệ nhân tạo?
A. Chương trình quản lý sinh viên
21. Mệnh đề nào sau đây ĐÚNG?
D. Trí tuệ nhân tạo có thể được xem như một chương trình máy tính có thể khái quát hoá trì thức từ dữ liệu để
thực hiện một chức năng nào đó giống như một chuyên gia trong lĩnh vực đó.
22. Hệ số tương quan của 2 biến là gì?
A. Là đại lượng biểu diễn mối quan hệ giữa hai biến
B. Là đại lượng biểu diễn mối quan hệ giữa các giá trị trung bình của hai biến
C. Là đại lượng biểu diễn mối quan hệ giữa các giá trị của hai biến đã được chuẩn hoá.
D. Là đại lượng biểu diễn mối quan hệ giữa các giá trị trung bình của hai biến được chuẩn hoá
23. Chức năng của tập huấn luyện trong học máy là gì?
A. Dùng để huấn luyện mô hình
24. Quá trình xây dựng một mô hình học máy thường gồm các bước nào? A. Thu thập dữ liệu C. Tiền xử lý dữ liêu D. Huấn luyện mô hình
25. Trong quá trình kiểm định một mô hình học máy phần trăm dữ liệu dành cho tập kiểm tra thường là bao nhiêu? A. 10-20% lOMoAR cPSD| 59561309
26. Một mô hình hồi quy tuyến tính thường được sử dụng để làm gì?
D. Dự đoán một biến phụ thuộc từ một hoặc nhiều biến độc lập
27. Hệ số hồi quy trong một mô hình hồi quy tuyến tính thể hiện điều gì?
D. Mức độ biến động của biến phụ thuộc khi biến độc lập thay đổi
28. Một mô hình hồi quy tuyến tỉnh được huấn luyện như thế nào?
D. Bằng cách tối thiểu hóa sai số giữa giá trị thực và giá trị dự đoán
29. Phương pháp nào sau đây được sử dụng để kiếm định độ chính xác của một mô hình học máy? A. Cross-validation B. K-teld validation D. Holdout validation
30. Độ chính xác của một mô hình học máy là gì?
D. Tỷ lệ phần trăm các dự đoán đúng so với tổng số dự đoán
31. Một mô hình hồi quy tuyến tỉnh có thể được kiểm tra bằng cách nào?
A. Bằng cách kiểm tra hệ số tương quan giữa giá trị thực và giá trị dự đoán
32. Phát biểu nào sau đây đúng về quá trình tiền xử lý dữ liệu?
D. Là bước đầu tiên trong quá trình làm khoa học dữ liệu
33. Để đo lường mức độ phù hợp của mô hình hồi quy tuyến tỉnh, bên cạnh biểu thức cho hệ số tương
quan R2, hệ số Pearson (r) cũng được sử dụng Nếu hệ số tương quan Pearson (r) bằng 0, điều đó có nghĩa là gì?
A. Một biến tăng thì biến kia giảm.
B. Hai biến số có mối quan hệ tuyến tính hoàn hảo.
C. Hai biến số không có mối quan hệ tuyến tính nào.
D. Hai biến số có mối quan hệ phi tuyến hoàn hảo.
34. Để đo lường mức độ phù hợp của mô hình hồi quy tuyến tính, bên cạnh biểu thức cho hệ số tương
quan R2, hệ số Pearson (r) cùng được sử dụng
Bạn hãy đánh giá xem mệnh đề nào sau đây là đúng:
A. Hệ số tương quan Pearson có giá trị trong khoảng từ 0 đến 1
B. Hệ số tương quan Pearson có giá trị trong khoảng từ -1 đến 1
C. Hệ số tương quan Pearson có giá trị nhỏ hơn hoặc bằng -1
D. Hệ số tương quan Pearson có giá trị lớn hơn hoặc bằng 1 BÀI VII:
1. Biểu đồ nào sau đây tốt nhất để hiển thị xu hướng theo thời gian? A. Biểu đồ đường lOMoAR cPSD| 59561309
2. Biểu đồ nào thường được sử dụng để so sánh tỉ lệ của các danh mục khác nhau? A. Biểu đồ tròn
3. Biểu đồ nào tốt nhất để hiển thị phân bố của một biến đơn? A. Biểu đồ histogram
4. Trong biểu đồ tán xạ, mỗi điểm dữ liệu đại diện cho gì?
A. Quan hệ giữa hai biến
5. Biểu đồ hộp hiển thị những gì
A. Trung vị hoặc/và phân bố của dữ liệu
6. Biểu đồ nhiệt (heatmap) được sử dụng để làm gì?
A. Biểu thị mật độ hoặc cường độ của dữ liệu
7. Biểu đồ nào thường được sử dụng để hiển thị dữ liệu phân cấp?
A. Là một loại biểu đồ khác
8. Biểu đồ nào tốt nhất để hiển thị mối quan hệ giữa hai biến liên tục? A. Biểu đồ tán xạ
9. Dữ liệu dạng nào thường được biểu diễn tốt nhất bằng biểu đồ thanh? A. Dữ liệu phân loại
10. Biểu đồ nào thường được sử dụng để hiển thị tổng tích lũy theo thời gian?
A. Biểu đồ vùng (area chart)