I. TRẮC NGHIỆM (30 câu): 2 điểm/1 câu.
1. What types of data does the big data include?
A. Unstructured data
B. Structured data
C. Semi-structured data
D. All of the above
2. In the context of big data management and analysis, what is "Hadoop"?
A. The popular programming language
B. The distributed big data processing framework
C. The malware
D. The large data storage device
3. Choosing the correct 5 characteristics of big data?
A. Volume, Variability, Veracity, Visualization, Value
B. Volume, Videos, Velocity, Variability, Value
C. Volume, Velocity, Variety, Veracity, Value
D. Volume, Velocity, Veracity, Visualization, Value
4. Velocity is a characteristic of?
A. The speed of processing large data
B. The speed of increasing large data volume
C. The speed of updating large data
D. The speed of storing large data
5. Which of the following is not a method of big data processing?
A. Acquire
B. Organize
C. Analyze
D. Review
6. Phát biểu đúng về trong ngữ cảnh của dữ liệu lớn là:"Data Lake"
A. Dữ liệu bị rò rỉ từ cơ sở dữ liệu
B. Một cơ sở dữ liệu đặc biệt lớn, được tối ưu hóa cho việc phân tích
C. Một kho lưu trữ lớn gồm dữ liệu thô chưa qua xử lý
D. Dữ liệu được mô phỏng trong môi trường ảo
7. The type of unstructured data is?
A. Table
B. Video
C. XML
D. All of the above
8. What are the advantages of the HDFS (Hadoop Distributed File System)?
1
A. Parallel storage, distributed processing, high availability
B. Parallel distributed processing, fault tolerance
C. Distributed storage, parallel processing, high fault tolerance
D. All of the above
9. What is Amazon's data storage service – AWS?
A. Amazon Lambda
B. Amazon RDS
C. EC2
D. Amazon S3
10. Google Cloud Platform's storage service is:
A. Google Driver
B. Google Cloud Storage
C. Goolge Functions
D. Google Cloud Datastore
11. Phương pháp suy diễn lùi trong xử lý tri thức của trí tuệ nhân tạo hiểu đúng nhất là:
A. Loại suy diễn để đưa ra kết luận thì dựa vào thông tin đã biết. Các thông tin đã biết có
quan hệ với nhau
B. Quá trình suy luận ngược xuất phát từ một số sự kiện ban đầu, ta tìm kiếm các sự kiện
đã sinh ra sự kiện này
C. Loại suy diễn có vẻ hợp lý từ các sự kiện và thông tin đã biết. Với suy diễn giả định
thì câu kết luận có thể đúng cũng có thể không đúng
D. Loại suy diễn để rút ra một kết luận tổng quát từ một tập các sự kiện đã liệt kê trước
12. On Google Cloud Platform, the data analysis service provided is:
A. Google Data Catalog
B. Goolge Functions
C. Google BigQuery
D. Google Cloud Dataprep
13. Which of the following statements about the dimensions of big data is not correct?
A. Variety refers to big data coming in many different forms
B. Veracity refers to the accuracy or truthfulness of data
C. Vision refers to the insight that can be gained from data
D. Velocity refers to the speed at which data is generated and analyzed
14. What is the commonly used measurement of data volume in Big Data?
A. Gigabyte (Gb) or Terabyte (Tb)
B. Megabyte (Mb) or Gigabyte (Gb)
C. Megabyte (Mb)
D. Terabyte (Tb) or Petabyte (Pb)
2
15. Which of the following platforms is not a popular tool for big data processing?
A. Hadoop
B. MySQL
C. Spark
D. Cassandra
16. Tương tác giữa người và máy tính trong Trí tuệ nhân tạo chủ yếu là:
A. Qua giao diện người - máy tính sử dụng âm thanh
B. Qua giao diện người - máy tính sử dụng văn bản
C. Qua giao diện người - máy tính sử dụng menu
D. Qua giao diện tự động
17. Which is not the core problem of artificial intelligence?
A. Reasoning
B. Machine manufacturing
C. Representing
D. Learning
18. Which term refers to the ability of computers to surpass humans?
A. Artificial Narrow Intelligence
B. Artificial General Intelligence
C. Artificial Min Intelligence
D. Artificial Super Intelligence
19. With data classification problems in machine learning and deep learning, which of the
following statements is correct?
A. The output only receives values from a discrete set and real numbers
B. The output only receives values from real numbers
C. The output only receives values from a discrete set
D. The output receives all values the output accepts all types of values
20. ChatGPT can be used in which of the following areas?
A. Broadcasting
B. Cooking
C. Text digitization
D. Healthcare
21. The correct statement about the heuristic function in AI problem solving is:
A. It is the estimate of the possibility of leading to a solution
B. It is the cost of the possibility of leading to a solution
C. It is the possibility of leading to a solution
D. It is the cost and possibility to lead to a solution
3
22. What are the outstanding benefits of Cloud Computing with big data?
A. Limiting investment in machinery
B. Optimizing maintenance costs
C. Real-time analysis
D. All of the above
23. Which of the following AI technologies is not commonly used for big data analysis?
A. Natural Language Processing
B. Machine Learning
C. Word Processing Programs
D. Computer Vision
24. Hoàn thiện đoạn code và xác định đâu là test cases đúng cho bài toán sau:
Cho hai ma trận A và B. Ma trận C là kết quả nhân ma trận (Matrix multiplication) của ma trận A và B. Tính C.
A. A = [[8, 8, 1], [2, 7, 1]], B = [[8, 1], [7, 1], [2, 8]], C = [[122, 24], [ 65, 9]]
B. A = [[1, 2], [3, 4]], B = [[5, 6], [7, 8]], C = [[19, 22], [43, 50]]
C. A = [[5, 2], [3, 4]], B = [[5, 6], [7, 8], [3, 4]], C = [[2, 5, 9], [3, 4, 12]]
D. A = [[1, 2, 3], [4, 5, 6]], B = [[7, 8], [9, 10], [11, 12]], C = [[ 58, 64], [139, 150]]
25. Trong phân loại Naive Bayes, giả định nào được đưa ra về các đặc trưng (features)?
A. Các đặc trưng phải phụ thuộc lẫn nhau
B. Các đặc trưng phải tuân theo phân phối chuẩn
C. Các đặc trưng phải là biến liên tục
D. Các đặc trưng phải độc lập có điều kiện với nhau khi biết lớp
26: Hoàn thiện đoạn code và xác định đâu là test cases đúng cho bài toán sau:
Cho tập data X, tính phương sai (variance), độ lệch chuẩn (standard deviation) của X.
4
A. X = [18 92 5 34 3 5 70 63 8 28 38 47 85 68 23]
(variance, std_dev) = (851.9822222222222, 29.188734508748784)
B. X = [84 30 26 85 40 69 28 28 85 33 81 29 9 24 3]
(variance, std_dev) = (756.9066666666666, 27.87304552191358)
C. X = [56 78 73 32 24 11 96 34 57 13 65 16 92 4 29]
(variance, std_dev) = (669.0222222222221, 29.479182862186363)
D. X = [41 35 89 1 35 90 58 61 99 25 75 9 30 6 44]
(variance, std_dev) = (827.448888888889, 30.28941876115963)
27. Phương pháp chấm điểm tín dụng sử dụng dữ liệu lớn (big data) và trí tuệ nhân tạo
(AI) thì dữ liệu có giá trị là gì?
A. Hóa đơn thanh toán các loại cước phí
B. Thói quen mua sắm online
C. Dữ liệu hành vi
D. Tất cả các phương án trên
28. Chọn phát biểu đúng?
A. Dữ liệu nhiều hơn thông tin, thông tin ít hơn tri thức
B. Dữ liệu ít hơn thông tin, thông tin ít hơn tri thức
C. Dữ liệu nhiều hơn thông tin, thông tin nhiều hơn tri thức
D. Dữ liệu ít hơn thông tin, thông tin nhiều hơn tri thức
29. Học máy được hiểu đúng nhất là:
A. Là một lĩnh vực khoa học rộng lớn giúp máy móc bắt chước hành vi của con người
B. Là một lĩnh vực khoa học của trí tuệ nhân tạo, liên quan đến lĩnh vực nghiên cứu nhằm
giúp máy tính có khả năng tự động học bằng cách cung cấp dữ liệu cho nó mà không cần
lập trình cụ thể.
C. Là một lĩnh vực khoa học của trí tuệ nhân tạo để giải quyết các vấn đề phức tạp
D. Là một lĩnh vực khoa học của trí tuệ nhân tạo, liên quan đến lĩnh vực nghiên cứu
nhằm giúp máy tính chước hành vi của con người.
30. Đâu là phát biểu đúng nhất về mạng nơ ron nhân tạo?
A. Là mạng xử lý thông tin để đưa ra quyết định như con người
B. Là mạng mà dữ liệu đầu vào có thể là dữ liệu gán nhãn và không gán nhãn
C. Là một công cụ trong lĩnh vực trí tuệ nhân tạo, được sử dụng để dạy máy tính xử lý dữ
liệu theo cách được lấy cảm hứng từ bộ não con người
D. Tất cả các phương án trên
II. Phần TRẮC LUẬN (5 câu): (4 điểm/1 câu).
31. Given the main tasks:
5
A. Selection model, training model
B. Data preparation
C. Changing parameters, applying the model
D. Model evaluation
The correct sequence of tasks to build a machine learning model (fill in the correct
order): ………………………(Ex:ABCD)……
32. Output:. (Ex: 6.50)
33. Given 4 practical applications following: Spam email filtering, website classification,
house price prediction, detecting cyber attacks. Finding the most suitable word to fill in
the blank ‘…..(Ex: Abc/ Def/ Ghi/ Jkl)…..’ in the following clause: “These are practical
applications of ……… learning”.
34. Which of the following tasks that ChatGPT can not do?
A. Ordering food online
B. Generating text automatically
C. Playing games on your phone
D. Sending emails automatically
35. Which of the following statements about Generative Artificial Intelligence (Gen AI)
is correct?
A. It is a type of AI system that can generate new content based on various types of input
data
B. AI models generate patterns and structures of their input data to generate new data
with similar characteristics
C. The input and output data of a generative AI system can include text, images, audio,
animations
D. None of the statements is correct
6

Preview text:

I. TRẮC NGHIỆM (30 câu): 2 điểm/1 câu.
1. What types of data does the big data include? A. Unstructured data B. Structured data C. Semi-structured data D. All of the above
2. In the context of big data management and analysis, what is "Hadoop"?
A. The popular programming language
B. The distributed big data processing framework C. The malware
D. The large data storage device
3. Choosing the correct 5 characteristics of big data?
A. Volume, Variability, Veracity, Visualization, Value
B. Volume, Videos, Velocity, Variability, Value
C. Volume, Velocity, Variety, Veracity, Value
D. Volume, Velocity, Veracity, Visualization, Value
4. Velocity is a characteristic of?
A. The speed of processing large data
B. The speed of increasing large data volume
C. The speed of updating large data
D. The speed of storing large data
5. Which of the following is not a method of big data processing? A. Acquire B. Organize C. Analyze D. Review
6. Phát biểu đúng về "Data Lake" trong ngữ cảnh của dữ liệu lớn là:
A. Dữ liệu bị rò rỉ từ cơ sở dữ liệu
B. Một cơ sở dữ liệu đặc biệt lớn, được tối ưu hóa cho việc phân tích
C. Một kho lưu trữ lớn gồm dữ liệu thô chưa qua xử lý
D. Dữ liệu được mô phỏng trong môi trường ảo
7. The type of unstructured data is? A. Table B. Video C. XML D. All of the above
8. What are the advantages of the HDFS (Hadoop Distributed File System)? 1
A. Parallel storage, distributed processing, high availability
B. Parallel distributed processing, fault tolerance
C. Distributed storage, parallel processing, high fault tolerance D. All of the above
9. What is Amazon's data storage service – AWS? A. Amazon Lambda B. Amazon RDS C. EC2 D. Amazon S3
10. Google Cloud Platform's storage service is: A. Google Driver B. Google Cloud Storage C. Goolge Functions D. Google Cloud Datastore
11. Phương pháp suy diễn lùi trong xử lý tri thức của trí tuệ nhân tạo hiểu đúng nhất là:
A. Loại suy diễn để đưa ra kết luận thì dựa vào thông tin đã biết. Các thông tin đã biết có quan hệ với nhau
B. Quá trình suy luận ngược xuất phát từ một số sự kiện ban đầu, ta tìm kiếm các sự kiện đã sinh ra sự kiện này
C. Loại suy diễn có vẻ hợp lý từ các sự kiện và thông tin đã biết. Với suy diễn giả định
thì câu kết luận có thể đúng cũng có thể không đúng
D. Loại suy diễn để rút ra một kết luận tổng quát từ một tập các sự kiện đã liệt kê trước
12. On Google Cloud Platform, the data analysis service provided is: A. Google Data Catalog B. Goolge Functions C. Google BigQuery D. Google Cloud Dataprep
13. Which of the following statements about the dimensions of big data is not correct?
A. Variety refers to big data coming in many different forms
B. Veracity refers to the accuracy or truthfulness of data
C. Vision refers to the insight that can be gained from data
D. Velocity refers to the speed at which data is generated and analyzed
14. What is the commonly used measurement of data volume in Big Data?
A. Gigabyte (Gb) or Terabyte (Tb)
B. Megabyte (Mb) or Gigabyte (Gb) C. Megabyte (Mb)
D. Terabyte (Tb) or Petabyte (Pb)
2
15. Which of the following platforms is not a popular tool for big data processing? A. Hadoop B. MySQL C. Spark D. Cassandra
16. Tương tác giữa người và máy tính trong Trí tuệ nhân tạo chủ yếu là:
A. Qua giao diện người - máy tính sử dụng âm thanh
B. Qua giao diện người - máy tính sử dụng văn bản
C. Qua giao diện người - máy tính sử dụng menu
D. Qua giao diện tự động
17. Which is not the core problem of artificial intelligence? A. Reasoning B. Machine manufacturing C. Representing D. Learning
18. Which term refers to the ability of computers to surpass humans?
A. Artificial Narrow Intelligence
B. Artificial General Intelligence C. Artificial Min Intelligence
D. Artificial Super Intelligence
19. With data classification problems in machine learning and deep learning, which of the
following statements is correct?
A. The output only receives values from a discrete set and real numbers
B. The output only receives values from real numbers
C. The output only receives values from a discrete set
D. The output receives all values the output accepts all types of values
20. ChatGPT can be used in which of the following areas? A. Broadcasting B. Cooking C. Text digitization D. Healthcare
21. The correct statement about the heuristic function in AI problem solving is:
A. It is the estimate of the possibility of leading to a solution
B. It is the cost of the possibility of leading to a solution
C. It is the possibility of leading to a solution
D. It is the cost and possibility to lead to a solution 3
22. What are the outstanding benefits of Cloud Computing with big data?
A. Limiting investment in machinery
B. Optimizing maintenance costs C. Real-time analysis D. All of the above
23. Which of the following AI technologies is not commonly used for big data analysis? A. Natural Language Processing B. Machine Learning C. Word Processing Programs D. Computer Vision
24. Hoàn thiện đoạn code và xác định đâu là test cases đúng cho bài toán sau:
Cho hai ma trận A và B. Ma trận C là kết quả nhân ma trận (Matrix multiplication) của ma trận A và B. Tính C.
A. A = [[8, 8, 1], [2, 7, 1]], B = [[8, 1], [7, 1], [2, 8]], C = [[122, 24], [ 65, 9]]
B. A = [[1, 2], [3, 4]], B = [[5, 6], [7, 8]], C = [[19, 22], [43, 50]]
C. A = [[5, 2], [3, 4]], B = [[5, 6], [7, 8], [3, 4]], C = [[2, 5, 9], [3, 4, 12]]
D. A = [[1, 2, 3], [4, 5, 6]], B = [[7, 8], [9, 10], [11, 12]], C = [[ 58, 64], [139, 150]]
25. Trong phân loại Naive Bayes, giả định nào được đưa ra về các đặc trưng (features)?
A. Các đặc trưng phải phụ thuộc lẫn nhau
B. Các đặc trưng phải tuân theo phân phối chuẩn
C. Các đặc trưng phải là biến liên tục
D. Các đặc trưng phải độc lập có điều kiện với nhau khi biết lớp
26: Hoàn thiện đoạn code và xác định đâu là test cases đúng cho bài toán sau:
Cho tập data X, tính phương sai (variance), độ lệch chuẩn (standard deviation) của X. 4
A. X = [18 92 5 34 3 5 70 63 8 28 38 47 85 68 23]
(variance, std_dev) = (851.9822222222222, 29.188734508748784)
B. X = [84 30 26 85 40 69 28 28 85 33 81 29 9 24 3]
(variance, std_dev) = (756.9066666666666, 27.87304552191358)
C. X = [56 78 73 32 24 11 96 34 57 13 65 16 92 4 29]
(variance, std_dev) = (669.0222222222221, 29.479182862186363)
D. X = [41 35 89 1 35 90 58 61 99 25 75 9 30 6 44]
(variance, std_dev) = (827.448888888889, 30.28941876115963)
27. Phương pháp chấm điểm tín dụng sử dụng dữ liệu lớn (big data) và trí tuệ nhân tạo
(AI) thì dữ liệu có giá trị là gì?
A. Hóa đơn thanh toán các loại cước phí B. Thói quen mua sắm online C. Dữ liệu hành vi
D. Tất cả các phương án trên
28. Chọn phát biểu đúng?
A. Dữ liệu nhiều hơn thông tin, thông tin ít hơn tri thức
B. Dữ liệu ít hơn thông tin, thông tin ít hơn tri thức
C. Dữ liệu nhiều hơn thông tin, thông tin nhiều hơn tri thức
D. Dữ liệu ít hơn thông tin, thông tin nhiều hơn tri thức
29. Học máy được hiểu đúng nhất là:
A. Là một lĩnh vực khoa học rộng lớn giúp máy móc bắt chước hành vi của con người
B. Là một lĩnh vực khoa học của trí tuệ nhân tạo, liên quan đến lĩnh vực nghiên cứu nhằm
giúp máy tính có khả năng tự động học bằng cách cung cấp dữ liệu cho nó mà không cần lập trình cụ thể.
C. Là một lĩnh vực khoa học của trí tuệ nhân tạo để giải quyết các vấn đề phức tạp
D. Là một lĩnh vực khoa học của trí tuệ nhân tạo, liên quan đến lĩnh vực nghiên cứu
nhằm giúp máy tính chước hành vi của con người.
30. Đâu là phát biểu đúng nhất về mạng nơ ron nhân tạo?
A. Là mạng xử lý thông tin để đưa ra quyết định như con người
B. Là mạng mà dữ liệu đầu vào có thể là dữ liệu gán nhãn và không gán nhãn
C. Là một công cụ trong lĩnh vực trí tuệ nhân tạo, được sử dụng để dạy máy tính xử lý dữ
liệu theo cách được lấy cảm hứng từ bộ não con người
D. Tất cả các phương án trên
II. Phần TRẮC LUẬN (5 câu): (4 điểm/1 câu). 31. Given the main tasks: 5
A. Selection model, training model B. Data preparation
C. Changing parameters, applying the model D. Model evaluation
The correct sequence of tasks to build a machine learning model (fill in the correct
order): ………………………(Ex:ABCD)……
32. Output:………. (Ex: 6.50)
33. Given 4 practical applications following: Spam email filtering, website classification,
house price prediction, detecting cyber attacks. Finding the most suitable word to fill in
the blank ‘…..(Ex: Abc/ Def/ Ghi/ Jkl)…..’ in the following clause: “These are practical
applications of ……… learning”.
34. Which of the following tasks that ChatGPT can not do? A. Ordering food online
B. Generating text automatically C. Playing games on your phone
D. Sending emails automatically
35. Which of the following statements about Generative Artificial Intelligence (Gen AI) is correct?
A. It is a type of AI system that can generate new content based on various types of input data
B. AI models generate patterns and structures of their input data to generate new data with similar characteristics
C. The input and output data of a generative AI system can include text, images, audio, animations
D. None of the statements is correct 6