



















Preview text:
lOMoAR cPSD| 58968691
100 CÂU HỎI TRẮC NGHIỆM TỪ FILE
4.3.BIGDATA_SPARK (LAMBDA & KAPPA)
Câu 1. Kiến trúc Lambda được đề xuất bởi ai? • A. Jay Kreps • B. Nathan Marz ✅ • C. Jeff Dean • D. James Gosling
Câu 2. Một ưu điểm nổi bật của kiến trúc Lambda là:
• A. Chỉ dùng một đường xử lý
• B. Tốc độ xử lý cao nhưng không lưu trữ
• C. Kết hợp được độ chính xác và tốc độ thông qua hai lớp xử lý ✅ D. Không cần xử lý hàng loạt
Câu 3. Lớp xử lý nhanh trong kiến trúc Lambda có đặc điểm gì?
• A. Xử lý dữ liệu lớn trong quá khứ
• B. Đảm bảo độ chính xác cao
• C. Xử lý dữ liệu mới theo thời gian thực ✅ D. Chỉ lưu trữ dữ liệu cũ
Câu 4. Lớp xử lý hàng loạt trong kiến trúc Lambda có vai trò gì?
• A. Phân tích dữ liệu mới theo thời gian thực
• B. Trực tiếp trả kết quả cho người dùng
• C. Xử lý toàn bộ dữ liệu lưu trữ và tạo khung nhìn hàng loạt ✅ D. Lưu trữ tạm
thời dữ liệu cảm biến lOMoAR cPSD| 58968691
Câu 5. Một hạn chế lớn của kiến trúc Lambda là gì?
A. Không mở rộng được
B. Không hỗ trợ dữ liệu thời gian thực
C. Logic xử lý bị trùng lặp ở cả hai lớp xử lý ✅
• D. Thiếu độ tin cậy
Câu 6. Kiến trúc Kappa được đề xuất nhằm mục đích gì?
• A. Thay thế Spark Streaming
• B. Đơn giản hóa kiến trúc Lambda ✅
• C. Tăng độ trễ xử lý D. Xử lý offline
Câu 7. Kiến trúc Kappa sử dụng bao nhiêu đường xử lý dữ liệu? • A. Hai đường • B. Một đường ✅ • C. Ba đường • D. Bốn đường
Câu 8. Ưu điểm chính của kiến trúc Kappa so với Lambda là:
• A. Dễ triển khai và bảo trì ✅
• B. Độ chính xác cao hơn
• C. Hỗ trợ nhiều định dạng dữ liệu hơn D. Tích hợp với SQL tốt hơn
Câu 9. Kiến trúc Lambda thích hợp khi nào?
• A. Không yêu cầu xử lý hàng loạt
• B. Cần truy vấn nhanh và dữ liệu bất biến ✅
• C. Dữ liệu đến chậm
• D. Không lưu trữ dữ liệu lOMoAR cPSD| 58968691
Câu 10. Trong kiến trúc Lambda, dữ liệu được lưu trữ trong:
• A. Khung nhìn thời gian thực
B. Cơ sở dữ liệu NoSQL duy nhất C. Lớp xử lý nhanh
D. Lớp xử lý hàng loạt ✅
Câu 11. Trong kiến trúc Lambda, kết quả trả về cho người dùng được tổng hợp từ: • A. Lớp lưu trữ
• B. Lớp xử lý nhanh và xử lý hàng loạt ✅
• C. Trình theo dõi trạng thái
• D. Dữ liệu gốc chưa xử lý
Câu 12. Lambda architecture yêu cầu cập nhật kết quả từ lớp nào để đạt tính chính xác lâu dài? • A. Lớp xử lý nhanh • B. Lớp lưu trữ tạm
• C. Lớp xử lý hàng loạt ✅ D. Cơ sở dữ liệu quan hệ
Câu 13. Kappa architecture đặc biệt phù hợp với loại dữ liệu nào sau đây? • A. Dữ liệu theo lô
• B. Dữ liệu theo thời gian thực ✅
• C. Dữ liệu văn bản lớn • D. Tập tin ảnh y tế
Câu 14. Nhược điểm chính của Lambda architecture khiến nhiều người chuyển sang Kappa là:
• A. Không thể xử lý batch • B. Thiếu hỗ trợ SQL lOMoAR cPSD| 58968691
• C. Quản lý logic xử lý trùng lặp phức tạp ✅ D. Không hỗ trợ streaming
Câu 15. Kappa architecture xử lý lại dữ liệu quá khứ bằng cách:
A. Duyệt lại từ lớp xử lý hàng loạt
B. Chạy lại stream từ dữ liệu đã lưu ✅
C. Không thể xử lý lại dữ liệu quá khứ • D. Tạo mới schema
Câu 16. Lambda architecture thường sử dụng công cụ nào để xử lý dữ liệu theo lô? • A. Apache Flink • B. Apache Spark ✅
• C. Apache Storm D. Apache NiFi
Câu 17. Công cụ phổ biến cho lớp xử lý nhanh trong Lambda architecture là: • A. Apache Spark • B. Apache Hive
• C. Apache Storm hoặc Spark Streaming ✅ D. Hadoop MapReduce
Câu 18. Trong Lambda, dữ liệu đầu vào được ghi vào lớp nào trước tiên? • A. Lớp lưu trữ ✅ • B. Lớp kết quả • C. Lớp xử lý nhanh
• D. Trực tiếp đến người dùng
Câu 19. Đặc trưng của lớp xử lý nhanh là gì?
• A. Chỉ xử lý dữ liệu văn bản lOMoAR cPSD| 58968691
• B. Độ trễ thấp, phản hồi nhanh ✅
• C. Độ chính xác cao nhất
• D. Kết hợp batch và stream
Câu 20. Mục tiêu chính của kiến trúc Lambda là gì? • A. Chỉ xử lý stream
B. Tối ưu hóa tốc độ mạng
C. Kết hợp tính chính xác của batch với tốc độ của stream ✅
D. Tách dữ liệu thành ảnh và âm thanh
Câu 21. Thành phần nào đảm nhiệm việc lưu trữ dữ liệu gốc trong Lambda Architecture? • A. Serving Layer • B. Batch Layer ✅ • C. Speed Layer • D. Stream Processor
Câu 22. Kappa Architecture chủ yếu sử dụng kiến trúc nào?
• A. Lưu trữ phân tán và batch
• B. Stream processing với replayable logs ✅
• C. Tích hợp batch và OLAP
• D. Hadoop MapReduce truyền thống
Câu 23. Một nhược điểm của Lambda Architecture là chi phí duy trì:
• A. Dung lượng lưu trữ lớn
• B. Số lượng công cụ học máy
• C. Hai pipeline song song với logic trùng lặp ✅ D. Cơ sở dữ liệu nhiều định dạng lOMoAR cPSD| 58968691
Câu 24. Lambda Architecture sử dụng gì để tạo khung nhìn toàn diện? • A. View Layer • B. Serving Layer ✅ • C. Database Engine • D. Streaming Cache
Câu 25. Trong Kappa, muốn xử lý lại toàn bộ dữ liệu ta cần:
• A. Reset toàn bộ cluster
• B. Đọc lại toàn bộ log từ đầu ✅
C. Ghi lại dữ liệu vào batch D. Bật chế độ rollback lOMoAR cPSD| 58968691
Câu 26. Ưu điểm nào giúp Kappa trở nên hấp dẫn hơn Lambda trong nhiều hệ thống?
• A. Ít cần bảo trì hơn vì chỉ có một pipeline ✅
• B. Phân tích ảnh hiệu quả hơn
• C. Dễ dàng quản lý nhiều schema cùng lúc D. Tối ưu hóa tốc độ đọc file
Câu 27. Thành phần Batch Layer có nhiệm vụ chính gì?
• A. Truy vấn thời gian thực • B. Truy xuất log ghi
• C. Xử lý toàn bộ dữ liệu để tái tính toán kết quả ✅ D. Giao tiếp với người dùng
Câu 28. Serving Layer nhận dữ liệu đầu vào từ đâu? • A. Speed Layer • B. Batch Layer ✅
• C. Streaming Source D. Output Queue
Câu 29. Kappa Architecture phù hợp nhất cho hệ thống nào? • A. Chỉ xử lý ảnh
• B. Phân tích log thời gian thực ✅
• C. Báo cáo tài chính theo quý
• D. Dữ liệu vĩnh viễn không thay đổi
Câu 30. Công cụ phổ biến để xây dựng Kappa Architecture là: • A. Apache Hive
• B. Apache Kafka + Kafka Streams ✅ • C. Apache Pig • D. Hadoop HDFS
Câu 31. Speed Layer thường được triển khai bằng công cụ nào sau đây? • A. Apache Hadoop
• B. Apache Storm hoặc Spark Streaming ✅ lOMoAR cPSD| 58968691 • C. Apache Hive D. Presto
Câu 32. Batch Layer tạo ra dữ liệu đầu ra ở dạng gì?
• A. Dòng dữ liệu liên tục
• B. Khung nhìn đã tính toán (precomputed views) ✅
• C. Cơ sở dữ liệu không cấu trúc D. Log nén
Câu 33. Thành phần chính của Kappa là hệ thống log nào sau đây? • A. Apache Hive • B. Apache Kafka ✅
• C. Apache Parquet D. Apache Flume
Câu 34. Kiến trúc nào không phân biệt batch và stream? • A. Lambda • B. Hadoop • C. Kappa ✅ D. OLAP
Câu 35. Một điểm giống nhau giữa Lambda và Kappa là:
• A. Đều yêu cầu hai lớp xử lý
• B. Đều có thể xử lý dữ liệu thời gian thực ✅
• C. Đều cần Serving Layer D. Đều dùng Hive
Câu 36. Thành phần nào trong Lambda chịu trách nhiệm phục vụ truy vấn? A. Serving Layer ✅ B. Batch Layer C. Data Ingestor • D. Kafka Broker
Câu 37. Đặc điểm nào đúng với dữ liệu trong Kappa Architecture? lOMoAR cPSD| 58968691
• A. Dữ liệu được xử lý lại bằng batch
• B. Dữ liệu lưu trong file tạm
• C. Dữ liệu ghi vào log và stream xử lý ✅ D. Dữ liệu lưu trữ dạng cấu trúc
Câu 38. Công cụ phổ biến để lưu trữ log trong Kappa là: • A. Apache HBase • B. Apache Kafka ✅
• C. Apache Flink D. PostgreSQL
Câu 39. Trong Lambda Architecture, truy vấn kết quả sẽ ưu tiên lấy từ: • A. Lớp batch • B. Lớp lưu trữ thô
• C. Lớp xử lý nhanh ✅ D. Đám mây
Câu 40. Một ví dụ điển hình sử dụng kiến trúc Lambda là: • A. Hệ thống nhúng • B. Google Analytics ✅
• C. Trình chỉnh sửa văn bản D. Máy in 3D
Câu 41. Trong kiến trúc Lambda, dữ liệu từ lớp xử lý nhanh thường được: A. Lưu trữ vĩnh viễn lOMoAR cPSD| 58968691 B. Xoá sau khi xử lý
C. Gửi trực tiếp đến người dùng để hiển thị nhanh ✅
D. Đồng bộ với lớp batch
Câu 42. Ưu điểm của Serving Layer trong Lambda Architecture là:
• A. Lưu trữ dữ liệu đầu vào
• B. Cập nhật kết quả theo batch ✅
• C. Chuyển đổi dữ liệu thô thành dữ liệu sạch D. Lưu log sự kiện
Câu 43. Kiến trúc Lambda yêu cầu dữ liệu gốc phải được: • A. Lưu trong RAM
• B. Ghi đè theo thời gian
• C. Lưu trữ đầy đủ và không thay đổi ✅
• D. Mã hóa và chia nhỏ
Câu 44. Trong Kappa Architecture, để triển khai nhiều phiên bản xử lý khác nhau ta có thể:
• A. Dùng cơ chế batch mới
• B. Tạo lại serving layer
• C. Re-process dữ liệu từ log stream ✅ D. Ghi đè dữ liệu gốc
Câu 45. Lambda Architecture có thể tạo khung nhìn dựa trên dữ liệu: • A. Thời gian thực ✅ • B. Không cấu trúc • C. Rời rạc • D. Dạng video lOMoAR cPSD| 58968691
Câu 46. Thành phần nào trong Lambda Architecture được thiết kế để giảm độ trễ? A. Batch Layer B. Serving Layer C. Speed Layer ✅ D. Data Lake
Câu 47. Tại sao dữ liệu cần được lưu trữ bất biến trong Lambda?
• A. Để làm nhẹ bộ nhớ
• B. Để phân phối dữ liệu dễ dàng hơn
• C. Để tái xử lý và tái tính toán khi cần ✅ D. Để nén dữ liệu hiệu quả
Câu 48. Kiến trúc Kappa chủ yếu dựa trên khái niệm gì?
• A. Dữ liệu dạng batch • B. Graph-based processing
• C. Event sourcing và log-based ✅ D. Bộ nhớ phân tán
Câu 49. Thành phần nào chịu trách nhiệm tạo precomputed views trong Lambda? • A. Speed Layer • B. Serving Layer • C. Batch Layer ✅ • D. Stream Processor
Câu 50. Kappa Architecture thích hợp với hệ thống nào sau đây?
• A. Giao dịch ngân hàng offline
• B. Xử lý hình ảnh độ phân giải cao
• C. Streaming dữ liệu từ thiết bị IoT ✅ D. Lưu trữ tệp tin video lOMoAR cPSD| 58968691
Câu 51. Trong kiến trúc Lambda, dữ liệu đầu vào có thể được dùng lại nhờ: A. Cơ chế log từ Kafka
B. Tính bất biến của dữ liệu gốc ✅ C. Phân tán qua DataFrame
D. Tự động ghi đè dữ liệu
Câu 52. Lý do chính khiến Lambda khó bảo trì là do:
• A. Batch Layer không ổn định
• B. Speed Layer thiếu tính mở rộng
• C. Phải duy trì hai pipeline xử lý có logic tương tự ✅ D. Dữ liệu cập nhật quá nhanh
Câu 53. Trong Lambda, dữ liệu thô được dùng để:
• A. Truy vấn trực tiếp
• B. Đào tạo mô hình học sâu
• C. Tái tính toán và kiểm tra lại kết quả ✅ D. Sinh dữ liệu giả lập
Câu 54. Kappa Architecture có thể xử lý lại toàn bộ dữ liệu nếu:
• A. Re-deploy pipeline xử lý mới ✅
• B. Xoá log và xử lý lại • C. Dừng cluster
• D. Kết hợp với Spark SQL
Câu 55. Thành phần không tồn tại trong Kappa Architecture là: • A. Speed Layer • B. Batch Layer ✅
• C. Stream Processor D. Log-based Input lOMoAR cPSD| 58968691
Câu 56. Cách mà Lambda xử lý sự khác biệt về thời gian đến của dữ liệu là:
• A. Phát hiện và bỏ qua B. Lưu log riêng biệt
C. Sử dụng lớp batch để hiệu chỉnh ✅ lOMoAR cPSD| 58968691
D. Dùng lớp stream để điều chỉnh
Câu 57. Serving Layer nên sử dụng định dạng dữ liệu nào để tăng tốc độ truy vấn? • A. JSON thô • B. Dạng file văn bản
• C. Dữ liệu đã được index hoặc columnar (Parquet) ✅ D. Dữ liệu nén GZIP
Câu 58. Kappa Architecture giúp tránh được vấn đề gì so với Lambda? • A. Dữ liệu lỗi
• B. Trùng logic xử lý ở hai nơi ✅
• C. Thiếu đồng bộ giữa batch và stream D. Cần quá nhiều RAM
Câu 59. Trong Lambda, logic xử lý ở Batch Layer thường được viết bằng: • A. SQL thuần
• B. Spark, Hadoop MapReduce ✅ • C. Kafka Streams • D. HTML và CSS
Câu 60. Lợi ích lớn nhất của Lambda Architecture là:
• A. Phù hợp cho dữ liệu nhỏ
• B. Kết hợp tốc độ xử lý và độ chính xác ✅
• C. Không yêu cầu lưu dữ liệu D. Dễ bảo trì và gỡ lỗi
Câu 61. Lambda Architecture hỗ trợ khôi phục dữ liệu bằng cách: • A. Dùng log từ Kafka
• B. Tính lại từ dữ liệu bất biến trong Batch Layer ✅ lOMoAR cPSD| 58968691
C. Backup bằng cơ sở dữ liệu quan hệ
D. Tái xử lý từ hệ thống đệm
Câu 62. Trong Kappa, để cập nhật thuật toán xử lý ta cần:
• A. Thay logic trong batch layer
• B. Chạy lại stream trên toàn bộ log ✅
• C. Ghi đè dữ liệu đầu vào
• D. Bật chế độ batch tạm thời
Câu 63. Lambda Architecture phù hợp nhất với hệ thống nào sau đây?
• A. Yêu cầu độ trễ thấp nhưng chấp nhận sai số
• B. Cần tính toán chính xác và cập nhật liên tục ✅
• C. Phân tích video real-time • D. Game offline
Câu 64. Thành phần nào của Lambda Architecture xử lý nhanh nhưng không đảm bảo toàn vẹn dữ liệu? • A. Serving Layer • B. Batch Layer
• C. Speed Layer ✅ D. Storage Node
Câu 65. Trong kiến trúc Lambda, dữ liệu đầu vào thường được lưu trữ dưới dạng: • A. Binary Logs
• B. Immutable Append-Only Files ✅ • C. Compressed Tables • D. Object Storage JSON
Câu 66. Điều gì xảy ra nếu Speed Layer trả về kết quả sai?
• A. Kết quả không được cập nhật
• B. Serving Layer sẽ tự xoá kết quả
• C. Kết quả sẽ được ghi đè khi Batch Layer hoàn tất ✅
• D. Toàn bộ hệ thống sẽ ngừng lOMoAR cPSD| 58968691
Câu 67. Kappa Architecture sử dụng lại dữ liệu bằng cách nào? • A. Lưu trữ trong Hive
• B. Lặp lại stream từ log nguồn ✅ • C. Truy vấn SQL động
• D. Sinh ngẫu nhiên dữ liệu cũ
Câu 68. Trong kiến trúc Lambda, khung nhìn hợp nhất được hình thành từ: • A. Speed Layer duy nhất
• B. Kết quả xử lý stream từ Kafka
• C. Gộp kết quả từ Speed và Batch Layer ✅ D. Tính toán lại từ đầu
Câu 69. Một thách thức của Lambda Architecture là gì?
• A. Không xử lý được dữ liệu thời gian thực
• B. Logic xử lý phức tạp và dễ bị trùng lặp ✅
• C. Không có công cụ mã nguồn mở hỗ trợ D. Thiếu kết nối mạng
Câu 70. Đặc điểm nổi bật của kiến trúc Kappa là:
• A. Xử lý dữ liệu bằng batch mỗi giờ
• B. Tách biệt hệ thống lưu trữ và xử lý
• C. Chỉ sử dụng một pipeline duy nhất ✅ D. Dựa vào replication giữa node master
Câu 71. Trong Kappa Architecture, toàn bộ logic xử lý được áp dụng qua:
• A. Các lớp batch riêng biệt
• B. Một pipeline xử lý stream duy nhất ✅
• C. Một hệ thống log phân mảnh
• D. Các node SQL độc lập
Câu 72. Lambda Architecture cần hệ thống lưu trữ nào để hỗ trợ batch? • A. Kafka Logs
• B. HDFS hoặc Data Lake ✅ lOMoAR cPSD| 58968691
• C. Redis Cache D. Web Server
Câu 73. Spark Streaming là công cụ lý tưởng cho lớp nào trong Lambda? • A. Serving Layer • B. Batch Layer
• C. Speed Layer ✅ D. Storage Layer
Câu 74. Ưu điểm lớn nhất của Kappa Architecture là gì?
• A. Xử lý đồng thời nhiều batch
• B. Không cần xử lý dữ liệu đầu vào
• C. Đơn giản hóa kiến trúc bằng một đường xử lý duy nhất ✅ D. Không cần lưu trữ log
Câu 75. Trong Lambda Architecture, lớp nào giúp xử lý dữ liệu gần như thời gian thực? • A. Batch Layer • B. Serving Layer
• C. Speed Layer ✅ D. Archival Layer
Câu 76. Lambda Architecture phù hợp nhất với loại dữ liệu nào?
• A. Dữ liệu ảnh và âm thanh
• B. Dữ liệu lớn, bất biến và có yêu cầu phân tích chính xác ✅
• C. Dữ liệu tạm thời D. Dữ liệu cá nhân
Câu 77. Khái niệm 'immutability' trong Lambda có nghĩa là gì? lOMoAR cPSD| 58968691
A. Dữ liệu có thể chỉnh sửa khi cần
B. Dữ liệu phải được mã hóa liên tục
C. Dữ liệu không bị thay đổi sau khi ghi ✅
• D. Dữ liệu tự động phân mảnh
Câu 78. Kafka Streams là lựa chọn phù hợp cho: • A. Batch Layer
• B. Speed Layer trong Lambda hoặc Kappa ✅ • C. Storage Engine • D. Quản lý metadata
Câu 79. Trong kiến trúc Lambda, truy vấn thường được thực hiện từ: • A. Speed Layer • B. Serving Layer ✅ • C. Batch Layer • D. Log đầu vào
Câu 80. Kiến trúc nào không cần Batch Layer để hoạt động? • A. Lambda Architecture • B. Kappa Architecture ✅ • C. Hadoop-based System • D. OLAP Architecture
Câu 81. Lý do chính khiến Kappa được ưa chuộng hơn Lambda trong một số hệ thống là gì?
• A. Dễ tích hợp với Hive
• B. Hỗ trợ batch song song
• C. Không có sự trùng lặp logic ✅ lOMoAR cPSD| 58968691
• D. Có thể xử lý dữ liệu không đồng bộ
Câu 82. Lambda Architecture có thể bị lỗi nếu lớp nào không đồng bộ? A. Serving Layer
B. Speed Layer và Batch Layer ✅ C. Input Layer • D. Cache Layer
Câu 83. Điều gì xảy ra khi dữ liệu đến không đúng thứ tự trong Lambda?
• A. Dữ liệu bị bỏ qua • B. Chuyển đến Kafka
• C. Được xử lý lại bởi lớp batch ✅
• D. Được chuyển thẳng đến người dùng
Câu 84. Trong Kappa, nếu thay đổi logic xử lý, bạn cần làm gì?
• A. Thay đổi lớp batch
• B. Tạo lại file Parquet
• C. Re-process toàn bộ log ✅ D. Reset Spark context
Câu 85. Lambda Architecture khó triển khai vì:
• A. Dùng Kafka không ổn định
• B. Dữ liệu không đồng nhất
• C. Yêu cầu duy trì hai hệ thống xử lý ✅ D. Chỉ chạy được trên Hadoop
Câu 86. Batch Layer trong Lambda giúp đảm bảo điều gì?
• A. Hiệu suất cao hơn stream lOMoAR cPSD| 58968691
• B. Truy xuất dữ liệu thời gian thực
• C. Kết quả chính xác lâu dài ✅ D. Loại bỏ log cũ
Câu 87. Lambda Architecture áp dụng nguyên lý nào trong lưu trữ dữ liệu? A. Update-in-place
B. Overwrite-based file update C. Immutable data ✅ D. Append with lock
Câu 88. Đặc điểm nào là đúng với Kafka trong kiến trúc Kappa?
• A. Lưu trữ theo hàng ngang
• B. Stream processor độc lập
• C. Hàng đợi có thể phát lại được ✅ D. SQL engine thời gian thực
Câu 89. Trong Lambda Architecture, dữ liệu đầu vào sẽ đi đâu đầu tiên? • A. Speed Layer • B. Serving Layer
• C. Lưu trữ bất biến trong Batch Layer ✅ D. Kafka Consumer
Câu 90. Serving Layer trong Lambda nên được thiết kế để:
• A. Lưu trữ dữ liệu thô
• B. Truy vấn hiệu suất cao ✅
• C. Ghi dữ liệu thời gian thực
• D. Trích xuất dữ liệu chưa xử lý
Câu 91. Trong Kappa Architecture, mọi xử lý đều đi qua: