13 trang 22 lượt tải

Câu hỏi ôn thi dữ liệu lớn | Học viện Công Nghệ Bưu Chính Viễn Thông

Câu hỏi ôn thi dữ liệu lớn | Học viện Công Nghệ Bưu Chính Viễn Thông. Tài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao. Mời đọc đón xem!

Môn: Dữ liệu lớn (MUL1331) 6 tài liệu

Trường: Học viện Công Nghệ Bưu Chính Viễn Thông 1.8 K tài liệu

Tác giả:

cream cheese

2 tháng trước

Tải xuống Báo cáo

Danh sách Quiz

Phần I

Câu 1: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên

quan tới khái niệm Dữ liệu Lớn. Tại sao cần áp dụng các công cụ

lưu trữ và phân tích dữ liệu đặc thù (Hadoop HDFS, MapReduce)

khi thực hiện phân tích Dữ liệu Lớn so với Dữ liệu truyền thống?

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa

dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống

dữ liệu truyền thống.

Các thuộc tính cơ bản (5V):

● Volume (khối lượng lớn),

● Velocity (tốc độ cao),

● Variety (đa dạng định dạng),

● Veracity (tính xác thực),

● Value (giá trị tiềm năng).

Lý do cần công cụ đặc thù: Dữ liệu Lớn yêu cầu hệ thống lưu trữ

phân tán như HDFS để lưu trữ hiệu quả và MapReduce để xử lý dữ

liệu song song, tăng hiệu năng so với hệ thống truyền thống vốn chỉ

lưu và xử lý trên 1 server.

Ví dụ: Facebook xử lý hàng petabyte dữ liệu người dùng mỗi ngày

bằng Hadoop.

Câu 2: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên

quan tới Dữ liệu Lớn. Liệt kê một số công nghệ và giải pháp phổ

biến trong phân tích Dữ liệu Lớn. Cho một thí dụ thực tế áp dụng

công nghệ và giải pháp phân tích Dữ liệu Lớn mà sinh viên dễ tìm

hiểu. Đâu là khó khăn chính khi thực hiện phân tích Dữ liệu Lớn?

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa

dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống

dữ liệu truyền thống.

Các thuộc tính cơ bản (5V):

● Volume (khối lượng lớn),

● Velocity (tốc độ cao),

● Variety (đa dạng định dạng),

● Veracity (tính xác thực),

● Value (giá trị tiềm năng).

Công nghệ phổ biến: Hadoop, Spark, Hive, Pig, Kafka.

Giải pháp phổ biến: Phân tích thời gian thực, học máy, trực quan hóa

dữ liệu, xử lý song song.

Ví dụ: Phân tích hành vi người dùng website thương mại điện tử bằng

Spark để cá nhân hóa quảng cáo.

Khó khăn chính:

● Quản lý dữ liệu lớn và phân tán,

● Đảm bảo chất lượng dữ liệu,

● Yêu cầu hạ tầng mạnh và nhân lực chuyên môn cao.

Câu 3: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên

quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ

liệu Lớn phổ biến trong môi trường điện toán đám mây Google

Cloud Platform.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa

dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống

dữ liệu truyền thống.

Các thuộc tính cơ bản (5V):

● Volume (khối lượng lớn),

● Velocity (tốc độ cao),

● Variety (đa dạng định dạng),

● Veracity (tính xác thực),

● Value (giá trị tiềm năng).

Google Cloud Platform (GCP) cung cấp dịch vụ như BigQuery,

Dataproc (chạy Hadoop/Spark), Cloud Storage cho lưu trữ.

Hoạt động:

● Dữ liệu được lưu trữ trên Cloud Storage,

● Xử lý bằng Dataproc (Spark, Hadoop),

● Truy vấn và phân tích dữ liệu lớn qua BigQuery.

Ví dụ: Công ty phân tích hành vi mua sắm người dùng qua BigQuery

để tối ưu chiến dịch quảng cáo.

Câu 4: Giải thích khái niệm Dữ liệu Lớn và các tính chất cơ bản

của nó. Kể tên một công cụ hoặc nền tảng phân tích Dữ liệu Lớn

tiêu biểu hoạt động trên Microsoft Azure hoặc Amazon Web

Services, đồng thời mô tả chức năng chính của công cụ đó.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa

dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống

dữ liệu truyền thống.

Các thuộc tính cơ bản (5V):

● Volume (khối lượng lớn),

● Velocity (tốc độ cao),

● Variety (đa dạng định dạng),

● Veracity (tính xác thực),

● Value (giá trị tiềm năng).

Azure cung cấp HDInsight (Hadoop/Spark), Azure Data Lake,

Azure Synapse Analytics.

Hoạt động:

● Dữ liệu lưu trữ trên Azure Data Lake,

● Xử lý phân tán bằng Spark/Hadoop trên HDInsight,

● Tổng hợp kết quả bằng Azure Synapse.

Ví dụ: Phân tích dữ liệu khách hàng từ nhiều chi nhánh ngân hàng

trên Azure Synapse để phát hiện gian lận.

Câu 5: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên

quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ

liệu Lớn trong môi trường điện toán đám mây Amazon Web

Servers.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa

dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống

dữ liệu truyền thống.

Các thuộc tính cơ bản (5V):

● Volume (khối lượng lớn),

● Velocity (tốc độ cao),

● Variety (đa dạng định dạng),

● Veracity (tính xác thực),

● Value (giá trị tiềm năng).

AWS cung cấp Amazon EMR (Elastic MapReduce), S3, Athena,

Redshift.

Hoạt động:

● Lưu trữ dữ liệu trên S3,

● Xử lý bằng EMR (Spark, Hadoop),

● Truy vấn phân tích với Athena hoặc Redshift.

Ví dụ: Netflix dùng Amazon EMR để xử lý dữ liệu người dùng nhằm

đề xuất phim phù hợp.

Câu 6: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên

quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ

liệu Lớn trong môi trường Hadoop DevOps trong môi trường

điện toán đám mây riêng, kết nối MS Visual Studio Code bằng

SSH với máy chủ của Khoa CNTT.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa

dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống

dữ liệu truyền thống.

Các thuộc tính cơ bản (5V):

● Volume (khối lượng lớn),

● Velocity (tốc độ cao),

● Variety (đa dạng định dạng),

● Veracity (tính xác thực),

● Value (giá trị tiềm năng).

Hadoop DevOps môi trường riêng là việc triển khai Hadoop trên

cụm server nội bộ.

Hoạt động:

● Triển khai HDFS, MapReduce hoặc Spark trên server nội bộ,

● Kết nối VS Code bằng SSH để viết, chạy code,

● Quản lý tiến trình xử lý và theo dõi bằng các công cụ giám sát

DevOps như Nagios, Prometheus.

Ví dụ: Sinh viên dùng VS Code SSH để chạy MapReduce phân tích

log hệ thống trên server khoa.

Câu 7: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên

quan tới Dữ liệu Lớn. Vai trò của ngôn ngữ lập trình Python, các

thư viện Python hỗ trợ phân tích dữ liệu lớn là gì? Cho thí dụ

thực tế mô tả hoạt động phân tích dữ liệu lớn bằng lập trình

Python.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa

dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống

dữ liệu truyền thống.

Các thuộc tính cơ bản (5V):

● Volume (khối lượng lớn),

● Velocity (tốc độ cao),

● Variety (đa dạng định dạng),

● Veracity (tính xác thực),

● Value (giá trị tiềm năng).

Python: phổ biến nhờ dễ học, cộng đồng lớn.

Thư viện phổ biến:

● Pandas (xử lý dữ liệu),

● PySpark (Spark với Python),

● Dask (xử lý dữ liệu lớn song song),

● Matplotlib, Seaborn (trực quan hóa).

Ví dụ: Dùng PySpark để lọc và tính toán dữ liệu giao dịch tài chính

từ hàng triệu dòng dữ liệu.

Câu 8: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên

quan tới Dữ liệu Lớn. Hãy trình bày mô hình và giải thích cơ chế

hoạt động của Hadoop Map/Reduce.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa

dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống

dữ liệu truyền thống.

Các thuộc tính cơ bản (5V):

● Volume (khối lượng lớn),

● Velocity (tốc độ cao),

● Variety (đa dạng định dạng),

● Veracity (tính xác thực),

● Value (giá trị tiềm năng).

Mô hình MapReduce:

● Map: Phân tách và xử lý từng phần nhỏ của dữ liệu.

● Reduce: Tổng hợp kết quả từ các bước Map.

Cơ chế:

● Dữ liệu phân mảnh trên HDFS,

● Chạy nhiều tiến trình Map xử lý song song,

● Kết quả được chuyển sang tiến trình Reduce để tổng hợp.

Ví dụ: Đếm số lần xuất hiện của từng từ trong 1 triệu file văn bản.

Câu 9: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên

quan tới Dữ liệu Lớn. Mô tả kiến trúc của hệ thống tập tin phân

tán HDFS và vai trò của HDFS trong phân tích Dữ liệu Lớn.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa

dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống

dữ liệu truyền thống.

Các thuộc tính cơ bản (5V):

● Volume (khối lượng lớn),

● Velocity (tốc độ cao),

● Variety (đa dạng định dạng),

● Veracity (tính xác thực),

● Value (giá trị tiềm năng).

HDFS (Hadoop Distributed File System):

● Gồm NameNode (quản lý metadata) và DataNode (lưu dữ liệu

thực tế),

● Dữ liệu được chia thành block và lưu trên nhiều DataNode.

Vai trò:

● Lưu trữ dữ liệu lớn một cách phân tán, an toàn và hiệu quả,

● Tăng khả năng mở rộng và giảm thiểu mất mát dữ liệu.

Ví dụ: Một file 2GB được chia thành các block 128MB, lưu trên

nhiều node để phân tích bằng MapReduce.

Lệnh

Chức năng

hdfs dfs -ls /

Liệt kê file/thư mục

trong HDFS

hdfs dfs -mkdir

/path

Tạo thư mục trong

HDFS

hdfs dfs -put

file.txt /path

Upload file từ local lên

HDFS

hdfs dfs -cat

/path/file.txt

Xem nội dung file trong

HDFS

hdfs dfs -rm

/path/file.txt

Xóa file trong HDFS

Câu 10: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên

quan tới Dữ liệu Lớn. Các thành phần chính trong kiến trúc phân

tích dữ liệu lớn Hadoop là gì? Giải thích các khái niệm HDFS,

Namenode, Datanode, Resource Manager.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa

dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống

dữ liệu truyền thống.

Các thuộc tính cơ bản (5V):

● Volume (khối lượng lớn),

● Velocity (tốc độ cao),

● Variety (đa dạng định dạng),

● Veracity (tính xác thực),

● Value (giá trị tiềm năng).

Thành phần kiến trúc Hadoop:

● HDFS (Hadoop Distributed File System):

Hệ thống tệp phân tán của Hadoop, lưu trữ dữ liệu trên nhiều

máy chủ, giúp xử lý dữ liệu lớn hiệu quả và đáng tin cậy.

● Namenode:

Là thành phần quản lý metadata (thông tin về tên, vị trí file).

Namenode không lưu dữ liệu thực, mà lưu bản đồ vị trí các

block dữ liệu.

● Datanode:

Là nơi lưu trữ dữ liệu thực tế dưới dạng các block. Datanode

gửi báo cáo trạng thái và dữ liệu về Namenode theo định kỳ.

● Resource Manager (thuộc YARN):

Quản lý tài nguyên trong hệ thống và phân phối nhiệm vụ đến

các NodeManager để xử lý song song.

Phần II

Trình bày môi trường vận hành Hadoop và quy trình đăng nhập

vào máy chủ (Fit -lab) bằng tài khoảng cá nhân nhân

+ Môi trường vận hành Hadoop

Hadoop vận hành trong mô hình cụm máy chủ (cluster) bao gồm

nhiều máy tính (nodes) kết nối với nhau, gồm 2 phần chính là

Kiến trúc Hadoop (Hadoop Distributed File System (HDFS):

Hệ thống tệp phân tán để lưu trữ dữ liệu lớn, YARN (Yet

Another Resource Negotiator): Quản lý tài nguyên và điều phối

tác vụ, MapReduce: Mô hình lập trình xử lý song song trên dữ

liệu lớn) và Cấu trúc máy chủ Hadoop ( NameNode (Master):

Quản lý siêu dữ liệu (metadata) và điều phối truy cập dữ liệu,

DataNode (Slave): Lưu trữ và xử lý dữ liệu thực tế,

ResourceManager & NodeManager: Quản lý tài nguyên và tiến

trình xử lý.)

+ Quy trình đăng nhập:

install Remote-SSH trên vsc

thực hiện câu lệnh trên terminal: ssh

2274802010374@fit-lab.vlu.edu.vn

Nhập mật khẩu đăng nhập

Trình bày các lệnh kiểm tra cấu hình hoạt động của DevOps

Hadoop

hadoop version kiểm tra phiên bản

jps kiểm tra trạng thái dịch vụ

cat $HADOOP_HOME/etc/hadoop/core-site.xml kiểm tra file cấu

hình

Trình bày các lệnh khởi động dịch vụ DevOps Hadoop

start-dfs.sh khởi động hdfs

start-yarn.sh khởi động YARN

jps kiểm tra trạng thái hoạt động

Trình bày các lệnh thực thi nhập xuất dữ liệu với HDFS

hdfs dfs -mkdir /user/mssv/input tạo thư mục

hdfs dfs -put tenfile.txt /user/mssv/input/ copy file

hdfs dfs -ls /user/mssv/input

hdfs dfs -get /user/mssv/output/ketqua.txt copy từ hdfs về local

hdfs dfs -cat /user/hadoop/input/localfile.txt xem nội dung

Trình bày nguyên tắc hoạt động của mapper và reducer trong bài

toán phân loại và đếm từ trong tập tin văn bản

Mapper: Nhận từng dòng văn bản, tách từ và phát ra cặp (từ, 1).

Ví dụ: dòng “hadoop big data” →

scss

(hadoop, 1)

(big, 1)

(data, 1)

Reducer: Nhận danh sách các (từ, 1), tính tổng số lần xuất hiện của

từng từ.

(hadoop, [1,1,1]) → (hadoop, 3)

Kết quả: danh sách từ và số lần xuất hiện → giúp phân loại, phân tích

văn bản.

PHẦN III

● Tên chủ đề:

Ứng dụng Công nghệ Lớn Hadoop trong quản lý hồ sơ bệnh

nhân ung thư phổi

● Nội dung thực hiện:

Đề tài tập trung vào việc thu thập, xử lý và phân tích dữ liệu hồ

sơ bệnh nhân ung thư phổi. Dữ liệu sau khi được tiền xử lý sẽ

được lưu trữ và quản lý bằng hệ thống tệp phân tán HDFS của

Hadoop. Sử dụng Spark để phân tích dữ liệu và huấn luyện mô

hình học máy Random Forest nhằm dự đoán nguy cơ mắc bệnh.

Ứng dụng được triển khai trên giao diện web (Flask) giúp người

dùng tải lên hồ sơ bệnh nhân (CSV/XLSX), hiển thị thông tin

chi tiết và kết quả dự đoán.

● Kết quả chính:

○ Tiền xử lý thành công tập dữ liệu bệnh nhân ung thư phổi.

○ Triển khai thành công hệ thống lưu trữ HDFS và xử lý dữ

liệu với Hadoop.

○ Huấn luyện mô hình Random Forest với độ chính xác cao

(trên 85%).

○ Xây dựng web app với 2 chức năng chính:

1. Xem và tìm kiếm hồ sơ bệnh nhân với biểu đồ trực

quan.

2. Tải lên hồ sơ bệnh nhân để dự đoán nguy cơ mắc

bệnh kèm theo xác suất từ

predict_proba.

○ Tích hợp thành công với hệ sinh thái Hadoop để hỗ trợ xử

lý và phân tích dữ liệu lớn.

Bấm Tải xuống để xem toàn bộ.

Preview text:

Phần I
Câu 1: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới khái niệm Dữ liệu Lớn. Tại sao cần áp dụng các công cụ
lưu trữ và phân tích dữ liệu đặc thù (Hadoop HDFS, MapReduce)
khi thực hiện phân tích Dữ liệu Lớn so với Dữ liệu truyền thống?
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
● Volume (khối lượng lớn),
● Velocity (tốc độ cao),
● Variety (đa dạng định dạng),
● Veracity (tính xác thực),
● Value (giá trị tiềm năng).
Lý do cần công cụ đặc thù: Dữ liệu Lớn yêu cầu hệ thống lưu trữ
phân tán như HDFS để lưu trữ hiệu quả và MapReduce để xử lý dữ
liệu song song, tăng hiệu năng so với hệ thống truyền thống vốn chỉ
lưu và xử lý trên 1 server.
Ví dụ: Facebook xử lý hàng petabyte dữ liệu người dùng mỗi ngày bằng Hadoop.
Câu 2: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Liệt kê một số công nghệ và giải pháp phổ
biến trong phân tích Dữ liệu Lớn. Cho một thí dụ thực tế áp dụng
công nghệ và giải pháp phân tích Dữ liệu Lớn mà sinh viên dễ tìm
hiểu. Đâu là khó khăn chính khi thực hiện phân tích Dữ liệu Lớn?
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
● Volume (khối lượng lớn),
● Velocity (tốc độ cao),
● Variety (đa dạng định dạng),
● Veracity (tính xác thực),
● Value (giá trị tiềm năng).
Công nghệ phổ biến: Hadoop, Spark, Hive, Pig, Kafka.
Giải pháp phổ biến: Phân tích thời gian thực, học máy, trực quan hóa
dữ liệu, xử lý song song.
Ví dụ: Phân tích hành vi người dùng website thương mại điện tử bằng
Spark để cá nhân hóa quảng cáo. Khó khăn chính:
● Quản lý dữ liệu lớn và phân tán,
● Đảm bảo chất lượng dữ liệu,
● Yêu cầu hạ tầng mạnh và nhân lực chuyên môn cao.
Câu 3: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ
liệu Lớn phổ biến trong môi trường điện toán đám mây Google Cloud Platform.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
● Volume (khối lượng lớn),
● Velocity (tốc độ cao),
● Variety (đa dạng định dạng),
● Veracity (tính xác thực),
● Value (giá trị tiềm năng).
Google Cloud Platform (GCP) cung cấp dịch vụ như BigQuery,
Dataproc (chạy Hadoop/Spark), Cloud Storage cho lưu trữ. Hoạt động:
● Dữ liệu được lưu trữ trên Cloud Storage,
● Xử lý bằng Dataproc (Spark, Hadoop),
● Truy vấn và phân tích dữ liệu lớn qua BigQuery.
Ví dụ: Công ty phân tích hành vi mua sắm người dùng qua BigQuery
để tối ưu chiến dịch quảng cáo.
Câu 4: Giải thích khái niệm Dữ liệu Lớn và các tính chất cơ bản
của nó. Kể tên một công cụ hoặc nền tảng phân tích Dữ liệu Lớn
tiêu biểu hoạt động trên Microsoft Azure hoặc Amazon Web
Services, đồng thời mô tả chức năng chính của công cụ đó.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
● Volume (khối lượng lớn),
● Velocity (tốc độ cao),
● Variety (đa dạng định dạng),
● Veracity (tính xác thực),
● Value (giá trị tiềm năng).
Azure cung cấp HDInsight (Hadoop/Spark), Azure Data Lake,
Azure Synapse Analytics. Hoạt động:
● Dữ liệu lưu trữ trên Azure Data Lake,
● Xử lý phân tán bằng Spark/Hadoop trên HDInsight,
● Tổng hợp kết quả bằng Azure Synapse.
Ví dụ: Phân tích dữ liệu khách hàng từ nhiều chi nhánh ngân hàng
trên Azure Synapse để phát hiện gian lận.
Câu 5: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ
liệu Lớn trong môi trường điện toán đám mây Amazon Web Servers.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
● Volume (khối lượng lớn),
● Velocity (tốc độ cao),
● Variety (đa dạng định dạng),
● Veracity (tính xác thực),
● Value (giá trị tiềm năng).
AWS cung cấp Amazon EMR (Elastic MapReduce), S3, Athena, Redshift. Hoạt động:
● Lưu trữ dữ liệu trên S3,
● Xử lý bằng EMR (Spark, Hadoop),
● Truy vấn phân tích với Athena hoặc Redshift.
Ví dụ: Netflix dùng Amazon EMR để xử lý dữ liệu người dùng nhằm đề xuất phim phù hợp.
Câu 6: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ
liệu Lớn trong môi trường Hadoop DevOps trong môi trường
điện toán đám mây riêng, kết nối MS Visual Studio Code bằng
SSH với máy chủ của Khoa CNTT.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
● Volume (khối lượng lớn),
● Velocity (tốc độ cao),
● Variety (đa dạng định dạng),
● Veracity (tính xác thực),
● Value (giá trị tiềm năng).
Hadoop DevOps môi trường riêng là việc triển khai Hadoop trên cụm server nội bộ. Hoạt động:
● Triển khai HDFS, MapReduce hoặc Spark trên server nội bộ,
● Kết nối VS Code bằng SSH để viết, chạy code,
● Quản lý tiến trình xử lý và theo dõi bằng các công cụ giám sát
DevOps như Nagios, Prometheus.
Ví dụ: Sinh viên dùng VS Code SSH để chạy MapReduce phân tích
log hệ thống trên server khoa.
Câu 7: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Vai trò của ngôn ngữ lập trình Python, các
thư viện Python hỗ trợ phân tích dữ liệu lớn là gì? Cho thí dụ
thực tế mô tả hoạt động phân tích dữ liệu lớn bằng lập trình Python.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
● Volume (khối lượng lớn),
● Velocity (tốc độ cao),
● Variety (đa dạng định dạng),
● Veracity (tính xác thực),
● Value (giá trị tiềm năng).
Python: phổ biến nhờ dễ học, cộng đồng lớn.
Thư viện phổ biến:
● Pandas (xử lý dữ liệu),
● PySpark (Spark với Python),
● Dask (xử lý dữ liệu lớn song song),
● Matplotlib, Seaborn (trực quan hóa).
Ví dụ: Dùng PySpark để lọc và tính toán dữ liệu giao dịch tài chính
từ hàng triệu dòng dữ liệu.
Câu 8: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Hãy trình bày mô hình và giải thích cơ chế
hoạt động của Hadoop Map/Reduce.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
● Volume (khối lượng lớn),
● Velocity (tốc độ cao),
● Variety (đa dạng định dạng),
● Veracity (tính xác thực),
● Value (giá trị tiềm năng). Mô hình MapReduce:
● Map: Phân tách và xử lý từng phần nhỏ của dữ liệu.
● Reduce: Tổng hợp kết quả từ các bước Map. Cơ chế:
● Dữ liệu phân mảnh trên HDFS,
● Chạy nhiều tiến trình Map xử lý song song,
● Kết quả được chuyển sang tiến trình Reduce để tổng hợp.
Ví dụ: Đếm số lần xuất hiện của từng từ trong 1 triệu file văn bản.
Câu 9: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả kiến trúc của hệ thống tập tin phân
tán HDFS và vai trò của HDFS trong phân tích Dữ liệu Lớn.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
● Volume (khối lượng lớn),
● Velocity (tốc độ cao),
● Variety (đa dạng định dạng),
● Veracity (tính xác thực),
● Value (giá trị tiềm năng).
HDFS (Hadoop Distributed File System):
● Gồm NameNode (quản lý metadata) và DataNode (lưu dữ liệu thực tế),
● Dữ liệu được chia thành block và lưu trên nhiều DataNode. Vai trò:
● Lưu trữ dữ liệu lớn một cách phân tán, an toàn và hiệu quả,
● Tăng khả năng mở rộng và giảm thiểu mất mát dữ liệu.
Ví dụ: Một file 2GB được chia thành các block 128MB, lưu trên
nhiều node để phân tích bằng MapReduce. Lệnh Chức năng hdfs dfs -ls / Liệt kê file/thư mục trong HDFS
hdfs dfs -mkdir Tạo thư mục trong /path HDFS hdfs dfs -put Upload file từ local lên file.txt /path HDFS hdfs dfs -cat Xem nội dung file trong /path/file.txt HDFS hdfs dfs -rm Xóa file trong HDFS /path/file.txt
Câu 10: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Các thành phần chính trong kiến trúc phân
tích dữ liệu lớn Hadoop là gì? Giải thích các khái niệm HDFS,
Namenode, Datanode, Resource Manager.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
● Volume (khối lượng lớn),
● Velocity (tốc độ cao),
● Variety (đa dạng định dạng),
● Veracity (tính xác thực),
● Value (giá trị tiềm năng).
Thành phần kiến trúc Hadoop:
● HDFS (Hadoop Distributed File System):
Hệ thống tệp phân tán của Hadoop, lưu trữ dữ liệu trên nhiều
máy chủ, giúp xử lý dữ liệu lớn hiệu quả và đáng tin cậy. ● Namenode:
Là thành phần quản lý metadata (thông tin về tên, vị trí file).
Namenode không lưu dữ liệu thực, mà lưu bản đồ vị trí các block dữ liệu. ● Datanode:
Là nơi lưu trữ dữ liệu thực tế dưới dạng các block. Datanode
gửi báo cáo trạng thái và dữ liệu về Namenode theo định kỳ.
● Resource Manager (thuộc YARN):
Quản lý tài nguyên trong hệ thống và phân phối nhiệm vụ đến
các NodeManager để xử lý song song. Phần II
Trình bày môi trường vận hành Hadoop và quy trình đăng nhập
vào máy chủ (Fit -lab) bằng tài khoảng cá nhân nhân
+ Môi trường vận hành Hadoop
Hadoop vận hành trong mô hình cụm máy chủ (cluster) bao gồm
nhiều máy tính (nodes) kết nối với nhau, gồm 2 phần chính là
Kiến trúc Hadoop (Hadoop Distributed File System (HDFS):
Hệ thống tệp phân tán để lưu trữ dữ liệu lớn, YARN (Yet
Another Resource Negotiator): Quản lý tài nguyên và điều phối
tác vụ, MapReduce: Mô hình lập trình xử lý song song trên dữ
liệu lớn) và Cấu trúc máy chủ Hadoop ( NameNode (Master):
Quản lý siêu dữ liệu (metadata) và điều phối truy cập dữ liệu,
DataNode (Slave): Lưu trữ và xử lý dữ liệu thực tế,
ResourceManager & NodeManager: Quản lý tài nguyên và tiến trình xử lý.) + Quy trình đăng nhập: install Remote-SSH trên vsc
thực hiện câu lệnh trên terminal: ssh
2274802010374@fit-lab.vlu.edu.vn
Nhập mật khẩu đăng nhập
Trình bày các lệnh kiểm tra cấu hình hoạt động của DevOps Hadoop
hadoop version kiểm tra phiên bản
jps kiểm tra trạng thái dịch vụ
cat $HADOOP_HOME/etc/hadoop/core-site.xml kiểm tra file cấu hình
Trình bày các lệnh khởi động dịch vụ DevOps Hadoop
start-dfs.sh khởi động hdfs
start-yarn.sh khởi động YARN
jps kiểm tra trạng thái hoạt động
Trình bày các lệnh thực thi nhập xuất dữ liệu với HDFS
hdfs dfs -mkdir /user/mssv/input tạo thư mục
hdfs dfs -put tenfile.txt /user/mssv/input/ copy file hdfs dfs -ls /user/mssv/input
hdfs dfs -get /user/mssv/output/ketqua.txt copy từ hdfs về local
hdfs dfs -cat /user/hadoop/input/localfile.txt xem nội dung
Trình bày nguyên tắc hoạt động của mapper và reducer trong bài
toán phân loại và đếm từ trong tập tin văn bản
Mapper: Nhận từng dòng văn bản, tách từ và phát ra cặp (từ, 1).
Ví dụ: dòng “hadoop big data” → scss (hadoop, 1) (big, 1) (data, 1)
Reducer: Nhận danh sách các (từ, 1), tính tổng số lần xuất hiện của từng từ.
(hadoop, [1,1,1]) → (hadoop, 3)
Kết quả: danh sách từ và số lần xuất hiện → giúp phân loại, phân tích văn bản. PHẦN III ● Tên chủ đề:
Ứng dụng Công nghệ Lớn Hadoop trong quản lý hồ sơ bệnh nhân ung thư phổi
● Nội dung thực hiện:
Đề tài tập trung vào việc thu thập, xử lý và phân tích dữ liệu hồ
sơ bệnh nhân ung thư phổi. Dữ liệu sau khi được tiền xử lý sẽ
được lưu trữ và quản lý bằng hệ thống tệp phân tán HDFS của
Hadoop. Sử dụng Spark để phân tích dữ liệu và huấn luyện mô
hình học máy Random Forest nhằm dự đoán nguy cơ mắc bệnh.
Ứng dụng được triển khai trên giao diện web (Flask) giúp người
dùng tải lên hồ sơ bệnh nhân (CSV/XLSX), hiển thị thông tin
chi tiết và kết quả dự đoán.
● Kết quả chính:
○ Tiền xử lý thành công tập dữ liệu bệnh nhân ung thư phổi.
○ Triển khai thành công hệ thống lưu trữ HDFS và xử lý dữ liệu với Hadoop.
○ Huấn luyện mô hình Random Forest với độ chính xác cao (trên 85%).
○ Xây dựng web app với 2 chức năng chính:
1. Xem và tìm kiếm hồ sơ bệnh nhân với biểu đồ trực quan.
2. Tải lên hồ sơ bệnh nhân để dự đoán nguy cơ mắc
bệnh kèm theo xác suất từ predict_proba.
○ Tích hợp thành công với hệ sinh thái Hadoop để hỗ trợ xử
lý và phân tích dữ liệu lớn.

Câu hỏi ôn thi dữ liệu lớn | Học viện Công Nghệ Bưu Chính Viễn Thông

Tài liệu liên quan:

Bài giảng Big Data | Học viện Công Nghệ Bưu Chính Viễn Thông

Tài liệu thiết kế kỹ thuật | Quản lý dữ liệu lớn

Bài tập lớn: Cài đặt và Demo Hadoop Mapreduce môn Dữ liệu lớn | Học viện Công Nghệ Bưu Chính Viễn Thông

Kiến trúc MapReduce trong Hadoop: Cấu trúc và nguyên lý hoạt động môn Dữ liệu lớn | Học viện Công Nghệ Bưu Chính Viễn Thông