Phần I
Câu 1: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới khái niệm Dữ liệu Lớn. Tại sao cần áp dụng các công cụ
lưu trữ và phân tích dữ liệu đặc thù (Hadoop HDFS, MapReduce)
khi thực hiện phân tích Dữ liệu Lớn so với Dữ liệu truyền thống?
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống
dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Lý do cần công cụ đặc thù: Dữ liệu Lớn yêu cầu hệ thống lưu trữ
phân tán như HDFS để lưu trữ hiệu quả và MapReduce để xử lý dữ
liệu song song, tăng hiệu năng so với hệ thống truyền thống vốn chỉ
lưu và xử lý trên 1 server.
Ví dụ: Facebook xử lý hàng petabyte dữ liệu người dùng mỗi ngày
bằng Hadoop.
Câu 2: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Liệt kê một số công nghệ và giải pháp phổ
biến trong phân tích Dữ liệu Lớn. Cho một thí dụ thực tế áp dụng
công nghệ và giải pháp phân tích Dữ liệu Lớn mà sinh viên dễ tìm
hiểu. Đâu là khó khăn chính khi thực hiện phân tích Dữ liệu Lớn?
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống
dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Công nghệ phổ biến: Hadoop, Spark, Hive, Pig, Kafka.
Giải pháp phổ biến: Phân tích thời gian thực, học máy, trực quan hóa
dữ liệu, xử lý song song.
Ví dụ: Phân tích hành vi người dùng website thương mại điện tử bằng
Spark để cá nhân hóa quảng cáo.
Khó khăn chính:
Quản lý dữ liệu lớn và phân tán,
Đảm bảo chất lượng dữ liệu,
Yêu cầu hạ tầng mạnh và nhân lực chuyên môn cao.
Câu 3: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ
liệu Lớn phổ biến trong môi trường điện toán đám mây Google
Cloud Platform.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống
dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Google Cloud Platform (GCP) cung cấp dịch vụ như BigQuery,
Dataproc (chạy Hadoop/Spark), Cloud Storage cho lưu trữ.
Hoạt động:
Dữ liệu được lưu trữ trên Cloud Storage,
Xử lý bằng Dataproc (Spark, Hadoop),
Truy vấn và phân tích dữ liệu lớn qua BigQuery.
Ví dụ: Công ty phân tích hành vi mua sắm người dùng qua BigQuery
để tối ưu chiến dịch quảng cáo.
Câu 4: Giải thích khái niệm Dữ liệu Lớn và các tính chất cơ bản
của nó. Kể tên một công cụ hoặc nền tảng phân tích Dữ liệu Lớn
tiêu biểu hoạt động trên Microsoft Azure hoặc Amazon Web
Services, đồng thời mô tả chức năng chính của công cụ đó.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống
dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Azure cung cấp HDInsight (Hadoop/Spark), Azure Data Lake,
Azure Synapse Analytics.
Hoạt động:
Dữ liệu lưu trữ trên Azure Data Lake,
Xử lý phân tán bằng Spark/Hadoop trên HDInsight,
Tổng hợp kết quả bằng Azure Synapse.
Ví dụ: Phân tích dữ liệu khách hàng từ nhiều chi nhánh ngân hàng
trên Azure Synapse để phát hiện gian lận.
Câu 5: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ
liệu Lớn trong môi trường điện toán đám mây Amazon Web
Servers.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống
dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
AWS cung cấp Amazon EMR (Elastic MapReduce), S3, Athena,
Redshift.
Hoạt động:
Lưu trữ dữ liệu trên S3,
Xử lý bằng EMR (Spark, Hadoop),
Truy vấn phân tích với Athena hoặc Redshift.
Ví dụ: Netflix dùng Amazon EMR để xử lý dữ liệu người dùng nhằm
đề xuất phim phù hợp.
Câu 6: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ
liệu Lớn trong môi trường Hadoop DevOps trong môi trường
điện toán đám mây riêng, kết nối MS Visual Studio Code bằng
SSH với máy chủ của Khoa CNTT.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống
dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Hadoop DevOps môi trường riêng là việc triển khai Hadoop trên
cụm server nội bộ.
Hoạt động:
Triển khai HDFS, MapReduce hoặc Spark trên server nội bộ,
Kết nối VS Code bằng SSH để viết, chạy code,
Quản lý tiến trình xử lý và theo dõi bằng các công cụ giám sát
DevOps như Nagios, Prometheus.
Ví dụ: Sinh viên dùng VS Code SSH để chạy MapReduce phân tích
log hệ thống trên server khoa.
Câu 7: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Vai trò của ngôn ngữ lập trình Python, các
thư viện Python hỗ trợ phân tích dữ liệu lớn là gì? Cho thí dụ
thực tế mô tả hoạt động phân tích dữ liệu lớn bằng lập trình
Python.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống
dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Python: phổ biến nhờ dễ học, cộng đồng lớn.
Thư viện phổ biến:
Pandas (xử lý dữ liệu),
PySpark (Spark với Python),
Dask (xử lý dữ liệu lớn song song),
Matplotlib, Seaborn (trực quan hóa).
Ví dụ: Dùng PySpark để lọc và tính toán dữ liệu giao dịch tài chính
từ hàng triệu dòng dữ liệu.
Câu 8: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Hãy trình bày mô hình và giải thích cơ chế
hoạt động của Hadoop Map/Reduce.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống
dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Mô hình MapReduce:
Map: Phân tách và xử lý từng phần nhỏ của dữ liệu.
Reduce: Tổng hợp kết quả từ các bước Map.
Cơ chế:
Dữ liệu phân mảnh trên HDFS,
Chạy nhiều tiến trình Map xử lý song song,
Kết quả được chuyển sang tiến trình Reduce để tổng hợp.
Ví dụ: Đếm số lần xuất hiện của từng từ trong 1 triệu file văn bản.
Câu 9: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả kiến trúc của hệ thống tập tin phân
tán HDFS và vai trò của HDFS trong phân tích Dữ liệu Lớn.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống
dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
HDFS (Hadoop Distributed File System):
Gồm NameNode (quản lý metadata) và DataNode (lưu dữ liệu
thực tế),
Dữ liệu được chia thành block và lưu trên nhiều DataNode.
Vai trò:
Lưu trữ dữ liệu lớn một cách phân tán, an toàn và hiệu quả,
Tăng khả năng mở rộng và giảm thiểu mất mát dữ liệu.
Ví dụ: Một file 2GB được chia thành các block 128MB, lưu trên
nhiều node để phân tích bằng MapReduce.
Lệnh
Chức năng
hdfs dfs -ls /
Liệt kê file/thư mục
trong HDFS
hdfs dfs -mkdir
/path
Tạo thư mục trong
HDFS
hdfs dfs -put
file.txt /path
Upload file từ local lên
HDFS
hdfs dfs -cat
/path/file.txt
Xem nội dung file trong
HDFS
hdfs dfs -rm
/path/file.txt
Xóa file trong HDFS
Câu 10: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Các thành phần chính trong kiến trúc phân
tích dữ liệu lớn Hadoop là gì? Giải thích các khái niệm HDFS,
Namenode, Datanode, Resource Manager.
Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống
dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Thành phần kiến trúc Hadoop:
HDFS (Hadoop Distributed File System):
Hệ thống tệp phân tán của Hadoop, lưu trữ dữ liệu trên nhiều
máy chủ, giúp xử lý dữ liệu lớn hiệu quả và đáng tin cậy.
Namenode:
Là thành phần quản lý metadata (thông tin về tên, vị trí file).
Namenode không lưu dữ liệu thực, mà lưu bản đồ vị trí các
block dữ liệu.
Datanode:
Là nơi lưu trữ dữ liệu thực tế dưới dạng các block. Datanode
gửi báo cáo trạng thái và dữ liệu về Namenode theo định kỳ.
Resource Manager (thuộc YARN):
Quản lý tài nguyên trong hệ thống và phân phối nhiệm vụ đến
các NodeManager để xử lý song song.
Phần II
Trình bày môi trường vận hành Hadoop và quy trình đăng nhập
vào máy chủ (Fit -lab) bằng tài khoảng cá nhân nhân
+ Môi trường vận hành Hadoop
Hadoop vận hành trong mô hình cụm máy chủ (cluster) bao gồm
nhiều máy tính (nodes) kết nối với nhau, gồm 2 phần chính là
Kiến trúc Hadoop (Hadoop Distributed File System (HDFS):
Hệ thống tệp phân tán để lưu trữ dữ liệu lớn, YARN (Yet
Another Resource Negotiator): Quản lý tài nguyên và điều phối
tác vụ, MapReduce: Mô hình lập trình xử lý song song trên dữ
liệu lớn) và Cấu trúc máy chủ Hadoop ( NameNode (Master):
Quản lý siêu dữ liệu (metadata) và điều phối truy cập dữ liệu,
DataNode (Slave): Lưu trữ và xử lý dữ liệu thực tế,
ResourceManager & NodeManager: Quản lý tài nguyên và tiến
trình xử lý.)
+ Quy trình đăng nhập:
install Remote-SSH trên vsc
thực hiện câu lệnh trên terminal: ssh
2274802010374@fit-lab.vlu.edu.vn
Nhập mật khẩu đăng nhập
Trình bày các lệnh kiểm tra cấu hình hoạt động của DevOps
Hadoop
hadoop version kiểm tra phiên bản
jps kiểm tra trạng thái dịch vụ
cat $HADOOP_HOME/etc/hadoop/core-site.xml kiểm tra file cấu
hình
Trình bày các lệnh khởi động dịch vụ DevOps Hadoop
start-dfs.sh khởi động hdfs
start-yarn.sh khởi động YARN
jps kiểm tra trạng thái hoạt động
Trình bày các lệnh thực thi nhập xuất dữ liệu với HDFS
hdfs dfs -mkdir /user/mssv/input tạo thư mục
hdfs dfs -put tenfile.txt /user/mssv/input/ copy file
hdfs dfs -ls /user/mssv/input
hdfs dfs -get /user/mssv/output/ketqua.txt copy từ hdfs về local
hdfs dfs -cat /user/hadoop/input/localfile.txt xem nội dung
Trình bày nguyên tắc hoạt động của mapper và reducer trong bài
toán phân loại và đếm từ trong tập tin văn bản
Mapper: Nhận từng dòng văn bản, tách từ và phát ra cặp (từ, 1).
Ví dụ: dòng “hadoop big data” →
scss
(hadoop, 1)
(big, 1)
(data, 1)
Reducer: Nhận danh sách các (từ, 1), tính tổng số lần xuất hiện của
từng từ.
(hadoop, [1,1,1]) → (hadoop, 3)
Kết quả: danh sách từ và số lần xuất hiện → giúp phân loại, phân tích
văn bản.
PHẦN III
Tên chủ đề:
Ứng dụng Công nghệ Lớn Hadoop trong quản lý hồ sơ bệnh
nhân ung thư phổi
Nội dung thực hiện:
Đề tài tập trung vào việc thu thập, xử lý và phân tích dữ liệu hồ
sơ bệnh nhân ung thư phổi. Dữ liệu sau khi được tiền xử lý sẽ
được lưu trữ và quản lý bằng hệ thống tệp phân tán HDFS của
Hadoop. Sử dụng Spark để phân tích dữ liệu và huấn luyện mô
hình học máy Random Forest nhằm dự đoán nguy cơ mắc bệnh.
Ứng dụng được triển khai trên giao diện web (Flask) giúp người
dùng tải lên hồ sơ bệnh nhân (CSV/XLSX), hiển thị thông tin
chi tiết và kết quả dự đoán.
Kết quả chính:
Tiền xử lý thành công tập dữ liệu bệnh nhân ung thư phổi.
Triển khai thành công hệ thống lưu trữ HDFS và xử lý dữ
liệu với Hadoop.
Huấn luyện mô hình Random Forest với độ chính xác cao
(trên 85%).
Xây dựng web app với 2 chức năng chính:
1. Xem và tìm kiếm hồ sơ bệnh nhân với biểu đồ trực
quan.
2. Tải lên hồ sơ bệnh nhân để dự đoán nguy cơ mắc
bệnh kèm theo xác suất từ
predict_proba.
Tích hợp thành công với hệ sinh thái Hadoop để hỗ trợ xử
lý và phân tích dữ liệu lớn.

Preview text:

Phần I
Câu 1: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới khái niệm Dữ liệu Lớn. Tại sao cần áp dụng các công cụ
lưu trữ và phân tích dữ liệu đặc thù (Hadoop HDFS, MapReduce)
khi thực hiện phân tích Dữ liệu Lớn so với Dữ liệu truyền thống?

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Lý do cần công cụ đặc thù: Dữ liệu Lớn yêu cầu hệ thống lưu trữ
phân tán như HDFS để lưu trữ hiệu quả và MapReduce để xử lý dữ
liệu song song, tăng hiệu năng so với hệ thống truyền thống vốn chỉ
lưu và xử lý trên 1 server.
Ví dụ: Facebook xử lý hàng petabyte dữ liệu người dùng mỗi ngày bằng Hadoop.
Câu 2: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Liệt kê một số công nghệ và giải pháp phổ
biến trong phân tích Dữ liệu Lớn. Cho một thí dụ thực tế áp dụng
công nghệ và giải pháp phân tích Dữ liệu Lớn mà sinh viên dễ tìm
hiểu. Đâu là khó khăn chính khi thực hiện phân tích Dữ liệu Lớn?

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Công nghệ phổ biến: Hadoop, Spark, Hive, Pig, Kafka.
Giải pháp phổ biến: Phân tích thời gian thực, học máy, trực quan hóa
dữ liệu, xử lý song song.
Ví dụ: Phân tích hành vi người dùng website thương mại điện tử bằng
Spark để cá nhân hóa quảng cáo. Khó khăn chính:
● Quản lý dữ liệu lớn và phân tán,
● Đảm bảo chất lượng dữ liệu,
● Yêu cầu hạ tầng mạnh và nhân lực chuyên môn cao.
Câu 3: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ
liệu Lớn phổ biến trong môi trường điện toán đám mây Google Cloud Platform.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Google Cloud Platform (GCP) cung cấp dịch vụ như BigQuery,
Dataproc (chạy Hadoop/Spark), Cloud Storage cho lưu trữ. Hoạt động:
● Dữ liệu được lưu trữ trên Cloud Storage,
● Xử lý bằng Dataproc (Spark, Hadoop),
● Truy vấn và phân tích dữ liệu lớn qua BigQuery.
Ví dụ: Công ty phân tích hành vi mua sắm người dùng qua BigQuery
để tối ưu chiến dịch quảng cáo.
Câu 4: Giải thích khái niệm Dữ liệu Lớn và các tính chất cơ bản
của nó. Kể tên một công cụ hoặc nền tảng phân tích Dữ liệu Lớn
tiêu biểu hoạt động trên Microsoft Azure hoặc Amazon Web
Services, đồng thời mô tả chức năng chính của công cụ đó.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Azure cung cấp HDInsight (Hadoop/Spark), Azure Data Lake,
Azure Synapse Analytics. Hoạt động:
● Dữ liệu lưu trữ trên Azure Data Lake,
● Xử lý phân tán bằng Spark/Hadoop trên HDInsight,
● Tổng hợp kết quả bằng Azure Synapse.
Ví dụ: Phân tích dữ liệu khách hàng từ nhiều chi nhánh ngân hàng
trên Azure Synapse để phát hiện gian lận.
Câu 5: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ
liệu Lớn trong môi trường điện toán đám mây Amazon Web Servers.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
AWS cung cấp Amazon EMR (Elastic MapReduce), S3, Athena, Redshift. Hoạt động:
● Lưu trữ dữ liệu trên S3,
● Xử lý bằng EMR (Spark, Hadoop),
● Truy vấn phân tích với Athena hoặc Redshift.
Ví dụ: Netflix dùng Amazon EMR để xử lý dữ liệu người dùng nhằm đề xuất phim phù hợp.
Câu 6: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả hoạt động của công cụ phân tích Dữ
liệu Lớn trong môi trường Hadoop DevOps trong môi trường
điện toán đám mây riêng, kết nối MS Visual Studio Code bằng
SSH với máy chủ của Khoa CNTT.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Hadoop DevOps môi trường riêng là việc triển khai Hadoop trên cụm server nội bộ. Hoạt động:
● Triển khai HDFS, MapReduce hoặc Spark trên server nội bộ,
● Kết nối VS Code bằng SSH để viết, chạy code,
● Quản lý tiến trình xử lý và theo dõi bằng các công cụ giám sát
DevOps như Nagios, Prometheus.
Ví dụ: Sinh viên dùng VS Code SSH để chạy MapReduce phân tích
log hệ thống trên server khoa.
Câu 7: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Vai trò của ngôn ngữ lập trình Python, các
thư viện Python hỗ trợ phân tích dữ liệu lớn là gì? Cho thí dụ
thực tế mô tả hoạt động phân tích dữ liệu lớn bằng lập trình Python.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Python: phổ biến nhờ dễ học, cộng đồng lớn.
Thư viện phổ biến:
Pandas (xử lý dữ liệu),
PySpark (Spark với Python),
Dask (xử lý dữ liệu lớn song song),
Matplotlib, Seaborn (trực quan hóa).
Ví dụ: Dùng PySpark để lọc và tính toán dữ liệu giao dịch tài chính
từ hàng triệu dòng dữ liệu.
Câu 8: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Hãy trình bày mô hình và giải thích cơ chế
hoạt động của Hadoop Map/Reduce.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng). Mô hình MapReduce:
Map: Phân tách và xử lý từng phần nhỏ của dữ liệu.
Reduce: Tổng hợp kết quả từ các bước Map. Cơ chế:
● Dữ liệu phân mảnh trên HDFS,
● Chạy nhiều tiến trình Map xử lý song song,
● Kết quả được chuyển sang tiến trình Reduce để tổng hợp.
Ví dụ: Đếm số lần xuất hiện của từng từ trong 1 triệu file văn bản.
Câu 9: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Mô tả kiến trúc của hệ thống tập tin phân
tán HDFS và vai trò của HDFS trong phân tích Dữ liệu Lớn.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
HDFS (Hadoop Distributed File System):
● Gồm NameNode (quản lý metadata) và DataNode (lưu dữ liệu thực tế),
● Dữ liệu được chia thành block và lưu trên nhiều DataNode. Vai trò:
● Lưu trữ dữ liệu lớn một cách phân tán, an toàn và hiệu quả,
● Tăng khả năng mở rộng và giảm thiểu mất mát dữ liệu.
Ví dụ: Một file 2GB được chia thành các block 128MB, lưu trên
nhiều node để phân tích bằng MapReduce. Lệnh Chức năng hdfs dfs -ls / Liệt kê file/thư mục trong HDFS
hdfs dfs -mkdir Tạo thư mục trong /path HDFS hdfs dfs -put Upload file từ local lên file.txt /path HDFS hdfs dfs -cat Xem nội dung file trong /path/file.txt HDFS hdfs dfs -rm Xóa file trong HDFS /path/file.txt
Câu 10: Hãy trình bày định nghĩa và các thuộc tính cơ bản liên
quan tới Dữ liệu Lớn. Các thành phần chính trong kiến trúc phân
tích dữ liệu lớn Hadoop là gì? Giải thích các khái niệm HDFS,
Namenode, Datanode, Resource Manager.

Định nghĩa: Dữ liệu Lớn (Big Data) là tập hợp dữ liệu rất lớn, đa
dạng và tăng trưởng nhanh, vượt quá khả năng xử lý của các hệ thống dữ liệu truyền thống.
Các thuộc tính cơ bản (5V):
Volume (khối lượng lớn),
Velocity (tốc độ cao),
Variety (đa dạng định dạng),
Veracity (tính xác thực),
Value (giá trị tiềm năng).
Thành phần kiến trúc Hadoop:
HDFS (Hadoop Distributed File System):
Hệ thống tệp phân tán của Hadoop, lưu trữ dữ liệu trên nhiều
máy chủ, giúp xử lý dữ liệu lớn hiệu quả và đáng tin cậy. ● Namenode:
Là thành phần quản lý metadata (thông tin về tên, vị trí file).
Namenode không lưu dữ liệu thực, mà lưu bản đồ vị trí các block dữ liệu. ● Datanode:
Là nơi lưu trữ dữ liệu thực tế dưới dạng các block. Datanode
gửi báo cáo trạng thái và dữ liệu về Namenode theo định kỳ.
Resource Manager (thuộc YARN):
Quản lý tài nguyên trong hệ thống và phân phối nhiệm vụ đến
các NodeManager để xử lý song song. Phần II
Trình bày môi trường vận hành Hadoop và quy trình đăng nhập
vào máy chủ (Fit -lab) bằng tài khoảng cá nhân nhân

+ Môi trường vận hành Hadoop
Hadoop vận hành trong mô hình cụm máy chủ (cluster) bao gồm
nhiều máy tính (nodes) kết nối với nhau, gồm 2 phần chính là
Kiến trúc Hadoop (Hadoop Distributed File System (HDFS):
Hệ thống tệp phân tán để lưu trữ dữ liệu lớn, YARN (Yet
Another Resource Negotiator): Quản lý tài nguyên và điều phối
tác vụ, MapReduce: Mô hình lập trình xử lý song song trên dữ
liệu lớn) và Cấu trúc máy chủ Hadoop ( NameNode (Master):
Quản lý siêu dữ liệu (metadata) và điều phối truy cập dữ liệu,
DataNode (Slave): Lưu trữ và xử lý dữ liệu thực tế,
ResourceManager & NodeManager: Quản lý tài nguyên và tiến trình xử lý.) + Quy trình đăng nhập: install Remote-SSH trên vsc
thực hiện câu lệnh trên terminal: ssh
2274802010374@fit-lab.vlu.edu.vn
Nhập mật khẩu đăng nhập
Trình bày các lệnh kiểm tra cấu hình hoạt động của DevOps Hadoop
hadoop version kiểm tra phiên bản
jps kiểm tra trạng thái dịch vụ
cat $HADOOP_HOME/etc/hadoop/core-site.xml kiểm tra file cấu hình
Trình bày các lệnh khởi động dịch vụ DevOps Hadoop
start-dfs.sh khởi động hdfs
start-yarn.sh khởi động YARN
jps kiểm tra trạng thái hoạt động
Trình bày các lệnh thực thi nhập xuất dữ liệu với HDFS
hdfs dfs -mkdir /user/mssv/input tạo thư mục
hdfs dfs -put tenfile.txt /user/mssv/input/ copy file hdfs dfs -ls /user/mssv/input
hdfs dfs -get /user/mssv/output/ketqua.txt copy từ hdfs về local
hdfs dfs -cat /user/hadoop/input/localfile.txt xem nội dung
Trình bày nguyên tắc hoạt động của mapper và reducer trong bài
toán phân loại và đếm từ trong tập tin văn bản

Mapper: Nhận từng dòng văn bản, tách từ và phát ra cặp (từ, 1).
Ví dụ: dòng “hadoop big data” → scss (hadoop, 1) (big, 1) (data, 1)
Reducer: Nhận danh sách các (từ, 1), tính tổng số lần xuất hiện của từng từ.
(hadoop, [1,1,1]) → (hadoop, 3)
Kết quả: danh sách từ và số lần xuất hiện → giúp phân loại, phân tích văn bản. PHẦN III Tên chủ đề:
Ứng dụng Công nghệ Lớn Hadoop trong quản lý hồ sơ bệnh nhân ung thư phổi
Nội dung thực hiện:
Đề tài tập trung vào việc thu thập, xử lý và phân tích dữ liệu hồ
sơ bệnh nhân ung thư phổi. Dữ liệu sau khi được tiền xử lý sẽ
được lưu trữ và quản lý bằng hệ thống tệp phân tán HDFS của
Hadoop. Sử dụng Spark để phân tích dữ liệu và huấn luyện mô
hình học máy Random Forest nhằm dự đoán nguy cơ mắc bệnh.
Ứng dụng được triển khai trên giao diện web (Flask) giúp người
dùng tải lên hồ sơ bệnh nhân (CSV/XLSX), hiển thị thông tin
chi tiết và kết quả dự đoán.
Kết quả chính:
○ Tiền xử lý thành công tập dữ liệu bệnh nhân ung thư phổi.
○ Triển khai thành công hệ thống lưu trữ HDFS và xử lý dữ liệu với Hadoop.
○ Huấn luyện mô hình Random Forest với độ chính xác cao (trên 85%).
○ Xây dựng web app với 2 chức năng chính:
1. Xem và tìm kiếm hồ sơ bệnh nhân với biểu đồ trực quan.
2. Tải lên hồ sơ bệnh nhân để dự đoán nguy cơ mắc
bệnh kèm theo xác suất từ predict_proba.
○ Tích hợp thành công với hệ sinh thái Hadoop để hỗ trợ xử
lý và phân tích dữ liệu lớn.