










Preview text:
ĐẠI HỌC BÁCH KHOA HÀ NỘI 
TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG            BÁO CÁO 
Lưu trữ và xử lý dữ liệu lớn  LAB 04          Nhóm HDSD 
Sinh viên thực hiện   Mã sinh viên  Nguyễn Trọng Hải   20183730  Võ Việt Dũng   20183723  Lê Hữu Tiến Dũng   20183719  Ngô Đình Sáng   20183819     
Giảng viên: TS. Đào Thành Chung          Hà Nội, 12 – 2021 
 Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD    MỤC LỤC 
MỤC LỤC ................................................................................................................ 2 
1. Chuẩn bị 3 máy ảo cài Hadoop và Yarn cluster ............................................... 3 
2. Đẩy dữ liệu lên HDFS ......................................................................................... 4 
3. Cài đặt Spark ....................................................................................................... 5 
3.1 Tải Spark từ masternode .............................................................................. 5 
3.2 Giải nén và di chuyển đến thư mục spark .................................................. 5 
3.3 Cấu hình file /home/hadoop/.profile ............................................................. 5 
3.4 Cấu hình file $SPARK_HOME/conf/spark-defaults.conf ........................... 6 
3.5 Run History Server ....................................................................................... 6 
3.6 Khởi động Spark bằng pyspark ................................................................... 6 
4. Chạy ví dụ WordCount với dữ liệu từ DHFS ................................................... 7 
4.1 Job đang ở trạng thái running ..................................................................... 7 
4.2 Job đang ở trạng thái finished ..................................................................... 8 
4.3 Quá trình chạy ............................................................................................... 9 
4.4 Kết quả chạy ................................................................................................ 10        2 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD 
1. Chuẩn bị 3 máy ảo cài Hadoop và Yarn cluster  • masternode: 192.168.1.1  • datanode1: 192.168.1.2  • datanode2: 192.168.1.3      Chú ý: 
HADOOP_HOME = /home/hadoop/hadoop    - Khởi động yarn 
• Cụm yarn cluster gồm 2 node là datanode1 và datanode2            3 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD 
2. Đẩy dữ liệu lên HDFS   
- Kết quả đẩy dữ liệu          4 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD  3. Cài đặt Spark 
3.1 Tải Spark từ masternode 
wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz 
3.2 Giải nén và di chuyển đến thư mục spark 
tar -xvf spark-3.1.2-bin-hadoop3.2.tgz 
mv spark-3.1.2-bin-hadoop3.2 spark 
3.3 Cấu hình file /home/hadoop/.profile          5 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD 
3.4 Cấu hình file $SPARK_HOME/conf/spark-defaults.conf      3.5 Run History Server 
$SPARK_HOME/sbin/start-history-server.sh 
• Giao điện History Server     
3.6 Khởi động Spark bằng pyspark    6 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD 
4. Chạy ví dụ WordCount với dữ liệu từ DHFS 
spark-submit --master yarn --deploy-mode client --conf 
"spark.kerberos.access.hadoopFileSystems=hdfs://masternode:9000/user/hadoop/
sparkwordcount/input" WordCount.py 
"hdfs://masternode:9000/user/hadoop/sparkwordcount/input/*" 
hdfs://masternode:9000/user/hadoop/sparkwordcount/output1    • Source WordCount.py     
4.1 Job đang ở trạng thái running 
• Giao diện Spark History Server          7 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD  • Giao diện Hadoop Yarn     
4.2 Job đang ở trạng thái finished 
• Giao diện Spark History Server    • Giao diện Hadoop Yarn            8 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD  4.3 Quá trình chạy        9 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD        4.4 Kết quả chạy    10 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD   
• Kết quả hiển thị trên HDFS   
• Đọc file kết quả chạy    11 | P a g e