BTVN và HDSD_Lab04| BT môn Lưu trữ và xử lý dữ liệu lớn| Trường Đại học Bách Khoa Hà Nội

BTVN và HDSD_Lab04| BT môn Lưu trữ và xử lý dữ liệu lớn| Trường Đại học Bách Khoa Hà Nội. Tài liệu gồm 11 trang giúp bạn ôn tập và đạt kết quả cao trong kỳ thi sắp tới. Mời bạn đọc đón xem.

ĐẠI HC BÁCH KHOA HÀ NI
TRƯỜNG CÔNG NGH THÔNG TIN VÀ TRUYN THÔNG
BÁO CÁO
Lưu trữ và x lý d liu ln
LAB 04
Nhóm HDSD
Sinh viên thc hin
Mã sinh viên
Nguyn Trng Hi
20183730
Võ Việt Dũng
20183723
Lê Hu Tiến Dũng
20183719
Ngô Đình Sáng
20183819
Ging viên: TS. Đào Thành Chung
Hà Ni, 12 2021
Lưu trữ và x lý d liu ln Nhóm HDSD
2 | P a g e
MC LC
MC LC ................................................................................................................ 2
1. Chun b 3 máy o cài Hadoop và Yarn cluster ............................................... 3
2. Đẩy d liu lên HDFS ......................................................................................... 4
3. Cài đặt Spark ....................................................................................................... 5
3.1 Ti Spark t masternode .............................................................................. 5
3.2 Gii nén và di chuyển đến thư mc spark .................................................. 5
3.3 Cu hình file /home/hadoop/.profile ............................................................. 5
3.4 Cu hình file $SPARK_HOME/conf/spark-defaults.conf ........................... 6
3.5 Run History Server ....................................................................................... 6
3.6 Khởi động Spark bng pyspark ................................................................... 6
4. Chy ví d WordCount vi d liu t DHFS ................................................... 7
4.1 Job đang ở trng thái running ..................................................................... 7
4.2 Job đang ở trng thái finished ..................................................................... 8
4.3 Quá trình chy ............................................................................................... 9
4.4 Kết qu chy ................................................................................................ 10
Lưu trữ và x lý d liu ln Nhóm HDSD
3 | P a g e
1. Chun b 3 máy o cài Hadoop và Yarn cluster
masternode: 192.168.1.1
datanode1: 192.168.1.2
datanode2: 192.168.1.3
Chú ý:
HADOOP_HOME = /home/hadoop/hadoop
- Khởi động yarn
Cm yarn cluster gm 2 node là datanode1 và datanode2
Lưu trữ và x lý d liu ln Nhóm HDSD
4 | P a g e
2. Đẩy d liu lên HDFS
- Kết qu đẩy d liu
Lưu trữ và x lý d liu ln Nhóm HDSD
5 | P a g e
3. Cài đặt Spark
3.1 Ti Spark t masternode
wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
3.2 Gii nén và di chuyển đến thư mc spark
tar -xvf spark-3.1.2-bin-hadoop3.2.tgz
mv spark-3.1.2-bin-hadoop3.2 spark
3.3 Cu hình file /home/hadoop/.profile
Lưu trữ và x lý d liu ln Nhóm HDSD
6 | P a g e
3.4 Cu hình file $SPARK_HOME/conf/spark-defaults.conf
3.5 Run History Server
$SPARK_HOME/sbin/start-history-server.sh
Giao điện History Server
3.6 Khởi động Spark bng pyspark
Lưu trữ và x lý d liu ln Nhóm HDSD
7 | P a g e
4. Chy ví d WordCount vi d liu t DHFS
spark-submit --master yarn --deploy-mode client --conf
"spark.kerberos.access.hadoopFileSystems=hdfs://masternode:9000/user/hadoop/
sparkwordcount/input" WordCount.py
"hdfs://masternode:9000/user/hadoop/sparkwordcount/input/*"
hdfs://masternode:9000/user/hadoop/sparkwordcount/output1
Source WordCount.py
4.1 Job đang ở trng thái running
Giao din Spark History Server
Lưu trữ và x lý d liu ln Nhóm HDSD
8 | P a g e
Giao din Hadoop Yarn
4.2 Job đang ở trng thái finished
Giao din Spark History Server
Giao din Hadoop Yarn
Lưu trữ và x lý d liu ln Nhóm HDSD
9 | P a g e
4.3 Quá trình chy
Lưu trữ và x lý d liu ln Nhóm HDSD
10 | P a g e
4.4 Kết qu chy
Lưu trữ và x lý d liu ln Nhóm HDSD
11 | P a g e
Kết qu hin th trên HDFS
Đọc file kết qu chy
| 1/11

Preview text:

ĐẠI HỌC BÁCH KHOA HÀ NỘI
TRƯỜNG CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG BÁO CÁO
Lưu trữ và xử lý dữ liệu lớn LAB 04 Nhóm HDSD
Sinh viên thực hiện Mã sinh viên Nguyễn Trọng Hải 20183730 Võ Việt Dũng 20183723 Lê Hữu Tiến Dũng 20183719 Ngô Đình Sáng 20183819
Giảng viên: TS. Đào Thành Chung Hà Nội, 12 – 2021
Lưu trữ và xử lý dữ liệu lớn Nhóm HDSD MỤC LỤC
MỤC LỤC ................................................................................................................ 2
1. Chuẩn bị 3 máy ảo cài Hadoop và Yarn cluster ............................................... 3
2. Đẩy dữ liệu lên HDFS ......................................................................................... 4
3. Cài đặt Spark ....................................................................................................... 5
3.1 Tải Spark từ masternode .............................................................................. 5
3.2 Giải nén và di chuyển đến thư mục spark .................................................. 5
3.3 Cấu hình file /home/hadoop/.profile ............................................................. 5
3.4 Cấu hình file $SPARK_HOME/conf/spark-defaults.conf ........................... 6
3.5 Run History Server ....................................................................................... 6
3.6 Khởi động Spark bằng pyspark ................................................................... 6
4. Chạy ví dụ WordCount với dữ liệu từ DHFS ................................................... 7
4.1 Job đang ở trạng thái running ..................................................................... 7
4.2 Job đang ở trạng thái finished ..................................................................... 8
4.3 Quá trình chạy ............................................................................................... 9
4.4 Kết quả chạy ................................................................................................ 10 2 | P a g e
Lưu trữ và xử lý dữ liệu lớn Nhóm HDSD
1. Chuẩn bị 3 máy ảo cài Hadoop và Yarn cluster • masternode: 192.168.1.1 • datanode1: 192.168.1.2 • datanode2: 192.168.1.3 Chú ý:
HADOOP_HOME = /home/hadoop/hadoop - Khởi động yarn
• Cụm yarn cluster gồm 2 node là datanode1 và datanode2 3 | P a g e
Lưu trữ và xử lý dữ liệu lớn Nhóm HDSD
2. Đẩy dữ liệu lên HDFS
- Kết quả đẩy dữ liệu 4 | P a g e
Lưu trữ và xử lý dữ liệu lớn Nhóm HDSD 3. Cài đặt Spark
3.1 Tải Spark từ masternode
wget https://dlcdn.apache.org/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
3.2 Giải nén và di chuyển đến thư mục spark
tar -xvf spark-3.1.2-bin-hadoop3.2.tgz
mv spark-3.1.2-bin-hadoop3.2 spark
3.3 Cấu hình file /home/hadoop/.profile 5 | P a g e
Lưu trữ và xử lý dữ liệu lớn Nhóm HDSD
3.4 Cấu hình file $SPARK_HOME/conf/spark-defaults.conf 3.5 Run History Server
$SPARK_HOME/sbin/start-history-server.sh
• Giao điện History Server
3.6 Khởi động Spark bằng pyspark 6 | P a g e
Lưu trữ và xử lý dữ liệu lớn Nhóm HDSD
4. Chạy ví dụ WordCount với dữ liệu từ DHFS
spark-submit --master yarn --deploy-mode client --conf
"spark.kerberos.access.hadoopFileSystems=hdfs://masternode:9000/user/hadoop/
sparkwordcount/input" WordCount.py
"hdfs://masternode:9000/user/hadoop/sparkwordcount/input/*"
hdfs://masternode:9000/user/hadoop/sparkwordcount/output1
• Source WordCount.py
4.1 Job đang ở trạng thái running
• Giao diện Spark History Server 7 | P a g e
Lưu trữ và xử lý dữ liệu lớn Nhóm HDSD • Giao diện Hadoop Yarn
4.2 Job đang ở trạng thái finished
• Giao diện Spark History Server • Giao diện Hadoop Yarn 8 | P a g e
Lưu trữ và xử lý dữ liệu lớn Nhóm HDSD 4.3 Quá trình chạy 9 | P a g e
Lưu trữ và xử lý dữ liệu lớn Nhóm HDSD 4.4 Kết quả chạy 10 | P a g e
Lưu trữ và xử lý dữ liệu lớn Nhóm HDSD
• Kết quả hiển thị trên HDFS
• Đọc file kết quả chạy 11 | P a g e