















Preview text:
Lab 1 – HDFS
Đề bài: cài đặt cụm HDFS trên nhiều máy tính (ít nhất 3 máy)
● Trong đó một máy là Namenode, 2 máy còn lại là Datanode.
● Cấu hình để 2 bản sao (replication) ● Lưu trữ 1GB dữ liệu Yêu cầu báo cáo:
● Mô tả kết quả cài đặt
● Bằng chứng đã tạo 2 bản sao
● Bằng chứng đã lưu trữ 1GB dữ liệu
Nộp báo cáo: qua Google form
Deadline: được thông báo trên Teams 1
TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI 
VIỆN CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG            BÁO CÁO 
Lưu trữ và xử lý dữ liệu lớn  LAB 01          Nhóm HDSD 
Sinh viên thực hiện   Mã sinh viên  Nguyễn Trọng Hải   20183730  Võ Việt Dũng   20183723  Lê Hữu Tiến Dũng   20183719  Ngô Đình Sáng   20183819     
Giảng viên: TS. Đào Thành Chung          Hà Nội, 10 – 2021 
 Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD    MỤC LỤC 
MỤC LỤC ................................................................................................................ 2 
1. Chuẩn bị ............................................................................................................... 3 
2. Cài đặt Hadoop .................................................................................................... 6 
3. Cấu hình Hadoop ................................................................................................ 8 
4. Khởi động Hadoop và PUT dữ liệu lên server ............................................... 13        2 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD  1. Chuẩn bị  - 3 máy ảo Ubuntu 
• Máy masternode: 192.168.1.1   
• Máy datanode1: 192.168.1.2    3 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD   
• Máy datanode2: 192.168.1.3    4 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD     
- Cấu hình file hosts cho cả 3 máy  • Máy masternode    • Máy datanode1  5 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD    • Máy datanode2      2. Cài đặt Hadoop 
- Tạo người dùng Hadoop và cấp quyền tương ứng  6 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD   
- Đăng nhập và sinh key SSH   
- Copy key SSH sang Hadoop Nodes  7 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD  • Masternode    • Datanodes      3. Cấu hình Hadoop 
- Cấu hình file /usr/local/hadoop/etc/hadoop/core-site.xml  8 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD     
- Cấu hình file /usr/local/hadoop/etc/hadoop/hdfs-site.xml  9 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD     
- Cấu hình file /usr/local/hadoop/etc/hadoop/workers     
- Copy những file config sang cho datanode  10 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD    11 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD     
- Định dạng hệ thống file HDFS trên masternode  12 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD       
4. Khởi động Hadoop và PUT dữ liệu lên server  - Khởi động HDFS    - Khởi động 2 datanode  13 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD         
- Bật giao diện Web của master server    14 | P a g e   
Lưu trữ và xử lý dữ liệu lớn    Nhóm HDSD      - PUT 1GB Data to HDFS      15 | P a g e