lOMoARcPSD| 58490434
KẾT QUẢ ĐÁNH GIÁ ĐỒ ÁN MÔN HỌC
lOMoARcPSD| 58490434
Họ và tên sinh viên:
MSSV:
Lớp:
Nội dung
Trọng số
Điểm
1. Giải quyết vấn ề
1.1. Phân tích bài toán; thu thập, khảo sát và
chuẩn bị dữ liệu; thiết kế giải thuật
20%
1.2. Cài ặt, triển khai ứng dụng trên Hadoop
20%
1.3. Cài ặt, triển khai ứng dụng trên Spark
20%
2. Báo cáo bài tập lớn
2.1. Nội dung báo cáo
20%
2.2. Vấn áp
20%
Điểm trung bình
Giảng viên
Lời cam đoan
Tôi cam đoan đây là công trình do tôi tự thc hin. Các ni dung nghiên cu,
s liu và kết qu thc nghim là trung thc. Các s liu, công trình s dng ca
tác gi khác đều được trích dn ngun gc rõ ràng.
Tt c phn mm s dng trong đồ án này đều là mã ngun m.
Nếu phát hin có bt kì s gian ln nào, tôi xin chu hoàn toàn trách nhim.
Lý Văn Quỳ
lOMoARcPSD| 58490434
Mc lc
1 GII THIU .......................................................................................................... 1
1.1 Tng quan v d liu ln .................................................................................... 1
1.2 Mc tiêu của đề tài ............................................................................................. 1
1.3 Cu trúc của Đồ án .............................................................................................. 1
2 NỘI DUNG VÀ PHƯƠNG PHÁP THỰC HIN .......................................................... 2
2.1 Phân tích bài toán ............................................................................................... 2
2.2 Thu thp và chun b d liu .............................................................................. 2
2.3 Cài đặt và trin khai ng dng trên Hadoop ...................................................... 2
2.3.1 Cài đặt Hadoop....................................................................................... 2
2.3.2 Xây dng gii thut ................................................................................ 2
2.3.3 Lp trình ng dng ................................................................................. 4
2.3.4 Thc thi ng dng .................................................................................. 5
2.4 Cài đặt và trin khai ng dng trên Spark .......................................................... 5
2.4.1 Cài đặt Spark .......................................................................................... 5
2.4.2 Lp trình ng dng ................................................................................. 5
2.4.3 Thc thi ng dng .................................................................................. 5
3 KT LUN ............................................................................................................ 5
3.1 Đánh giá chung ................................................................................................... 5
3.1.1 Nhng kết qu đạt đưc........................................................................ 5
3.1.2 Mt s hn chế ...................................................................................... 5
3.2 Hướng phát trin ................................................................................................ 5
lOMoARcPSD| 58490434
Danh sách bng
lOMoARcPSD| 58490434
Danh sách hình v
2.1 Kiến trúc ca Hadoop. . . . . . . . . . . . . . . . . . . . . . . . . . . 4
lOMoARcPSD| 58490434
Danh sách gii thut
1 Pha Map x lý liên kết đến trang web . . . . . . . . . . . . . . . . . . . 4
2 Pha Reduce x lý liên kết đến trang web . . . . . . . . . . . . . . . . . 4
lOMoARcPSD| 58490434
Chương 1
GII THIU
1.1 Tng quan v d liu ln
Ngày nay, lĩnh vc d liu lớn (Big Data) đang được quan tâm nghiên cu ng
dng. Vic khai thác hiu qu d liu ln giúp khai phá, phát hin tri thc, giúp doanh
nghip, t chc nâng cao hiu qu hoạt động.
1.2 Mc tiêu ca đ tài
Các mc tiêu chính của đồ án:
Tìm hiu tng quan v d liu ln và ng dng;
Tìm hiểu các phương pháp, công nghệ, công c tiêu biu trong x lý d liu ln;
Vn dng kiến thc, công c để xây dng mt ng dng x d liu lớn đơn
gin.
1.3 Cu trúc ca Đ án
Đồ án gm các phần như sau:
Chương 1: Gii thiu.
Chương 1 – GII THIU
Chương 2: Nội dung và phương pháp thực hin.
Chương 3: Kết lun.
lOMoARcPSD| 58490434
2
Chương 2
NỘI DUNG VÀ PHƯƠNG PHÁP THỰC
HIN
2.1 Phân tích bài toán
Cho b d liệu văn bn cha các cp (source, target) biu din source -> target. u
cu: Vi mi trang web, hãy tng hp tt c các trang web có liên kết đến nó.
2.2 Thu thp và chun b d liu
Trong đồ án này chúng tôi s dng d liu t ĐH Stanford.
2.3 Cài đặt và trin khai ng dng trên Hadoop
Hình 2.1 mô t kiến trúc ca Hadoop [1].
2.3.1 Cài đặt Hadoop
2.3.2 Xây dng gii thut
Gii thut MapReduce tng hp liên kết đến trang Web
lOMoARcPSD| 58490434
Chương 2 – NỘI DUNG VÀ PHƯƠNG PHÁP THỰC HIN
Pha Map
Gii thut 1: Pha Map x lý liên kết đến trang web
1: for each (source, target) do
2: print(target, source)
3: end for
Pha Reduce
Gii thut 2: Pha Reduce x lý liên kết đến trang web
lOMoARcPSD| 58490434
1: for each (target) do
2: print(source) 3:
end for
Chương 2 – NỘI DUNG VÀ PHƯƠNG PHÁP THỰC HIN
2.3.3 Lp trình ng dng
Lp trình pha Map
#!/usr/bin/python3 """mapper.py"""
import sys
# Chương trình Python chạy trên Hadoop MapReduce qua tính năng Streaming.
# D liu vào t thiết b nhp chun (STDIN)
# Kết qu x lý gi ra thiết b xut chun (STDOUT)
for line in sys.stdin.buffer.raw:
source_site, target_site = line.split() print('%s\t%s' % (target_site,
source_site))
Lp trình pha Reduce
lOMoARcPSD| 58490434
2.3.4 Thc thi ng dng
2.4 Cài đặt và trin khai ng dng trên Spark
2.4.1 Cài đặt Spark
2.4.2 Lp trình ng dng
2.4.3 Thc thi ng dng
Chương 3
KT LUN
3.1 Đánh giá chung
3.1.1 Nhng kết qu đạt được
3.1.2 Mt s hn chế
3.2 ng phát trin
Tài liu tham kho
[1] Tom White. Hadoop: The definitive guide. " O’Reilly Media, Inc.", 2012.

Preview text:

lOMoAR cPSD| 58490434
KẾT QUẢ ĐÁNH GIÁ ĐỒ ÁN MÔN HỌC lOMoAR cPSD| 58490434
Họ và tên sinh viên: MSSV: Lớp: Nội dung Trọng số Điểm
1. Giải quyết vấn ề
1.1. Phân tích bài toán; thu thập, khảo sát và 20%
chuẩn bị dữ liệu; thiết kế giải thuật
1.2. Cài ặt, triển khai ứng dụng trên Hadoop 20%
1.3. Cài ặt, triển khai ứng dụng trên Spark 20%
2. Báo cáo bài tập lớn 2.1. Nội dung báo cáo 20% 2.2. Vấn áp 20% Điểm trung bình Giảng viên Lời cam đoan
Tôi cam đoan đây là công trình do tôi tự thực hiện. Các nội dung nghiên cứu,
số liệu và kết quả thực nghiệm là trung thực. Các số liệu, công trình sử dụng của
tác giả khác đều được trích dẫn nguồn gốc rõ ràng.
Tất cả phần mềm sử dụng trong đồ án này đều là mã nguồn mở.
Nếu phát hiện có bất kì sự gian lận nào, tôi xin chịu hoàn toàn trách nhiệm. Lý Văn Quỳ lOMoAR cPSD| 58490434 Mục lục
1 GIỚI THIỆU .......................................................................................................... 1
1.1 Tổng quan về dữ liệu lớn .................................................................................... 1
1.2 Mục tiêu của đề tài ............................................................................................. 1
1.3 Cấu trúc của Đồ án .............................................................................................. 1
2 NỘI DUNG VÀ PHƯƠNG PHÁP THỰC HIỆN .......................................................... 2
2.1 Phân tích bài toán ............................................................................................... 2
2.2 Thu thập và chuẩn bị dữ liệu .............................................................................. 2
2.3 Cài đặt và triển khai ứng dụng trên Hadoop ...................................................... 2
2.3.1 Cài đặt Hadoop....................................................................................... 2
2.3.2 Xây dựng giải thuật ................................................................................ 2
2.3.3 Lập trình ứng dụng ................................................................................. 4
2.3.4 Thực thi ứng dụng .................................................................................. 5
2.4 Cài đặt và triển khai ứng dụng trên Spark .......................................................... 5
2.4.1 Cài đặt Spark .......................................................................................... 5
2.4.2 Lập trình ứng dụng ................................................................................. 5
2.4.3 Thực thi ứng dụng .................................................................................. 5
3 KẾT LUẬN ............................................................................................................ 5
3.1 Đánh giá chung ................................................................................................... 5
3.1.1 Những kết quả đạt được........................................................................ 5
3.1.2 Một số hạn chế ...................................................................................... 5
3.2 Hướng phát triển ................................................................................................ 5 lOMoAR cPSD| 58490434 Danh sách bảng lOMoAR cPSD| 58490434 Danh sách hình vẽ
2.1 Kiến trúc của Hadoop.
. . . . . . . . . . . . . . . . . . . . . . . . . . 4 lOMoAR cPSD| 58490434
Danh sách giải thuật 1
Pha Map xử lý liên kết đến trang web . . . . . . . . . . . . . . . . . . . 4 2
Pha Reduce xử lý liên kết đến trang web . . . . . . . . . . . . . . . . . 4 lOMoAR cPSD| 58490434 Chương 1 GIỚI THIỆU
1.1 Tổng quan về dữ liệu lớn
Ngày nay, lĩnh vực dữ liệu lớn (Big Data) đang được quan tâm nghiên cứu và ứng
dụng. Việc khai thác hiệu quả dữ liệu lớn giúp khai phá, phát hiện tri thức, giúp doanh
nghiệp, tổ chức nâng cao hiệu quả hoạt động.
1.2 Mục tiêu của đề tài
Các mục tiêu chính của đồ án:
• Tìm hiểu tổng quan về dữ liệu lớn và ứng dụng;
• Tìm hiểu các phương pháp, công nghệ, công cụ tiêu biểu trong xử lý dữ liệu lớn;
• Vận dụng kiến thức, công cụ để xây dựng một ứng dụng xử lý dữ liệu lớn đơn giản. 1.3
Cấu trúc của Đồ án
Đồ án gồm các phần như sau:
• Chương 1: Giới thiệu. Chương 1 – GIỚI THIỆU
• Chương 2: Nội dung và phương pháp thực hiện. • Chương 3: Kết luận. lOMoAR cPSD| 58490434 2 Chương 2
NỘI DUNG VÀ PHƯƠNG PHÁP THỰC HIỆN 2.1 Phân tích bài toán
Cho bộ dữ liệu văn bản chứa các cặp (source, target) biểu diễn source -> target. Yêu
cầu: Với mỗi trang web, hãy tổng hợp tất cả các trang web có liên kết đến nó. 2.2
Thu thập và chuẩn bị dữ liệu
Trong đồ án này chúng tôi sử dụng dữ liệu từ ĐH Stanford. 2.3
Cài đặt và triển khai ứng dụng trên Hadoop
Hình 2.1 mô tả kiến trúc của Hadoop [1].
2.3.1 Cài đặt Hadoop
2.3.2 Xây dựng giải thuật
Giải thuật MapReduce tổng hợp liên kết đến trang Web lOMoAR cPSD| 58490434
Chương 2 – NỘI DUNG VÀ PHƯƠNG PHÁP THỰC HIỆN Pha Map
Giải thuật 1: Pha Map xử lý liên kết đến trang web
1: for each (source, target) do 2: print(target, source) 3: end for Pha Reduce
Giải thuật 2: Pha Reduce xử lý liên kết đến trang web lOMoAR cPSD| 58490434
1: for each (target) do 2: print(source) 3: end for
Chương 2 – NỘI DUNG VÀ PHƯƠNG PHÁP THỰC HIỆN
2.3.3 Lập trình ứng dụng Lập trình pha Map
#!/usr/bin/python3 """mapper.py""" import sys
# Chương trình Python chạy trên Hadoop MapReduce qua tính năng Streaming.
# Dữ liệu vào từ thiết bị nhập chuẩn (STDIN)
# Kết quả xử lý gửi ra thiết bị xuất chuẩn (STDOUT)
for line in sys.stdin.buffer.raw:
source_site, target_site = line.split() print('%s\t%s' % (target_site, source_site))
Lập trình pha Reduce lOMoAR cPSD| 58490434
2.3.4 Thực thi ứng dụng 2.4
Cài đặt và triển khai ứng dụng trên Spark
2.4.1 Cài đặt Spark
2.4.2 Lập trình ứng dụng
2.4.3 Thực thi ứng dụng Chương 3 KẾT LUẬN 3.1 Đánh giá chung
3.1.1 Những kết quả đạt được
3.1.2 Một số hạn chế
3.2 Hướng phát triển
Tài liệu tham khảo
[1] Tom White. Hadoop: The definitive guide. " O’Reilly Media, Inc.", 2012.