Slide bài giảng môn Phân tích dữ liệu lớn về nội dung "Mô hình thi hành"

Slide bài giảng môn Phân tích dữ liệu lớn về nội dung "Mô hình thi hành" của Đại học Ngân hàng Thành phố Hồ Chí Minh với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học vào thực tiễn cuộc sống. Mời bạn đọc đón xem!

lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH SONG SONG
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
NI DUNG
1. Mô hình lp trình MapReduce
2. H tng d liu Hive
3. Nn tng phân tích d liu Stratosphere
4. Mô hình thc thi Spark
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
Ti sao cn MapReduce
MapReduce
Mô hình MapReduce
Thc thi
Hadoop MapReduce
Demo
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH MapReduce
Ti sao cn MapReduce
X lý d liu vi quy mô ln
Kiến trúc MapReduce
Qun lý tiến trình song song và phân tán
Qun lý, sp xếp lch trình truy xut I/O
Theo dõi trng thái d liu
Qun lý s lượng ln d liu có quan h ph thucnhau
X lý li
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
MapReduce là gì?
Mô hình
lp trình
MapReducesong
song
H thng tính toán phân tán
Tăng tốc
Gii quyết
n các chi tiết cài
Qun lý li
Gom nhóm và sp xếp
Lp lch
lOMoARcPSD|36667950
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
MapReduce là gì?
Cách tiếp cn: chia tr
Chia nh vn ln thành các vn nh hơn
X lý song song tng vn nh
Tng hp kết qu
Đọc d liu ln
Rút trích thông tin cn thiết t tng phn t (Map)
Sp xếp các kết qu trung gian
Tng hp các kết qu trung gian (Reduce)
Phát sinh kết qu cui cùng
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
Mô hình MapReduce
Tri qua hai quá trình Map Reduce
Ngun: Oreilly
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH MapReduce
Mô hình MapReduce
Tri qua hai quá trình Map Reduce Hàm Map
Mi phn t ca d liu u vào s ược truyền cho hàm Map dưới dng cp
<key,value>
Hàm Map xut ra mt hoc nhiu cp <key,value>
Sau ó, các giá tr trung gian s ược gom thành các danh sách theo tng
key Hàm Reduce
Kết hp, x lý, biến i các value
Đầu ra là mt cp <key,value> ã x
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
Ngun: Oreilly
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH MapReduce
Mapper:
Đầu vào: key (t), values (tp các giá tr ếm ưc)
Đầu ra: key (t), value (tng s ln xut hin)
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
Tính toán song song
Hàm Map chy song song, to ra các giá tr trung giankhác nhau t
các tp d liu khác nhau
Hàm Reduce chy song song, x lý các tp khóa khácnhau
Tt c các giá tr ược x c lp
Tình trng tht c chai:
Giai on Reduce ch bt u khi giai on Map kết thúc
Tiếp tc
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
Đầu ra: key (word t), value (1)
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH MapReduce
Thc thi MapReduce
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
Thc thi MapReduce
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH MapReduce
Thc thi MapReduce
ớc 2, MapReduce sao chép chương trình này vào các máy
cluster (master và workers)
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH MapReduce
List
(<key, value>)
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
m
và thông
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH MapReduce
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
xut kết qu
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
Reduce
Reduce
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH MapReduce
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
Mt s trường hp thích hp vi MapReduce
D liu cn x lý lớn, kích thước tp tin ln
Các ng dng thc hin x lý, phân tích d liu, thigian x
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH MapReduce
Ưu im
H tr x lý và tính toán song song
Phân phi và x lý d liu ti mi node (worker)
Kh năng mở rng, s linh hot
D dàng lp trình
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH MapReduce
Nhượcim
Tc
Tình trng
“thắt c chai”
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
H TNG D LIU Hive
Ngun: logz.io
Hive là mt công c cơ sở h tng kho d
liu x lý d liu có cu trúc trong
Hadoop
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Hive là
Mt công c sở h tng kho d liu x d liu cu trúc
trong Hadoop
Nm trên nh Hadoop tóm tt D liu ln và giúp truy vn và phân
tích d dàng
Hive không phi
Mt CSDL SQL
Mt thiết kế x lý giao dch Online (OnLine Transaction Processing
- OLTP)
Mt ngôn ng cho các truy vn thi gian thc và cp nhtcp hàng
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
H TNG D LIU Hive
Đặc trưng
Nó lưu trữ lược trong cơ sở d liu và x lý d liu vào HDFS
ược thiết kế cho OLAP
Nó cung cp ngôn ng kiu SQL truy vấn ược gi là HiveQL hoc
HQL
Nó là quen thuc, nhanh chóng, có kh năng mở rng
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Các thành phn
Ngun: Researchgate
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
H TNG D LIU Hive
Các thành phn
Hive Client
vi nó. Chng hạn như
ng dng Thrift Client cp
trình iu khin JDBC
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
Vi mi mt loi ng dng thì Hive s cung cp mt trình
lOMoARcPSD|36667950
H TNG D LIU Hive
Các thành phn
iu khin trong
Hive Service th tương tác vi JDBC, ODBC và các ng dng Client khác. có nhim
v x lý các yêu cu ca ng dng trên Meta Store và Field System
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
ngưi
ến truy vn trong Hive. Các trình
lOMoARcPSD|36667950
H TNG D LIU Hive
Các thành phn
Information.
Các kết qu truy vn và d liu trong bng ca Hive ược lưu trữ trong
Hadoop Cluster trên HDFS.
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
H TNG D LIU Hive
Kiến trúc
Ngun: Tutorialspoint
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Kiến trúc
Các giao diện người dùng Hive h tr là Hive Web UI, Hive command line Hive HD
Insight (Trong máy ch Windows)
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
H TNG D LIU Hive
Kiến trúc
hoc
chúng và ánh x HDFS
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Kiến trúc
lOMoARcPSD|36667950
HiveQL Process Engine: HiveQL tương tự như SQL ồ trên Metastore. Đây là một trong
nhng thay thế của phương pháp truyền thng cho chương trình MapReduce. Thay
viết chương trình MapReduce bằng Java, chúng ta th viết mt truy vn cho công
vic MapReduce và x lý nó
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Kiến trúc
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
H TNG D LIU Hive
Kiến trúc
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Mô hình hot ng
Ngun: Tutorialspoint
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H thng tp phân tán Hadoop hoc HBASE các k thut
lOMoARcPSD|36667950
H TNG D LIU Hive
Mô hình hotng
người dùng web gi truy vniu khin
cơ sở d liệu nào như JDBC, ODBC, ...) thc thi
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Mô hình hotng
vn
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
Giao din Hive như Command line hoc Giao din
ến Trình
lOMoARcPSD|36667950
H TNG D LIU Hive
Mô hình hotng
ến Metastore
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Mô hình hotng
dch
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
. Nhn metadata
lOMoARcPSD|36667950
H TNG D LIU Hive
Mô hình hotng
trình
vn
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Mô hình hotng
ến
công c thc
thi.
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
Trình biên dch kim tra yêu cu gi li kế hoch cho
iu khin. Đến
lOMoARcPSD|36667950
H TNG D LIU Hive
Mô hình hotng
7. Thc thi công
vic: Trong ni
b, quá trình
thc thi công vic là mt công vic MapReduce. Công c thc thi gi công
vic ến JobTracker, trong node Name gán công vic này cho
TaskTracker, trong node Data. ây, truy vn thc thi công vic
MapReduce.
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Mô hình hot
ng
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
H TNG D LIU Hive
Mô hình hot
ng
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
H TNG D LIU Hive
Mô hình hotng
ến trình
iu
khin.
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
H TNG D LIU Hive
Mô hình hot
ng
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Stratosphere
Tng quan
Nn tng phân tích d liu ln thế h tiếp theo
Kết hp các im mnh ca MapReduce/Hadoop vi kh năng tru
ng hóa lp trình mnh m trong Java Scala cũng như thi gian
chy hiu sut cao
h tr riêng cho các ln lp, các ln lặp tăng dần vàcác chương
trình bao gm các hot ng DAG ln
Stratosphere là mt tp hp các PACT runtime, công c
thc thi Nephele và giao diện người dùng
Java và Scala.
Ngun: Stratosphoere
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Stratosphere
Đặc im
Ngun: Stratosphoere
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Stratosphere
Đặc im
Ngun: Stratosphoere
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Stratosphere
Đặc im
Các thut toán x lý khai thác d liu, học máy, … yêu cầu lp li d liu
ang hot ng nhiu ln.
Stratosphere h tr các thut toán lp, cho phép thi gian lp li rt
nhanh trình tối ưu hóa xử d liu bt biến vòng lp trong b
nh m
Ngun: Stratosphoere
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Stratosphere
Đặcim
Hadoop.
Ngun:
Stratosphoere
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Stratosphere
PACT runtime
ng song
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Stratosphere
PACT runtime
Toán t PACT x lý d liu trong mt lung vi mt hoc nhiu d liu
u vào và mt hoc nhiu u ra
Hp ng u vào xác nh cách UF ược ánh giá song
song
Hp ng u ra cho phép suy ra các thuc tính nht nh ca d liu u ra t ó
to ra chiến lưc thc thi hiu qu
Ngun: Stratosphoere
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Stratosphere
PACT runtime
Ngun: Stratosphoere
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Stratosphere
PACT runtime
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Stratosphere
Công c thc thi Nephele
Công c lung d liu song song quy ln x vicqun tài
nguyên, lp lch làm vic, liên lc và kh năng chịu li
th chy trên mt cm t qun các tài nguyênhoc kết
ni trc tiếp vi dch v ám mây IaaS phân b tài nguyên máy tính
theo yêu cu
Ngun: Stratosphoere
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Stratosphere
Công c thc thi Nephele
Ngun: Stratosphoere
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Stratosphere
Công c thc thi Nephele
Job Manager
Tiếp nhn công vic
Chu trách nhim lên lch
Điu phi vic thc hin công vic
Task Manager
Nhn tác v t Job Manager
Thc hin tác v
Thông báo cho Job Manager vic hoàn thành hoc các li
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
LÀM TH NÀO …
lưu trữ trung gian trên các ĩa
Hadoop MapReduce không tht s phù hp vi tính toán lp li
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
GII PHÁP MapReduce TRONG B NH
Ưu im c ghi d liu trên b nh trong
Tc
Dung lượng RAM ngày càng cao, chi phí thp
Nhiu tp tin d liu ca các job x lý d liu có khảnăng lưu trữ
trên RAM
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
GII PHÁP MapReduce TRONG B NH
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Apache SPARK
Apache Spark là gì
Mô hình Apache Spark
Thc thi
Demo
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Apache SPARK
Tng quan
Mt framework ngun m tính toán cụm, ược phát trin bi
AMPLab (2009), chuyn giao cho Apache Software Foundation
(2013)
Việc tính toán ược thc hin cùng lúc trên nhiu máy khác nhau
và ược thc hin b nh trong hay thc hin hoàn toàn trên RAM
X d liu theo thi gian thc, va nhn d liu tcác ngun
khác nhau ng thi thc hin ngay vic x trên d liu va nhn
ược
Không có h thng file ca riêng mình, h tr nhiu kiunh dng
file khác nhau
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Apache SPARK
Tng quan
Spark không s dng h thống lưu trữ riêng chyphân tích trên
các h thống nHDFS hoặc bên th ba như Redshift, Couchbase,
Cassandra
Spark trên Hadoop s dng YARN chia s mt cm tp d
liu chung m bo mc dch v và phn hi nht quán
những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Apache SPARK
Mc tiêu
Tối ưu hóa ể x lý lp i lp li i vi các bài toán hc máy
Phân tích d liệu tương tác trong khi vẫn gi ược kh năng mở
rng và kh năng chịu li ca Hadoop MapReduce
X lý d liu tinh vi
X lý d liu streaming vi tr thp
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Apache SPARK
Khái nim
Apache Spark là mt h thng x lý phân tán ngun mởược s dng
cho các khối lượng công vic d liu ln
Đặc trưng chính
B d liu phân tán linh hot (Resilient DistributedDatasets - RDD)
B sưu tập các bn ghi ch ọc ược phân vùng và phân b trên cụm, ược lưu trữ
trong b nh hoặc ĩa
X lý d liu = biến i th, trong ó các nút là RDD và các cnh th hin s biến
i
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Apache SPARK
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
Programming
Context
Tables
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Apache SPARK
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Apache SPARK
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Apache SPARK
Đặc im
S dng kh năng ghi vào RAM và thực thi truy vn tốiưu hóa ối vi
d liệu có kích thước bt k
Cung cp các API a ngôn ng
H tr tái s dng mã trên nhiu khối lượng công vic
H tr nhiu h thng tp tin
Cung cấp 3 cơ chế trong cùng mt nn tng
X lý d liu theo lô
X lý d liu thi gian thc
Phân tích d liu
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Apache SPARK
Các thành phn ca Apache Spark
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Apache SPARK
Các thành phn ca Apache Spark
Apache Spark Core: Thành phn ct lõi thc thi cho tác v bản làm
nn tng cho các chức năng khác
Spark SQL: Mt thành phn nm trên Spark Core, cung cp
SchemaRDD, h tr các d liu có cu trúc và bán cu trúc
Spark Streaming: Cho phép thc hin phân tích x lý trc tuyến x
lý theo lô
MLlib: Mt nn tng hc máy phân tán bên trên Spark do kiến trúc
phân tán da trên b nh
GrapX: Nn tng x th da trên Spark
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
MÔ HÌNH LP TRÌNH Apache SPARK
Kiến trúc
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Apache SPARK
Kiến trúc
iu khin quá trình
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Apache SPARK
Kiến trúc
ca cluster, sau node này
Distributed Datasets - RDD) ưc phân phi trên nhiu worker nodes
ược cached ó
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Apache SPARK
Kiến trúc
Manager và sau
liu.
Mi Executor có th cha nhiu task (công vic) ược giao x
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
lOMoARcPSD|36667950
MÔ HÌNH LP TRÌNH Apache SPARK
Ưu im
Tc cao
D s dng
Thư viện h tr phong phú
Nhược im
Không có h thng file riêng
Đòi hỏi nhiu RAM, chi phí cao
Spark Streaming không thc s “thời gian thc”
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
Hadoop VS. Spark
… những bước chp chng vào thế gii D liu ln … TS. Trnh Hoàng Nam
| 1/44

Preview text:

lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH SONG SONG
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 NỘI DUNG
1. Mô hình lập trình MapReduce
2. Hạ tầng dữ liệu Hive
3. Nền tảng phân tích dữ liệu Stratosphere 4. Mô hình thực thi Spark
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce •Tại sao cần MapReduce •MapReduce là gì •Mô hình MapReduce •Thực thi •Hadoop MapReduce •Demo
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce •Tại sao cần MapReduce
– Xử lý dữ liệu với quy mô lớn •Kiến trúc MapReduce
– Quản lý tiến trình song song và phân tán
– Quản lý, sắp xếp lịch trình truy xuất I/O
– Theo dõi trạng thái dữ liệu
– Quản lý số lượng lớn dữ liệu có quan hệ phụ thuộcnhau – Xử lý lỗi
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce • MapReduce là gì? – Mô hình lập trình • MapReducesong song
– Hệ thống tính toán phân tán • Tăng tốc – Giải quyết – Ẩn các chi tiết cài • Quản lý lỗi • Gom nhóm và sắp xếp • Lập lịch • … lOMoARcPSD| 36667950
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce • MapReduce là gì? – Cách tiếp cận: chia ể trị • Chia nhỏ vấn ề lớn thành các vấn ề nhỏ hơn
• Xử lý song song từng vấn ề nhỏ • Tổng hợp kết quả – Đọc dữ liệu lớn
– Rút trích thông tin cần thiết từ từng phần tử (Map)
– Sắp xếp các kết quả trung gian
– Tổng hợp các kết quả trung gian (Reduce)
– Phát sinh kết quả cuối cùng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce •Mô hình MapReduce
– Trải qua hai quá trình Map – Reduce Nguồn: Oreilly
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce • Mô hình MapReduce
– Trải qua hai quá trình Map – Reduce – Hàm Map
• Mỗi phần tử của dữ liệu ầu vào sẽ ược truyền cho hàm Map dưới dạng cặp
• Hàm Map xuất ra một hoặc nhiều cặp
– Sau ó, các giá trị trung gian sẽ ược gom thành các danh sách theo từng key – Hàm Reduce
• Kết hợp, xử lý, biến ổi các value • Đầu ra là một cặp ã xử lý
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce Nguồn: Oreilly
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce Mapper:
Đầu ra: key (word – từ), value (1) • •
• Đầu vào: key (từ), values (tập các giá trị ếm ược)
• Đầu ra: key (từ), value (tổng số lần xuất hiện)
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce •Tính toán song song
– Hàm Map chạy song song, tạo ra các giá trị trung giankhác nhau từ
các tập dữ liệu khác nhau
– Hàm Reduce chạy song song, xử lý các tập khóa khácnhau
– Tất cả các giá trị ược xử lý ộc lập
Tình trạng thắt cổ chai:
Giai oạn Reduce chỉ bắt ầu khi giai oạn Map kết thúc Tiếp tục
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce •Thực thi MapReduce
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce •Thực thi MapReduce
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce •Thực thi MapReduce
– Bước 2, MapReduce sao chép chương trình này vào các máy cluster (master và workers)
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce List ()
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce ệm và thông
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce Reduce
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce Reduce xuất kết quả
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce
•Một số trường hợp thích hợp với MapReduce
– Dữ liệu cần xử lý lớn, kích thước tập tin lớn
– Các ứng dụng thực hiện xử lý, phân tích dữ liệu, thờigian xử lý
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce •Ưu iểm
– Hỗ trợ xử lý và tính toán song song
– Phân phối và xử lý dữ liệu tại mỗi node (worker)
– Khả năng mở rộng, sự linh hoạt – Dễ dàng lập trình
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce •Nhượciểm – Tốc – Tình trạng “thắt cổ chai”
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive Nguồn: logz.io
Hive là một công cụ cơ sở hạ tầng kho dữ
liệu ể xử lý dữ liệu có cấu trúc trong Hadoop
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive • Hive là
– Một công cụ cơ sở hạ tầng kho dữ liệu ể xử lý dữ liệu có cấu trúc trong Hadoop
– Nằm trên ỉnh Hadoop ể tóm tắt Dữ liệu lớn và giúp truy vấn và phân tích dễ dàng • Hive không phải là – Một CSDL SQL
– Một thiết kế ể xử lý giao dịch Online (OnLine Transaction Processing - OLTP)
– Một ngôn ngữ cho các truy vấn thời gian thực và cập nhậtcấp hàng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Đặc trưng
– Nó lưu trữ lược ồ trong cơ sở dữ liệu và xử lý dữ liệu vào HDFS – Nó ược thiết kế cho OLAP
– Nó cung cấp ngôn ngữ kiểu SQL ể truy vấn ược gọi là HiveQL hoặc HQL
– Nó là quen thuộc, nhanh chóng, có khả năng mở rộng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Các thành phần Nguồn: Researchgate
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive
Với mỗi một loại ứng dụng thì Hive sẽ cung cấp một trình •Các thành phần Hive Client với nó. Chẳng hạn như
ứng dụng Thrift Client cấp trình iều khiển JDBC
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive người
ến truy vấn trong Hive. Các trình •Các thành phần iều khiển trong
Hive Service có thể tương tác với JDBC, ODBC và các ứng dụng Client khác. Nó có nhiệm
vụ xử lý các yêu cầu của ứng dụng trên Meta Store và Field System
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Các thành phần Information.
Các kết quả truy vấn và dữ liệu trong bảng của Hive ược lưu trữ trong Hadoop Cluster trên HDFS.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Kiến trúc Nguồn: Tutorialspoint
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Kiến trúc
Các giao diện người dùng mà Hive hỗ trợ là Hive Web UI, Hive command line và Hive HD
Insight (Trong máy chủ Windows)
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Kiến trúc ồ hoặc chúng và ánh xạ HDFS
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Kiến trúc lOMoARcPSD| 36667950
HiveQL Process Engine: HiveQL tương tự như SQL ồ trên Metastore. Đây là một trong
những thay thế của phương pháp truyền thống cho chương trình MapReduce. Thay
vì viết chương trình MapReduce bằng Java, chúng ta có thể viết một truy vấn cho công
việc MapReduce và xử lý nó
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Kiến trúc
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Kiến trúc
Hệ thống tệp phân tán Hadoop hoặc HBASE là các kỹ thuật
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạt ộng Nguồn: Tutorialspoint
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng
Giao diện Hive như Command line hoặc Giao diện
người dùng web gửi truy vấniều khiển ến Trình
cơ sở dữ liệu nào như JDBC, ODBC, ...) ể thực thi
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng vấn
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng ến Metastore . Nhận metadata
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng dịch
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng
Trình biên dịch kiểm tra yêu cầu và gửi lại kế hoạch cho iều khiển. Đến trình vấn
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng ến công cụ thực thi.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng 7. Thực thi công việc: Trong nội bộ, quá trình
thực thi công việc là một công việc MapReduce. Công cụ thực thi gửi công
việc ến JobTracker, trong node Name và nó gán công việc này cho
TaskTracker, trong node Data. Ở ây, truy vấn thực thi công việc MapReduce.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạt ộng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạt ộng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng ến trình iều khiển.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạt ộng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere •Tổng quan
– Nền tảng phân tích dữ liệu lớn thế hệ tiếp theo
– Kết hợp các iểm mạnh của MapReduce/Hadoop với khả năng trừu
tượng hóa lập trình mạnh mẽ trong Java và Scala cũng như thời gian chạy hiệu suất cao
– Có hỗ trợ riêng cho các lần lặp, các lần lặp tăng dần vàcác chương
trình bao gồm các hoạt ộng DAG lớn
Stratosphere là một tập hợp các PACT runtime, công cụ
thực thi Nephele và giao diện người dùng Java và Scala. Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere •Đặc iểm Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere •Đặc iểm Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere •Đặc iểm
– Các thuật toán xử lý khai thác dữ liệu, học máy, … yêu cầu lặp lại dữ liệu
ang hoạt ộng nhiều lần.
Stratosphere hỗ trợ các thuật toán lặp, cho phép thời gian lặp lại rất
nhanh và trình tối ưu hóa xử lý dữ liệu bất biến vòng lặp trong bộ nhớ ệm Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere •Đặciểm Hadoop. Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere •PACT runtime ồng song
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere •PACT runtime
– Toán tử PACT xử lý dữ liệu trong một luồng với một hoặc nhiều dữ liệu
ầu vào và một hoặc nhiều ầu ra • Hợp ồng ầu vào xác ịnh cách UF ược ánh giá song song
• Hợp ồng ầu ra cho phép suy ra các thuộc tính nhất ịnh của dữ liệu ầu ra từ ó
tạo ra chiến lược thực thi hiệu quả Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere •PACT runtime Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere •PACT runtime
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere
•Công cụ thực thi Nephele
– Công cụ luồng dữ liệu song song quy mô lớn xử lý việcquản lý tài
nguyên, lập lịch làm việc, liên lạc và khả năng chịu lỗi
– Có thể chạy trên một cụm và tự quản lý các tài nguyênhoặc kết
nối trực tiếp với dịch vụ ám mây IaaS ể phân bổ tài nguyên máy tính theo yêu cầu Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere
•Công cụ thực thi Nephele Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere
•Công cụ thực thi Nephele – Job Manager
• Tiếp nhận công việc
• Chịu trách nhiệm lên lịch
• Điều phối việc thực hiện công việc – Task Manager
• Nhận tác vụ từ Job Manager • Thực hiện tác vụ
• Thông báo cho Job Manager việc hoàn thành hoặc các lỗi
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam LÀM THẾ NÀO … ề
lưu trữ trung gian trên các ĩa
Hadoop MapReduce không thật sự phù hợp với tính toán lặp lại
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
GIẢI PHÁP MapReduce TRONG BỘ NHỚ •Ưu iểm
ọc – ghi dữ liệu trên bộ nhớ trong – Tốc
– Dung lượng RAM ngày càng cao, chi phí thấp
– Nhiều tập tin dữ liệu của các job xử lý dữ liệu có khảnăng lưu trữ trên RAM
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
GIẢI PHÁP MapReduce TRONG BỘ NHỚ
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Apache Spark là gì •Mô hình Apache Spark •Thực thi •Demo
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK •Tổng quan
– Một framework mã nguồn mở tính toán cụm, ược phát triển bởi
AMPLab (2009), chuyển giao cho Apache Software Foundation (2013)
– Việc tính toán ược thực hiện cùng lúc trên nhiều máy khác nhau
và ược thực hiện ở bộ nhớ trong hay thực hiện hoàn toàn trên RAM
– Xử lý dữ liệu theo thời gian thực, vừa nhận dữ liệu từcác nguồn
khác nhau ồng thời thực hiện ngay việc xử lý trên dữ liệu vừa nhận ược
– Không có hệ thống file của riêng mình, hỗ trợ nhiều kiểuịnh dạng file khác nhau
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Tổng quan
– Spark không sử dụng hệ thống lưu trữ riêng mà chạyphân tích trên
các hệ thống như HDFS hoặc bên thứ ba như Redshift, Couchbase, Cassandra
– Spark trên Hadoop sử dụng YARN ể chia sẻ một cụm và tập dữ
liệu chung ảm bảo mức ộ dịch vụ và phản hồi nhất quán
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK •Mục tiêu
– Tối ưu hóa ể xử lý lặp i lặp lại ối với các bài toán học máy
– Phân tích dữ liệu tương tác trong khi vẫn giữ ược khả năng mở
rộng và khả năng chịu lỗi của Hadoop MapReduce
– Xử lý dữ liệu tinh vi
– Xử lý dữ liệu streaming với ộ trễ thấp
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Khái niệm
– Apache Spark là một hệ thống xử lý phân tán nguồn mởược sử dụng
cho các khối lượng công việc dữ liệu lớn •Đặc trưng chính
– Bộ dữ liệu phân tán linh hoạt (Resilient DistributedDatasets - RDD)
• Bộ sưu tập các bản ghi chỉ ọc ược phân vùng và phân bổ trên cụm, ược lưu trữ trong bộ nhớ hoặc ĩa
• Xử lý dữ liệu = biến ổi ồ thị, trong ó các nút là RDD và các cạnh thể hiện sự biến ổi
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK Programming Tables Context
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Đặc iểm
– Sử dụng khả năng ghi vào RAM và thực thi truy vấn tốiưu hóa ối với
dữ liệu có kích thước bất kỳ – Cung cấp các API a ngôn ngữ
– Hỗ trợ tái sử dụng mã trên nhiều khối lượng công việc
– Hỗ trợ nhiều hệ thống tập tin
– Cung cấp 3 cơ chế trong cùng một nền tảng
• Xử lý dữ liệu theo lô
• Xử lý dữ liệu thời gian thực • Phân tích dữ liệu
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK
•Các thành phần của Apache Spark
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK
•Các thành phần của Apache Spark
– Apache Spark Core: Thành phần cốt lõi thực thi cho tác vụ cơ bản làm
nền tảng cho các chức năng khác
– Spark SQL: Một thành phần nằm trên Spark Core, nó cung cấp
SchemaRDD, hỗ trợ các dữ liệu có cấu trúc và bán cấu trúc
– Spark Streaming: Cho phép thực hiện phân tích xử lý trực tuyến xử lý theo lô
– MLlib: Một nền tảng học máy phân tán bên trên Spark do kiến trúc
phân tán dựa trên bộ nhớ
– GrapX: Nền tảng xử lý ồ thị dựa trên Spark
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK •Kiến trúc
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Kiến trúc iều khiển quá trình
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Kiến trúc của cluster, sau node này
Distributed Datasets - RDD) ược phân phối trên nhiều worker nodes và ược cached ở ó
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Kiến trúc Manager và sau liệu.
– Mỗi Executor có thể chứa nhiều task (công việc) ược giao ể xử lý
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Ưu iểm – Tốc ộ cao – Dễ sử dụng
– Thư viện hỗ trợ phong phú •Nhược iểm
– Không có hệ thống file riêng
– Đòi hỏi nhiều RAM, chi phí cao
– Spark Streaming không thực sự “thời gian thực”
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam Hadoop VS. Spark
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam