-
Thông tin
-
Hỏi đáp
Slide bài giảng môn Phân tích dữ liệu lớn về nội dung "Mô hình thi hành"
Slide bài giảng môn Phân tích dữ liệu lớn về nội dung "Mô hình thi hành" của Đại học Ngân hàng Thành phố Hồ Chí Minh với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học vào thực tiễn cuộc sống. Mời bạn đọc đón xem!
Phân tích dữ liệu lớn (Big Data Analytic) 4 tài liệu
Đại học ngân hàng Thành phố Hồ Chí Minh 221 tài liệu
Slide bài giảng môn Phân tích dữ liệu lớn về nội dung "Mô hình thi hành"
Slide bài giảng môn Phân tích dữ liệu lớn về nội dung "Mô hình thi hành" của Đại học Ngân hàng Thành phố Hồ Chí Minh với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần, từ đó học tập tốt và có kết quả cao cũng như có thể vận dụng tốt những kiến thức mình đã học vào thực tiễn cuộc sống. Mời bạn đọc đón xem!
Môn: Phân tích dữ liệu lớn (Big Data Analytic) 4 tài liệu
Trường: Đại học ngân hàng Thành phố Hồ Chí Minh 221 tài liệu
Thông tin:
Tác giả:
Tài liệu khác của Đại học ngân hàng Thành phố Hồ Chí Minh
Preview text:
lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH SONG SONG
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 NỘI DUNG
1. Mô hình lập trình MapReduce
2. Hạ tầng dữ liệu Hive
3. Nền tảng phân tích dữ liệu Stratosphere 4. Mô hình thực thi Spark
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce •Tại sao cần MapReduce •MapReduce là gì •Mô hình MapReduce •Thực thi •Hadoop MapReduce •Demo
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce •Tại sao cần MapReduce
– Xử lý dữ liệu với quy mô lớn •Kiến trúc MapReduce
– Quản lý tiến trình song song và phân tán
– Quản lý, sắp xếp lịch trình truy xuất I/O
– Theo dõi trạng thái dữ liệu
– Quản lý số lượng lớn dữ liệu có quan hệ phụ thuộcnhau – Xử lý lỗi
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce • MapReduce là gì? – Mô hình lập trình • MapReducesong song
– Hệ thống tính toán phân tán • Tăng tốc – Giải quyết – Ẩn các chi tiết cài • Quản lý lỗi • Gom nhóm và sắp xếp • Lập lịch • … lOMoARcPSD| 36667950
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce • MapReduce là gì? – Cách tiếp cận: chia ể trị • Chia nhỏ vấn ề lớn thành các vấn ề nhỏ hơn
• Xử lý song song từng vấn ề nhỏ • Tổng hợp kết quả – Đọc dữ liệu lớn
– Rút trích thông tin cần thiết từ từng phần tử (Map)
– Sắp xếp các kết quả trung gian
– Tổng hợp các kết quả trung gian (Reduce)
– Phát sinh kết quả cuối cùng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce •Mô hình MapReduce
– Trải qua hai quá trình Map – Reduce Nguồn: Oreilly
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce • Mô hình MapReduce
– Trải qua hai quá trình Map – Reduce – Hàm Map
• Mỗi phần tử của dữ liệu ầu vào sẽ ược truyền cho hàm Map dưới dạng cặp
• Hàm Map xuất ra một hoặc nhiều cặp
– Sau ó, các giá trị trung gian sẽ ược gom thành các danh sách theo từng key – Hàm Reduce
• Kết hợp, xử lý, biến ổi các value • Đầu ra là một cặp ã xử lý
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce Nguồn: Oreilly
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce Mapper:
Đầu ra: key (word – từ), value (1) • •
• Đầu vào: key (từ), values (tập các giá trị ếm ược)
• Đầu ra: key (từ), value (tổng số lần xuất hiện)
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce •Tính toán song song
– Hàm Map chạy song song, tạo ra các giá trị trung giankhác nhau từ
các tập dữ liệu khác nhau
– Hàm Reduce chạy song song, xử lý các tập khóa khácnhau
– Tất cả các giá trị ược xử lý ộc lập
Tình trạng thắt cổ chai:
Giai oạn Reduce chỉ bắt ầu khi giai oạn Map kết thúc Tiếp tục
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce •Thực thi MapReduce
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce •Thực thi MapReduce
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce •Thực thi MapReduce
– Bước 2, MapReduce sao chép chương trình này vào các máy cluster (master và workers)
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce List ()
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce ệm và thông
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce Reduce
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce Reduce xuất kết quả
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce
•Một số trường hợp thích hợp với MapReduce
– Dữ liệu cần xử lý lớn, kích thước tập tin lớn
– Các ứng dụng thực hiện xử lý, phân tích dữ liệu, thờigian xử lý
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH MapReduce •Ưu iểm
– Hỗ trợ xử lý và tính toán song song
– Phân phối và xử lý dữ liệu tại mỗi node (worker)
– Khả năng mở rộng, sự linh hoạt – Dễ dàng lập trình
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH MapReduce •Nhượciểm – Tốc – Tình trạng “thắt cổ chai”
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive Nguồn: logz.io
Hive là một công cụ cơ sở hạ tầng kho dữ
liệu ể xử lý dữ liệu có cấu trúc trong Hadoop
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive • Hive là
– Một công cụ cơ sở hạ tầng kho dữ liệu ể xử lý dữ liệu có cấu trúc trong Hadoop
– Nằm trên ỉnh Hadoop ể tóm tắt Dữ liệu lớn và giúp truy vấn và phân tích dễ dàng • Hive không phải là – Một CSDL SQL
– Một thiết kế ể xử lý giao dịch Online (OnLine Transaction Processing - OLTP)
– Một ngôn ngữ cho các truy vấn thời gian thực và cập nhậtcấp hàng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Đặc trưng
– Nó lưu trữ lược ồ trong cơ sở dữ liệu và xử lý dữ liệu vào HDFS – Nó ược thiết kế cho OLAP
– Nó cung cấp ngôn ngữ kiểu SQL ể truy vấn ược gọi là HiveQL hoặc HQL
– Nó là quen thuộc, nhanh chóng, có khả năng mở rộng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Các thành phần Nguồn: Researchgate
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive
Với mỗi một loại ứng dụng thì Hive sẽ cung cấp một trình •Các thành phần Hive Client với nó. Chẳng hạn như
ứng dụng Thrift Client cấp trình iều khiển JDBC
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive người
ến truy vấn trong Hive. Các trình •Các thành phần iều khiển trong
Hive Service có thể tương tác với JDBC, ODBC và các ứng dụng Client khác. Nó có nhiệm
vụ xử lý các yêu cầu của ứng dụng trên Meta Store và Field System
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Các thành phần Information.
Các kết quả truy vấn và dữ liệu trong bảng của Hive ược lưu trữ trong Hadoop Cluster trên HDFS.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Kiến trúc Nguồn: Tutorialspoint
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Kiến trúc
Các giao diện người dùng mà Hive hỗ trợ là Hive Web UI, Hive command line và Hive HD
Insight (Trong máy chủ Windows)
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Kiến trúc ồ hoặc chúng và ánh xạ HDFS
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Kiến trúc lOMoARcPSD| 36667950
HiveQL Process Engine: HiveQL tương tự như SQL ồ trên Metastore. Đây là một trong
những thay thế của phương pháp truyền thống cho chương trình MapReduce. Thay
vì viết chương trình MapReduce bằng Java, chúng ta có thể viết một truy vấn cho công
việc MapReduce và xử lý nó
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Kiến trúc
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Kiến trúc
Hệ thống tệp phân tán Hadoop hoặc HBASE là các kỹ thuật
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạt ộng Nguồn: Tutorialspoint
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng
Giao diện Hive như Command line hoặc Giao diện
người dùng web gửi truy vấniều khiển ến Trình
cơ sở dữ liệu nào như JDBC, ODBC, ...) ể thực thi
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng vấn
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng ến Metastore . Nhận metadata
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng dịch
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng
Trình biên dịch kiểm tra yêu cầu và gửi lại kế hoạch cho iều khiển. Đến trình vấn
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng ến công cụ thực thi.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng 7. Thực thi công việc: Trong nội bộ, quá trình
thực thi công việc là một công việc MapReduce. Công cụ thực thi gửi công
việc ến JobTracker, trong node Name và nó gán công việc này cho
TaskTracker, trong node Data. Ở ây, truy vấn thực thi công việc MapReduce.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạt ộng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạt ộng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạtộng ến trình iều khiển.
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950 HẠ TẦNG DỮ LIỆU Hive •Mô hình hoạt ộng
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere •Tổng quan
– Nền tảng phân tích dữ liệu lớn thế hệ tiếp theo
– Kết hợp các iểm mạnh của MapReduce/Hadoop với khả năng trừu
tượng hóa lập trình mạnh mẽ trong Java và Scala cũng như thời gian chạy hiệu suất cao
– Có hỗ trợ riêng cho các lần lặp, các lần lặp tăng dần vàcác chương
trình bao gồm các hoạt ộng DAG lớn
Stratosphere là một tập hợp các PACT runtime, công cụ
thực thi Nephele và giao diện người dùng Java và Scala. Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere •Đặc iểm Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere •Đặc iểm Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere •Đặc iểm
– Các thuật toán xử lý khai thác dữ liệu, học máy, … yêu cầu lặp lại dữ liệu
ang hoạt ộng nhiều lần.
Stratosphere hỗ trợ các thuật toán lặp, cho phép thời gian lặp lại rất
nhanh và trình tối ưu hóa xử lý dữ liệu bất biến vòng lặp trong bộ nhớ ệm Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere •Đặciểm Hadoop. Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere •PACT runtime ồng song
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere •PACT runtime
– Toán tử PACT xử lý dữ liệu trong một luồng với một hoặc nhiều dữ liệu
ầu vào và một hoặc nhiều ầu ra • Hợp ồng ầu vào xác ịnh cách UF ược ánh giá song song
• Hợp ồng ầu ra cho phép suy ra các thuộc tính nhất ịnh của dữ liệu ầu ra từ ó
tạo ra chiến lược thực thi hiệu quả Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere •PACT runtime Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere •PACT runtime
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere
•Công cụ thực thi Nephele
– Công cụ luồng dữ liệu song song quy mô lớn xử lý việcquản lý tài
nguyên, lập lịch làm việc, liên lạc và khả năng chịu lỗi
– Có thể chạy trên một cụm và tự quản lý các tài nguyênhoặc kết
nối trực tiếp với dịch vụ ám mây IaaS ể phân bổ tài nguyên máy tính theo yêu cầu Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Stratosphere
•Công cụ thực thi Nephele Nguồn: Stratosphoere
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Stratosphere
•Công cụ thực thi Nephele – Job Manager
• Tiếp nhận công việc
• Chịu trách nhiệm lên lịch
• Điều phối việc thực hiện công việc – Task Manager
• Nhận tác vụ từ Job Manager • Thực hiện tác vụ
• Thông báo cho Job Manager việc hoàn thành hoặc các lỗi
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam LÀM THẾ NÀO … ề
lưu trữ trung gian trên các ĩa
Hadoop MapReduce không thật sự phù hợp với tính toán lặp lại
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
GIẢI PHÁP MapReduce TRONG BỘ NHỚ •Ưu iểm
ọc – ghi dữ liệu trên bộ nhớ trong – Tốc
– Dung lượng RAM ngày càng cao, chi phí thấp
– Nhiều tập tin dữ liệu của các job xử lý dữ liệu có khảnăng lưu trữ trên RAM
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
GIẢI PHÁP MapReduce TRONG BỘ NHỚ
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Apache Spark là gì •Mô hình Apache Spark •Thực thi •Demo
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK •Tổng quan
– Một framework mã nguồn mở tính toán cụm, ược phát triển bởi
AMPLab (2009), chuyển giao cho Apache Software Foundation (2013)
– Việc tính toán ược thực hiện cùng lúc trên nhiều máy khác nhau
và ược thực hiện ở bộ nhớ trong hay thực hiện hoàn toàn trên RAM
– Xử lý dữ liệu theo thời gian thực, vừa nhận dữ liệu từcác nguồn
khác nhau ồng thời thực hiện ngay việc xử lý trên dữ liệu vừa nhận ược
– Không có hệ thống file của riêng mình, hỗ trợ nhiều kiểuịnh dạng file khác nhau
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Tổng quan
– Spark không sử dụng hệ thống lưu trữ riêng mà chạyphân tích trên
các hệ thống như HDFS hoặc bên thứ ba như Redshift, Couchbase, Cassandra
– Spark trên Hadoop sử dụng YARN ể chia sẻ một cụm và tập dữ
liệu chung ảm bảo mức ộ dịch vụ và phản hồi nhất quán
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK •Mục tiêu
– Tối ưu hóa ể xử lý lặp i lặp lại ối với các bài toán học máy
– Phân tích dữ liệu tương tác trong khi vẫn giữ ược khả năng mở
rộng và khả năng chịu lỗi của Hadoop MapReduce
– Xử lý dữ liệu tinh vi
– Xử lý dữ liệu streaming với ộ trễ thấp
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Khái niệm
– Apache Spark là một hệ thống xử lý phân tán nguồn mởược sử dụng
cho các khối lượng công việc dữ liệu lớn •Đặc trưng chính
– Bộ dữ liệu phân tán linh hoạt (Resilient DistributedDatasets - RDD)
• Bộ sưu tập các bản ghi chỉ ọc ược phân vùng và phân bổ trên cụm, ược lưu trữ trong bộ nhớ hoặc ĩa
• Xử lý dữ liệu = biến ổi ồ thị, trong ó các nút là RDD và các cạnh thể hiện sự biến ổi
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK Programming Tables Context
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Đặc iểm
– Sử dụng khả năng ghi vào RAM và thực thi truy vấn tốiưu hóa ối với
dữ liệu có kích thước bất kỳ – Cung cấp các API a ngôn ngữ
– Hỗ trợ tái sử dụng mã trên nhiều khối lượng công việc
– Hỗ trợ nhiều hệ thống tập tin
– Cung cấp 3 cơ chế trong cùng một nền tảng
• Xử lý dữ liệu theo lô
• Xử lý dữ liệu thời gian thực • Phân tích dữ liệu
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK
•Các thành phần của Apache Spark
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK
•Các thành phần của Apache Spark
– Apache Spark Core: Thành phần cốt lõi thực thi cho tác vụ cơ bản làm
nền tảng cho các chức năng khác
– Spark SQL: Một thành phần nằm trên Spark Core, nó cung cấp
SchemaRDD, hỗ trợ các dữ liệu có cấu trúc và bán cấu trúc
– Spark Streaming: Cho phép thực hiện phân tích xử lý trực tuyến xử lý theo lô
– MLlib: Một nền tảng học máy phân tán bên trên Spark do kiến trúc
phân tán dựa trên bộ nhớ
– GrapX: Nền tảng xử lý ồ thị dựa trên Spark
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam
MÔ HÌNH LẬP TRÌNH Apache SPARK •Kiến trúc
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Kiến trúc iều khiển quá trình
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Kiến trúc của cluster, sau node này
Distributed Datasets - RDD) ược phân phối trên nhiều worker nodes và ược cached ở ó
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Kiến trúc Manager và sau liệu.
– Mỗi Executor có thể chứa nhiều task (công việc) ược giao ể xử lý
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam lOMoARcPSD| 36667950
MÔ HÌNH LẬP TRÌNH Apache SPARK •Ưu iểm – Tốc ộ cao – Dễ sử dụng
– Thư viện hỗ trợ phong phú •Nhược iểm
– Không có hệ thống file riêng
– Đòi hỏi nhiều RAM, chi phí cao
– Spark Streaming không thực sự “thời gian thực”
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam Hadoop VS. Spark
… những bước chập chững vào thế giới Dữ liệu lớn … TS. Trịnh Hoàng Nam