BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC GIA ĐỊNH
KHOA: CÔNG NGHỆ THÔNG TIN
LAB08
MÔN: ĐIỆN TOÁN ĐÁM MÂY
Ngành: CÔNG NGHỆ THÔNG TIN
Chuyên ngành (nếu có): KHAI THÁC DỮ LIỆU LỚN
Giảng viên hướng dẫn: ThS. HỒ KHÔI
Sinh viên thực hiện: TRẦN ĐÌNH TRUNG
MSSV: 23150479
Lớp học phần: 231301 - 010100129004
TP. Hồ Chí Minh, tháng 9 năm 2025
NỘI DUNG BÀI LÀM LAB08
Câu: 1 Tìm hiểu cách thức hoạt động của amazon s3?
1. Tổng quan về Amazon S3
Amazon S3 (Simple Storage Service) dịch vụ lưu trữ đối tượng (Object Storage
Service) do Amazon Web Services (AWS) cung cấp.
cho phép người dùng lưu trữ, truy xuất quản dữ liệu (hình ảnh, video, tài
liệu, file backup, dữ liệu ứng dụng, v.v.) thông qua Internet.
Mục tiêu chính:
Lưu trữ dữ liệu với độ bền (Durability) và khả dụng (Availability) cực cao.
Cung cấp khả năng mở rộng gần như vô hạn (Scalable).
Hỗ trợ truy cập qua API, AWS CLI, SDK hoặc giao diện web console.
2. Kiến trúc và các khái niệm cơ bản trong S3
Thành phần chính:
Thành
phần
Mô tả
Bucket
“thư mục gốc” trong S3, dùng để chứa các đối tượng (objects). Mỗi
bucket có tên duy nhất toàn cầu.
Object
đơn vị lưu trữ cơ bản gồm: dữ liệu (file) + metadata (thông tin mô tả).
Key
tên định danh duy nhất cho mỗi object trong bucket (giống như đường
dẫn file).
Region
Vùng địa nơi bucket được tạo. Người dùng thể chọn region gần
nhất để tối ưu tốc độ.
Metadata
Thông tin tả đối tượng, như: loại dữ liệu, ngày tạo, quyền truy cập,
mã hóa, v.v.
Versioning
chế u trữ nhiều phiên bản khác nhau của cùng một object để tránh
mất dữ liệu.
3. Cách thức hoạt động của Amazon S3
Bước 1: Người dùng tạo Bucket
Người dùng đăng nhập AWS → MS3 Console → Chọn Create Bucket.
Đặt tên duy nhất và chọn Region (ví dụ: ap-southeast-1 Singapore).
Cấu hình quyền truy cập (public/private), ghi log, mã hóa, versioning, v.v.
Bước 2: Tải dữ liệu (Object Upload)
Mỗi file tải lên được coi là một object, có:
Key (tên file hoặc đường dẫn),
Value (dữ liệu file),
Metadata (mô tả file).
Ví dụ:
Bucket: my-photo-bucket
Key: 2025/vacation/photo1.jpg
Value: (file ảnh)
Bước 3: Lưu trữ và sao chép nội bộ
Khi object được tải lên, Amazon S3 tđộng nhân bản dữ liệu sang nhiều y
chủ trong cùng một Region (thường 3+ bản sao).
Điều này giúp:
o Độ bền dữ liệu: 99.999999999% (11 số 9)
o Khả năng sẵn sàng cao: vẫn truy cập được nếu 1 server bị lỗi.
Bước 4: Truy cập và quản lý dữ liệu
Người dùng truy cập object qua:
o AWS Console (giao diện web)
o AWS CLI (dòng lệnh)
o API / SDK (cho ứng dụng web, mobile, IoT, ML, …)
Mỗi object thể được gán URL công khai hoặc chỉ truy cập quyền (IAM
Policy, Access Control List).
Bước 5: Phân quyền và bảo mật
Dữ liệu trong S3 có thể được bảo vệ bằng:
o IAM (Identity and Access Management): cấp quyền người dùng hoặc
nhóm.
o Bucket Policy: quy định ai có thể đọc/ghi object.
o Access Control List (ACL): gán quyền chi tiết cho từng object.
o hóa (Encryption): hóa dữ liệu khi lưu trữ khi truyền (AES-
256, SSE-S3, SSE-KMS).
4. Các lớp lưu trữ (Storage Classes)
Amazon S3 có nhiều Storage Class khác nhau để phù hợp từng nhu cầu:
Lớp lưu trữ
Đặc điểm
Ứng dụng phù hợp
S3 Standard
Truy cập thường xuyên, tốc độ cao,
độ bền 99.999999999%.
Website, app, dữ liệu
nóng.
S3 Intelligent-Tiering
Tự động chuyển dliệu giữa các lớp
theo tần suất truy cập.
Dữ liệu thay đổi tần
suất.
S3 Standard-IA
(Infrequent Access)
Dữ liệu ít truy cập, chi phí lưu thấp,
phí truy xuất cao hơn.
Sao lưu định kỳ.
S3 Glacier / Glacier
Deep Archive
Lưu trữ lâu dài, giá rẻ, truy xuất chậm
(phút giờ).
Lưu trữ tài liệu, log,
backup dài hạn.
5. Cách thức truyền dữ liệu và truy cập
Khi người dùng tải dữ liệu lên:
1. Dữ liệu được mã hóa (nếu bật).
2. Gửi qua HTTP/HTTPS đến endpoint S3.
3. S3 lưu object + metadata và nhân bản đến nhiều máy chủ.
4. Trả về mã xác nhận (ETag) để đảm bảo tải lên thành công.
Khi người dùng tải xuống hoặc truy cập:
1. Ứng dụng gửi yêu cầu GET đến S3 (qua URL hoặc API).
2. S3 kiểm tra quyền truy cập → nếu hợp lệ, gửi object về.
3. Dữ liệu được giải mã (nếu có mã hóa) và trả lại người dùng.
6. Một số tính năng nâng cao của S3
Tính năng
Mô tả ngắn
Tính năng
Mô tả ngắn
Versioning
Lưu nhiều phiên bản object giúp phục hồi khi bxóa hoặc ghi
đè.
Lifecycle
Management
Tự động chuyển object sang lớp lưu trữ rẻ hơn sau thời gian
nhất định.
Replication
Tự động sao chép dữ liệu giữa các Region khác nhau (Cross-
Region Replication).
Event Notification
Gửi thông báo (SNS, Lambda, SQS) khi có upload/xóa object.
Static Website
Hosting
Cho phép dùng bucket như một website tĩnh (HTML, CSS, JS).
7. Mô hình hoạt động (mô tả bằng lời)
[Người dùng / Ứng dụng]
(HTTP / HTTPS)
[Amazon S3 Endpoint]
[Bucket chứa Object]
[S3 lưu trữ & sao chép nội bộ]
[Các Server trong Region]
Dữ liệu có thể truy cập lại ở bất kỳ đâu, qua Internet.
Amazon tự động quản lý việc sao lưu, bảo mật và cân bằng tải.
8. Ưu điểm của Amazon S3
Khả năng mở rộng hạn: lưu hàng tỷ đối tượng không cần quản hạ
tầng.
An toàn & bảo mật cao: tích hợp IAM, encryption, versioning.
Chi phí linh hoạt: trả tiền theo dung lượng và yêu cầu truy cập.
Hiệu năng cao: độ trễ thấp, tốc độ đọc/ghi nhanh.
Tích hợp sâu với các dịch vụ AWS khác: EC2, Lambda, CloudFront, Athena,
Glue,...
9. Hạn chế
Không phù hợp cho dữ liệu có yêu cầu I/O cực thấp (như database).
phí truy xuất (request) nếu dùng quá thường xuyên.
Dữ liệu có thể trễ vài giây để đồng bộ giữa các Region.

Preview text:

BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC GIA ĐỊNH
KHOA: CÔNG NGHỆ THÔNG TIN LAB08
MÔN: ĐIỆN TOÁN ĐÁM MÂY
Ngành: CÔNG NGHỆ THÔNG TIN
Chuyên ngành (nếu có): KHAI THÁC DỮ LIỆU LỚN
Giảng viên hướng dẫn: ThS. HỒ KHÔI
Sinh viên thực hiện: TRẦN ĐÌNH TRUNG MSSV: 23150479
Lớp học phần: 231301 - 010100129004
TP. Hồ Chí Minh, tháng 9 năm 2025
NỘI DUNG BÀI LÀM LAB08
Câu: 1 Tìm hiểu cách thức hoạt động của amazon s3?
1. Tổng quan về Amazon S3
Amazon S3 (Simple Storage Service) là dịch vụ lưu trữ đối tượng (Object Storage Service) do Amazon Web Services (AWS) cung cấp.
Nó cho phép người dùng lưu trữ, truy xuất và quản lý dữ liệu (hình ảnh, video, tài
liệu, file backup, dữ liệu ứng dụng, v.v.) thông qua Internet. Mục tiêu chính:
Lưu trữ dữ liệu với độ bền (Durability) và khả dụng (Availability) cực cao.
Cung cấp khả năng mở rộng gần như vô hạn (Scalable).
Hỗ trợ truy cập qua API, AWS CLI, SDK hoặc giao diện web console.
2. Kiến trúc và các khái niệm cơ bản trong S3 Thành phần chính: Thành Mô tả phần
Là “thư mục gốc” trong S3, dùng để chứa các đối tượng (objects). Mỗi Bucket
bucket có tên duy nhất toàn cầu. Object
Là đơn vị lưu trữ cơ bản gồm: dữ liệu (file) + metadata (thông tin mô tả).
Là tên định danh duy nhất cho mỗi object trong bucket (giống như đường Key dẫn file).
Vùng địa lý nơi bucket được tạo. Người dùng có thể chọn region gần Region
nhất để tối ưu tốc độ.
Thông tin mô tả đối tượng, như: loại dữ liệu, ngày tạo, quyền truy cập, Metadata mã hóa, v.v.
Cơ chế lưu trữ nhiều phiên bản khác nhau của cùng một object để tránh Versioning mất dữ liệu.
3. Cách thức hoạt động của Amazon S3
Bước 1: Người dùng tạo Bucket
Người dùng đăng nhập AWS → Mở S3 Console → Chọn Create Bucket.
Đặt tên duy nhất và chọn Region (ví dụ: ap-southeast-1 – Singapore).
Cấu hình quyền truy cập (public/private), ghi log, mã hóa, versioning, v.v.
Bước 2: Tải dữ liệu (Object Upload)
Mỗi file tải lên được coi là một object, có:
Key (tên file hoặc đường dẫn), Value (dữ liệu file), Metadata (mô tả file). Ví dụ: Bucket: my-photo-bucket Key: 2025/vacation/photo1.jpg Value: (file ảnh)
Bước 3: Lưu trữ và sao chép nội bộ
Khi object được tải lên, Amazon S3 tự động nhân bản dữ liệu sang nhiều máy
chủ trong cùng một Region (thường 3+ bản sao). Điều này giúp:
o Độ bền dữ liệu: 99.999999999% (11 số 9)
o Khả năng sẵn sàng cao: vẫn truy cập được nếu 1 server bị lỗi.
Bước 4: Truy cập và quản lý dữ liệu
Người dùng truy cập object qua:
o AWS Console (giao diện web) o AWS CLI (dòng lệnh)
o API / SDK (cho ứng dụng web, mobile, IoT, ML, …)
Mỗi object có thể được gán URL công khai hoặc chỉ truy cập có quyền (IAM Policy, Access Control List).
Bước 5: Phân quyền và bảo mật
Dữ liệu trong S3 có thể được bảo vệ bằng:
o IAM (Identity and Access Management): cấp quyền người dùng hoặc nhóm.
o Bucket Policy: quy định ai có thể đọc/ghi object.
o Access Control List (ACL): gán quyền chi tiết cho từng object.
o Mã hóa (Encryption): mã hóa dữ liệu khi lưu trữ và khi truyền (AES- 256, SSE-S3, SSE-KMS).
4. Các lớp lưu trữ (Storage Classes)
Amazon S3 có nhiều Storage Class khác nhau để phù hợp từng nhu cầu: Lớp lưu trữ Đặc điểm Ứng dụng phù hợp
Truy cập thường xuyên, tốc độ cao, Website, app, dữ liệu S3 Standard độ bền 99.999999999%. nóng.
Tự động chuyển dữ liệu giữa các lớp Dữ liệu thay đổi tần
S3 Intelligent-Tiering theo tần suất truy cập. suất. S3
Standard-IA Dữ liệu ít truy cập, chi phí lưu thấp, Sao lưu định kỳ. (Infrequent Access) phí truy xuất cao hơn.
S3 Glacier / Glacier Lưu trữ lâu dài, giá rẻ, truy xuất chậm Lưu trữ tài liệu, log, Deep Archive (phút – giờ). backup dài hạn.
5. Cách thức truyền dữ liệu và truy cập
Khi người dùng tải dữ liệu lên:
1. Dữ liệu được mã hóa (nếu bật).
2. Gửi qua HTTP/HTTPS đến endpoint S3.
3. S3 lưu object + metadata và nhân bản đến nhiều máy chủ.
4. Trả về mã xác nhận (ETag) để đảm bảo tải lên thành công.
Khi người dùng tải xuống hoặc truy cập:
1. Ứng dụng gửi yêu cầu GET đến S3 (qua URL hoặc API).
2. S3 kiểm tra quyền truy cập → nếu hợp lệ, gửi object về.
3. Dữ liệu được giải mã (nếu có mã hóa) và trả lại người dùng.
6. Một số tính năng nâng cao của S3 Tính năng Mô tả ngắn Tính năng Mô tả ngắn
Lưu nhiều phiên bản object – giúp phục hồi khi bị xóa hoặc ghi Versioning đè. Lifecycle
Tự động chuyển object sang lớp lưu trữ rẻ hơn sau thời gian Management nhất định.
Tự động sao chép dữ liệu giữa các Region khác nhau (Cross- Replication Region Replication).
Event Notification Gửi thông báo (SNS, Lambda, SQS) khi có upload/xóa object. Static
Website Cho phép dùng bucket như một website tĩnh (HTML, CSS, JS). Hosting
7. Mô hình hoạt động (mô tả bằng lời)
[Người dùng / Ứng dụng] ↓ (HTTP / HTTPS) ↓ [Amazon S3 Endpoint] ↓ [Bucket chứa Object] ↓
[S3 lưu trữ & sao chép nội bộ] ↓ [Các Server trong Region]
• Dữ liệu có thể truy cập lại ở bất kỳ đâu, qua Internet.
• Amazon tự động quản lý việc sao lưu, bảo mật và cân bằng tải.
8. Ưu điểm của Amazon S3
• Khả năng mở rộng vô hạn: lưu hàng tỷ đối tượng mà không cần quản lý hạ tầng.
• An toàn & bảo mật cao: tích hợp IAM, encryption, versioning.
• Chi phí linh hoạt: trả tiền theo dung lượng và yêu cầu truy cập.
• Hiệu năng cao: độ trễ thấp, tốc độ đọc/ghi nhanh.
• Tích hợp sâu với các dịch vụ AWS khác: EC2, Lambda, CloudFront, Athena, Glue,... 9. Hạn chế
• Không phù hợp cho dữ liệu có yêu cầu I/O cực thấp (như database).
• Có phí truy xuất (request) nếu dùng quá thường xuyên.
• Dữ liệu có thể trễ vài giây để đồng bộ giữa các Region.