lOMoARcPSD| 58448089
TRƯỜNG ĐẠI HỌC THỦY LỢI KHOA CÔNG NGHỆ
THÔNG TIN
O O I TẬP LỚN DỮ LIU
LN ĐỀ TÀI:
PHÂN LOẠI CHẤT LƯỢNG Ô TÔ
Giảng viên: Trần Mạnh Tuấn.
Nhóm: 5.
Họ tên sinh viên: Nguyễn Hoàng Cầm.
MSV: 2151062724.
Họ tên sinh viên: Nguyễn Tiến Anh.
MSV: 2151062708.
Lớp: 63CNTT1.
Mục Lục
LỜI CẢM ƠN ................................................................................................................................... 2
I. Mô tả bài toán ............................................................................................................................. 3
1.Tổng Quan bộ dữ liệu .......................................................................................................... 3
2. Giới thiệu về hệ quản trị cơ sở dữ liệu MongoDB.................................................................... 4
2.1. Kiến trúc dữ liệu .............................................................................................................. 4
2.2. Đặc điểm nổi bật ............................................................................................................. 4
lOMoARcPSD| 58448089
2.3. Cơ chế quản lý dữ liệu .................................................................................................... 5
2.4. Các nh năng chính ......................................................................................................... 5
2.5. Ưu điểm ........................................................................................................................... 5
2.6. Nhược điểm .................................................................................................................... 6
2.7. Ứng dụng thực tế ............................................................................................................ 6
3. Quá trình cài đặt Mongo DB .................................................................................................. 7
B1: tải Mongodb Comunity server .......................................................................................... 7
B2: chạy mongodb-windows-x86_64-8.0.4-signed ................................................................ 7
B3: Tạo thư mục db với đường dẫn C:\data\db và kiểm tra kết quả setup bằng lệnh mongodb
................................................................................................................................................ 8
LỜI CẢM ƠN
Ngày nay, việc ứng dụng công nghệ thông n đã trở nên phổ biến trong hầu
hết mọi cơ quan, doanh nghiệp, trường học, đặc biệt là việc áp dụng các giải pháp
n học trong công tác quản lý. Trong vài năm trở lại đây, với tc độ phát triển n
vũ bão, CNTT đang dần làm cho cuộc sống của con người trở nên thú vị và đơn giản
hơn. Để bắt kịp với nhịp độ phát triển của xã hội, những kiến thức học được trên
giảng đường là vô cùng quan trọng đối với mỗi sinh viên chúng em. Vì vậy, chúng
em chn đề tài “Khai phá dữ liệu phân loại chất lượng ô tô” để làm báo cáo kết
thúc môn học của mình.
Chúng em chân thành xin gửi lời cảm ơn đặc biệt đến cô Phương Thảo
người đã tận nh giảng dạy môn Dữ Liệu Lớn cho chúng em trong từng buổi học.
Cô đã giúp chúng em trang bị kiến thức môn học và hơn cả là động lực ếp tục trên
con đường chinh phục công nghệ. Bên cạnh những kết quả mà chúng em đạt được
thì sẽ không khó tránh khỏi những thiếu sót trong quá trình làm đề tài vì thời gian
không cho phép và chưa có kinh nghiệm thực tế. Chính vì vậy chúng em rất mong
đưc sự cảm thông, chỉ bảo góp ý của cô. Những lời nhận xét, góp ý của thầy
chính là một bài học, kiến thức cho chúng em trên con đường sau này.
Chúng em xin cảm ơn!
lOMoARcPSD| 58448089
I. Mô tả bài toán
Những năm gần đây, nhu cu sở hữu ô tô của người Việt ngày càng tăng cao,
một phần do sự phát triển của nền kinh tế và mức sống được cải thiện, một phần
do xu hướng hiện đại hóa trong giao thông vn tải. Bên cạnh đó, việc lựa chọn mt
chiếc ô tô chất lượng phù hợp với nhu cầu sử dụng đang trở thành mối quan tâm
lớn của người êu dùng. Việc phân loại và đánh giá chất lượng ô tô một cách chính
xác có ý nghĩa quan trọng trong việc htrợ người dùng đưa ra quyết định mua sắm
phù hợp, đồng thời góp phần thúc đẩy các nhà sản xuất cải thiện sn phm ca
mình.
Vì vậy, nhóm em chọn đề tài “Phân Loại Chất Lượng Ô Tô” nhằm mục đích
nghiên cứu và ứng dụng các phương pháp phân loại trong việc đánh giá chất lượng
ô tô, từ đó cung cấp thông n hữu ích cho người dùng và hỗ trợ các doanh nghiệp
sản xuất trong việc cải ến sản phẩm.
1.Tổng Quan bộ dữ liu
Tp gồm 1000 dữ liệu với những chiều thông n: -Input:
Giá thành(buying): vhigh(1), high(2), med(3)
Chi phí bảo trì(maint): vhigh(1), high(2), med(3), low(4)
Số ợng cửa(doors): 2, 3, 4, 5 more(5)
Số chngồi(persons): 2, 4, more(5)
Kích thước cp đựng hành lý(lug_boot): big(2), med(3), small(4)
Độ an toàn(safety): high(2), med(3), low(4) -Output:
Mô tả nhãn lớp của dữ liệu: phân loại ô tô dựa trên chất lượng ở mức
acc, unacc
lOMoARcPSD| 58448089
2. Giới thiệu về hệ quản trị cơ sở dữ liệu MongoDB
Hệ quản trị cơ sở dữ liu MongoDB là một hệ quản trị cơ sở dữ liu
NoSQL mã nguồn mở, được thiết kế để xử lý lượng dữ liu lớn, hiệu suất cao và dễ
mở rộng. Dưới đây là một số đim nổi bật về MongoDB:
2.1. Kiến trúc dữ liệu
Không sử dụng bảng truyền thống như cơ sở dữ liệu quan hệ
(RDBMS). Thay vào đó, MongoDB lưu trữ dữ liệu dưới dạng document
(tài liệu) theo định dạng JSON (hoặc BSON – Binary JSON).
Document chứa các cặp key-value và linh hoạt, cho phép lưu trữ các
cấu trúc dữ liệu phức tạp như mảng hoặc đối tượng lồng nhau.
2.2. Đặc điểm nổi bật
Mô hình không quan hệ (NoSQL):
o Không cần schema cố định, phù hợp với các ứng dụng có dữ liu
thay đổi linh hoạt.
o Hỗ trợ lưu trữ dữ liệu phi cấu trúc và bán cấu trúc.
Tính mở rộng ngang (Horizontal Scaling):
lOMoARcPSD| 58448089
o Hỗ trợ sharding (chia nhỏ dữ liệu ra nhiều server) để tăng kh
năng lưu trữxử lý dữ liệu khi hệ thống mở rng.
Hiệu suất cao:
o MongoDB được tối ưu để truy vấn nhanh, đặc biệt với các tập
dữ liu lớn. o Có khả năng caching (bộ nhớ đệm) tự động để
tăng tốc độ truy xuất.
Khả năng ch hợp d dàng: o Hỗ trđa nền tảng: Node.js, Python,
Java, PHP, v.v.
o Dễ dàng ch hợp với các hệ thống hiện đại như
ứng dụng web, big data, và các dịch vụ đám mây.
2.3. Cơ chế quản lý dữ liệu
Database: Tương tự như cơ sở dữ liệu truyền thống.
Collecon: Tp hợp các document, tương đương với bảng trong
RDBMS.
Document: Đơn vị lưu trữ dữ liệu, tương tự với một hàng (row) trong
RDBMS nhưng linh hoạt hơn.
Index: Hỗ trợ tạo các chỉ mục để tăng tc độ truy vn.
2.4. Các nh năng chính
Truy vấn linh hoạt: MongoDB cung cấp cú pháp truy vấn mạnh mẽ và
dễ sử dụng.
Aggregaon Framework: Hỗ trợ các thao tác xử lý dữ liệu phức tp
(lter, group, sort, project, v.v.).
Replicaon: Hỗ trợ sao lưu dữ liệu (replica set) để đảm bảo nh sẵn
sàng (availability).
Transacon: Từ phiên bản 4.0, MongoDB hỗ trợ giao dịch
(transacons) để đảm bảo nh toàn vẹn dữ liu (ACID).
2.5. Ưu điểm
Linh hoạt khi xử lý dữ liệu thay đổi liên tục.
Dễ mở rng khi hệ thống cần xlý dữ liệu lớn.
lOMoARcPSD| 58448089
Hỗ trợ dữ liệu phi cấu trúc và bán cấu trúc.
Tích hợp tốt vi các công nghệ hin đi.
2.6. Nhược điểm
Không phù hợp cho các ứng dụng cần nh nhất quán cao (strong
consistency) ở mọi thời điểm.
Hiệu suất truy vấn giảm nếu không tối ưu hóa chỉ mục.
Yêu cu hiu biết sâu về mô hình NoSQL để thiết kế cơ sở dữ liu hiệu
quả.
2.7. ng dụng thực tế
ng dụng web và di động.
Phân ch dữ liu lớn (big data).
Hệ thống quản lý nội dung (CMS).
Các ứng dụng yêu cầu linh hoạt dữ liệu, chẳng hạn như thương mại
đin tử.
lOMoARcPSD| 58448089
3. Quá trình cài đặt Mongo DB
B1: tải Mongodb Comunity server
B2: chạy mongodb-windows-x86_64-8.0.4-signed
lOMoARcPSD| 58448089
B3: Tạo thư mục db với đường dẫn C:\data\db kiểm tra kết quả setup bằng
lệnh mongodb

Preview text:

lOMoAR cPSD| 58448089
TRƯỜNG ĐẠI HỌC THỦY LỢI KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO BÀI TẬP LỚN DỮ LIỆU LỚN ĐỀ TÀI:
PHÂN LOẠI CHẤT LƯỢNG Ô TÔ
Giảng viên: Trần Mạnh Tuấn. Nhóm: 5.
Họ tên sinh viên: Nguyễn Hoàng Cầm. MSV: 2151062724.
Họ tên sinh viên: Nguyễn Tiến Anh. MSV: 2151062708. Lớp: 63CNTT1. Mục Lục
LỜI CẢM ƠN ................................................................................................................................... 2
I. Mô tả bài toán ............................................................................................................................. 3
1.Tổng Quan bộ dữ liệu .......................................................................................................... 3
2. Giới thiệu về hệ quản trị cơ sở dữ liệu MongoDB.................................................................... 4
2.1. Kiến trúc dữ liệu .............................................................................................................. 4
2.2. Đặc điểm nổi bật ............................................................................................................. 4 lOMoAR cPSD| 58448089
2.3. Cơ chế quản lý dữ liệu .................................................................................................... 5
2.4. Các tính năng chính ......................................................................................................... 5
2.5. Ưu điểm ........................................................................................................................... 5
2.6. Nhược điểm .................................................................................................................... 6
2.7. Ứng dụng thực tế ............................................................................................................ 6
3. Quá trình cài đặt Mongo DB .................................................................................................. 7
B1: tải Mongodb Comunity server .......................................................................................... 7
B2: chạy mongodb-windows-x86_64-8.0.4-signed ................................................................ 7
B3: Tạo thư mục db với đường dẫn C:\data\db và kiểm tra kết quả setup bằng lệnh mongodb
................................................................................................................................................ 8 LỜI CẢM ƠN
Ngày nay, việc ứng dụng công nghệ thông tin đã trở nên phổ biến trong hầu
hết mọi cơ quan, doanh nghiệp, trường học, đặc biệt là việc áp dụng các giải pháp
tin học trong công tác quản lý. Trong vài năm trở lại đây, với tốc độ phát triển như
vũ bão, CNTT đang dần làm cho cuộc sống của con người trở nên thú vị và đơn giản
hơn. Để bắt kịp với nhịp độ phát triển của xã hội, những kiến thức học được trên
giảng đường là vô cùng quan trọng đối với mỗi sinh viên chúng em. Vì vậy, chúng
em chọn đề tài “Khai phá dữ liệu phân loại chất lượng ô tô” để làm báo cáo kết thúc môn học của mình.
Chúng em chân thành xin gửi lời cảm ơn đặc biệt đến cô Phương Thảo
người đã tận tình giảng dạy môn Dữ Liệu Lớn cho chúng em trong từng buổi học.
Cô đã giúp chúng em trang bị kiến thức môn học và hơn cả là động lực tiếp tục trên
con đường chinh phục công nghệ. Bên cạnh những kết quả mà chúng em đạt được
thì sẽ không khó tránh khỏi những thiếu sót trong quá trình làm đề tài vì thời gian
không cho phép và chưa có kinh nghiệm thực tế. Chính vì vậy chúng em rất mong
được sự cảm thông, chỉ bảo góp ý của cô. Những lời nhận xét, góp ý của thầy cô
chính là một bài học, kiến thức cho chúng em trên con đường sau này. Chúng em xin cảm ơn! lOMoAR cPSD| 58448089 I. Mô tả bài toán
Những năm gần đây, nhu cầu sở hữu ô tô của người Việt ngày càng tăng cao,
một phần do sự phát triển của nền kinh tế và mức sống được cải thiện, một phần
do xu hướng hiện đại hóa trong giao thông vận tải. Bên cạnh đó, việc lựa chọn một
chiếc ô tô chất lượng phù hợp với nhu cầu sử dụng đang trở thành mối quan tâm
lớn của người tiêu dùng. Việc phân loại và đánh giá chất lượng ô tô một cách chính
xác có ý nghĩa quan trọng trong việc hỗ trợ người dùng đưa ra quyết định mua sắm
phù hợp, đồng thời góp phần thúc đẩy các nhà sản xuất cải thiện sản phẩm của mình.
Vì vậy, nhóm em chọn đề tài “Phân Loại Chất Lượng Ô Tô” nhằm mục đích
nghiên cứu và ứng dụng các phương pháp phân loại trong việc đánh giá chất lượng
ô tô, từ đó cung cấp thông tin hữu ích cho người dùng và hỗ trợ các doanh nghiệp
sản xuất trong việc cải tiến sản phẩm.
1.Tổng Quan bộ dữ liệu
Tập gồm 1000 dữ liệu với những chiều thông tin: -Input:
Giá thành(buying): vhigh(1), high(2), med(3)
Chi phí bảo trì(maint): vhigh(1), high(2), med(3), low(4)
Số lượng cửa(doors): 2, 3, 4, 5 more(5)
Số chỗ ngồi(persons): 2, 4, more(5)
Kích thước cốp đựng hành lý(lug_boot): big(2), med(3), small(4)
Độ an toàn(safety): high(2), med(3), low(4) -Output:
Mô tả nhãn lớp của dữ liệu: phân loại ô tô dựa trên chất lượng ở mức acc, unacc lOMoAR cPSD| 58448089
2. Giới thiệu về hệ quản trị cơ sở dữ liệu MongoDB
Hệ quản trị cơ sở dữ liệu MongoDB là một hệ quản trị cơ sở dữ liệu
NoSQL mã nguồn mở, được thiết kế để xử lý lượng dữ liệu lớn, hiệu suất cao và dễ
mở rộng. Dưới đây là một số điểm nổi bật về MongoDB:
2.1. Kiến trúc dữ liệu
Không sử dụng bảng truyền thống như cơ sở dữ liệu quan hệ
(RDBMS). Thay vào đó, MongoDB lưu trữ dữ liệu dưới dạng document
(tài liệu) theo định dạng JSON (hoặc BSON – Binary JSON).
• Document chứa các cặp key-value và linh hoạt, cho phép lưu trữ các
cấu trúc dữ liệu phức tạp như mảng hoặc đối tượng lồng nhau.
2.2. Đặc điểm nổi bật
Mô hình không quan hệ (NoSQL):
o Không cần schema cố định, phù hợp với các ứng dụng có dữ liệu thay đổi linh hoạt.
o Hỗ trợ lưu trữ dữ liệu phi cấu trúc và bán cấu trúc.
Tính mở rộng ngang (Horizontal Scaling): lOMoAR cPSD| 58448089
o Hỗ trợ sharding (chia nhỏ dữ liệu ra nhiều server) để tăng khả
năng lưu trữ và xử lý dữ liệu khi hệ thống mở rộng. • Hiệu suất cao:
o MongoDB được tối ưu để truy vấn nhanh, đặc biệt với các tập
dữ liệu lớn. o Có khả năng caching (bộ nhớ đệm) tự động để
tăng tốc độ truy xuất.
Khả năng tích hợp dễ dàng: o Hỗ trợ đa nền tảng: Node.js, Python, Java, PHP, v.v.
o Dễ dàng tích hợp với các hệ thống hiện đại như
ứng dụng web, big data, và các dịch vụ đám mây.
2.3. Cơ chế quản lý dữ liệu
Database: Tương tự như cơ sở dữ liệu truyền thống.
Collection: Tập hợp các document, tương đương với bảng trong RDBMS.
Document: Đơn vị lưu trữ dữ liệu, tương tự với một hàng (row) trong
RDBMS nhưng linh hoạt hơn.
Index: Hỗ trợ tạo các chỉ mục để tăng tốc độ truy vấn.
2.4. Các tính năng chính
Truy vấn linh hoạt: MongoDB cung cấp cú pháp truy vấn mạnh mẽ và dễ sử dụng.
Aggregation Framework: Hỗ trợ các thao tác xử lý dữ liệu phức tạp
(filter, group, sort, project, v.v.).
Replication: Hỗ trợ sao lưu dữ liệu (replica set) để đảm bảo tính sẵn sàng (availability).
Transaction: Từ phiên bản 4.0, MongoDB hỗ trợ giao dịch
(transactions) để đảm bảo tính toàn vẹn dữ liệu (ACID). 2.5. Ưu điểm
• Linh hoạt khi xử lý dữ liệu thay đổi liên tục.
• Dễ mở rộng khi hệ thống cần xử lý dữ liệu lớn. lOMoAR cPSD| 58448089
• Hỗ trợ dữ liệu phi cấu trúc và bán cấu trúc.
• Tích hợp tốt với các công nghệ hiện đại. 2.6. Nhược điểm
• Không phù hợp cho các ứng dụng cần tính nhất quán cao (strong
consistency) ở mọi thời điểm.
• Hiệu suất truy vấn giảm nếu không tối ưu hóa chỉ mục.
• Yêu cầu hiểu biết sâu về mô hình NoSQL để thiết kế cơ sở dữ liệu hiệu quả.
2.7. Ứng dụng thực tế
• Ứng dụng web và di động.
• Phân tích dữ liệu lớn (big data).
• Hệ thống quản lý nội dung (CMS).
• Các ứng dụng yêu cầu linh hoạt dữ liệu, chẳng hạn như thương mại điện tử. lOMoAR cPSD| 58448089
3. Quá trình cài đặt Mongo DB
B1: tải Mongodb Comunity server
B2: chạy mongodb-windows-x86_64-8.0.4-signed lOMoAR cPSD| 58448089
B3: Tạo thư mục db với đường dẫn C:\data\db và kiểm tra kết quả setup bằng lệnh mongodb