


















Preview text:
lOMoAR cPSD| 60760964
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC GIA ĐỊNH
KHOA CÔNG NGHỆ THÔNG TIN ---------- TIỂU LUẬN
MÔN HỌC: PHƯƠNG PHÁP HỌC ĐẠI HỌC VÀ ĐỊNH
HƯỚNG NGHỀ NGHIỆP ĐỀ TÀI:
PHÂN TÍCH VỀ BIG DATA Thành viên MSSV 1. Đoàn Văn Giáp 22130013 2. Lương Khánh Dự 22130019 Lớp : 221302 Giảng viên hướng dẫn : Ths. Trần Hoài Thuận lOMoAR cPSD| 60760964
Thành phố Hồ Chí Minh, tháng 12 năm 2022
BỘ GIÁO DỤC VÀ ĐÀO TẠO
TRƯỜNG ĐẠI HỌC GIA ĐỊNH
KHOA CÔNG NGHỆ THÔNG TIN ---------- TIỂU LUẬN
MÔN HỌC: PHƯƠNG PHÁP HỌC ĐẠI HỌC VÀ ĐỊNH
HƯỚNG NGHỀ NGHIỆP ĐỀ TÀI:
PHÂN TÍCH VỀ BIG DATA Thành viên MSSV 1. Đoàn Văn Giáp 22130013 2. Lương Khánh Dự 22130019 Lớp : 221302 Giảng viên hướng dẫn : Ths. Trần Hoài Thuận lOMoAR cPSD| 60760964
Thành phố Hồ Chí Minh, tháng 12 năm 2022 LỜI CAM KẾT
Chúng em xin cam đoan tất cả số liệu và dẫn chứng từ tiểu luận trên là cơ sở tìm tòi
và nghiên cứu của nhóm. Mọi sự giúp đỡ cho việc xây dựng cơ sở lý thuyết đều được
trình bày rõ ràng và chi tiết trong phần tài liệu trích dẫn hợp lệ. Nếu phát hiện có sự sao
chép, chúng em xin chịu mọi trách nhiệm.
Chúng em xin hoàn toàn chịu trách nhiệm cho lời cam kết của mình. Người cam kết lOMoAR cPSD| 60760964
DANH MỤC TỪ VIẾT TẮT DLL Dữ liệu lớn GPS Global Positioning System
Hệ thống định vị toàn cầu SQL
Ngôn ngữ truy vấn có cấu trúc IMDB Internet Movie Database
Kho cơ sở dữ liệu online HDD Hard Disk Drive Ổ cứng VNG
Công ty công nghệ Việt Nam VNA Vietnamairlines Hãng hàng không Vietnamairlines FIM Flight Integration Manager
Quản lý tích hợp chuyến bay AGS
Dữ liệu cảm biến trên tàu bay FSI Công ty công nghệ CNTT Công nghệ thông tin DN Doanh nghiệp RFID
Radio Frequency Identification
Kỹ thuật nhận dạng sóng vô tuyến từ xa USD United States dollar Đồng đô la Mỹ IBM
International Business Machines
Tập đoàn về công nghệ máy tính đa quốc gia S.M.A. S - Social Xã hội C M - Mobile Di động A -Analytics Phân tích C - Cloud Đám mây TPTM Thành phố thông minh
MỤC LỤC MỞ ĐẦU 6 1. Lý do chọn đề tài 6 2. Mục đích nghiên cứu 6
3. Đối tượng nghiên cứu 6 4. Phạm vi nghiên cứu 6
5. Phương pháp nghiên cứu6 lOMoAR cPSD| 60760964
CHƯƠNG 1: TỔNG QUAN VỀ BIG DATA 8 1.1. Big data là gì? 8
1.1.1. Khái niệm về Big data 8
1.1.2. Nguồn hình thành và phương pháp khai thác, quản lý Big data 8
1.1.3. Những đặc trưng của Big data 9
1.2. Những lợi ích to lớn mà Big data mang lại 10
CHƯƠNG 2: ỨNG DỤNG CỦA BIG DATA TRONG THỰC TIỄN 13
2.1. Các ứng dụng đang sử dụng Big data13
2.2. Ưu điểm và nhược điểm của Big data 15
2.3. Các công nghệ đặc biệt dành cho Big data 16
2.4. Các kỹ năng cần có của Big data 16
2.5. Thực trạng phát triển hạ tầng Big data hiện nay ở Việt Nam 17
CHƯƠNG 3: CÁC PHƯƠNG ÁN ĐỂ PHÁT TRIỂN HẠ TẦNG BIG DATA Ở VIỆT NAM 19
3.1. Xây dựng các trung tâm Big data, các dịch vụ điện toán đám mây 19
3.2. Đầu tư chính vào các chương trình nghiên cứu cơ bản, chương trình về đổi mới công nghệ 19
3.3. Đầu tư vào công tác đào tạo nguồn nhân lực chất lượng cao trong lĩnh vực CNTT, phân tích dữ liệu 19
KẾT LUẬN 21 TÀI LIỆU THAM KHẢO 22 MỞ ĐẦU
1. Lý do chọn đề tài
Công nghệ thông tin ngày càng phát triển đi cùng với nó con người càng thấy được
sự nhỏ bé của bản thân ta. Càng nghiên cứu tìm tòi ta lại càng biết thêm nhiều kiến thức
mà trước đây nhân loại chưa từng biết đến như mạng xã hội, các thiết bị hiện đại (máy
vi tính, tivi). Thông minh, tiên tiến hơn thế chúng ta có các loại điện thoại thông minh
(smart phone) đang dần được cải tiến. Cho ta thấy rằng thời đại công nghệ thông tin
ngày nay đang phát triển một cách nhanh chóng và liên tục đến nổi ta không thể biết
được rằng nó còn sẽ đi tới đâu và nó sẽ phát triển đến như nào. Cho dù là vậy thì con
người chúng ta vẫn cần một thiết bị, một công cụ giúp ta có thể lưu trữ lượng thông tin lOMoAR cPSD| 60760964
lớn, lượng kiến thức khổng lồ mà con người đã tìm tòi nghiên cứu suốt bao nhiêu thập
kỉ qua đó là nguyên do cho sự ra đời của Big data. Em tin rằng với tốc độ phát triển
nhanh một cách chóng mặt như hiện tại Big Data sẽ trở thành một phần quan trọng không thể tách rời.
Qua lý do trên nhóm em quyết định chọn đề tài Phân tích về Big data để nghiên cứu.
Với mong muốn thành viên trong nhóm hiểu sâu hơn về đề tài cũng như định hướng cho
các bạn hiểu rõ ràng hơn về thuật ngữ mới này.
2. Mục đích nghiên cứu
Giúp các bạn hiểu rõ hơn về Big data từ khái niệm, đặc điểm đến các lợi ích to lớn
khổng lồ mà Big data mang lại trong công cuộc phát triển ngành công nghệ thông tin
nói riêng và phát triển đất nước nói chung. Không chỉ vậy còn giúp bản thân chúng em
có thêm kiến thức về một trong những phần quan trọng của ngành công nghệ thông tin,
trau dồi kiến thức để bản thân có thể theo kịp sự phát triển liên tục không ngừng nghỉ
của thời đại. Từ đó đề xuất các giải pháp nhằm phát triển hạ tầng Big data ở Việt Nam.
3. Đối tượng nghiên cứu Phân tích về Big data
4. Phạm vi nghiên cứu
Nghiên cứu về khái niệm, đặc trưng và lợi ích mà Big data mang lại. Nghiên cứu về
tình hình phát triển Big data ở Việt Nam hiện nay.
5. Phương pháp nghiên cứu Phương
pháp nghiên cứu lý thuyết:
- Phương pháp phân tích-tổng hợp lý thuyết.
- Phương pháp phân loại và hệ thống hoá lý thuyết.
Phương pháp nghiên cứu thực tiễn: - Phương pháp khảo sát.
- Phương pháp nghiên cứu thực tiễn.
- Phương pháp phân tích-tổng kết kinh nghiệm. lOMoAR cPSD| 60760964 NỘI DUNG CHƯƠNG 1: TỔNG QUAN VỀ BIG DATA 1.1. Big data là gì?
1.1.1. Khái niệm về Big data
Theo Wikipedia Big data (Dữ liệu lớn) thường bao gồm tập hợp dữ liệu với kích
thước vượt xa khả năng của các công cụ phần mềm thông thường để thu thập, hiển thị,
quản lý và xử lý dữ liệu trong một thời gian có thể chấp nhận được. Kích thước dữ liệu
lớn là một mục tiêu liên tục thay đổi. Như năm 2012 thì phạm vi một vài tá terabytes tới
nhiều petabytes dữ liệu. Dữ liệu lớn yêu cầu một tập các kỹ thuật và công nghệ được
tích hợp theo hình thức mới để khai phá từ tập dữ liệu đa dạng, phức tạp và có quy mô
lớn. Dữ liệu lớn bao gồm các thách thức như phân tích, thu thập, giám sát dữ liệu, tìm
kiếm, chia sẻ, lưu trữ, truyền nhận, trực quan, truy vấn và tính riêng tư. Trong năm
2012, Gartner đã cập nhật định nghĩa như sau: "Dữ liệu lớn là khối lượng lớn, tốc độ cao
và/hoặc loại hình thông tin rất đa dạng mà yêu cầu phương thức xử lý mới để cho phép
tăng cường ra quyết định, khám phá bên trong và xử lý tối ưu". Định nghĩa '3Vs' của
Gartner vẫn được sử dụng rộng rãi, và trong phù hợp với định nghĩa đồng thuận.là: "Dữ
liệu lớn tiêu biểu cho tập thông tin mà đặc điểm như khối lượng lớn (Volume), tốc độ
cao (Velocity) và đa dạng (Variety) để yêu cầu phương thức phân tích và công nghệ riêng
biệt để biến nó thành có giá trị".
Tập dữ liệu đang tăng rất nhanh một phần vì chúng được thu thập bởi số lượng thiết
bị internet vạn vật ngày càng rẻ và nhiều, ví dụ như các thiết bị di động, anten, nhật ký
phần mềm, các thiết bị thu hình, thu thanh, đầu đọc RFID và mạng cảm biến không dây.
Khả năng lưu trữ thông tin của thế giới đã tăng bình quân gấp đôi sau mỗi 40 tháng từ
những năm 1980; riêng năm 2012, mỗi ngày thế giới tạo ra 2.5 exabytes (2.5×1018). Một
câu hỏi cho các tổ chức kinh doanh lớn là xác định ai nên sở hữu các sáng kiến dữ liệu
lớn có ảnh hưởng tới toàn bộ tổ chức.
1.1.2. Nguồn hình thành và phương pháp khai thác, quản lý Big data
Qua thống kê và tổng hợp, dữ liệu lớn được hình thành chủ yếu từ 6 nguồn: - Dữ
liệu hành chính (phát sinh từ chương trình của một tổ chức, có thể là chính phủ hay phi
chính phủ). Ví dụ: hồ sơ y tế điện tử ở bệnh viện, hồ sơ bảo hiểm,… - Dữ liệu từ hoạt lOMoAR cPSD| 60760964
động thương mại (phát sinh từ các giao dịch giữa hai thực thể). Ví dụ: các giao dịch thẻ
tín dụng, giao dịch trên mạng,… -
Dữ liệu từ các thiết bị cảm biến như thiết bị chụp hình ảnh vệ tinh, cảm biến
đường, cảm biến khí hậu. -
Dữ liệu từ các thiết bị theo dõi, ví dụ theo dõi dữ liệu từ điện thoại di động, GPS.
- Dữ liệu từ các hành vi, ví dụ như tìm kiếm trực tuyến (tìm kiếm sản phẩm, dịch vụ hay
thông tin khác), đọc các trang mạng trực tuyến... -
Dữ liệu từ các thông tin về ý kiến, quan điểm của các cá nhân, tổ chức, trên các
phương tiện thông tin xã hội.
Phương pháp khai thác và quản lý DLL hiện nay được thiết kế phù hợp dựa theo
các nguồn hình thành DLL. Mỗi nguồn DLL khác nhau sẽ có phương pháp khai thác
và quản lý DLL khác nhau. Tuy nhiên, hiện nay phần lớn các tổ chức trên thế giưới
đều dùng Hadoop ecosystem là giải pháp tối ưu để khai thác và quản lý DLL.
1.1.3. Những đặc trưng của Big data
DLL có 5 đặc trưng cơ bản như sau (mô hình 5V):
(1) Khối lượng dữ liệu (Volume)
Đây là đặc điểm tiêu biểu nhất của DLL, khối lượng dữ liệu rất lớn. Kích cỡ của DLL
đang từng ngày tăng lên, và tính đến năm 2012 thì nó có thể nằm trong khoảng vài chục
terabyte cho đến nhiều petabyte (1 petabyte = 1024 terabyte) chỉ cho một tập hợp dữ
liệu. Dữ liệu truyền thống có thể lưu trữ trên các thiết bị đĩa mềm, đĩa cứng. Nhưng với
DLL chúng ta sẽ sử dụng công nghệ ‘đám mây” mới đáp ứng khả năng lưu trữ được.
(2) Tốc độ (Velocity)
Tốc độ có thể hiểu theo hai khía cạnh: (a) Khối lượng dữ liệu gia tăng rất nhanh
(mỗi giây có tới 72.9 triệu các yêu cầu truy cập tìm kiếm trên web bán hàng của
Amazon); (b) Xử lý dữ liệu nhanh ở mức thời gian thực (real-time), có nghĩa dữ liệu
được xử lý ngay tức thời ngay sau khi chúng phát sinh (tính đến bằng mili giây). Các
ứng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân sự,
Y tế như hiện nay phần lớn DLL được xử lý real-time. Công nghệ xử lý DLL hiện nay
đã cho phép chúng ta xử lý tức thì trước khi chúng được lưu trữ vào cơ sở dữ liệu. lOMoAR cPSD| 60760964
(3) Đa dạng (Variety)
Đối với dữ liệu truyền thống chúng ta hay nói đến dữ liệu có cấu trúc, thì ngày nay
hơn 80% dữ liệu được sinh ra là phi cấu trúc (tài liệu, blog, hình ảnh, video, bài hát, …).
Big data cho phép liên kết và phân tích nhiều dạng dữ liệu khác nhau.
(4) Độ tin cậy/ chính xác (Veracity)
Một trong những tính chất phức tạp nhất của DLL là độ tin cậy/ chính xác của dữ
liệu. Với xu hướng phương tiện truyền thông xã hội (Social Media) và mạng xã hội
(Social Network) ngày nay và sự gia tăng mạnh mẽ tính tương tác và chia sẻ của người
dùng Mobile làm cho bức tranh xác định về độ tin cậy & chính xác của dữ liệu ngày
một khó khăn hơn. Bài toán phân tích và loại bỏ dữ liệu thiếu chính xác và nhiễu đang
là tính chất quan trọng của DLL.
(5) Giá trị (Value)
Giá trị là đặc điểm quan trọng nhất của DLL, vì khi bắt đầu triển khai xây dựng DLL
thì việc đầu tiên chúng ta cần phải làm đó là xác định được giá trị của thông tin mang
lại như thế nào, khi đó chúng ta mới có quyết định có nên triển khai DLL hay không.
Nếu chúng ta có DLL mà chỉ nhận được 1% lợi ích từ nó, thì không nên đầu tư phát
triển DLL. Kết quả dự báo chính xác thể hiện rõ nét nhất về giá trị của DLL mang lại.
1.2. Những lợi ích to lớn mà Big data mang lại
Ra quyết định tốt hơn
Giá trị cốt lõi của sử dụng Big Data là thúc đẩy quá trình ra quyết định, công ty xem
xét xem xử lý dữ liệu trước khi đưa ra bất kỳ quyết định nào. Một loạt các yếu tố lấy
khách hàng làm trung tâm như mong muốn của khách hàng, giải pháp cho các vấn đề
của họ, phân tích nhu cầu của khách hàng theo xu hướng thị trường,… được tính đến
cho quá trình ra quyết định tốt hơn.
Tạo ra sự cải tiến tốt hơn
Sự đổi mới là rất quan trọng cho sự thành công của bất kỳ tổ chức nào. Và để đổi
mới, công ty cần dữ liệu và ngày càng nhiều dữ liệu. Big data cho phép sự tự do để đạt
được những điều không tưởng. Thông qua Big data, công ty có thể phân tích ý kiến các
khách hàng khác nhau về sản phẩm của họ cũng như là cách khách hàng cảm nhận sản phẩm của công ty. lOMoAR cPSD| 60760964
Big data còn cung cấp những thông tin về những gì họ đang thiếu và những điều cần
lưu ý trước khi phát triển sản phẩm mới. Điều này giúp họ phát triển các sản phẩm mới
theo yêu cầu của khách hàng. Big data trong lĩnh vực giáo dục
Lợi ích của Big data trong lĩnh vực giáo dục là quản lý dữ liệu liên quan đến học
sinh. Bởi vì kích thước dữ liêu lớn, rất khó để các giảng viên khai thác đúng cách.̣ Phân
tích Big data đã nổi lên như một lợi ích cho ngành giáo dục.
Bắt đầu từ mang lại sự chuyển đổi rất cần thiết cho ngành giáo dục và đưa nền giáo
dục lên một tầm cao mới. Phân tích khả năng của một học sinh dựa trên dữ liệu có sẵn
giúp các giáo viên lên kế hoạch giảng dạy tốt hơn. Khi mà giáo viên nhận thức được
điểm mạnh điểm yếu của học sinh, họ cũng có thể hướng dẫn học sinh của mình phù hợp hơn.
Big data trong tối ưu giá sản phẩm
Lợi ích của Big data cho một công ty thương mại là họ có thể sử dụng Big data để
tối ưu mức giá mà họ đưa ra cho khách hàng. Mục tiêu của họ là tính một mức giá mà
lợi nhuận có thể được tối ưu. Thông qua Big data họ phân tích được giá mang lại lợi
nhuận tối đa cho họ trong các viễn cảnh kinh doanh khác nhau.
Mục tiêu của họ là khách hàng sẽ nhận được giá trị xứng đáng với đồng tiền bỏ ra.
Khách hàng luôn nghĩ rằng công ty cần phải liên tục phát triển. Nhưng để làm cho khách
hàng hài lòng, công ty cần có những cải tiến sản phẩm phù hợp theo xu hướng của thị
trường và Big data tạo điều kiện cho họ thực hiện các thay đổi ấy.
Big data trong công cụ đề xuất
Hãy tưởng tượng bạn có các đề xuất dựa trên những lựa chọn trong quá khứ cũng
như trong hiện tại trên các nền tảng trực tuyến phong phú. Cuộc sống sẽ dễ dàng hơn
khi người ta có thể lựa chọn những thứ mình thích. Đây là điều đã thay đổi suy nghĩ của
mọi người đối với các nền tảng trực tuyến khác nhau, và họ cảm thấy thoải mái khi sử
dụng các nền tảng này.
Ví dụ của Big data trong đề xuất các công cụ là các nền tảng mua sắm trực tuyến. Họ
phân tích dữ liệu của mỗi khách và đưa ra các đề xuất theo đó. Những đề xuất này chủ
yếu dựa trên các hành vi gần nhất của họ khi ghé thăm các nền tảng trước và các hoạt
động thời gian thực của họ.
Ngoài ra, các đề xuất được đưa ra dựa trên việc so sánh giữa các sản phẩm khách
hàng đã tìm kiếm hay thường mua. Đây là cách mà các nền tảng trực tuyến phá vỡ rào lOMoAR cPSD| 60760964
cản vật lý giữa họ và khách hàng. Các công cụ này chắc chắn đã thay đổi trải nghiệm
mua sắm trực tuyến của khách hàng.
Big data trong ứng dụng cứu sinh trong ngành Y tế
Sự ra đời của Big Data đã mang lại rất nhiều lợi ích cho ngành y tế. Theo chuyên gia
Big data Quantzig (nhà phân tích cung cấp các giải pháp quốc tế), “Big data và phân
tích nâng cao có thể là câu trả lời cho những thách thức khó nhất của ngành y tế.” Big
data trong ngành chăm sóc sức khỏe sẽ giúp cung cấp các dịch vụ chăm sóc sức khỏe
tiên tiến và chất lượng cho bệnh nhân dựa trên hồ sơ điện tử về sức khỏe của họ. Nó
tăng cường hiệu quả hoạt động chung của các công ty chăm sóc sức khỏe và cho phép
họ đưa ra các thay đổi cần thiết.
Phân tích Big data sẽ cho phép tìm ra cách chữa trị tốt hơn cho căn bệnh bằng cách
nhận ra các kết nối không xác định và các mẫu ẩn. Ngay cả một phương pháp chữa trị
một căn bệnh ung thư cũng được thực hiện bởi phân tích Big data. Trên thế giới •
Nhờ BigData, năm 2013, Amazon đạt doanh thu tới 74 tỷ USD, IBM đạt hơn 16 tỷ USD. •
Interactions Marketing, một công ty tiếp thị theo hình thức tận dụng ngay chính
khách hàng của mình, đã tiến hành kiểm soát dữ liệu lớn bằng cách sử dụng dữ
liệu giao dịch điểm bán hàng và dữ liệu thông tin thời tiết khu vực từ nhiều nguồn
khác nhau để có được những hiểu biết nhanh nhất về hành vi mua sắm. •
Ngay cả chiến dịch bầu cử của Mỹ cũng có thể được tối ưu hóa bằng việc sử dụng
phân tích dữ liệu lớn. Các chuyên gia cho rằng, ông Obama giành chiến thắng
trong chiến dịch bầu cử năm 2012 là do khả năng vượt trội của đội ngũ sử dụng
khả năng phân tích dữ liệu lớn. Ở Việt Nam •
FPT cho biết, doanh thu năm 2013 từ S.M.A.C (Mạng xã hội/ Bảo mật), Mobility
(Công nghệ di động), Analytics Big Data (Phân tích dữ liệu lớn), Cloud (Điện
toán đám mây) đạt 95 tỷ đồng. •
Big Data và các công nghệ phân tích có khả năng làm thay đổi hoàn toàn bộ mặt
của các ngành kinh tế và các nghề nghiệp. •
Những mô hình kinh doanh mới dựa trên Big data đang được hình thành để giúp
các tổ chức, doanh nghiệp tận dụng dữ liệu. Đây cũng là xu thế tất yếu trong
tương lai không xa với doanh nghiệp Việt Nam. lOMoAR cPSD| 60760964
CHƯƠNG 2: ỨNG DỤNG CỦA BIG DATA TRONG THỰC TIỄN
2.1. Các ứng dụng đang sử dụng Big data
Big data đang trở thành một công cụ giúp ích, hỗ trợ con người; không thể thay thế
bởi các công cụ thông thường khác trong thời đại kỹ thuật số phát triển. Big data (dữ
liệu lớn) đã được ứng dụng một cách rộng rãi phổ biến ở nhiều nơi trên thế giới không
chỉ riêng gì ở nước ta. Big data là một trong những công cụ góp phần thúc đẩy sự phát
triển của ngành công nghệ thông tin và kinh tế Việt Nam ta nói riêng và thế giới nói
chung. Big data được sử dụng rộng rãi ở nhiều ngành nghề, công việc, chức năng khác
nhau không chỉ ở ngành công nghệ thông tin.
Ứng dụng của Big data trong lĩnh vực ngân hàng -
Big data giúp ta sử dụng các kỹ thuật tính toán, từ đó có thể giúp các doanh
nghiệp hay nhà nước đưa ra được các quyết định quan trọng, có độ chính xác cao hơn
và có khả năng thành công. Ví dụ như trong các chiến lược phát triển Big data có thể
tính toán các nhu cầu của khách hàng từ đó có thể đề xuất các ý tưởng hợp lý có khả
năng áp dụng và thành công cao hơn, đề xuất các chi nhánh có khả năng cạnh tranh phát triển. -
Không chỉ vậy, từ các sự hỗ trợ về công nghệ tính toán đó ta có thể đưa ra các
xác xuất. Nhằm dự đoán các cơ sở, các nơi có lượng khách lớn, nhu cầu cao; từ đó sắp
xếp số lượng cơ sở vất chất, lượng tài chính cần và đủ cho từng khu vực. -
Big data còn có nhiệm vụ như một người bảo vệ hệ thống ngân hàng khi nó có
thể phân tích, xử lý và lưu trữ một khối lượng thông tin khổng lồ. Từ đó có những biện
pháp xử lý hợp lý để bảo vệ an ninh ngân hàng tránh các sự cố ngoài ý muốn. Ứng
dụng trong giao thông -
Sử dụng số liệu CDR trong quá khứ để ước lượng các dòng giao thông trongthành
phố vào các giờ cao điểm, từ đó có những kế hoạch phân luồng giao thông chi tiết, hợp
lý giúp giảm thiểu kẹt xe. Ngoài ra còn đưa ra thông tin cho người tham gia giao thông
được biết nếu muốn đi từ nơi này đến nơi khác thì nên đi vào giờ nào để tránh kẹt xe,
hoặc đi đường nào là ngắn nhất. Big data còn giúp phân tích định vị người dùng thiết bị
di động, ghi nhận chi tiết cuộc gọi trong thời gian thực; và giảm thiểu tình trạng ùn tắc giao thông. lOMoAR cPSD| 60760964
Ứng dụng big data trong lĩnh vực y tế -
Hỗ trợ đưa ra các gợi ý về số lượng người, số lượng bác sĩ cần có trong các trường
hợp cụ thể; từ đó góp phần quản lý số lượng nhân lực trong các thời điểm cụ thể một
các chính xác và hợp lý tránh tình trạng thiếu người thiếu nhân lực trong các trường hợp cần thiết. -
Giúp theo dõi sức khoẻ, tình trạng của các bệnh nhân trong thời gian dài bằng
các hồ sơ điện tử từ đó gửi các báo cáo đến bác sĩ để đưa ra phương án giải quyết thích hợp. -
Đánh giá mức độ nghiêm trọng của bệnh nhân để xác định phương pháp điều trị
thích hợp và tối ưu. Không chỉ vậy còn có thể xác định và phát hiện các bệnh từ sớm để kịp thời cảnh báo. -
Xác định, cảnh báo các khu vực có khả năng cao bùng các dịch bệnh nguy hiểm
ảnh hưởng đến sức khoẻ con người như sốt xuất huyết, sốt rét, các bệnh lý về đường hô
hấp và nhiều căn bệnh nguy hiểm khác. Ứng dụng trong tài chính -
Từ những dữ liệu chính xác, kịp thời thu thập được thông qua các giao dịch
củakhách hàng, tiến hành phân tích, xếp hạng và quản lý các rủi ro trong đầu tư tài chính, tín dụng.
Ứng dụng trong thương mại
- Trong thương mại Big data giúp cho chúng ta thực hiện một số công việc sau:Phân
khúc thị trường và khách hàng; phân tích hành vi tiêu dùng của khách hàng; tiếp thị
trên nền tảng định vị; tiếp thị đa kênh; quản lý các chiến dịch tiếp thị và khách hàng
thân thiết; phân tích và quản lý chuỗi cung ứng. Ứng dụng của Big data trong giáo dục
- Lưu trữ, quản lý các thông tin hồ sơ của học sinh, sinh viên (tên tuổi, lớp, giới tính,…)
để triết xuất thông tin khi cần thiết; tránh trường hợp lạc mất thông tin gây ra các sự cố ngoài ý muốn.
- Bảo mật các thông tin một cách an toàn tránh các trường hợp bị rò rỉ thông tin.
Đặc biệt là các thông tin, công văn, thông báo hay các đề kiểm tra quan trọng.
Ứng dụng của big data trong các ngành truyền thông giải trí -
Thu thập thông tin và nhu cầu người dùng từ đó đề xuất các nội dung giải trí phù
hợp với từng cá nhân người dùng giúp cho họ có những trải nghiệm tốt khi sử dụng các phương tiện giải trí. lOMoAR cPSD| 60760964 -
Phân tích các thói quen sử dụng thiết bị, thời gian sử dụng từ đó có những điều
chỉnh để mang lại sự trải nghiệm tốt nhất cho người dùng khi sử dụng các dịch vụ truyền thông giải trí. -
Thu thập các thông tin phản hồi từ khách hàng để có những điều chỉnh phù hợp
với nhu cầu người dùng. -
Big data hỗ trợ giúp các doanh nghiệp, truyền thông để đưa ra những quảng cáo
sản phẩm phù hợp với nhu cầu của người dùng của công ty đến với khách hàng và quản
lý số lượng tần xuất quảng cáo ở từng nơi cho phù hợp.
2.2. Ưu điểm và nhược điểm của Big data Ưu điểm:
• Hỗ trợ giúp người dùng, doanh nghiệp, công ty đưa ra các quyết định chính xác
và tối ưu nhất cho người dùng.
• Phân tích các nhu cầu thiết yếu từ đó đề xuất đến người dùng để họ có những trải nghiệm tốt.
• Có khả năng lưu trữ khổng lồ nhiều loại thông tin khác nhau.
• Có khả năng thu thập dữ liệu với tốc độ nhanh chóng, tiết kiệm thời gian..
• Xử lý lượng thông tin khổng lồ mà các nền tảng khác khó mà làm được.
Nhược điểm:
• Không gian lưu trữ: Big data là một công cụ thu thập và lưu trữ một số lượng
thông tin khổng lồ trong các thiết bị lưu trữ. Vì vậy nên các thiết bị lưu trữ ấy cần
một không gian đủ lớn để các thiết bị khổng lồ hoạt động một cách trơn tru. Diện
tích xây dựng các trung tâm lưu trữ dữ liệu là không hề nhỏ, không chỉ vậy chi
phí xây dựng hiển nhiên là không hề rẻ một chút nào dễ gây ra những trở ngại
nhất định trong quá trình phát triển, vận hành và sử dụng.
• Không chỉ chiếm không gian lưu trữ lớn, các trung tâm lưu trữ dữ liệu của Big
data còn phải sử dụng một số lượng tài nguyên không hề nhỏ để duy trì. Theo
hãng nghiên cứu thống kê Gartner tính trung bình các trung tâm lưu trữ dữ liệu
trên thế giới sử dụng đến 30 tỉ Watts điện mỗi năm tương đương với sản lượng
của 30 nhà máy nguyên tử. Đây là một thách thức vô cùng lớn để có thể phát
triển Big data hiện tại.
• Khó khăn trong việc kiểm soát dữ liệu : Big data lưu trữ nguồn dữ liệu vô cùng
lớn và đa dạng, phong phú từ đó gây ra những trở ngại trong quá trình sàng, lọc lOMoAR cPSD| 60760964
các dữ liệu thông tin cần thiết tránh bị nhầm lẫn giữa các thông tin trong quá trình khai thác.
• Rủi ro an ninh mạng, an toàn thông tin: cùng với sự phát triển nhanh thì việc lưu
trữ một lượng thông tin khổng lồ làm cho Big data trở thàn mục tiêu để các kẻ
khác có thể tấn công mạng nhằm chiếm đoạt các thông tin quan trọng.
2.3. Các công nghệ đặc biệt dành cho Big data
• Hệ sinh thái Hadoop: là phần mềm giúp xử lý, phân tán các bộ dữ liệu trên máy
tính, được tạo ra để mở rộng từ một máy chủ duy nhất sang hàng ngàn máy.
• Apache spark: là hệ thống khuôn mẫu xử lý Big data quan trọng, cung cấp
phương thức hỗ trợ đối với Java, Scala, Python và ngôn ngữ lập trình và hỗ trợ
SQL, streaming data, machine learning và xử lý đồ thị.
• Data lakes: được thiết kế giúp người dùng dễ dàng truy cập vào một lượng dữ liệu khi có nhu cầu.
• NoSQL Databases: được thiết kế cho các transacticon đáng tin cậy và các truy vấn ngẫu nhiên.
• In-memory Database: Cơ sở dữ liệu trong bộ nhớ (IMDB) là một hệ thống quản
lý cơ sở dữ liệu chủ yếu dựa vào bộ nhớ chính (Ram), thay vì HDD, để lưu trữ
dữ liệu. Cơ sở dữ liệu trong bộ nhớ nhanh hơn các cơ sở dữ liệu được tối ưu hóa
trong đĩa, một điểm quan trọng để sử dụng phân tích big data và tạo ra các kho
dữ liệu và các siêu dữ liệu.
2.4. Các kỹ năng cần có của Big data
• Kiến thức về Khung dữ liệu lớn hoặc các công nghệ dựa trên Hadoop: - Khối
lượng dữ liệu ngày càng lớn lên đã sinh ra một khái niệm mới mang tên Hadoop.
Hadoop chiếm ưu thế, trở thành nền tảng của các công nghệ dữ liệu lớn. - Để trở
thành nhà phát triển dữ liệu bạn cần hiểu về Hadoop đầu tiên. Nó không phải là thuật
ngữ đơn lẻ, nó là hệ sinh thái hoàn chỉnh, chứa một số công cụ phục vụ cho các mục đích khác nhau.
• Có kiến thức về khung xử lý thời gian thực (Apache Spark):
- Xử lý thời gian thực với hành động nhanh chóng là nhu cầu của thế giới. Cho dù đó
là hệ thống phát hiện gian lận hay hệ thống khuyến nghị, mỗi một trong số chúng đều
yêu cầu xử lý thời gian thực. Đối với một nhà phát triển dữ liệu lớn, điều rất quan trọng
là phải làm quen với khung xử lý thời gian thực. Apache Spark là một khung xử lý phân lOMoAR cPSD| 60760964
tán thời gian thực với khả năng tính toán trong bộ nhớ. Vì vậy, Spark là lựa chọn tốt nhất
cho các nhà phát triển dữ liệu lớn để có kỹ năng trong bất kỳ khuôn khổ xử lý thời gian thực nào.
Kiến thức về bất kỳ ngôn ngữ lập trình nào (Java / Python / R)
- Để trở thành một nhà phát triển Dữ liệu lớn, bạn phải có kỹ năng viết mã tốt. Bạn
phải có kiến thức về cấu trúc dữ liệu, thuật toán và ít nhất một ngôn ngữ lập trình. -
Có nhiều ngôn ngữ lập trình khác nhau như Java, R, Python, Scala, v.v. phục vụ cho các
mục đích giống nhau. Tất cả các ngôn ngữ lập trình có cú pháp khác nhau nhưng logic vẫn giống nhau.
Kiến thức về thuật toán học máy
- Học máy là lĩnh vực nóng nhất của dữ liệu lớn giúp phát triển các hệ thống khuyến
nghị, cá nhân hóa và phân loại. Để trở thành một nhà phân tích dữ liệu thành công, chúng
ta cần phải nắm vững các thuật toán học máy.
2.5. Thực trạng phát triển hạ tầng Big data hiện nay ở Việt Nam
Ở Việt Nam, nhiều lĩnh vực, đơn vị đã có ý thức từ rất sớm trong việc sử dụng dữ
liệu lớn (DLL) trong công tác quản lý nhà nước, trong quá trình sản xuất và kinh doanh. Việt
Nam đang sở hữu những lợi thế cho quá trình chuyển đổi số, bắt đầu bằng xây dựng DLL.
- Lợi thế thứ nhất, có thể kể đến đó chính là tỷ lệ dân số sở hữu điện thoại thông
minh, máy tính tại Việt Nam tăng nhanh qua các năm, rất thuận lợi cho việc thu thập dữ
liệu. - Lợi thế thứ hai, đó là các công ty tại Việt Nam còn rất trẻ, chính vì thế, họ có
thể bắt đầu xây dựng cơ sở hạ tầng mà không bị ảnh hưởng từ hệ thống cũ tồn tại trước
đó. Đây cũng là lợi thế giúp các công ty trẻ tại Việt Nam có được sức bật nhanh chóng
nếu được đầu tư một cách nghiêm túc ngay từ đầu.
Điều đáng chú ý nhất trong việc sử dụng DLL tại Việt Nam đó là Nhà nước đã và
đang dần xây dựng bộ cơ sở DLL để phát triển thành phố thông minh và chính quyền
điện tử giai đoạn 2020 – 2025. Với mục tiêu xây dựng TPTM, Hà Nội đã thực hiện hàng
loạt ứng dụng công nghệ vào quản lý điều hành, cũng như cung cấp dịch vụ công ích
cho Nhân dân. Trong năm 2017, Hà Nội đã bắt đầu xây dựng một số hệ thống điều hành
thông minh. Theo đó, cách làm hướng đến của kế hoạch này là giải quyết bài toán bằng lOMoAR cPSD| 60760964
giải pháp số hóa tài liệu chuyên nghiệp, góp phần đẩy mạnh việc ứng dụng công nghệ
thông tin để xây dựng, phát triển TPTM.
Trong kinh doanh, một số đơn vị như FPT, VNG, VCCorp đã tham gia nghiên cứu
và ứng dụng DLL trong phân tích hành vi khách hàng. Một số trang bán hàng điện tử áp
dụng được một phần của kho DLL trong hoạt động thương mại của mình như trang bán
lẻ Sendo.Vn trực thuộc Tập đoàn FPT. Sendo.Vn đã vận dụng phân tích DLL trên 5 triệu
sản phẩm được bán bởi 80.000 shop đòi hỏi sự chuyên nghiệp trong quá trình xử lý,
nhằm bảo đảm loại trừ chính xác hàng giả, hàng nhái; và kiểm tra độ tin cậy về giá bán
cuối cùng của các shop trong lễ hội mua sắm trực tuyến ngày 02/12/2018.
Về ngành vận chuyển, có thể kể đến Hãng hàng không Vietnamairlines (VNA). VNA
là hãng hàng không Việt Nam đầu tiên đã triển khai xong giai đoạn đầu của nền tảng dữ
liệu mở Skywise được phát triển bởi Airbus và đối tác Big Data – Palantir. Skywise
được đánh giá là “trái tim” của cuộc cách mạng số ngành Hàng không. Hiện nay, VNA
đã và đang triển khai tích hợp các cơ sở dữ liệu vào hệ thống Skywise như: thông tin
lịch bay, kế hoạch bay (Netlines, FIM), dữ liệu cảm biến trên tàu bay (AGS), các cảnh
báo kỹ thuật từ tàu bay (Airman)…
Về lĩnh vực cải cách hành chính có Công ty FSI với giải pháp số hóa tài liệu và công
nghệ nhận dạng và bóc tách thông tin văn bản. Các công ty bán lẻ dựa trên dữ liệu về
mua bán, tiêu thụ tại các cửa hàng, kết hợp với dữ liệu về vị trí cửa hàng, khoảng cách
với cửa hàng của đối thủ cạnh tranh gần đó… để dự báo doanh thu, lợi nhuận hằng
tháng. Ngoài ra, một số lĩnh vực khác ở Việt Nam như bất động sản, khám, chữa bệnh…
đang dần tiếp cận và khai thác những giá trị mà DLL mang lại.
CHƯƠNG 3: CÁC PHƯƠNG ÁN ĐỂ PHÁT TRIỂN HẠ TẦNG BIG DATA Ở VIỆT NAM
3.1. Xây dựng các trung tâm Big data, các dịch vụ điện toán đám mây
Trung tâm dữ liệu là nơi tập trung nhiều thành phần tài nguyên mật độ cao (hardware,
software…) làm chức năng lưu trữ, xử lý toàn bộ dữ liệu hệ thống với khả năng sẵn sàng
và độ ổn định cao. Tuy nhiên, khi xây dựng các trung tâm DLL, cần chú ý việc lựa chọn
địa điểm đặt trung tâm dữ liệu là bước đầu tiên quan trọng trong quá trình lập dự án triển
khai hạ tầng. Địa điểm đặt trung tâm dữ liệu quyết định mức độ an toàn về vật lý, giúp
giảm thiểu rủi ro do các yếu tố khách quan mang lại, tăng mức độ an toàn và sẵn sàng lOMoAR cPSD| 60760964
của trung tâm dữ liệu. Ngoài ra, việc lựa chọn kiến trúc kết cấu tòa nhà, lựa chọn không
gian lắp đặt các thiết bị phụ trợ cho các trung tâm dữ liệu cũng là vấn đề đáng lưu ý.
3.2. Đầu tư chính vào các chương trình nghiên cứu cơ bản, chương trình về đổi mới công nghệ
Đầu tư chính vào các chương trình nghiên cứu cơ bản, chương trình về đổi mới công
nghệ và đặc biệt là chương trình về cách mạng công nghệ 4.0. Nằm trong bài toán xây
dựng cơ sở DLL, việc tổ chức nhiều hội thảo về Big data, chính quyền điện tử, TPTM,
ứng dụng công nghệ thông tin trong thời đại 4.0… là cơ sở để có thể tiếp thu được nhiều
giải pháp tạo lập cơ sở dữ liệu, xây dựng chính quyền điện tử của các DN Việt Nam, các
chuyên gia, các nhà khoa học, góp phần hoàn thiện hạ tầng cũng như nhiều mặt khác,
đón đầu sự phát triển của DLL.
3.3. Đầu tư vào công tác đào tạo nguồn nhân lực chất lượng cao trong lĩnh vực
CNTT, phân tích dữ liệu
Thực trạng lao động nước ta hiện nay:
Nước ta hiện nay đang có một nguồn lao động dồi dào và được đánh giá là một nguồn
lao động trẻ có tiềm năng phát triển, lao động thì tích cực chịu khó học hỏi và được coi
là nguồn lao động vàng. Trong đó ngành CNTT, số lao động được thống kê trong năm
2022 chỉ chiếm khoảng 1,88% tổng số lao động Việt Nam rơi vào đâu đó khoảng hơn 1
triệu lao đông đang làm việc trong ngành CNTT nước ta, một con số khá là khiêm tốn
so với mặt bằng chung so với số lượng lao động của các ngành khác vậy nên hằng năm
nước ta đang rơi vào trong tình trạng thiếu hụt lao động trong lĩnh vực CNTT.
Không chỉ vậy tuy là nguồn lao động đã khá là khiêm tốn so với các ngành khác thế
nhưng trình độ các lao động trong ngành lại chưa được thực sự bảo đảm khi có một báo
cáo vào thống kê chỉ ra rằng trung bình một năm có khoảng 50 000 sinh viên CNTT ra
trường từ các cơ sở đào tạo, nhưng chỉ có khoảng 30% trong số đó là có thể đáp ứng
được nhu cầu đưa ra của các công ty doanh nghiệp, trong khi đó chỉ tính riêng trong
năm 2020 nước ta riêng ngành CNTT cần hơn 400 000 nhân lực và có khả năng tăng
lên qua các năm. Phương án khắc phục: -
Đầu tiên ta cần có những đề xuất để đổi mới cải tiến chương trình dạy, nâng cao
chất lượng đội ngũ giảng viên, thực hiện hợp tác giữa nhà trường và các doanh nghiệp
trong quá trình đào tạo cho sinh viên có thêm nhiều cơ hội thực hành với các thiết bị.
- Tiếp theo ta nên giảng dạy những kiến thức có liên quan trực tiếp đến công việc của lOMoAR cPSD| 60760964
sinh viên sau này tránh trường hợp dài dòng gây khó hiểu khó tiếp thu. Cập nhật các
yêu cầu của doanh nghiệp, công ty, thị trường để có những chính sách giảng dạy hợp lý
tránh tình trạng đào tạo nhân lực nhưng không đáp ứng được nhu cầu thị trường. -
Ta cần nên mở rộng thêm các chương trình, các cơ sở đào tạo để thu hút các
nguồn nhân lực. Không chỉ có vậy, ta nên đầu tư mở rộng với các chương trình nước
ngoài để có được chất lượng đào tạo tốt nhất; bồi dưỡng ra nguồn lao động có chuyên
môn, trình độ cao. Để thích ứng, phù hợp với nhu cầu của thị trường hơn, bắt kịp được
tốc độ phát triển của nước ta, bắt kịp được cuộc cách mạng mang tính toàn cầu, cuộc
cách mạng công nghệ 4.0. KẾT LUẬN
Nói tóm lại qua phần tìm hiểu trên ta đã biết được thêm nhiều kiến thức mới mẻ về
Big data - một công cụ mới phát triển cách đây không lâu nhưng lại mang đến cho con
người thật sự nhiều lợi ích mà ta chưa ngờ đến. Big data mang lại lợi ích từ nhiều khía
cạnh khác nhau, hỗ trợ con người một cách tốt nhất. Tuy vậy, không có gì là hoàn hảo
công nghệ nào cũng có những điều cần phải khắc phục, sửa đổi, cải thiện để ngày càng
trở nên tốt hơn, mang lại nhiều lợi ích hơn cho con người.
Cuối cùng, chúng em xin cảm ơn giảng viên Trần Hoài Thuận đã có những nhắc nhở,
chia sẻ kiến thức trong quá trình giảng dạy và học tập. Giúp đỡ hỗ trợ tụi em trong học
kì vừa qua tạo cơ hội để chúng em có thể hoàn thành bài tiểu luận này.
TÀI LIỆU THAM KHẢO
1. Nghiên cứu về lợi ích của dữ liệu lớn – Big Data với doanh nghiệp thương mại điện
tử trong nước và thế giới, https://tapchicongthuong.
2. Công nghiệp 4.0 và thách thức Big Data, https://enternews.vn.
3. Bức tranh tổng thể ứng dụng dữ liệu lớn, https://ehealth.gov.vn/? action=News&newsId=46158.
4. Wikipedia, (2022), Dữ liệu lớn, https://vi.wikipedia.org/wiki/D%E1%BB%AF_li
%E1%BB%87u_l%E1%BB%9Bn.