Tài liệu: Chương 1 Cơ sở lí thuyết liên quan đến Big Data | Năng lực số ứng dụng
Tài liệu: Chương 1 Cơ sở lí thuyết liên quan đến Big Data | Năng lực số ứng dụng với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần. Mời bạn đọc đón xem!
Preview text:
Chương 1: Cơ sở lí thuyết liên quan đến Big Data 1. Big Data là gì?
-Big data là các tập dữ liệu có khối lượng lớn và phức tạp. Độ lớn đến mức
các phần mềm xử lý dữ liệu truyền thống không có khả năng thu thập, quản lý
và xử lý dữ liệu trong một khoảng thời gian hợp lý. Những tập dữ liệu lớn này
có thể bao gồm các dữ liệu có cấu trúc, không có cấu trúc và bán cấu trúc.
2. Nguồn gốc ra đời của big data -
Bắt đầu từ năm 1960 và 1970
: thời điểm mà thế giới dữ liệu chỉ mới bắt đầu
với các trung tâm dữ liệu đầu tiên cùng với sự phát triển của SQL. - Năm 1984,
tập đoàn Teradata cho ra hệ thống xử lí song song DBC 1012- hệ
thống phân tích và lưu trữ lên tới 1 terabyte dữ liệu . Cùng với sự phát triển của thời gian , năm 2017
nhiều cơ sở dữ liệu trên hệ thống teradata được ra đời
với hang triệu terabyte ( dữ liệu lớn nhất vượt qua 50 pentabytes) - Năm
2000, Seisint Ine. phát triển thành công khung chia sẻ dữ liệu dựa trên
cấu trúc C++ để truy ván và lưu trữ dữ liệu . - năm
2004 , google cho ra bài báo tương tự về quá trình với tên gọi
mapreduce sự dụng một kiến trúc tương tự - cung cấp mô hình xử lí song
song và cho ra những ứng dụng liên quan để xử lí nhanh những dữ liệu khổng lồ.
- Năm 2005 lượng tài khoản sử dụng youtobe, facebook và các dịch vụ trực
tuyến ngày càng được mở rộng.Cùng năm đó , Hadoop ( nhiệm vụ lưu trữ và
phân tích Bigdata) trở lên phát triển và NoSQL cũng trở nên phổ biến hơn bao giờ hết. -> Đó
là sự phát triển và là thứ giúp cho bigdata hoạt động dễ dàng hơn và
lưu trữ rẻ hơn. 3. Phân loại
- Chia làm ba loại: dữ liệu có cấu trúc, dữ liệu phi cấu trúc, dữ liệu bán cấu trúc
*Dữ liệu có cấu trúc :
+ là loại dữ liệu đơn giản nhất khi tìm kiếm và quản lí.
+ Chứa các thành phần được phân loại dễ dàng .
+ Có thể truy cập , lưu trữ cũng như xử lí ở định dạng cố định.
+ Các nhà thiết kế có thể xác định các thuật toán đơn giản cho việc xác định tìm kiếm và phân tích.
*Dữ liệu phi cấu trúc:
+ Gồm bất kì tập hợp dữ liệu nào không xác định hay tổ chức một cách rõ rang.
+ Không có cấu trúc cố định , hỗn loạn , khó đánh giá , khó xử lí và có thể
thay đổi vào các thời điểm khác nhau.
+ Bao gồm các lượt bình luận, lượt share … của người dung trên mạng xã hội,
*Dữ liệu bán cấu trúc.
+ Là sự kết hợp giữa dữ liệu có cấu trúc và phi cấu trúc . Hay có thể nói rộng
hơn rằng, dữ liệu bán cấu trúc rộng và hoàn thiện hơn dữ liệu có cấu trúc và phi cấu trúc.
+ Ví dụ như trong một email thì gồm dữ liệu phi cấu trúc trong mội dung thư
và nhiều thuộc tính khác như người nhận , người gửi, chủ đêf,…
4. Lợi ích của bigdata
- Có khả năng thu thập, xử lí dữ liệu với tốc đọ nhanh hơn, dễ dàng hơn và
tiết kiệm thời gian cho người tiêu dùng cũng như các doanh nghiệp,..
- Cải thiện trải nghiệm khách hàng : Từ việc phân tích, thấu hiểu hành vi xu
hướng mua hàng của khách hàng , dự đoán tình hình thị trường để đưa ra các
quyết định kinh doanh chính xác hơn cho doanh nghiệp. Bên cạnh đó, các
doanh nghiệp được phép điều chỉnh sản phẩm phù hợp với thị trường mục
tiêu của họ mà không phaỉ chi nhiều tiền cho các chiến dịch quảng cáo không
hiệu quả . Khác với trước kia giờ đây người tiêu dùng không phải đến tận nơi
để mua các sản phẩm mong muốn, mà có thể đặt trên các trang trực tuyến
khác nhau như lazada, shope,tiki,.. Cũng chính từ các chiến lược tiếp thị và
mục tiêu đúng hướng , đáp ứng được yêu cầu của khách hàng mà đã thúc đẩy
được nhiều nhãn hàng đi lên như ; adidas, chanel,..
- Nâng cao năng suất làm việc : cho phép người dùng phân tích, kiểm tra ,
chọn lọc các dữ liệu để hoàn thành nhiệm vụ hiệu quả hơn -> tăng năng suất làm việc
- Tối ưu hóa hiệu suất cá nhân : xã hội càng hiện đại dẫn dến nhiều thiết bị
thông minh cũng ra đời theo nó chẳng hạn như đồng hồ thông minh, máy ghi
âm.,, Đây cũng là một trong những triển vọng lớn cho các doanh nghiệp vè
cái nhìn rõ ràng hơn về xu hướng , kì vọng mua hàng , nhằm đưa ra các chiến
lược, sản phẩm mới phug hợp với xu thế nổi bật đó.
- Giảm thiểu rủi ro , phát hiện các gian lận , tránh mất nhiều thời gian cũng nhưng kinh phí,..
- Tối ưu hóa giá cả: có thể nói Bigdata như một đối tác của doanh nghiệp
tham gia vào quá trình định giá sản phẩm , dịch vụ. Từ việc phân tích các dữ
liệu về giá cả, xu hướng tiêu dùng của khách hàng mà doanh nghiệp có thể
đưa ra các giải pháp nhằm lôi kéo khách hàng, tạo thương hiệu, chẳng hạn
như giảm giá, khuyến mại, tặng quà,..
- Nhờ các thuật toán phân tích mà các doanh nghiệp có thể nắm bắt được cơ
chế giao dịch tài chính .
- Từ việc phân tích dữ liệu đồng thời giám sát thịt trường giúp các doanh
nghiệp đưa ra các đổi mới để kịp thời bắt kịp với xu hướng.
- Tăng cường sự thích nghi, sáng tạo: doanh nghiệp có thể hiểu rõ hơn về đối
thủ cạnh tranh và xử lí nỗi đau của khách hàng một cách linh hoạt, hiệu quả
hơn. Mặc khác , cho phép doanh nghiệp đánh giá rủi ro , nâng cao chất lượng
sản phẩm , dịch vụ . Điều này cũng giúp cho doanh nghiệp đưa những quyết
định chính xác , kịp thời.
5. Hạn chế của big data
Bên cạnh những lợi ích thì big data cũng có những mặt hạn chế sau đây:
+ Do công nghệ mới đã được phát triển để lưu trữ dữ liệu , khối lượng dữ
liệu được tăng gấp đôi về kích thước cách đây khoảng 2 năm một lần . Điều
đó đòi hỏi các tổ chức luôn phải cố gắng đẻ bắt kịp nó và tìm ra cách để lư trữ
hiệu quả. Song thực tế thì vẫn không đủ đẻ lưu trữ .
+ Những mối quan tâm về quyền riêng tư, bảo mật , khả năng truy cập cho
người dùng doanh nghiệp và lựa chọn giải pháp phù hợp với nhu cầu kinh
doanh cũng khiến nhiều doanh nghiệp đau đầu.
- Quản lý dữ liệu là một thách thức lớn đối với Big Data do lượng dữ liệu
lớn và đa dạng. Để quản lý dữ liệu hiệu quả, cần phải xử lý các vấn đề như
quản lý dữ liệu phân tán, bảo mật dữ liệu, tính chính xác của dữ liệu, dữ
liệu không đồng nhất và quản lý tài nguyên phần cứng và phần mềm.
- Vì lượng dữ liệu lớn và phức tạp, việc bảo vệ dữ liệu trở nên khó khăn
hơn. Ngoài ra, các đối tượng tấn công cũng có thể tìm thấy các điểm yếu
trong hệ thống và tấn công để lấy cắp thông tin.
- Việc đảm bảo chất lượng dữ liệu trở nên khó khăn hơn. Dữ liệu không
chính xác, thiếu chính xác hoặc không đầy đủ có thể dẫn đến quyết định
sai lầm và kết quả không chính xác.
- Lượng dữ liệu khổng lồ và tính phức tạp của nó đòi hỏi sự tối ưu và tăng
tốc quá trình xử lý. Các công nghệ như Hadoop, Spark và NoSQL đã được
phát triển để giải quyết vấn đề này, nhưng vẫn cần các tài nguyên phần
cứng và hệ thống máy tính đắt đỏ và mạnh mẽ để đáp ứng nhu cầu xử lý.
- Với lượng dữ liệu ngày càng lớn, cần có các chuyên gia có kỹ năng và
kiến thức để xử lý và phân tích dữ liệu. Tuy nhiên, số lượng chuyên gia
này không đủ đáp ứng nhu cầu ngày càng tăng.
- Khả năng thu thập và phân tích dữ liệu lớn, có nguy cơ dữ liệu cá nhân bị
lộ ra ngoài hoặc được sử dụng một cách không đúng đắn.
-> Nếu không được giải quyết và quản lý đúng cách, chúng có thể gây ra
những hậu quả nghiêm trọng, như mất dữ liệu, vi phạm quyền riêng tư,
giảm chất lượng dữ liệu, hay đặt các doanh nghiệp vào tình trạng phá sản. 6.Ứng dụng
Big Data đước ứng dụng rất nhiều trong các lĩnh vực: Ngân hàng, giáo
dục , ngành bán lẻ , y tế truyền thông giải trí , digital marketing,gtvt, dịch
vụ khách hàng,thương mại điện tử. Ngân hàng:
+ Hệ thống phân tích giúp xác định các đặc điểm phù hợp xây dựng chi
nhánh mới – nơi tập trung lượng khách tiềm năng.
+ Dự đoán số lượng tiền mặt đủ để cung ứng tại một địa điểm giao dịch nào đó.
+ Khoa học dữ liệu hiện đang là cột sống của hệ thống ngân hàng kĩ thuật số.
+ Bên cạnh đó, sử dụng AI trong việc phát hiện các hành vi gian lận và
báo cáo kịp thời cho các chuyên viên làm nhiệm vụ.
+ giúp cho các doanh nghiệp nắm được thông tin về nguồn tiền nhàn rỗi
của khách hàng . từ đó có thể thu hút tiền gửi để thực hiện các hoạt động đầu tư
+ từ việc nắm được các thông tin liên quan đến giao dịch mà ngân hàng có
thể xác định được khách hàng của mình thuộc nhóm nào , vd như nhóm có
chi tiêu dễ dàng, nhóm nhà đầu tư thận trọng,..
+ từ hồ sơ cá nhân của khách hàng , mà ngân hàng có thể đánh giá chỉ tiêu
và thu nhập dự định trong tháng tới . Từ đó giúp lập ra kế hoạch chi tiêu
để làm đảm bảo lợi nhuận cho chính tổ chức cũng như khách hàng.
+ Khi phân tích về hồ sơ cá nhân của khách hàng một cách chính xác,
ngân hàng có thể bán kèm dịch vụ khác với các ưu đãi đáp ứng với nhu cầu của người dungf.
+ Tìm kiếm thông tin, feedback công khai có chọn lọc trên các phương
tiện truyền thông và thu thập các dữ liệu về thương hiệu của ngân hàng để
có thể phản hồi một cách nhanh chóng và đầy đủ khashc hàng.
+ Ngăn chặn các tin đồn thất thiệt ảnh hưởng đến hoạt động kinh hoanh
cũng như niềm tin của khách hàng..
+ đưa ra các giải pháp , kế hoạch marketing phù hợp để có tỉ lệ phản hồi cao hơn từ khách hàng.
+ giúp bảo mật thông tin, kiểm soát tài chính của khách hàng trước các
hành vi gian lận, rủi ro,… Giáo dục:
+ Phân tích , quản lí và lưu trữ các bộ dữ liệu lớn bao gồm hồ sơ của học sinh, sinh viên.
+ cung cấp các dữ liệu cần thiết về hoạt động giáo dục và giúp giáo viên ,
người tham gia giảng dạy đưa ra quyết định hợp lí.
+ giúp đảm bảo tính bảo mật của các bộ đề kiểm tra.
+ theo dõi năng lực , phân tích thống kê điểm số của học viên thông qua
nhiều môn học khác nhau, từ đó tìm ra giải pháp để khắc phục cũng nhưng
nâng cao chất lượng học tập của học viên.
+ giải quyết nhứng tình huống khó xử thông qua việc phân tích dữ liệu học
viện và tạo báo cáo thành tích của cá nhân -> chọn ra định hướng đúng
cho bản thân. Chẳng hạn báo cáo đó chỉ rằng bạn là một nhà văn sáng tạo ,
thì tôi nghĩ bạn nên theo đuổi nghề nghiệp liên quan đến linh vực đó. Ngành bán lẻ
+ Giúp nhà quản lí xây dựng được mô hình chi tiêu cho từng khách hàng.
+ Phân tích dự đoán để nắm bắt và so sánh được tỉ lể cung- cầu , cũng như
tránh đưa ra các sản phẩm không phù hợp với nhu cầu thị trường.
+ Tìm hiểu thói quen và nhu cầu mua sắm của người tiêu dung để xác định
vị trí bày trí các sản phẩm được khách ưu chuộng.
+ Phân tích dựa trên nhiều mặt: thời điểm, giao dịch, truyền thông,…. Để
có thể đưa ra các sản phẩm phù hợp về giá cả cũng như chất lượng cho khách hàng.
+ nhà bán lẻ có thể kiểm soát tình trạng và chất lượng hàng hóa nhằm đảm
bảo chất lượng tốt hơn trước khi đưa tới khách hàng.
+Tối ưu hóa lao động tại các cửa hàng , phân bổ hợp lí số lượng nhân lực
cho thời gian cao điểm cũng như điều chuyển nhân viên theo nhu cầu và
đưa ra các chính sách thúc đẩy năng suất cần thiết Y tế
+ Lên lịch hẹn với bạsc sĩ qua ứng dụng điện thoại.
+ giúp người quản lí được các ca khám của bác sĩ
+ biết được tình trạng sức khỏe của bệnh nhân thông qua ứng dụng sức khỏe điện tử.
+ có thể đánh giá được tình trạng, dấu hiệu sức khỏe của bệnh nhân từ đó
đưa ra những cách chữa trị hợp lí và kịp thời.
+ mang tính bảo mật cao , giúp đảm bảo thông tin của bệnh nhân không bị tiết lộ ra ngoài.
+ kiểm soát được các khu vực, ổ dịch, và dự đoán được các khu có nguy cơ bùng phát dịch,…
+ dựa trên dữ liệu thu thập được từ app di động về bệnh nhân bị nhiễm
bệnh,… đưa ra các biện pháp quản lí cũng như cách cách chữa trị kịp thời
lúc gấp rút cho họ…
+ tìm ra bác sĩ, bệnh viện chuyên ngành bệnh mà bệnh nhân mắc phải để có thể điều trị .
+ tìm ra các biện pháp cũng như lộ trình để chăm sóc sức khỏe.
Truyền thông và giải trí
+ các công ty có thể nắm bắt được : lịch sử xem, xếp hạng , đánh giá,…từ
các phương tiện truyền thông. Cũng chính từ đó mà họ nắm được nhu cầu của khách hàng.
+ giúp các công ty kết nối với khách hàng một cách tốt hơn , giúp họ biết
được những yêu cầu mà khách đặt ra cho công ty mình là gì?
+ thu hút khách hàng biết đến các sản phẩm, lựa chọn các sản phẩm phù hợp cho bản than mình.
+ làm tang doanh thu cũng như thương hiệu cho các nhãn hàng.
+ chọn ra địa chỉ, sản phẩm phù hợp với túi tiền mà chất lượng cho người tiêu dùng Digital marketing
+ từ các dữ liệu thu thập được giúp cho việc phân tích thị trường cũng như
các đối thủ cạnh tranh giữa các công ty , cá nhân ,…
+ tìm ra mục tiêu , thách thức , cơ hội phát triển cho các doanh nghiệp
+ tìm hiểu giới tính , độ tuổi , sở thích ,.. thông qua các phương tiện truyền
thông để khoanh vùng khách hàng..
+ giúp xác định các chủ đề , nội dung được nhiều người dung tìm kiếm để
xây dựng chiến lược SEO content cho mình.
+ dựa trên các cơ sở dữ liệu về đối tượng hiện có đề hướng đến các đối
tượng tương tự, từ đó tạo ra lợi nhuận cho các cá nhân , tổ chức.
+ hiển thị các quảng cáo phù hợp, cá nhân hóa hoạt động tìm kiếm trên gg,
email marketing và tạo báo cáo sau mỗi chiến dịch quảng cáo.
Giao thông vận tải
- Giúp người dung nắm được thông tin chia tiết về thông tin, tuyến xe, địa
điểm và thời gian của các chuyến xe. Từ đó giúp họ tìm được chuyến xe
mình muốn đi mà không mất nhiều thời gian .
- Giúp cho các công ty vận tải tư nhân trong công tác quản lí tài sản , tối
ưu hóa , quy trình vận hành , kiểm tra và cải tiến công cụ,…
- Giúp cho việc lập kế hoạch lộ trình , lựa chọn đúng phương tiện đi lại, di
chuyển đến các địa điểm khác nhau chẳng hạn như đi du lịch, đi chơi,…
- Ngoài ra nó cũng giúp cho người dung tìm ra được con đường ngắn nhất
, nhanh nhất… nếu bạn không biết đường, lạc lối đi, nhầm địa chỉ.,,,
- Giúp cho việc thống kê các dữ liệu: dữ liệu phương tiện, dữ liệu đường
bộ, dữ liệu môi trường, nguyên nhân tai nạn,dữ liệu thương vong,…
- Phân tích , đánh giá nhằm đưa ra giải pháp tối ưu để xử lí tuyến đường
xảy ra tai nạn giao thông, lập kế hoạch giao thông, đưa ra các vị trí ùn
tắc khi xảy ra tai nạn ,..
- Đối với người lái xe và người dân , cung thông tin về tai nạn giao thông
qua bản đồ tai nạn bằng màu sắc , các vị trí đang xảy ra ùn tắc khi xảy
ra tai nạn giao thông , để người lái xe và người dân nắm được thông tin
giao thông nhằm tánh tắc đường và tiết kiệm thời gian , chi phí vận
chuyển cho doanh nghiệp,…
- Nắm bắt được thông tin về xe, người tham gia phạm lỗi về luật giao thông,..
Dịch vụ chăm sóc khách hàng;
+ tìm hiểu về yêu cầu của khách hàng từ đó thực hiện các nhu cầu cũng như kì vọng của họ.
+ phân tích hành vi cũng như quan tâm của khách hàng , tiếp cận xu thế thị
trường để tìm ra các sản phẩm , dịch vụ phù hợp .
+ từ sự tìm hiểu về khách hàng và xu thế thị trường , xây dựng chiến dịch
quảng cáo chính xác mang hiệu quả cao.
+ cô trợ lí ảo AMI giúp cho việc tìm kiếm và chủ động hỗ trợ trả lời những
thắc mắc của khách hàng trên mọi mạng xã hội 24/24 .
Thương mại điện tử
+ Dự báo nhu cầu sản phẩm. Từ việc khai thác dữ liệu lớn từ thòi quen
mua hàng , thời tiết , văn hóa tiêu dungf , tình hình chính trị ,… các công
ty thương mại điện tử có thể dự đoán từn khu vực địa lí khác nhau , sản
phẩm nào sẽ có nhu cầu cao trong thời gian tới chuẩn bị hàng ngay khi
khách hàng còn chưa có ý định mua và tạo thế chủ động cho chính bản
than doanh nghiệp trong cạnh tranh thị trường… + Tối
ưu giá cả . Thông qua nguồn dữ liệu lớn , nhà cung cấp có thể phân
tích so sánh các số liệu trong quá khứ , so sánh với các trang wed bán hàng
khác để đưa ra giá cả thật của sản phẩm.
+ Marketing online hiệu quả . Các trang mạng điện tử sẽ sử dụng dữ liệu
lớn từ những tìm kiếm của khách hàng , thời gian truy cập , sự kiện sắp
diễn ra, điều kiện tài chính,.. để đưa ra những chiến dịch quảng cáo sản
phẩm phù hợp với nhu cầu và thời truy cập của khách hàng để đem lại hiệu quả tốt hơn. + Chống
gian lận . Phân tích dữ liệu có thể giúp các tổ chức xác định các
hoạt động khả nghi và các mẫu có thể chỉ ra hành động gian lận và giảm
thiểu rủi roi. Đưa đến cho khách hàng những sản phẩm chính hangx , có
nguồn gốc xuất xứ rõ ràng , thông tin sản phẩm chính xác. + Phân
tích khách hàng .; Các công ty thương mại điện tử có thể kiểm tra
dữ liệu của khách hàng , từ đó đưa ra những ưu đãi và quảng cáo phù hợp
với đối tượng khách hàng . Đặc biệt nhằm đến các đối tượng khách hàng tiềm năng. + Phân
tích hoạt động. từ phân tích về hoạt động doanh nghiệp , mối quan
hệ khách hàng , quản lí tài sản sẽ nâng cao hiệu quả hoạt động của doanh
nghiệp , vận hành linh hoạt các chiến lược kinh doanh và sử dụng tối ưu
nguồn tài nguyên doanh nghiệp , nâng cao hiệu suất làm việc. TÀI LIỆU THAM KHẢO: - https://www
.brandsvietnam.com/congdong/topic/320226-Big-Data-la- gi-Tat-...Big-Data - https://careers.langmaster
.edu.vn/tat-tan-tat-kien-thuc-ve-big-data-hien- nay
- https://tapchigiaothong.vn/ung-dung-du-lieu-lon-big-data-trong-quan-ly- at...22.htm - https://www
.baogiaothong.vn/ung-dung-co-so-du-lieu-lon-de-quy- hoach-giao-...31.amp
- https://thanhnien.vn/ung-dung-big-data-va-ai-vao-cham-soc-khach- hang-vina...26.amp - ..
https://tapchicongthuong.vn/bai-viet/nghien-cuu-ve-loi-ich-cua-du- lieu-lo...31.htm - https://tapchinganhang.gov
.vn/big-data-va-ung-dung-trong-hoat-dong- ngan-hang.htm
- https://insight.isb.edu.vn/ung-dung-cua-big-data-trong-giao-duc/ - https://www
.most.gov.vn/vn/tin-tuc/23641/ung-dung-tri-tue-nhan-tao- va-du...oe.aspx
- https://insight.isb.edu.vn/ung-dung-big-data-trong-nganh-truyen-thong/ - https://www
.pace.edu.vn/tin-kho-tri-thuc/big-data-la-gi -
https://ooc.vn/nhung-thach-thuc-va-rui-ro-cua-big-data/ - -