HC VIN CHÍNH SÁCH VÀ PHÁT TRIN
GIÁO TRÌNH
D LIU LN TRONG
KINH T VÀ KINH DOANH
Ch biên
PGS,TS. TRN TRNG NGUYÊN TS. ĐÀM THANH TÚ
HÀ NI - 2022
1
HỌC VIỆN CHÍNH SÁCH PHÁT TRIỂN
GIÁO TRÌNH
DỮ LIỆU LỚN TRONG KINH TẾ KINH DOANH
Chủ biên: PGS, TS. Trần Trọng Nguyên
TS. Đàm Thanh
Các thành viên tham gia:
TS. Nguyễn Hữu Xuân Trường
ThS. Nguyễn Khắc Giáo
ThS. Đỗ Thế Dương
NỘI - 2022
LỜI NÓI ĐẦU
Dữ liệu đã trở nên một phần tất yếu đối với tất cả mọi khía cạnh của cuộc sống
con người trong vòng 30 năm qua, đã thay đổi cách chúng ta được giáo dục giải
trí, giúp chúng ta trải nghiệm với con người, công việc thế giới rộng m hơn chung
quanh mình. Hiện tại, rất nhiều dữ liệu đã được tạo ra liên tục từng giờ, từng phút với
tốc độ ngày càng tăng. Trong báo cáo ngày 8/5/2020 của IDC (International Data
Corporation, một công ty có trụ sở tại Mỹ hoạt động tại hơn 110 quốc gia trong
lĩnh vực cung cấp thông tin thị trường, dịch vụ vấn sự kiện cho thị trường công
nghệ thông tin, viễn thông) cho rằng tổng dung lượng dữ liệu toàn cầu (global
datasphere) năm 2020 sẽ khoảng 59 zettabytes, dự báo đến năm 2025 163
zettabytes dữ liệu được tạo ra. Bạn sẽ hình dung được dung lượng d liệu y lớn tới
chừng nào khi biết rằng 1 đơn vị dung ợng zettabytes bằng 1.000 tỷ (trillion)
gigabytes. IDC ng cho rằng, thế giới sẽ tạo lượng dữ liệu trong 5 năm tiếp theo gấp
3 lần so với 5 năm trước trước đó.
Thực tế hiện nay, dữ liệu không chỉ dùng để lưu trữ đơn thuần đó còn một
tài sản lớn đối với mọi tổ chức khi biết cách khai thác, sử dụng. Ẩn chứa trong những
kho dữ liệu khổng l kiến thức thể thay đổi cả thế giới chúng ta. Những kho dữ
liệu khổng lồ, phức tạp cùng với khả năng sử dụng dữ liệu đang tăng lên không ngừng
của chúng ta đã hình thành nên một công nghệ mới, đó công nghệ dữ liệu lớn (Big
Data). Dữ liệu lớn trên thực tế đang được ứng dụng sâu rộng vào rất nhiều lĩnh vực
của hội, của nền kinh tế, tạo nên những chuyển biến ấn tượng, giúp tăng hiệu quả
năng suất của doanh nghiệp. thể nói rằng, dữ liệu lớn đang thực sự nhân tố
thay đổi cuộc chơi trong nhiều lĩnh vực, cuộc cách mạng làm thay đổi cách chúng
ta sống, m việc duy.
Hiện nay, tại Việt Nam chưa một giáo trình hoàn chỉnh về Dữ liệu lớn cho
sinh viên, đặc biệt là ng dụng trong lĩnh vực Kinh tế Kinh doanh. Do đó, để đáp
ứng cho nhu cầu học tập của sinh viên nói chung, sinh viên tại Học viện Chính sách
Phát triển nói riêng thể tiếp cận được với những kiến thức về Dữ liệu lớn mới
theo xu thế thời đại, chúng tôi đã biên soạn giáo trình Dữ liệu lớn trong kinh tế
kinh doanh dựa trên những kiến thức tổng hợp về dữ liệu lớn, công nghệ cho quản trị
phân tích d liệu lớn, ứng dụng dữ liệu lớn trong lĩnh vực Kinh tế Kinh doanh.
Giáo trình này được biên soạn một cách hệ thống trên sở tham khảo chọn
lọc nhiều nguồn tài liệu cập nhật của các học gi nổi tiếng trên thế giới. Giáo trình
được chia thành 5 chương với các nội dung được liên quan chặt chẽ đến nhau:
2
Chương 1. Tổng quan về dữ liệu lớn: trình bày một số vấn đề trong thực tiễn
cuộc sống đòi hỏi cần xử phân tích dữ liệu lớn. Qua đó, giúp cho người học cảm
nhận được vai trò quan trọng của dữ liệu lớn hiện nay. Thông qua tìm hiểu lược sử về
dữ liệu, cấu trúc của dữ liệu chương 1 sẽ cho người học tiếp cận đến khái niệm về dữ
liệu lớn các nguồn hình thành nên dữ liệu lớn, những đặc trưng bản của dữ liệu
lớn để có thể phân biệt được với dữ liệu truyền thống. Ngoài ra, chương 1 cũng giới
thiệu cho người học những thông tin khái quát về ngành khoa học dữ liệu cũng như
một số định ớng ngh nghiệp liên quan đến lĩnh vực y.
Chương 2. Công nghệ cho xử dữ liệu lớn: giới thiệu về những nền tảng công
nghệ cho việc xử dữ liệu lớn, trong đó tập trung vào hai vấn đề chính công nghệ
lưu trữ dữ liệu lớn các h thống tính toán dữ liệu lớn. Đây một chương có nội
dung liên quan nhiều đến kỹ thuật nên sẽ khá nhiều những khái niệm công nghệ
mới được giới thiệu đến như Hồ dữ liệu (Data Lake), Kho dữ liệu (Data Warehouse),
sở dữ liệu không cấu trúc (NoSQL),… Do đó, để thuận tiện cho người đọc thì cần
yêu cầu một s kiến thức bản về sở dữ liệu, hoặc tìm kiếm thêm thông tin liên
quan tham khảo.
Chương 3. Phân tích dữ liệu lớn: trình bày những nội dung liên quan đến phân
tích dữ liệu lớn, người đọc sẽ hiểu về phân tích dữ liệu lớn là , tại sao cần phải
phân tích dữ liệu lớn các dạng phân tích dữ liệu trong thực tế. Sau đó, người đọc sẽ
được giới thiệu về quy trình các bước trong phân tích dữ liệu, đặc biệt các công việc
trong ớc xử dữ liệu cùng với các k thuật ph biến trong phân tích d liệu lớn
những ứng dụng cụ thể của c kỹ thuật này đối với các bài toán thực tiễn. Cuối cùng,
người đọc sẽ được giới thiệu một số công cụ, phần mềm được sử dụng phổ biến trong
phân tích dữ liệu lớn.
Chương 4. Trực quan hoá dữ liệu phân tích: là một chương quan trọng
nhất của giáo trình này vì cung cấp một nền tảng bản cho những người muốn kể
câu chuyện bằng dữ liệu thông qua c phần mềm như Microsoft Excel Tableau.
Nhiều người có thể nhập dữ liệu vào Excel tạo một vài biểu đ để coi như hoàn
thành công đoạn trực quan hóa dữ liệu. Điều này khả năng tầm thường hóa hoàn
toàn những câu chuyện thú vị nhất của dữ liệu, hay thậm chí y khó hiểu cho người
nghe. Mọi dữ liệu đều ẩn chứa một câu chuyện, c bài học trong chương 4 này sẽ
giúp người học thay đổi duy từ “trình bày dữ liệu” sang “kể chuyện thông qua d
liệu” một cách trực quan hợp ng cảnh.
Chương 5. ng dụng dữ liệu lớn trong kinh tế kinh doanh: giới thiệu
những ng dụng điển hình của dữ liệu lớn trong một số bài toán v Kinh tế Kinh
doanh. Chương này sẽ giúp người học hiểu rằng dữ liệu lớn các phương pháp phân
3
tích đang biến đổi thế giới ngày càng thông minh hơn, tối ưu hóa các quy trình trong
Kinh tế Kinh doanh, tiếp cận khách hàng mục tiêu tốt hơn, cải thiện chăm sóc
sức khỏe của con người.
Chúng tôi biết rằng còn rất nhiều điều về dữ liệu lớn cũng như quá trình quản
trị phân tích d liệu lớn cuốn ch này chưa đề cập đến. Chúng tôi chỉ dừng
mức độ căn bản để người học những nền tảng nhất định về dữ liệu lớn cũng như
ứng dụng của chúng trong lĩnh vực Kinh tế Kinh doanh. cuối mỗi chương, cuốn
giáo trình này sẽ đưa ra các câu hỏi thảo luận bài tập. Qua c câu hỏi và bài tập
này, học viên không chỉ hội thực hành trên máy tính còn tiếp cận được rất
nhiều nguồn dữ liệu có thể rất cần thiết trong quá trình nghiên cứu ứng dụng thực
tế sau này (Dữ liệu để thực hành thể download tại trang web của khoa Kinh tế số:
www.apd.edu.vn/bai-giang5).
Trong quá trình viết cuốn giáo trình này, chúng tôi may mắn nhận được nhiều ý
kiến đóng góp của PGS, TS. Nguyễn Việt Anh (Viện CNTT Viện Hàn lâm Khoa
học và Công nghệ Việt Nam); TS. Nguyễn Thế Hùng (Học viện Chính ch Phát
triển); TS. Nguyễn Thị Đông (Học viện Chính ch Phát triển); TS. Đặng Xuân Thọ
(Trường Đại học phạm Nội); TS. Đặng Phương Mai (Học viện Tài chính),…
Chúng tôi cũng xin cảm ơn phòng Quản Đào tạo, phòng Quản lý khoa học Hợp
tác của Học viện Chính sách Phát triển đã tạo điều kiện thuận lợi cho nhóm tác gi
trong suốt quá trình nghiên cứu viết cuốn giáo trình này.
Mặc chúng tôi đã nỗ lực mức độ cao nhất nhưng những sai sót vẫn khả
năng xảy ra, đó điều không tránh khỏi. Chính vậy, mọi sự đóng góp xây dựng
của bạn đọc để hoàn thiện cuốn giáo trình này món quà vô cùng ý nghĩa đối với
chúng tôi. Mọi ý kiến đóng góp, rất mong quý vị gửi mail v các địa chỉ sau đây: Trần
Trọng Nguyên (nguyentt@apd.edu.vn) hoặc Đàm Thanh (tudt@apd.edu.vn).
Trân trọng!
Nội, ngày 10 tháng 12 năm 2022
Tập thể biên soạn
4
LỜI GIỚI THIỆU MÔN HỌC
1.
Đối tượng nghiên cứu của môn học
Dữ liệu lớn trong kinh tế kinh doanh một môn học thuộc phần kiến thức
sở ngành trong chương trình đào tạo sinh viên chính quy ngành Kinh tế số tại Học viện
Chính sách Phát triển. Đồng thời, đây cũng một môn học sở của sinh viên
nhiều ngành học khác thuộc các loại hình đào tạo của Học viện.
Đối tượng nghiên cứu của n học kiến thức bản về d liệu lớn các cách
thức quản trị, phân tích dữ liệu để ứng dụng trong các lĩnh vực kinh tế kinh doanh.
Cụ thể, môn học này làm bản chất, đặc trưng, công c quản dữ liệu lớn; các
nguyên tắc để phân tích dữ liệu lớn cũng như triển khai thực hành phân tích dữ liệu
lớn bằng một s công cụ thông dụng như Excel Tableau. Ngoài ra, n học này sẽ
trình bày một số những bài học tình huống (case study) trong thực tế của các tổ chức
doanh nghiệp trên phạm vi toàn cầu để học viên hiểu được những ng dụng của
dữ liệu lớn trong lĩnh vực kinh tế kinh doanh.
Cần phải nhấn mạnh rằng việc học nghiên cứu một chủ đề rất mới “Big Data”
cùng phức tạp. Do đó, người học nên chú trọng hiểu những nội dung c chủ
đề đã được giảng dạy, thảo luận liên quan đến nội dung của môn học. Không tài
liệu o thể bao quát hết các chủ đề về dữ liệu lớn giáo trình này cũng không cố
gắng để làm được điều đó. Để có thể những góc nhìn sâu sắc toàn diện hơn về
dữ liệu lớn cũng như ứng dụng của trong các lĩnh vực khác như y học, sinh học,
nông nghiệp,... học viên thể tìm hiểu các cuốn ch khác về dữ liệu lớn đã xuất bản
bởi các tác giả trong nước quốc tế. Thông qua cuốn giáo trình y, tập thể tác giả
mong muốn người học có thể nh càng nhiều kiến thức từ tài liệu càng tốt, nhưng việc
nhớ không phải bằng cách học thuộc lòng phải thông qua sự hiểu biết vấn đề thì
mới nhớ lâu được. Hơn nữa, giáo trình này cũng không định trả lời mọi câu hỏi, thế
sau khi học xong người học nhiều vấn đề còn phải tiếp tục suy nghĩ, tìm tòi để đáp
ứng nhu cầu kiến thức của nh.
Nội dung nghiên cứu quan trọng nhất của cuốn sách giáo trình này đó chính
hiểu thực hành được việc phân tích dữ liệu nói chung, trong đó bao gồm cả phân
tích d liệu lớn bằng các công cụ như Tableau hay Excel. Đôi khi việc trực quan hóa
phân tích dữ liệu (Data visualization) được coi một nghệ thuật đôi khi lại được
coi một công việc tính chất khoa học vượt trội. Trong thực tế, đây một công
việc sự kết hợp của cả hai một trong số các trường hợp khác thì việc trực quan
hóa dữ liệu lại một nghệ thuật k câu chuyện dựa trên dữ liệu (data story). Tính chất
khoa học của trực quan hóa phân tích dữ liệu được th hiện thông qua các hình,
thuật toán bóc tách, trích xuất dữ liệu cũng như cách trình bày lên các bảng điều khiển
5
(dashboard) một cách hợp nhất để lột tả được những điều ẩn sâu từ dữ liệu (insight)
cho người dùng ra được quyết định từ dữ liệu. Tính chất nghệ thuật của việc trực quan
hóa phân tích dữ liệu nằm ch chọn màu sắc, b cục, loại biểu đồ sao cho thực sự
ăn nhập với câu chuyện cần kể về dữ liệu được phân tích.
2.
Mục tiêu nghiên cứu của môn học
Mục tiêu chính của môn học Dữ liệu lớn trong kinh tế kinh doanh trang bị
cho người học một cách hệ thống, khoa học những kiến thức, phương pháp kỹ năng
cần thiết để thể tiến hành quản trị phân tích dữ liệu cho một quan, tổ chức hay
một doanh nghiệp. Môn học này sẽ ớng dẫn giúp cho học viên được những
tiền đề cơ bản để hình thành năng lực tiếp cận, nghiên cứu thực tế vận dụng các
kiến thức đã được trang bị về dữ liệu lớn để thể giải quyết được những bài toán u
trữ, xử dữ liệu mức độ bản trong các tổ chức doanh nghiệp; đưa ra các báo
cáo phân tích khi được yêu cầu dựa trên các công cụ như Excel, Tableau hay thậm chí
Power BI, Google Data Studio cũng làm được.
Với mục tiêu nghiên cứu như vậy n n học Dữ liệu lớn trong kinh tế kinh
doanh mang tính chất thực hành nhiều hơn thuyết. Ngoài ra, để thể có những tư
duy v phân tích dữ liệu, tạo ra các báo cáo phân tích để người sử dụng thể ra được
quyết định thì học viên cũng cần các kiến thức của các n học khác như Kinh tế
vi mô, Kinh tế , Tài chính doanh nghiệp, Nguyên kế toán, Quản trị kinh doanh,
Marketing, Pháp luật kinh tế,... Trong mối quan h đó, môn học Dữ liệu lớn trong kinh
tế kinh doanh giữ vị trí môn học trang bị những kiến thức bản, những duy
về ứng dụng dữ liệu để thúc đẩy phát triển kinh tế kinh doanh cho các môn học
chuyên ngành khác của học viên. Ngược lại, các n học chuyên ngành khác của
người học lại vai trò bổ khuyết để hoàn thiện các kiến thức cần thiết cho việc thực
hiện nghiệp vụ phân tích dữ liệu kinh doanh của tổ chức hay doanh nghiệp một ch
hệ thống hiệu quả.
3.
Phương pháp nghiên cứu môn học
Dữ liệu lớn trong kinh tế và kinh doanh một môn học mang nhiều tính chuyên
môn nghiệp vụ, thiên hướng thực nh nhiều hơn thuyết. Do vậy, để thể học
tập tốt n học này thì học viên cần linh hoạt sử dụng các phương pháp phân tích
thống kê, phương pháp tổng hợp so sánh, phương pháp hình hóa, phương pháp
phân tích nh huống,... Ngoài ra, để thực hành tốt c nghiệp vụ trực quan hóa phân
tích dữ liệu trong lĩnh vực kinh tế kinh doanh thì người học cần phải máy tính
cấu hình đủ mạnh để i đặt c phần mềm; biết cách tìm kiếm, khai thác d liệu trên
internet.
6
MỤC LỤC
CHƯƠNG 1. TỔNG QUAN VỀ DỮ LIỆU LỚN..........................................11
1.1. Vai trò của dữ liệu trong đời sống....................................................... 11
1.1.1.
Nâng cao hiệu suất hoạt động....................................................................11
1.1.2.
Phát triển các hình kinh doanh mới.....................................................13
1.1.3.
Thấu hiểu khách hàng................................................................................15
1.1.4.
Cải thiện chăm sóc sức khỏe.................................................................16
1.1.5.
Phát triển chính phủ điện tử các dịch vụ công......................................17
1.2. Dữ liệu lớn (Big Data)........................................................................... 18
1.2.1.
Khái niệm dữ liệu.......................................................................................18
1.2.2.
Phân loại dữ liệu........................................................................................ 20
1.2.3.
Định nghĩa về d liệu lớn.......................................................................... 22
1.2.4.
Nguồn hình thành dữ liệu lớn.................................................................... 23
1.3. Đặc trưng bản của dữ liệu lớn (mô hình 5V)................................24
1.3.1.
Kích thước (Volume).................................................................................25
1.3.2.
Tốc độ (Velocity).......................................................................................26
1.3.3.
Đa dạng (Variety)...................................................................................... 26
1.3.4.
Độ tin cậy (Veracity)................................................................................. 26
1.3.5.
Giá trị (Value)............................................................................................27
1.4. lược về ngành khoa học dữ liệu..................................................... 28
1.4.1.
Khái niệm...................................................................................................28
1.4.2.
Các nhánh của Khoa học dữ liệu............................................................... 28
1.4.3.
Lợi ích của Khoa học d liệu.....................................................................32
1.4.4.
Những thách thức các nhà khoa học dữ liệu phải đối mặt........................ 33
1.5. Câu hỏi thảo luận Chương 1................................................................ 34
CHƯƠNG 2. CÔNG NGHỆ CHO XỬ DỮ LIỆU LỚN........................ 35
2.1. Tổng quan về công nghệ cho xử dữ liệu lớn................................... 35
2.2. Công nghệ lưu trữ dữ liệu lớn.............................................................. 36
7
2.2.1.
Thách thức u trữ dữ liệu lớn................................................................... 36
2.2.2.
OLAP Online Analytical Processing......................................................38
2.2.3.
sở dữ liệu NoSQL.................................................................................41
2.2.4.
Kho dữ liệu.................................................................................................48
2.2.5.
Hồ dữ liệu (Data lake)............................................................................... 52
2.3. Các hệ thống tính toán dữ liệu lớn.......................................................55
2.3.1.
Tổng quan về tính toán d liệu ln............................................................55
2.3.2.
Apache Hadoop..........................................................................................58
2.3.3.
Apache Storm.............................................................................................62
2.3.4.
Apache Spark.............................................................................................67
2.4. Câu hỏi thảo luận bài tập Chương 2.............................................. 73
CHƯƠNG 3. PHÂN TÍCH DỮ LIỆU LN...................................................74
3.1. Giới thiệu về phân tích dữ liệu lớn...................................................... 74
3.1.1.
Phân tích dữ liệu lớn những thách thức................................................ 74
3.1.2.
Các cấp độ phân tích dữ liệu......................................................................76
3.1.3.
Quy trình phân tích dữ liệu lớn..................................................................79
3.2. Các kỹ thuật phân tích dữ liệu lớn...................................................... 83
3.2.1.
Phân lớp dữ liệu......................................................................................... 83
3.2.2.
Phân cụm dữ liệu........................................................................................92
3.2.3.
Phát hiện luật kết hợp.................................................................................98
3.2.4.
Hồi quy.....................................................................................................105
3.3. Một s công cụ phân tích dữ liệu lớn.................................................106
3.3.1.
Python...................................................................................................... 106
3.3.2.
Lập trình R............................................................................................... 108
3.3.3.
Phần mềm Weka...................................................................................... 110
3.3.4.
RapidMiner.............................................................................................. 113
3.3.5.
SPSS Modeler.......................................................................................... 114
3.3.6.
Nền tảng tự động hóa quy trình phân tích Alteryx..................................115
3.4. Câu hỏi thảo luận bài tập Chương 3............................................ 116
8
CHƯƠNG 4. TRỰC QUAN HÓA DỮ LIỆU PHÂN TÍCH............... 117
4.1. Tổng quan về trực quan hóa dữ liệu................................................. 117
4.1.1.
Khái niệm trực quan hóa dữ liệu............................................................. 117
4.1.2.
Các nguyên tắc trực quan hóa dữ liệu..................................................... 118
4.1.3.
Những dạng biểu đồ chính trong trực quan hóa dữ liệu..........................119
4.2. Trực quan hóa phân tích dữ liệu với Microsoft Excel................123
4.2.1.
Giới thiệu về công cụ Microsoft Excel....................................................123
4.2.2.
Tầm quan trọng của Microsoft Excel......................................................124
4.2.3.
Kỹ thuật xây dựng biểu đồ đơn giản trong Microsoft Excel...................124
4.2.4.
Các kỹ thuật nâng cao với biểu đồ trong Excel.......................................127
4.2.5.
Kỹ thuật tạo biểu đồ động........................................................................133
4.2.6.
Kỹ thuật tạo Dashboard........................................................................... 141
4.3. Trực quan hóa phân ch dữ liệu với Tableau.............................143
4.3.1.
Giới thiệu về phần mềm Tableau.............................................................143
4.3.2.
Các thành phần của Tableau Desktop..................................................... 144
4.3.3.
Kết nối chuẩn bị dữ liệu trong Tableau.............................................. 148
4.3.4.
Cách vẽ các loại biểu đồ trong Tableau.................................................. 149
4.3.5.
Một số tính năng nâng cao trong Tableau Desktop.................................169
4.3.6.
Dashboard Story trong Tableau Desktop............................................178
4.4. Câu hỏi thảo luận bài tập Chương 4............................................ 182
CHƯƠNG 5. ỨNG DỤNG DỮ LIỆU LỚN TRONG KINH TẾ KINH
DOANH........................................................................................................... 183
5.1. Ứng dụng trong quản điều hành của chính ph.....................183
5.1.1.
Tăng cường cung cấp dịch vụ công cho người dân doanh nghiệp.....183
5.1.2.
Hoạch định chính sách thông minh hơn.................................................. 185
5.1.3.
Khám phá các xu hướng hành vi của mọi công n...........................186
5.2. Ứng dụng trong lĩnh vực tài chính - ngân ng...............................187
5.2.1.
Giảm thiểu rủi ro cho hoạt động tài chính ngân hàng.......................... 187
5.2.2.
Phân khúc khách hàng thẩm định hồ ............................................. 189
9
5.2.3.
Phát triển sản phẩm chăm sóc khách ng..........................................190
5.2.4.
Phân tích dự đoán theo thời gian thực hoạt động đầu tài chính..........191
5.3. Ứng dụng trong lĩnh vực thương mại dịch vụ.............................192
5.3.1.
nhân hóa trải nghiệm khách hàng.......................................................193
5.3.2.
Dự đoán nhu cầu...................................................................................... 194
5.3.3.
Tối ưu hóa hiệu quả hoạt động................................................................ 195
5.3.4.
Phân tích hành trình khách hàng..............................................................196
5.4. Ứng dụng trong lĩnh vực sản xuất chuỗi cung ứng.....................197
5.4.1.
Tối ưu hóa hiệu quả hoạt động................................................................ 197
5.4.2.
Tối ưu hóa chuỗi cung ứng...................................................................... 198
5.4.3.
Tối ưu hóa quãng đường di chuyển định tuyến hàng a...................199
5.5. Ứng dụng trong hoạt động truyền thông marketing.................. 200
5.5.1.
Thúc đẩy hoạt động marketing trên c nền tảng số............................... 200
5.5.2.
Phát triển quảng cáo nhân a.............................................................202
5.5.3.
Tối ưu hóa trải nghiệm người xem.......................................................... 202
5.6. Câu hỏi thảo luận bài tập Chương 5............................................ 205
TÀI LIỆU THAM KHẢO..............................................................................206
PHỤ LỤC 1......................................................................................................207
PHỤ LỤC 2......................................................................................................211
10
CHƯƠNG 1. TỔNG QUAN VỀ DỮ LIỆU LỚN
1.1. Vai trò của dữ liệu trong đời sống
1.1.1.
Nâng cao hiệu suất hoạt động
Thách thức trong việc xử những khối lượng rất lớn các dữ liệu thực chất đã
tồn tại từ khá lâu. Trong lịch sử của nhân loại, chúng ta đã sử dụng phương pháp chọn
mẫu ngẫu nhiên để ng lọc thông tin, giữ lại mức tối thiểu vừa đủ để thể khảo sát
được dễ dàng hơn. Lấy mẫu ngẫu nhiên làm giảm những vấn đề về sự phức tạp của dữ
liệu thành những dữ liệu nh gọn dễ quản lý hơn. Lấy mẫu ngẫu nhiên đã một
thành công lớn ơng sống của đo ờng hiện đại quy lớn. Nhưng chỉ
một đường tắt, một lựa chọn tốt thứ 2 để thu thập phân tích tập dữ liệu đầy đủ.
Lấy mẫu ngẫu nhiên thường đi kèm với điểm yếu cố hữu độ chính xác của ph
thuộc vào việc đảm bảo tính ngẫu nhiên, th dẫn đến c kết quả ngoại suy rất sai.
Tuy nhiên, ngày nay với sự phát triển của khoa học công nghệ nên trong nhiều lĩnh
vực đang diễn ra một sự thay đổi trong cách thức xử số liệu. Các nghiên cứu thể
chuyển từ thu thập một mẫu dữ liệu sang thu thập càng nhiều càng tốt thậm chí có
thể thì lấy tất cả dữ liệu (lấy tất cả dữ liệu về tổng thể nghiên cứu).
Khi sử dụng tất cả dữ liệu nghĩa là chúng ta thể đi sâu vào đặc trưng của
tổng thể nghiên cứu việc chọn mẫu ngẫu nhiên không thể làm được điều đó.
thế, dữ liệu được nghiên cứu toàn diện sẽ dần thay thế con đường tắt lấy mẫu ngẫu
nhiên. Tuy nhiên, để làm như vậy đòi hỏi con người phải máy móc với sức mạnh
xử lưu tr đa dạng các cấu trúc dữ liệu cũng như các công cụ tiên tiến để phân
tích được tổng th dữ liệu. Trong quá khứ, việc nghiên cứu một lượng lớn dữ liệu sẽ
thách thức về cả ng nghệ giá cả nhưng hiện nay chi phí độ phức tạp của tất
cả các vấn đề y đã giảm đáng kể. Những trước đây phạm vi của chỉ các công
ty lớn nhất thì bây giờ lại khả thi cho hầu như tất cả các doanh nghiệp.
Sử dụng tất cả dữ liệu cho phép phát hiện các kết nối chi tiết nh thường
sẽ bị che giấu trong sự bao la của thông tin. dụ, việc phát hiện các gian lận th tín
dụng hoạt động bằng cách tìm kiếm những bất thường cách tốt nhất để tìm ra chúng
xử tất cả các dữ liệu thay một phần. Các giá tr ngoại lai những thông tin thú
vị nhất chỉ thể nhận ra chúng khi so sánh với hàng loạt giao dịch bình thường.
với một lượng d liệu rất lớn dựa trên tất cả thông tin, hoặc nhiều thông tin
nhất thể nên cho phép chúng ta nhìn vào các chi tiết hoặc thử nghiệm các phân
tích mới không ngại rủi ro bị mất chất lượng. Tuy nhiên đi kèm với hạn chế,
tăng khối lượng dữ liệu s mở cánh cửa cho sự thiếu chính xác những số liệu sai sót
11
b hỏng đã luôn luôn len lỏi vào các bộ dữ liệu. Chúng ta đã luôn luôn xem chúng
như những rắc rối và c gắng loại bỏ chúng. Những chúng ta chưa bao giờ muốn
làm xem chúng như những điều không thể tránh khỏi và học cách sống chung với
chúng. Đây một trong những thay đổi bản khi chuyển t dữ liệu nhỏ sang dữ liệu
lớn. dụ, khi đo nhiệt độ trong một khu ờn, nếu ch một cảm biến nhiệt độ cho
toàn b khu vườn, ta phải chắc chắn rằng chính xác hoạt động tốt tại mọi thời
điểm. Ngược lại, nếu hàng trăm cảm biến cho mỗi cây trong khu vườn, chúng ta
thể sử dụng các cảm biến rẻ hơn, ít phức tạp hơn (miễn chúng không phát sinh một
sai số hệ thống). Rất có th tại một thời điểm, một vài cảm biến sẽ o dữ liệu không
chính xác, tạo ra một bộ dữ liệu ít chính xác hoặc hỗn độn hơn so với bộ dữ liệu từ
một cảm biến chính xác. Bất kỳ một dữ liệu sinh ra t cảm biến cụ thể nào đó cũng
đều thể không chính xác, nhưng tổng hợp của nhiều dữ liệu sẽ cung cấp một bức
tranh toàn diện hơn về nhiệt độ các vị trí khác nhau trong khu vườn. Bởi các b dữ
liệu này bao gồm nhiều điểm dữ liệu hơn, cung cấp giá trị lớn hơn nhiều và thể
đắp cho sự hỗn độn của nó. Tất nhiên dữ liệu không được phép sai hoàn toàn, nhưng
chúng ta sẵn sàng hy sinh một chút trong sự chính xác để đổi lại hiểu biết về xu hướng
của chúng. Dữ liệu lớn biến đổi các con số thành một cái đó mang tính xác suất
nhiều hơn tính chính xác.
Năm 2006, Google đã chính thức phát triển dự án trong lĩnh vực dịch thuật, thay
dịch các trang văn bản thành ngôn ngữ thứ hai. Google triển khai dự án với một bộ
dữ liệu lớn hơn nhưng cũng hỗn độn hơn nhiều với toàn bộ dữ liệu thu thập trên mạng
internet hơn thế nữa. Hệ thống của Google đã thu lượm bất k bản dịch nào thể
tìm thấy để huấn luyện cho máy tính. Chúng bao gồm các trang web của các công ty
viết nhiều ngôn ngữ khác nhau, các bản dịch đồng nhất của các văn bản chính thức
các báo o của các tổ chức liên chính phủ như Liên hợp quốc, Liên minh Châu
Âu,... Thậm chí các bản dịch sách từ dự án sách của Google cũng được thu nhận. Bất
chấp sự hỗn độn của d liệu đầu vào, dịch vụ dịch thuật của Google hoạt động tốt nhất.
Các bản dịch của chính c hơn so với của các hệ thống khác phong phú hơn
rất nhiều. Vào giữa năm 2012, bộ d liệu của Google Translate đã bao gồm hơn 60
ngôn ngữ. thậm chí thể chấp nhận nhập văn bản vào bằng giọng nói trong 14
ngôn ngữ để dịch. Google Translate xử ngôn ngữ đơn giản như dữ liệu hỗn độn
để đánh giá xác suất, thậm chí thể dịch giữa các ngôn ngữ bất kỳ trong trường
hợp này tiếng Anh như một cầu nối cho việc dịch thuật đó. Như vậy, Google Translate
linh hoạt hơn rất nhiều so với những cách tiếp cận khác thể thêm bớt các
từ qua kinh nghiệm chúng được hay không được sử dụng. do hệ thống dịch thuật
của Google Translate hoạt động tốt không phải hãng công nghệ này một thuật
toán thông minh hơn. Google Translate hoạt động tốt bởi nhiều dữ liệu n.
12
Việc s dụng bộ dữ liệu lớn hơn cho phép nhưng ớc tiến lớn trong xử ngôn ngữ
tự nhiên mà các hệ thống nhận dạng tiếng nói dịch máy dựa vào.
Các thiết bị đeo tay của Apple s thu thập dữ liệu thông tin của người sử dụng,
mục đích ban đầu được các số liệu thông o với người dùng họ đã những
hoạt động i bộ, leo cầu thang, đi nhanh,...), giúp người dùng thể kiểm soát được
năng lượng tiêu thụ trong ngày, kiểm soát được thời gian ngh ngơi. Nhưng mục tiêu
cuối cùng đối với các nhà cung cấp thiết bị đeo tay thông minh thể thu thập được
dữ liệu của nhiều người nhất, tất nhiên những d liệu tính nhân, không vi phạm
nguyên tắc bảo mật vi phạm quyền cá nhân. Với những dữ liệu đó, các công ty
thể thực hiện phân tích với lượng dữ liệu lớn. H có thể phân tích những t các hoạt
động, từ các bài tập thể dục của người dùng? Đó thể những ch tập thể dục ph
biến, c xu hướng tập thể dục, các i hát được s dụng khi thực hiện các bài tập. Họ
xác định được ngày nào trong tuần sẽ ít người tham gia các lớp luyện tập nhất, các
đối ợng tham gia thích hợp o các khoảng thời gian nào để thể vấn với người
dùng về chương trình tập luyện, hay đưa ra các chương trình khuyến mãi.
Trong lĩnh vực thể thao, nhiều đội tuyển còn theo dõi các vận động viên bên
ngoài của i trường th thao, như sử dụng công nghệ thông minh để theo dõi chế độ
dinh ỡng giấc ngủ, cũng như c cuộc hội thoại truyền thông hội để nhận biết
tâm tư, tình cảm. Chẳng hạn như tại World Cup năm 2014 diễn ra tại Brazil, đội tuyển
Đức một chiến thuật hợp lý, vượt trội cho từng trận đấu với từng đối thủ cũng như
cho cả vòng loại? mật này nằm công ngh phân tích d liệu lớn mà đội tuyển Đức
áp dụng từ những năm 2012. Công ngh này giúp phân tích từng cầu th đối phương,
đồng thời đưa ra giải pháp tối ưu cho từng cầu thủ trong đội tuyển Đức trước mỗi trận
đấu.
Như vậy, với việc sử dụng một lượng d liệu rất lớn thông qua các công cụ
phân tích dữ liệu giúp máy móc thiết bị trở nên thông minh độc lập hơn, tối ưu
hóa hiệu suất của y móc. Sự phát triển của công nghệ đã làm máy tính nhanh hơn,
lưu trữ được nhiều hơn, đồng thời hiệu suất của các thuật toán điều khiển cũng ng
với mức tăng còn nhanh hơn mức tăng của năng lực xử của máy tính. Tuy nhiên,
nhiều lợi ích cho hội của chúng ta không phải các chip nhanh hơn hay các
thuật toán tốt hơn chỉ đơn giản là do nhiều dữ liệu hơn.
1.1.2.
Phát triển các hình kinh doanh mới
Trong lĩnh vực vận chuyển, hiện nay ít công ty nào vượt mặt Uber (một công
ty công ngh của Mỹ) về mức độ phủ sóng nhận biết thương hiệu. Doanh nghiệp
này được xây dựng với nền móng vững chắc dựa trên dữ liệu. Việc Uber tận dụng dữ
13
liệu theo một cách hiệu qu hơn so với những công ty taxi truyền thống đã đóng một
vai trò to lớn trong thành công của mình. Toàn bộ hình kinh doanh của Uber dựa
vào những quy tắc dữ liệu lớn từ nguồn lực cộng đồng (crowdsourcing) bất k ai
một chiếc xe sẵn lòng giúp đỡ người khác trong việc di chuyển thể thực hiện
công việc này. Uber lưu trữ giám sát dữ liệu trên từng chuyến đi của người dùng,
rồi sử dụng để xác định nhu cầu, phân phối nguồn lực định giá cước phí. Công
ty cũng thực hiện phân tích chuyên sâu về mạng ới phương tiện di chuyển công cộng
trong những thành phố đang phục vụ để Uber th tập trung phủ sóng các
khu vực được phục vụ kém cung cấp các liên kết đến hệ thống xe buýt tàu lửa.
Uber cũng nắm giữ một sở dữ liệu khổng lồ của các tài xế trong tất c thành phố
đang cung cấp dịch vụ. Vì thế, khi một hành khách yêu cầu một chuyến đi
thì Uber thể lập tức kết nối bạn với tài xế p hợp nhất. một sự khác biệt quan
trọng so với dịch vụ taxi thông thường, đó khách hàng được tính cước phí dựa trên
thời gian của chuyến đi chứ không phải khoảng cách đã đi. Công ty đã phát triển
một thuật toán để giám t các điều kiện giao thông thời gian chuyến đi thời gian
thực, nghĩa giá cả thể được điều chỉnh nếu như người đi xe thay đổi lộ trình
khi điều kiện giao thông m cho chuyến đi mất nhiều thời gian hơn. Điều này khuyến
khích nhiều tài xế tham gia vào việc vận chuyển hành khách khi họ thấy cần thiết
nghỉ ngơi nhà khi nhu cầu đi lại mức thấp. Công ty cũng xin được cấp bằng sáng
chế về phương pháp định giá dựa vào dữ liệu này, được gọi “surge pricing (định
giá nhảy cóc điều chỉnh giá ớc dựa trên việc kết nối cung cầu). chính một
hình thức nâng cao của “dynamic pricing” (định giá động). Các thức định giá này
tương tự như hình thức những chuỗi khách sạn các hãng hàng không s dụng
để điều chỉnh giá với mục đích đáp ứng được nhu cầu khách hàng mặc chỉ đơn
giản tăng giá dịch vụ vào cuối tuần hoặc trong suốt các kỳ nghỉ. Uber sử dụng
hình dự đoán để ước ợng nhu cầu theo thời gian thực.
Uber xử nhiều loại dữ liệu khác nhau, chẳng hạn như Uber tự động tính cước
phí bằng việc s dụng GPS, dữ liệu giao thông thuật toán của riêng công ty, thể
tạo sự điều chỉnh dựa o thời gian chuyến đi thường sẽ tiêu tốn. ng ty cũng
phân tích những dữ liệu bên ngoài như các tuyến phương tiện công cộng để n kế
hoạch phục vụ. Uber không đơn độc trong việc sử dụng dữ liệu để cách mạng hóa
phương tiện vận chuyển, vẫn những đối thủ cạnh tranh đưa ra các dịch vụ với
quy mô nhỏ hơn như DiDi (Trung Quốc), Grap (Singapore), Lyft (Bắc Mỹ), Hailo
(Châu Âu),... Uber một trong số các công ty thành công nhất trong việc sử dụng dữ
liệu lớn để cải thiện dịch vụ mà cung cấp cho khách hàng.
Sự xuất hiện của Uber còn đánh dấu một cột mốc liên quan đến nền kinh tế chia
sẻ (sharing economy), có lợi cho nền kinh tế, xét trên góc độ phân bổ sử dụng
14
nguồn lực. th nói đây một c động rất lớn của cuộc cách mạng công nghệ thông
tin viễn thông đến kinh tế.
1.1.3.
Thấu hiểu khách ng
Ngày nay, các doanh nghiệp đều mong muốn mở rộng tập hợp dữ liệu truyền
thống về khách hàng của nh bằng cách thu thập thêm các dữ liệu truyền thông
hội, trình duyệt web cũng như phân tích văn bản dữ liệu cảm biến để được một
bức tranh hoàn chỉnh hơn về khách hàng của họ. Trong nhiều trường hợp, mục tiêu
lớn hơn là để tạo ra mô hình dự báo nhằm phát triển các sản phẩm mới hay chăm sóc
khách hàng tốt hơn.
Khách hàng mỗi khi mua hàng quá nhiều dữ liệu phải xử lý khi quyết định
mua hàng, số sự lựa chọn những với khách hàng thực sự không nhiều kiến
thức ý tưởng về tất cả sản phẩm đó, họ sẽ không biết đâu lựa chọn tốt nhất cho
mình. Để giải quyết vấn đề này, Amazon (một công ty công ngh thương mại điện
tử hàng đầu thế giới trụ sở tại Mỹ) đã ứng dụng dữ liệu lớn thu thập từ khách hàng
để phân tích, xây dựng điều chỉnh công cụ đề xuất trên website của mình tinh tế
chính xác n. Khi Amazon nhiều thông tin về khách hàng, họ ngày càng thể
đưa ra những dự đoán chính xác hơn những khách muốn mua. Amazon sẽ gợi ý cho
khách ng các sản phẩm gần nhất với nhu cầu thực, thay khách hàng phải tự tìm
kiếm trong toàn bộ danh mục dài dằng dặc. Không chỉ dừng lại các click chuột
bạn lựa chọn, Amazon còn thể thu thập dữ liệu dựa trên thời gian khách hàng
tiềm năng của họ dừng lại các trình duyệt khác nhau khi truy cập website bán hàng
của Amazon. Ngoài ra, Amazon ng sử dụng các bộ dữ liệu bên ngoài, chẳng hạn
như dữ liệu điều tra dân số để thu thập các chi tiết nhân khẩu học.
Các doanh nghiệp trong lĩnh vực thương mại dịch vụ khác khác như Walmart,
Target,… thể tối ưu hóa giá cả lượng hàng hóa của họ dựa trên các dự đoán được
tạo ra từ dữ liệu phương tiện truyền thông hội, xu ớng tìm kiếm web dự báo
thời tiết. Một quy trình kinh doanh với rất nhiều phân tích d liệu lớn chuỗi cung
ứng hoặc cung cấp lộ trình tối ưu hóa. đây, cảm biến nhận dạng tần số tuyến định
vị địa được sử dụng để theo dõi hàng hóa, phương tiện giao hàng c tuyến
đường tối ưu bằng cách tích hợp dữ liệu giao thông trực tiếp.
Như vậy, dữ liệu lớn hỗ trợ việc nh thành một hệ thống chăm sóc khách hàng
linh hoạt, tạo giá trị hữu hình trong xây dựng mối liên với khách hàng chăm sóc
khách ng. Bên cạnh đó, hệ thống chatbot còn vai trò cung cấp tính năng thu thập
dữ liệu khách hàng từ c đoạn đối thoại, sau đó, dữ liệu được phân tích để nắm bắt
nhu cầu mong muốn của khách ng để thể đưa ra các phản hồi phù hợp, làm thỏa
15
mãn nhu cầu của khách hàng, hình thành xây dựng mối liên hệ với khách hàng, giữ
chân khách hàng.
1.1.4.
Cải thiện và chăm c sức khỏe
Bây giờ con người sống lâu hơn, các nh điều trị đã thay đổi và nhiều thay
đổi này được thúc đẩy bởi dữ liệu. Các bác muốn hiểu càng nhiều càng tốt về bệnh
nhân càng sớm nhận ra các dấu hiệu cảnh báo của bệnh nghiêm trọng khi phát
sinh. Điều trị bất kỳ bệnh nào giai đoạn đầu sẽ đơn giản hơn ít tốn m hơn. Bằng
cách sử dụng các chỉ số hiệu suất chính trong phân tích d liệu chăm sóc sức khỏe
quản để vẽ ra bức tranh toàn diện về bệnh nhân sẽ cho phép bảo hiểm cung cấp gói
dịch vụ phù hợp. Đây nỗ lực của ngành nhằm giải quyết các vấn đề khó khăn về dữ
liệu của bệnh nhân.
Trong nhiều năm, việc thu thập một lượng lớn dữ liệu cho mục đích y tế rất tốn
kém mất thời gian. Với công nghệ luôn cải tiến ngày nay, việc thu thập dữ liệu đó
trở nên dễ dàng hơn, tạo báo cáo chăm sóc sức khỏe toàn diện chuyển đổi chúng
thành những thông tin chi tiết quan trọng liên quan, sau đó thể sử dụng để cung
cấp dịch vụ chăm sóc tốt hơn. Đây mục đích của phân ch dữ liệu y tế: sử dụng c
phát hiện dựa trên dữ liệu để dự đoán giải quyết vấn đề trước khi quá muộn, nhưng
cũng đánh giá c phương pháp điều trị nhanh hơn, theo dõi tốt hơn hàng tồn kho, thu
hút bệnh nhân nhiều hơn trong sức khỏe của họ trao quyền cho họ với các công cụ
để m như vậy.
Khả ng tính toán, phân tích dữ liệu lớn cho phép chúng ta giải toàn bộ chuỗi
DNA trong vài phút tìm ra những phương pháp chữa trị mới, nhằm hiểu hơn
cũng như dự đoán mô hình bệnh. Hãy nghĩ về điều gì sẽ xảy ra khi tất cả các dữ liệu
nhân, từ đồng hồ thông minh các thiết bị đeo, thể được sử dụng để áp dụng
cho hàng triệu người các căn bệnh khác nhau của họ. Các thử nghiệm lâm sàng
trong tương lai sẽ không b giới hạn bởi kích thước mẫu nhỏ sẽ khả năng bao
quát tất cả mọi người.
Với việc s dụng hồ sức khỏe điện tử trong ngành y tế, mỗi bệnh nhân đều
hồ kỹ thuật số của riêng mình, bao gồm nhân khẩu học, lịch sử bệnh, dị ứng, kết
quả t nghiệm trong phòng thí nghiệm,... Hồ được chia sẻ qua hệ thống thông tin
an toàn sẵn cho các nhà cung cấp từ cả khu vực công nhân. Mọi hồ đều
bao gồm một tệp thể sửa đổi, nghĩa bác thể thực hiện các thay đổi theo
thời gian không cần thủ tục giấy tờ không có nguy cơ sao chép dữ liệu. H
sức khỏe điện tử cũng thể kích hoạt cảnh báo nhắc nhở khi bệnh nhân nên m
16
xét nghiệm mới trong phòng thí nghiệm hoặc theo dõi các đơn thuốc để xem liệu bệnh
nhân tuân theo chỉ định của bác hay không.
Việc sử dụng một lượng lớn d liệu trong chăm sóc sức khỏe cho phép lập kế
hoạch chiến lược nhờ hiểu n v đặc điểm thể hoạt động của mỗi người.
Người quản chăm sóc th phân tích kết quả kiểm tra giữa những người thuộc các
nhóm nhân khẩu học khác nhau xác định những yếu tố nào không khuyến khích
mọi người tiếp tục điều trị. Hơn nữa, thông qua việc phân tích dữ liệu lớn về c ca
bệnh cho phép chúng ta theo dõi, dự đoán s phát triển của dịch bệnh sự bùng phát
dịch bệnh.
1.1.5.
Phát triển chính phủ điện tử các dịch vụ ng
Trong một thời gian i, các quốc gia trên thế giới đã cố gắng sử dụng công ngh
thông tin trong Chính phủ theo nhiều cách khác nhau để đạt được mục tiêu phát triển
chính phủ minh bạch, trách nhiệm; truy cập thuận tiện vào các dịch vụ trực tuyến
của chính phủ; tăng cường dân chủ; giảm chi phí dịch vụ hành chính cuối cùng tăng
cường điều kiện sống của người dân. Chính ph điện tử thể sử dụng dữ liệu lớn để
khám phá các xu ớng hành vi của mọi người trên mạng hội để chính phủ
thể cung cấp dịch vụ tốt n, hiệu lực, hiệu quả hơn. Dữ liệu lớn giúp chính phủ hiểu
hơn về thói quen sở thích của người dân với sự tr giúp của các ứng dụng trong
mạng di động mạng hội dựa trên việc duyệt web, nhấp chuột, tìm kiếm, lịch sử
mua hàng, đặt phòng... Với những khả năng y, Chính phủ th hiểu thói quen, sở
thích của người dân, thể giúp dự đoán những người dân muốn cung cấp c
chương trình tuyên truyền thích hợp đáp ứng nhu cầu mối quan tâm của họ. Như
vậy, dữ liệu lớn giúp Chính phủ xây dựng chính phủ thông minh bằng ch cung cấp
các dịch vụ nhanh hơn, hiệu quả đáng tin cậy cho người dân. Hướng tới việc ng
cao các dịch vụ chính phủ điện tử tăng cường hiệu lực, hiệu quả, các giá trị gia tăng
của dữ liệu lớn được khám phá trong phân tích nghiệp vụ.
Một số lợi ích của việc sử dụng dữ liệu lớn trong Chính phủ điện tử Chính
quyền điện tử bao gồm: cung cấp tích hợp hiệu qu tài nguyên của dữ liệu lớn; tích
hợp dữ liệu giá trị với các quy trình ra quyết định nhằm đưa ra các chính sách hiệu
quả hơn, khả thi n; nâng cao chất lượng cuộc sống; kiểm soát việc sử dụng tài
nguyên Chính ph điện tử hiệu quả; tăng hiệu quả xử giao dịch; tăng mức độ minh
bạch của Chính phủ Chính quyền các địa phương tại mỗi quốc gia.
17
1.2. Dữ liệu lớn (Big Data)
1.2.1.
Khái niệm dữ liệu
Kể từ khi phát minh ra máy tính, con người đã sử dụng thuật ng dữ liệu để chỉ
thông tin máy tính thông tin này được truyền đi hoặc lưu trữ. Nhưng đó không phải
định nghĩa dữ liệu duy nhất; cũng tồn tại các loại dữ liệu khác. Vậy, dữ liệu gì?
Dữ liệu th văn bản hoặc số được viết trên giấy tờ, hoặc th byte bit
bên trong bộ nh của các thiết bị điện tử, hoặc thể các dữ kiện được lưu trữ
bên trong m trí của một người.
Theo wikipedia, khái niệm dữ liệu chuỗi bất kỳ của một hoặc nhiều ký tự ý
nghĩa thông qua việc giải thích một hành động cụ thể o.
Theo một cách hiểu khác thì: Dữ liệu biểu diễn số lượng, tính chất hoặc hiệu
hoạt động được máy tính u trữ trên cứng từ, đĩa quang được truyền đi dưới dạng
tín hiệu điện.
Dữ liệu cần phải được thông dịch để trở thành thông tin. Để dữ liệu thành thông
tin, cần xem xét một số nhân tố bao gồm người (hoặc vật) tạo ra dữ liệu và thông tin
được mong muốn t d liệu đó. Thuật ng siêu dữ liệu chỉ các dữ liệu được dùng làm
dữ liệu tham khảo về một dữ liệu khác. Siêu dữ liệu thể được ngầm hiểu, được chỉ
định hoặc cho trước. Dữ liệu liên quan đến sự kiện hoặc quy trình vật thường
nhân tố thời gian. Trong hầu hết các trường hợp, nhân tố thời gian được ngầm hiểu.
dụ như máy ghi nhiệt độ nhận được dữ liệu t cảm biến nhiệt độ. Khi nhận được nhiệt
độ, dữ liệu được ngầm định tham chiếu thời gian lúc "bấy giờ". vậy, thiết bị
ghi lại cả ngày tháng, thời gian nhiệt độ. Khi máy ghi dữ liệu báo cáo nhiệt độ,
cũng phải xuất ra ngày giờ (chính là siêu dữ liệu) cho từng mốc nhiệt độ.
Thông tin chính sự thông báo, trao đổi, giải thích v một đối tượng nào đó
thường được thể hiện ới dạng các tín hiệu như chữ viết, âm thanh, dòng điện,…Nói
một cách khái quát, thông tin chính s hiểu biết của con người v một thực thể nào
đó, thể thu nhập, lưu trữ xử được. Thông tin sẽ được liên kết với dữ liệu dữ
liệu đại diện cho các giá trị được quy cho c tham số thông tin d liệu theo ng
cảnh ý nghĩa kèm theo. Thông tin cũng liên quan đến kiến thức bởi kiến thức
biểu th sự hiểu biết về một khái niệm trừu tượng hoặc cụ thể.
Thông tin thể được hóa thành nhiều dạng khác nhau để truyền giải thích,
cũng thể được hóa để u trữ và liên lạc an toàn.
18
Bảng 1.1. Bội số của Byte theo hệ nhị phân
Tên
Bội số Byte
hiệu
Kibibyte
2
10
KiB
Mebibyte
2
20
MiB
Gibibyte
2
30
GiB
Tebibyte
2
40
TiB
Pebibyte
2
50
PiB
Exbibyte
2
60
EiB
Zebibyte
2
70
ZiB
Yobibyte
2
80
YiB
Đơn vị bản đo dữ liệu được lưu trữ trên c thiết bị như cứng, USB, th nhớ,
RAM,… chính bit (là viết tắt của Binary Digit). Bit thuật ngữ chỉ phần nhỏ nhất
của bộ nhớ máy tính thể lưu trữ một trong hai trạng thái thông tin 0 hoặc 1 (có
thể hiểu trạng thái bật hoặc tắt của bóng n dẫn trong máy tính). Ngoài đơn vị trên,
byte cũng được coi một đơn vị đo của dữ liệu. Trong đại đa số các máy tính hiện
đại, byte 8 bit. Tuy nhiên, không phải máy nào đều cũng dùng byte 8 bit. Một số
máy tính đời cũ đã dùng 6, 7, hay 9 bit trong một byte - một thí dụ trong cấu trúc 36
bit của bộ máy PDP-10. Một dụ khác đơn vị slab của bộ máy NCR-315. Một byte
luôn luôn không chia rời được, đơn vị nhỏ nhất thể truy nhập được. Một byte
8 bit có thể biểu thị được 256 giá trị khác nhau (2
8
= 256) đủ để lưu trữ một số nguyên
không dấu từ 0 đến 255, hay một số dấu từ -128 đến 127, hay một tự dùng 7
bit (như ASCII) hay 8 bit.
Bảng 1.2 Bội số của Byte theo hệ thập phân
Tên
Bội số Byte
hiệu
Kilobyte
10
3
KB
Megabyte
10
6
MB
Gigabyte
10
9
GB
Terabyte
10
12
TB
Petabyte
10
15
PB
Exabyte
10
18
EB
Zettabyte
10
21
ZB
Yottabyte
10
24
YB
Brontobyte
10
27
BB
19
1.2.2.
Phân loại dữ liệu
Dữ liệu được chia làm 3 loại chính dữ liệu cấu trúc (structured data), dữ
liệu không có cấu trúc (unstructured data) dữ liệu bán cấu trúc (semi-structured
data).
Dữ liệu cấu trúc
Đây loại dữ liệu dễ dàng tìm kiếm sắp xếp nhất, thường được hàm
chứa trong các cột hàng, các thành phần của chúng thể được liên kết bằng
những trường được định sẵn từ trước. Hãy nghĩ về những dữ liệu bạn th lưu tr
trong một tệp Excel chúng ta sẽ thấy ngay được dụ về dữ liệu cấu trúc. Dữ
liệu có cấu trúc thể bám theo một hình dữ liệu người thiết kế s dữ liệu
(CSDL) tạo ra dụ như các bản thống bán hàng theo ng miền, xếp theo loại
mặt hàng hoặc theo khách hàng. Đối với dữ liệu cấu trúc, các hạng mục thể được
nhóm lại để tạo thành các mối liên hệ với nhau (các ‘khách hàng cùng phản hồi
‘thỏa mãn’ về dịch vụ chẳng hạn). Những điều này sẽ giúp dữ liệu cấu trúc dễ dàng
được u trữ, phân tích, tìm kiếm, trở thành loại d liệu dễ sử dụng nhất cho doanh
nghiệp trong thời gian gần đây. Ngày nay, phần lớn những loại dữ liệu được cho
cấu trúc chỉ chiếm ít hơn 20% tổng số dữ liệu thu được.
Thông thường, dữ liệu cấu trúc được quản bằng ngôn ng truy vấn cấu
trúc (Structured Query Language - SQL), một loại ngôn ngữ lập trình được phát triển
bởi IBM từ những m 1970 dành cho các hệ quản trị cơ sở dữ liệu quan hệ (Relational
Database Management System - RDBMS).
Dữ liệu cấu trúc được tạo ra bởi máy móc con người. Chẳng hạn d liệu
tài chính của các giao dịch tại một ngân hàng bao gồm chi tiết địa chỉ, thông tin nhân
khẩu, đánh giá của người dùng, các bản ghi chú của máy, dữ liệu địa điểm từ các thiết
bị thông minh,
Dữ liệu phi cấu trúc
Một phần rất lớn (khoảng 80%) của tất cả dữ liệu trên thế giới này dữ liệu phi
cấu trúc. Loại dữ liệu này loại không thể chứa trong sở dữ liệu dạng hàng cột
cũng không mô hình dữ liệu nào liên quan. dụ như dữ liệu trên một bài
viết trên một website bao gồm cả các đoạn tự, các hình ảnh, các video clip hay thậm
chí bao gồm cả c biểu tượng cảm xúc. Sự thiếu hụt về cấu trúc đã khiến dữ liệu phi
cấu trúc trở nên khó tìm kiếm, quản phân tích nên trước đây người ta hay bỏ qua
dạng dữ liệu này. Tuy nhiên, gần đây khi sự ra đời của trí tuệ nhân tạo các thuật
toán máy tự học khiến cho quá trình này tr n dễ hơn đôi chút.
20

Preview text:

HỌ H C Ọ VI V Ệ I N Ệ CH C Í H N Í H N SÁ S C Á H C VÀ V PH P Á H T Á TR T I R Ể I N G G IIÁ ÁO O TR T ÌRNÌH NH DỮ LIỆ D U LỮ ỚN LTIỆ R U ONGLỚ KI N NH T T R Ế VO À N KI G NH DOANH
KINH TẾ VÀ KINH DOANH
Chủ biên: PGS, TS. Trần Trọng Nguyên TS. Đàm Thanh Tú Các thành viên tha C m hgiủa: biên
TS. Nguyễn Hữu Xuân Trường
PGS,TS. TRẦN TRỌNG NGUYÊN – TS. ĐÀM THANH TÚ ThS. Nguyễn Khắc Giáo ThS. Đỗ Thế Dương HÀ NỘI - 2022
HÀ NỘ1I - 2022 LỜI NÓI ĐẦU
Dữ liệu đã trở nên một phần tất yếu đối với tất cả mọi khía cạnh của cuộc sống
con người trong vòng 30 năm qua, nó đã thay đổi cách chúng ta được giáo dục và giải
trí, giúp chúng ta trải nghiệm với con người, công việc và thế giới rộng mở hơn chung
quanh mình. Hiện tại, rất nhiều dữ liệu đã được tạo ra liên tục từng giờ, từng phút với
tốc độ ngày càng tăng. Trong báo cáo ngày 8/5/2020 của IDC (International Data
Corporation, một công ty có trụ sở tại Mỹ và hoạt động tại hơn 110 quốc gia trong
lĩnh vực cung cấp thông tin thị trường, dịch vụ tư vấn và sự kiện cho thị trường công
nghệ thông tin, viễn thông
) cho rằng tổng dung lượng dữ liệu toàn cầu (global
datasphere) năm 2020 sẽ là khoảng 59 zettabytes, dự báo đến năm 2025 có 163
zettabytes dữ liệu được tạo ra. Bạn sẽ hình dung được dung lượng dữ liệu này lớn tới
chừng nào khi biết rằng 1 đơn vị dung lượng zettabytes bằng 1.000 tỷ (trillion)
gigabytes. IDC cũng cho rằng, thế giới sẽ tạo lượng dữ liệu trong 5 năm tiếp theo gấp
3 lần so với 5 năm trước trước đó.
Thực tế hiện nay, dữ liệu không chỉ dùng để lưu trữ đơn thuần mà đó còn là một
tài sản lớn đối với mọi tổ chức khi biết cách khai thác, sử dụng. Ẩn chứa trong những
kho dữ liệu khổng lồ là kiến thức có thể thay đổi cả thế giới chúng ta. Những kho dữ
liệu khổng lồ, phức tạp cùng với khả năng sử dụng dữ liệu đang tăng lên không ngừng
của chúng ta đã hình thành nên một công nghệ mới, đó là công nghệ dữ liệu lớn (Big
Data). Dữ liệu lớn trên thực tế đang được ứng dụng sâu rộng vào rất nhiều lĩnh vực
của xã hội, của nền kinh tế, tạo nên những chuyển biến ấn tượng, giúp tăng hiệu quả
và năng suất của doanh nghiệp. Có thể nói rằng, dữ liệu lớn đang thực sự là nhân tố
thay đổi cuộc chơi trong nhiều lĩnh vực, là cuộc cách mạng làm thay đổi cách chúng
ta sống, làm việc và tư duy.
Hiện nay, tại Việt Nam chưa có một giáo trình hoàn chỉnh về Dữ liệu lớn cho
sinh viên, đặc biệt là ứng dụng trong lĩnh vực Kinh tế và Kinh doanh. Do đó, để đáp
ứng cho nhu cầu học tập của sinh viên nói chung, sinh viên tại Học viện Chính sách
và Phát triển nói riêng có thể tiếp cận được với những kiến thức về Dữ liệu lớn mới
theo xu thế thời đại, chúng tôi đã biên soạn giáo trình “Dữ liệu lớn trong kinh tế và
kinh doanh
” dựa trên những kiến thức tổng hợp về dữ liệu lớn, công nghệ cho quản trị
và phân tích dữ liệu lớn, ứng dụng dữ liệu lớn trong lĩnh vực Kinh tế và Kinh doanh.
Giáo trình này được biên soạn một cách hệ thống trên cơ sở tham khảo có chọn
lọc nhiều nguồn tài liệu cập nhật của các học giả nổi tiếng trên thế giới. Giáo trình
được chia thành 5 chương với các nội dung được liên quan chặt chẽ đến nhau: 2
Chương 1. Tổng quan về dữ liệu lớn: trình bày một số vấn đề trong thực tiễn
cuộc sống đòi hỏi cần xử lý và phân tích dữ liệu lớn. Qua đó, giúp cho người học cảm
nhận được vai trò quan trọng của dữ liệu lớn hiện nay. Thông qua tìm hiểu lược sử về
dữ liệu, cấu trúc của dữ liệu chương 1 sẽ cho người học tiếp cận đến khái niệm về dữ
liệu lớn và các nguồn hình thành nên dữ liệu lớn, những đặc trưng cơ bản của dữ liệu
lớn để có thể phân biệt được với dữ liệu truyền thống. Ngoài ra, chương 1 cũng giới
thiệu cho người học những thông tin khái quát về ngành khoa học dữ liệu cũng như
một số định hướng nghề nghiệp liên quan đến lĩnh vực này.
Chương 2. Công nghệ cho xử lý dữ liệu lớn: giới thiệu về những nền tảng công
nghệ cho việc xử lý dữ liệu lớn, trong đó tập trung vào hai vấn đề chính là công nghệ
lưu trữ dữ liệu lớn và các hệ thống tính toán dữ liệu lớn. Đây là một chương có nội
dung liên quan nhiều đến kỹ thuật nên sẽ có khá nhiều những khái niệm công nghệ
mới được giới thiệu đến như Hồ dữ liệu (Data Lake), Kho dữ liệu (Data Warehouse),
cơ sở dữ liệu không cấu trúc (NoSQL),… Do đó, để thuận tiện cho người đọc thì cần
yêu cầu có một số kiến thức cơ bản về cơ sở dữ liệu, hoặc tìm kiếm thêm thông tin liên quan tham khảo.
Chương 3. Phân tích dữ liệu lớn: trình bày những nội dung liên quan đến phân
tích dữ liệu lớn, người đọc sẽ hiểu rõ về phân tích dữ liệu lớn là gì, tại sao cần phải
phân tích dữ liệu lớn và các dạng phân tích dữ liệu trong thực tế. Sau đó, người đọc sẽ
được giới thiệu về quy trình các bước trong phân tích dữ liệu, đặc biệt là các công việc
trong bước xử lý dữ liệu cùng với các kỹ thuật phổ biến trong phân tích dữ liệu lớn và
những ứng dụng cụ thể của các kỹ thuật này đối với các bài toán thực tiễn. Cuối cùng,
người đọc sẽ được giới thiệu một số công cụ, phần mềm được sử dụng phổ biến trong phân tích dữ liệu lớn.
Chương 4. Trực quan hoá dữ liệu và phân tích: là một chương quan trọng
nhất của giáo trình này vì nó cung cấp một nền tảng cơ bản cho những người muốn kể
câu chuyện bằng dữ liệu thông qua các phần mềm như Microsoft Excel và Tableau.
Nhiều người có thể nhập dữ liệu vào Excel và tạo một vài biểu đồ để coi như hoàn
thành công đoạn trực quan hóa dữ liệu. Điều này có khả năng tầm thường hóa hoàn
toàn những câu chuyện thú vị nhất của dữ liệu, hay thậm chí là gây khó hiểu cho người
nghe. Mọi dữ liệu đều ẩn chứa một câu chuyện, các bài học trong chương 4 này sẽ
giúp người học thay đổi tư duy từ “trình bày dữ liệu” sang “kể chuyện thông qua dữ
liệu” một cách trực quan và hợp ngữ cảnh.
Chương 5. Ứng dụng dữ liệu lớn trong kinh tế và kinh doanh: giới thiệu
những ứng dụng điển hình của dữ liệu lớn trong một số bài toán về Kinh tế và Kinh
doanh. Chương này sẽ giúp người học hiểu rằng dữ liệu lớn và các phương pháp phân 3
tích đang biến đổi thế giới ngày càng thông minh hơn, tối ưu hóa các quy trình trong
Kinh tế và Kinh doanh, tiếp cận khách hàng mục tiêu tốt hơn, cải thiện và chăm sóc
sức khỏe của con người.
Chúng tôi biết rằng còn có rất nhiều điều về dữ liệu lớn cũng như quá trình quản
trị và phân tích dữ liệu lớn mà cuốn sách này chưa đề cập đến. Chúng tôi chỉ dừng ở
mức độ căn bản để người học có những nền tảng nhất định về dữ liệu lớn cũng như
ứng dụng của chúng trong lĩnh vực Kinh tế và Kinh doanh. Ở cuối mỗi chương, cuốn
giáo trình này sẽ đưa ra các câu hỏi thảo luận và bài tập. Qua các câu hỏi và bài tập
này, học viên không chỉ có cơ hội thực hành trên máy tính mà còn tiếp cận được rất
nhiều nguồn dữ liệu có thể rất cần thiết trong quá trình nghiên cứu và ứng dụng thực
tế sau này (Dữ liệu để thực hành có thể download tại trang web của khoa Kinh tế số: www.apd.edu.vn/bai-giang5).
Trong quá trình viết cuốn giáo trình này, chúng tôi may mắn nhận được nhiều ý
kiến đóng góp của PGS, TS. Nguyễn Việt Anh (Viện CNTT – Viện Hàn lâm Khoa
học và Công nghệ Việt Nam); TS. Nguyễn Thế Hùng (Học viện Chính sách và Phát
triển); TS. Nguyễn Thị Đông (Học viện Chính sách và Phát triển); TS. Đặng Xuân Thọ
(Trường Đại học sư phạm Hà Nội); TS. Đặng Phương Mai (Học viện Tài chính),…
Chúng tôi cũng xin cảm ơn phòng Quản lý Đào tạo, phòng Quản lý khoa học và Hợp
tác của Học viện Chính sách và Phát triển đã tạo điều kiện thuận lợi cho nhóm tác giả
trong suốt quá trình nghiên cứu và viết cuốn giáo trình này.
Mặc dù chúng tôi đã nỗ lực ở mức độ cao nhất nhưng những sai sót vẫn có khả
năng xảy ra, và đó là điều không tránh khỏi. Chính vì vậy, mọi sự đóng góp xây dựng
của bạn đọc để hoàn thiện cuốn giáo trình này là món quà vô cùng ý nghĩa đối với
chúng tôi. Mọi ý kiến đóng góp, rất mong quý vị gửi mail về các địa chỉ sau đây: Trần
Trọng Nguyên (nguyentt@apd.edu.vn) hoặc Đàm Thanh Tú (tudt@apd.edu.vn). Trân trọng!
Hà Nội, ngày 10 tháng 12 năm 2022
Tập thể biên soạn 4
LỜI GIỚI THIỆU MÔN HỌC
1. Đối tượng nghiên cứu của môn học
Dữ liệu lớn trong kinh tế và kinh doanh là một môn học thuộc phần kiến thức cơ
sở ngành trong chương trình đào tạo sinh viên chính quy ngành Kinh tế số tại Học viện
Chính sách và Phát triển. Đồng thời, đây cũng là một môn học cơ sở của sinh viên
nhiều ngành học khác thuộc các loại hình đào tạo của Học viện.
Đối tượng nghiên cứu của môn học là kiến thức cơ bản về dữ liệu lớn và các cách
thức quản trị, phân tích dữ liệu để ứng dụng trong các lĩnh vực kinh tế và kinh doanh.
Cụ thể, môn học này làm rõ bản chất, đặc trưng, công cụ quản lý dữ liệu lớn; các
nguyên tắc để phân tích dữ liệu lớn cũng như triển khai thực hành phân tích dữ liệu
lớn bằng một số công cụ thông dụng như Excel và Tableau. Ngoài ra, môn học này sẽ
trình bày một số những bài học tình huống (case study) trong thực tế của các tổ chức
và doanh nghiệp trên phạm vi toàn cầu để học viên hiểu rõ được những ứng dụng của
dữ liệu lớn trong lĩnh vực kinh tế và kinh doanh.
Cần phải nhấn mạnh rằng việc học và nghiên cứu một chủ đề rất mới “Big Data”
là vô cùng phức tạp. Do đó, người học nên chú trọng hiểu những nội dung và các chủ
đề đã được giảng dạy, thảo luận có liên quan đến nội dung của môn học. Không có tài
liệu nào có thể bao quát hết các chủ đề về dữ liệu lớn và giáo trình này cũng không cố
gắng để làm được điều đó. Để có thể có những góc nhìn sâu sắc và toàn diện hơn về
dữ liệu lớn cũng như ứng dụng của nó trong các lĩnh vực khác như y học, sinh học,
nông nghiệp,. . học viên có thể tìm hiểu các cuốn sách khác về dữ liệu lớn đã xuất bản
bởi các tác giả trong nước và quốc tế. Thông qua cuốn giáo trình này, tập thể tác giả
mong muốn người học có thể nhớ càng nhiều kiến thức từ tài liệu càng tốt, nhưng việc
nhớ không phải bằng cách học thuộc lòng mà phải thông qua sự hiểu biết vấn đề thì
mới nhớ lâu được. Hơn nữa, giáo trình này cũng không định trả lời mọi câu hỏi, vì thế
sau khi học xong người học có nhiều vấn đề còn phải tiếp tục suy nghĩ, tìm tòi để đáp
ứng nhu cầu kiến thức của mình.
Nội dung nghiên cứu quan trọng nhất của cuốn sách giáo trình này đó chính là
hiểu và thực hành được việc phân tích dữ liệu nói chung, trong đó bao gồm cả phân
tích dữ liệu lớn bằng các công cụ như Tableau hay Excel. Đôi khi việc trực quan hóa
và phân tích dữ liệu (Data visualization) được coi là một nghệ thuật và đôi khi lại được
coi là một công việc có tính chất khoa học vượt trội. Trong thực tế, đây là một công
việc có sự kết hợp của cả hai và một trong số các trường hợp khác thì việc trực quan
hóa dữ liệu lại là một nghệ thuật kể câu chuyện dựa trên dữ liệu (data story). Tính chất
khoa học của trực quan hóa và phân tích dữ liệu được thể hiện thông qua các mô hình,
thuật toán bóc tách, trích xuất dữ liệu cũng như cách trình bày lên các bảng điều khiển 5
(dashboard) một cách hợp lý nhất để lột tả được những điều ẩn sâu từ dữ liệu (insight)
cho người dùng ra được quyết định từ dữ liệu. Tính chất nghệ thuật của việc trực quan
hóa và phân tích dữ liệu nằm ở chỗ chọn màu sắc, bố cục, loại biểu đồ sao cho thực sự
ăn nhập với câu chuyện cần kể về dữ liệu được phân tích.
2. Mục tiêu nghiên cứu của môn học
Mục tiêu chính của môn học Dữ liệu lớn trong kinh tế và kinh doanh là trang bị
cho người học một cách hệ thống, khoa học những kiến thức, phương pháp và kỹ năng
cần thiết để có thể tiến hành quản trị và phân tích dữ liệu cho một cơ quan, tổ chức hay
một doanh nghiệp. Môn học này sẽ hướng dẫn và giúp cho học viên có được những
tiền đề cơ bản để hình thành năng lực tiếp cận, nghiên cứu thực tế và vận dụng các
kiến thức đã được trang bị về dữ liệu lớn để có thể giải quyết được những bài toán lưu
trữ, xử lý dữ liệu ở mức độ cơ bản trong các tổ chức và doanh nghiệp; đưa ra các báo
cáo phân tích khi được yêu cầu dựa trên các công cụ như Excel, Tableau hay thậm chí
là Power BI, Google Data Studio cũng làm được.
Với mục tiêu nghiên cứu như vậy nên môn học Dữ liệu lớn trong kinh tế và kinh
doanh mang tính chất thực hành nhiều hơn lý thuyết. Ngoài ra, để có thể có những tư
duy về phân tích dữ liệu, tạo ra các báo cáo phân tích để người sử dụng có thể ra được
quyết định thì học viên cũng cần có các kiến thức của các môn học khác như Kinh tế
vi mô, Kinh tế vĩ mô, Tài chính doanh nghiệp, Nguyên lý kế toán, Quản trị kinh doanh,
Marketing, Pháp luật kinh tế,. . Trong mối quan hệ đó, môn học Dữ liệu lớn trong kinh
tế và kinh doanh giữ vị trí là môn học trang bị những kiến thức cơ bản, những tư duy
về ứng dụng dữ liệu để thúc đẩy phát triển kinh tế và kinh doanh cho các môn học
chuyên ngành khác của học viên. Ngược lại, các môn học chuyên ngành khác của
người học lại có vai trò bổ khuyết để hoàn thiện các kiến thức cần thiết cho việc thực
hiện nghiệp vụ phân tích dữ liệu kinh doanh của tổ chức hay doanh nghiệp một cách hệ thống và hiệu quả.
3. Phương pháp nghiên cứu môn học
Dữ liệu lớn trong kinh tế và kinh doanh là một môn học mang nhiều tính chuyên
môn nghiệp vụ, có thiên hướng thực hành nhiều hơn lý thuyết. Do vậy, để có thể học
tập tốt môn học này thì học viên cần linh hoạt sử dụng các phương pháp phân tích
thống kê, phương pháp tổng hợp và so sánh, phương pháp mô hình hóa, phương pháp
phân tích tình huống,. . Ngoài ra, để thực hành tốt các nghiệp vụ trực quan hóa và phân
tích dữ liệu trong lĩnh vực kinh tế và kinh doanh thì người học cần phải có máy tính
cấu hình đủ mạnh để cài đặt các phần mềm; biết cách tìm kiếm, khai thác dữ liệu trên internet. 6 MỤC LỤC
CHƯƠNG 1. TỔNG QUAN VỀ DỮ LIỆU LỚN. . . . . . . . . . . . . . . . . . . . . 11
1.1. Vai trò của dữ liệu trong đời sống. . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.1. Nâng cao hiệu suất hoạt động. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 11
1.1.2. Phát triển các mô hình kinh doanh mới. . . . . . . . . . . . . . . . . . . . . . . . . . .13
1.1.3. Thấu hiểu khách hàng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 15
1.1.4. Cải thiện và chăm sóc sức khỏe. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .16
1.1.5. Phát triển chính phủ điện tử và các dịch vụ công. . . . . . . . . . . . . . . . . . . 17
1.2. Dữ liệu lớn (Big Data). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
1.2.1. Khái niệm dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .18
1.2.2. Phân loại dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 20
1.2.3. Định nghĩa về dữ liệu lớn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 22
1.2.4. Nguồn hình thành dữ liệu lớn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 23
1.3. Đặc trưng cơ bản của dữ liệu lớn (mô hình 5V). . . . . . . . . . . . . . . . 24
1.3.1. Kích thước (Volume). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .25
1.3.2. Tốc độ (Velocity). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .26
1.3.3. Đa dạng (Variety). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3.4. Độ tin cậy (Veracity). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 26
1.3.5. Giá trị (Value). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 27
1.4. Sơ lược về ngành khoa học dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4.1. Khái niệm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .28
1.4.2. Các nhánh của Khoa học dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 28
1.4.3. Lợi ích của Khoa học dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .32
1.4.4. Những thách thức các nhà khoa học dữ liệu phải đối mặt. . . . . . . . . . . . 33
1.5. Câu hỏi thảo luận Chương 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 34
CHƯƠNG 2. CÔNG NGHỆ CHO XỬ LÝ DỮ LIỆU LỚN. . . . . . . . . . . . 35
2.1. Tổng quan về công nghệ cho xử lý dữ liệu lớn. . . . . . . . . . . . . . . . . . 35
2.2. Công nghệ lưu trữ dữ liệu lớn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36 7
2.2.1. Thách thức lưu trữ dữ liệu lớn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 36
2.2.2. OLAP – Online Analytical Processing. . . . . . . . . . . . . . . . . . . . . . . . . . . 38
2.2.3. Cơ sở dữ liệu NoSQL. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .41
2.2.4. Kho dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .48
2.2.5. Hồ dữ liệu (Data lake). . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 52
2.3. Các hệ thống tính toán dữ liệu lớn. . . . . . . . . . . . . . . . . . . . . . . . . . . .55
2.3.1. Tổng quan về tính toán dữ liệu lớn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 55
2.3.2. Apache Hadoop. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 58
2.3.3. Apache Storm. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .62
2.3.4. Apache Spark. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 67
2.4. Câu hỏi thảo luận và bài tập Chương 2. . . . . . . . . . . . . . . . . . . . . . . 73
CHƯƠNG 3. PHÂN TÍCH DỮ LIỆU LỚN. . . . . . . . . . . . . . . . . . . . . . . . . .74
3.1. Giới thiệu về phân tích dữ liệu lớn. . . . . . . . . . . . . . . . . . . . . . . . . . . 74
3.1.1. Phân tích dữ liệu lớn và những thách thức. . . . . . . . . . . . . . . . . . . . . . . . 74
3.1.2. Các cấp độ phân tích dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 76
3.1.3. Quy trình phân tích dữ liệu lớn. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 79
3.2. Các kỹ thuật phân tích dữ liệu lớn. . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.2.1. Phân lớp dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 83
3.2.2. Phân cụm dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 92
3.2.3. Phát hiện luật kết hợp. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .98
3.2.4. Hồi quy. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .105
3.3. Một số công cụ phân tích dữ liệu lớn. . . . . . . . . . . . . . . . . . . . . . . . .106
3.3.1. Python. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 106
3.3.2. Lập trình R. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 108
3.3.3. Phần mềm Weka. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 110
3.3.4. RapidMiner. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 113
3.3.5. SPSS Modeler. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 114
3.3.6. Nền tảng tự động hóa quy trình phân tích Alteryx. . . . . . . . . . . . . . . . . 115
3.4. Câu hỏi thảo luận và bài tập Chương 3. . . . . . . . . . . . . . . . . . . . . . 116 8
CHƯƠNG 4. TRỰC QUAN HÓA DỮ LIỆU VÀ PHÂN TÍCH. . . . . . . . 117
4.1. Tổng quan về trực quan hóa dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . 117
4.1.1. Khái niệm trực quan hóa dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 117
4.1.2. Các nguyên tắc trực quan hóa dữ liệu. . . . . . . . . . . . . . . . . . . . . . . . . . . 118
4.1.3. Những dạng biểu đồ chính trong trực quan hóa dữ liệu. . . . . . . . . . . . . 119
4.2. Trực quan hóa và phân tích dữ liệu với Microsoft Excel. . . . . . . . 123
4.2.1. Giới thiệu về công cụ Microsoft Excel. . . . . . . . . . . . . . . . . . . . . . . . . . 123
4.2.2. Tầm quan trọng của Microsoft Excel. . . . . . . . . . . . . . . . . . . . . . . . . . . 124
4.2.3. Kỹ thuật xây dựng biểu đồ đơn giản trong Microsoft Excel. . . . . . . . . .124
4.2.4. Các kỹ thuật nâng cao với biểu đồ trong Excel. . . . . . . . . . . . . . . . . . . .127
4.2.5. Kỹ thuật tạo biểu đồ động. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 133
4.2.6. Kỹ thuật tạo Dashboard. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 141
4.3. Trực quan hóa và phân tích dữ liệu với Tableau. . . . . . . . . . . . . . .143
4.3.1. Giới thiệu về phần mềm Tableau. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .143
4.3.2. Các thành phần của Tableau Desktop. . . . . . . . . . . . . . . . . . . . . . . . . . . 144
4.3.3. Kết nối và chuẩn bị dữ liệu trong Tableau. . . . . . . . . . . . . . . . . . . . . . . 148
4.3.4. Cách vẽ các loại biểu đồ trong Tableau. . . . . . . . . . . . . . . . . . . . . . . . . 149
4.3.5. Một số tính năng nâng cao trong Tableau Desktop. . . . . . . . . . . . . . . . .169
4.3.6. Dashboard và Story trong Tableau Desktop. . . . . . . . . . . . . . . . . . . . . . 178
4.4. Câu hỏi thảo luận và bài tập Chương 4. . . . . . . . . . . . . . . . . . . . . . 182
CHƯƠNG 5. ỨNG DỤNG DỮ LIỆU LỚN TRONG KINH TẾ VÀ KINH
DOANH. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 183
5.1. Ứng dụng trong quản lý và điều hành của chính phủ. . . . . . . . . . .183
5.1.1. Tăng cường cung cấp dịch vụ công cho người dân và doanh nghiệp. . . 183
5.1.2. Hoạch định chính sách thông minh hơn. . . . . . . . . . . . . . . . . . . . . . . . . 185
5.1.3. Khám phá các xu hướng và hành vi của mọi công dân. . . . . . . . . . . . . .186
5.2. Ứng dụng trong lĩnh vực tài chính - ngân hàng. . . . . . . . . . . . . . . . 187
5.2.1. Giảm thiểu rủi ro cho hoạt động tài chính – ngân hàng. . . . . . . . . . . . . 187
5.2.2. Phân khúc khách hàng và thẩm định hồ sơ. . . . . . . . . . . . . . . . . . . . . . . 189 9
5.2.3. Phát triển sản phẩm và chăm sóc khách hàng. . . . . . . . . . . . . . . . . . . . . 190
5.2.4. Phân tích dự đoán theo thời gian thực hoạt động đầu tư tài chính. . . . . 191
5.3. Ứng dụng trong lĩnh vực thương mại và dịch vụ. . . . . . . . . . . . . . .192
5.3.1. Cá nhân hóa trải nghiệm khách hàng. . . . . . . . . . . . . . . . . . . . . . . . . . . .193
5.3.2. Dự đoán nhu cầu. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 194
5.3.3. Tối ưu hóa hiệu quả hoạt động. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 195
5.3.4. Phân tích hành trình khách hàng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 196
5.4. Ứng dụng trong lĩnh vực sản xuất và chuỗi cung ứng. . . . . . . . . . .197
5.4.1. Tối ưu hóa hiệu quả hoạt động. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 197
5.4.2. Tối ưu hóa chuỗi cung ứng. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 198
5.4.3. Tối ưu hóa quãng đường di chuyển và định tuyến hàng hóa. . . . . . . . . .199
5.5. Ứng dụng trong hoạt động truyền thông và marketing. . . . . . . . . 200
5.5.1. Thúc đẩy hoạt động marketing trên các nền tảng số. . . . . . . . . . . . . . . . 200
5.5.2. Phát triển quảng cáo cá nhân hóa. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . .202
5.5.3. Tối ưu hóa trải nghiệm người xem. . . . . . . . . . . . . . . . . . . . . . . . . . . . . 202
5.6. Câu hỏi thảo luận và bài tập Chương 5. . . . . . . . . . . . . . . . . . . . . . 205
TÀI LIỆU THAM KHẢO. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 206
PHỤ LỤC 1. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207
PHỤ LỤC 2. . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 211 10
CHƯƠNG 1. TỔNG QUAN VỀ DỮ LIỆU LỚN
1.1. Vai trò của dữ liệu trong đời sống
1.1.1. Nâng cao hiệu suất hoạt động
Thách thức trong việc xử lý những khối lượng rất lớn các dữ liệu thực chất đã
tồn tại từ khá lâu. Trong lịch sử của nhân loại, chúng ta đã sử dụng phương pháp chọn
mẫu ngẫu nhiên để sàng lọc thông tin, giữ lại mức tối thiểu vừa đủ để có thể khảo sát
được dễ dàng hơn. Lấy mẫu ngẫu nhiên làm giảm những vấn đề về sự phức tạp của dữ
liệu thành những dữ liệu nhỏ gọn và dễ quản lý hơn. Lấy mẫu ngẫu nhiên đã là một
thành công lớn và là xương sống của đo lường hiện đại có quy mô lớn. Nhưng nó chỉ
là một đường tắt, một lựa chọn tốt thứ 2 để thu thập và phân tích tập dữ liệu đầy đủ.
Lấy mẫu ngẫu nhiên thường đi kèm với điểm yếu cố hữu là độ chính xác của nó phụ
thuộc vào việc đảm bảo tính ngẫu nhiên, có thể dẫn đến các kết quả ngoại suy rất sai.
Tuy nhiên, ngày nay với sự phát triển của khoa học và công nghệ nên trong nhiều lĩnh
vực đang diễn ra một sự thay đổi trong cách thức xử lý số liệu. Các nghiên cứu có thể
chuyển từ thu thập một mẫu dữ liệu sang thu thập càng nhiều càng tốt và thậm chí có
thể thì lấy tất cả dữ liệu (lấy tất cả dữ liệu về tổng thể nghiên cứu).
Khi sử dụng tất cả dữ liệu có nghĩa là chúng ta có thể đi sâu vào đặc trưng của
tổng thể nghiên cứu mà việc chọn mẫu ngẫu nhiên không thể làm được điều đó. Vì
thế, dữ liệu được nghiên cứu toàn diện sẽ dần thay thế con đường tắt lấy mẫu ngẫu
nhiên. Tuy nhiên, để làm như vậy đòi hỏi con người phải có máy móc với sức mạnh
xử lý và lưu trữ đa dạng các cấu trúc dữ liệu cũng như các công cụ tiên tiến để phân
tích được tổng thể dữ liệu. Trong quá khứ, việc nghiên cứu một lượng lớn dữ liệu sẽ
là thách thức về cả công nghệ và giá cả nhưng hiện nay chi phí và độ phức tạp của tất
cả các vấn đề này đã giảm đáng kể. Những gì trước đây là phạm vi của chỉ các công
ty lớn nhất thì bây giờ lại khả thi cho hầu như tất cả các doanh nghiệp.
Sử dụng tất cả dữ liệu cho phép phát hiện các kết nối và chi tiết mà bình thường
sẽ bị che giấu trong sự bao la của thông tin. Ví dụ, việc phát hiện các gian lận thẻ tín
dụng hoạt động bằng cách tìm kiếm những bất thường và cách tốt nhất để tìm ra chúng
là xử lý tất cả các dữ liệu thay vì một phần. Các giá trị ngoại lai là những thông tin thú
vị nhất và chỉ có thể nhận ra chúng khi so sánh với hàng loạt giao dịch bình thường.
Vì với một lượng dữ liệu rất lớn dựa trên tất cả thông tin, hoặc nhiều thông tin
nhất có thể nên nó cho phép chúng ta nhìn vào các chi tiết hoặc thử nghiệm các phân
tích mới mà không ngại rủi ro bị mất chất lượng. Tuy nhiên nó đi kèm với hạn chế,
tăng khối lượng dữ liệu sẽ mở cánh cửa cho sự thiếu chính xác vì những số liệu sai sót 11
và bị hỏng đã luôn luôn len lỏi vào các bộ dữ liệu. Chúng ta đã luôn luôn xem chúng
như những rắc rối và cố gắng loại bỏ chúng. Những gì chúng ta chưa bao giờ muốn
làm là xem chúng như những điều không thể tránh khỏi và học cách sống chung với
chúng. Đây là một trong những thay đổi cơ bản khi chuyển từ dữ liệu nhỏ sang dữ liệu
lớn. Ví dụ, khi đo nhiệt độ trong một khu vườn, nếu chỉ có một cảm biến nhiệt độ cho
toàn bộ khu vườn, ta phải chắc chắn rằng nó chính xác và hoạt động tốt tại mọi thời
điểm. Ngược lại, nếu có hàng trăm cảm biến cho mỗi cây trong khu vườn, chúng ta có
thể sử dụng các cảm biến rẻ hơn, ít phức tạp hơn (miễn là chúng không phát sinh một
sai số có hệ thống). Rất có thể tại một thời điểm, một vài cảm biến sẽ báo dữ liệu không
chính xác, tạo ra một bộ dữ liệu ít chính xác hoặc hỗn độn hơn so với bộ dữ liệu từ
một cảm biến chính xác. Bất kỳ một dữ liệu sinh ra từ cảm biến cụ thể nào đó cũng
đều có thể không chính xác, nhưng tổng hợp của nhiều dữ liệu sẽ cung cấp một bức
tranh toàn diện hơn về nhiệt độ ở các vị trí khác nhau trong khu vườn. Bởi các bộ dữ
liệu này bao gồm nhiều điểm dữ liệu hơn, nó cung cấp giá trị lớn hơn nhiều và có thể
bù đắp cho sự hỗn độn của nó. Tất nhiên dữ liệu không được phép sai hoàn toàn, nhưng
chúng ta sẵn sàng hy sinh một chút trong sự chính xác để đổi lại hiểu biết về xu hướng
của chúng. Dữ liệu lớn biến đổi các con số thành một cái gì đó mang tính xác suất
nhiều hơn là tính chính xác.
Năm 2006, Google đã chính thức phát triển dự án trong lĩnh vực dịch thuật, thay
vì dịch các trang văn bản thành ngôn ngữ thứ hai. Google triển khai dự án với một bộ
dữ liệu lớn hơn nhưng cũng hỗn độn hơn nhiều với toàn bộ dữ liệu thu thập trên mạng
internet và hơn thế nữa. Hệ thống của Google đã thu lượm bất kể bản dịch nào có thể
tìm thấy để huấn luyện cho máy tính. Chúng bao gồm các trang web của các công ty
viết ở nhiều ngôn ngữ khác nhau, các bản dịch đồng nhất của các văn bản chính thức
và các báo cáo của các tổ chức liên chính phủ như Liên hợp quốc, Liên minh Châu
Âu,. . Thậm chí các bản dịch sách từ dự án sách của Google cũng được thu nhận. Bất
chấp sự hỗn độn của dữ liệu đầu vào, dịch vụ dịch thuật của Google hoạt động tốt nhất.
Các bản dịch của nó chính xác hơn so với của các hệ thống khác và nó phong phú hơn
rất nhiều. Vào giữa năm 2012, bộ dữ liệu của Google Translate đã bao gồm hơn 60
ngôn ngữ. Nó thậm chí có thể chấp nhận nhập văn bản vào bằng giọng nói trong 14
ngôn ngữ để dịch. Google Translate xử lý ngôn ngữ đơn giản như là dữ liệu hỗn độn
để đánh giá xác suất, nó thậm chí có thể dịch giữa các ngôn ngữ bất kỳ vì trong trường
hợp này tiếng Anh như một cầu nối cho việc dịch thuật đó. Như vậy, Google Translate
linh hoạt hơn rất nhiều so với những cách tiếp cận khác vì nó có thể thêm và bớt các
từ qua kinh nghiệm chúng được hay không được sử dụng. Lý do hệ thống dịch thuật
của Google Translate hoạt động tốt không phải vì hãng công nghệ này có một thuật
toán thông minh hơn. Google Translate hoạt động tốt bởi vì nó có nhiều dữ liệu hơn. 12
Việc sử dụng bộ dữ liệu lớn hơn cho phép nhưng bước tiến lớn trong xử lý ngôn ngữ
tự nhiên mà các hệ thống nhận dạng tiếng nói và dịch máy dựa vào.
Các thiết bị đeo tay của Apple sẽ thu thập dữ liệu thông tin của người sử dụng,
mục đích ban đầu là có được các số liệu thông báo với người dùng là họ đã có những
hoạt động gì (đi bộ, leo cầu thang, đi nhanh,. .), giúp người dùng có thể kiểm soát được
năng lượng tiêu thụ trong ngày, kiểm soát được thời gian nghỉ ngơi. Nhưng mục tiêu
cuối cùng đối với các nhà cung cấp thiết bị đeo tay thông minh là có thể thu thập được
dữ liệu của nhiều người nhất, tất nhiên là những dữ liệu có tính cá nhân, không vi phạm
nguyên tắc bảo mật và vi phạm quyền cá nhân. Với những dữ liệu đó, các công ty có
thể thực hiện phân tích với lượng dữ liệu lớn. Họ có thể phân tích những gì từ các hoạt
động, từ các bài tập thể dục của người dùng? Đó có thể là những cách tập thể dục phổ
biến, các xu hướng tập thể dục, các bài hát được sử dụng khi thực hiện các bài tập. Họ
xác định được ngày nào trong tuần sẽ có ít người tham gia các lớp luyện tập nhất, các
đối tượng tham gia thích hợp vào các khoảng thời gian nào để có thể tư vấn với người
dùng về chương trình tập luyện, hay đưa ra các chương trình khuyến mãi.
Trong lĩnh vực thể thao, nhiều đội tuyển còn theo dõi các vận động viên bên
ngoài của môi trường thể thao, như sử dụng công nghệ thông minh để theo dõi chế độ
dinh dưỡng và giấc ngủ, cũng như các cuộc hội thoại truyền thông xã hội để nhận biết
tâm tư, tình cảm. Chẳng hạn như tại World Cup năm 2014 diễn ra tại Brazil, đội tuyển
Đức có một chiến thuật hợp lý, vượt trội cho từng trận đấu với từng đối thủ cũng như
cho cả vòng loại? Bí mật này nằm ở công nghệ phân tích dữ liệu lớn mà đội tuyển Đức
áp dụng từ những năm 2012. Công nghệ này giúp phân tích từng cầu thủ đối phương,
đồng thời đưa ra giải pháp tối ưu cho từng cầu thủ trong đội tuyển Đức trước mỗi trận đấu.
Như vậy, với việc sử dụng một lượng dữ liệu rất lớn và thông qua các công cụ
phân tích dữ liệu giúp máy móc và thiết bị trở nên thông minh và độc lập hơn, tối ưu
hóa hiệu suất của máy móc. Sự phát triển của công nghệ đã làm máy tính nhanh hơn,
lưu trữ được nhiều hơn, đồng thời hiệu suất của các thuật toán điều khiển cũng tăng
với mức tăng còn nhanh hơn có mức tăng của năng lực xử lý của máy tính. Tuy nhiên,
nhiều lợi ích cho xã hội của chúng ta không phải vì các chip nhanh hơn hay vì các
thuật toán tốt hơn mà chỉ đơn giản là do có nhiều dữ liệu hơn.
1.1.2. Phát triển các mô hình kinh doanh mới
Trong lĩnh vực vận chuyển, hiện nay ít có công ty nào vượt mặt Uber (một công
ty công nghệ của Mỹ) về mức độ phủ sóng và nhận biết thương hiệu. Doanh nghiệp
này được xây dựng với nền móng vững chắc dựa trên dữ liệu. Việc Uber tận dụng dữ 13
liệu theo một cách hiệu quả hơn so với những công ty taxi truyền thống đã đóng một
vai trò to lớn trong thành công của mình. Toàn bộ mô hình kinh doanh của Uber là dựa
vào những quy tắc dữ liệu lớn từ nguồn lực cộng đồng (crowdsourcing) và bất kỳ ai
có một chiếc xe và sẵn lòng giúp đỡ người khác trong việc di chuyển có thể thực hiện
công việc này. Uber lưu trữ và giám sát dữ liệu trên từng chuyến đi của người dùng,
rồi sử dụng nó để xác định rõ nhu cầu, phân phối nguồn lực và định giá cước phí. Công
ty cũng thực hiện phân tích chuyên sâu về mạng lưới phương tiện di chuyển công cộng
trong những thành phố mà nó đang phục vụ để Uber có thể tập trung phủ sóng ở các
khu vực được phục vụ kém và cung cấp các liên kết đến hệ thống xe buýt và tàu lửa.
Uber cũng nắm giữ một cơ sở dữ liệu khổng lồ của các tài xế trong tất cả thành phố
mà nó đang cung cấp dịch vụ. Vì thế, khi có một hành khách yêu cầu một chuyến đi
thì Uber có thể lập tức kết nối bạn với tài xế phù hợp nhất. Có một sự khác biệt quan
trọng so với dịch vụ taxi thông thường, đó là khách hàng được tính cước phí dựa trên
thời gian của chuyến đi chứ không phải là khoảng cách đã đi. Công ty đã phát triển
một thuật toán để giám sát các điều kiện giao thông và thời gian chuyến đi ở thời gian
thực, nghĩa là giá cả có thể được điều chỉnh nếu như người đi xe thay đổi lộ trình và
khi điều kiện giao thông làm cho chuyến đi mất nhiều thời gian hơn. Điều này khuyến
khích nhiều tài xế tham gia vào việc vận chuyển hành khách khi họ thấy cần thiết và
nghỉ ngơi ở nhà khi nhu cầu đi lại ở mức thấp. Công ty cũng xin được cấp bằng sáng
chế về phương pháp định giá dựa vào dữ liệu này, được gọi là “surge pricing” (định
giá nhảy cóc – điều chỉnh giá cước dựa trên việc kết nối cung và cầu). Nó chính là một
hình thức nâng cao của “dynamic pricing” (định giá động). Các thức định giá này
tương tự như hình thức mà những chuỗi khách sạn và các hãng hàng không sử dụng
để điều chỉnh giá với mục đích đáp ứng được nhu cầu khách hàng – mặc dù chỉ đơn
giản là tăng giá dịch vụ vào cuối tuần hoặc trong suốt các kỳ nghỉ. Uber sử dụng mô
hình dự đoán để ước lượng nhu cầu theo thời gian thực.
Uber xử lý nhiều loại dữ liệu khác nhau, chẳng hạn như Uber tự động tính cước
phí bằng việc sử dụng GPS, dữ liệu giao thông và thuật toán của riêng công ty, có thể
tạo sự điều chỉnh dựa vào thời gian mà chuyến đi thường sẽ tiêu tốn. Công ty cũng
phân tích những dữ liệu bên ngoài như các tuyến phương tiện công cộng để lên kế
hoạch phục vụ. Uber không đơn độc trong việc sử dụng dữ liệu để cách mạng hóa
phương tiện vận chuyển, nó vẫn có những đối thủ cạnh tranh đưa ra các dịch vụ với
quy mô nhỏ hơn như DiDi (Trung Quốc), Grap (Singapore), Lyft (Bắc Mỹ), Hailo
(Châu Âu),. . Uber là một trong số các công ty thành công nhất trong việc sử dụng dữ
liệu lớn để cải thiện dịch vụ mà nó cung cấp cho khách hàng.
Sự xuất hiện của Uber còn đánh dấu một cột mốc liên quan đến nền kinh tế chia
sẻ (sharing economy), nó có lợi cho nền kinh tế, xét trên góc độ phân bổ và sử dụng 14
nguồn lực. Có thể nói đây là một tác động rất lớn của cuộc cách mạng công nghệ thông
tin viễn thông đến kinh tế.
1.1.3. Thấu hiểu khách hàng
Ngày nay, các doanh nghiệp đều mong muốn mở rộng tập hợp dữ liệu truyền
thống về khách hàng của mình bằng cách thu thập thêm các dữ liệu truyền thông xã
hội, trình duyệt web cũng như phân tích văn bản và dữ liệu cảm biến để có được một
bức tranh hoàn chỉnh hơn về khách hàng của họ. Trong nhiều trường hợp, mục tiêu
lớn hơn là để tạo ra mô hình dự báo nhằm phát triển các sản phẩm mới hay chăm sóc khách hàng tốt hơn.
Khách hàng mỗi khi mua hàng có quá nhiều dữ liệu phải xử lý khi quyết định
mua hàng, dù có vô số sự lựa chọn những với khách hàng thực sự không có nhiều kiến
thức và ý tưởng về tất cả sản phẩm đó, họ sẽ không biết đâu là lựa chọn tốt nhất cho
mình. Để giải quyết vấn đề này, Amazon (một công ty công nghệ và thương mại điện
tử hàng đầu thế giới có trụ sở tại Mỹ) đã ứng dụng dữ liệu lớn thu thập từ khách hàng
để phân tích, xây dựng và điều chỉnh công cụ đề xuất trên website của mình tinh tế và
chính xác hơn. Khi Amazon có nhiều thông tin về khách hàng, họ ngày càng có thể
đưa ra những dự đoán chính xác hơn những gì khách muốn mua. Amazon sẽ gợi ý cho
khách hàng các sản phẩm gần nhất với nhu cầu thực, thay vì khách hàng phải tự tìm
kiếm trong toàn bộ danh mục dài dằng dặc. Không chỉ dừng lại ở các cú click chuột
bạn lựa chọn, Amazon còn có thể thu thập dữ liệu dựa trên thời gian mà khách hàng
tiềm năng của họ dừng lại ở các trình duyệt khác nhau khi truy cập website bán hàng
của Amazon. Ngoài ra, Amazon cũng sử dụng các bộ dữ liệu bên ngoài, chẳng hạn
như dữ liệu điều tra dân số để thu thập các chi tiết nhân khẩu học.
Các doanh nghiệp trong lĩnh vực thương mại – dịch vụ khác khác như Walmart,
Target,… có thể tối ưu hóa giá cả và lượng hàng hóa của họ dựa trên các dự đoán được
tạo ra từ dữ liệu phương tiện truyền thông xã hội, xu hướng tìm kiếm web và dự báo
thời tiết. Một quy trình kinh doanh với rất nhiều phân tích dữ liệu lớn là chuỗi cung
ứng hoặc cung cấp lộ trình tối ưu hóa. Ở đây, cảm biến nhận dạng tần số vô tuyến định
vị và địa lý được sử dụng để theo dõi hàng hóa, phương tiện giao hàng và các tuyến
đường tối ưu bằng cách tích hợp dữ liệu giao thông trực tiếp.
Như vậy, dữ liệu lớn hỗ trợ việc hình thành một hệ thống chăm sóc khách hàng
linh hoạt, tạo giá trị hữu hình trong xây dựng mối liên với khách hàng và chăm sóc
khách hàng. Bên cạnh đó, hệ thống chatbot còn có vai trò cung cấp tính năng thu thập
dữ liệu khách hàng từ các đoạn đối thoại, sau đó, dữ liệu được phân tích để nắm bắt
nhu cầu mong muốn của khách hàng để có thể đưa ra các phản hồi phù hợp, làm thỏa 15
mãn nhu cầu của khách hàng, hình thành và xây dựng mối liên hệ với khách hàng, giữ chân khách hàng.
1.1.4. Cải thiện và chăm sóc sức khỏe
Bây giờ con người sống lâu hơn, các mô hình điều trị đã thay đổi và nhiều thay
đổi này được thúc đẩy bởi dữ liệu. Các bác sĩ muốn hiểu càng nhiều càng tốt về bệnh
nhân và càng sớm nhận ra các dấu hiệu cảnh báo của bệnh nghiêm trọng khi nó phát
sinh. Điều trị bất kỳ bệnh nào ở giai đoạn đầu sẽ đơn giản hơn và ít tốn kém hơn. Bằng
cách sử dụng các chỉ số hiệu suất chính trong phân tích dữ liệu chăm sóc sức khỏe và
quản lý để vẽ ra bức tranh toàn diện về bệnh nhân sẽ cho phép bảo hiểm cung cấp gói
dịch vụ phù hợp. Đây là nỗ lực của ngành nhằm giải quyết các vấn đề khó khăn về dữ liệu của bệnh nhân.
Trong nhiều năm, việc thu thập một lượng lớn dữ liệu cho mục đích y tế rất tốn
kém và mất thời gian. Với công nghệ luôn cải tiến ngày nay, việc thu thập dữ liệu đó
trở nên dễ dàng hơn, tạo báo cáo chăm sóc sức khỏe toàn diện và chuyển đổi chúng
thành những thông tin chi tiết quan trọng có liên quan, sau đó có thể sử dụng để cung
cấp dịch vụ chăm sóc tốt hơn. Đây là mục đích của phân tích dữ liệu y tế: sử dụng các
phát hiện dựa trên dữ liệu để dự đoán và giải quyết vấn đề trước khi quá muộn, nhưng
cũng đánh giá các phương pháp điều trị nhanh hơn, theo dõi tốt hơn hàng tồn kho, thu
hút bệnh nhân nhiều hơn trong sức khỏe của họ và trao quyền cho họ với các công cụ để làm như vậy.
Khả năng tính toán, phân tích dữ liệu lớn cho phép chúng ta giải mã toàn bộ chuỗi
DNA trong vài phút và tìm ra những phương pháp chữa trị mới, nhằm hiểu rõ hơn
cũng như dự đoán mô hình bệnh. Hãy nghĩ về điều gì sẽ xảy ra khi tất cả các dữ liệu
cá nhân, từ đồng hồ thông minh và các thiết bị đeo, có thể được sử dụng để áp dụng
cho hàng triệu người và các căn bệnh khác nhau của họ. Các thử nghiệm lâm sàng
trong tương lai sẽ không bị giới hạn bởi kích thước mẫu nhỏ mà sẽ có khả năng bao
quát tất cả mọi người.
Với việc sử dụng hồ sơ sức khỏe điện tử trong ngành y tế, mỗi bệnh nhân đều có
hồ sơ kỹ thuật số của riêng mình, bao gồm nhân khẩu học, lịch sử bệnh, dị ứng, kết
quả xét nghiệm trong phòng thí nghiệm,. . Hồ sơ được chia sẻ qua hệ thống thông tin
an toàn và có sẵn cho các nhà cung cấp từ cả khu vực công và tư nhân. Mọi hồ sơ đều
bao gồm một tệp có thể sửa đổi, có nghĩa là bác sĩ có thể thực hiện các thay đổi theo
thời gian mà không cần thủ tục giấy tờ và không có nguy cơ sao chép dữ liệu. Hồ sơ
sức khỏe điện tử cũng có thể kích hoạt cảnh báo và nhắc nhở khi bệnh nhân nên làm 16
xét nghiệm mới trong phòng thí nghiệm hoặc theo dõi các đơn thuốc để xem liệu bệnh
nhân có tuân theo chỉ định của bác sĩ hay không.
Việc sử dụng một lượng lớn dữ liệu trong chăm sóc sức khỏe cho phép lập kế
hoạch chiến lược nhờ hiểu rõ hơn về đặc điểm cơ thể và hoạt động của mỗi người.
Người quản lý chăm sóc có thể phân tích kết quả kiểm tra giữa những người thuộc các
nhóm nhân khẩu học khác nhau và xác định những yếu tố nào không khuyến khích
mọi người tiếp tục điều trị. Hơn nữa, thông qua việc phân tích dữ liệu lớn về các ca
bệnh cho phép chúng ta theo dõi, dự đoán sự phát triển của dịch bệnh và sự bùng phát dịch bệnh.
1.1.5. Phát triển chính phủ điện tử và các dịch vụ công
Trong một thời gian dài, các quốc gia trên thế giới đã cố gắng sử dụng công nghệ
thông tin trong Chính phủ theo nhiều cách khác nhau để đạt được mục tiêu phát triển
chính phủ minh bạch, có trách nhiệm; truy cập thuận tiện vào các dịch vụ trực tuyến
của chính phủ; tăng cường dân chủ; giảm chi phí dịch vụ hành chính và cuối cùng tăng
cường điều kiện sống của người dân. Chính phủ điện tử có thể sử dụng dữ liệu lớn để
khám phá các xu hướng và hành vi của mọi người trên mạng xã hội để chính phủ có
thể cung cấp dịch vụ tốt hơn, hiệu lực, hiệu quả hơn. Dữ liệu lớn giúp chính phủ hiểu
hơn về thói quen và sở thích của người dân với sự trợ giúp của các ứng dụng trong
mạng di động và mạng xã hội dựa trên việc duyệt web, nhấp chuột, tìm kiếm, lịch sử
mua hàng, đặt phòng. . Với những khả năng này, Chính phủ có thể hiểu thói quen, sở
thích của người dân, có thể giúp dự đoán những gì người dân muốn và cung cấp các
chương trình và tuyên truyền thích hợp đáp ứng nhu cầu và mối quan tâm của họ. Như
vậy, dữ liệu lớn giúp Chính phủ xây dựng chính phủ thông minh bằng cách cung cấp
các dịch vụ nhanh hơn, hiệu quả và đáng tin cậy cho người dân. Hướng tới việc nâng
cao các dịch vụ chính phủ điện tử và tăng cường hiệu lực, hiệu quả, các giá trị gia tăng
của dữ liệu lớn được khám phá trong phân tích nghiệp vụ.
Một số lợi ích của việc sử dụng dữ liệu lớn trong Chính phủ điện tử và Chính
quyền điện tử bao gồm: cung cấp và tích hợp hiệu quả tài nguyên của dữ liệu lớn; tích
hợp dữ liệu có giá trị với các quy trình ra quyết định nhằm đưa ra các chính sách hiệu
quả hơn, khả thi hơn; nâng cao chất lượng cuộc sống; kiểm soát việc sử dụng tài
nguyên Chính phủ điện tử hiệu quả; tăng hiệu quả xử lý giao dịch; tăng mức độ minh
bạch của Chính phủ và Chính quyền các địa phương tại mỗi quốc gia. 17
1.2. Dữ liệu lớn (Big Data)
1.2.1. Khái niệm dữ liệu
Kể từ khi phát minh ra máy tính, con người đã sử dụng thuật ngữ dữ liệu để chỉ
thông tin máy tính và thông tin này được truyền đi hoặc lưu trữ. Nhưng đó không phải
là định nghĩa dữ liệu duy nhất; cũng tồn tại các loại dữ liệu khác. Vậy, dữ liệu là gì?
Dữ liệu có thể là văn bản hoặc số được viết trên giấy tờ, hoặc nó có thể là byte và bit
bên trong bộ nhớ của các thiết bị điện tử, hoặc nó có thể là các dữ kiện được lưu trữ
bên trong tâm trí của một người.
Theo wikipedia, khái niệm dữ liệu là chuỗi bất kỳ của một hoặc nhiều ký tự có ý
nghĩa thông qua việc giải thích một hành động cụ thể nào.
Theo một cách hiểu khác thì: Dữ liệu biểu diễn số lượng, tính chất hoặc ký hiệu
hoạt động được máy tính lưu trữ trên ổ cứng từ, đĩa quang và được truyền đi dưới dạng tín hiệu điện.
Dữ liệu cần phải được thông dịch để trở thành thông tin. Để dữ liệu thành thông
tin, cần xem xét một số nhân tố bao gồm người (hoặc vật) tạo ra dữ liệu và thông tin
được mong muốn từ dữ liệu đó. Thuật ngữ siêu dữ liệu chỉ các dữ liệu được dùng làm
dữ liệu tham khảo về một dữ liệu khác. Siêu dữ liệu có thể được ngầm hiểu, được chỉ
định hoặc cho trước. Dữ liệu liên quan đến sự kiện hoặc quy trình vật lý thường có
nhân tố thời gian. Trong hầu hết các trường hợp, nhân tố thời gian được ngầm hiểu. Ví
dụ như máy ghi nhiệt độ nhận được dữ liệu từ cảm biến nhiệt độ. Khi nhận được nhiệt
độ, dữ liệu được ngầm định có tham chiếu thời gian là lúc "bấy giờ". Vì vậy, thiết bị
ghi lại cả ngày tháng, thời gian và nhiệt độ. Khi máy ghi dữ liệu báo cáo nhiệt độ, nó
cũng phải xuất ra ngày và giờ (chính là siêu dữ liệu) cho từng mốc nhiệt độ.
Thông tin chính là sự thông báo, trao đổi, giải thích về một đối tượng nào đó và
thường được thể hiện dưới dạng các tín hiệu như chữ viết, âm thanh, dòng điện,…Nói
một cách khái quát, thông tin chính là sự hiểu biết của con người về một thực thể nào
đó, có thể thu nhập, lưu trữ và xử lý được. Thông tin sẽ được liên kết với dữ liệu vì dữ
liệu đại diện cho các giá trị được quy cho các tham số và thông tin là dữ liệu theo ngữ
cảnh và có ý nghĩa kèm theo. Thông tin cũng liên quan đến kiến thức bởi kiến thức
biểu thị sự hiểu biết về một khái niệm trừu tượng hoặc cụ thể.
Thông tin có thể được mã hóa thành nhiều dạng khác nhau để truyền và giải thích,
nó cũng có thể được mã hóa để lưu trữ và liên lạc an toàn. 18
Bảng 1.1. Bội số của Byte theo hệ nhị phân Tên Bội số Byte Ký hiệu Kibibyte 210 KiB Mebibyte 220 MiB Gibibyte 230 GiB Tebibyte 240 TiB Pebibyte 250 PiB Exbibyte 260 EiB Zebibyte 270 ZiB Yobibyte 280 YiB
Đơn vị cơ bản đo dữ liệu được lưu trữ trên các thiết bị như ổ cứng, USB, thẻ nhớ,
RAM,… chính là bit (là viết tắt của Binary Digit). Bit là thuật ngữ chỉ phần nhỏ nhất
của bộ nhớ máy tính có thể lưu trữ một trong hai trạng thái thông tin là 0 hoặc 1 (có
thể hiểu là trạng thái bật hoặc tắt của bóng bán dẫn trong máy tính). Ngoài đơn vị trên,
byte cũng được coi là một đơn vị đo của dữ liệu. Trong đại đa số các máy tính hiện
đại, byte có 8 bit. Tuy nhiên, không phải máy nào đều cũng dùng byte có 8 bit. Một số
máy tính đời cũ đã dùng 6, 7, hay 9 bit trong một byte - một thí dụ là trong cấu trúc 36
bit của bộ máy PDP-10. Một ví dụ khác là đơn vị slab của bộ máy NCR-315. Một byte
luôn luôn không chia rời được, nó là đơn vị nhỏ nhất có thể truy nhập được. Một byte
8 bit có thể biểu thị được 256 giá trị khác nhau (28 = 256) đủ để lưu trữ một số nguyên
không dấu từ 0 đến 255, hay một số có dấu từ -128 đến 127, hay một ký tự dùng mã 7 bit (như ASCII) hay 8 bit.
Bảng 1.2 Bội số của Byte theo hệ thập phân Tên Bội số Byte Ký hiệu Kilobyte 103 KB Megabyte 106 MB Gigabyte 109 GB Terabyte 1012 TB Petabyte 1015 PB Exabyte 1018 EB Zettabyte 1021 ZB Yottabyte 1024 YB Brontobyte 1027 BB 19
1.2.2. Phân loại dữ liệu
Dữ liệu được chia làm 3 loại chính là dữ liệu có cấu trúc (structured data), dữ
liệu không có cấu trúc (unstructured data) và dữ liệu bán cấu trúc (semi-structured data).
Dữ liệu Có cấu trúc
Đây là loại dữ liệu dễ dàng tìm kiếm và sắp xếp nhất, vì nó thường được hàm
chứa trong các cột và hàng, và các thành phần của chúng có thể được liên kết bằng
những trường được định sẵn từ trước. Hãy nghĩ về những dữ liệu bạn có thể lưu trữ
trong một tệp Excel và chúng ta sẽ thấy ngay được ví dụ về dữ liệu có cấu trúc. Dữ
liệu có cấu trúc có thể bám theo một mô hình dữ liệu mà người thiết kế cơ sở dữ liệu
(CSDL) tạo ra — ví dụ như các bản thống kê bán hàng theo vùng miền, xếp theo loại
mặt hàng hoặc theo khách hàng. Đối với dữ liệu có cấu trúc, các hạng mục có thể được
nhóm lại để tạo thành các mối liên hệ với nhau (các ‘khách hàng’ cùng có phản hồi
‘thỏa mãn’ về dịch vụ chẳng hạn). Những điều này sẽ giúp dữ liệu có cấu trúc dễ dàng
được lưu trữ, phân tích, tìm kiếm, và trở thành loại dữ liệu dễ sử dụng nhất cho doanh
nghiệp trong thời gian gần đây. Ngày nay, phần lớn những loại dữ liệu được cho là có
cấu trúc chỉ chiếm ít hơn 20% tổng số dữ liệu thu được.
Thông thường, dữ liệu có cấu trúc được quản lý bằng ngôn ngữ truy vấn có cấu
trúc (Structured Query Language - SQL), một loại ngôn ngữ lập trình được phát triển
bởi IBM từ những năm 1970 dành cho các hệ quản trị cơ sở dữ liệu quan hệ (Relational
Database Management System - RDBMS).
Dữ liệu có cấu trúc được tạo ra bởi máy móc và con người. Chẳng hạn dữ liệu
tài chính của các giao dịch tại một ngân hàng bao gồm chi tiết địa chỉ, thông tin nhân
khẩu, đánh giá của người dùng, các bản ghi chú của máy, dữ liệu địa điểm từ các thiết bị thông minh, …
Dữ liệu phi cấu trúc
Một phần rất lớn (khoảng 80%) của tất cả dữ liệu trên thế giới này là dữ liệu phi
cấu trúc. Loại dữ liệu này là loại không thể chứa trong cơ sở dữ liệu dạng hàng và cột
và nó cũng không có mô hình dữ liệu nào liên quan. Ví dụ như dữ liệu trên một bài
viết trên một website bao gồm cả các đoạn ký tự, các hình ảnh, các video clip hay thậm
chí bao gồm cả các biểu tượng cảm xúc. Sự thiếu hụt về cấu trúc đã khiến dữ liệu phi
cấu trúc trở nên khó tìm kiếm, quản lý và phân tích nên trước đây người ta hay bỏ qua
dạng dữ liệu này. Tuy nhiên, gần đây khi sự ra đời của trí tuệ nhân tạo và các thuật
toán máy tự học khiến cho quá trình này trở nên dễ hơn đôi chút. 20