Đề tài: Big Data và ứng dụng trong ngành tài chính ngân hàng | Năng lực số ứng dụng

Đề tài: Big Data và ứng dụng trong ngành tài chính ngân hàng | Năng lực số ứng dụng với những kiến thức và thông tin bổ ích giúp sinh viên tham khảo, ôn luyện và phục vụ nhu cầu học tập của mình cụ thể là có định hướng, ôn tập, nắm vững kiến thức môn học và làm bài tốt trong những bài kiểm tra, bài tiểu luận, bài tập kết thúc học phần. Mời bạn đọc đón xem!

HàC VI N NGÂN HÀNG Þ
KHOA TÀI CHÍNH
----------
BÀI T P L¾ àN MÔN NĂNG LĀC S NG D NG þ
Đề tài: <Big Data và ng d ng trong ngành tài chính ā
ngân hàng=
GiÁng viên h°ớng dn
: Cô Nguy n Th Yß ến
Sinh viên th c hi n á
: Hoàng B o NgÁ c
Lp
: K24TCB
TP Hà N i, Tháng 2 năm 2022
HàC VI N NGÂN HÀNG Þ
BÀI T N ¾P Là
MÔN NĂNG LĀC S NG DþNG
Đề tài: <Big Data và ng d ng trong ngành tài chính ā
ngân hàng=
GiÁng viên h°ớng dn
: Cô Nguy n Th Yß ến
Sinh viên th c hi n á
: Hoàng B o NgÁ c
Lp
: K24TCB
TP Hà N i, Tháng 2 năm 2022
MþC L C þ
CH¯¡NG 1. Má đầu ....................................................................................................... 1
1.1 Lý do ch tài .................................................................................................... 1 ọn đề
1.2 Tính c p thi t c tài .......................................................................................... 2 ế ÿa đề
1.3 M u .............................................................................................. 2 ục đích nghiên cā
1.4 Ph°¢ng pháp nghiên cāu ........................................................................................ 3
Ch°¢ng 2. Tìm hiu v công nghá Big Data ................................................................... 4
2.1 T ng quan v d li u l n (Big Data) ...................................................................... 4 á
2.1.1 Khái ni m d li u l n ....................................................................................... 4 á á
2.1.2 Ngu n hình thành d li li u l n .................... 4 áu và ph°¢ng pháp khai thác dữ á
2.1.3 Quy trình x lý d li u l n ............................................................................... 4 á
2.1.4 Phân lo i ........................................................................................................... 5 ¿
Dữ liáu Big data có thể chia thành 3 lo¿i theo hình thāc nh° sau: ............................... 5
2.1.5 Đặc tính d liáu ln .......................................................................................... 5
2.1.6 S khác bi t gi a d li u l n và d li u truy n th ng ..................................... 6 á á á
2.1.7 L i ích d li u l n ............................................................................................ 6 á
2.1.8 Nh ng thách th c Big Data mang l i ............................................................... 8 ā ¿
2.2 Gi i thi u v công ngh trong Big Data ................................................................. 9 á á
2.2.1 Đián toán đám mây ........................................................................................... 9
2.2.2 H sinh thái Hadoop ....................................................................................... 12 á
Ch°¢ng 3. Āng dng d liáu ln trong các ho¿t động tài chính ngân hàng .................. 15
3.1 Phân tích các thói quen chi tiêu c a khách hàng .................................................. 15 ÿ
3.2 Phân khúc khách hàng và th nh h .......................................................... 15 ẩm đị s¢.
3.3 Bán chéo thêm các d ch v khác........................................................................... 15
3.4 Nâng cao ch ng d ch v ................................................................................ 16 ất l°ợ
3.5 M ng cá nhân hóa. ..................................................................... 16 arketing theo h°ớ
3.6 T i cách th p d ch v n khách hàng ......................................... 16 hay đổ āc cung c đế
3.7 Phát hi n hành vi l o, vi ph m pháp lu t ................................. 17 án và ngăn chặ ừa đÁ ¿
3.8 Ki m soát r i ro, tuân th lu t pháp và minh b ch trong báo cáo tài chính ......... 17 ÿ ÿ ¿
3.9 Tham gia vào vi c ki u qu làm viá ểm soát đánh giá và nâng cao hiá Á ác nhân viên17
3.10 Th n trong ngành tài chính ngân hàng Vi t Nam .................................... 17 c tiß á á
CH¯¡NG 4. Kết lun và khuyến ngh .......................................................................... 22
4.1 Điều kián āng dng Big Data vào ho¿t động tín dng cÿa ngân hàng ................. 22
4.2 M t s h n ch còn t ng ................................................................................ 22 ¿ ế ồn đọ
4.3 Gi .................................................................................................... 23 Ái pháp đ°a ra
4.4 K t lu n ................................................................................................................. 24 ế
TÀI LI U THAM KH O .............................................................................................. 25 à À
1
CH¯¡NG 1. Mở đầu
1.1 Lý do ch tài ọn đề
Theo T¿p chí Kinh doanh Harvard, chỉ tính riêng tới năm 2012, đã có đến khoÁng
2,5 tỷ Gigabytes dữ liáu đ°ợc t¿o ra sau khoÁng 40 tháng, con số khổng lồ đó sẽ
tiếp tục tăng lên gấp đôi. Bên c¿nh tăng tr°áng về dung l°ợng và tốc độ, hình thāc l°u
trữ và các chÿng lo¿i dữ liáu cũng ngày càng đa d¿ng h¢n. Chúng không chỉ là các d¿ng
dữ liáu cấu trúc, giß phần lớn dữ liáu đ°ợc sinh ra tồn t¿i d°ới d¿ng phi cấu
trúc, nh° các tin nhắn, cập nhật, tin nhắn tho¿i trên m¿ng xã hội hay th° đián tử.
T¿i Viát Nam, tính đến tháng 01/2020, có khoÁng 68 triáu ng°ßi (khoÁng 70% dân
số) dùng internet, 65 triáu ng°ßi (67% dân số) dùng m¿ng hội 146 triáu l°ợt kết
nối đián tho¿i (khoÁng 150% dân số) (theo We are Social, 2020, <Digital 2020 global
digital yearbook=), mọi thông tin về ng°ßi dùng internet đều đ°ợc l°u giữ l¿i thành dữ
liáu theo đ¢n vị bit. Báo cáo này cũng nhận định, sự gia tăng cÿa nguồn dữ liáu này hoàn
toàn có thể làm rung chuyển ngành dịch vụ TC NH theo h°ớng tích cực h¢n khi dữ liáu -
đ°ợc thu thập, phân tích, giÁi thích liên quan đến xu h°ớng tài chính, từ đó vẽ nên một
bāc tranh chi tiết về xu h°ớng tiêu dùng và điều mà khách hàng đang tìm kiếm.
Là một tổ chāc cung āng dịch vụ tài chính cho hầu hết các chÿ thể trong nền kinh
tế, ngành Ngân hàng không thể đāng ngoài xu thế āng dụng dữ liáu lớn giống nh° các
doanh nghiáp khác. Đặc thù cÿa ho¿t động ngân hàng (c¢ sá khách hàng rộng lớn, bao
quát mọi mặt tài chính cÿa nền kinh tế) cho phép mỗi ngân hàng xây dựng một c¢ sá dữ
liáu khổng lồ, từ dữ liáu có cấu trúc (nh° lịch sử giao dịch, hồ s¢ khách hàng) tới những
dữ liáu phi cấu trúc (nh° ho¿t động cÿa khách hàng trên website, āng dụng mobile
banking hay trên m¿ng xã hội). Āng dụng Big Data nếu đ°ợc khai thác hiáu quÁ sẽ đem
l¿i những lợi thế c¿nh tranh hiáu quÁ to lớn trong lĩnh vực ngân hàng đặc biát trong
bối cÁnh thị tr°ßng dịch vụ tài chính đang bão hòa. Tuy nhiên, viác āng dụng dữ liáu lớn
t¿i các ngân hàng th°¢ng m¿i còn h¿n chế, do nhiều nguyên nhân khác nhau. Điều này
làm cho viác má rộng, nâng cao chất l°ợng ho¿t động tín dụng cÿa ngân hàng gặp c¢ số
khó khăn. Từ thực tế đó, em chọn đề tài <þng dụng dữ liệu lớn trong ngành tài chính
ngân hàng= để phân tích những h¿n chế trong āng dụng dữ liáu lớn vào ho¿t động tín
dụng t¿i các ngân hàng th°¢ng m¿i Viát Nam đ°a ra một số khuyến nghị nhằm đẩy
m¿nh āng dụng công nghá này trong t°¢ng lai.
2
1.2 Tính c p thi t c tài ế ÿa đề
Dữ liáu nói chung đã trá thành một phần không thể thiếu trong ho¿t động sÁn xuất
kinh doanh cÿa các doanh nghiáp trong nền kinh tế, nhất trong thßi đ¿i toàn cầu hóa
nh° hián nay. Dữ liáu đang á trong giai đo¿n bùng nổ. Các doanh nghiáp th°ßng l°u trữ
hàng nghìn tỷ byte thông tin về khách hàng, nhà cung cấp, các ho¿t động và hàng triáu
các thiết bị kết nối m¿ng đang đ°ợc sử dụng trong các thiết bị nh° đián tho¿i di động,
thiết bị giám sát hành trình xe ô tô... Các thông tin đa ph°¢ng tián, đặc biát là viác truy
cập m¿ng xã hội từ ng°ßi tiêu dùng tiếp tục thúc đẩy tăng tr°áng theo cấp số nhân. Một
l°ợng lớn dữ liáu cần đ°ợc nắm bắt, truyền đ¿t, tổng hợp, l°u trữ, phân tích một phần -
quan trọng cho mỗi doanh nghiáp trong nền kinh tế toàn cầu. Cũng giống nh° các yếu tố
cần thiết khác cÿa doanh nghiáp nh° tài sÁn hay con ng°ßi, dữ liáu có vai trò không thể
thiếu trong thßi đ¿i nền kinh tế ngày càng phát triển và yêu cầu khắt khe về năng lực cÿa
mỗi doanh nghiáp để c¿nh tranh tồn t¿i. Câu hỏi đặt ra ý nghĩa cÿa xu h°ớng gia
tăng trên là gì? Liáu đó có đ¢n giÁn là sự gia tăng cÿa dữ liáu nh° là một xu thế cÿa thế
giới? Hay dữ liáu lớn đang đóng một vai trò quan trọng trong nền kinh tế? Doanh nghiáp
cần phÁi làm gì tr°ớc thßi đ¿i cÿa dữ liáu lớn để theo kịp xu h°ớng, quan trọng h¢n
hết là gia tăng doanh thu lợi nhuận, cÁi thián và phát huy tình hình sÁn xuất kinh doanh
cÿa chính doanh nghiáp mình, từ đó đóng góp một phần cho sự phát triển chung cÿa đất
n°ớc và xã hội. Thuật ngữ Big Data (dữ liáu lớn) đang dần trá nên phổ biến trên thế giới
trong những năm gần đây, dùng để chỉ một giÁi pháp phân tích dữ liáu có số l°ợng lớn,
đa d¿ng, phāc t¿p với tốc độ xử cao. Āng dụng dữ liáu lớn giúp doanh nghiáp tìm hiểu
đ°ợc giá trị thông tin thực sự nằm sau dữ liáu sẵn có, đặc biát trong một xã hội toàn cầu
hóa thế giới số nh° hián nay, từ đó nghiên cāu đ°ợc thích, thói quen cÿa khách
hàng.
1.3 M u ục đích nghiên cā
Tận dụng công nghá kỹ thuật số giß đã trá thành yếu tố quyết định khÁ năng c¿nh
tranh cÿa các doanh nghiáp. Một mặt, khÁ năng giÁm chi phí kinh doanh, mặt
khác, t¿o nên một cuộc cách m¿ng đổi mới công nghá. Trong đó āng dụng dữ liáu
lớn có thể nâng cao chất l°ợng ho¿t động tín dụng cÿa ngân hàng, nhận thāc đ°ợc tầm
quan trọng đó nên em mong muốn đ°ợc nghiên cāu về đề tài để giúp bÁn thân mọi
ng°ßi cái nhìn tổng quan chi tiết h¢n về dữ liáu lớn các āng dụng cÿa đối
với ngành ngân hàng. Báo cáo này nhằm há thống những vấn đề c¢ bÁn về Dữ liáu lớn,
trên c¢ đó phân tích những āng dụng cÿa Dữ liáu lớn và các điều kián nhằm āng dụng
Dữ liáu lớn á lĩnh vực ngân hàng trong bối cÁnh cách m¿ng công nghá 4.0 đồng thßi
đánh giá °u điểm cũng nh° những thách thāc khi āng dụng dữ liáu lớn trong ngân hàng.
Từ đó đ°a ra c khuyến nghị nhằm trong t°¢ng lai các ngân hàng á Viát Nam thể
nâng cao năng lực c¿nh tranh, cÁi thián lợi nhuận h¢n nữa với sự chuẩn bị chu đáo cho
xu thế này.
3
1.4 Ph°¢ng pháp nghiên cāu
Để hiu rõ và nắm đ°ợc ni dung vấn đề nêu trên, em đã áp dụng các ph°¢ng pháp
nghiên c u khoa h n, thu th p s liā ọc nh° ph°¢ng pháp luậ áu, ph°¢ng pháp phân tích và
tng h phân tích nh ng h n ch trong ng d ng d li u l n vào ho ng tín ợp… để ¿ ế ā á ¿t độ
dng t i Vi t s¿i các ngân hàng th°¢ng m¿ át Nam đ°a ra mộ khuy n nghế nh y ằm đẩ
m¿nh ng dā ng công ngh á này trong t°¢ng lai.
4
Ch°¢ng 2. Tìm hiểu v công nghß Big Data
2.1 T ng quan v d li u l n (Big Data) á
2.1.1 Khái ni m d li u l n á á
Theo Gartner (2012) định nghĩa ối l°ợ ốc độd liáu ln kh ng ln, t cao lo¿i
hình thông tin r ng mà yêu c c x m ng ất đa d¿ ầu ph°¢ng thā ới để cho phép tăng c°ß
ra quy nh, khám phá bên trong và x lý t ết đị ối °u.
2.1.2 Ngu n hình thành d li li u l n áu và ph°¢ng pháp khai thác dữ á
Qua thống kê và tổng hợp, nguồn dữ liáu lớn đ°ợc hình thành từ viác sử dụng ngày
càng tăng các công cụ đián tử và há thống thông tin, do các tổ chāc nhân hình thành
trong đßi th°ßng d°ới những hình thāc khác nhau, bao gồm 6 nguồn dữ liáu chÿ yếu
sau: (1) Dữ liáu hành chính (phát sinh từ ch°¢ng trình cÿa một tổ chāc, có thể là chính
phÿ hay phi chính phÿ). dụ, hồ y tế đián tử á bánh vián, hồ bÁo hiểm, hồ
ngân hàng...; (2) Dữ liáu từ ho¿t động th°¢ng m¿i (phát sinh từ các giao dịch giữa hai
thực thể). Ví dụ, các giao dịch thẻ tín dụng, giao dịch trên m¿ng, bao gồm cÁ từ các thiết
bị di động; (3) Dữ liáu từ các thiết bị cÁm biến nh° thiết bị chụp hình Ánh tinh, cÁm
biến đ°ßng, cÁm biến khí hậu; (4) Dữ liáu từ các thiết bị theo dõi, ví dụ theo dõi dữ liáu
từ đián tho¿i di động, GPS; (5) Dữ liáu từ các hành vi, ví dụ nh° tìm kiếm trực tuyến về
(một sÁn phẩm, một dịch vụ hay thông tin khác), đọc các trang m¿ng trực tuyến...; (6)
Dữ liáu từ các thông tin về ý kiến, quan điểm cÿa các cá nhân, tổ chāc, trên các ph°¢ng
tián thông tin xã hội.
Ph°¢ng pháp khai thác quÁn lý dữ liáu lớn hián nay đ°ợc thiết kế phù hợp dựa
theo các nguồn hình thành dữ liáu lớn. Mỗi nguồn dữ liáu lớn khác nhau sẽ ph°¢ng
pháp khai thác quÁn dữ liáu lớn khác nhau. Tuy nhiên, hián nay phần lớn các tổ
chāc trên thế giới đều dùng Hadoop ecosystem là giÁi pháp tối °u để khai thác và quÁn
lý dữ liáu lớn.
2.1.3 Quy trình xử lý dữ liáu lớn
Big data đ°ợc xử thông qua 4 giai đo¿n: thu thập (acquire), tchāc (organize),
phân tích (analyze), quyết định (decide).
Đến nay, giai đoạn thu thập hầu hết đã có giÁi pháp. Đ¢n cử, Oracle đ°a ra NoSQL
Database, Google có Google BigTable…
5
Giai đoạn tổ chÿc: có thể l°u trữ dữ liáu á d¿ng phân tán, song song… nh°ng phổ
biến nhất vẫn là Hadoop/MapReduce.
Giai đoạn phân tích: với các dữ liáu truyền thống, các công ty lớn đều đã giÁi
pháp. Đ¢n cử, Oracle có Oracle Data warehousing, IBM có InfoSphere warehouse…
Giai đoạn quyết định: dựa vào các thông tin đ°ợc phân tích sẽ đ°a ra các quyết
định giÁi pháp kinh doanh kịp thßi.
2.1.4 Phân lo¿i
Dữ liáu Big data có thể chia thành 3 lo¿i theo hình thāc nh° sau:
- Dữ liáu cấu trúc (Structured): đây lo¿i dữ liáu phổ biến nhất hián nay t¿i các tổ
chāc.
- Dữ liáu không có cấu trúc (Unstructured):những dữ liáu không có khuôn mẫu hoặc cấu
trúc cố định Dụ Nh° dữ liáu từ các m¿ng hội nh° , Facebook,
Twitter, Instagram,... đều những nguồn dữ liáu không cấu trúc kết hợp từ văn
bÁn, Ánh, video...
- Dữ liáu bán cấu trúc (Semi structured): Dữ liáu kiểu bán cấu trúc có thể bao gồm tất cÁ -
các mẫu dữ liáu.Lo¿i dữ liáu này th°ßng đ°ợc thể hián trong tập tin ngôn ngữ đánh dấu
rộng (XML Extensible Markup Language),có chāc năng truyền dữ liáu -
nhiều lo¿i dữ liáu khác nhau.
2.1.5 Đặc tính dữ liáu lớn
Năm 2014, Gartner l¿i đ°a ra một khái niám mới về dữ liáu lớn qua mô hình <5Vs=
với năm tính chất quan trọng cÿa dữ liáu lớn:
Dữ liáu lớn có 5 đặc tr°ng c¢ bÁn nh° sau (mô hình 5V):
(1) Khối l°ợng dữ liáu (Volume) Đây đặc điểm tiêu biểu nhất cÿa dữ liáu lớn,
khối l°ợng dữ liáu rất lớn. Kích cỡ cÿa Big Data đang từng ngày tăng lên, tính đến
năm 2012 thì thể nằm trong khoÁng vài chục terabyte cho đến nhiều petabyte (1
petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liáu. Dữ liáu truyền thống có thể l°u
trữ trên các thiết bị đĩa mềm, đĩa cāng. Nh°ng với dữ liáu lớn chúng ta sẽ sử dụng công
nghá <đám mây= mới đáp āng khÁ năng l°u trữ đ°ợc dữ liáu lớn.
(2) Tốc độ (Velocity) Tốc độ có thể hiểu theo 2 khía c¿nh: (a) Khối l°ợng dữ liáu
gia tăng rất nhanh (mỗi giây có tới 72.9 triáu các yêu cầu truy cập tìm kiếm trên web bán
hàng cÿa Amazon); (b) Xửdữ liáu nhanh á c thßi gian thực (real time), nghĩa -
6
dữ liáu đ°ợc xử lý ngay tāc thßi ngay sau khi chúng phát sinh (tính đến bằng mili giây).
Các āng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân
sự, Y tế – Sāc khỏe nh° hián nay phần lớn dữ liáu lớn đ°ợc xử lý real time. Công nghá -
xử lý dữ liáu lớn ngày nay đã cho phép chúng ta xử lý tāc thì tr°ớc khi chúng đ°ợc l°u
trữ vào c¢ sá dữ liáu.
(3) Đa d¿ng (Variety) Đối với dữ liáu truyền thống chúng ta hay nói đến dữ liáu
cấu trúc, thì ngày nay h¢n 80% dữ liáu đ°ợc sinh ra là phi cấu trúc (tài liáu, blog, hình
Ánh, vi deo, bài hát, dữ liáu từ thiết bị cÁm biến vật lý, thiết bị chăm sóc sāc khỏe…).
Big Data cho phép liên kết phân tích nhiều d¿ng dữ liáu khác nhau. dụ, với các
bình luận cÿa một nhóm ng°ßi dùng nào đó trên Facebook với thông tin video đ°ợc chia
sẻ từ Youtube và Twitter.
(4) Độ tin cậy/chính xác (Veracity) Một trong những tính chất phāc t¿p nhất cÿa
Dữ liáu lớn là độ tin cậy/chính xác cÿa dữ liáu. Với xu h°ớng ph°¢ng tián truyền thông
xã hội (Social Media) m¿ng hội (Social Network) ngày nay sự gia tăng m¿nh
mẽ tính t°¢ng tác và chia sẻ cÿa ng°ßi dùng Mobile làm cho bāc tranh xác định về độ
tin cậy & chính xác cÿa dữ liáu ngày một khó khăn h¢n. Bài toán phân tích và lo¿i bỏ dữ
liáu thiếu chính xác và nhißu đang là tính chất quan trọng cÿa BigData.
(5) Giá trị (Value) Giá trị đặc điểm quan trọng nhất cÿa dữ liáu lớn, khi bắt
đầu triển khai xây dựng dữ liáu lớn thì viác đầu tiên chúng ta cần phÁi làm đó là xác định
đ°ợc giá trị cÿa thông tin mang l¿i nh° thế nào, khi đó chúng ta mới quyết định
nên triển khai dữ liáu lớn hay không. Nếu chúng ta có dữ liáu lớn mà chỉ nhận đ°ợc 1%
lợi ích từ nó, thì không nên đầu t° phát triển dữ liáu lớn. Kết quÁ dự báo chính xác thể
hián rõ nét nhất về giá trị cÿa dữ liáu lớn mang l¿i. Ví dụ, từ khối dữ liáu phát sinh trong
quá trình khám, chữa bánh sẽ giúp dự báo về sāc khỏe đ°ợc chính xác h¢n, sẽ giÁm đ°ợc
chi phí điều trị và các chi phí liên quan đến y tế.
2.1.6 Sự khác biát giữa ữ liáu lớn và dữ liáu truyền thốngD
D li u l n khác v i d li u truy n th ng (ví d , kho d li u - Data Warehouse) á á á á
4 điểm áu đa d¿ng h¢n; l°u trữ ớn h¢n; truy vấn nhanh h¢n; độn: D li d liáu l
chính xác cao h¢n.
2.1.7 L i ích D li u l n á
Theo EMC, công ty hàng đầu thế giới chuyên cung cấp giÁi pháp công nghá phục
vụ quÁn trị doanh nghiáp, Big Data mang l¿i một lo¿t lợi ích cho doanh nghiáp:
- Đối tho i v i khách hàng¿
7
GiÁ dụ: khi một ng°ßi b°ớc vào ngân hàng, các công cụ cÿa Big Data sẽ cho phép nhân
viên kiểm tra hcÿa ng°ßi đó ngay tāc khắc, giúp họ xác định sÁn phẩm hoặc dịch
vụ liên quan mà ng°ßi đó cần t° vấn. Big Data cũng đóng vai trò quan trọng trong viác
kết nối không gian bán hàng thực và kỹ thuật số: doanh nghiáp có thể kịp thßi cung cấp
dịch vụ qua m¿ng bị di động, dựa theo những nhu cầu cụ thể khách hàng đã chia sẻ trên
m¿ng xã hội.
- Tái c¢ cấu sÁn phm
D li u lá n giúp nhìn nh n s n ph m c a mình trên nhi Á ÿ ều ph°¢ng diáu khác nhau, t đó
điề u chnh sÁn phm hoc chiến l°ợc marketing cÿa doanh nghiáp cho phù hp. Các d
liáu phân tích n i dung chia s trên m ng xã h n n c tâm ¿ ội cũng giúp nhà quÁ ắm đ°ợ
t°, tình trí địm cÿa khách hàng, th phân lo¿i theo v a hoc theo các nhóm
nhân kh u h c khác nhau.
Đố i v i các nhà thiết kế sÁn xu nghiất, Big Data cũng cho phép thử ám hàng nghìn
phiên b n thi t k khác nhau trên máy tính ch trong giây lát, cho phép ki m tra nh ng Á ế ế
thay đổ ất, nh° sự Ánh h°ái nh nh ng cÿa vt liáu ti giá thành, thßi gian vn hành
hi t.áu su t. T u qu c a quá trình s n xu đó, giúp tăng tính hiá Á ÿ Á
- Phân tích r i roÿ
Thành công không ch ph thu u hành công ty. Các y u t xã h i ộc vào ph°¢ng thāc điề ế
kinh t ng ng quan tr ng. Nh ng phân tích mang tính dế cũng nhữ Ánh h°á đoán,
đ°ợc thc hián bái Big Data, cho phép nhà qu m qua phân tính nhÁn điể ng bÁn
báo cáo tin t c ho c b ng tin m ng xã h i, giúp h c p nh t liên t c nh ng di n bi n m i ā Á ¿ ß ế
trong ngành môi tr°ßng xung quanh. Bài kim tra chi tiết v các nhà cung cp hoc
khách hàng cũng là một tính năng v°ợt tr i c ÿa Big Data. giúp lãnh đ¿o doanh nghi p á
có th ng ngay khi m t trong s nhà cung c p ho c c hành độ khách hàng đang đāng tr°ớ
nguy c¢ phá sÁn.
- L°u trữ gi liáu an toàn
Nhà qu n lý có th yêu c u m t b d li u toàn di n cho c công ty v i các công c Á Án đồ á á Á
cÿa Big Data, t đó đánh giá những mối đe dọa ngay trong n i b , phát hi n nh ng thông á
tin nh y c m o v m nh l ¿ Á đang đ°ợc bÁ á ột cách s¢ sài, và tinh chỉ ¿i để l°u trữ chúng đúng
quy định.
- Ngun doanh thu mi
Nhng d li u b c t th á ¿n thu đ°ợ tr°ßng và khách hàng c a mình qua Big Data không ÿ
ch giá tr vi riêng doanh nghi o doanh nghi p th quy nh bán áp. Lãnh đ¿ á ết đị
chúng d°ớ i d¿ng táp thông tin tng quan cho nhng nhà kinh doanh l n cùng ngành, và
t¿o ra m t ngu n thu hoàn toàn m i.
- Tùy ch nh trang web t āc thßi
Phân tích c a Big Data giúp doanh nghi p tùy ch nh n i dung ho c thi t k trên trang ÿ á ế ế
web c a mình ngay l p tÿ āc để phù h p v i t ừng đối t°ợng khách hàng truy c p, d a theo
gii tính, qu c t ch ngu n h d°ợc d n trang web c a b n, v.v... ng d ng ph ẫn đế ÿ ¿ Ā
biến nh cung c p g d ng b lất để ợi ý cho khách hàng: nh° cách Amazon sử c k t ế
hp d a trên s n ph m c t o ch ng s n ph c mua Á ÿa mình để ¿ āc năng 8Nhữ Á ẩm hay đ°ợ
8
chung9 và 8Khách hàng mua sÁ ẩm này cũng th°áng mua9 cÿn ph a mình. S tht chāng
mình cách ti p c t hi u qu , b c 20% doanh thu c a mình ế ận đó rấ á Á ái Amazon đã tăng đ°ợ ÿ
nhß c này.ph°¢ng thā
- Xây d ng h th ng y t tân ti á ế ến
Chúng ta đang sống trong một thế giới mang tính nhân hóa rất cao, nh°ng thống
chăm sóc sāc khỏe l¿i một trong những lĩnh vực vẫn còn sử dụng ph°¢ng pháp tiếp
cận tổng quan. Khi một ng°ßi bị chẩn đoán ung th°, họ phÁi trÁi qua một đợt trị liáu nhất
định, và nếu nó không thành công, bác sĩ sẽ phÁi thử nghiám một ph°¢ng pháp điều trị
khác. Nh°ng, nếu bánh nhân ung th° đ°ợc uống thuốc đặc chế theo cấu t¿o gen cÿa
ng°ßi đó thì sao? Ph°¢ng pháp này chắc chắn sẽ dẫn đến một kết quÁ khÁ quan h¢n, với
chi phí thấp h¢n, khÁ năng thất b¿i thấp h¢n và giÁm thiểu nỗi lo sợ cÿa bánh nhân. Với
kỹ thuật lập bÁn đồ gen và công cụ cÿa Big Data, viác sá hữu một bÁn đồ gen cÿa riêng
mình trong hồ s¢ y tế sẽ sớm trá nên phổ biến. Điều này giúp y học tiến gần h¢n tới viác
xác định yếu tố di truyền gây bánh đặc chế ra lo¿i thuốc dành riêng cho những nguyên
nhân đó – hay nói cách khác là những lo¿i thuốc đ°ợc cá nhân hóa.
2.1.8 Nh ng thách th c Big Data mang l i ā ¿
- Truyền dữ liệu: viác truyền dữ liáu lớn th°ßng phÁi gánh chịu chi phí cao, đây là
<nút cổ chai= cÿa viác tính toán Big data. Tuy nhiên, truyền dữ liáu không thể tránh
khỏi trong các āng dụng Big data. Nâng cao hiáu quÁ truyền dữ liáu lớn một yếu tố
quan trọng để nâng cao tính toán Big data.
- Tốc độ xử lý trong các yêu cầu thời gian thực: khi dữ liáu số l°ợng dữ liáu tăng
nhanh chóng, gây ra một thách thāc rất lớn đối với các āng dụng thßi gian thực, thì viác
tìm ra các ph°¢ng pháp hiáu quÁ trong suốt luồng dữ liáu là cần thiết để đáp āng yêu cầu
về thßi gian thực.
- Nền tảng Big data: mặc dù Hadoop đã trá thành một trụ cột trong nền tÁng phân
tích Big data nh°ng nó vẫn còn trong giai đo¿n phát triển, so với c¢ sá dữ liáu quan há.
Đầu tiên, Hadoop phÁi tích hợp với thßi gian thực cho viác thu thập và truyền Big data,
và cung cấp xử lý nhanh h¢n dựa trên các mô hình xử lý hàng lo¿t. Thÿ hai, Hadoop nên
cung cấp một giao dián lập trình ngắn gọn, ẩn những tiến trình xử phāc t¿p bên
d°ới. Thÿ ba, trong những há thống Hadoop lớn, số l°ợng máy chÿ lên hàng ngàn, thậm
chí hàng trăm ngàn, nghĩa là năng l°ợng tiêu thụ đáng kể. vậy, Hadoop nên có c¢ chế
sử dụng năng l°ợng hiáu quÁ.
- Bảo mật dữ liệu và quyền riêng tư: vấn đrất quan trọng. Một sdụ trong
thực tế cho thấy, không chỉ thông tin cá nhân ng°ßi tiêu dùng, thông tin mật cÿa các tổ
chāc ngay các bí mật an ninh quốc gia cũng thể bị xâm ph¿m. Do vậy, giÁi
quyết các vấn đề an ninh dữ liáu bằng các công cụ kỹ thuật và các chính sách trá nên vô
cùng cấp bách. Các nền tÁng Big data nên cân bằng tốt giữa viác truy cập dữ liáu và xử
lý dữ liáu.
9
2.2 Gi i thi u v công ngh trong Big Data á á
Có rất nhiều công nghá để giÁi quyết vấn đề l°u trữ và xử lý Big Data. à đây, em
sẽ tìm hiểu tổng quan về công nghá đián toán đám mây và há sinh thái Hadoop - 2 công
nghá gắn bó mật thiết với Big Data
2.2.1 Đián toán đám mây
Đián toán đám mây đóng vai trò quan trọng trong thế giới Big Data, bằng cách
cung cấp sá h¿ tầng đ°ợc tối °u hóa rộng. Điều đó hỗ trợ trong viác thực tế
hóa Big Data.
2.2.1.1 Khái ni m á
Theo Vi n Tiêu chu n Công ngh M nh á á (NIST), đián toán đám mây đ°ợc đị
nghĩa nh° sau: "Đián toán đám mây hình d cho phép ng°ß ch v i truy cp tài
nguyên điá ¿ng, server, l°u trữn toán dùng chung (m , āng dng, dch v) thông qua kết
ni m ng m t cách d dàng, m i lúc, m¿ ß ọi n¢i, theo yêu cầu. Tài nguyên đián toán đám
mây th c thi t l p ho c h y b nhanh chóng b i dùng không c n s đ°ợ ế ÿ ái ng°ß
can thiáp c a Nhà cung c p d ch vÿ ".
2.2.1.2 Đặc điểm đián toán đám mây
Về c¢ bÁn thì cloud computing có 5 đặc điểm sau đây:
- KhÁ năng co dãn (Rapid elasticity): Tài nguyên có khÁ năng thay đổi tăng lên hay
giÁm đi tùy thuộc vào nhu cầu sử dụng cÿa khách hàng. Đối với khách hàng tài nguyên
trên đián toán đám mây luôn luôn sẵn sàng có thể coi không giới h¿n, thể truy
cập vào bất kỳ thßi điểm nào.
- -demand self-Dịch vụ theo nhu cầu (On service): Khách hàng thể đ°ợc cung
cấp tài nguyên d°ới d¿ng máy chÿ hay dung l°ợng l°u trữ,…một cách tự động theo yêu
cầu mà không cần phÁi có sự can thiáp từ phía nhà cung cấp dịch vụ.
- Không phụ thuộc vị trí (Location independent resource pooling): Khách hàng
không biết vị trí cÿa i nguyên đ°ợc cung cấp, tuy nhiên họ vẫn thể làm điều này
thông qua các dịch vụ nâng cao cÿa nhà cung cấp.
- Truy cập dß dàng (Broad network access): Chỉ cần 1 āng dụng kết nối internet từ
bất cā thiết bị nào nh° máy tính để bàn, laptop, thiết bị di động,…ng°ßi dùng có thể truy
cập tới tài nguyên đám mây.
- Điều tiết dịch vụ (Measured service): Tài nguyên sử dụng có thể đ°ợc giám sát,
đo l°ßng và khách hàng th°ßng sẽ chỉ trÁ phí cho l°ợng tài nguyên họ sử dụng.
2.2.1.3 Nh ng l t tr i c i v i Big Data ợi ích v°ợ ÿa đián toán đám mây đ
Xây d h t ng d li u nhanh chóng, linh hoựng c¢ sá ¿ á ¿t
Tr°ớc đây viác xây dựng h¿ tầng, máy chÿ th°ßng tốn nhiều thßi gian cho
viác lắp đặt và vận hành (có thể mất vài tuần đến vài tháng), nh°ng với cloud thì chúng
ta có thể tự chÿ đ°ợc thßi gian, và không cần lo đến dung l°ợng (khối l°ợng) cÿa dữ liáu
sau này thay đổi nh° thế nào.
10
Tối °u chi phí ho¿t động
Tr°ớc đây khi còn sử dụng há thống máy chÿ mặt đất thì chi phí cho viác lắp đặt,
vận hành bÁo trì luôn trá thành gánh nặng cho các công ty. Ngày nay nguồn dữ liáu
đang dần chuyển đổi thành Big Data thì gánh nặng chi phí còn có thể gia tăng nhiều h¢n,
nghiêm trọng h¢n.
Nh°ng từ khi cloud xuất hián, các công ty gần nh° không còn phÁi lo về vấn đề
này. Họ chỉ cần thanh toán chi phí cho dung l°ợng sử dụng cloud chi phí Internet,
tiêu thụ đián mà thôi. Thay vì các công ty tập trung vốn đầu t° vào bộ phận IT với những
máy chÿ, ổ cāng cồng kềnh phÁi theo dõi, bÁo trì hàng tháng hàng năm, thì họ thể tập
trung đầu rộng các lĩnh vực kinh doanh mới, chiến l°ợc lâu dài hay thậm chí
nghiên cāu các mô hình, thuật toán phân tích Big Data.
Tăng tốc độ x c giá tr nhanh nh, đ¿t đ°ợ t t Big Data
Với cloud, công ty sẽ bắt kịp với xu h°ớng công nghá, xu h°ớng ng°ßi tiêu dùng
nhanh h¢n nhß vào tốc độ xử lý Big Data. dụ khi họ cần thay đổi ch°¢ng trình quÁn
lý, cách thāc tiếp cận dữ liáu, hoặc mô hình phân tích khác mới h¢n, tối °u h¢n thì chỉ
cần t¿o ra hay thêm vào trực tiếp trên cloud một cách nhanh chóng.
Tăng độ chính xác, hiáu quÁ phân tích Big Data theo thßi gian thc
Nhß lợi ích phía trên mà cloud đem l¿i, các current data hay còn gọi là dữ liáu hián
t¿i, dữ liáu mới đ°ợc xử lý nhanh chóng trong thßi gian thực và các giÁi pháp, chiến l°ợc
đ°ợc hình thành từ kết quÁ phân tích sẽ đem l¿i hiáu quÁ kinh doanh cao h¢n.
Tr°ớc đây, khi các dữ liáu đ°ợc thu thập sẽ mất khá nhiều thßi gian để khai thác
do chúng ta sử dụng các há thống c¢ sá h¿ tầng cũ và cāng nhắc.
Nếu để càng lâu thì những kết quÁ phân tích có đ°ợc sẽ phÁn ánh các khía c¿nh cÿa
quá khā và dĩ nhiên các chiến l°ợc đề ra sẽ khó lòng phù hợp á thực t¿i. H¢n nữa, nguồn
dữ liáu Big data đ°ợc cập nhật liên tục theo từng ngày, từng giß, từng phút, từng giây
nếu chúng ta chậm trong viác xử lý và phân tích thì giá trị cÿa chúng cũng sẽ giÁm theo
thßi gian.
Cung c p l i th c nh tranh cho các doanh nghi p, công ty nh ế ¿ á
Các công ty quy nhỏ thể mua một nền tÁng đám mây tùy theo sự lựa chọn
và mục đích cÿa mình để l°u trữ và phân tích mà không cần thanh toán hoặc chịu trách
nhiám cho bất kỳ khoÁn phí nào khác.
2.2.1.4 Các mô hình d ch v
1. C¢ sá h¿ tầng nh° một dịch vụ (IAAS): Có nghĩa b¿n sẽ đ°ợc cung cấp c¢ sá h¿
tầng hoàn chỉnh. Các nhiám vụ liên quan đến bÁo trì sẽ đ°ợc thực hián bái nhà cung cấp
đám mây và b¿n sử dụng nó theo yêu cầu cÿa mình. Nó có thể đ°ợc sử dụng nh° là đám
mây chung hoặc riêng.
11
2. Nền tÁng nh° một dịch vụ (PAAS): Đám mây l°u trữ đối t°ợng, sắp xếp, c¢
dữ liáu, thßi gian ch¿y, v.v. Tất cÁ những thông tin này có thể nhận trực tiếp từ nhà cung
cấp đám mây. Họ có trách nhiám cấu hình và sử dụng nó.
Nhà cung cấp sẽ cung cấp cho ng°ßi dùng các tài nguyên nh°ng viác kết nối với
c¢ sá dữ liáu các ho¿t động t°¢ng tự khác trách nhiám cÿa ng°ßi dùng. dụ về
PaaS là Windows Azure và Google App Engine (GAE).
3. Các āng dụng hoặc phần mềm nh° một dịch vụ (SAAS), Salesforce.com,
dropbox, google drive, v.v Ng°ßi dùng đang sử dụng āng dụng đang ch¿y trên đám
mây. Tất các thiết lập h¿ tầng trách nhiám cÿa nhà cung cấp dịch vụ. Để
SAAS ho¿t động, h¿ tầng (IAAS) nền tÁng (PAAS) phÁi đ°ợc hoàn thián.
(Microsoft Office 365 là ví dụ điển hình nhất cho mô hình này)
2.2.1.5 Các mô hình tri n khai
Public Cloud (Đám mây <công cộng=)
Định nghĩa: các dịch vụ đ°ợc bên thā 3 (ng°ßi bán) cung cấp. Chúng tồn t¿i
ngoài t°ßng lửa cÿa công ty và đ°ợc nhà cung cấp đám mây quÁn lý. Nó đ°ợc xây dựng
nhằm phục vụ cho mục đích sử dụng công cộng, ng°ßi dùng sẽ đăng với nhà cung
cấp và trÁ phí sử dụng dựa theo chính sách giá cÿa nhà cung cấp. Public cloud là mô hình
triển khai đ°ợc sử dụng phổ biến nhất hián nay cÿa cloud computing.
Private Cloud (Đám mây <doanh nghiáp=)
Định nghĩa: Private cloud các dịch vụ đián toán đám mây đ°ợc cung cấp trong
các doanh nghiáp. Những <đám mây= này tồn t¿i bên trong t°ßng lửa cÿa công ty
đ°ợc các doanh nghiáp trực tiếp quÁn lý. Đây là xu h°ớng tất yếu cho các doanh nghiáp
nhằm tối °u hóa h¿ tầng công nghá thông tin.
Hybrid Cloud (Đám mây <lai=)
Định nghĩa: Là sự kết hợp cÿa private cloud và public cloud. Cho phép ta khai thác
điểm m¿nh cÿa từng mô hình cũng nh° đ°a ra ph°¢ng thāc sử dụng tối °u cho ng°ßi sử
dụng. Những <đám mây= này th°ßng do doanh nghiáp t¿o ra viác quÁn sẽ đ°ợc
phân chia giữa doanh nghiáp và nhà cung cấp đián toán đám mây công cộng.
Community Cloud (Đám mây cộng đồng)
Định nghĩa: các dịch vụ trên nền tÁng đián toán đám mây do các công ty cùng
hợp tác xây dựng cung cấp các dịch vụ cho cộng đồng. Những đ¢n vị hoặc tổ chāc
xây dựng dịch vụ đám mây cộng đồng này th°ßng có chung một mục tiêu, nhiám vụ hay
sāc mánh,… Và không để tổ chāc nào độc quyền đám mây cộng đồng này, các tổ chāc,
đ¢n vị th°ßng uỷ thác cho 1 bên thā 3 để quÁn lý.
th th ng trong th gi i Big Data, ấy Đián toán đám mây đóng vai trò quan tr ế
bng cách cung cấp c¢ sá h t c t¿ ầng đ°ợ ối °u hóa và má rộng. Điều đó hỗ tr trong vi c á
thc t hóa Big Data. Ti p sau ta s u v m t công ngh c ế ế đi tìm hi á ốt lõi trong l°u trữ
và truy c p d li u l n á
12
2.2.2 Há sinh thái Hadoop
mang trong mình số l°ợng thông tin lớn nên Big Data không thể đ°ợc xử
bằng những công cụ truyền thống không. Ngành công nghá sẽ sử dụng các công cụ phân
tích Big Data chuyên dụng để xử lý lĩnh vực khó nhằn này. Hadoop là công nghá cốt lõi
cho viác l°u trữ truy cập dữ liáu lớn. một trong những công nghá liên quan Đây
chặt chẽ nhất với big data.
2.2.2.1 Khái ni m á
Hadoop m t d ng framework, c th Apache. Apache Hadoop m t ¿
ngun má cho phép s d ng các distributed processing ( ng d qu n ā ụng phân tán) để Á
và l°u trữ nhng táp d liáu ln. Hadoop áp dng mô hình MapReduce trong ho¿t động
x lý Big Data.
2.2.2.2 Ki n trúc Hadoop ế
Vì sử dụng cùng lúc MapReduce và HDFS nên Hadoop sẽ cấu trúc cÿa cÁ 2 lo¿i
này. Hadoop kế thừa cấu trúc node từ HDFS. Cụ thể, một cụm Hadoop sẽ bao gồm 1
master node (node chÿ) và rất nhiều worker/slave node (node nhân viên). Một cụm cũng
bao gồm 2 phần là MapReduce layer và HDFS layer. Master node bao gồm JobTracker,
TaskTracker, NameNode, và DataNode. Còn Worker/Slave node bao gồm DataNode và
TaskTracker. Trong một số tr°ßng hợp, Worker/Slave node đ°ợc dùng để làm dữ liáu
hoặc tính toán.
Hadoop Apache bao gồm 4 module khác nhau. Sau đây sẽ là giới thiáu chi tiết về
từng lo¿i.
Hadoop Common
Hadoop Common đ°ợc dùng nh° một th° vián u trữ các tián ích cÿa Java. T¿i
đây những tính năng cần thiết để các modules khác sử dụng. Những th° vián này
mang đến há thống file và lớp OS trừu t°ợng. Song song với đó, nó cũng l°u trữ các mã
lánh cÿa Java để thực hián quá trình khái động Hadoop.
Hadoop YARN
Phần này đ°ợc dùng nh° một framework. Nó hỗ trợ ho¿t động quÁn lý th° vián tài
nguyên cÿa các cluster và thực hián ch¿y phân tích tiến trình.
Hiểu rõ cách ho¿t động cÿa các modules sẽ giúp b¿n nắm rõ khái niám Hadoop.
Hadoop Distributed File System (HDFS)
13
Một trong những vấn đề lớn nhất cÿa các thống phân tích Big Data quá tÁi.
Không phÁithống nào cũng đÿ khỏe để thể tiếp nhận một l°ợng thông tin khổng
lồ nh° vậy. Chính vì thế, nhiám vụ cÿa Hadoop Distributed File System là phân tán cung
cấp truy cập thông l°ợng cao giúp cho āng dụng chÿ. Cụ thể, khi HDFS nhận đ°ợc một
táp tin, nó sẽ tự động chia file đó ra thành nhiều phần nhỏ. c mÁnh nhỏ y đ°ợc nhân
lên nhiều lần và chia ra l°u trữ t¿i các máy chÿ khác nhau để phân tán sāc nặng mà dữ
liáu t¿o nên.
Nh° đã nói á trên, HDFS sử dụng cấu trúc master node worker/slave node.
Trong khi master node quÁn lý các file metadata thì worker/slave node chịu trách nhiám
l°u trữ dữ liáu. Chính thế nên worker/slave node cũng đ°ợc gọi data node. Một
Data node sẽ chāa nhiều khối đ°ợc phân nhỏ cÿa táp tin lớn ban đầu. Dựa theo chỉ thị từ
Master node, các Data node này sẽ trực tiếp điều hành ho¿t động thêm, bớt những khối
nhỏ cÿa táp tin.
Hadoop MapReduce
Module này ho¿t động dựa trên YARN trong viác xử lý các táp dữ liáu lớn. Hadoop
MapReduce cho phép phân tán dữ liáu từ một máy chÿ sang nhiều máy con. Mỗi máy
con này sẽ nhận một phần dữ liáu khác nhau và tiến hành xử lý cùng lúc. Sau đó chúng
sẽ báo l¿i kết quÁ lên máy chÿ. Máy chÿ tổng hợp thông tin l¿i rồi trích xuất theo nh°
yêu cầu cÿa ng°ßi dùng.
Cách thực thi theo hình nh° vậy giúp tiết kiám nhiều thßi gian xử cũng
giÁm gánh nặng lên thống. Chāc năng cÿa máy chÿ quÁn lý tài nguyên, đ°a ra thông
báo, lịch trình ho¿t động cho các máy tr¿m. Các máy tr¿m sẽ thực thi theo kế ho¿ch đ°ợc
định sẵn và gửi báo cáo dữ liáu l¿i cho máy chÿ. Tuy nhiên đây cũng là điểm yếu cÿa há
thống này. Nếu máy chÿ bị lỗi thì toàn bộ quá trình sẽ bị ngừng l¿i hoàn toàn.
2.2.2.3 Cách th c ho ng c a công ngh Hadoop ā ¿t độ ÿ á
Giai đo¿n 1: Ng°ßi dùng hoặc āng dụng sẽ gửi một job lên Hadoop để yêu cầu xử
lý và thao tác. Job này sẽ đi kèm các thông tin bÁn nh°: n¢i l°u trữ dữ liáu input và
output, các java class chāa các dòng lánh thực thi, các thông số thiết lập cụ thể.
Giai đo¿n 2: Sau khi nhận đ°ợc các thông tin cần thiết, máy chÿ sẽ chia khối l°ợng
công viác đến cho các máy tr¿m. Máy chÿ sẽ tiến hành theo dõi quá trình ho¿t động cÿa
các máy tr¿m và đ°a ra các lánh cần thiết khi có lỗi xÁy ra.
14
Giai đo¿n 3: Các nodes khác nhau sẽ tiến nh ch¿y tác vMapReduce. chia
nhỏ các khối và thay phiên nhau xử lý dữ liáu. Khi Hadoop ho¿t động, nó sử dụng một
táp tin nền làm địa chỉ th°ßng trú. Táp tin này có thể tồn t¿i trên 1 hoặc nhiều máy chÿ
khác nhau.
2.2.2.4 ¯u điểm cÿa công nghá Hadoop
Hadoop cho phép ng°ßi dùng nhanh chóng kiểm tra đ°ợc tiến trình ho¿t động cÿa
các phân tán. Nhß vào chế xử cùng lúc cÿa các lõi CPU, một l°ợng lớn dữ liáu
đ°ợc phân phối xuyên suốt liên tục và không bị gián đo¿n do quá tÁi.
Hadoop không bị Ánh h°áng bái chế chịu lỗi cÿa fault-tolerance and high
availability (FTHA). khÁ năng xử lỗi riêng nhß các th° vián đ°ợc thiết kế để
phát hián lỗi á các lớp āng dụng. Chính vì thế, khi không may có lỗi xÁy ra, Hadoop sẽ
nhanh chóng xử lý nó trong thßi gian ngắn nhất nhß c¢ chế chÿ động cÿa mình.
Một °u điểm nữa cÿa Hadoop khÁ năng triển khai rất nhiều master-slave song
song để xửcác phần khác nhau. nhiều server master nên công viác sẽ công bị
trì hoãn dù không may có một master bị lỗi.
cuối cùng, do Hadoop đ°ợc xây dựng từ ngôn ngữ Java nên knăng
t°¢ng thích với rất nhiều nền tÁng điều hành khác nhau, từ Window, Linux đến
MacOs…
15
Ch°¢ng 3. Ứ ¿t đßng dÿng dÿ lißu lán trong các ho ng
tài chính ngân hàng
3.1 Th nh t, phân tích các thói quen chi tiêu c a khách hàng ā ÿ
Các ngân hàng có khÁ năng truy cập trực tiếp nguồn thông tin, dữ liáu lịch sử dồi
dào liên quan đến các thói quen, hành vi chi tiêu cÿa khách hàng. Các ngân hàng còn
nắm thông tin chi tiết về nguồn thu cÿa khách hàng trong một năm, khoÁn chi tiêu, các
dịch vụ ngân hàng khách hàng sử dụng… Điều này cung cấp sá, hội để các
ngân hàng tiếp cận và phân tích dữ liáu sâu h¢n. Áp dụng các chāc năng sàng lọc thông
tin, ví dụ nh°, khi lọc ra thßi điểm dịp lß hay mùa lß và điều kián vĩ mô (l¿m phát, tỷ lá
thất nghiáp…) nhân viên ngân hàng thể hiểu đ°ợc nguyên nhân cÿa biến động
trong thu nhập hay chi tiêu cÿa ngân hàng. Đây là một trong các yếu tố quan trọng trong
quá trình đánh giá rÿi ro, thẩm định hcho vay, má rộng dịch vụ cung cấp hay bán
chéo sÁn phẩm đến khách hàng.
3.2 Th hai, phân khúc khách hàng và th nh h ā ẩm đị s¢.
Phân khúc khách hàng một trong những nhân tố quan trọng trong chiến l°ợc
marketing thiết kế sÁn phẩm cÿa ngân hàng. Một khi các phân tích ban đầu về thói
quen chi tiêu cÿa khách hàng cùng với xác định các lo¿i hình dịch vụ, kênh giao dịch
đ°ợc khách hàng °u tiên đ°ợc hoàn tất thì các ngân hàng sẽ đ°ợc một c¢ dữ liáu
phục vụ cho quá trình phân khúc, phân lo¿i khách hàng một cách phù hợp dựa vào thông
tin và hồ s¢ khách hàng cung cấp. Big Data sẽ cung cấp cho các ngân hàng những hiểu
biết, kiến thāc chuyên môn sâu về nhu cầu tiềm ẩn bên trong, thói quen và xu h°ớng chi
tiêu cÿa khách hàng, trgiúp cho nhiám vụ xác định nhu cầu mong muốn cÿa họ.
Bằng cách nắm các thông tin liên quan đến giao dịch, ngân hàng thể xác định đ°ợc
khách hàng cÿa mình thuộc các nhóm nào, dụ nhóm chi tiêu dàng, nhóm nhà
đầu t° thận trọng, nhóm thanh toán nợ nhanh chóng, nhóm khách hàng trung thành…
3.3 Th ba, bán chéo thêm các d ch v khác ā
Dựa vào c¢ sá dữ liáu ngân hàng có đ°ợc, ngân hàng có thể thu hút thêm, hay giữ
chân khách hàng bằng cách giới thiáu thêm các dịch vụ khác. dụ, ngân hàng thể
giới thiáu các khoÁn đầu lãi suất hấp dẫn đến các khách hàng l°ợng tiền nhàn
rỗi hoặc những nđầu thận trọng. Ngân hàng cũng thể đề xuất các khoÁn vay
ngắn h¿n cho các khách hàng thói quen chi tiêu dàng để đáp āng nhu cầu hàng
16
ngày hoặc những khoÁn vay đáp āng nhu cầu thanh khoÁn ngắn h¿n cÿa doanh nghiáp.
Phân tích một cách chính xác về hồ nhân cÿa khách hàng, ngân hàng thể bán
kèm các dịch vụ khác với các °u đãi đ°ợc tập trung chính xác vào nhu cầu khách.
3.4 Th ā t°, nâng cao chất l°ợng dch v thông qua xây d ng h th ng thu th p các ph n á Á
hi khách hàng và phân tích chúng
Khách hàng có thể để l¿i phÁn hồi sau mỗi lần giao dịch hay mỗi lần nhận đ°ợc t°
vấn từ trung m hỗ trchăm sóc khách hàng hoặc qua các biểu mẫu phÁn hồi; nh°ng
th°ßng xuyên (hay có thể nói nhiều khÁ năng) chia sẻ ý kiến thông qua các ph°¢ng tián
truyền thông xã hội h¢n, ví dụ Facebook, Zalo,…Các công cụ Big Data có thể tìm kiếm
chọn lọc thông qua các thông tin, feedback công khai trên các ph°¢ng tián truyền thông
và thu thập tất cÁ những dữ liáu đề cập về th°¢ng hiáu cÿa ngân hàng để có thể phÁn hồi
nhanh chóng và đầy đÿ đến khách hàng, ngoài ra, cũng hỗ trợ ngăn chặn các tin đồn thất
thiát Ánh h°áng đến ho¿t động kinh doanh và niềm tin n¢i khách hàng. Khi khách hàng
cÁm thấy ngân hàng lắng nghe, đánh giá cao ý kiến và thực hián những cÁi tiến, thay đổi
theo yêu cầu cÿa họ thì sự trung thành dành cho th°¢ng hiáu sẽ gia tăng, h¢n nữa cÁi
thián hình Ánh cÿa ngân hàng.
3.5 Th ng cá nhân hóa. ā năm, marketing theo h°ớ
Sau khi có đ°ợc phân khúc khách hàng thì các ngân hàng cần tận dụng để marketing
nhắm tới mục tiêu khách hàng dựa trên trên những hiểu biết về thói quen chi tiêu cá nhân
cÿa họ. Ngoài viác thu thập dữ liáu về lịch sử giao dịch cÿa khách hàng, ngân hàng
thể kết hợp dữ liáu phi cấu trúc đ°ợc lấy ra từ m¿ng hội để đ°ợc một bāc tranh
đầy đÿ h¢n về nhu cầu cÿa khách hàng dựa trên các phân tích về tâm lý, mong muốn
khách hàng á mọi thßi điểm. Từ đó, ngân hàng thể đ°a ra các giÁi pháp, kế ho¿ch
marketing phù hợp để có đ°ợc tỷ lá phÁn hồi cao h¢n từ khách hàng.
3.6 Th i cách th p d ch v n khách hàng ā sáu, thay đổ āc cung c đế
thống Big Data thể một thống phāc t¿p liên kết giữa nhiều bộ phận
chāc năng khác nhau với vai trò đ¢n giÁn hóa các nhiám vụ trong một tổ chāc. Bất
khi nào tên một khách hàng hoặc số tài khoÁn đ°ợc nhập vào thống, thống Big
Data sẽ hỗ trợ sàng lọc tất cÁ các dữ liáu và chỉ truyền đi hay cung cấp các dữ liáu đ°ợc
yêu cầu để phục vụ cho quá trình phân tích. Điều này cho phép các ngân hàng tối °u hóa
quy trình làm viác tiết kiám thßi gian chi phí. Big Data cũng cho phép các tổ
chāc xác định và khắc phục các vấn đề tr°ớc khi khách hàng bị Ánh h°áng.
17
3.7 Th b y, phát hi n hành vi l o, vi ph m pháp lu t ā Á án và ngăn chặ ừa đÁ ¿
Big Data sẽ cho phép các ngân hàng đÁm o không giao dịch trái phép nào
đ°ợc thực hián, cung cấp māc độ an toàn, nâng cao tiêu chuẩn bÁo mật cÿa toàn bộ
ngành. Nhß vào dữ liáu về lịch sử giao dịch và hồ s¢ tín dụng cÿa khách hàng, ngân hàng
có thể nhận dián những bất th°ßng trong quá trình cung cấp dịch vụ đến khách hàng. Ví
dụ, khoÁn rút tiền lớn bất th°ßng từ thẻ ATM có thể do thẻ bị mất cắp, từ đó, ngân hàng
những bián pháp an ninh để xác minh giao dịch. Ngân hàng khai thác Big Data để
phân biát giữa các giao dịch hành vi ph¿m tội với các giao dịch hợp pháp bằng các
thuật toán phân tích dữ liáu machine learning (học máy). Các thống phân tích sẽ
tự động phát hián, trích xuất các giao dịch bất hợp pháp á thßi gian thực và đề xuất các
hành động ngay lập tāc.
3.8 Th tám, ki m soát r i ro, tuân th lu t pháp và minh b ch trong báo cáo tài chính ā ÿ ÿ ¿
Các thuật toán cÿa Big Data còn giúp giÁi quyết các vấn đề vtuân thÿ quy định
pháp luật về kế toán, kiểm toán báo cáo tài chính, từ đó giÁm đ°ợc các chi phí quÁn
lý. Bên c¿nh đó, thống Big Data thu thập và l°u trữ dữ liáu lớn giúp ngân hàng tiến
hành phân tích một ch nhanh nhất khi các dấu hiáu về rÿi ro xÁy ra, từ đó đ°a ra
các bián pháp xử lý. Big Data cũng đóng một vai trò quan trọng trong viác phối hợp
giữa các bộ phận, phòng, ban và yêu cầu xử lý dữ liáu cÿa ngân hàng vào một há thống
trung tâm duy nhất; qua đó, hỗ trợ kiểm soát, ngăn chặn vấn đề mất dữ liáu, giÁm thiểu
rÿi ro và gian lận.
3.9 Th chín, tham gia vào vi c ki u qu làm vi c c a ā á ểm soát đánh giá nâng cao hiá Á á ÿ
nhân viên
Há thống Big Data hỗ trợ thu thập phân tích, đánh giá và truyền tÁi dữ liáu về hiáu
quÁ làm viác cÿa nhân viên. Tr°ớc đây, để thu thập các thông tin này cần rất nhiều công
đo¿n mang tính thÿ công, thì nay, Big Data sẽ giúp xử các công viác này một cách
nhanh chóng chính xác. Kết quÁ phân tích sẽ giúp các nhà lãnh đ¿o cái nhìn về
tình hình, thực tr¿ng làm viác hián t¿i cÿa nhân viên, đặc biát xem xét māc độ hài lòng
cÿa nhân viên về môi tr°ßng làm viác, phúc lợi… cÿa ngân hàng dành cho họ.
3.10 Th n trong ngành tài chính ngân hàng c tiß
Tháng 9 vừa qua, VIB đã chính thāc công bố thỏa thuận với Microsoft Viát Nam
về hợp tác chiến l°ợc 3 năm để triển khai nền tÁng đián toán đa đám mây (multi-cloud)
18
với viác sử dụng Microsoft Azure làm đám mây chính cho VIB, từ đó thúc đẩy tiến trình
đổi mới sáng t¿o, t¿o ra những giá trị khác biát nhằm đáp āng nhu cầu và trÁi nghiám số
ngày một đa d¿ng cÿa khách hàng. Trong khuôn khổ cÿa thỏa thuận hợp tác, hai bên
cũng sẽ tiến đến triển khai các dự án quan trọng về an ninh m¿ng, Big Data, AI, Open
API, IoT, ...
Điểm khác biát á lần hợp tác này viác triển khai lên Multi hình sử -cloud -
dụng nhiều dịch vụ đián toán đám mây (cloud) từ các nhà cung cấp khác nhau trong một
môi tr°ßng không đồng nhất so với cách triển khai cloud th°ßng thấy, multi-cloud
mang đến sự linh ho¿t v°ợt trội rõ rát.
Multi-cloud có thể giúp rút ngắn kỷ lục thßi gian triển khai một há thống hoặc āng
dụng công nghá. Rút ngắn thßi gian triển khai dịch vụ sẽ cho phép doanh nghiáp phục
vụ khách hàng tốt h¢n. Theo đó, ng°ßi dùng cũng những trÁi nghiám m°ợt h¢n
với các dịch vụ số hóa cÿa ngân hàng.
Đặc biát, thßi gian vừa qua, khi các āng dụng ngân hàng số, ngân hàng đián tử t¿i
Viát Nam phát triển "vũ bão" thì không khỏi bắt gặp tình huống qtÁi, khách hàng
không thể đăng nhập hay giao dịch do l°ợng truy cập quá lớn. Đián toán đám mây
thể giÁi quyết bài toán này.
Có thể, hiểu, với đián toán đám mây, quá trình xử lý, phân tích, bÁo mật, l°u trữ,
quÁn lý dữ liáu bằng cách khai thác các máy chÿ dựa trên Internet. Dữ liáu không đ°ợc
l°u trữ trên thiết bị vật lý mà trên đám mây, tính °u viát cÿa viác l°u trữ này giúp các tổ
chāc tài chính, ngân ng quÁn điều hành tốt h¢n, hợp lý hóa quy trình, nâng cao năng
suất, tối °u hóa chi phí và nâng cao trÁi nghiám kỹ thuật số cho khách hàng.
Tr°ớc đây, những dữ liáu hoặc thông tin nhân đ°ợc l°u trữ đều có thể bị vi ph¿m
bÁo mật nh° tấn công m¿ng và các mối đe dọa m¿ng khác, thay vào đó, dịch vụ l°u trữ
đám mây thể l°u trữ nhiều bÁn sao l°u dữ liáu trong một thống phân tán. Ngân
hàng sẽ phÁi đầu một khoÁn tiền lớn ban đầu để triển khai công nghá này, nh°ng về
lâu dài sẽ góp phần giúp tiết kiám chi phí khi không phÁi đầu vào viác thiết lập và duy
trì tài nguyên CNTT nội bộ.
Để triển khai multi cloud, ngoài viác cần một nguồn vốn đầu lớn, sự chuẩn bị -
về nhân sự số cũng rất quan trọng không hề đ¢n giÁn. Nh° t¿i VIB, ngân hàng đã tổ
chāc hàng trăm l°ợt học về lĩnh vực này trong gần 2 năm qua cho đội ngũ kỹ công
nghá. Ngân hàng cũng phÁi đối mặt với nhiều thách thāc, khi chuyển đổi lên cloud vẫn
phÁi vừa duy trì các thống vừa triển khai thống mới trong một bÁn quy ho¿ch
19
tổng thể, tích hợp hài hoà giữa các há thống mới, giữa các há thống nội bộ cÿa ngân
hàng và các đối tác bên ngoài.
Một ngân hàng lớn khác cũng triển khai m¿nh mẽ công nghá đián toán đám mây
thßi gian gần đây là Techcombank. Hồi tháng 9, nhà băng này cũng công bố đã lựa chọn
Amazon Web Services (AWS), một công ty thuộc tập đoàn toàn cầu Amazon.com, làm
đối tác cung cấp dịch vụ đián toán đám mây, nhằm nâng cao trÁi nghiám cÿa khách hàng.
Đây là thỏa thuận kéo dài 5 năm và theo ông Jens Lottner, Tổng Giám đốc Techcombank
thì là một khoÁn đầu t° rất đáng để mong đợi.
Lãnh đ¿o Techcombank cũng nhấn m¿nh, đián toán đám mây không đ¢n thuần
một đề xuất hay một lựa chọn một điều bắt buộc phÁi āng dụng trong ngân hàng.
Một phần trong thỏa thuận hợp tác trong vài năm tới Techcombank sẽ dịch chuyển
phần lớn các āng dụng lên đián toán đám mây, bao gồm đa số các āng dụng thống
ngân hàng lõi. Đây ng cấu phần nằm trong chiến l°ợc đầu tổng thể trị giá 500
triáu USD trong vòng 5 năm tới cÿa Ngân hàng.
Hay nhiều ngân hàng nhỏ khác cũng đã ngày càng quan tâm h¢n viác āng dụng và
triển khai ng nghá này mặc māc đđầu ch°a bằng nh° nhà băng lớn. Đ¢n cử
nh° Viet A Bank, từ m 2017 đã chuyển toàn bộ thống Trung tâm dữ liáu lên Private
Cloud. Tháng 7/2021, PVcomBank đã cùng với CMC Telecom triển khai há thống trục
tích hợp dịch vụ ch¿y trên nền tÁng OpenShift lên AWS cloud,…
Morgan Stanley, một trong những tổ chāc cung cấp dịch vụ tài chính lớn nhất thế
giới quÁn lý h¢n 350 tỷ đô la tài sÁn và họ sử dụng the Hadoop framework nh° một thử
nghiám nhỏ á một bộ phận vào một vài năm tr°ớc. Thử nghiám này đã t¿o đ°ợc đà
hián nay cụm Hadoop nhỏ đã đ°ợc rộng trá thành chỗ dựa cho rất nhiều dự án
đầu t° quan trọng. Gary Bhattacharjee, Tổng giám đốc điều hành thông tin doanh nghiáp
cÿa Morgan Stanley, đã phát biểu t¿i hội nghị Fountainhead về Hadoop trong ngành Tài
chính t¿i New York, <Sự khác biát mà Hadoop mang l¿i đó là b¿n có thể làm cùng một
công viác trên một quy mô lớn h¢n rất nhiều và đ¿t đ°ợc những kết quÁ tốt h¢n. Nó cho
phép b¿n quÁn hàng petabyte dữ liáu, viác ch°a từng có tr°ớc đây trong thế giới
cÿa c¢ sá dữ liáu truyền thống.=
Một ông lớn khác cÿa ngành tài chính, Bank of America, là một trong những ngân
hàng lớn nhất t¿i Mỹ, cũng chÿ động sử dụng Hadoop trong tài chính để quÁn lý khối dữ
liáu Xử giao dịch trực tuyến (On OLTP) đồ sộ. Line Transaction Processing -
20
Abhishek Mehta, Giám đốc điều hành về Big Data và và Phân tích cÿa Bank of America
cũng đã có khá nhiều ý kiến về Big Data trong ngành Tài chính và so sánh sự nổi lên cÿa
nó với một Cuộc cách m¿ng công nghiáp lần thā hai. Ông cho biết, <Hadoop cũng mang
tính đột phá nh° vậy, không chỉ với các thống đang tồn t¿i, sẽ còn cho phép
làm những viác mà không thể tr°ớc đây. Hãy là ng°ßi ngồi ghế đầu hàng và ng°ßi dẫn
đầu về nó.=
T¿i Viát Nam viác āng dụng Big Data đối với các ngân hàng th°¢ng m¿i, ta có thể
kể đến một số động thái tiêu biểu nh°:
- Năm 2020 TP Bank chính thāc đ°a vào sử dụng hai giÁi pháp công nghá Big Data
do FIS triển khai bao gồm 2 cấu phần chính:Kho ựng dữ liáu Data Lake đ°ợc xây d
dựa trên nền tÁng Hortonworks Data Platform (HDP) l°u trữ Big Data từ nhiều -
nguồn, bao gồm các nhóm dữ liáu thô, phi cấu trúc và Nền tÁng xây dựng mô hình học
máy Watson Studio Local, kết hợp thiết bị IBM Integrated Analytics System (IIAS) tối
°u cho viác phân tích dữ liáu với tốc độ cao, giÁm thßi gian huấn luyán mô hình ( đây là
hợp đồng đầu tiên hoàn thành về Big Data cho NHTM t¿i Viát Nam).
- Năm 2019 Vietcombank đã ký hợp tác với FIS triển khai thực hián Dự án <Mua
sắm phần mềm quÁn trị nhân sự mới (HRM)= gồm 6 phân chính: QuÁn thông tin
nhân sự, QuÁn lý chi phí tiền l°¢ng, QuÁn lý tuyển dụng, QuÁn lý đào t¿o, QuÁn lý đánh
giá cán bộ và QuÁn lý nhân tài.
- VietinBank đã xây dựng chiến l°ợc và lộ trình quÁn và khai thác tài sÁn dữ liáu
tr°ớc khi chính thāc āng dụng Big Data thì chú trọng cÿng cố và xây dựng nền tÁng h¿
tầng về dữ liáu bao gồm dự án Kho dữ liáu doanh nghiáp (EDW- Enterprise Data
Warehouse) triển khai xây dựng trong vòng 3 năm bao gồm tích hợp h¢n 200 thống
nguồn, BI, QuÁn lý dữ liáu tập trung (MDM- Master Data Management).
- VPBank āng dụng công nghá phân tích dữ liáu cÿa IBM đđồng hóa dữ liáu
khách hàng, hỗ trợ phân tích hành vi khách hàng nhanh chóng.
- MB hợp tác với Infosys, Amigo triển khai kho dữ liáu tập trung công cụ báo
cáo quÁn trị...
Mặt khác, trong bối cÁnh thßi gian gần đây sự xâm nhập cÿa công nghá o lĩnh
vực tài chính (Fintech- Công nghá tài chính) ngày càng sâu rộng, ví dụ nh° Momo với
l°ợng ng°ßi dùng trong năm 2019 tăng từ 10 triáu (đầu 2019) lên h¢n 15 triáu (cuối
2019), với h¢n 100.000 điểm chấp nhận thanh toán (momo.vn) cho thấy sự tián lợi đi
kèm với xu h°ớng tiêu dùng, thanh toán online cÿa KH sẽ t¿o ra nguồn dữ liáu lớn
21
quan trọng tiết lộ về hành vi KH, nên 81,8% NHTM t¿i Viát Nam dự định sẽ hợp tác với
các công ty Fintech trong lĩnh vực nghiên cāu về dữ liáu tài chính có bao gồm Big Data
(Vietnam Report, 2019).
22
CH¯¡NG 4. Kết lu¿n và khuyến nghß
4.1 Điều kián āng dng Big Data vào ho¿t động tín dng cÿa ngân hàng
Để c th khai thó ác đ°ợc nhng l i ích m Big Data mang l à ¿i nh° phân tích á trên,
thì c c ngân h ng c p ng m t sá à n đá ā điều ki án c¢ bÁn nh° sau:
Thā nhất, cần thay đổi t° duy trong đội ngũ quÁn lý ngân hàng về tầm quan trọng
cÿa dữ liáu và các ph°¢ng pháp xử lý dữ liáu hián đ¿i.
Thā hai, ngân hàng phÁi xây dựng đ°ợc quy trình liên quan đến dữ liáu từ khâu thu
thập dữ liáu đến sử dụng kết quÁ xử lý dữ liáu.
Thā ba, chuẩn bị đội ngũ chuyên viên khoa học dữ liáu điều kián không thể thiếu.
4.2 M t s h n ch còn t n ng ¿ ế đọ
Āng dụng Big Data và mang l¿i nhiều lợi ích cho các ngân hàng th°¢ng m¿i Viát
Nam, tuy nhiên, hián nay các ngân hàng này đang gặp một số khó khăn, h¿n chế gồm:
Một là, ch°a hành lang pháp đồng bộ từ các đ¢n vị, quan quÁn lý, nh°
hành lang pháp lý cho ho¿t động ngân ng số; thiếu quy định đồng bộ, cụ thể về viác
quÁn lý, trao đổi, chia sẻ dữ liáu khách hàng, hỗ trợ cho viác āng dụng các công nghá
phân tích dữ liáu lớn vào ho¿t động cÿa các ngân hàng.
Hai là, sự phát triển không đồng đều về công nghá giữa các ngân hàng làm h¿n chế
khÁ năng āng dụng nghiáp vụ mang tính toàn ngành; h¿n chế khÁng kết nối, trao đổi
dữ liáu có tính há thống giữa các ngân hàng để cùng khai thác, phát triển các lo¿i hình
dịch vụ ngân hàng đối với khách hàng cá nhân, doanh nghiáp và nền kinh tế.
Ba là, viác āng dụng Big Data và ¿t động tín dụng ngân hàng hián nay AI vào ho
còn khá mới mẻ, ch°a đ°ợc sử dụng một cách rộng rãi, nên cần phÁi tốn nhiều thßi gian
và chi phí.
Bốn là, để tận dụng tối °u những lợi ích từ AI mang l¿i cần quan tâm Big Data và
nâng cao trình độ nghiáp vụ chuyên môn cÿa đội ngũ nhân viên về tín dụng và công nghá
để có thể sử dụng thành th¿o các āng dụng này.
Năm là, tình hình dân số ngày càng đông dẫn đến nhu cầu lao động tăng theo. Nếu
āng dụng Big Data AI phát triển m¿nh, thì nguồn nhân lực thiếu trình độ sẽ bị đào
thÁi và dẫn đến tình tr¿ng thất nghiáp tăng cao, t¿o gánh nặng an sinh xã hội cho xã hi.
Sáu là, h¿ t ng bầng thanh toán ch°a phát triển đồ và vi c hoàn thi n, h t ng an á á ¿
toàn, an ninh b o m t còn nhi u h n ch . Á ¿ ế
23
4.3 Gi Ái pháp đ°a ra
Một là, giÁi pháp về tài chính: Để phù hợp với nguồn lực tài chính, NHTM nên tận
dụng sự hỗ trợ cÿa công nghá đián toán đám mây. Hián nay, các nhà cung cấp giÁi pháp
Big Data trên đám mây đã thể xây dựng sẵn các hình phân tích mang l¿i khÁ
năng các tổ chāc thể chi trÁ cho các nguồn lực siêu tính toán theo ph°¢ng thāc chi
tiêu tùy theo khÁ năng. Ngoài ra, để giÁm thiểu một phần chi phí cho viác thu thập
làm s¿ch dữ liáu, NHTM nên đẩy m¿nh hợp tác với các công ty tài chính công nghá
fintech, h°ớng đến xây dựng mô hình chuỗi cung āng mới gắn kết chặt chẽ h¢n với nhu
cầu cÿa KH. Khi đó, chuỗi cung āng dịch vụ °u viát h¢n sẽ t¿o ra một dữ liáu
thống nhất, minh b¿ch và hiáu quÁ h¢n á mọi giai đo¿n, từ khi KH phát sinh nhu cầu cho
đến khi hoàn tất thực hián cung āng dịch vụ.
Hai là, giÁi pháp về ng nghá bao gồm kết cấu h¿ tầng thông tin nhằm đáp āng
nền tÁng về công nghá để āng dụng Big Data. Muốn sử dụng và khai thác Big Data một
cách hiáu quÁ thì điều cần thiết là phÁi xây dựng c¢ sá h¿ tầng đÿ để thu thập và l°u trữ
dữ liáu, cung cấp quyền truy cập bÁo mật thông tin trong khi l°u trữ và chuyển tiếp,
bao gồm: các thống l°u trữ máy chÿ; phần mềm quÁn lý, tích hợp dữ liáu;
phần dữ mềm phân tích liáu một số thành phần khác. NHTM nên lựa chọn các
giÁi pháp Big Data có nền tÁng kết nối và tận dụng đ°ợc dữ liáu từ các há thống hián t¿i
để không lãng phí c¢ sá h¿ tầng, dữ liáu và nguồn lực đã thực hián tr°ớc đó.
Ba là, nhóm giÁi pháp về nguồn nhân lực có đÿ năng lực sáng t¿o, nền tÁng công
nghá cÿa Cách m¿ng công nghiáp 4.0 nói chung āng dụng Big Data nói riêng. Các
nhà quÁn trị cần tham khÁo các mô hình thành
công trên thế giới và có ho¿ch định rõ về chiến l°ợc phát triển dài h¿n hián đ¿i hóa
NHTM. Ngoài viác tuyển dụng mới nhân sự có kinh nghiám và trình độ về hián đ¿i hóa
ngân hàng, āng dụng Big Data thì cần °u tiên chiến l°ợc phát triển nhân sự nội bộ để
xây dựng nguồn nhân lực m¿nh với chi phí hợp lý, nh° phổ cập tham gia các khóa đào
t¿o về phân tích dữ liáu, lập trình và sá dữ liáu. Đối với bphận nghiáp vụ, cần tiếp
cận thêm các ngôn ngữ lập trình āng dụng trong xử lý phân tích dữ liáu nh° R, Python,
SQL để chÿ động trong xử dữ liáu cái nhìn bao quát h¢n về thống dữ liáu.
Đối với bộ phận CNTT, yêu cầu đặt ra thể tiếp cận nhanh chóng tiếp thu các xu
h°ớng công nghá mới cÿa thế giới trong thiết kế c¢dữ liáu, xử lý truy vấn, tích hợp
dữ liáu dụ nh° công cụ quÁn dữ liáu phân tán (Hadoop, Dryad), c¢ dữ liáu
không cấu trúc NoQuery, các công cụ xử lý (MapReduce)...
24
Bốn là, giÁi pháp về dữ liáu. Tuy các nhà cung cấp đám mây hián nay mang l¿i một
số lợi ích an ninh h¢n so với trung tâm dữ liáu thông th°ßng cÿa NHTM nh° bÁo vá và
giám sát dữ liáu tập trung h¢n, tuy nhiên nó cũng mang l¿i rÿi ro khi mà dữ liáu có thêm
một tổ chāc trung gian nắm giữ. Vì vậy, các NHTM cần áp dụng các tiêu chuẩn cao về
đối tác, tuyển dụng và quÁn lý con ng°ßi, há thống; đặc biát quan m đến viác xây dựng
trung tâm dự phòng dữ liáu (khôi phục dữ liáu sau thÁm họa); nâng cấp há thống an ninh,
bÁo mật á māc cao; đÁm bÁo viác má rộng ph¿m vi ho¿t động (nếu có) đ°ợc ổn định, an
toàn, mang l¿i hiáu quÁ lâu dài.
4.4 K t lu n ế
Theo kết quÁ khÁo sát cÿa Vietnam Report (2019) với các NHTM đang ho¿t động
t¿i Viát Nam thì gần 3/4 (75%) số ngân hàng đ°ợc hỏi cho biết sẽ °u tiên cho ho¿t động
nghiên và áp công cāu dụng nghá mới trong há thống quÁn lý, phục vụ KH; h¢n 3/5
(60%) NHTM dự định đầu nâng cao thống quÁn trị doanh nghiáp tiên tiến. Trên
thực tế, khu vực dịch vụ TC - NH á Viát Nam đã có phÁn āng nhanh so với các khu vực
khác trong viác chÿ động nghiên cāu và āng dụng khoa học - công nghá cÿa Cách m¿ng
công nghiáp 4.0 vào ho¿t động kinh doanh và quÁn trị. Theo thống kê từ Vietnam Report
(2019) thì 59% các doanh nghiáp đang hoặc dự kiến sẽ sử dụng ng cụ Big Data để
thúc đẩy chuyển đổi số hiáu quÁ.
thể thấy, Big Data đang dần thể hián rõ tầm quan trọng cÿa mình đối với NHTM
hián t¿i và trong t°¢ng lai. Tuy nhiên NHTM cần hết sāc thận trọng trong viác āng dụng
để phù hợp với thực tißn, khắc phục các h¿n chế, thách thāc đÁm bÁo an toàn thông
tin thông qua xây dựng một lộ trình triển khai phù hợp dựa trên giÁi pháp đ°ợc đúc kết
dựa từ thực tế các chuyên gia đã triển khai āng dụng thành công vào các ngân
hàng. Một Khi thể làm chÿ, tận dụng, kết hợp giữa thống dữ liáu hián t¿i Big
Data thì NHTM sẽ có c¢ hội thành công lớn h¢n trong bối cÁnh c¿nh tranh ngày nay
h°áng lợi nhiều h¢n từ viác trích xuất thông tin một cách chính xác, hữu ích. Từ
những nền tÁng ban đầu trong phân tích này, em muốn h°ớng đến nghiên cāu cụ thể theo
các nhóm ngân hàng ¢ng đồng về quy và āng dụng công nghá mới, từ đó đ°a ra
những giÁi pháp hữu ích h¢n để xây dựng nền kinh tế số, giúp các tổ chāc ngân hàng có
thể mang đến trÁi nghiám dịch vụ tốt nhất tới khách hàng.
25
TÀI LI U THAM KH O Þ À
[1]. Tr°¢ng Thị Hoài Linh, Lê Th Nh° Quỳnh (2019), Big Data và āng dụng trong ho¿t
động ngân hàng, T¿p chí Ngân hàng số 17/2019;
[2]. Đào Mỹ Hằng, Đặng Thu Hoài (2021), T¿p chí Khoa học & Đào t¿o Ngân hàng số
224+225- Tháng 1&2. 2021
[3]. Ts Phan Thanh Đāc (2019), T¿p chí Khoa học & Đào t¿o Ngân hàng số 203- Tháng
4/2019
[4]. Báo cáo Vietnam CEO insight 2019 (2019) : chuy i s i c a các doanh ển đổ và c¢ hộ ÿ
nghiáp Vi t NamWe are Social, á
[5]. Tài liáu về khái niám và đặc tr°ng Big data
https://viblo.asia/dovv/posts/3OEqGjWwv9bL
[6]. Tài liáu v khái ni m và c u trúc Hadoop á https://teky.edu.vn/blog/hadoop-la-gi/
[7]. Tài liáu về đián toán đám mây trong ngành tài chính ngân hàng
https://ictvietnam.vn/cong-nghe-dien-toan-dam-may-trong-nganh-tai-chinh- ngan-
hang-20210709175609352.htm
[8]. Tài liáu v l i ích công ngh á đián toán đám mây
https://viettelidc.com.vn/tin-tuc/cloud-computing-nen-tang-luu-tru-va-quan-ly-big-
data-tuyet-voi-trong-ky-nguyen-so-hoa
[9]. Tài liáu v công ngh trong Big data á
https://topdev.vn/blog/big-data/ - cac-cong-nghe-dac-biet-danh-cho-big-data
[10]. Tài li u v khái ni m cùng cách th ng Hadoop á á āc ho¿t độ
https://topdev.vn/blog/hadoop-la-gi/
| 1/29

Preview text:

HàC VI N Þ NGÂN HÀNG KHOA TÀI CHÍNH
-----�㵞�㵜�㵮�㵞�㵜-----
BÀI T¾P LàN MÔN NĂNG LĀC S NG DþNG
Đề tài: ngân hàng=
GiÁng viên h°ớng dẫn : Cô Nguyßn Thị Yến Sinh viên thực hián : Hoàng BÁo Ngọc Lớp : K24TCB
TP Hà Nội, Tháng 2 năm 2022
HàC VIÞN NGÂN HÀNG
BÀI T¾P LàN
MÔN NĂNG LĀC S NG DþNG
Đề tài: ngân hàng=
GiÁng viên h°ớng dẫn : Cô Nguyßn Thị Yến Sinh viên thực hián : Hoàng BÁo Ngọc Lớp : K24TCB
TP Hà Nội, Tháng 2 năm 2022 MþC LþC
CH¯¡NG 1. Má đầu ....................................................................................................... 1
1.1 Lý do chọn đề tài .................................................................................................... 1
1.2 Tính cấp thiết cÿa đề tài .......................................................................................... 2
1.3 Mục đích nghiên cāu .............................................................................................. 2
1.4 Ph°¢ng pháp nghiên cāu ........................................................................................ 3
Ch°¢ng 2. Tìm hiểu về công nghá Big Data ................................................................... 4
2.1 Tổng quan về dữ liáu lớn (Big Data) ...................................................................... 4
2.1.1 Khái niám dữ liáu lớn ....................................................................................... 4
2.1.2 Nguồn hình thành dữ liáu và ph°¢ng pháp khai thác dữ liáu lớn .................... 4
2.1.3 Quy trình xử lý dữ liáu lớn ............................................................................... 4
2.1.4 Phân lo¿i ........................................................................................................... 5
Dữ liáu Big data có thể chia thành 3 lo¿i theo hình thāc nh° sau: ............................... 5
2.1.5 Đặc tính dữ liáu lớn .......................................................................................... 5
2.1.6 Sự khác biát giữa dữ liáu lớn và dữ liáu truyền thống ..................................... 6
2.1.7 Lợi ích dữ liáu lớn ............................................................................................ 6
2.1.8 Những thách thāc Big Data mang l¿i ............................................................... 8
2.2 Giới thiáu về công nghá trong Big Data ................................................................. 9
2.2.1 Đián toán đám mây ........................................................................................... 9
2.2.2 Há sinh thái Hadoop ....................................................................................... 12
Ch°¢ng 3. Āng dụng dữ liáu lớn trong các ho¿t động tài chính ngân hàng .................. 15
3.1 Phân tích các thói quen chi tiêu cÿa khách hàng .................................................. 15
3.2 Phân khúc khách hàng và thẩm định hồ s¢. .......................................................... 15
3.3 Bán chéo thêm các dịch vụ khác........................................................................... 15
3.4 Nâng cao chất l°ợng dịch vụ ................................................................................ 16
3.5 Marketing theo h°ớng cá nhân hóa. ..................................................................... 16
3.6 Thay đổi cách thāc cung cấp dịch vụ đến khách hàng ......................................... 16
3.7 Phát hián và ngăn chặn hành vi lừa đÁo, vi ph¿m pháp luật ................................. 17
3.8 Kiểm soát rÿi ro, tuân thÿ luật pháp và minh b¿ch trong báo cáo tài chính ......... 17
3.9 Tham gia vào viác kiểm soát đánh giá và nâng cao hiáu quÁ làm viác nhân viên17
3.10 Thực tißn trong ngành tài chính ngân hàng á Viát Nam .................................... 17
CH¯¡NG 4. Kết luận và khuyến nghị .......................................................................... 22
4.1 Điều kián āng dụng Big Data vào ho¿t động tín dụng cÿa ngân hàng ................. 22
4.2 Một số h¿n chế còn tồn đọng ................................................................................ 22
4.3 GiÁi pháp đ°a ra .................................................................................................... 23
4.4 Kết luận ................................................................................................................. 24
TÀI LIàU THAM KHÀO .............................................................................................. 25
CH¯¡NG 1. Mở đầu 1.1 Lý do chọn đề tài
Theo T¿p chí Kinh doanh Harvard, chỉ tính riêng tới năm 2012, đã có đến khoÁng
2,5 tỷ Gigabytes dữ liáu đ°ợc t¿o ra và cā sau khoÁng 40 tháng, con số khổng lồ đó sẽ
tiếp tục tăng lên gấp đôi. Bên c¿nh tăng tr°áng về dung l°ợng và tốc độ, hình thāc l°u
trữ và các chÿng lo¿i dữ liáu cũng ngày càng đa d¿ng h¢n. Chúng không chỉ là các d¿ng
dữ liáu có cấu trúc, mà giß phần lớn dữ liáu đ°ợc sinh ra và tồn t¿i d°ới d¿ng phi cấu
trúc, nh° các tin nhắn, cập nhật, tin nhắn tho¿i trên m¿ng xã hội hay th° đián tử.
T¿i Viát Nam, tính đến tháng 01/2020, có khoÁng 68 triáu ng°ßi (khoÁng 70% dân
số) dùng internet, 65 triáu ng°ßi (67% dân số) dùng m¿ng xã hội và 146 triáu l°ợt kết
nối đián tho¿i (khoÁng 150% dân số) (theo We are Social, 2020, digital yearbook=), mọi thông tin về ng°ßi dùng internet đều đ°ợc l°u giữ l¿i thành dữ
liáu theo đ¢n vị bit. Báo cáo này cũng nhận định, sự gia tăng cÿa nguồn dữ liáu này hoàn
toàn có thể làm rung chuyển ngành dịch vụ TC- NH theo h°ớng tích cực h¢n khi dữ liáu
đ°ợc thu thập, phân tích, giÁi thích liên quan đến xu h°ớng tài chính, từ đó vẽ nên một
bāc tranh chi tiết về xu h°ớng tiêu dùng và điều mà khách hàng đang tìm kiếm.
Là một tổ chāc cung āng dịch vụ tài chính cho hầu hết các chÿ thể trong nền kinh
tế, ngành Ngân hàng không thể đāng ngoài xu thế āng dụng dữ liáu lớn giống nh° các
doanh nghiáp khác. Đặc thù cÿa ho¿t động ngân hàng (c¢ sá khách hàng rộng lớn, bao
quát mọi mặt tài chính cÿa nền kinh tế) cho phép mỗi ngân hàng xây dựng một c¢ sá dữ
liáu khổng lồ, từ dữ liáu có cấu trúc (nh° lịch sử giao dịch, hồ s¢ khách hàng) tới những
dữ liáu phi cấu trúc (nh° ho¿t động cÿa khách hàng trên website, āng dụng mobile
banking hay trên m¿ng xã hội). Āng dụng Big Data nếu đ°ợc khai thác hiáu quÁ sẽ đem
l¿i những lợi thế c¿nh tranh và hiáu quÁ to lớn trong lĩnh vực ngân hàng đặc biát trong
bối cÁnh thị tr°ßng dịch vụ tài chính đang bão hòa. Tuy nhiên, viác āng dụng dữ liáu lớn
t¿i các ngân hàng th°¢ng m¿i còn h¿n chế, do nhiều nguyên nhân khác nhau. Điều này
làm cho viác má rộng, nâng cao chất l°ợng ho¿t động tín dụng cÿa ngân hàng gặp c¢ số
khó khăn. Từ thực tế đó, em chọn đề tài <þng dụng dữ liệu lớn trong ngành tài chính
ngân hàng= để phân tích những h¿n chế trong āng dụng dữ liáu lớn vào ho¿t động tín
dụng t¿i các ngân hàng th°¢ng m¿i Viát Nam và đ°a ra một số khuyến nghị nhằm đẩy
m¿nh āng dụng công nghá này trong t°¢ng lai. 1
1.2 Tính cấp thiết cÿa đề tài
Dữ liáu nói chung đã trá thành một phần không thể thiếu trong ho¿t động sÁn xuất
kinh doanh cÿa các doanh nghiáp trong nền kinh tế, nhất là trong thßi đ¿i toàn cầu hóa
nh° hián nay. Dữ liáu đang á trong giai đo¿n bùng nổ. Các doanh nghiáp th°ßng l°u trữ
hàng nghìn tỷ byte thông tin về khách hàng, nhà cung cấp, các ho¿t động và hàng triáu
các thiết bị kết nối m¿ng đang đ°ợc sử dụng trong các thiết bị nh° đián tho¿i di động,
thiết bị giám sát hành trình xe ô tô... Các thông tin đa ph°¢ng tián, đặc biát là viác truy
cập m¿ng xã hội từ ng°ßi tiêu dùng tiếp tục thúc đẩy tăng tr°áng theo cấp số nhân. Một
l°ợng lớn dữ liáu cần đ°ợc nắm bắt, truyền đ¿t, tổng hợp, l°u trữ, phân tích - một phần
quan trọng cho mỗi doanh nghiáp trong nền kinh tế toàn cầu. Cũng giống nh° các yếu tố
cần thiết khác cÿa doanh nghiáp nh° tài sÁn hay con ng°ßi, dữ liáu có vai trò không thể
thiếu trong thßi đ¿i nền kinh tế ngày càng phát triển và yêu cầu khắt khe về năng lực cÿa
mỗi doanh nghiáp để c¿nh tranh và tồn t¿i. Câu hỏi đặt ra là ý nghĩa cÿa xu h°ớng gia
tăng trên là gì? Liáu đó có đ¢n giÁn là sự gia tăng cÿa dữ liáu nh° là một xu thế cÿa thế
giới? Hay dữ liáu lớn đang đóng một vai trò quan trọng trong nền kinh tế? Doanh nghiáp
cần phÁi làm gì tr°ớc thßi đ¿i cÿa dữ liáu lớn để theo kịp xu h°ớng, và quan trọng h¢n
hết là gia tăng doanh thu lợi nhuận, cÁi thián và phát huy tình hình sÁn xuất kinh doanh
cÿa chính doanh nghiáp mình, từ đó đóng góp một phần cho sự phát triển chung cÿa đất
n°ớc và xã hội. Thuật ngữ Big Data (dữ liáu lớn) đang dần trá nên phổ biến trên thế giới
trong những năm gần đây, dùng để chỉ một giÁi pháp phân tích dữ liáu có số l°ợng lớn,
đa d¿ng, phāc t¿p với tốc độ xử lý cao. Āng dụng dữ liáu lớn giúp doanh nghiáp tìm hiểu
đ°ợc giá trị thông tin thực sự nằm sau dữ liáu sẵn có, đặc biát trong một xã hội toàn cầu
hóa và thế giới số nh° hián nay, từ đó nghiên cāu đ°ợc sá thích, thói quen cÿa khách hàng. 1.3 Mục đích nghiên cāu
Tận dụng công nghá kỹ thuật số giß đã trá thành yếu tố quyết định khÁ năng c¿nh
tranh cÿa các doanh nghiáp. Một mặt, vì nó có khÁ năng giÁm chi phí kinh doanh, mặt
khác, nó t¿o nên một cuộc cách m¿ng đổi mới công nghá. Trong đó āng dụng dữ liáu
lớn có thể nâng cao chất l°ợng ho¿t động tín dụng cÿa ngân hàng, nhận thāc đ°ợc tầm
quan trọng đó nên em mong muốn đ°ợc nghiên cāu về đề tài để giúp bÁn thân và mọi
ng°ßi có cái nhìn tổng quan và chi tiết h¢n về dữ liáu lớn và các āng dụng cÿa nó đối
với ngành ngân hàng. Báo cáo này nhằm há thống những vấn đề c¢ bÁn về Dữ liáu lớn,
trên c¢ sá đó phân tích những āng dụng cÿa Dữ liáu lớn và các điều kián nhằm āng dụng
Dữ liáu lớn á lĩnh vực ngân hàng trong bối cÁnh cách m¿ng công nghá 4.0 đồng thßi
đánh giá °u điểm cũng nh° những thách thāc khi āng dụng dữ liáu lớn trong ngân hàng.
Từ đó đ°a ra các khuyến nghị nhằm trong t°¢ng lai các ngân hàng á Viát Nam có thể
nâng cao năng lực c¿nh tranh, cÁi thián lợi nhuận h¢n nữa với sự chuẩn bị chu đáo cho xu thế này. 2
1.4 Ph°¢ng pháp nghiên cāu
Để hiểu rõ và nắm đ°ợc nội dung vấn đề nêu trên, em đã áp dụng các ph°¢ng pháp
nghiên cāu khoa học nh° ph°¢ng pháp luận, thu thập số liáu, ph°¢ng pháp phân tích và
tổng hợp… để phân tích những h¿n chế trong āng dụng dữ liáu lớn vào ho¿t động tín
dụng t¿i các ngân hàng th°¢ng m¿i Viát Nam và đ°a ra một số khuyến nghị nhằm đẩy
m¿nh āng dụng công nghá này trong t°¢ng lai. 3
Ch°¢ng 2. Tìm hiểu v công nghß Big Data
2.1 Tổng quan về dữ liáu lớn (Big Data)
2.1.1 Khái niám dữ liáu lớn
Theo Gartner (2012) định nghĩa dữ liáu lớn là khối l°ợng lớn, tốc độ cao và lo¿i
hình thông tin rất đa d¿ng mà yêu cầu ph°¢ng thāc xử lý mới để cho phép tăng c°ßng
ra quyết định, khám phá bên trong và xử lý tối °u.
2.1.2 Nguồn hình thành dữ liáu và ph°¢ng pháp khai thác dữ liáu lớn
Qua thống kê và tổng hợp, nguồn dữ liáu lớn đ°ợc hình thành từ viác sử dụng ngày
càng tăng các công cụ đián tử và há thống thông tin, do các tổ chāc và cá nhân hình thành
trong đßi th°ßng d°ới những hình thāc khác nhau, bao gồm 6 nguồn dữ liáu chÿ yếu
sau: (1) Dữ liáu hành chính (phát sinh từ ch°¢ng trình cÿa một tổ chāc, có thể là chính
phÿ hay phi chính phÿ). Ví dụ, hồ s¢ y tế đián tử á bánh vián, hồ s¢ bÁo hiểm, hồ s¢
ngân hàng...; (2) Dữ liáu từ ho¿t động th°¢ng m¿i (phát sinh từ các giao dịch giữa hai
thực thể). Ví dụ, các giao dịch thẻ tín dụng, giao dịch trên m¿ng, bao gồm cÁ từ các thiết
bị di động; (3) Dữ liáu từ các thiết bị cÁm biến nh° thiết bị chụp hình Ánh vá tinh, cÁm
biến đ°ßng, cÁm biến khí hậu; (4) Dữ liáu từ các thiết bị theo dõi, ví dụ theo dõi dữ liáu
từ đián tho¿i di động, GPS; (5) Dữ liáu từ các hành vi, ví dụ nh° tìm kiếm trực tuyến về
(một sÁn phẩm, một dịch vụ hay thông tin khác), đọc các trang m¿ng trực tuyến...; (6)
Dữ liáu từ các thông tin về ý kiến, quan điểm cÿa các cá nhân, tổ chāc, trên các ph°¢ng tián thông tin xã hội.
Ph°¢ng pháp khai thác và quÁn lý dữ liáu lớn hián nay đ°ợc thiết kế phù hợp dựa
theo các nguồn hình thành dữ liáu lớn. Mỗi nguồn dữ liáu lớn khác nhau sẽ có ph°¢ng
pháp khai thác và quÁn lý dữ liáu lớn khác nhau. Tuy nhiên, hián nay phần lớn các tổ
chāc trên thế giới đều dùng Hadoop ecosystem là giÁi pháp tối °u để khai thác và quÁn lý dữ liáu lớn.
2.1.3 Quy trình xử lý dữ liáu lớn
Big data đ°ợc xử lý thông qua 4 giai đo¿n: thu thập (acquire), tổ chāc (organize),
phân tích (analyze), quyết định (decide).
Đến nay, giai đoạn thu thập hầu hết đã có giÁi pháp. Đ¢n cử, Oracle đ°a ra NoSQL
Database, Google có Google BigTable… 4
Giai đoạn tổ chÿc: có thể l°u trữ dữ liáu á d¿ng phân tán, song song… nh°ng phổ
biến nhất vẫn là Hadoop/MapReduce.
Giai đoạn phân tích: với các dữ liáu truyền thống, các công ty lớn đều đã có giÁi
pháp. Đ¢n cử, Oracle có Oracle Data warehousing, IBM có InfoSphere warehouse…
Giai đoạn quyết định: dựa vào các thông tin đ°ợc phân tích sẽ đ°a ra các quyết
định giÁi pháp kinh doanh kịp thßi. 2.1.4 Phân lo¿i
Dữ liáu Big data có thể chia thành 3 lo¿i theo hình thāc nh° sau:
- Dữ liáu có cấu trúc (Structured): đây là lo¿i dữ liáu phổ biến nhất hián nay t¿i các tổ chāc.
- Dữ liáu không có cấu trúc (Unstructured):những dữ liáu không có khuôn mẫu hoặc cấu
trúc cố định, Ví Dụ Nh° dữ liáu từ các m¿ng xã hội nh° là Facebook,
Twitter, Instagram,... đều là những nguồn dữ liáu không có cấu trúc kết hợp từ văn bÁn, Ánh, video...
- Dữ liáu bán cấu trúc (Semi-structured): Dữ liáu kiểu bán cấu trúc có thể bao gồm tất cÁ
các mẫu dữ liáu.Lo¿i dữ liáu này th°ßng đ°ợc thể hián trong tập tin ngôn ngữ đánh dấu
má rộng (XML- Extensible Markup Language),có chāc năng truyền dữ liáu và mô tÁ
nhiều lo¿i dữ liáu khác nhau.
2.1.5 Đặc tính dữ liáu lớn
Năm 2014, Gartner l¿i đ°a ra một khái niám mới về dữ liáu lớn qua mô hình <5Vs=
với năm tính chất quan trọng cÿa dữ liáu lớn:
Dữ liáu lớn có 5 đặc tr°ng c¢ bÁn nh° sau (mô hình 5V):
(1) Khối l°ợng dữ liáu (Volume) Đây là đặc điểm tiêu biểu nhất cÿa dữ liáu lớn,
khối l°ợng dữ liáu rất lớn. Kích cỡ cÿa Big Data đang từng ngày tăng lên, và tính đến
năm 2012 thì nó có thể nằm trong khoÁng vài chục terabyte cho đến nhiều petabyte (1
petabyte = 1024 terabyte) chỉ cho một tập hợp dữ liáu. Dữ liáu truyền thống có thể l°u
trữ trên các thiết bị đĩa mềm, đĩa cāng. Nh°ng với dữ liáu lớn chúng ta sẽ sử dụng công
nghá <đám mây= mới đáp āng khÁ năng l°u trữ đ°ợc dữ liáu lớn.
(2) Tốc độ (Velocity) Tốc độ có thể hiểu theo 2 khía c¿nh: (a) Khối l°ợng dữ liáu
gia tăng rất nhanh (mỗi giây có tới 72.9 triáu các yêu cầu truy cập tìm kiếm trên web bán
hàng cÿa Amazon); (b) Xử lý dữ liáu nhanh á māc thßi gian thực (real-time), có nghĩa 5
dữ liáu đ°ợc xử lý ngay tāc thßi ngay sau khi chúng phát sinh (tính đến bằng mili giây).
Các āng dụng phổ biến trên lĩnh vực Internet, Tài chính, Ngân hàng, Hàng không, Quân
sự, Y tế – Sāc khỏe nh° hián nay phần lớn dữ liáu lớn đ°ợc xử lý real-time. Công nghá
xử lý dữ liáu lớn ngày nay đã cho phép chúng ta xử lý tāc thì tr°ớc khi chúng đ°ợc l°u
trữ vào c¢ sá dữ liáu.
(3) Đa d¿ng (Variety) Đối với dữ liáu truyền thống chúng ta hay nói đến dữ liáu có
cấu trúc, thì ngày nay h¢n 80% dữ liáu đ°ợc sinh ra là phi cấu trúc (tài liáu, blog, hình
Ánh, vi deo, bài hát, dữ liáu từ thiết bị cÁm biến vật lý, thiết bị chăm sóc sāc khỏe…).
Big Data cho phép liên kết và phân tích nhiều d¿ng dữ liáu khác nhau. Ví dụ, với các
bình luận cÿa một nhóm ng°ßi dùng nào đó trên Facebook với thông tin video đ°ợc chia
sẻ từ Youtube và Twitter.
(4) Độ tin cậy/chính xác (Veracity) Một trong những tính chất phāc t¿p nhất cÿa
Dữ liáu lớn là độ tin cậy/chính xác cÿa dữ liáu. Với xu h°ớng ph°¢ng tián truyền thông
xã hội (Social Media) và m¿ng xã hội (Social Network) ngày nay và sự gia tăng m¿nh
mẽ tính t°¢ng tác và chia sẻ cÿa ng°ßi dùng Mobile làm cho bāc tranh xác định về độ
tin cậy & chính xác cÿa dữ liáu ngày một khó khăn h¢n. Bài toán phân tích và lo¿i bỏ dữ
liáu thiếu chính xác và nhißu đang là tính chất quan trọng cÿa BigData.
(5) Giá trị (Value) Giá trị là đặc điểm quan trọng nhất cÿa dữ liáu lớn, vì khi bắt
đầu triển khai xây dựng dữ liáu lớn thì viác đầu tiên chúng ta cần phÁi làm đó là xác định
đ°ợc giá trị cÿa thông tin mang l¿i nh° thế nào, khi đó chúng ta mới có quyết định có
nên triển khai dữ liáu lớn hay không. Nếu chúng ta có dữ liáu lớn mà chỉ nhận đ°ợc 1%
lợi ích từ nó, thì không nên đầu t° phát triển dữ liáu lớn. Kết quÁ dự báo chính xác thể
hián rõ nét nhất về giá trị cÿa dữ liáu lớn mang l¿i. Ví dụ, từ khối dữ liáu phát sinh trong
quá trình khám, chữa bánh sẽ giúp dự báo về sāc khỏe đ°ợc chính xác h¢n, sẽ giÁm đ°ợc
chi phí điều trị và các chi phí liên quan đến y tế.
2.1.6 Sự khác biát giữa Dữ liáu lớn và dữ liáu truyền thống
Dữ liáu lớn khác với dữ liáu truyền thống (ví dụ, kho dữ liáu - Data Warehouse) á
4 điểm c¢ bÁn: Dữ liáu đa d¿ng h¢n; l°u trữ dữ liáu lớn h¢n; truy vấn nhanh h¢n; độ chính xác cao h¢n.
2.1.7 Lợi ích Dữ liáu lớn
Theo EMC, công ty hàng đầu thế giới chuyên cung cấp giÁi pháp công nghá phục
vụ quÁn trị doanh nghiáp, Big Data mang l¿i một lo¿t lợi ích cho doanh nghiáp:
- Đối tho¿i với khách hàng 6
GiÁ dụ: khi một ng°ßi b°ớc vào ngân hàng, các công cụ cÿa Big Data sẽ cho phép nhân
viên kiểm tra hồ s¢ cÿa ng°ßi đó ngay tāc khắc, giúp họ xác định sÁn phẩm hoặc dịch
vụ liên quan mà ng°ßi đó cần t° vấn. Big Data cũng đóng vai trò quan trọng trong viác
kết nối không gian bán hàng thực và kỹ thuật số: doanh nghiáp có thể kịp thßi cung cấp
dịch vụ qua m¿ng bị di động, dựa theo những nhu cầu cụ thể khách hàng đã chia sẻ trên m¿ng xã hội.
- Tái c¢ cấu sÁn phẩm
Dữ liáu lớn giúp nhìn nhận sÁn phẩm cÿa mình trên nhiều ph°¢ng diáu khác nhau, từ đó
điều chỉnh sÁn phẩm hoặc chiến l°ợc marketing cÿa doanh nghiáp cho phù hợp. Các dữ
liáu phân tích nội dung chia sẻ trên m¿ng xã hội cũng giúp nhà quÁn lý nắm đ°ợc tâm
t°, tình cÁm cÿa khách hàng, và có thể phân lo¿i theo vị trí địa lý hoặc theo các nhóm
nhân khẩu học khác nhau.
Đối với các nhà thiết kế và sÁn xuất, Big Data cũng cho phép thử nghiám hàng nghìn
phiên bÁn thiết kế khác nhau trên máy tính chỉ trong giây lát, cho phép kiểm tra những
thay đổi nhỏ nhất, nh° sự Ánh h°áng cÿa vật liáu tới giá thành, thßi gian vận hành và
hiáu suất. Từ đó, giúp tăng tính hiáu quÁ cÿa quá trình sÁn xuất. - Phân tích rÿi ro
Thành công không chỉ phụ thuộc vào ph°¢ng thāc điều hành công ty. Các yếu tố xã hội
và kinh tế cũng là những Ánh h°áng quan trọng. Những phân tích mang tính dự đoán,
đ°ợc thực hián bái Big Data, cho phép nhà quÁn lý điểm qua và phân tính những bÁn
báo cáo tin tāc hoặc bÁng tin m¿ng xã hội, giúp họ cập nhật liên tục những dißn biến mới
trong ngành và môi tr°ßng xung quanh. Bài kiểm tra chi tiết về các nhà cung cấp hoặc
khách hàng cũng là một tính năng v°ợt trội cÿa Big Data. Nó giúp lãnh đ¿o doanh nghiáp
có thể hành động ngay khi một trong số nhà cung cấp hoặc khách hàng đang đāng tr°ớc nguy c¢ phá sÁn.
- L°u trữ giữ liáu an toàn
Nhà quÁn lý có thể yêu cầu một bÁn đồ dữ liáu toàn dián cho cÁ công ty với các công cụ
cÿa Big Data, từ đó đánh giá những mối đe dọa ngay trong nội bộ, phát hián những thông
tin nh¿y cÁm đang đ°ợc bÁo vá một cách s¢ sài, và tinh chỉnh l¿i để l°u trữ chúng đúng quy định.
- Nguồn doanh thu mới
Những dữ liáu b¿n thu đ°ợc từ thị tr°ßng và khách hàng cÿa mình qua Big Data không
chỉ có giá trị với riêng doanh nghiáp. Lãnh đ¿o doanh nghiáp có thể quyết định bán
chúng d°ới d¿ng táp thông tin tổng quan cho những nhà kinh doanh lớn cùng ngành, và
t¿o ra một nguồn thu hoàn toàn mới.
- Tùy chỉnh trang web tāc thßi
Phân tích cÿa Big Data giúp doanh nghiáp tùy chỉnh nội dung hoặc thiết kế trên trang
web cÿa mình ngay lập tāc để phù hợp với từng đối t°ợng khách hàng truy cập, dựa theo
giới tính, quốc tịch và nguồn họ d°ợc dẫn đến trang web cÿa b¿n, v.v... Āng dụng phổ
biến nhất là để cung cấp gợi ý cho khách hàng: nh° cách Amazon sử dụng bộ lọc kết
hợp dựa trên sÁn phẩm cÿa mình để t¿o chāc năng 8Những sÁn phẩm hay đ°ợc mua 7
chung9 và 8Khách hàng mua sÁn phẩm này cũng th°áng mua9 cÿa mình. Sự thật chāng
mình cách tiếp cận đó rất hiáu quÁ, bái Amazon đã tăng đ°ợc 20% doanh thu cÿa mình nhß ph°¢ng thāc này.
- Xây dựng há thống y tế tân tiến
Chúng ta đang sống trong một thế giới mang tính cá nhân hóa rất cao, nh°ng há thống
chăm sóc sāc khỏe l¿i là một trong những lĩnh vực vẫn còn sử dụng ph°¢ng pháp tiếp
cận tổng quan. Khi một ng°ßi bị chẩn đoán ung th°, họ phÁi trÁi qua một đợt trị liáu nhất
định, và nếu nó không thành công, bác sĩ sẽ phÁi thử nghiám một ph°¢ng pháp điều trị
khác. Nh°ng, nếu bánh nhân ung th° đ°ợc uống thuốc đặc chế theo cấu t¿o gen cÿa
ng°ßi đó thì sao? Ph°¢ng pháp này chắc chắn sẽ dẫn đến một kết quÁ khÁ quan h¢n, với
chi phí thấp h¢n, khÁ năng thất b¿i thấp h¢n và giÁm thiểu nỗi lo sợ cÿa bánh nhân. Với
kỹ thuật lập bÁn đồ gen và công cụ cÿa Big Data, viác sá hữu một bÁn đồ gen cÿa riêng
mình trong hồ s¢ y tế sẽ sớm trá nên phổ biến. Điều này giúp y học tiến gần h¢n tới viác
xác định yếu tố di truyền gây bánh mà đặc chế ra lo¿i thuốc dành riêng cho những nguyên
nhân đó – hay nói cách khác là những lo¿i thuốc đ°ợc cá nhân hóa.
2.1.8 Những thách thāc Big Data mang l¿i
- Truyền dữ liệu: viác truyền dữ liáu lớn th°ßng phÁi gánh chịu chi phí cao, đây là
khỏi trong các āng dụng Big data. Nâng cao hiáu quÁ truyền dữ liáu lớn là một yếu tố
quan trọng để nâng cao tính toán Big data.
- Tốc độ xử lý trong các yêu cầu thời gian thực: khi dữ liáu số l°ợng dữ liáu tăng
nhanh chóng, gây ra một thách thāc rất lớn đối với các āng dụng thßi gian thực, thì viác
tìm ra các ph°¢ng pháp hiáu quÁ trong suốt luồng dữ liáu là cần thiết để đáp āng yêu cầu về thßi gian thực.
- Nền tảng Big data: mặc dù Hadoop đã trá thành một trụ cột trong nền tÁng phân
tích Big data nh°ng nó vẫn còn trong giai đo¿n phát triển, so với c¢ sá dữ liáu quan há.
Đầu tiên, Hadoop phÁi tích hợp với thßi gian thực cho viác thu thập và truyền Big data,
và cung cấp xử lý nhanh h¢n dựa trên các mô hình xử lý hàng lo¿t. Thÿ hai, Hadoop nên
cung cấp một giao dián lập trình ngắn gọn, và ẩn những tiến trình xử lý phāc t¿p bên
d°ới. Thÿ ba, trong những há thống Hadoop lớn, số l°ợng máy chÿ lên hàng ngàn, thậm
chí hàng trăm ngàn, nghĩa là năng l°ợng tiêu thụ đáng kể. Vì vậy, Hadoop nên có c¢ chế
sử dụng năng l°ợng hiáu quÁ.
- Bảo mật dữ liệu và quyền riêng tư: là vấn đề rất quan trọng. Một số ví dụ trong
thực tế cho thấy, không chỉ thông tin cá nhân ng°ßi tiêu dùng, thông tin mật cÿa các tổ
chāc mà ngay cÁ các bí mật an ninh quốc gia cũng có thể bị xâm ph¿m. Do vậy, giÁi
quyết các vấn đề an ninh dữ liáu bằng các công cụ kỹ thuật và các chính sách trá nên vô
cùng cấp bách. Các nền tÁng Big data nên cân bằng tốt giữa viác truy cập dữ liáu và xử lý dữ liáu. 8
2.2 Giới thiáu về công nghá trong Big Data
Có rất nhiều công nghá để giÁi quyết vấn đề l°u trữ và xử lý Big Data. à đây, em
sẽ tìm hiểu tổng quan về công nghá đián toán đám mây và há sinh thái Hadoop - 2 công
nghá gắn bó mật thiết với Big Data 2.2.1 Đián toán đám mây
Đián toán đám mây đóng vai trò quan trọng trong thế giới Big Data, bằng cách
cung cấp c¢ sá h¿ tầng đ°ợc tối °u hóa và má rộng. Điều đó hỗ trợ trong viác thực tế hóa Big Data. 2.2.1.1 Khái niám
Theo Vián Tiêu chuẩn và Công nghá Mỹ (NIST), đián toán đám mây đ°ợc định
nghĩa nh° sau: "Đián toán đám mây là mô hình dịch vụ cho phép ng°ßi truy cập tài
nguyên đián toán dùng chung (m¿ng, server, l°u trữ, āng dụng, dịch vụ) thông qua kết
nối m¿ng một cách dß dàng, mọi lúc, mọi n¢i, theo yêu cầu. Tài nguyên đián toán đám
mây có thể đ°ợc thiết lập hoặc hÿy bỏ nhanh chóng bái ng°ßi dùng mà không cần sự
can thiáp cÿa Nhà cung cấp dịch vụ".
2.2.1.2 Đặc điểm đián toán đám mây
Về c¢ bÁn thì cloud computing có 5 đặc điểm sau đây:
- KhÁ năng co dãn (Rapid elasticity): Tài nguyên có khÁ năng thay đổi tăng lên hay
giÁm đi tùy thuộc vào nhu cầu sử dụng cÿa khách hàng. Đối với khách hàng tài nguyên
trên đián toán đám mây luôn luôn sẵn sàng và có thể coi là không giới h¿n, có thể truy
cập vào bất kỳ thßi điểm nào.
- Dịch vụ theo nhu cầu (On-demand self-service): Khách hàng có thể đ°ợc cung
cấp tài nguyên d°ới d¿ng máy chÿ hay dung l°ợng l°u trữ,…một cách tự động theo yêu
cầu mà không cần phÁi có sự can thiáp từ phía nhà cung cấp dịch vụ.
- Không phụ thuộc vị trí (Location independent resource pooling): Khách hàng
không biết vị trí cÿa tài nguyên đ°ợc cung cấp, tuy nhiên họ vẫn có thể làm điều này
thông qua các dịch vụ nâng cao cÿa nhà cung cấp.
- Truy cập dß dàng (Broad network access): Chỉ cần 1 āng dụng kết nối internet từ
bất cā thiết bị nào nh° máy tính để bàn, laptop, thiết bị di động,…ng°ßi dùng có thể truy
cập tới tài nguyên đám mây.
- Điều tiết dịch vụ (Measured service): Tài nguyên sử dụng có thể đ°ợc giám sát,
đo l°ßng và khách hàng th°ßng sẽ chỉ trÁ phí cho l°ợng tài nguyên họ sử dụng.
2.2.1.3 Những lợi ích v°ợt trội cÿa đián toán đám mây đối với Big Data
Xây dựng c¢ sá h¿ tầng dữ liáu nhanh chóng, linh ho¿t
Tr°ớc đây viác xây dựng c¢ sá h¿ tầng, máy chÿ th°ßng tốn nhiều thßi gian cho
viác lắp đặt và vận hành (có thể mất vài tuần đến vài tháng), nh°ng với cloud thì chúng
ta có thể tự chÿ đ°ợc thßi gian, và không cần lo đến dung l°ợng (khối l°ợng) cÿa dữ liáu
sau này thay đổi nh° thế nào. 9
Tối °u chi phí ho¿t động
Tr°ớc đây khi còn sử dụng há thống máy chÿ mặt đất thì chi phí cho viác lắp đặt,
vận hành và bÁo trì luôn trá thành gánh nặng cho các công ty. Ngày nay nguồn dữ liáu
đang dần chuyển đổi thành Big Data thì gánh nặng chi phí còn có thể gia tăng nhiều h¢n, nghiêm trọng h¢n.
Nh°ng từ khi cloud xuất hián, các công ty gần nh° không còn phÁi lo về vấn đề
này. Họ chỉ cần thanh toán chi phí cho dung l°ợng sử dụng cloud và chi phí Internet,
tiêu thụ đián mà thôi. Thay vì các công ty tập trung vốn đầu t° vào bộ phận IT với những
máy chÿ, ổ cāng cồng kềnh phÁi theo dõi, bÁo trì hàng tháng hàng năm, thì họ có thể tập
trung đầu t° má rộng các lĩnh vực kinh doanh mới, chiến l°ợc lâu dài hay thậm chí
nghiên cāu các mô hình, thuật toán phân tích Big Data.
Tăng tốc độ xử lý, đ¿t đ°ợc giá trị nhanh nhất từ Big Data
Với cloud, công ty sẽ bắt kịp với xu h°ớng công nghá, xu h°ớng ng°ßi tiêu dùng
nhanh h¢n nhß vào tốc độ xử lý Big Data. Ví dụ khi họ cần thay đổi ch°¢ng trình quÁn
lý, cách thāc tiếp cận dữ liáu, hoặc mô hình phân tích khác mới h¢n, tối °u h¢n thì chỉ
cần t¿o ra hay thêm vào trực tiếp trên cloud một cách nhanh chóng.
Tăng độ chính xác, hiáu quÁ phân tích Big Data theo thßi gian thực
Nhß lợi ích phía trên mà cloud đem l¿i, các current data hay còn gọi là dữ liáu hián
t¿i, dữ liáu mới đ°ợc xử lý nhanh chóng trong thßi gian thực và các giÁi pháp, chiến l°ợc
đ°ợc hình thành từ kết quÁ phân tích sẽ đem l¿i hiáu quÁ kinh doanh cao h¢n.
Tr°ớc đây, khi các dữ liáu đ°ợc thu thập sẽ mất khá nhiều thßi gian để khai thác
do chúng ta sử dụng các há thống c¢ sá h¿ tầng cũ và cāng nhắc.
Nếu để càng lâu thì những kết quÁ phân tích có đ°ợc sẽ phÁn ánh các khía c¿nh cÿa
quá khā và dĩ nhiên các chiến l°ợc đề ra sẽ khó lòng phù hợp á thực t¿i. H¢n nữa, nguồn
dữ liáu Big data đ°ợc cập nhật liên tục theo từng ngày, từng giß, từng phút, từng giây
nếu chúng ta chậm trong viác xử lý và phân tích thì giá trị cÿa chúng cũng sẽ giÁm theo thßi gian.
Cung cấp lợi thế c¿nh tranh cho các doanh nghiáp, công ty nhỏ
Các công ty quy mô nhỏ có thể mua một nền tÁng đám mây tùy theo sự lựa chọn
và mục đích cÿa mình để l°u trữ và phân tích mà không cần thanh toán hoặc chịu trách
nhiám cho bất kỳ khoÁn phí nào khác.
2.2.1.4 Các mô hình dịch vụ
1. C¢ sá h¿ tầng nh° một dịch vụ (IAAS): Có nghĩa b¿n sẽ đ°ợc cung cấp c¢ sá h¿
tầng hoàn chỉnh. Các nhiám vụ liên quan đến bÁo trì sẽ đ°ợc thực hián bái nhà cung cấp
đám mây và b¿n sử dụng nó theo yêu cầu cÿa mình. Nó có thể đ°ợc sử dụng nh° là đám mây chung hoặc riêng. 10
2. Nền tÁng nh° một dịch vụ (PAAS): Đám mây l°u trữ đối t°ợng, sắp xếp, c¢ sá
dữ liáu, thßi gian ch¿y, v.v. Tất cÁ những thông tin này có thể nhận trực tiếp từ nhà cung
cấp đám mây. Họ có trách nhiám cấu hình và sử dụng nó.
Nhà cung cấp sẽ cung cấp cho ng°ßi dùng các tài nguyên nh°ng viác kết nối với
c¢ sá dữ liáu và các ho¿t động t°¢ng tự khác là trách nhiám cÿa ng°ßi dùng. Ví dụ về
PaaS là Windows Azure và Google App Engine (GAE).
3. Các āng dụng hoặc phần mềm nh° một dịch vụ (SAAS), Salesforce.com,
dropbox, google drive, v.v …Ng°ßi dùng đang sử dụng āng dụng đang ch¿y trên đám
mây. Tất cÁ các thiết lập c¢ sá h¿ tầng là trách nhiám cÿa nhà cung cấp dịch vụ. Để
SAAS ho¿t động, c¢ sá h¿ tầng (IAAS) và nền tÁng (PAAS) phÁi đ°ợc hoàn thián.
(Microsoft Office 365 là ví dụ điển hình nhất cho mô hình này)
2.2.1.5 Các mô hình triển khai
Public Cloud (Đám mây Định nghĩa: Là các dịch vụ đ°ợc bên thā 3 (ng°ßi bán) cung cấp. Chúng tồn t¿i
ngoài t°ßng lửa cÿa công ty và đ°ợc nhà cung cấp đám mây quÁn lý. Nó đ°ợc xây dựng
nhằm phục vụ cho mục đích sử dụng công cộng, ng°ßi dùng sẽ đăng ký với nhà cung
cấp và trÁ phí sử dụng dựa theo chính sách giá cÿa nhà cung cấp. Public cloud là mô hình
triển khai đ°ợc sử dụng phổ biến nhất hián nay cÿa cloud computing.
Private Cloud (Đám mây Định nghĩa: Private cloud là các dịch vụ đián toán đám mây đ°ợc cung cấp trong
các doanh nghiáp. Những <đám mây= này tồn t¿i bên trong t°ßng lửa cÿa công ty và
đ°ợc các doanh nghiáp trực tiếp quÁn lý. Đây là xu h°ớng tất yếu cho các doanh nghiáp
nhằm tối °u hóa h¿ tầng công nghá thông tin.
Hybrid Cloud (Đám mây Định nghĩa: Là sự kết hợp cÿa private cloud và public cloud. Cho phép ta khai thác
điểm m¿nh cÿa từng mô hình cũng nh° đ°a ra ph°¢ng thāc sử dụng tối °u cho ng°ßi sử
dụng. Những <đám mây= này th°ßng do doanh nghiáp t¿o ra và viác quÁn lý sẽ đ°ợc
phân chia giữa doanh nghiáp và nhà cung cấp đián toán đám mây công cộng.
Community Cloud (Đám mây cộng đồng)
Định nghĩa: Là các dịch vụ trên nền tÁng đián toán đám mây do các công ty cùng
hợp tác xây dựng và cung cấp các dịch vụ cho cộng đồng. Những đ¢n vị hoặc tổ chāc
xây dựng dịch vụ đám mây cộng đồng này th°ßng có chung một mục tiêu, nhiám vụ hay
sāc mánh,… Và không để tổ chāc nào độc quyền đám mây cộng đồng này, các tổ chāc,
đ¢n vị th°ßng uỷ thác cho 1 bên thā 3 để quÁn lý.
Có thể thấy Đián toán đám mây đóng vai trò quan trọng trong thế giới Big Data,
bằng cách cung cấp c¢ sá h¿ tầng đ°ợc tối °u hóa và má rộng. Điều đó hỗ trợ trong viác
thực tế hóa Big Data. Tiếp sau ta sẽ đi tìm hiểu về một công nghá cốt lõi trong l°u trữ
và truy cập dữ liáu lớn 11 2.2.2 Há sinh thái Hadoop
Vì mang trong mình số l°ợng thông tin lớn nên Big Data không thể đ°ợc xử lý
bằng những công cụ truyền thống không. Ngành công nghá sẽ sử dụng các công cụ phân
tích Big Data chuyên dụng để xử lý lĩnh vực khó nhằn này. Hadoop là công nghá cốt lõi
cho viác l°u trữ và truy cập dữ liáu lớn. Đây là một trong những công nghá liên quan
chặt chẽ nhất với big data. 2.2.2.1 Khái niám
Hadoop là một d¿ng framework, cụ thể là Apache. Apache Hadoop là một mã
nguồn má cho phép sử dụng các distributed processing (āng dụng phân tán) để quÁn lý
và l°u trữ những táp dữ liáu lớn. Hadoop áp dụng mô hình MapReduce trong ho¿t động xử lý Big Data. 2.2.2.2 Kiến trúc Hadoop
Vì sử dụng cùng lúc MapReduce và HDFS nên Hadoop sẽ có cấu trúc cÿa cÁ 2 lo¿i
này. Hadoop kế thừa cấu trúc node từ HDFS. Cụ thể, một cụm Hadoop sẽ bao gồm 1
master node (node chÿ) và rất nhiều worker/slave node (node nhân viên). Một cụm cũng
bao gồm 2 phần là MapReduce layer và HDFS layer. Master node bao gồm JobTracker,
TaskTracker, NameNode, và DataNode. Còn Worker/Slave node bao gồm DataNode và
TaskTracker. Trong một số tr°ßng hợp, Worker/Slave node đ°ợc dùng để làm dữ liáu hoặc tính toán.
Hadoop Apache bao gồm 4 module khác nhau. Sau đây sẽ là giới thiáu chi tiết về từng lo¿i. Hadoop Common
Hadoop Common đ°ợc dùng nh° một th° vián l°u trữ các tián ích cÿa Java. T¿i
đây có những tính năng cần thiết để các modules khác sử dụng. Những th° vián này
mang đến há thống file và lớp OS trừu t°ợng. Song song với đó, nó cũng l°u trữ các mã
lánh cÿa Java để thực hián quá trình khái động Hadoop. Hadoop YARN
Phần này đ°ợc dùng nh° một framework. Nó hỗ trợ ho¿t động quÁn lý th° vián tài
nguyên cÿa các cluster và thực hián ch¿y phân tích tiến trình.
Hiểu rõ cách ho¿t động cÿa các modules sẽ giúp b¿n nắm rõ khái niám Hadoop.
Hadoop Distributed File System (HDFS) 12
Một trong những vấn đề lớn nhất cÿa các há thống phân tích Big Data là quá tÁi.
Không phÁi há thống nào cũng đÿ khỏe để có thể tiếp nhận một l°ợng thông tin khổng
lồ nh° vậy. Chính vì thế, nhiám vụ cÿa Hadoop Distributed File System là phân tán cung
cấp truy cập thông l°ợng cao giúp cho āng dụng chÿ. Cụ thể, khi HDFS nhận đ°ợc một
táp tin, nó sẽ tự động chia file đó ra thành nhiều phần nhỏ. Các mÁnh nhỏ này đ°ợc nhân
lên nhiều lần và chia ra l°u trữ t¿i các máy chÿ khác nhau để phân tán sāc nặng mà dữ liáu t¿o nên.
Nh° đã nói á trên, HDFS sử dụng cấu trúc master node và worker/slave node.
Trong khi master node quÁn lý các file metadata thì worker/slave node chịu trách nhiám
l°u trữ dữ liáu. Chính vì thế nên worker/slave node cũng đ°ợc gọi là data node. Một
Data node sẽ chāa nhiều khối đ°ợc phân nhỏ cÿa táp tin lớn ban đầu. Dựa theo chỉ thị từ
Master node, các Data node này sẽ trực tiếp điều hành ho¿t động thêm, bớt những khối nhỏ cÿa táp tin. Hadoop MapReduce
Module này ho¿t động dựa trên YARN trong viác xử lý các táp dữ liáu lớn. Hadoop
MapReduce cho phép phân tán dữ liáu từ một máy chÿ sang nhiều máy con. Mỗi máy
con này sẽ nhận một phần dữ liáu khác nhau và tiến hành xử lý cùng lúc. Sau đó chúng
sẽ báo l¿i kết quÁ lên máy chÿ. Máy chÿ tổng hợp thông tin l¿i rồi trích xuất theo nh°
yêu cầu cÿa ng°ßi dùng.
Cách thực thi theo mô hình nh° vậy giúp tiết kiám nhiều thßi gian xử lý và cũng
giÁm gánh nặng lên há thống. Chāc năng cÿa máy chÿ là quÁn lý tài nguyên, đ°a ra thông
báo, lịch trình ho¿t động cho các máy tr¿m. Các máy tr¿m sẽ thực thi theo kế ho¿ch đ°ợc
định sẵn và gửi báo cáo dữ liáu l¿i cho máy chÿ. Tuy nhiên đây cũng là điểm yếu cÿa há
thống này. Nếu máy chÿ bị lỗi thì toàn bộ quá trình sẽ bị ngừng l¿i hoàn toàn.
2.2.2.3 Cách thāc ho¿t động cÿa công nghá Hadoop
Giai đo¿n 1: Ng°ßi dùng hoặc āng dụng sẽ gửi một job lên Hadoop để yêu cầu xử
lý và thao tác. Job này sẽ đi kèm các thông tin c¢ bÁn nh°: n¢i l°u trữ dữ liáu input và
output, các java class chāa các dòng lánh thực thi, các thông số thiết lập cụ thể.
Giai đo¿n 2: Sau khi nhận đ°ợc các thông tin cần thiết, máy chÿ sẽ chia khối l°ợng
công viác đến cho các máy tr¿m. Máy chÿ sẽ tiến hành theo dõi quá trình ho¿t động cÿa
các máy tr¿m và đ°a ra các lánh cần thiết khi có lỗi xÁy ra. 13
Giai đo¿n 3: Các nodes khác nhau sẽ tiến hành ch¿y tác vụ MapReduce. Nó chia
nhỏ các khối và thay phiên nhau xử lý dữ liáu. Khi Hadoop ho¿t động, nó sử dụng một
táp tin nền làm địa chỉ th°ßng trú. Táp tin này có thể tồn t¿i trên 1 hoặc nhiều máy chÿ khác nhau.
2.2.2.4 ¯u điểm cÿa công nghá Hadoop
Hadoop cho phép ng°ßi dùng nhanh chóng kiểm tra đ°ợc tiến trình ho¿t động cÿa
các phân tán. Nhß vào c¢ chế xử lý cùng lúc cÿa các lõi CPU, một l°ợng lớn dữ liáu
đ°ợc phân phối xuyên suốt liên tục và không bị gián đo¿n do quá tÁi.
Hadoop không bị Ánh h°áng bái c¢ chế chịu lỗi cÿa fault-tolerance and high
availability (FTHA). Nó có khÁ năng xử lý lỗi riêng nhß các th° vián đ°ợc thiết kế để
phát hián lỗi á các lớp āng dụng. Chính vì thế, khi không may có lỗi xÁy ra, Hadoop sẽ
nhanh chóng xử lý nó trong thßi gian ngắn nhất nhß c¢ chế chÿ động cÿa mình.
Một °u điểm nữa cÿa Hadoop là khÁ năng triển khai rất nhiều master-slave song
song để xử lý các phần khác nhau. Vì có nhiều server master nên công viác sẽ công bị
trì hoãn dù không may có một master bị lỗi.
Và cuối cùng, do Hadoop đ°ợc xây dựng từ ngôn ngữ Java nên nó có khÁ năng
t°¢ng thích với rất nhiều nền tÁng và há điều hành khác nhau, từ Window, Linux đến MacOs… 14
Ch°¢ng 3. Ứng dÿng dÿ lißu lán trong các ho¿t đßng
tài chính ngân hàng
3.1 Thā nhất, phân tích các thói quen chi tiêu cÿa khách hàng
Các ngân hàng có khÁ năng truy cập trực tiếp nguồn thông tin, dữ liáu lịch sử dồi
dào liên quan đến các thói quen, hành vi chi tiêu cÿa khách hàng. Các ngân hàng còn
nắm thông tin chi tiết về nguồn thu cÿa khách hàng trong một năm, khoÁn chi tiêu, các
dịch vụ ngân hàng mà khách hàng sử dụng… Điều này cung cấp c¢ sá, c¢ hội để các
ngân hàng tiếp cận và phân tích dữ liáu sâu h¢n. Áp dụng các chāc năng sàng lọc thông
tin, ví dụ nh°, khi lọc ra thßi điểm dịp lß hay mùa lß và điều kián vĩ mô (l¿m phát, tỷ lá
thất nghiáp…) mà nhân viên ngân hàng có thể hiểu đ°ợc nguyên nhân cÿa biến động
trong thu nhập hay chi tiêu cÿa ngân hàng. Đây là một trong các yếu tố quan trọng trong
quá trình đánh giá rÿi ro, thẩm định hồ s¢ cho vay, má rộng dịch vụ cung cấp hay bán
chéo sÁn phẩm đến khách hàng.
3.2 Thā hai, phân khúc khách hàng và thẩm định hồ s¢.
Phân khúc khách hàng là một trong những nhân tố quan trọng trong chiến l°ợc
marketing và thiết kế sÁn phẩm cÿa ngân hàng. Một khi các phân tích ban đầu về thói
quen chi tiêu cÿa khách hàng cùng với xác định các lo¿i hình dịch vụ, kênh giao dịch
đ°ợc khách hàng °u tiên đ°ợc hoàn tất thì các ngân hàng sẽ có đ°ợc một c¢ sá dữ liáu
phục vụ cho quá trình phân khúc, phân lo¿i khách hàng một cách phù hợp dựa vào thông
tin và hồ s¢ khách hàng cung cấp. Big Data sẽ cung cấp cho các ngân hàng những hiểu
biết, kiến thāc chuyên môn sâu về nhu cầu tiềm ẩn bên trong, thói quen và xu h°ớng chi
tiêu cÿa khách hàng, trợ giúp cho nhiám vụ xác định nhu cầu và mong muốn cÿa họ.
Bằng cách nắm các thông tin liên quan đến giao dịch, ngân hàng có thể xác định đ°ợc
khách hàng cÿa mình thuộc các nhóm nào, ví dụ nhóm có chi tiêu dß dàng, nhóm nhà
đầu t° thận trọng, nhóm thanh toán nợ nhanh chóng, nhóm khách hàng trung thành…
3.3 Thā ba, bán chéo thêm các dịch vụ khác
Dựa vào c¢ sá dữ liáu ngân hàng có đ°ợc, ngân hàng có thể thu hút thêm, hay giữ
chân khách hàng bằng cách giới thiáu thêm các dịch vụ khác. Ví dụ, ngân hàng có thể
giới thiáu các khoÁn đầu t° có lãi suất hấp dẫn đến các khách hàng có l°ợng tiền nhàn
rỗi hoặc những nhà đầu t° thận trọng. Ngân hàng cũng có thể đề xuất các khoÁn vay
ngắn h¿n cho các khách hàng có thói quen chi tiêu dß dàng để đáp āng nhu cầu hàng 15
ngày hoặc những khoÁn vay đáp āng nhu cầu thanh khoÁn ngắn h¿n cÿa doanh nghiáp.
Phân tích một cách chính xác về hồ s¢ cá nhân cÿa khách hàng, ngân hàng có thể bán
kèm các dịch vụ khác với các °u đãi đ°ợc tập trung chính xác vào nhu cầu khách.
3.4 Thā t°, nâng cao chất l°ợng dịch vụ thông qua xây dựng há thống thu thập các phÁn
hồi khách hàng và phân tích chúng
Khách hàng có thể để l¿i phÁn hồi sau mỗi lần giao dịch hay mỗi lần nhận đ°ợc t°
vấn từ trung tâm hỗ trợ chăm sóc khách hàng hoặc qua các biểu mẫu phÁn hồi; nh°ng
th°ßng xuyên (hay có thể nói nhiều khÁ năng) chia sẻ ý kiến thông qua các ph°¢ng tián
truyền thông xã hội h¢n, ví dụ Facebook, Zalo,…Các công cụ Big Data có thể tìm kiếm
chọn lọc thông qua các thông tin, feedback công khai trên các ph°¢ng tián truyền thông
và thu thập tất cÁ những dữ liáu đề cập về th°¢ng hiáu cÿa ngân hàng để có thể phÁn hồi
nhanh chóng và đầy đÿ đến khách hàng, ngoài ra, cũng hỗ trợ ngăn chặn các tin đồn thất
thiát Ánh h°áng đến ho¿t động kinh doanh và niềm tin n¢i khách hàng. Khi khách hàng
cÁm thấy ngân hàng lắng nghe, đánh giá cao ý kiến và thực hián những cÁi tiến, thay đổi
theo yêu cầu cÿa họ thì sự trung thành dành cho th°¢ng hiáu sẽ gia tăng, h¢n nữa cÁi
thián hình Ánh cÿa ngân hàng.
3.5 Thā năm, marketing theo h°ớng cá nhân hóa.
Sau khi có đ°ợc phân khúc khách hàng thì các ngân hàng cần tận dụng để marketing
nhắm tới mục tiêu khách hàng dựa trên trên những hiểu biết về thói quen chi tiêu cá nhân
cÿa họ. Ngoài viác thu thập dữ liáu về lịch sử giao dịch cÿa khách hàng, ngân hàng có
thể kết hợp dữ liáu phi cấu trúc đ°ợc lấy ra từ m¿ng xã hội để có đ°ợc một bāc tranh
đầy đÿ h¢n về nhu cầu cÿa khách hàng dựa trên các phân tích về tâm lý, mong muốn
khách hàng á mọi thßi điểm. Từ đó, ngân hàng có thể đ°a ra các giÁi pháp, kế ho¿ch
marketing phù hợp để có đ°ợc tỷ lá phÁn hồi cao h¢n từ khách hàng.
3.6 Thā sáu, thay đổi cách thāc cung cấp dịch vụ đến khách hàng
Há thống Big Data có thể là một há thống phāc t¿p liên kết giữa nhiều bộ phận
chāc năng khác nhau với vai trò đ¢n giÁn hóa các nhiám vụ trong một tổ chāc. Bất cā
khi nào tên một khách hàng hoặc số tài khoÁn đ°ợc nhập vào há thống, há thống Big
Data sẽ hỗ trợ sàng lọc tất cÁ các dữ liáu và chỉ truyền đi hay cung cấp các dữ liáu đ°ợc
yêu cầu để phục vụ cho quá trình phân tích. Điều này cho phép các ngân hàng tối °u hóa
quy trình làm viác và tiết kiám cÁ thßi gian và chi phí. Big Data cũng cho phép các tổ
chāc xác định và khắc phục các vấn đề tr°ớc khi khách hàng bị Ánh h°áng. 16
3.7 Thā bÁy, phát hián và ngăn chặn hành vi lừa đÁo, vi ph¿m pháp luật
Big Data sẽ cho phép các ngân hàng đÁm bÁo không có giao dịch trái phép nào
đ°ợc thực hián, cung cấp māc độ an toàn, nâng cao tiêu chuẩn bÁo mật cÿa toàn bộ
ngành. Nhß vào dữ liáu về lịch sử giao dịch và hồ s¢ tín dụng cÿa khách hàng, ngân hàng
có thể nhận dián những bất th°ßng trong quá trình cung cấp dịch vụ đến khách hàng. Ví
dụ, khoÁn rút tiền lớn bất th°ßng từ thẻ ATM có thể do thẻ bị mất cắp, từ đó, ngân hàng
có những bián pháp an ninh để xác minh giao dịch. Ngân hàng khai thác Big Data để
phân biát giữa các giao dịch là hành vi ph¿m tội với các giao dịch hợp pháp bằng các
thuật toán phân tích dữ liáu và machine learning (học máy). Các há thống phân tích sẽ
tự động phát hián, trích xuất các giao dịch bất hợp pháp á thßi gian thực và đề xuất các
hành động ngay lập tāc.
3.8 Thā tám, kiểm soát rÿi ro, tuân thÿ luật pháp và minh b¿ch trong báo cáo tài chính
Các thuật toán cÿa Big Data còn giúp giÁi quyết các vấn đề về tuân thÿ quy định
pháp luật về kế toán, kiểm toán và báo cáo tài chính, từ đó giÁm đ°ợc các chi phí quÁn
lý. Bên c¿nh đó, há thống Big Data thu thập và l°u trữ dữ liáu lớn giúp ngân hàng tiến
hành phân tích một cách nhanh nhất khi có các dấu hiáu về rÿi ro xÁy ra, từ đó đ°a ra
các bián pháp xử lý. Big Data cũng đóng một vai trò quan trọng trong viác phối hợp
giữa các bộ phận, phòng, ban và yêu cầu xử lý dữ liáu cÿa ngân hàng vào một há thống
trung tâm duy nhất; qua đó, hỗ trợ kiểm soát, ngăn chặn vấn đề mất dữ liáu, giÁm thiểu rÿi ro và gian lận.
3.9 Thā chín, tham gia vào viác kiểm soát đánh giá và nâng cao hiáu quÁ làm viác cÿa nhân viên
Há thống Big Data hỗ trợ thu thập phân tích, đánh giá và truyền tÁi dữ liáu về hiáu
quÁ làm viác cÿa nhân viên. Tr°ớc đây, để thu thập các thông tin này cần rất nhiều công
đo¿n mang tính thÿ công, thì nay, Big Data sẽ giúp xử lý các công viác này một cách
nhanh chóng và chính xác. Kết quÁ phân tích sẽ giúp các nhà lãnh đ¿o có cái nhìn về
tình hình, thực tr¿ng làm viác hián t¿i cÿa nhân viên, đặc biát xem xét māc độ hài lòng
cÿa nhân viên về môi tr°ßng làm viác, phúc lợi… cÿa ngân hàng dành cho họ.
3.10 Thực tißn trong ngành tài chính ngân hàng
Tháng 9 vừa qua, VIB đã chính thāc công bố thỏa thuận với Microsoft Viát Nam
về hợp tác chiến l°ợc 3 năm để triển khai nền tÁng đián toán đa đám mây (multi-cloud) 17
với viác sử dụng Microsoft Azure làm đám mây chính cho VIB, từ đó thúc đẩy tiến trình
đổi mới sáng t¿o, t¿o ra những giá trị khác biát nhằm đáp āng nhu cầu và trÁi nghiám số
ngày một đa d¿ng cÿa khách hàng. Trong khuôn khổ cÿa thỏa thuận hợp tác, hai bên
cũng sẽ tiến đến triển khai các dự án quan trọng về an ninh m¿ng, Big Data, AI, Open API, IoT, ...
Điểm khác biát á lần hợp tác này là viác triển khai lên Multi-cloud - mô hình sử
dụng nhiều dịch vụ đián toán đám mây (cloud) từ các nhà cung cấp khác nhau trong một
môi tr°ßng không đồng nhất và so với cách triển khai cloud th°ßng thấy, multi-cloud
mang đến sự linh ho¿t v°ợt trội rõ rát.
Multi-cloud có thể giúp rút ngắn kỷ lục thßi gian triển khai một há thống hoặc āng
dụng công nghá. Rút ngắn thßi gian triển khai dịch vụ sẽ cho phép doanh nghiáp phục
vụ khách hàng tốt h¢n. Theo đó, ng°ßi dùng cũng có những trÁi nghiám m°ợt mà h¢n
với các dịch vụ số hóa cÿa ngân hàng.
Đặc biát, thßi gian vừa qua, khi các āng dụng ngân hàng số, ngân hàng đián tử t¿i
Viát Nam phát triển "vũ bão" thì không khỏi bắt gặp tình huống quá tÁi, khách hàng
không thể đăng nhập hay giao dịch do l°ợng truy cập quá lớn. Đián toán đám mây có
thể giÁi quyết bài toán này.
Có thể, hiểu, với đián toán đám mây, quá trình xử lý, phân tích, bÁo mật, l°u trữ,
quÁn lý dữ liáu bằng cách khai thác các máy chÿ dựa trên Internet. Dữ liáu không đ°ợc
l°u trữ trên thiết bị vật lý mà trên đám mây, tính °u viát cÿa viác l°u trữ này giúp các tổ
chāc tài chính, ngân hàng quÁn lý điều hành tốt h¢n, hợp lý hóa quy trình, nâng cao năng
suất, tối °u hóa chi phí và nâng cao trÁi nghiám kỹ thuật số cho khách hàng.
Tr°ớc đây, những dữ liáu hoặc thông tin cá nhân đ°ợc l°u trữ đều có thể bị vi ph¿m
bÁo mật nh° tấn công m¿ng và các mối đe dọa m¿ng khác, thay vào đó, dịch vụ l°u trữ
đám mây có thể l°u trữ nhiều bÁn sao l°u dữ liáu trong một há thống phân tán. Ngân
hàng sẽ phÁi đầu t° một khoÁn tiền lớn ban đầu để triển khai công nghá này, nh°ng về
lâu dài sẽ góp phần giúp tiết kiám chi phí khi không phÁi đầu t° vào viác thiết lập và duy
trì tài nguyên CNTT nội bộ.
Để triển khai multi-cloud, ngoài viác cần một nguồn vốn đầu t° lớn, sự chuẩn bị
về nhân sự số cũng rất quan trọng và không hề đ¢n giÁn. Nh° t¿i VIB, ngân hàng đã tổ
chāc hàng trăm l°ợt học về lĩnh vực này trong gần 2 năm qua cho đội ngũ kỹ s° công
nghá. Ngân hàng cũng phÁi đối mặt với nhiều thách thāc, khi chuyển đổi lên cloud vẫn
phÁi vừa duy trì các há thống cũ vừa triển khai há thống mới trong một bÁn quy ho¿ch 18
tổng thể, tích hợp hài hoà giữa các há thống cũ mới, giữa các há thống nội bộ cÿa ngân
hàng và các đối tác bên ngoài.
Một ngân hàng lớn khác cũng triển khai m¿nh mẽ công nghá đián toán đám mây
thßi gian gần đây là Techcombank. Hồi tháng 9, nhà băng này cũng công bố đã lựa chọn
Amazon Web Services (AWS), một công ty thuộc tập đoàn toàn cầu Amazon.com, làm
đối tác cung cấp dịch vụ đián toán đám mây, nhằm nâng cao trÁi nghiám cÿa khách hàng.
Đây là thỏa thuận kéo dài 5 năm và theo ông Jens Lottner, Tổng Giám đốc Techcombank
thì là một khoÁn đầu t° rất đáng để mong đợi.
Lãnh đ¿o Techcombank cũng nhấn m¿nh, đián toán đám mây không đ¢n thuần là
là một đề xuất hay một lựa chọn mà là một điều bắt buộc phÁi āng dụng trong ngân hàng.
Một phần trong thỏa thuận hợp tác là trong vài năm tới Techcombank sẽ dịch chuyển
phần lớn các āng dụng lên đián toán đám mây, bao gồm đa số các āng dụng há thống
ngân hàng lõi. Đây cũng là cấu phần nằm trong chiến l°ợc đầu t° tổng thể trị giá 500
triáu USD trong vòng 5 năm tới cÿa Ngân hàng.
Hay nhiều ngân hàng nhỏ khác cũng đã ngày càng quan tâm h¢n viác āng dụng và
triển khai công nghá này mặc dù māc độ đầu t° ch°a bằng nh° nhà băng lớn. Đ¢n cử
nh° Viet A Bank, từ năm 2017 đã chuyển toàn bộ há thống Trung tâm dữ liáu lên Private
Cloud. Tháng 7/2021, PVcomBank đã cùng với CMC Telecom triển khai há thống trục
tích hợp dịch vụ ch¿y trên nền tÁng OpenShift lên AWS cloud,…
Morgan Stanley, một trong những tổ chāc cung cấp dịch vụ tài chính lớn nhất thế
giới quÁn lý h¢n 350 tỷ đô la tài sÁn và họ sử dụng the Hadoop framework nh° một thử
nghiám nhỏ á một bộ phận vào một vài năm tr°ớc. Thử nghiám này đã t¿o đ°ợc đà và
hián nay cụm Hadoop nhỏ đã đ°ợc má rộng và trá thành chỗ dựa cho rất nhiều dự án
đầu t° quan trọng. Gary Bhattacharjee, Tổng giám đốc điều hành thông tin doanh nghiáp
cÿa Morgan Stanley, đã phát biểu t¿i hội nghị Fountainhead về Hadoop trong ngành Tài
chính t¿i New York, công viác trên một quy mô lớn h¢n rất nhiều và đ¿t đ°ợc những kết quÁ tốt h¢n. Nó cho
phép b¿n quÁn lý hàng petabyte dữ liáu, viác mà ch°a từng có tr°ớc đây trong thế giới
cÿa c¢ sá dữ liáu truyền thống.=
Một ông lớn khác cÿa ngành tài chính, Bank of America, là một trong những ngân
hàng lớn nhất t¿i Mỹ, cũng chÿ động sử dụng Hadoop trong tài chính để quÁn lý khối dữ
liáu Xử lý giao dịch trực tuyến (On – Line Transaction Processing - OLTP) đồ sộ. 19
Abhishek Mehta, Giám đốc điều hành về Big Data và và Phân tích cÿa Bank of America
cũng đã có khá nhiều ý kiến về Big Data trong ngành Tài chính và so sánh sự nổi lên cÿa
nó với một Cuộc cách m¿ng công nghiáp lần thā hai. Ông cho biết, tính đột phá nh° vậy, không chỉ với các há thống đang tồn t¿i, mà nó sẽ còn cho phép
làm những viác mà không thể tr°ớc đây. Hãy là ng°ßi ngồi ghế đầu hàng và ng°ßi dẫn đầu về nó.=
T¿i Viát Nam viác āng dụng Big Data đối với các ngân hàng th°¢ng m¿i, ta có thể
kể đến một số động thái tiêu biểu nh°:
- Năm 2020 TP Bank chính thāc đ°a vào sử dụng hai giÁi pháp công nghá Big Data
do FIS triển khai bao gồm 2 cấu phần chính:Kho dữ liáu Data Lake đ°ợc xây dựng
dựa trên nền tÁng má Hortonworks Data Platform (HDP)- l°u trữ Big Data từ nhiều
nguồn, bao gồm các nhóm dữ liáu thô, phi cấu trúc và Nền tÁng xây dựng mô hình học
máy Watson Studio Local, kết hợp thiết bị IBM Integrated Analytics System (IIAS) tối
°u cho viác phân tích dữ liáu với tốc độ cao, giÁm thßi gian huấn luyán mô hình ( đây là
hợp đồng đầu tiên hoàn thành về Big Data cho NHTM t¿i Viát Nam).
- Năm 2019 Vietcombank đã ký hợp tác với FIS triển khai thực hián Dự án sắm phần mềm quÁn trị nhân sự mới (HRM)= gồm 6 phân há chính: QuÁn lý thông tin
nhân sự, QuÁn lý chi phí tiền l°¢ng, QuÁn lý tuyển dụng, QuÁn lý đào t¿o, QuÁn lý đánh
giá cán bộ và QuÁn lý nhân tài.
- VietinBank đã xây dựng chiến l°ợc và lộ trình quÁn lý và khai thác tài sÁn dữ liáu
tr°ớc khi chính thāc āng dụng Big Data thì chú trọng cÿng cố và xây dựng nền tÁng h¿
tầng về dữ liáu bao gồm dự án Kho dữ liáu doanh nghiáp (EDW- Enterprise Data
Warehouse) triển khai xây dựng trong vòng 3 năm bao gồm tích hợp h¢n 200 há thống
nguồn, BI, QuÁn lý dữ liáu tập trung (MDM- Master Data Management).
- VPBank āng dụng công nghá phân tích dữ liáu cÿa IBM để đồng hóa dữ liáu
khách hàng, hỗ trợ phân tích hành vi khách hàng nhanh chóng.
- MB hợp tác với Infosys, Amigo triển khai kho dữ liáu và tập trung công cụ báo cáo quÁn trị...
Mặt khác, trong bối cÁnh thßi gian gần đây sự xâm nhập cÿa công nghá vào lĩnh
vực tài chính (Fintech- Công nghá tài chính) ngày càng sâu rộng, ví dụ nh° ví Momo với
l°ợng ng°ßi dùng trong năm 2019 tăng từ 10 triáu (đầu 2019) lên h¢n 15 triáu (cuối
2019), với h¢n 100.000 điểm chấp nhận thanh toán (momo.vn) cho thấy sự tián lợi đi
kèm với xu h°ớng tiêu dùng, thanh toán online cÿa KH sẽ t¿o ra nguồn dữ liáu lớn và 20
quan trọng tiết lộ về hành vi KH, nên 81,8% NHTM t¿i Viát Nam dự định sẽ hợp tác với
các công ty Fintech trong lĩnh vực nghiên cāu về dữ liáu tài chính có bao gồm Big Data (Vietnam Report, 2019). 21
CH¯¡NG 4. Kết lu¿n và khuyến nghß
4.1 Điều kián āng dụng Big Data vào ho¿t động tín dụng cÿa ngân hàng
Để có thể khai thác đ°ợc những lợi ích mà Big Data mang l¿i nh° phân tích á trên,
thì các ngân hàng cần đáp āng một số điều kián c¢ bÁn nh° sau:
Thā nhất, cần thay đổi t° duy trong đội ngũ quÁn lý ngân hàng về tầm quan trọng
cÿa dữ liáu và các ph°¢ng pháp xử lý dữ liáu hián đ¿i.
Thā hai, ngân hàng phÁi xây dựng đ°ợc quy trình liên quan đến dữ liáu từ khâu thu
thập dữ liáu đến sử dụng kết quÁ xử lý dữ liáu.
Thā ba, chuẩn bị đội ngũ chuyên viên khoa học dữ liáu là điều kián không thể thiếu.
4.2 Một số h¿n chế còn tồn đọng
Āng dụng Big Data và mang l¿i nhiều lợi ích cho các ngân hàng th°¢ng m¿i Viát
Nam, tuy nhiên, hián nay các ngân hàng này đang gặp một số khó khăn, h¿n chế gồm:
Một là, ch°a có hành lang pháp lý đồng bộ từ các đ¢n vị, c¢ quan quÁn lý, nh°
hành lang pháp lý cho ho¿t động ngân hàng số; thiếu quy định đồng bộ, cụ thể về viác
quÁn lý, trao đổi, chia sẻ dữ liáu khách hàng, hỗ trợ cho viác āng dụng các công nghá
phân tích dữ liáu lớn vào ho¿t động cÿa các ngân hàng.
Hai là
, sự phát triển không đồng đều về công nghá giữa các ngân hàng làm h¿n chế
khÁ năng āng dụng nghiáp vụ mang tính toàn ngành; h¿n chế khÁ năng kết nối, trao đổi
dữ liáu có tính há thống giữa các ngân hàng để cùng khai thác, phát triển các lo¿i hình
dịch vụ ngân hàng đối với khách hàng cá nhân, doanh nghiáp và nền kinh tế.
Ba là
, viác āng dụng Big Data và AI vào ho¿t động tín dụng ngân hàng hián nay
còn khá mới mẻ, ch°a đ°ợc sử dụng một cách rộng rãi, nên cần phÁi tốn nhiều thßi gian và chi phí.
Bốn là, để tận dụng tối °u những lợi ích từ Big Data và AI mang l¿i cần quan tâm
nâng cao trình độ nghiáp vụ chuyên môn cÿa đội ngũ nhân viên về tín dụng và công nghá
để có thể sử dụng thành th¿o các āng dụng này.
Năm là, tình hình dân số ngày càng đông dẫn đến nhu cầu lao động tăng theo. Nếu
āng dụng Big Data và AI phát triển m¿nh, thì nguồn nhân lực thiếu trình độ sẽ bị đào
thÁi và dẫn đến tình tr¿ng thất nghiáp tăng cao, t¿o gánh nặng an sinh xã hội cho xã hội.
Sáu là, h¿ tầng thanh toán ch°a phát triển đồng bộ và viác hoàn thián, h¿ tầng an
toàn, an ninh bÁo mật còn nhiều h¿n chế. 22 4.3 GiÁi pháp đ°a ra
Một là, giÁi pháp về tài chính: Để phù hợp với nguồn lực tài chính, NHTM nên tận
dụng sự hỗ trợ cÿa công nghá đián toán đám mây. Hián nay, các nhà cung cấp giÁi pháp
Big Data trên đám mây đã có thể xây dựng sẵn các mô hình phân tích và mang l¿i khÁ
năng các tổ chāc có thể chi trÁ cho các nguồn lực siêu tính toán theo ph°¢ng thāc chi
tiêu tùy theo khÁ năng. Ngoài ra, để giÁm thiểu một phần chi phí cho viác thu thập và
làm s¿ch dữ liáu, NHTM nên đẩy m¿nh hợp tác với các công ty tài chính công nghá
fintech, h°ớng đến xây dựng mô hình chuỗi cung āng mới gắn kết chặt chẽ h¢n với nhu
cầu cÿa KH. Khi đó, chuỗi cung āng dịch vụ °u viát h¢n sẽ t¿o ra một c¢ sá dữ liáu
thống nhất, minh b¿ch và hiáu quÁ h¢n á mọi giai đo¿n, từ khi KH phát sinh nhu cầu cho
đến khi hoàn tất thực hián cung āng dịch vụ.
Hai là, giÁi pháp về công nghá bao gồm kết cấu h¿ tầng thông tin nhằm đáp āng
nền tÁng về công nghá để āng dụng Big Data. Muốn sử dụng và khai thác Big Data một
cách hiáu quÁ thì điều cần thiết là phÁi xây dựng c¢ sá h¿ tầng đÿ để thu thập và l°u trữ
dữ liáu, cung cấp quyền truy cập và bÁo mật thông tin trong khi l°u trữ và chuyển tiếp,
bao gồm: các há thống l°u trữ và máy chÿ; phần mềm quÁn lý, tích hợp dữ liáu;
phần mềm phân tích dữ liáu và một số thành phần khác. NHTM nên lựa chọn các
giÁi pháp Big Data có nền tÁng kết nối và tận dụng đ°ợc dữ liáu từ các há thống hián t¿i
để không lãng phí c¢ sá h¿ tầng, dữ liáu và nguồn lực đã thực hián tr°ớc đó.
Ba là, nhóm giÁi pháp về nguồn nhân lực có đÿ năng lực sáng t¿o, nền tÁng công
nghá cÿa Cách m¿ng công nghiáp 4.0 nói chung và āng dụng Big Data nói riêng. Các
nhà quÁn trị cần tham khÁo các mô hình thành
công trên thế giới và có ho¿ch định rõ về chiến l°ợc phát triển dài h¿n hián đ¿i hóa
NHTM. Ngoài viác tuyển dụng mới nhân sự có kinh nghiám và trình độ về hián đ¿i hóa
ngân hàng, āng dụng Big Data thì cần °u tiên chiến l°ợc phát triển nhân sự nội bộ để
xây dựng nguồn nhân lực m¿nh với chi phí hợp lý, nh° phổ cập tham gia các khóa đào
t¿o về phân tích dữ liáu, lập trình và c¢ sá dữ liáu. Đối với bộ phận nghiáp vụ, cần tiếp
cận thêm các ngôn ngữ lập trình āng dụng trong xử lý phân tích dữ liáu nh° R, Python,
SQL để chÿ động trong xử lý dữ liáu và có cái nhìn bao quát h¢n về há thống dữ liáu.
Đối với bộ phận CNTT, yêu cầu đặt ra có thể tiếp cận và nhanh chóng tiếp thu các xu
h°ớng công nghá mới cÿa thế giới trong thiết kế c¢ sá dữ liáu, xử lý truy vấn, tích hợp
dữ liáu ví dụ nh° công cụ quÁn lý dữ liáu phân tán (Hadoop, Dryad), há c¢ sá dữ liáu
không cấu trúc NoQuery, các công cụ xử lý (MapReduce)... 23
Bốn là, giÁi pháp về dữ liáu. Tuy các nhà cung cấp đám mây hián nay mang l¿i một
số lợi ích an ninh h¢n so với trung tâm dữ liáu thông th°ßng cÿa NHTM nh° bÁo vá và
giám sát dữ liáu tập trung h¢n, tuy nhiên nó cũng mang l¿i rÿi ro khi mà dữ liáu có thêm
một tổ chāc trung gian nắm giữ. Vì vậy, các NHTM cần áp dụng các tiêu chuẩn cao về
đối tác, tuyển dụng và quÁn lý con ng°ßi, há thống; đặc biát quan tâm đến viác xây dựng
trung tâm dự phòng dữ liáu (khôi phục dữ liáu sau thÁm họa); nâng cấp há thống an ninh,
bÁo mật á māc cao; đÁm bÁo viác má rộng ph¿m vi ho¿t động (nếu có) đ°ợc ổn định, an
toàn, mang l¿i hiáu quÁ lâu dài. 4.4 Kết luận
Theo kết quÁ khÁo sát cÿa Vietnam Report (2019) với các NHTM đang ho¿t động
t¿i Viát Nam thì gần 3/4 (75%) số ngân hàng đ°ợc hỏi cho biết sẽ °u tiên cho ho¿t động
nghiên cāu và áp dụng công nghá mới trong há thống quÁn lý, phục vụ KH; h¢n 3/5
(60%) NHTM dự định đầu t° nâng cao há thống quÁn trị doanh nghiáp tiên tiến. Trên
thực tế, khu vực dịch vụ TC - NH á Viát Nam đã có phÁn āng nhanh so với các khu vực
khác trong viác chÿ động nghiên cāu và āng dụng khoa học - công nghá cÿa Cách m¿ng
công nghiáp 4.0 vào ho¿t động kinh doanh và quÁn trị. Theo thống kê từ Vietnam Report
(2019) thì 59% các doanh nghiáp đang hoặc dự kiến sẽ sử dụng công cụ Big Data để
thúc đẩy chuyển đổi số hiáu quÁ.
Có thể thấy, Big Data đang dần thể hián rõ tầm quan trọng cÿa mình đối với NHTM
hián t¿i và trong t°¢ng lai. Tuy nhiên NHTM cần hết sāc thận trọng trong viác āng dụng
nó để phù hợp với thực tißn, khắc phục các h¿n chế, thách thāc và đÁm bÁo an toàn thông
tin thông qua xây dựng một lộ trình triển khai phù hợp dựa trên giÁi pháp đ°ợc đúc kết
dựa từ thực tế mà các chuyên gia đã triển khai và āng dụng thành công vào các ngân
hàng. Một Khi có thể làm chÿ, tận dụng, kết hợp giữa há thống dữ liáu hián t¿i và Big
Data thì NHTM sẽ có c¢ hội thành công lớn h¢n trong bối cÁnh c¿nh tranh ngày nay
và h°áng lợi nhiều h¢n từ viác trích xuất thông tin một cách chính xác, hữu ích. Từ
những nền tÁng ban đầu trong phân tích này, em muốn h°ớng đến nghiên cāu cụ thể theo
các nhóm ngân hàng t°¢ng đồng về quy mô và āng dụng công nghá mới, từ đó đ°a ra
những giÁi pháp hữu ích h¢n để xây dựng nền kinh tế số, giúp các tổ chāc ngân hàng có
thể mang đến trÁi nghiám dịch vụ tốt nhất tới khách hàng. 24
TÀI LIÞU THAM KHÀO
[1]. Tr°¢ng Thị Hoài Linh, Lê Thị Nh° Quỳnh (2019), Big Data và āng dụng trong ho¿t
động ngân hàng, T¿p chí Ngân hàng số 17/2019;
[2]. Đào Mỹ Hằng, Đặng Thu Hoài (2021), T¿p chí Khoa học & Đào t¿o Ngân hàng số 224+225- Tháng 1&2. 2021
[3]. Ts Phan Thanh Đāc (2019), T¿p chí Khoa học & Đào t¿o Ngân hàng số 203- Tháng 4/2019
[4]. Báo cáo Vietnam CEO insight 2019 (2019) : chuyển đổi số và c¢ hội cÿa các doanh
nghiáp Viát NamWe are Social,
[5]. Tài liáu về khái niám và đặc tr°ng Big data
https://viblo.asia/dovv/posts/3OEqGjWwv9bL
[6]. Tài liáu về khái niám và cấu trúc Hadoop https://teky.edu.vn/blog/hadoop-la-gi/
[7]. Tài liáu về đián toán đám mây trong ngành tài chính ngân hàng
https://ictvietnam.vn/cong-nghe-dien-toan-dam-may-trong-nganh-tai-chinh- ngan- hang-20210709175609352.htm
[8]. Tài liáu về lợi ích công nghá đián toán đám mây
https://viettelidc.com.vn/tin-tuc/cloud-computing-nen-tang-luu-tru-va-quan-ly-big-
data-tuyet-voi-trong-ky-nguyen-so-hoa
[9]. Tài liáu về công nghá trong Big data
https://topdev.vn/blog/big-data/ - cac-cong-nghe-dac-biet-danh-cho-big-data
[10]. Tài liáu về khái niám cùng cách thāc ho¿t động Hadoop
https://topdev.vn/blog/hadoop-la-gi/ 25