lOMoARcPSD|60380256
D BÁO T L KHÁCH HÀNG RÚT TIN TRONG
NGÂN HÀNG
DA TRÊN HC MÁY
Tóm tt S ng nhà cung cp dch v đang tăng lên rất nhanh chóng
trong mọi lĩnh vực kinh doanh. Ngày nay, khách hàng trong ngành ngân hàng có
rt nhiu la chn khi quyết định đầu tư. Do đó, tỷ l khách hàng b đi mức
độ gn kết đã trở thành mt trong nhng vấn đề hàng đầu đối vi hu hết các
ngân hàng. Bài báo này đề xut một phương pháp dự đoán tỷ l khách hàng b
đi trong ngân hàng, s dng các k thut hc máy, mt nhánh ca trí tu nhân
to. Nghiên cứu này thúc đy vic khám phá kh năng khách hàng bỏ đi bằng
cách phân tích hành vi khách hàng. Nghiên cu này s dng các b phân loi
KNN, SVM, Cây Quyết định và Rng Ngu nhiên. Ngoài ra, mt s phương pháp
la chn thuộc tính đã được thc hin đ tìm ra các thuc tính phù hợp hơn và
xác minh hiu sut h thng. Th nghiệm được tiến hành trên tp d liu
hình hóa t l khách hàng b đi từ Kaggle. Kết qu được so sánh để tìm ra mt
hình php với độ chính xác và kh năng dự đoán cao hơn. Kết qu là, vic
s dng mô hình Rng Ngu nhiên sau khi ly mu quá mc cho kết qu chính
xác hơn so với các mô hình khác.
Thut ng ch mcT l khách hàng ri b dch v trong Ngân hàng, k-
Láng ging gn nhất, Máy vectơ hỗ tr, Cây quyết định, Rng ngu nhiên.
I. GII THIU
Th trường hin nay rất năng động và cnh tranh cao. Nguyên nhân là do s
xut hin ca rt nhiu nhà cung cp dch v. Thách thc ca các nhà cung cp
dch v tìm ra hành vi thay đổi ca khách hàng và k vng ngày càng cao ca
h. Khát vng ngày càng cao ca thế h người tiêu dùng hin ti nhu cầu đa
dng ca h v kết ni các phương pháp tiếp cn sáng to, nhân hóa rt
khác bit so vi các thế h người tiêu dùng trước đây. Họ đưc giáo dc tt
hiu biết hơn về các phương pháp tiếp cn mi ni. Kiến thc tiên tiến này đã
thay đổi hành vi mua sm ca h, dẫn đến xu hướng "phân tích tê lit" phân tích
quá mc tình huống bán hàng và mua hàng, điều này cui cùng giúp h ci thin
quyết định mua hàng của mình. Do đó, đây mt thách thc lớn đối vi các nhà
cung cp dch v thế h mới để suy nghĩ sáng tạo nhằm đáp ứng và gia tăng giá
tr cho khách hàng.
lOMoARcPSD|60380256
Các doanh nghip cn nhận ra người tiêu dùng ca mình. Liu Shih [1]
cng c lp lun này bng cách ng ý rng áp lc cạnh tranh ngày càng tăng đối
vi các t chc trong vic phát triển các phương pháp tiếp th sáng tạo, đáp ứng
k vng ca người tiêu dùng và nâng cao lòng trung thành và kh năng giữ chân
khách hàng. Canning [2] lp lun rng vic cung cp nhiều hơn cho tất c mi
người không còn mt chiến lược bán hàng kh thi nữa, môi trường th
trường ngày càng cạnh tranh đòi hỏi mt chương trình nghị s nhn mnh vào
vic s dng hiu qu nht vn tiếp th. Công ngh đã được s dng để giúp các
doanh nghip duy trì li thế cnh tranh [3]. Các k thut khai thác d liu [4] là
mt công ngh thông tin thường được s dụng để trích xut chuyên môn tiếp
th và hướng dn thêm cho các quyết định kinh doanh.
Khách hàng rt d dàng chuyn t t chc này (Ngân hàng) sang t chc
khác để chất lượng dch v hoc mc giá tốt hơn. Các tổ chc tin rng vic
tìm kiếm khách hàng mi tn kém khó khăn hơn nhiều so vi vic gi chân
khách hàng hin ti [5]. Tuy nhiên, vic cung cp dch v đáng tin cậy, đúng thời
hạn trong ngân ch cho khách hàng đng thi duy trì mi quan h đối tác
làm vic tt vi h mt thách thức đáng kể khác. H cn xem xét người tiêu
dùng nhu cu ca h để gii quyết nhng thách thc này. Trong s đó, một
trong nhng trng tâm chính ca h s t l khách hàng ri b. T l khách
hàng ri b din ra khi khách hàng hoặc người đăng ngừng hp tác vi mt
công ty hoc dch v. Đối vi bt k t chc nào, việc giành được khách hàng
mới đồng nghĩa với vic phải đi qua kênh bán hàng, sử dng các tài sn bán hàng
và tiếp th ca h trong chu k. Mt khác, vic gi chân khách hàng thưng hiu
qu hơn về mt ngân sách, bi h đã được s tin tưởng lòng trung thành
ca khách hàng hin ti. vy, nhu cu v mt h thng th d đoán hiệu
qu t l khách hàng ri b dch v ngay t giai đoạn đầu là rt quan trọng đối
vi bt k t chc nào. Bài báo này nhm mục đích xây dng mt khuôn kh
th d đoán tỷ l khách hàng ri b dch v trong lĩnh vực ngân hàng bng cách
s dng mt s k thut hc máy [6].
II. TNG QUAN TÀI LIU
Phân tích t l khách hàng ri b trong ngành ngân hàng là một lĩnh vực rt
rng. Trong mt trong nhng nghiên cứu này, [7] đã thực hin d đoán tỷ l
khách hàng ri b của các ngân hàng thương mại da trên mô hình SVM. Trong
nghiên cu này, mt tp d liệu người tiêu dùng ca một ngân hàng thương mại
Trung Quc chứa 50.000 thông tin khách hàng được chn. Sau khi tin x lý h
sơ, cuối cùng có 46.406 h dữ liu hp l. Hai loại mô hình SVM đưc chn:
lOMoARcPSD|60380256
SVM tuyến tính và SVM vi hàm ht nhân xuyên tâm. Hiu qu d đoán của các
hình phân loại đã được ci thiện đáng kể nh phương pháp lấy mẫu dưới.
Do các đặc điểm không cân bng ca tp d liu khách hàng ri b thc tế ca
các ngân hàng thương mại, hình SVM không th d đoán chính xác tỷ l
khách hàng ri b ngay c các tham s đánh giá chung cũng không thể tính
toán đưc sc mnh d đoán của nh. Các phát hin cho thy vic tích hp
phương pháp lấy mu ngu nhiên vi hình SVM th tăng đáng kể kh năng
d đoán giúp các ngân hàng thương mại d đoán tỷ l khách hàng ri b
chính xác hơn. Tuy nhiên, nghiên cu này s dng t l 1:10 gia t l khách
hàng ri b t l khách hàng không ri b. Trong phân tích 1:1, kết qu đạt
đưc tối đa là 80,84%. Đây là nhược điểm chính ca nghiên cu này.
Trong mt nghiên cu khác [8], mt nghiên cu khoa hc v vic s dng
khai thác d liu trong vic trích xut thông tin t các kho lưu trữ trong lĩnh vực
ngân hàng đã được trình bày. Kết qu cho thy nhng khách hàng s dng nhiu
dch v ngân hàng (sn phẩm) hơn ờng như trung thành hơn, vy ngân hàng
có th tp trung vào nhng khách hàng s dụng ít hơn ba sn phm và bán cho
h các sn phm theo nhu cu ca họ. Cơ sở d liệu được s dng bao gm h
của 1866 khách hàng ti thời điểm nghiên cu. Nghiên cu da trên mt
phương pháp dự đoán tỷ l khách hàng ri b dch v (churn) s dng mạng nơ-
ron trong gói phn mm Alyuda
NeuroInteligence. Phương pháp này chia d liu thành ba tp: tp hun luyn,
tp xác thc và tp kim tra. Ba dạng đặc điểm được mô t trong giai đoạn phân
tích d liệu: các đặc điểm cn loi bỏ, các đặc điểm cn thiết các đặc điểm
mc tiêu cần đo lường. hình chn mt s lp n trong quá trình thiết kế
mng. Sau khi hun luyn mng, kết qu là: t l xác thc CCR % 93.959732.
Nghiên cu kết lun rng, do t l người ngh hưu cao trong tổng s khách ng
(691/1886), ngân hàng có các chương trình được thiết kế rt phợp cho người
ngh hưu khả năng cạnh tranh cc k nhỏ. Nhược điểm ln nht ca công
trình này mng nơ-ron tương đối chm phc tp. Bng I tóm tt d đoán
t l khách hàng ri b dch v trong h thng ngân hàng bng cách s dng 'd
liệu ngân hàng thương mại Trung Quc' 'd liu t mt ngân hàng nh ca
Croatia', đồng thi ch ra nhng hn chế ca các công trình hiện có. Để khc phc
nhng hn chế này, công trình này đã đề xut mt d đoán tỷ l khách hàng ri
b dch v da trên hc máy trong h thng ngân hàng bng cách s dng 'd
liu mô hình hóa t l khách hàng ri b dch v'.
lOMoARcPSD|60380256
Nghiên cu [9] đã đề xut mt hình phân tích t l khách hàng ri b
dch v giúp các nhà khai thác vin thông d đoán những khách hàng kh
năng rời b dch v cao nht. H thng s dng các chiến c hc máy trên nn
tng d liu lớn. Thước đo chuẩn Diện tích dưới đường cong (AUC) đưc s
dụng để đánh giá hiệu qu ca hình. Tp d liệu được s dng cho nghiên
cứu được cung cp bi công ty viễn thông Syriatel. hình đã làm vic vi 4
phương pháp luận: Decision Tree, Random Forest, Gradient Boosted Machine
Tree (GBM) Extreme Gradient Boosting (XGBOOST). Hortonworks Data
Platform (HDP) đã được chn làm nn tng d liu lớn. Spark engine đã được
s dng trong hu hết các giai đoạn ca sn phẩm như phân tích d liu, phát
trin chức năng, đào tạo kim th phn mm. Các siêu tham s thuật toán đã
đưc tối ưu hóa với s tr giúp ca xác thc chéo K-fold. Vì lp mc tiêu không
cân bng, mẫu để học được cân bng li bng cách ly mt mu d liệu để cân
bng hai lp. Nghiên cu bắt đầu vi vic ly mu quá mc bng cách nhân lp
churn để phù hp vi lp khác. Một phương pháp lấy mẫu dưới ngẫu nhiên cũng
đưc s dng, giúp giảm kích thước mu ca lp rộng đ so sánh vi lp th
hai. Quá trình đào tạo bắt đầu trên thut toán Decision Tree ti ưu hóa độ
sâu siêu tham s s ng nút tối đa. Trong cả Random Forest GBM, kết
qu tt nht cho thy s ng cây tt nht 200 cây. GBM kết qu tt
hơn DT RF. Kết qu cho thy giá tr AUC tt nht 93,301% cho XGBOOST
trên 180 cây. Các mô hình đưc kim tra bằng cách cài đặt mt tp d liu mi
trong nhiu thời điểm khác nhau và không cn bt k s can thip tiếp th mang
tính xây dựng nào, XGBOOST cũng cho kết qu tt nht vi AUC 89%. Nghiên
cứu đưa ra giả thuyết rng s st gim kết qu có th là do hin ng mô hình
d liu không dừng, do đó mô hình cần được hun luyn theo thi gian.
III. PHƯƠNG PHÁP
Nghiên cu này nhm mục đích dự đoán tỷ l khách hàng ri b ngân hàng
thương mại càng sm càng tt bng cách s dụng các phương pháp khai thác
d liu hiu quả. Sơ đồ minh ha mô hình đề xuất được trình bày trong Hình 1.
A. Mô t tp d liu
Tp d liệu được s dụng trong phân tích này đưc ly t Kaggle đ
hình hóa t l khách hàng ri b ngân hàng. Tp d liu bao gm thông tin ca
10.000 khách hàng ngân hàng, và tham s mc tiêu là mt biến nh phân biu th
khách hàng đã rời khi ngân hàng hay vn khách hàng. Trong s này, 7.963
mu mẫu dương (duy trì) 2.037 mu âm (thoát). Biến mc tiêu phn ánh
lOMoARcPSD|60380256
c nh phân 1 khi khách hàng đóng tài khon ngân hàng 0 khi khách hàng
đưc gi li. Tp d liu chứa 13 vectơ đặc trưng (dự báo) được báo cáo t d
liu khách hàng các giao dch do khách hàng x lý. Chi tiết v các đặc trưng
này được trình bày trong Bng II.
B. Tin x lý d liu
Tin x lý d liu là một giai đoạn quan trng trong quá trình khai thác d
liu. Chúng có ảnh hưởng trc tiếp đến t l thành công ca nhim v. phi
x lý tính không liên quan, nhiễu và không đáng tin cậy ca d liu. Và nếu cn,
c vic chuyển đổi d liu na. Mô t các yếu t d báo sau khi tin x lý được
lit kê trong Bảng III. Đây là các thuộc tính được s dụng đ quyết định d đoán
t l ri b dch v trong nghiên cu này.
1) Tính không liên quan: D liu hoặc đặc điểm không nhhưởng đến
ch đề tho lun s đưc coi là không liên quan. Vic gi li các thuc tính này
đôi khi thể ảnh ởng đến hiu sut ca b phân loi. Khi xem xét tp d liu
churn, các đặc điểm tên S hàng, khách hàng, H Địa không liên
quan đến d đoán. vậy, các đặc điểm này đã bị b qua th công trong
nghiên cu này.
2) Chuyển đi: Chuyển đổi d liu quá trình chuyển đid liu t
dng này sang dng khác. D liệu được cu trúc và xác thc hp lý s nâng cao
chất lượng d liu bo v ng dng khi các ri ro tim n ngiá trị null, d
liu trùng lp không mong mun, lp ch mục không chính xác định dng
không tương thích. Trong nghiên cu này, quá trình chuyển đổi d liệu được
thc hiện như sau:
• Giới tính: N -> 0 và Nam -> 1
C. La chọn Đặc trưng
Trong hc máy, quá trình xác định mt tp con các yếu t d đoán phù hợp
để s dng trong quá trình xây dựng hình được gi la chọn đặc trưng.
Giai đoạn la chọn đặc trưng rất quan trng s giúp rút ngn thi gian hun
luyn, thoát khi vấn đề đa chiều và trên hết là đơn giản hóa mô hình.
1) mRMR: Độ thừa Ti thiểu Độ liên quan Tối đa (mRMR) một
trong những phương pháp la chọn đặc trưng của loi b lc. Đi vi các bài
toán phân loi, s xếp hạng các đặc trưng theo trình t bng thut toán
mRMR [10]. Thut toán la chn đặc trưng loại b lọc đánh giá ý nghĩa của đặc
trưng dựa trên các đặc điểm của đặc trưng, chẳng hạn như phương sai của đặc
lOMoARcPSD|60380256
trưng và mức đ liên quan ca phn ng. Vic la chọn các đặc trưng sẽ là mt
phn của giai đoạn tin x d liệu. Do đó, lựa chọn đặc trưng loại b lc không
tương quan vi thut toán hun luyn.
2) Độ giảm (Reliability): Đây cũng một trong nhữngphương pháp lựa
chọn đặc trưng loi b lc s xếp hng các đặc trưng bằng thuật toán Độ gim
[11]. Thut toán này hoạt động tt nhất đ ước tính ý nghĩa của các đặc trưng
cho các hình giám sát da trên khong cách s dng khong cách cp gia
các quan sát để d đoán phản hồi. Phương pháp này xếp hng các biến d đoán
da trên mức độ quan trng bng cách s dng s ng các lân cn gn nht
đưc ch định. Kết qu s các s d đoán được lit theo th hng ca chúng.
D. Ly mu quá mc
Trong x lý d liu, ly mu quá mc và ly mu quá mc là các chiến c
đưc s dụng để cu hình phân phi lp ca d liệu cho trưc. Do d liu mt
cân bng nghiêm trng (7963 mu lớp dương 2037 mẫu lp âm) quy
mu d liu kh dng nh, nghiên cu này s s dng k thut ly mu quá mc.
Bi nếu ly mu quá mức được ưu tiên, quy d liu s giảm đến mc
không đủ d liệu để xây dựng mô hình. Do đó, nghiên cứu này s dng ly mu
quá mc ngu nhiên bng cách ly mu li lp thiu s (lp âm).
E. Phân loi
Các phương pháp phân loại đã được áp dng trên d liệu đã đưc x
trước. KNN, SVM, Cây quyết đnh (DT) b phân loại RF được s dụng để so
sánh kết qu. Vic so sánh kết qu ca các b phân loại khác nhau cũng đã đưc
thc hin trên các đặc trưng đã chọn bằng các phương pháp la chọn đặc trưng
khác nhau.
1) K-Nearest Neighbor (KNN): Phương pháp KNN mttrong nhng
phương pháp phân loi phi tham s d dàng và hiu qu nht, da trên hc
giám sát [12]. KNN hoạt đng bằng cách xác đnh k mu gn nht t mt tp d
liu hin có và khi mt mẫu chưa biết mi xut hin, phân loi mu mới đó vào
lớp tương tự nhất. Nghĩa là, thuật toán phân loại xác định nhóm mu th nghim
bng k mu hun luyn các lân cn gn nht vi mu th nghim gán nó
vào lp có kh năng cao nhất.
2) Máy vectơ hỗ tr (SVM): Máy vectơ hỗ tr mt thuttoán hc
máy hiu qu, có giám sát, bt ngun t lý thuyết hc thng kê ca Vapnik [13],
[14], [15]. Điều này đã chứng minh s thành công của trong các lĩnh vực phân
lOMoARcPSD|60380256
loi [16], hi quy [17], d đoán chuỗi thời gian ước lượng trong thc hành
địa k thut và khoa hc khai thác m [18]. Mc tiêu chính ca SVM là tìm mt
siêu phng phân bit hiu qu, phân loại chính xác các điểm d liu phân bit
các điểm ca hai lp bng cách gim kh năng phân loại sai các mu hun luyn
các mu th nghiệm chưa biết. Điều này ng ý rng khong cách ti đa
gia hai lp siêu phẳng phân tách. hình Máy vectơ h tr tuyến tính
(LSVM) đưc s dng trong nghiên cu này. LSVM ban đầu được phát triển để
gii quyết các bài toán lp nh phân [19].
3) Cây quyết đnh (DT): Cây quyết định mt quy trình ctmt tp
hp d liệu thành các phân đon giống như nhánh khác nhau [20]. Một cây
quyết định d đọc. Ưu điểm này làm cho vic gii thích hình tr nên đơn
gin. Trong khi mt thuật toán khác (như mạng -ron) th to ra mt
hình chính xác hơn nhiều trong mt kch bn nhất định, tcây quyết định
th đưc hun luyện để d đoán các dự đoán của mạng nơron, do đó mở ra
"hộp đen" của mạng nơ-ron. Mt li ích khác là, trong mối tương quan giữa các
biến mc tiêu và các biến d báo, nó có th mô hình hóa mc đ phi tuyến tính
cao. Mt cây quyết định bao gm hai chiến c chính [21]: To cây Phân loi.
4) Rng ngu nhiên (RF): Breiman [22] đã trình bày RF nhưmột b
phân loi tng th cho các trình học cây. Phương pháp này s dng mt s cây
quyết định sao cho mi cây da trên các giá tr ca một vectơ ngẫu nhiên được
chn riêng l vi cùng phân phi cho tt c các cây. La chọn đúng đn cho xu
ng quá khp tp d liu hun luyn ca cây quyết định. Tóm li, Rng ngu
nhiên thc cht là một cách để kết hp nhiu cây quyết định sâu đưc hc trên
các phn khác nhau ca cùng mt tp d liu vi mc tiêu giảm phương sai. Ưu
đim thc s ca vic s dụng RF đi kèm vi d liu chiu khá ln,
không cn phi thc hin gim chiu và la chọn đặc trưng. Tốc đ hun luyn
cũng cao hơn và dễ s dng trong các mô hình song song.
IV. KT QU VÀ THO LUN
Sau khi quá trình tin x d liu hoàn tt, d liu s dng hoạt động.
10 đặc trưng thu được sau quá trình tin x lý s đưc s dng cho nghiên cu
còn lại. Trong đó, 70% dữ liu s đưc s dụng để hun luyn và 30% còn li s
đưc s dụng để kiểm tra dưới dng ngu nhiên. Các b phân loi s đưc s
dng riêng l hoc kết hp với các phương pháp chọn đặc trưng đã chỉ định. Mi
hình được đánh gdựa trên độ chính xác thu đưc sau khi kim chng chéo
10 ln. Ma trn nhm ln ngẫu nhiên cũng được to ra cho mi hình. Hiu
lOMoARcPSD|60380256
sut ca các b phân loi s khác nhau khi s dụng các phương pháp chọn đặc
trưng khác nhau. c đặc trưng đưc chn trong mỗi phương pháp chọn đặc
trưng và chi tiết tham s phân loi s đưc mô t trong các đon sau.
Đối vi KNN, giá tr k được đặt 5. Nghĩa m lân cn gn nhất được
xem xét để phân loi d liu mi. Bng cách gim s lân cn xung dưới 5, đôi
khi độ chính xác s tăng lên ngưc li. Tuy nhiên, d liệu đưc ly ngu
nhiên để phân loi nên vic chn ít lân cận hơn không phải là mt phương pháp
tt. Tuy nhiên, khi s ng lân cn lớn hơn 5, kết qu s giảm đáng kể. Do đó,
giá tr k đưc chọn là 5 (trong đó đ chính xác và s thay đổi được tối ưu hóa).
Và thước đo khoảng cách được s dng là khoảng cách Euclidean. Đối vi SVM,
hàm ht nhân tuyến tính được s dụng (LSVM). Trong trường hp RF, s ng
cây trong rừng được đặt là 100. Tt c các tham s này được la chn da trên
vic tối ưu hóa độ chính xác phân loi.
Kết qu ca các k thut phân loi khác nhau không ly mu quá
mc (không có chọn đặc trưng) được trình bày trong bng IV. Kết qu cho thy
độ chính xác ca b phân loại DT và RF tăng lên sau khi lấy mu quá mức, nhưng
độ chính xác của KNN không thay đổi khi ly mu quá mức độ chính xác ca
SVM giảm đi khi lấy mu quá mc, điu này cho thy SVM không phù hp vi
ng d liu ln.
6 đặc trưng tốt nhất được la chn bằng phương pháp MRMR là S ng
sn phm, Là thành viên tích cc, Giới tính, Độ tui, S dư, Nhiệm kỳ. Độ chính
xác ca các b phân loi khác nhau s dụng phương pháp lựa chọn MRMR được
th hin trong bảng V, đ chính xác của KNN tăng lên so với KNN không MRMR.
Độ chính xác ca SVM gần như tương đương với SVM không có MRMR, độ chính
xác ca DT và RF gim mt chút so với các mô hình trước đó.
Các đặc trưng tốt nhất được la chn bằng phương pháp Relief S ng
sn phẩm, Độ tui, S dư, Nhiệm k, Gii tính, th Cr. Độ chính xác ca các
b phân loại khác nhau được th hin trong bảng VI, độ chính xác của KNN tăng
lên so vi KNN không có la chọn đặc trưng SVM vn gi nguyên, nhưng độ
chính xác ca DT và RF gim mt chút so với các mô hình trước đó.
Khi ly mu li các mu lp âm bng cách s dụng phương pháp ly mu
quá mc (làm cho các mu lp âm s ng bng vi các mu lớp dương),
vấn đề mt cân bng d liu s đưc gii quyết. Mt phát hin khác vic ly
mu li làm giảm điểm SVM. Bng cách ly mu lại, kích thước d liu thc tế
đang tăng lên. Do đó, SVM không thể thc hin phân loi theo yêu cu. KNN
lOMoARcPSD|60380256
ờng như vẫn duy tđ chính xác gn như tương tự sau khi ly mu li. Tuy
nhiên, các b phân loi cây DT RF lại đang tăng độ chính xác, bi các b
phân loi cây s ci thin đ chính xác khi lượng d liu lớn hơn và cân bằng.
Khi áp dụng các phương pháp lựa chọn đặc trưng, đim ca KNN tăng lên
một chút. Độ chính xác của SVM cũng gần như không đi sau khi la chọn đc
trưng. Tuy nhiên, trong DT RF, điểm s giảm đi một chút. Điều này do các
b phân loi cây x từng đặc trưng một cách đáng tin cậy hơn. Do đó, việc
gim s ợng đặc trưng sẽ nh hưởng đến đ tin cy này và làm gim đ chính
xác. Tóm li, RF sau khi ly mu quá mức cho độ chính xác cao hơn KNN, SVM
DT trong nghiên cu này. Và vic la chọn đặc trưng không ảnh hưởng đến các
b phân loi cây. Ngay c khi kết qu không được ci thin sau khi la chn tính
năng, việc xếp hạng tính năng vẫn được thc hin. Trong s các tính năng được
xem xét, "NumOfProducts" tính năng ý nghĩa cao hơn trong nghiên cứu này.
kết lun là, những người s dng nhiu sn phm ngân hàng hơn như ngân
hàng di động, ngân hàng trc tuyến, tài khon tiết kim, tin gi c định, v.v., ít
kh năng bị khách hàng t bỏ. Do đó, ngân ng cần tp trung vào nhng
người s dng ít sn phẩm hơn.
V. KT LUN
Trong bi cnh ngành ngân hàng, giống như bt k t chc nào khác, s gn
kết với khách hàng đã trở thành mt trong nhng mối quan tâm hàng đầu. Để
gii quyết cuc khng hong này, các ngân hàng cần xác định kh năng khách
hàng ri b dch v càng sm càng tt. nhiu nghiên cứu đang đưc tiến hành
v d đoán tỷ l khách hàng ri b dch v ngân hàng. Các đơn v khác nhau đo
ng t l khách hàng ri b dch v theo nhiu cách khác nhau, s dng các
bit d liu hoc thông tin khác nhau. Nhu cu v mt h thng có th d báo t
l khách hàng ri b dch v ngân ng mt cách tng quát ngay t giai đoạn
đầu là rt quan trng. H thng cn hoạt động vi các ngun d liu c định và
tiềm năng, độc lp vi bt k nhà cung cp dch v nào. Và mô hình cũng phải
dng th s dng thông tin ti thiu th cung cấp thông lượng tối đa
cho vic d đoán. Nghiên cứu này tp trung vào việc đáp ng nhng nhu cu
này.
Mục đích của nghiên cu này xây dng hình phù hp nht để d đoán
t l khách hàng ri b dch v ngân hàng trong giai đoạn đầu. Nghiên cu ch
s dng một ng d liu nh (10.000 mẫu) cũng rất mt cân bng. Tuy
nhiên, d liu thc tế của ngân hàng thương mi s ln hơn nhiều. Bng cách
lOMoARcPSD|60380256
ly mu quá mc, c hai vấn đ đau đu này mt mức độ nhất định th
đưc gii quyết. Mô nh đã kiểm tra các b phân loi KNN, SVM, Decision Tree,
RF trong các điu kin khác nhau cho nghiên cu này. Kết qu đạt đưc tốt hơn
khi s dng b phân loi RF kết hp với oversampling (95,74%). Các phương
pháp la chn đặc trưng không liên quan gì đến b phân loi cây (Decision Tree
RF). Như kết qu cho thy, vic giảm đặc trưng (lựa chọn đặc trưng) đang làm
giảm điểm d đoán ca các b phân loi cây. Mt quan sát khác là không ging
như các bộ phân loại khác, trong SVM, oversampling đang làm giảm điểm.
Nguyên nhân là do tp d liu Bank b mt cân bằng. Do đó, SVM không thể x
lý d liu đ tt.

Preview text:

lOMoARcPSD| 60380256
DỰ BÁO TỶ LỆ KHÁCH HÀNG RÚT TIỀN TRONG NGÂN HÀNG DỰA TRÊN HỌC MÁY
Tóm tắt —Số lượng nhà cung cấp dịch vụ đang tăng lên rất nhanh chóng
trong mọi lĩnh vực kinh doanh. Ngày nay, khách hàng trong ngành ngân hàng có
rất nhiều lựa chọn khi quyết định đầu tư. Do đó, tỷ lệ khách hàng bỏ đi và mức
độ gắn kết đã trở thành một trong những vấn đề hàng đầu đối với hầu hết các
ngân hàng. Bài báo này đề xuất một phương pháp dự đoán tỷ lệ khách hàng bỏ
đi trong ngân hàng, sử dụng các kỹ thuật học máy, một nhánh của trí tuệ nhân
tạo. Nghiên cứu này thúc đẩy việc khám phá khả năng khách hàng bỏ đi bằng
cách phân tích hành vi khách hàng. Nghiên cứu này sử dụng các bộ phân loại
KNN, SVM, Cây Quyết định và Rừng Ngẫu nhiên. Ngoài ra, một số phương pháp
lựa chọn thuộc tính đã được thực hiện để tìm ra các thuộc tính phù hợp hơn và
xác minh hiệu suất hệ thống. Thử nghiệm được tiến hành trên tập dữ liệu mô
hình hóa tỷ lệ khách hàng bỏ đi từ Kaggle. Kết quả được so sánh để tìm ra một
mô hình phù hợp với độ chính xác và khả năng dự đoán cao hơn. Kết quả là, việc
sử dụng mô hình Rừng Ngẫu nhiên sau khi lấy mẫu quá mức cho kết quả chính
xác hơn so với các mô hình khác.
Thuật ngữ chỉ mục—Tỷ lệ khách hàng rời bỏ dịch vụ trong Ngân hàng, k-
Láng giềng gần nhất, Máy vectơ hỗ trợ, Cây quyết định, Rừng ngẫu nhiên. I. GIỚI THIỆU
Thị trường hiện nay rất năng động và cạnh tranh cao. Nguyên nhân là do sự
xuất hiện của rất nhiều nhà cung cấp dịch vụ. Thách thức của các nhà cung cấp
dịch vụ là tìm ra hành vi thay đổi của khách hàng và kỳ vọng ngày càng cao của
họ. Khát vọng ngày càng cao của thế hệ người tiêu dùng hiện tại và nhu cầu đa
dạng của họ về kết nối và các phương pháp tiếp cận sáng tạo, cá nhân hóa rất
khác biệt so với các thế hệ người tiêu dùng trước đây. Họ được giáo dục tốt và
hiểu biết hơn về các phương pháp tiếp cận mới nổi. Kiến thức tiên tiến này đã
thay đổi hành vi mua sắm của họ, dẫn đến xu hướng "phân tích tê liệt" phân tích
quá mức tình huống bán hàng và mua hàng, điều này cuối cùng giúp họ cải thiện
quyết định mua hàng của mình. Do đó, đây là một thách thức lớn đối với các nhà
cung cấp dịch vụ thế hệ mới để suy nghĩ sáng tạo nhằm đáp ứng và gia tăng giá trị cho khách hàng. lOMoARcPSD| 60380256
Các doanh nghiệp cần nhận ra người tiêu dùng của mình. Liu và Shih [1]
củng cố lập luận này bằng cách ngụ ý rằng áp lực cạnh tranh ngày càng tăng đối
với các tổ chức trong việc phát triển các phương pháp tiếp thị sáng tạo, đáp ứng
kỳ vọng của người tiêu dùng và nâng cao lòng trung thành và khả năng giữ chân
khách hàng. Canning [2] lập luận rằng việc cung cấp nhiều hơn cho tất cả mọi
người không còn là một chiến lược bán hàng khả thi nữa, và môi trường thị
trường ngày càng cạnh tranh đòi hỏi một chương trình nghị sự nhấn mạnh vào
việc sử dụng hiệu quả nhất vốn tiếp thị. Công nghệ đã được sử dụng để giúp các
doanh nghiệp duy trì lợi thế cạnh tranh [3]. Các kỹ thuật khai thác dữ liệu [4] là
một công nghệ thông tin thường được sử dụng để trích xuất chuyên môn tiếp
thị và hướng dẫn thêm cho các quyết định kinh doanh.
Khách hàng rất dễ dàng chuyển từ tổ chức này (Ngân hàng) sang tổ chức
khác để có chất lượng dịch vụ hoặc mức giá tốt hơn. Các tổ chức tin rằng việc
tìm kiếm khách hàng mới tốn kém và khó khăn hơn nhiều so với việc giữ chân
khách hàng hiện tại [5]. Tuy nhiên, việc cung cấp dịch vụ đáng tin cậy, đúng thời
hạn và trong ngân sách cho khách hàng đồng thời duy trì mối quan hệ đối tác
làm việc tốt với họ là một thách thức đáng kể khác. Họ cần xem xét người tiêu
dùng và nhu cầu của họ để giải quyết những thách thức này. Trong số đó, một
trong những trọng tâm chính của họ sẽ là tỷ lệ khách hàng rời bỏ. Tỷ lệ khách
hàng rời bỏ diễn ra khi khách hàng hoặc người đăng ký ngừng hợp tác với một
công ty hoặc dịch vụ. Đối với bất kỳ tổ chức nào, việc giành được khách hàng
mới đồng nghĩa với việc phải đi qua kênh bán hàng, sử dụng các tài sản bán hàng
và tiếp thị của họ trong chu kỳ. Mặt khác, việc giữ chân khách hàng thường hiệu
quả hơn về mặt ngân sách, bởi vì họ đã có được sự tin tưởng và lòng trung thành
của khách hàng hiện tại. Vì vậy, nhu cầu về một hệ thống có thể dự đoán hiệu
quả tỷ lệ khách hàng rời bỏ dịch vụ ngay từ giai đoạn đầu là rất quan trọng đối
với bất kỳ tổ chức nào. Bài báo này nhằm mục đích xây dựng một khuôn khổ có
thể dự đoán tỷ lệ khách hàng rời bỏ dịch vụ trong lĩnh vực ngân hàng bằng cách
sử dụng một số kỹ thuật học máy [6].
II. TỔNG QUAN TÀI LIỆU
Phân tích tỷ lệ khách hàng rời bỏ trong ngành ngân hàng là một lĩnh vực rất
rộng. Trong một trong những nghiên cứu này, [7] đã thực hiện dự đoán tỷ lệ
khách hàng rời bỏ của các ngân hàng thương mại dựa trên mô hình SVM. Trong
nghiên cứu này, một tập dữ liệu người tiêu dùng của một ngân hàng thương mại
Trung Quốc chứa 50.000 thông tin khách hàng được chọn. Sau khi tiền xử lý hồ
sơ, cuối cùng có 46.406 hồ sơ dữ liệu hợp lệ. Hai loại mô hình SVM được chọn: lOMoARcPSD| 60380256
SVM tuyến tính và SVM với hàm hạt nhân xuyên tâm. Hiệu quả dự đoán của các
mô hình phân loại đã được cải thiện đáng kể nhờ phương pháp lấy mẫu dưới.
Do các đặc điểm không cân bằng của tập dữ liệu khách hàng rời bỏ thực tế của
các ngân hàng thương mại, mô hình SVM không thể dự đoán chính xác tỷ lệ
khách hàng rời bỏ và ngay cả các tham số đánh giá chung cũng không thể tính
toán được sức mạnh dự đoán của mô hình. Các phát hiện cho thấy việc tích hợp
phương pháp lấy mẫu ngẫu nhiên với mô hình SVM có thể tăng đáng kể khả năng
dự đoán và giúp các ngân hàng thương mại dự đoán tỷ lệ khách hàng rời bỏ
chính xác hơn. Tuy nhiên, nghiên cứu này sử dụng tỷ lệ 1:10 giữa tỷ lệ khách
hàng rời bỏ và tỷ lệ khách hàng không rời bỏ. Trong phân tích 1:1, kết quả đạt
được tối đa là 80,84%. Đây là nhược điểm chính của nghiên cứu này.
Trong một nghiên cứu khác [8], một nghiên cứu khoa học về việc sử dụng
khai thác dữ liệu trong việc trích xuất thông tin từ các kho lưu trữ trong lĩnh vực
ngân hàng đã được trình bày. Kết quả cho thấy những khách hàng sử dụng nhiều
dịch vụ ngân hàng (sản phẩm) hơn dường như trung thành hơn, vì vậy ngân hàng
có thể tập trung vào những khách hàng sử dụng ít hơn ba sản phẩm và bán cho
họ các sản phẩm theo nhu cầu của họ. Cơ sở dữ liệu được sử dụng bao gồm hồ
sơ của 1866 khách hàng tại thời điểm nghiên cứu. Nghiên cứu dựa trên một
phương pháp dự đoán tỷ lệ khách hàng rời bỏ dịch vụ (churn) sử dụng mạng nơ-
ron trong gói phần mềm Alyuda
NeuroInteligence. Phương pháp này chia dữ liệu thành ba tập: tập huấn luyện,
tập xác thực và tập kiểm tra. Ba dạng đặc điểm được mô tả trong giai đoạn phân
tích dữ liệu: các đặc điểm cần loại bỏ, các đặc điểm cần thiết và các đặc điểm
mục tiêu cần đo lường. Mô hình chọn một số lớp ẩn trong quá trình thiết kế
mạng. Sau khi huấn luyện mạng, kết quả là: tỷ lệ xác thực CCR % là 93.959732.
Nghiên cứu kết luận rằng, do tỷ lệ người nghỉ hưu cao trong tổng số khách hàng
(691/1886), ngân hàng có các chương trình được thiết kế rất phù hợp cho người
nghỉ hưu và khả năng cạnh tranh là cực kỳ nhỏ. Nhược điểm lớn nhất của công
trình này là mạng nơ-ron tương đối chậm và phức tạp. Bảng I tóm tắt dự đoán
tỷ lệ khách hàng rời bỏ dịch vụ trong hệ thống ngân hàng bằng cách sử dụng 'dữ
liệu ngân hàng thương mại Trung Quốc' và 'dữ liệu từ một ngân hàng nhỏ của
Croatia', đồng thời chỉ ra những hạn chế của các công trình hiện có. Để khắc phục
những hạn chế này, công trình này đã đề xuất một dự đoán tỷ lệ khách hàng rời
bỏ dịch vụ dựa trên học máy trong hệ thống ngân hàng bằng cách sử dụng 'dữ
liệu mô hình hóa tỷ lệ khách hàng rời bỏ dịch vụ'. lOMoARcPSD| 60380256
Nghiên cứu [9] đã đề xuất một mô hình phân tích tỷ lệ khách hàng rời bỏ
dịch vụ giúp các nhà khai thác viễn thông dự đoán những khách hàng có khả
năng rời bỏ dịch vụ cao nhất. Hệ thống sử dụng các chiến lược học máy trên nền
tảng dữ liệu lớn. Thước đo chuẩn Diện tích dưới đường cong (AUC) được sử
dụng để đánh giá hiệu quả của mô hình. Tập dữ liệu được sử dụng cho nghiên
cứu được cung cấp bởi công ty viễn thông Syriatel. Mô hình đã làm việc với 4
phương pháp luận: Decision Tree, Random Forest, Gradient Boosted Machine
Tree (GBM) và Extreme Gradient Boosting (XGBOOST). Hortonworks Data
Platform (HDP) đã được chọn làm nền tảng dữ liệu lớn. Spark engine đã được
sử dụng trong hầu hết các giai đoạn của sản phẩm như phân tích dữ liệu, phát
triển chức năng, đào tạo và kiểm thử phần mềm. Các siêu tham số thuật toán đã
được tối ưu hóa với sự trợ giúp của xác thực chéo K-fold. Vì lớp mục tiêu không
cân bằng, mẫu để học được cân bằng lại bằng cách lấy một mẫu dữ liệu để cân
bằng hai lớp. Nghiên cứu bắt đầu với việc lấy mẫu quá mức bằng cách nhân lớp
churn để phù hợp với lớp khác. Một phương pháp lấy mẫu dưới ngẫu nhiên cũng
được sử dụng, giúp giảm kích thước mẫu của lớp rộng để so sánh với lớp thứ
hai. Quá trình đào tạo bắt đầu trên thuật toán Decision Tree và tối ưu hóa độ
sâu siêu tham số và số lượng nút tối đa. Trong cả Random Forest và GBM, kết
quả tốt nhất cho thấy số lượng cây tốt nhất là 200 cây. Và GBM có kết quả tốt
hơn DT và RF. Kết quả cho thấy giá trị AUC tốt nhất là 93,301% cho XGBOOST
trên 180 cây. Các mô hình được kiểm tra bằng cách cài đặt một tập dữ liệu mới
trong nhiều thời điểm khác nhau và không cần bất kỳ sự can thiệp tiếp thị mang
tính xây dựng nào, XGBOOST cũng cho kết quả tốt nhất với AUC 89%. Nghiên
cứu đưa ra giả thuyết rằng sự sụt giảm kết quả có thể là do hiện tượng mô hình
dữ liệu không dừng, do đó mô hình cần được huấn luyện theo thời gian. III. PHƯƠNG PHÁP
Nghiên cứu này nhằm mục đích dự đoán tỷ lệ khách hàng rời bỏ ngân hàng
thương mại càng sớm càng tốt bằng cách sử dụng các phương pháp khai thác
dữ liệu hiệu quả. Sơ đồ minh họa mô hình đề xuất được trình bày trong Hình 1.
A. Mô tả tập dữ liệu
Tập dữ liệu được sử dụng trong phân tích này được lấy từ Kaggle để mô
hình hóa tỷ lệ khách hàng rời bỏ ngân hàng. Tập dữ liệu bao gồm thông tin của
10.000 khách hàng ngân hàng, và tham số mục tiêu là một biến nhị phân biểu thị
khách hàng đã rời khỏi ngân hàng hay vẫn là khách hàng. Trong số này, 7.963
mẫu là mẫu dương (duy trì) và 2.037 mẫu âm (thoát). Biến mục tiêu phản ánh lOMoARcPSD| 60380256
cờ nhị phân 1 khi khách hàng đóng tài khoản ngân hàng và 0 khi khách hàng
được giữ lại. Tập dữ liệu chứa 13 vectơ đặc trưng (dự báo) được báo cáo từ dữ
liệu khách hàng và các giao dịch do khách hàng xử lý. Chi tiết về các đặc trưng
này được trình bày trong Bảng II.
B. Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là một giai đoạn quan trọng trong quá trình khai thác dữ
liệu. Chúng có ảnh hưởng trực tiếp đến tỷ lệ thành công của nhiệm vụ. Nó phải
xử lý tính không liên quan, nhiễu và không đáng tin cậy của dữ liệu. Và nếu cần,
cả việc chuyển đổi dữ liệu nữa. Mô tả các yếu tố dự báo sau khi tiền xử lý được
liệt kê trong Bảng III. Đây là các thuộc tính được sử dụng để quyết định dự đoán
tỷ lệ rời bỏ dịch vụ trong nghiên cứu này. 1)
Tính không liên quan: Dữ liệu hoặc đặc điểm không ảnhhưởng đến
chủ đề thảo luận sẽ được coi là không liên quan. Việc giữ lại các thuộc tính này
đôi khi có thể ảnh hưởng đến hiệu suất của bộ phân loại. Khi xem xét tập dữ liệu
churn, các đặc điểm có tên là Số hàng, Mã khách hàng, Họ và Địa lý không liên
quan gì đến dự đoán. Vì vậy, các đặc điểm này đã bị bỏ qua thủ công trong nghiên cứu này. 2)
Chuyển đổi: Chuyển đổi dữ liệu là quá trình chuyển đổidữ liệu từ
dạng này sang dạng khác. Dữ liệu được cấu trúc và xác thực hợp lý sẽ nâng cao
chất lượng dữ liệu và bảo vệ ứng dụng khỏi các rủi ro tiềm ẩn như giá trị null, dữ
liệu trùng lặp không mong muốn, lập chỉ mục không chính xác và định dạng
không tương thích. Trong nghiên cứu này, quá trình chuyển đổi dữ liệu được thực hiện như sau:
• Giới tính: Nữ -> 0 và Nam -> 1
C. Lựa chọn Đặc trưng
Trong học máy, quá trình xác định một tập con các yếu tố dự đoán phù hợp
để sử dụng trong quá trình xây dựng mô hình được gọi là lựa chọn đặc trưng.
Giai đoạn lựa chọn đặc trưng rất quan trọng vì nó sẽ giúp rút ngắn thời gian huấn
luyện, thoát khỏi vấn đề đa chiều và trên hết là đơn giản hóa mô hình. 1)
mRMR: Độ dư thừa Tối thiểu Độ liên quan Tối đa (mRMR) là một
trong những phương pháp lựa chọn đặc trưng của loại bộ lọc. Đối với các bài
toán phân loại, nó sẽ xếp hạng các đặc trưng theo trình tự bằng thuật toán
mRMR [10]. Thuật toán lựa chọn đặc trưng loại bộ lọc đánh giá ý nghĩa của đặc
trưng dựa trên các đặc điểm của đặc trưng, chẳng hạn như phương sai của đặc lOMoARcPSD| 60380256
trưng và mức độ liên quan của phản ứng. Việc lựa chọn các đặc trưng sẽ là một
phần của giai đoạn tiền xử lý dữ liệu. Do đó, lựa chọn đặc trưng loại bộ lọc không
tương quan với thuật toán huấn luyện. 2)
Độ giảm (Reliability): Đây cũng là một trong nhữngphương pháp lựa
chọn đặc trưng loại bộ lọc sẽ xếp hạng các đặc trưng bằng thuật toán Độ giảm
[11]. Thuật toán này hoạt động tốt nhất để ước tính ý nghĩa của các đặc trưng
cho các mô hình có giám sát dựa trên khoảng cách sử dụng khoảng cách cặp giữa
các quan sát để dự đoán phản hồi. Phương pháp này xếp hạng các biến dự đoán
dựa trên mức độ quan trọng bằng cách sử dụng số lượng các lân cận gần nhất
được chỉ định. Kết quả sẽ là các số dự đoán được liệt kê theo thứ hạng của chúng.
D. Lấy mẫu quá mức
Trong xử lý dữ liệu, lấy mẫu quá mức và lấy mẫu quá mức là các chiến lược
được sử dụng để cấu hình phân phối lớp của dữ liệu cho trước. Do dữ liệu mất
cân bằng nghiêm trọng (7963 mẫu lớp dương và 2037 mẫu lớp âm) và quy mô
mẫu dữ liệu khả dụng nhỏ, nghiên cứu này sẽ sử dụng kỹ thuật lấy mẫu quá mức.
Bởi vì nếu lấy mẫu quá mức được ưu tiên, quy mô dữ liệu sẽ giảm đến mức
không đủ dữ liệu để xây dựng mô hình. Do đó, nghiên cứu này sử dụng lấy mẫu
quá mức ngẫu nhiên bằng cách lấy mẫu lại lớp thiểu số (lớp âm). E. Phân loại
Các phương pháp phân loại đã được áp dụng trên dữ liệu đã được xử lý
trước. KNN, SVM, Cây quyết định (DT) và bộ phân loại RF được sử dụng để so
sánh kết quả. Việc so sánh kết quả của các bộ phân loại khác nhau cũng đã được
thực hiện trên các đặc trưng đã chọn bằng các phương pháp lựa chọn đặc trưng khác nhau. 1)
K-Nearest Neighbor (KNN): Phương pháp KNN là mộttrong những
phương pháp phân loại phi tham số dễ dàng và hiệu quả nhất, dựa trên học có
giám sát [12]. KNN hoạt động bằng cách xác định k mẫu gần nhất từ một tập dữ
liệu hiện có và khi một mẫu chưa biết mới xuất hiện, phân loại mẫu mới đó vào
lớp tương tự nhất. Nghĩa là, thuật toán phân loại xác định nhóm mẫu thử nghiệm
bằng k mẫu huấn luyện là các lân cận gần nhất với mẫu thử nghiệm và gán nó
vào lớp có khả năng cao nhất. 2)
Máy vectơ hỗ trợ (SVM): Máy vectơ hỗ trợ là một thuậttoán học
máy hiệu quả, có giám sát, bắt nguồn từ lý thuyết học thống kê của Vapnik [13],
[14], [15]. Điều này đã chứng minh sự thành công của nó trong các lĩnh vực phân lOMoARcPSD| 60380256
loại [16], hồi quy [17], dự đoán chuỗi thời gian và ước lượng trong thực hành
địa kỹ thuật và khoa học khai thác mỏ [18]. Mục tiêu chính của SVM là tìm một
siêu phẳng phân biệt hiệu quả, phân loại chính xác các điểm dữ liệu và phân biệt
các điểm của hai lớp bằng cách giảm khả năng phân loại sai các mẫu huấn luyện
và các mẫu thử nghiệm chưa biết. Điều này ngụ ý rằng có khoảng cách tối đa
giữa hai lớp và siêu phẳng phân tách. Mô hình Máy vectơ hỗ trợ tuyến tính
(LSVM) được sử dụng trong nghiên cứu này. LSVM ban đầu được phát triển để
giải quyết các bài toán lớp nhị phân [19]. 3)
Cây quyết định (DT): Cây quyết định là một quy trình cắtmột tập
hợp dữ liệu thành các phân đoạn giống như nhánh khác nhau [20]. Một cây
quyết định dễ đọc. Ưu điểm này làm cho việc giải thích mô hình trở nên đơn
giản. Trong khi một thuật toán khác (như mạng nơ-ron) có thể tạo ra một mô
hình chính xác hơn nhiều trong một kịch bản nhất định, thì cây quyết định có
thể được huấn luyện để dự đoán các dự đoán của mạng nơron, do đó mở ra
"hộp đen" của mạng nơ-ron. Một lợi ích khác là, trong mối tương quan giữa các
biến mục tiêu và các biến dự báo, nó có thể mô hình hóa mức độ phi tuyến tính
cao. Một cây quyết định bao gồm hai chiến lược chính [21]: Tạo cây và Phân loại. 4)
Rừng ngẫu nhiên (RF): Breiman [22] đã trình bày RF nhưmột bộ
phân loại tổng thể cho các trình học cây. Phương pháp này sử dụng một số cây
quyết định sao cho mỗi cây dựa trên các giá trị của một vectơ ngẫu nhiên được
chọn riêng lẻ với cùng phân phối cho tất cả các cây. Lựa chọn đúng đắn cho xu
hướng quá khớp tập dữ liệu huấn luyện của cây quyết định. Tóm lại, Rừng ngẫu
nhiên thực chất là một cách để kết hợp nhiều cây quyết định sâu được học trên
các phần khác nhau của cùng một tập dữ liệu với mục tiêu giảm phương sai. Ưu
điểm thực sự của việc sử dụng RF là nó đi kèm với dữ liệu có chiều khá lớn,
không cần phải thực hiện giảm chiều và lựa chọn đặc trưng. Tốc độ huấn luyện
cũng cao hơn và dễ sử dụng trong các mô hình song song.
IV. KẾT QUẢ VÀ THẢO LUẬN
Sau khi quá trình tiền xử lý dữ liệu hoàn tất, dữ liệu sẽ ở dạng hoạt động.
10 đặc trưng thu được sau quá trình tiền xử lý sẽ được sử dụng cho nghiên cứu
còn lại. Trong đó, 70% dữ liệu sẽ được sử dụng để huấn luyện và 30% còn lại sẽ
được sử dụng để kiểm tra dưới dạng ngẫu nhiên. Các bộ phân loại sẽ được sử
dụng riêng lẻ hoặc kết hợp với các phương pháp chọn đặc trưng đã chỉ định. Mỗi
mô hình được đánh giá dựa trên độ chính xác thu được sau khi kiểm chứng chéo
10 lần. Ma trận nhầm lẫn ngẫu nhiên cũng được tạo ra cho mỗi mô hình. Hiệu lOMoARcPSD| 60380256
suất của các bộ phân loại sẽ khác nhau khi sử dụng các phương pháp chọn đặc
trưng khác nhau. Các đặc trưng được chọn trong mỗi phương pháp chọn đặc
trưng và chi tiết tham số phân loại sẽ được mô tả trong các đoạn sau.
Đối với KNN, giá trị k được đặt là 5. Nghĩa là năm lân cận gần nhất được
xem xét để phân loại dữ liệu mới. Bằng cách giảm số lân cận xuống dưới 5, đôi
khi độ chính xác sẽ tăng lên và ngược lại. Tuy nhiên, vì dữ liệu được lấy ngẫu
nhiên để phân loại nên việc chọn ít lân cận hơn không phải là một phương pháp
tốt. Tuy nhiên, khi số lượng lân cận lớn hơn 5, kết quả sẽ giảm đáng kể. Do đó,
giá trị k được chọn là 5 (trong đó độ chính xác và sự thay đổi được tối ưu hóa).
Và thước đo khoảng cách được sử dụng là khoảng cách Euclidean. Đối với SVM,
hàm hạt nhân tuyến tính được sử dụng (LSVM). Trong trường hợp RF, số lượng
cây trong rừng được đặt là 100. Tất cả các tham số này được lựa chọn dựa trên
việc tối ưu hóa độ chính xác phân loại.
Kết quả của các kỹ thuật phân loại khác nhau có và không có lấy mẫu quá
mức (không có chọn đặc trưng) được trình bày trong bảng IV. Kết quả cho thấy
độ chính xác của bộ phân loại DT và RF tăng lên sau khi lấy mẫu quá mức, nhưng
độ chính xác của KNN không thay đổi khi lấy mẫu quá mức và độ chính xác của
SVM giảm đi khi lấy mẫu quá mức, điều này cho thấy SVM không phù hợp với lượng dữ liệu lớn.
6 đặc trưng tốt nhất được lựa chọn bằng phương pháp MRMR là Số lượng
sản phẩm, Là thành viên tích cực, Giới tính, Độ tuổi, Số dư, Nhiệm kỳ. Độ chính
xác của các bộ phân loại khác nhau sử dụng phương pháp lựa chọn MRMR được
thể hiện trong bảng V, độ chính xác của KNN tăng lên so với KNN không có MRMR.
Độ chính xác của SVM gần như tương đương với SVM không có MRMR, độ chính
xác của DT và RF giảm một chút so với các mô hình trước đó.
Các đặc trưng tốt nhất được lựa chọn bằng phương pháp Relief là Số lượng
sản phẩm, Độ tuổi, Số dư, Nhiệm kỳ, Giới tính, Có thẻ Cr. Độ chính xác của các
bộ phân loại khác nhau được thể hiện trong bảng VI, độ chính xác của KNN tăng
lên so với KNN không có lựa chọn đặc trưng và SVM vẫn giữ nguyên, nhưng độ
chính xác của DT và RF giảm một chút so với các mô hình trước đó.
Khi lấy mẫu lại các mẫu lớp âm bằng cách sử dụng phương pháp lấy mẫu
quá mức (làm cho các mẫu lớp âm có số lượng bằng với các mẫu lớp dương),
vấn đề mất cân bằng dữ liệu sẽ được giải quyết. Một phát hiện khác là việc lấy
mẫu lại làm giảm điểm SVM. Bằng cách lấy mẫu lại, kích thước dữ liệu thực tế
đang tăng lên. Do đó, SVM không thể thực hiện phân loại theo yêu cầu. KNN lOMoARcPSD| 60380256
dường như vẫn duy trì độ chính xác gần như tương tự sau khi lấy mẫu lại. Tuy
nhiên, các bộ phân loại cây DT và RF lại đang tăng độ chính xác, bởi vì các bộ
phân loại cây sẽ cải thiện độ chính xác khi lượng dữ liệu lớn hơn và cân bằng.
Khi áp dụng các phương pháp lựa chọn đặc trưng, điểm của KNN tăng lên
một chút. Độ chính xác của SVM cũng gần như không đổi sau khi lựa chọn đặc
trưng. Tuy nhiên, trong DT và RF, điểm số giảm đi một chút. Điều này là do các
bộ phân loại cây xử lý từng đặc trưng một cách đáng tin cậy hơn. Do đó, việc
giảm số lượng đặc trưng sẽ ảnh hưởng đến độ tin cậy này và làm giảm độ chính
xác. Tóm lại, RF sau khi lấy mẫu quá mức cho độ chính xác cao hơn KNN, SVM và
DT trong nghiên cứu này. Và việc lựa chọn đặc trưng không ảnh hưởng đến các
bộ phân loại cây. Ngay cả khi kết quả không được cải thiện sau khi lựa chọn tính
năng, việc xếp hạng tính năng vẫn được thực hiện. Trong số các tính năng được
xem xét, "NumOfProducts" là tính năng có ý nghĩa cao hơn trong nghiên cứu này.
Và kết luận là, những người sử dụng nhiều sản phẩm ngân hàng hơn như ngân
hàng di động, ngân hàng trực tuyến, tài khoản tiết kiệm, tiền gửi cố định, v.v., ít
có khả năng bị khách hàng từ bỏ. Do đó, ngân hàng cần tập trung vào những
người sử dụng ít sản phẩm hơn. V. KẾT LUẬN
Trong bối cảnh ngành ngân hàng, giống như bất kỳ tổ chức nào khác, sự gắn
kết với khách hàng đã trở thành một trong những mối quan tâm hàng đầu. Để
giải quyết cuộc khủng hoảng này, các ngân hàng cần xác định khả năng khách
hàng rời bỏ dịch vụ càng sớm càng tốt. Có nhiều nghiên cứu đang được tiến hành
về dự đoán tỷ lệ khách hàng rời bỏ dịch vụ ngân hàng. Các đơn vị khác nhau đo
lường tỷ lệ khách hàng rời bỏ dịch vụ theo nhiều cách khác nhau, sử dụng các
bit dữ liệu hoặc thông tin khác nhau. Nhu cầu về một hệ thống có thể dự báo tỷ
lệ khách hàng rời bỏ dịch vụ ngân hàng một cách tổng quát ngay từ giai đoạn
đầu là rất quan trọng. Hệ thống cần hoạt động với các nguồn dữ liệu cố định và
tiềm năng, độc lập với bất kỳ nhà cung cấp dịch vụ nào. Và mô hình cũng phải ở
dạng có thể sử dụng thông tin tối thiểu và có thể cung cấp thông lượng tối đa
cho việc dự đoán. Nghiên cứu này tập trung vào việc đáp ứng những nhu cầu này.
Mục đích của nghiên cứu này là xây dựng mô hình phù hợp nhất để dự đoán
tỷ lệ khách hàng rời bỏ dịch vụ ngân hàng trong giai đoạn đầu. Nghiên cứu chỉ
sử dụng một lượng dữ liệu nhỏ (10.000 mẫu) và cũng rất mất cân bằng. Tuy
nhiên, dữ liệu thực tế của ngân hàng thương mại sẽ lớn hơn nhiều. Bằng cách lOMoARcPSD| 60380256
lấy mẫu quá mức, cả hai vấn đề đau đầu này ở một mức độ nhất định có thể
được giải quyết. Mô hình đã kiểm tra các bộ phân loại KNN, SVM, Decision Tree,
RF trong các điều kiện khác nhau cho nghiên cứu này. Kết quả đạt được tốt hơn
khi sử dụng bộ phân loại RF kết hợp với oversampling (95,74%). Các phương
pháp lựa chọn đặc trưng không liên quan gì đến bộ phân loại cây (Decision Tree
và RF). Như kết quả cho thấy, việc giảm đặc trưng (lựa chọn đặc trưng) đang làm
giảm điểm dự đoán của các bộ phân loại cây. Một quan sát khác là không giống
như các bộ phân loại khác, trong SVM, oversampling đang làm giảm điểm.
Nguyên nhân là do tập dữ liệu Bank bị mất cân bằng. Do đó, SVM không thể xử lý dữ liệu đủ tốt.