









Preview text:
lOMoARcPSD| 60380256
DỰ BÁO TỶ LỆ KHÁCH HÀNG RÚT TIỀN TRONG NGÂN HÀNG DỰA TRÊN HỌC MÁY
Tóm tắt —Số lượng nhà cung cấp dịch vụ đang tăng lên rất nhanh chóng
trong mọi lĩnh vực kinh doanh. Ngày nay, khách hàng trong ngành ngân hàng có
rất nhiều lựa chọn khi quyết định đầu tư. Do đó, tỷ lệ khách hàng bỏ đi và mức
độ gắn kết đã trở thành một trong những vấn đề hàng đầu đối với hầu hết các
ngân hàng. Bài báo này đề xuất một phương pháp dự đoán tỷ lệ khách hàng bỏ
đi trong ngân hàng, sử dụng các kỹ thuật học máy, một nhánh của trí tuệ nhân
tạo. Nghiên cứu này thúc đẩy việc khám phá khả năng khách hàng bỏ đi bằng
cách phân tích hành vi khách hàng. Nghiên cứu này sử dụng các bộ phân loại
KNN, SVM, Cây Quyết định và Rừng Ngẫu nhiên. Ngoài ra, một số phương pháp
lựa chọn thuộc tính đã được thực hiện để tìm ra các thuộc tính phù hợp hơn và
xác minh hiệu suất hệ thống. Thử nghiệm được tiến hành trên tập dữ liệu mô
hình hóa tỷ lệ khách hàng bỏ đi từ Kaggle. Kết quả được so sánh để tìm ra một
mô hình phù hợp với độ chính xác và khả năng dự đoán cao hơn. Kết quả là, việc
sử dụng mô hình Rừng Ngẫu nhiên sau khi lấy mẫu quá mức cho kết quả chính
xác hơn so với các mô hình khác.
Thuật ngữ chỉ mục—Tỷ lệ khách hàng rời bỏ dịch vụ trong Ngân hàng, k-
Láng giềng gần nhất, Máy vectơ hỗ trợ, Cây quyết định, Rừng ngẫu nhiên. I. GIỚI THIỆU
Thị trường hiện nay rất năng động và cạnh tranh cao. Nguyên nhân là do sự
xuất hiện của rất nhiều nhà cung cấp dịch vụ. Thách thức của các nhà cung cấp
dịch vụ là tìm ra hành vi thay đổi của khách hàng và kỳ vọng ngày càng cao của
họ. Khát vọng ngày càng cao của thế hệ người tiêu dùng hiện tại và nhu cầu đa
dạng của họ về kết nối và các phương pháp tiếp cận sáng tạo, cá nhân hóa rất
khác biệt so với các thế hệ người tiêu dùng trước đây. Họ được giáo dục tốt và
hiểu biết hơn về các phương pháp tiếp cận mới nổi. Kiến thức tiên tiến này đã
thay đổi hành vi mua sắm của họ, dẫn đến xu hướng "phân tích tê liệt" phân tích
quá mức tình huống bán hàng và mua hàng, điều này cuối cùng giúp họ cải thiện
quyết định mua hàng của mình. Do đó, đây là một thách thức lớn đối với các nhà
cung cấp dịch vụ thế hệ mới để suy nghĩ sáng tạo nhằm đáp ứng và gia tăng giá trị cho khách hàng. lOMoARcPSD| 60380256
Các doanh nghiệp cần nhận ra người tiêu dùng của mình. Liu và Shih [1]
củng cố lập luận này bằng cách ngụ ý rằng áp lực cạnh tranh ngày càng tăng đối
với các tổ chức trong việc phát triển các phương pháp tiếp thị sáng tạo, đáp ứng
kỳ vọng của người tiêu dùng và nâng cao lòng trung thành và khả năng giữ chân
khách hàng. Canning [2] lập luận rằng việc cung cấp nhiều hơn cho tất cả mọi
người không còn là một chiến lược bán hàng khả thi nữa, và môi trường thị
trường ngày càng cạnh tranh đòi hỏi một chương trình nghị sự nhấn mạnh vào
việc sử dụng hiệu quả nhất vốn tiếp thị. Công nghệ đã được sử dụng để giúp các
doanh nghiệp duy trì lợi thế cạnh tranh [3]. Các kỹ thuật khai thác dữ liệu [4] là
một công nghệ thông tin thường được sử dụng để trích xuất chuyên môn tiếp
thị và hướng dẫn thêm cho các quyết định kinh doanh.
Khách hàng rất dễ dàng chuyển từ tổ chức này (Ngân hàng) sang tổ chức
khác để có chất lượng dịch vụ hoặc mức giá tốt hơn. Các tổ chức tin rằng việc
tìm kiếm khách hàng mới tốn kém và khó khăn hơn nhiều so với việc giữ chân
khách hàng hiện tại [5]. Tuy nhiên, việc cung cấp dịch vụ đáng tin cậy, đúng thời
hạn và trong ngân sách cho khách hàng đồng thời duy trì mối quan hệ đối tác
làm việc tốt với họ là một thách thức đáng kể khác. Họ cần xem xét người tiêu
dùng và nhu cầu của họ để giải quyết những thách thức này. Trong số đó, một
trong những trọng tâm chính của họ sẽ là tỷ lệ khách hàng rời bỏ. Tỷ lệ khách
hàng rời bỏ diễn ra khi khách hàng hoặc người đăng ký ngừng hợp tác với một
công ty hoặc dịch vụ. Đối với bất kỳ tổ chức nào, việc giành được khách hàng
mới đồng nghĩa với việc phải đi qua kênh bán hàng, sử dụng các tài sản bán hàng
và tiếp thị của họ trong chu kỳ. Mặt khác, việc giữ chân khách hàng thường hiệu
quả hơn về mặt ngân sách, bởi vì họ đã có được sự tin tưởng và lòng trung thành
của khách hàng hiện tại. Vì vậy, nhu cầu về một hệ thống có thể dự đoán hiệu
quả tỷ lệ khách hàng rời bỏ dịch vụ ngay từ giai đoạn đầu là rất quan trọng đối
với bất kỳ tổ chức nào. Bài báo này nhằm mục đích xây dựng một khuôn khổ có
thể dự đoán tỷ lệ khách hàng rời bỏ dịch vụ trong lĩnh vực ngân hàng bằng cách
sử dụng một số kỹ thuật học máy [6].
II. TỔNG QUAN TÀI LIỆU
Phân tích tỷ lệ khách hàng rời bỏ trong ngành ngân hàng là một lĩnh vực rất
rộng. Trong một trong những nghiên cứu này, [7] đã thực hiện dự đoán tỷ lệ
khách hàng rời bỏ của các ngân hàng thương mại dựa trên mô hình SVM. Trong
nghiên cứu này, một tập dữ liệu người tiêu dùng của một ngân hàng thương mại
Trung Quốc chứa 50.000 thông tin khách hàng được chọn. Sau khi tiền xử lý hồ
sơ, cuối cùng có 46.406 hồ sơ dữ liệu hợp lệ. Hai loại mô hình SVM được chọn: lOMoARcPSD| 60380256
SVM tuyến tính và SVM với hàm hạt nhân xuyên tâm. Hiệu quả dự đoán của các
mô hình phân loại đã được cải thiện đáng kể nhờ phương pháp lấy mẫu dưới.
Do các đặc điểm không cân bằng của tập dữ liệu khách hàng rời bỏ thực tế của
các ngân hàng thương mại, mô hình SVM không thể dự đoán chính xác tỷ lệ
khách hàng rời bỏ và ngay cả các tham số đánh giá chung cũng không thể tính
toán được sức mạnh dự đoán của mô hình. Các phát hiện cho thấy việc tích hợp
phương pháp lấy mẫu ngẫu nhiên với mô hình SVM có thể tăng đáng kể khả năng
dự đoán và giúp các ngân hàng thương mại dự đoán tỷ lệ khách hàng rời bỏ
chính xác hơn. Tuy nhiên, nghiên cứu này sử dụng tỷ lệ 1:10 giữa tỷ lệ khách
hàng rời bỏ và tỷ lệ khách hàng không rời bỏ. Trong phân tích 1:1, kết quả đạt
được tối đa là 80,84%. Đây là nhược điểm chính của nghiên cứu này.
Trong một nghiên cứu khác [8], một nghiên cứu khoa học về việc sử dụng
khai thác dữ liệu trong việc trích xuất thông tin từ các kho lưu trữ trong lĩnh vực
ngân hàng đã được trình bày. Kết quả cho thấy những khách hàng sử dụng nhiều
dịch vụ ngân hàng (sản phẩm) hơn dường như trung thành hơn, vì vậy ngân hàng
có thể tập trung vào những khách hàng sử dụng ít hơn ba sản phẩm và bán cho
họ các sản phẩm theo nhu cầu của họ. Cơ sở dữ liệu được sử dụng bao gồm hồ
sơ của 1866 khách hàng tại thời điểm nghiên cứu. Nghiên cứu dựa trên một
phương pháp dự đoán tỷ lệ khách hàng rời bỏ dịch vụ (churn) sử dụng mạng nơ-
ron trong gói phần mềm Alyuda
NeuroInteligence. Phương pháp này chia dữ liệu thành ba tập: tập huấn luyện,
tập xác thực và tập kiểm tra. Ba dạng đặc điểm được mô tả trong giai đoạn phân
tích dữ liệu: các đặc điểm cần loại bỏ, các đặc điểm cần thiết và các đặc điểm
mục tiêu cần đo lường. Mô hình chọn một số lớp ẩn trong quá trình thiết kế
mạng. Sau khi huấn luyện mạng, kết quả là: tỷ lệ xác thực CCR % là 93.959732.
Nghiên cứu kết luận rằng, do tỷ lệ người nghỉ hưu cao trong tổng số khách hàng
(691/1886), ngân hàng có các chương trình được thiết kế rất phù hợp cho người
nghỉ hưu và khả năng cạnh tranh là cực kỳ nhỏ. Nhược điểm lớn nhất của công
trình này là mạng nơ-ron tương đối chậm và phức tạp. Bảng I tóm tắt dự đoán
tỷ lệ khách hàng rời bỏ dịch vụ trong hệ thống ngân hàng bằng cách sử dụng 'dữ
liệu ngân hàng thương mại Trung Quốc' và 'dữ liệu từ một ngân hàng nhỏ của
Croatia', đồng thời chỉ ra những hạn chế của các công trình hiện có. Để khắc phục
những hạn chế này, công trình này đã đề xuất một dự đoán tỷ lệ khách hàng rời
bỏ dịch vụ dựa trên học máy trong hệ thống ngân hàng bằng cách sử dụng 'dữ
liệu mô hình hóa tỷ lệ khách hàng rời bỏ dịch vụ'. lOMoARcPSD| 60380256
Nghiên cứu [9] đã đề xuất một mô hình phân tích tỷ lệ khách hàng rời bỏ
dịch vụ giúp các nhà khai thác viễn thông dự đoán những khách hàng có khả
năng rời bỏ dịch vụ cao nhất. Hệ thống sử dụng các chiến lược học máy trên nền
tảng dữ liệu lớn. Thước đo chuẩn Diện tích dưới đường cong (AUC) được sử
dụng để đánh giá hiệu quả của mô hình. Tập dữ liệu được sử dụng cho nghiên
cứu được cung cấp bởi công ty viễn thông Syriatel. Mô hình đã làm việc với 4
phương pháp luận: Decision Tree, Random Forest, Gradient Boosted Machine
Tree (GBM) và Extreme Gradient Boosting (XGBOOST). Hortonworks Data
Platform (HDP) đã được chọn làm nền tảng dữ liệu lớn. Spark engine đã được
sử dụng trong hầu hết các giai đoạn của sản phẩm như phân tích dữ liệu, phát
triển chức năng, đào tạo và kiểm thử phần mềm. Các siêu tham số thuật toán đã
được tối ưu hóa với sự trợ giúp của xác thực chéo K-fold. Vì lớp mục tiêu không
cân bằng, mẫu để học được cân bằng lại bằng cách lấy một mẫu dữ liệu để cân
bằng hai lớp. Nghiên cứu bắt đầu với việc lấy mẫu quá mức bằng cách nhân lớp
churn để phù hợp với lớp khác. Một phương pháp lấy mẫu dưới ngẫu nhiên cũng
được sử dụng, giúp giảm kích thước mẫu của lớp rộng để so sánh với lớp thứ
hai. Quá trình đào tạo bắt đầu trên thuật toán Decision Tree và tối ưu hóa độ
sâu siêu tham số và số lượng nút tối đa. Trong cả Random Forest và GBM, kết
quả tốt nhất cho thấy số lượng cây tốt nhất là 200 cây. Và GBM có kết quả tốt
hơn DT và RF. Kết quả cho thấy giá trị AUC tốt nhất là 93,301% cho XGBOOST
trên 180 cây. Các mô hình được kiểm tra bằng cách cài đặt một tập dữ liệu mới
trong nhiều thời điểm khác nhau và không cần bất kỳ sự can thiệp tiếp thị mang
tính xây dựng nào, XGBOOST cũng cho kết quả tốt nhất với AUC 89%. Nghiên
cứu đưa ra giả thuyết rằng sự sụt giảm kết quả có thể là do hiện tượng mô hình
dữ liệu không dừng, do đó mô hình cần được huấn luyện theo thời gian. III. PHƯƠNG PHÁP
Nghiên cứu này nhằm mục đích dự đoán tỷ lệ khách hàng rời bỏ ngân hàng
thương mại càng sớm càng tốt bằng cách sử dụng các phương pháp khai thác
dữ liệu hiệu quả. Sơ đồ minh họa mô hình đề xuất được trình bày trong Hình 1.
A. Mô tả tập dữ liệu
Tập dữ liệu được sử dụng trong phân tích này được lấy từ Kaggle để mô
hình hóa tỷ lệ khách hàng rời bỏ ngân hàng. Tập dữ liệu bao gồm thông tin của
10.000 khách hàng ngân hàng, và tham số mục tiêu là một biến nhị phân biểu thị
khách hàng đã rời khỏi ngân hàng hay vẫn là khách hàng. Trong số này, 7.963
mẫu là mẫu dương (duy trì) và 2.037 mẫu âm (thoát). Biến mục tiêu phản ánh lOMoARcPSD| 60380256
cờ nhị phân 1 khi khách hàng đóng tài khoản ngân hàng và 0 khi khách hàng
được giữ lại. Tập dữ liệu chứa 13 vectơ đặc trưng (dự báo) được báo cáo từ dữ
liệu khách hàng và các giao dịch do khách hàng xử lý. Chi tiết về các đặc trưng
này được trình bày trong Bảng II.
B. Tiền xử lý dữ liệu
Tiền xử lý dữ liệu là một giai đoạn quan trọng trong quá trình khai thác dữ
liệu. Chúng có ảnh hưởng trực tiếp đến tỷ lệ thành công của nhiệm vụ. Nó phải
xử lý tính không liên quan, nhiễu và không đáng tin cậy của dữ liệu. Và nếu cần,
cả việc chuyển đổi dữ liệu nữa. Mô tả các yếu tố dự báo sau khi tiền xử lý được
liệt kê trong Bảng III. Đây là các thuộc tính được sử dụng để quyết định dự đoán
tỷ lệ rời bỏ dịch vụ trong nghiên cứu này. 1)
Tính không liên quan: Dữ liệu hoặc đặc điểm không ảnhhưởng đến
chủ đề thảo luận sẽ được coi là không liên quan. Việc giữ lại các thuộc tính này
đôi khi có thể ảnh hưởng đến hiệu suất của bộ phân loại. Khi xem xét tập dữ liệu
churn, các đặc điểm có tên là Số hàng, Mã khách hàng, Họ và Địa lý không liên
quan gì đến dự đoán. Vì vậy, các đặc điểm này đã bị bỏ qua thủ công trong nghiên cứu này. 2)
Chuyển đổi: Chuyển đổi dữ liệu là quá trình chuyển đổidữ liệu từ
dạng này sang dạng khác. Dữ liệu được cấu trúc và xác thực hợp lý sẽ nâng cao
chất lượng dữ liệu và bảo vệ ứng dụng khỏi các rủi ro tiềm ẩn như giá trị null, dữ
liệu trùng lặp không mong muốn, lập chỉ mục không chính xác và định dạng
không tương thích. Trong nghiên cứu này, quá trình chuyển đổi dữ liệu được thực hiện như sau:
• Giới tính: Nữ -> 0 và Nam -> 1
C. Lựa chọn Đặc trưng
Trong học máy, quá trình xác định một tập con các yếu tố dự đoán phù hợp
để sử dụng trong quá trình xây dựng mô hình được gọi là lựa chọn đặc trưng.
Giai đoạn lựa chọn đặc trưng rất quan trọng vì nó sẽ giúp rút ngắn thời gian huấn
luyện, thoát khỏi vấn đề đa chiều và trên hết là đơn giản hóa mô hình. 1)
mRMR: Độ dư thừa Tối thiểu Độ liên quan Tối đa (mRMR) là một
trong những phương pháp lựa chọn đặc trưng của loại bộ lọc. Đối với các bài
toán phân loại, nó sẽ xếp hạng các đặc trưng theo trình tự bằng thuật toán
mRMR [10]. Thuật toán lựa chọn đặc trưng loại bộ lọc đánh giá ý nghĩa của đặc
trưng dựa trên các đặc điểm của đặc trưng, chẳng hạn như phương sai của đặc lOMoARcPSD| 60380256
trưng và mức độ liên quan của phản ứng. Việc lựa chọn các đặc trưng sẽ là một
phần của giai đoạn tiền xử lý dữ liệu. Do đó, lựa chọn đặc trưng loại bộ lọc không
tương quan với thuật toán huấn luyện. 2)
Độ giảm (Reliability): Đây cũng là một trong nhữngphương pháp lựa
chọn đặc trưng loại bộ lọc sẽ xếp hạng các đặc trưng bằng thuật toán Độ giảm
[11]. Thuật toán này hoạt động tốt nhất để ước tính ý nghĩa của các đặc trưng
cho các mô hình có giám sát dựa trên khoảng cách sử dụng khoảng cách cặp giữa
các quan sát để dự đoán phản hồi. Phương pháp này xếp hạng các biến dự đoán
dựa trên mức độ quan trọng bằng cách sử dụng số lượng các lân cận gần nhất
được chỉ định. Kết quả sẽ là các số dự đoán được liệt kê theo thứ hạng của chúng.
D. Lấy mẫu quá mức
Trong xử lý dữ liệu, lấy mẫu quá mức và lấy mẫu quá mức là các chiến lược
được sử dụng để cấu hình phân phối lớp của dữ liệu cho trước. Do dữ liệu mất
cân bằng nghiêm trọng (7963 mẫu lớp dương và 2037 mẫu lớp âm) và quy mô
mẫu dữ liệu khả dụng nhỏ, nghiên cứu này sẽ sử dụng kỹ thuật lấy mẫu quá mức.
Bởi vì nếu lấy mẫu quá mức được ưu tiên, quy mô dữ liệu sẽ giảm đến mức
không đủ dữ liệu để xây dựng mô hình. Do đó, nghiên cứu này sử dụng lấy mẫu
quá mức ngẫu nhiên bằng cách lấy mẫu lại lớp thiểu số (lớp âm). E. Phân loại
Các phương pháp phân loại đã được áp dụng trên dữ liệu đã được xử lý
trước. KNN, SVM, Cây quyết định (DT) và bộ phân loại RF được sử dụng để so
sánh kết quả. Việc so sánh kết quả của các bộ phân loại khác nhau cũng đã được
thực hiện trên các đặc trưng đã chọn bằng các phương pháp lựa chọn đặc trưng khác nhau. 1)
K-Nearest Neighbor (KNN): Phương pháp KNN là mộttrong những
phương pháp phân loại phi tham số dễ dàng và hiệu quả nhất, dựa trên học có
giám sát [12]. KNN hoạt động bằng cách xác định k mẫu gần nhất từ một tập dữ
liệu hiện có và khi một mẫu chưa biết mới xuất hiện, phân loại mẫu mới đó vào
lớp tương tự nhất. Nghĩa là, thuật toán phân loại xác định nhóm mẫu thử nghiệm
bằng k mẫu huấn luyện là các lân cận gần nhất với mẫu thử nghiệm và gán nó
vào lớp có khả năng cao nhất. 2)
Máy vectơ hỗ trợ (SVM): Máy vectơ hỗ trợ là một thuậttoán học
máy hiệu quả, có giám sát, bắt nguồn từ lý thuyết học thống kê của Vapnik [13],
[14], [15]. Điều này đã chứng minh sự thành công của nó trong các lĩnh vực phân lOMoARcPSD| 60380256
loại [16], hồi quy [17], dự đoán chuỗi thời gian và ước lượng trong thực hành
địa kỹ thuật và khoa học khai thác mỏ [18]. Mục tiêu chính của SVM là tìm một
siêu phẳng phân biệt hiệu quả, phân loại chính xác các điểm dữ liệu và phân biệt
các điểm của hai lớp bằng cách giảm khả năng phân loại sai các mẫu huấn luyện
và các mẫu thử nghiệm chưa biết. Điều này ngụ ý rằng có khoảng cách tối đa
giữa hai lớp và siêu phẳng phân tách. Mô hình Máy vectơ hỗ trợ tuyến tính
(LSVM) được sử dụng trong nghiên cứu này. LSVM ban đầu được phát triển để
giải quyết các bài toán lớp nhị phân [19]. 3)
Cây quyết định (DT): Cây quyết định là một quy trình cắtmột tập
hợp dữ liệu thành các phân đoạn giống như nhánh khác nhau [20]. Một cây
quyết định dễ đọc. Ưu điểm này làm cho việc giải thích mô hình trở nên đơn
giản. Trong khi một thuật toán khác (như mạng nơ-ron) có thể tạo ra một mô
hình chính xác hơn nhiều trong một kịch bản nhất định, thì cây quyết định có
thể được huấn luyện để dự đoán các dự đoán của mạng nơron, do đó mở ra
"hộp đen" của mạng nơ-ron. Một lợi ích khác là, trong mối tương quan giữa các
biến mục tiêu và các biến dự báo, nó có thể mô hình hóa mức độ phi tuyến tính
cao. Một cây quyết định bao gồm hai chiến lược chính [21]: Tạo cây và Phân loại. 4)
Rừng ngẫu nhiên (RF): Breiman [22] đã trình bày RF nhưmột bộ
phân loại tổng thể cho các trình học cây. Phương pháp này sử dụng một số cây
quyết định sao cho mỗi cây dựa trên các giá trị của một vectơ ngẫu nhiên được
chọn riêng lẻ với cùng phân phối cho tất cả các cây. Lựa chọn đúng đắn cho xu
hướng quá khớp tập dữ liệu huấn luyện của cây quyết định. Tóm lại, Rừng ngẫu
nhiên thực chất là một cách để kết hợp nhiều cây quyết định sâu được học trên
các phần khác nhau của cùng một tập dữ liệu với mục tiêu giảm phương sai. Ưu
điểm thực sự của việc sử dụng RF là nó đi kèm với dữ liệu có chiều khá lớn,
không cần phải thực hiện giảm chiều và lựa chọn đặc trưng. Tốc độ huấn luyện
cũng cao hơn và dễ sử dụng trong các mô hình song song.
IV. KẾT QUẢ VÀ THẢO LUẬN
Sau khi quá trình tiền xử lý dữ liệu hoàn tất, dữ liệu sẽ ở dạng hoạt động.
10 đặc trưng thu được sau quá trình tiền xử lý sẽ được sử dụng cho nghiên cứu
còn lại. Trong đó, 70% dữ liệu sẽ được sử dụng để huấn luyện và 30% còn lại sẽ
được sử dụng để kiểm tra dưới dạng ngẫu nhiên. Các bộ phân loại sẽ được sử
dụng riêng lẻ hoặc kết hợp với các phương pháp chọn đặc trưng đã chỉ định. Mỗi
mô hình được đánh giá dựa trên độ chính xác thu được sau khi kiểm chứng chéo
10 lần. Ma trận nhầm lẫn ngẫu nhiên cũng được tạo ra cho mỗi mô hình. Hiệu lOMoARcPSD| 60380256
suất của các bộ phân loại sẽ khác nhau khi sử dụng các phương pháp chọn đặc
trưng khác nhau. Các đặc trưng được chọn trong mỗi phương pháp chọn đặc
trưng và chi tiết tham số phân loại sẽ được mô tả trong các đoạn sau.
Đối với KNN, giá trị k được đặt là 5. Nghĩa là năm lân cận gần nhất được
xem xét để phân loại dữ liệu mới. Bằng cách giảm số lân cận xuống dưới 5, đôi
khi độ chính xác sẽ tăng lên và ngược lại. Tuy nhiên, vì dữ liệu được lấy ngẫu
nhiên để phân loại nên việc chọn ít lân cận hơn không phải là một phương pháp
tốt. Tuy nhiên, khi số lượng lân cận lớn hơn 5, kết quả sẽ giảm đáng kể. Do đó,
giá trị k được chọn là 5 (trong đó độ chính xác và sự thay đổi được tối ưu hóa).
Và thước đo khoảng cách được sử dụng là khoảng cách Euclidean. Đối với SVM,
hàm hạt nhân tuyến tính được sử dụng (LSVM). Trong trường hợp RF, số lượng
cây trong rừng được đặt là 100. Tất cả các tham số này được lựa chọn dựa trên
việc tối ưu hóa độ chính xác phân loại.
Kết quả của các kỹ thuật phân loại khác nhau có và không có lấy mẫu quá
mức (không có chọn đặc trưng) được trình bày trong bảng IV. Kết quả cho thấy
độ chính xác của bộ phân loại DT và RF tăng lên sau khi lấy mẫu quá mức, nhưng
độ chính xác của KNN không thay đổi khi lấy mẫu quá mức và độ chính xác của
SVM giảm đi khi lấy mẫu quá mức, điều này cho thấy SVM không phù hợp với lượng dữ liệu lớn.
6 đặc trưng tốt nhất được lựa chọn bằng phương pháp MRMR là Số lượng
sản phẩm, Là thành viên tích cực, Giới tính, Độ tuổi, Số dư, Nhiệm kỳ. Độ chính
xác của các bộ phân loại khác nhau sử dụng phương pháp lựa chọn MRMR được
thể hiện trong bảng V, độ chính xác của KNN tăng lên so với KNN không có MRMR.
Độ chính xác của SVM gần như tương đương với SVM không có MRMR, độ chính
xác của DT và RF giảm một chút so với các mô hình trước đó.
Các đặc trưng tốt nhất được lựa chọn bằng phương pháp Relief là Số lượng
sản phẩm, Độ tuổi, Số dư, Nhiệm kỳ, Giới tính, Có thẻ Cr. Độ chính xác của các
bộ phân loại khác nhau được thể hiện trong bảng VI, độ chính xác của KNN tăng
lên so với KNN không có lựa chọn đặc trưng và SVM vẫn giữ nguyên, nhưng độ
chính xác của DT và RF giảm một chút so với các mô hình trước đó.
Khi lấy mẫu lại các mẫu lớp âm bằng cách sử dụng phương pháp lấy mẫu
quá mức (làm cho các mẫu lớp âm có số lượng bằng với các mẫu lớp dương),
vấn đề mất cân bằng dữ liệu sẽ được giải quyết. Một phát hiện khác là việc lấy
mẫu lại làm giảm điểm SVM. Bằng cách lấy mẫu lại, kích thước dữ liệu thực tế
đang tăng lên. Do đó, SVM không thể thực hiện phân loại theo yêu cầu. KNN lOMoARcPSD| 60380256
dường như vẫn duy trì độ chính xác gần như tương tự sau khi lấy mẫu lại. Tuy
nhiên, các bộ phân loại cây DT và RF lại đang tăng độ chính xác, bởi vì các bộ
phân loại cây sẽ cải thiện độ chính xác khi lượng dữ liệu lớn hơn và cân bằng.
Khi áp dụng các phương pháp lựa chọn đặc trưng, điểm của KNN tăng lên
một chút. Độ chính xác của SVM cũng gần như không đổi sau khi lựa chọn đặc
trưng. Tuy nhiên, trong DT và RF, điểm số giảm đi một chút. Điều này là do các
bộ phân loại cây xử lý từng đặc trưng một cách đáng tin cậy hơn. Do đó, việc
giảm số lượng đặc trưng sẽ ảnh hưởng đến độ tin cậy này và làm giảm độ chính
xác. Tóm lại, RF sau khi lấy mẫu quá mức cho độ chính xác cao hơn KNN, SVM và
DT trong nghiên cứu này. Và việc lựa chọn đặc trưng không ảnh hưởng đến các
bộ phân loại cây. Ngay cả khi kết quả không được cải thiện sau khi lựa chọn tính
năng, việc xếp hạng tính năng vẫn được thực hiện. Trong số các tính năng được
xem xét, "NumOfProducts" là tính năng có ý nghĩa cao hơn trong nghiên cứu này.
Và kết luận là, những người sử dụng nhiều sản phẩm ngân hàng hơn như ngân
hàng di động, ngân hàng trực tuyến, tài khoản tiết kiệm, tiền gửi cố định, v.v., ít
có khả năng bị khách hàng từ bỏ. Do đó, ngân hàng cần tập trung vào những
người sử dụng ít sản phẩm hơn. V. KẾT LUẬN
Trong bối cảnh ngành ngân hàng, giống như bất kỳ tổ chức nào khác, sự gắn
kết với khách hàng đã trở thành một trong những mối quan tâm hàng đầu. Để
giải quyết cuộc khủng hoảng này, các ngân hàng cần xác định khả năng khách
hàng rời bỏ dịch vụ càng sớm càng tốt. Có nhiều nghiên cứu đang được tiến hành
về dự đoán tỷ lệ khách hàng rời bỏ dịch vụ ngân hàng. Các đơn vị khác nhau đo
lường tỷ lệ khách hàng rời bỏ dịch vụ theo nhiều cách khác nhau, sử dụng các
bit dữ liệu hoặc thông tin khác nhau. Nhu cầu về một hệ thống có thể dự báo tỷ
lệ khách hàng rời bỏ dịch vụ ngân hàng một cách tổng quát ngay từ giai đoạn
đầu là rất quan trọng. Hệ thống cần hoạt động với các nguồn dữ liệu cố định và
tiềm năng, độc lập với bất kỳ nhà cung cấp dịch vụ nào. Và mô hình cũng phải ở
dạng có thể sử dụng thông tin tối thiểu và có thể cung cấp thông lượng tối đa
cho việc dự đoán. Nghiên cứu này tập trung vào việc đáp ứng những nhu cầu này.
Mục đích của nghiên cứu này là xây dựng mô hình phù hợp nhất để dự đoán
tỷ lệ khách hàng rời bỏ dịch vụ ngân hàng trong giai đoạn đầu. Nghiên cứu chỉ
sử dụng một lượng dữ liệu nhỏ (10.000 mẫu) và cũng rất mất cân bằng. Tuy
nhiên, dữ liệu thực tế của ngân hàng thương mại sẽ lớn hơn nhiều. Bằng cách lOMoARcPSD| 60380256
lấy mẫu quá mức, cả hai vấn đề đau đầu này ở một mức độ nhất định có thể
được giải quyết. Mô hình đã kiểm tra các bộ phân loại KNN, SVM, Decision Tree,
RF trong các điều kiện khác nhau cho nghiên cứu này. Kết quả đạt được tốt hơn
khi sử dụng bộ phân loại RF kết hợp với oversampling (95,74%). Các phương
pháp lựa chọn đặc trưng không liên quan gì đến bộ phân loại cây (Decision Tree
và RF). Như kết quả cho thấy, việc giảm đặc trưng (lựa chọn đặc trưng) đang làm
giảm điểm dự đoán của các bộ phân loại cây. Một quan sát khác là không giống
như các bộ phân loại khác, trong SVM, oversampling đang làm giảm điểm.
Nguyên nhân là do tập dữ liệu Bank bị mất cân bằng. Do đó, SVM không thể xử lý dữ liệu đủ tốt.