Tài liệu phương pháp nghiên cứu chương 3- Trường đại học Văn Lang
Phương pháp nghiên cứu tài liệu: Nhóm đã áp dụng các kiến thức đã học về vấn đề nghiên cứu như : Nghiên cứu dữ liệu Big Data, các kiến thức nền tảng và chuyên mônTài liệu giúp bạn tham khảo, ôn tập và đạt kết quả cao.Mời bạn đọc đón xem!
Preview text:
lOMoAR cPSD| 45473628
CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU
3.1 Thiết kế mô hình nghiên cứu 3.2Quy trình nghiên cứu 3.3 Nghiên cứu sơ bộ
3.4 Nghiên cứu định lượng
Anna Montoya, inversion, KirillOdintsov, Martin Kotek. (2018). Home Credit Default
Risk. Kaggle. https://kaggle.com/competitions/home-credit-default-risk
--------------------------------------------------------------------------------------------------------
CHƯƠNG 3: PHƯƠNG PHÁP NGHIÊN CỨU
Chúng tôi đề xuất sử dụng mô hình Azure Machine Learning để dự Dự báo về yếu tố
ảnh hưởng đến khả năng chi trả của khách hàng tại Home Credit Việt Nam.
3.1 Thiết kế mô hình nghiên cứu
Bài nghiên cứu này đã áp dụng các biện pháp nghiên cứu vào trong đề tài để có cái
nhìn chính xác và tổng quát nhất trong bài nghiên cứu:
- Phương pháp nghiên cứu tài liệu: Nhóm đã áp dụng các kiến thức đã học về vấn đề
nghiên cứu như : Nghiên cứu dữ liệu Big Data, các kiến thức nền tảng và chuyên
môn về lĩnh vực phân tích và quản trị rủi ro, các môn học bổ trợ về khả năng tìm
hiểu lĩnh vực và một số nguồn thông tin tự học khác trên thư viện sách và các nền tảng đa phương tiện…
- Phương pháp phân tích so sánh: Với việc phân loại dữ liệu thành nhiều biến khác
nhau, từ đây nhóm có thể tiến hành so sánh giữa những nguồn dữ liệu đó, từ đó rút
ra được kết luận về khả năng chi trả của khách hàng tại Home Credit Việt Nam là
do các yếu tố nào ảnh hưởng và có mối liên hệ đến.
- Phương pháp phân tích và đưa giải pháp: Với những kết quả mà dữ liệu đưa ra, từ
đó nhóm có thể phân tích được tình hình thực tế của Home Credit Việt Nam, những
vấn đề về hồ sơ khách hàng, lịch sử vay vốn, dữ liệu tín dụng, và thông tin tài chính
cá nhân mà Home Credit thực sự gặp phải và đưa ra các giải pháp khắc phục những
vấn đề đó. Bên cạnh việc áp dụng lý thuyết vào việc nghiên cứu, nhóm còn sử dụng
những phần mềm hỗ trợ đắc lực trong việc thực hiện nghiên cứu. Bên cạnh việc sử
dụng phần mềm Microsoft Excel để tổng hợp và xử lý nguồn dữ liệu thô đầu vào,
nhóm chúng em còn áp dụng Microsoft Azure để phân tích và dự đoán dữ liệu. Dữ
liệu được thu thập từ các nguồn nghiên cứu khác nhau của các bài báo Mỹ. lOMoAR cPSD| 45473628
- Nghiên cứu sơ bộ: Trong giai đoạn này, nhóm đã tiến hành nghiên cứu sơ bộ về
tìnhhình thực tế của khách hàng tại Home Credit Việt Nam và các yếu tố ảnh hưởng
đến khả năng chi trả của họ. Nhóm đã thu thập dữ liệu từ các nguồn khác nhau và
áp dụng phần mềm Microsoft Excel để tổng hợp và xử lý dữ liệu thô. Đồng thời,
chúng ta cũng đã sử dụng Microsoft Azure để phân tích và dự đoán dữ liệu, giúp
chúng ta hiểu rõ hơn về tình hình khách hàng và đưa ra các giải pháp phù hợp.
- Nghiên cứu định lượng:Sau khi hoàn thành nghiên cứu sơ bộ, chúng ta đã tiến hành
nghiên cứu định lượng để phân tích chi tiết hơn về các yếu tố ảnh hưởng đến khả
năng chi trả của khách hàng. Nhóm đã thu thập tập dữ liệu có sẵn và tiến hành các
bước làm sạch dữ liệu, mô tả dữ liệu và chọn mẫu phù hợp. Qua đó, nhómđã có cái
nhìn rõ ràng hơn về mối quan hệ giữa các biến và khả năng chi trả của khách hàng.
3.2 Quy trình Nghiên cứu
Quá trình nghiên cứu sẽ lần lượt thực hiện các bước trong sơ đồ. Đầu tiên sẽ
là nghiên cứu cơ sở lý thuyết và các bài nghiên cứu trước về những yếu tố ảnh hưởng
đến khả năng chi trả của khách hàng tại Home Credit Việt Nam. Sau đó tiến hành xây
dựng mô hình dự đoán. Xây dựng mô hình để kiểm tra mức độ ảnh hưởng của các
yếu tố, so sánh, đánh giá lựa chọn mô hình phù hợp. Cuối cùng, sử dụng mô hình đã
chọn để thực hiện dự đoán và xác định các yếu tố ảnh hưởng cao nhất đến khả năng
chi trả đồng thời kiểm tra thử trên dữ liệu có sẵn khác.
3.3 Nghiên cứu sơ bộ: lOMoAR cPSD| 45473628
Nghiên cứu sơ bộ là bước đầu tiên trong quá trình thực hiện nghiên cứu. Bước
này luôn là bước rất quan trọng để người làm nghiên cứu có thể có được cái nhìn
khái quát về vấn đề mình muốn nghiên cứu, hiểu được sơ lược bản chất vấn đề để từ
đó có hướng đi đúng đắn hơn khi thực hiện nghiên cứu chuyên sâu. Trong bài nghiên
cứu này, nhóm tiến hành nghiên cứu sơ bộ bằng cách tìm hiểu tín dụng các sản phẩm
Home Credit đang cung cấp. Điều gì sẽ ảnh hưởng đến khả năng chi
trả của khách hàng tại Home Credit.Vì vậy nhóm tiến hành thu thập dữ liệu và đi vào
nghiên cứu các yếu tố chung ảnh hưởng đến khả năng chi trả của khách hàng khi vay.
Bộ dữ liệu mà nhóm chọn được tổng hợp từ các trang web và bài báo chính thống.
Từ đó có thể xác định các yếu tố thể tác động được khả năng chi trả của khách hàng
tại Home Credit Việt Nam . Nghiên cứu sơ bộ dự đoán các yếu tố ảnh hưởng đến khả
năng tử vong như nghề nghiệp, độ tuổi, thu nhập hàng tháng của khách hàng.
3.4 Nghiên cứu định lượng
Sau khi hoàn thành quá trình nghiên cứu sơ bộ, nhóm bắt đầu tiến hành đi sâu
vào quá trình nghiên cứu. Phương pháp quyết định chọn để nghiên cứu chuyên sâu
là nghiên cứu định lượng thay vì sử dụng nghiên cứu định tính. Việc nghiên cứu định
lượng đòi hỏi một tập dữ liệu lớn, các biến dữ liệu được phân định rõ ràng, dễ hiểu,
có tác động trực tiếp đến kết quả muốn nghiên cứu, để từ đó tập trung vào các cơ sở
lập luận và nguyên nhân dẫn đến vấn đề một cách logic. Sau khi tổng hợp và chọn
lọc dữ liệu để phân tích, nhóm
tiến hành chạy thử các mô hình nghiên cứu, các giả thuyết thử nghiệm của tác giả khác
và bài báo nghiên cứu trước khác có liên quan.
3.4.1.Làm sạch dữ liệu
Sau khi đã hoàn thành các bước đầu của quá trình nghiên cứu, ta tiến đến việc phân
loại dữ liệu để tiến hành thực hiện các phương pháp học máy.
Bước 1: Xóa các quan sát trùng lặp hoặc không liên quan vì không nằm trong đề
tài nghiên cứu của nhóm. Bước 2: Sửa lỗi cấu trúc
Do thông tin ngày từ bộ dữ liệu chưa đúng theo yêu cầu nên nhóm đã kết hợp
hàm CONCATENATE, RIGHT,LEFT,MID để cho ra ngày đúng theo tiêu chuẩn. 3.3.1Mô tả dữ liệu
Bảng 3.1: Các biến trong bộ dữ liệu lOMoAR cPSD| 45473628 Biến Dạng Miêu tả Thời gian vay của Months Date khách hàng Age Numeric Độ tuổi của khách hàng Số tiền vay Numeric Số tiền vay của khách hàng Education Numeric Trình độ học vấn của khách hàng Income Numeric Thu nhập của khách hàng
3.4Phương pháp chọn mẫu
- Mẫu được chọn lấy từ dữ liệu thứ cấp là bộ dữ liệu của nguồn Kaggle, được
nhóm thu thập để phục vụ cho mục đích nghiên cứu. Mẫu được lấy ngẫu nhiên
thông qua công cụ Split Data trên Azure Machine Learning, lấy 80% mẫu trong
dữ liệu gốc. Với số lượng mẫu lớn sẽ làm tăng độ chính xác của mô hình nghiên
cứu, khắc phục được các hạn chế của mô hình