MÔ HÌNH HỆ THỐNG KHAI THÁC DỮ LIỆU PHI CẤU TRÚC HỖ TRỢ
KHÁCH HÀNG RA QUYẾT ĐỊNH MUA HÀNG TRỰC TUYẾN
AN UNSTRUCTURED DATA MINING SYSTEM MODEL TO SUPPORT CUSTOMERS IN
MAKING ONLINE PURCHASING DECISIONS
Lê Triệu Tuấn
1
*, Phạm Minh Hoàn
1
1
Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên
2
Trường Đại học Kinh tế Quốc dân
*Tác giả liên hệ: lttuan@ictu.edu.vn
(Nhận bài: 19/9/2022; Chấp nhận đăng: 20/11/2022)
Tóm tắt - Những dạng dữ liệu phi cấu trúc được khách hàng đ
lại trên không gian mạng hiện nay ngày càng trở nên quan trọng
đối với các doanh nghiệp kinh doanh trực tuyến. Dữ liệu đó
những bình luận dưới dạng văn bản, ẩn chứa trong đó là cảm xúc
của khách hàng liên quan tới chất lượng của các sản phẩm mà họ
quan tâm. Nghiên cứu này đề xuất một hình kiến trúc hệ thống
hỗ trợ khách hàng ra quyết định mua hàng trực tuyến dựa trên
phương pháp khai thác dữ liệu phi cấu trúc. Dữ liệu nghiên cứu
được thu thập trên các trang thương mại điện tử lớn của Việt Nam,
sau đó được phân loại thành tích cực hoặc tiêu cc bởi các
hình của phương pháp học máy có giám sát. Sau khi thử nghiệm
đánh giá, chúng tôi đã lựa chọn hình Support Vector
Machine (SVM) độ chính xác cao nhất đlàm hình thực
nghiệm.
Nghiên cứu có giá trị tham khảo cho các nhà nghiên cứu trong lĩnh
vực thương mại điện tử và các lĩnh vực khác của kinh doanh và
quản lý.
Abstract - The types of unstructured data left behind by
customers in cyberspace are becoming more important for online
businesses. That type of unstructured data is textual comments,
containing feelings of customers related to the quality of the items
which they are interested in. This study aims to propose a system
architecture model to support customers in making online
purchasing decisions based on the unstructured data mining.
Research data are customers’ comments collected on major
Vietnamese e-commerce websites, and then classified into
positive or negative by models of Supervised Machine Learning
methods. After testing and evaluated, we selected the Support
Vector Machine (SVM) model with the highest accuracy to make
the experimental model. The study is of reference value for
researchers in the field of e-commerce and other fields of business
and management.
Từ khóa - Khai thác dữ liệu phi cấu trúc; học máy giám sát; hệ
hỗ trợ ra quyết định mua hàng; mô hình phân loại cảm xúc
Key words - Unstructured data mining; supervised machine
learning; purchase decision support system; sentiment
classification model
1
National Economics University (Pham Minh Hoan)
1. Giới thiệu
Mua sắm thông qua nền tảng thương mại điện tử đã trở
thành xu hướng tất yếu trong thời đại hiện nay. Đặc biệt
trong bối cảnh bị ảnh hưởng bởi dịch bệnh Covid-19 thì số
lượng người tham gia mua sắm trên các nền tảng thương
mại điện tử đã ra tăng một cách nhanh chóng. Khi một
khách hàng sau khi trải nhiệm dịch vụ mua sắm trên một
trang thương mại điện tử, hoặc đã từng sử dụng sản phẩm
được bán trên trang đó thì thường sẽ để lại những đánh giá,
bình luận thông qua chức năng tự động của hệ thống [1].
Những bình luận dạng văn bản như vậy còn gọi là dữ liệu
phi cấu trúc. khía cạnh người mua hàng tiếp theo, sau khi
họ quan tâm tới một mặt hàng nào đó, thường có xu hướng
truy cập vào các trang thương mại điện tử để xem và trải
nghiệm trước mặt hàng, hoặc tham khảo các bình luận của
những khách hàng trước, sau đó mới đưa ra quyết định
mua hay không [2]. Dữ liệu bình luận được tạo ra bởi khách
hàng đang gia tăng không ngừng trên các hệ thống website
theo thời gian thực. Đây một nguồn tài nguyên dữ liệu
rất quan trọng cho các doanh nghiệp để thể nhận biết
tâm lý, xu hướng của khách hàng, từ đó cải thiện chất lượng
dịch vụ khách hàng, hỗ trợ mua hàng để tăng doanh thu.
Tuy nhiên, làm thế nào để khai thác được dữ liệu này một
cách hiệu quả mà không mất nhiều thời gian, chi phí nguồn
lực? áp dụng như thế nào để hỗ trợ khách hàng lựa chọn
sản phẩm, giúp nâng cao hiệu quả bán hàng? Xuất phát từ
những vấn đề trên, nhóm tác giả hình thành ý tưởng khai
thác
những bình luận này bởi chương trình máy tính tự động và
thực hiện phân loại bởi phương pháp học máy nhằm h trợ
khách hàng ra quyết định lựa chọn sản phẩm trong mua
sắm trực tuyến.
2. Các nghiên cứu liên quan
Nghiên cứu về hỗ trợ khách hàng mua hàng trực tuyến
đã được nhiều tác giả quan tâm. Đặc biệt, trong vài năm trở
lại đây, từ khi internet tăng tốc và thương mại điện tử phát
triển mạnh mẽ, đã có nhiều các mô hình hỗ trợ khách hàng
mua hàng trực tuyến được đxuất như: hình hệ thống
hỗ trợ mua hàng dựa vào thông tin nhân khẩu học, hệ thống
này thực hiện điều chuyển người dùng tới website bán hàng
phù hợp dựa vào c thông tin được thu thập từ khách hàng,
như thông tin địa lý hay độ tuổi [3, 4]; Mô hình htrợ dựa
trên lý thuyết giá trị đa thuộc tính (MAVT), hỗ trợ dựa trên
thông tin mô tả mặt hàng cùng với sở thích của khách hàng
[5]. Mô hình dựa vào sự tương tác của khách hàng với sản
phẩm trong quá khứ để hỗ trợ lựa chọn mặt hàng tương tự
[6]. Hoặc hình dựa vào cùng sở thích với khách hàng
khác để hỗ trợ lựa chọn mặt hàng [7]; Mô hình dựa vào độ
tương đồng giữa các mặt hàng trong cùng hệ thống [8-9].
Nhìn chung, các hình thu thập được chỉ dựa vào
thông tin nhân khẩu học của khách hàng, dựa vào mối quan
hệ học giữa khách hàng với mặt hàng, sự liên quan
của các sản phẩm trong cùng hệ thống để hỗ trợ khách hàng
1
lựa chọn sản phẩm. Việc phân tích dữ liệu bị giới hạn trong
một miền nhất định, phụ thuộc vào các mối quan hệ của các
đối tượng khách hàng, sản phẩm trong quá khứ không
đưa ra được cái nhìn sâu sắc vxu hướng sự vận động
của sự hài lòng đến từ khách hàng. Điều này thể gây ra
sự lưỡng lự trong việc đưa ra quyết định lựa chọn sản phẩm
của khách hàng. Bên cạnh đó, những phương pháp này
không thể giám sát sự hài lòng của khách hàng một cách
liên tục,không có khả năng theo dõi xu hướng hài lòng
của khách hàng trong dài hạn [10].
Trong nước, cũng bắt đầu có những nghiên cứu sử dng
phương pháp liên quan tới phân tích dữ liệu phi cấu trúc để
hỗ trợ khách hàng trực tuyến. Điển hình là nghiên cứu [11]
đã tiến hành thực nghiệm việc phân loại các bình luận trên
bộ dữ liệu trong lĩnh vực thực phẩm bởi các mô hình thuật
toán của phương pháp học máy như: Decision Tree, Naïve
Bayes, hồi quy Logistic. Ngoài ra, n c nghiên cứu
trong lĩnh vực du lịch [12]; nghiên cứu [13] sử dụng các
hình Naive Bayes, Support Vector Machines và
Maximum Entropy để phân loại các bình luận về khách sạn
tại Việt Nam; Nghiên cứu so sánh các phương pháp phân
loại bình luận bằng Tiếng Việt [14].
Hiện nay, với sự bùng nổ của dữ liệu lớn (Big Data),
cách thức tương tác của khách hàng với các nền tảng bán
hàng cũng đã dần thay đổi. Kéo theo đó là sự cần thiết phải
thay đổi cách thức tiếp cận trong việc hỗ trợ khách hàng
mua hàng của doanh nghiệp hay các nhà quan tâm. Và các
mô hình hệ thống cũng cần thay đổi theo hướng sử dụng dữ
liệu lớn [15]. Nghiên cứu này khác so với những nghiên
cứu trên ở chỗ, nhóm tác giả khai thác dữ liệu phi cấu trúc;
Cụ thể là những bình luận dạng văn bản của khách hàng để
nhận biết những cảm nhận tích cực hay tiêu cực trên từng
sản phẩm, qua đó cung cấp thông tin hỗ trợ khách hàng ra
quyết định lựa chọn sản phẩm.
3. Cơ sở lý thuyết
3.1. Ra quyết định và hỗ trợ ra quyết định trong mua
hàng trực tuyến
Quyết định mua hàng là mô hình hành vi của người tiêu
dùng tuân theo một quy trình ra quyết định bao gồm các
giai đoạn khác nhau để đạt được sự lựa chọn [16]. Mỗi
người có những cách mua khác nhau đối với bất kỳ mt sản
phẩm nhất định nào, nghiên cứu [17] cho rằng, khách hàng
đã quen với việc thay đổi cách tiếp cận ra quyết định theo
các i trường và tính huống khác nhau, luôn cố gắng
giảm thiểu nỗ lực liên quan tới nhận thức. Và trong trường
hợp này, họ thường tìm kiếm sự hỗ trợ khi họ gặp phải quá
nhiều thông tin để ít tốn công sức và thời gian hơn trong
việc đưa ra quyết định tốt hơn [18]. Ngày nay, do sự phổ
biến của thương mại điện tử, khi tìm hiểu thông tin mặt
hàng khách hàng thường tìm đọc những nhận xét, đánh giá
của những khách hàng trước về sản phẩm đó [19]. Số lượng
mặt hàng trên các website thường rất lớn đa dạng,
người tiêu dùng thường không thể đánh giá sâu được hết
các sản phẩn lựa chọn sẵn trên đó [20] giai đoạn
đầu tiên họ thường lọc ra một tập hợp c sản phẩm, sau đó
xác định các sản phẩm hứa hẹn nhất [21]. Những sản phẩm
được lựa chọn xu hướng ảnh hưởng bởi các đánh giá tích
cực hay tiêu cực của những người dùng trước [22]. Khai
thác lượng dữ liệu phi cấu trúc khổng lồ được tạo ra trong
quá trình giao dịch để hiểu sâu sắc hơn về hành vi khách
hàng là rất cần thiết để hỗ trợ người mua hàng [23].
Hệ hỗ trợ ra quyết định (Decision Support System
DSS) là hệ thống thông tin dựa trên máy tính có thể hỗ trợ
việc ra quyết định bằng cách phân tích dữ liệu và cung cấp
thông tin cho người dùng [23]. Các DSS áp dụng các công
cụ giúp người tiêu dùng lựa chọn sản phẩm thể ảnh
hưởng phần lớn đến việc ra quyết định của họ [24]
tác động lớn tới tất cả các loại quyết định trong kinh doanh
[25]. hai cách tiếp cận đphát triển DSS hỗ trợ người
tiêu dùng trực tuyến đó là tiếp cận theo hướng dữ liệu [26]
và tiếp cận theo hướng tri thức [27].
3.2. Khai thác dữ liệu phi cấu trúc
3.2.1. Khai thác văn bản Dữ liệu phi cấu trúc thường đề cập
đến những thông tin không được định nghĩa trước về
hình dữ liệu quan hệ [28]. Hiện nay, trên các hệ thống kinh
doanh trực tuyến, hơn 80% dữ liệu tồn tại ở dạng này [29],
trong đó phổ biến hữu ích nhất dạng văn bản [30] được
tạo ra từ những đánh giá sản phẩm của khách hàng. Những
dòng văn bản đánh gthể được đọc hiểu, phân tích để
thu được những thông tin kinh doanh một cách thủ công.
Tuy nhiên với một lượng lớn dữ liệu thì cách xử này sẽ
không hiệu quả. Công nghệ Big Data kỹ thuật xử ngôn
ngữ tự nhiên phát triển cho phép khai thác những dạng dữ
liệu này theo những quy trình tự động.
Khai thác văn bản quá trình trích xuất thông tin hữu
ích ý nghĩa từ văn bản [31]. Các phương pháp, công cụ
khai thác dliệu thể giúp khám phá kiến thức ẩn trong
các nội dung văn bản của khách hàng và giúp doanh nghiệp
hiểu khách hàng theo cách tốt hơn [32]. Học máy kết hợp
với xử lý ngôn ngữ tự nhiên là kỹ thuật khai thác phổ biến
khả thi nhất hiện nay. thể giúp phân loại dữ liệu
văn bản thành các danh mục khác nhau, để hiểu xu hướng
hoặc chuyển động của dữ liệu, phát hiện sự giống nhau
trong các tập dữ liệu và dđoán tương lai dựa trên quá kh
[33].
Thông tin sẵn dạng văn bản được chia thành hai
phần, khách quan (objective) và chủ quan (subjective). Các
sự kiện có thể được thể hiện bằng các nội dung khách quan,
trong khi nhận thức, quan điểm tình cảm được thể hiện
các khía cạnh chủ quan. Trong xử ngôn ngữ tự nhiên,
trọng tâm khai thác thông tin thực tế từ văn bản, tức thông
tin dưới dạng khách quan. Tuy nhiên, với sự phát triển của
công nghệ web, công nghệ khai thác Big Data giúp khai
thác kiến thức nội dung do người dùng tạo ra, đây được gọi
phân tích chủ quan, hay phân tích tình cảm [34]. 3.2.2.
Phân tích tình cảm
Bình luận của khách hàng chứa những tình cảm trải
nghiệm của họ liên quan tới sản phẩm, dịch vụ [35-37]. Dữ
liệu đánh giá, bình luận sản phẩm một giải pháp đthu
thập dữ liệu, cung cấp thông tin hữu ích cho nhà quản
lý, ảnh hưởng đến hành vi mua hàng của khách hàng [38,
39] và cả hoạt động của công ty [40]. Vì vậy, các nhà quản
thể trích xuất những thông tin chi tiết giá trị như
vậy từ dữ liệu đánh giá, bình luận hành động theo đó.
Nội dung đánh giá, bình luận trực tuyến của các khách hàng
về các mặt hàng một nguồn thông tin phong phú, được
coi là một gợi ý thân thiện giữa các khách hàng [41].
Tình cảm của khách hàng trong các bình luận gồm
trạng thái tích cực và tiêu cực [42], phân tích tình cảm tức
là phân loại văn bản theo hướng tích cực hoặc tiêu cực
[43, 44]. Theo các nghiên cứu [45, 46] phân tích tình cảm
cực kỳ hữu ích trong việc hỗ trợ khách hàng ra quyết
định, giúp các nhà quản lý hiểu được sở thích của khách
hàng, theo dõi và giám sát sự vận động xu hướng mong
muốn về sản phẩm hoặc dịch vụ của họ.
3.2.3. Kỹ thuật xác định độ quan trọng của từ Trong nghiên
cứu này, độ quan trọng của từ được xác định bởi phương
pháp TF-IDF (Term Frequency Inverse Document
Frequency) [47]. Là một kỹ thuật được sử dụng trong khai
phá dliệu văn bản. Trọng số này được sử dụng để đánh
giá tầm quan trọng của một từ trong một văn bản. Giá trị
cao thể hiện độ quan trọng cao và nó phụ thuộc vào số lần
từ xuất hiện trong văn bản. Giá trị TF-IDF của từ khóa w
i
trong bình luận d được tính bằng công thức sau:
Tf_idf = tf(wi, dj) x log
𝑁
(1)
𝑛
𝑖
Trong đó: tf(w
i
, d
j
): Tần suất xuất hiện của từ khóa w
i
trong
văn bản dj.
F
id
= 𝑠ố 𝑙ầ𝑛 𝑤
𝑖
𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑡𝑟𝑜𝑛𝑔 𝑣ă𝑛 𝑏ả𝑛 𝑑𝑗 (2)
𝑡ổ𝑛𝑔 𝑠ố 𝑡ừ 𝑡𝑟𝑜𝑛𝑔 𝑣ă𝑛 𝑏ả𝑛 𝑑𝑗
N: Tổng số văn bản trong tập mẫu; ni:
Số văn bản có từ khóa wi.
4. Phương pháp nghiên cứu
Nghiên cứu này, nhóm tác giả sử dụng phương pháp
nghiên cứu định lượng, các dữ liệu được thu thập trực tiếp
từ trang thương mại điện tử. Sau đó, phương pháp học máy
có giám sát (Suppervised Machine Leanring) được sử dụng
để phân tích tổng hợp dữ liệu. Qtrình ra quyết định
thực hiện theo chuẩn công nghiệp CRIP-DM (Cross
Industry Standard Process for Data Mining) bao gồm các
bước [48]: Nhận định vấn đề; Tìm hiểu dữ liệu; Chuẩn bị
dữ liệu; Thiết kế hình; Lựa chọn phương án; Ra quyết
định. Môi trường thực nghiệm nghiên cứu được cài đặt
bằng ngôn nglập trình Python với sự hỗ trợ của công cụ
tách từ Underthesea dành cho ngôn ngữ Tiếng Việt các
thư viện có sẵn.
5. Mô hình nghiên cứu đề xuất
Xuất phát từ sở thuyết các công trình nghiên
cứu liên quan, mô hình nghiên cứu tổng quát được đề xuất
như Hình 1.
5.1. Khai thác dữ liệu phi cấu trúc
5.1.1. Thu thập dữ liệu Dữ liệu bình luận bằng Tiếng Việt
được thu thập từ một số trang thương mại điện tử hàng đầu
tại Việt Nam bởi chương trình máy tính tự động Selenium
Python. Đây là phương pháp thu thập nội dung dựa vào cấu
trúc Hypertext Markup Language (HTML) của các trang
web [49].
5.1.2. Lưu trữ và xử lý
Dữ liệu thu thập được lưu trữ định dạng CSV. Tiếp
đến, nghiên cứu đã tiến hành tiền xử dữ liệu bằng cách
loại bỏ những bình luận bị khuyết, những câu không ý
nghĩa, câu không phải Tiếng Việt, dấu chấm, dấu phẩy
thừa, những phản hồi không chứa đựng thông tin cần thiết...
Tách câu thành các từ hoặc từ ghép có nghĩa bằng thư viện
Underthesea [50] chuyển đổi dữ liệu văn bản thành
vector bằng phương pháp TF-IDF. Bộ dliệu dùng để thử
nghiệm sẽ được chia theo tỷ lệ 80% dành cho huấn luyện
(training) và 20% dành cho thử nghiệm (testing). Thực hiện
gán nhãn (phân loại) dữ liệu theo phương pháp của [51] dựa
vào điểm số đánh g(rating) của khách hàng. Sau khi xem
xét ngẫu nhiên tập dữ liệu thu thập, chúng tôi nhận
thấy những bình luận điểm số rating >= 3 tích cực
(positive) ngược lại rating < 3 tiêu cực (negative).
Chúng tôi không xét những bình luận trung tính (neutral)
do chúng không ý nghĩa để khuyến nghị. Những dòng
bình luận không được đánh giá điểm số, chúng tôi sẽ thực
hiện gán nhãn thủ công.
5.1.3. Phân tích tổng hợp Quá trình phân loại tổng
hợp kết quả phân loại dữ liệu được mô tả như Hình 2.
Hình 2. Mô hình hệ thống phân loại dữ liệu
Giai đoạn này nhằm, các mô hình của hoc máy có giám
sát sẽ được huấn luyện, bao gồm: hình Support Vector
(Precision); Độ bao phủ (Recall) và Giá trị trung bình điều
hòa (F1-score) cho biết hiệu quả tổng thể, F1-score giá
trị càng cao thì mô hình phân loại càng chính xác.
Trong đó:
TN+TP
Accuracy = (3)
TN+TP+FP+FN
TP
Precesion = (4)
TP+FP
TP
Recall = (5)
TP+FN
2 ×Precision ×Recall
F1 − score = (6)
Precision +Recall
True Positive (TP): Tổng số lượng bình luận tích cực dự
đoán Đúng so với thực tế.
False Positive (FP): Tổng số lượng bình luận tích cực
dự đoán Sai so với thực tế.
True Negative (TN): Tổng số lượng bình luận tiêu cực
dự đoán Đúng so với thực tế.
False Negative (FN): Tổng số lượng bình luận tiêu cực
dự đoán Sai so với thực tế.
5.2. Hỗ trợ ra quyết định
Để hỗ trợ cho khách hàng ra quyết định khi mua hàng,
dữ liệu bình luận về mặt hàng R mà khách hàng quang tâm
được đưa vào mô hình để phân loại. Kết quả tỷ lệ bình luận
tích cực (R
pos
) được tính và hiện thị cung cấp thông tin cho
khách hàng ra quyết định lựa chọn.
R
pos
=
𝑃𝑜𝑠
(7)
∑ Ni
Trong đó: Pos là số lượng bình luận tích cực, N
i
là bình
luận thứ i trên mặt hàng R.
Hình 3. Mô hình hệ hỗ trợ khách hàng ra quyết định
lựa chọn mặt hàng
Hình 3 là mô hình hỗ trợ ra quyết định cho khách hàng
lựa chọn mặt hàng. Đầu tiên, khách hàng tìm kiếm mặt hàng
cần mua, nếu mặt hàng đó đã được những khách hàng khác
đánh giá (mặt hàng cũ) thì thực hiện hiện áp dụng mô hình
khai thác dữ liệu phi cấu trúc đthu thập phân loại các
bình luận, sau đó tính tỷ lệ bình luận tích cực, lưu vào
sở dliệu mặt hàng tổ chức hiển thkết quả tới người
dùng. Trong trường hợp mặt hàng đó chưa người dùng
nào đánh giá (mặt hàng mới) thì trích những đặc trưng liên
(RF), Neural Network (NN) và Decision Tree (DT). Sau đó
xác cao nhất để thực nghiệm.
Bảng 1. Ma trận nhầm lẫn
Ngun: [52]
Hình 1.
Mô hình nghiên cứu tổng quá
t
Machine (SVM),
Naive Bayes (NB), Random Forrest
th
nghi
m
,
đánh giá và l
a ch
n ra mô hình
có đ
chính
Thực tế: positive
Thực tế: negative
Dự đoán: positive
True Positive (TP)
False Negative (FN)
Dự đoán: negative
False Positive (FP)
True Negative (TN)
Nghiên cứu dùng phương pháp đánh giá mô hình phổ
biến là dựa trên các chỉ số tính toán trong ma trận nhầm lẫn
Confusion Matrix). Hiệu quả của mô hình
(
được đánh giá
Accuracy)
;
Độ hội tụ
quan tới mặt hàng đó từ sở dữ liệu tổ chức hiển thị
tới người dùng.
6. Kết quả
6.1. Kết quả thu thập và tiền xử lý dữ liệu Nghiên cứu đã
tiến hành thu thập tự động được 33.417 bình luận từ
năm 2017 đến 2022 trên 29 website thương mại điện
tử hàng đầu tại Việt Nam. Sau khi xử lý, loại bỏ
những bình luận không liên quan, bị lỗi phông chữ,
những câu không ý nghĩa, dữ liệu còn lại để thực
nghiệm là 32.187 bình luận được phân bố như trong
Hình 4. Tập dữ liệu này được chia thành tập dữ liệu
dùng cho huấn luyện, thực hiện gán nhãn và tập dữ
liệu dành cho thử nghiệm.
Hình 4. Phân bố số lượng các bình luận trên các website (w)
6.2. Kết quả huấn luyện mô hình
Kết quả huấn luyện các hình được thể hiện trong
Hình 6.
Hình 5. Ma trận nhầm lẫn của mô hình SVM
Hình 6. Kết quả huấn luyện các mô hình
Kết quả huấn luyện cho thấy hình SVM có độ chính
xác cao nhất (88%), do đó hình này sẽ được lựa chọn
để áp dụng cho dữ liệu thực nghiệm.
6.3. Trực quan hóa hỗ trợ ra quyết định mua hàng
Việc áp dụng hình sẽ giúp khách hàng biết được
mặt hàng có ý định mua trên một website thương mại điện
tử cụ thể có được nhiều khách hàng trước đó đánh giá tích
cực hay không. Kết hợp với dữ liệu phân loại bình luận
của các khách hàng trước sẽ giúp khách hàng dễ dàng đưa
ra quyết định mua hàng.
Bảng 2. Kết quả hỗ trợ ra quyết định mua của một số mặt hàng
Mặt hàng quan
tâm
Trên hệ
thống
website
Tỷ lệ bình luận tích cực
Tổng
Tích
cực
Tiêu
cực
Tỷ lệ
Tivi Samsung
W26
52
32
4
61%
Tủ lạnh Panasonic
W4
27
24
2
90%
Điều hòa Casper
W14
13
12
0
94%
Quần Jean
W1
45
45
0
100%
Áo thun
W10
156
137
10
88%
Quần bơi nam
W5
34
31
1
90%
Điện thoại Iphone 12
W3
29
25
2
86%
Điện thoại Iphone 11
pro max
W8
20
19
1
94%
Áo chống nắng
W6
75
75
0
100%
Gà quay chiên ròn
W21
61
34
22
56%
Sản phẩm giúp giảm
cân
W11
33
27
4
81%
Sườn dim xì dầu
W21
18
7
10
38%
6.4. Thảo luận kết quả nghiên cứu
Từ kết qunghiên cứu, bài báo đưa ra một s thảo luận
dựa trên một số khía cạnh để thể triển khai hệ thống vào
thực tiễn lĩnh vực thương mại điện tử như sau:
Phạm vi triển khai hệ thống: Với đặc tính của hệ thống
sử dụng nguồn dữ liệu thứ cấp sẵn nên đề xuất cho
doanh nghiệp thể xây dựng triển khai một hệ thống
độc lập, thực hiện khai thác nguồn dữ liệu trên mạng để
đánh giá chất lượng dịch vụ khách hàng của các hệ thống
website thương mại điện tử phục vụ công tác quản
thực hiện hỗ trợ khách hàng mua hàng.
Công nghệ lưu trữ và xử lý dữ liệu: Hiệu xuất xử lý của
hệ thống khả năng hỗ trợ nhà quản lý, khách hàng ra
quyết định phụ thuộc lớn vào độ lớn của tập dữ liệu
năng lực xử của hệ thống máy tính. Do đó, khi triển khai
thực tế, doanh nghiệp cũng cần tính toán đến công nghệ
lưu trữ dữ liệu lớn.
Hệ thống có dữ liệu đầu vào lớn và đòi hỏi xử lý phức
tạp, mất nhiều thời gian. Do đó, chức năng thu thập, tiền
xử dliệu, huấn luyện lại các hình nên được thực
hiện theo định kỳ. Bên cạnh đó, cũng tùy thuộc vào tốc độ
tăng trưởng và biến động của nguồn dữ liệu bình luận của
khách hàng trên các website thương mại điện tử.
Bên cạnh đối tượng sử dụng chính của hệ thống là nhà
quản lý, quản trị doanh nghiệp và khách hàng thì các chức
năng thu thập, tiền xử dữ liệu, huấn luyện, đánh giá và
lựa chọn các mô hình nên được thực hiện bởi các chuyên
gia tri thức, đặc biệt là các chuyên gia về khoa học dữ liệu.
7. Kết luận Nghiên cứu đã đề xuất một hình hỗ trợ
người mua hàng ra quyết định mua dựa trên phân tích dữ
liệu phi cấu trúc các bình luận của khách hàng trên các
website thương mại điện tử. Các hình phân loại của
phương pháp học máy được huấn luyện, thử nghiệm, đánh
giá đã lựa chọn ra hình SVM độ chính xác cao
nhất làm hình thực nghiệm. Khách hàng quan tâm tới
bất kỳ sản phẩm nào trên website được triển khai hệ thống
sẽ không phải đọc hiểu các bình luận thủ công, hệ thống sẽ
phân loại c bình luận một cách nhanh chóng hiển thị
cho khách hàng. Tuy nhiên, nghiên cứu vẫn còn một s hạn
chế có thcải thiện tốt hơn ở c nghiên cứu tiếp theo. Hạn
chế về đối tượng và phạm vi nghiên cứu: Nghiên cứu ch
thực hiện thu thập dữ liệu dạng tĩnh, thực tế quyết
định mua hàng của khách hàng n phụ thuộc vào những
yếu tố khách quan khác, nvị trí địa của ng ty, sở
thích, đặc trưng văn hóa vùng miền. Bên cạnh đó, hệ thống
chưa thực hiện thu thập d liệu trên toàn bộ hệ thống
website thương mại điện tử tại Việt Nam, đồng thời chỉ thực
hiện xử trên ngôn ngữ Tiếng Việt, hệ thống thể m
rộng sang các dạng ngôn ngữ khác; Hạn chế về phương
pháp nghiên cứu: Nghiên cứu chỉ phân loại nội dung bình
luận theo thang đo hai mức tích cực tiêu cực. Hướng
nghiên cứu tiếp theo thể sử dụng thang đo nhiều mức
hơn (ví dụ thang đo Likert 5 mức). Bên cạnh đó, nghiên cứu
chỉ sử dụng phương pháp phân loại học máy có giá sát, nếu
kết hợp thêm phương pháp lọc nội dung và phương pháp từ
vựng dựa trên ngữ nghĩa thì có thể sẽ cho kết quả tốt hơn.
TÀI LIỆU THAM KHẢO
[1] Mudambi, S. and D. Schuff, “What Makes a Helpful Online
Review? A Study of Customer Reviews on Amazon.com”, MIS
Quarterly, 34, 2010, 185-200.
[2] Sharma, D.K., et al., “E-Commerce product comparison portal for
classification of customer data based on data mining”, Materials
Today: Proceedings, 51, 2022, 166-171.
[3] Al-Shamri, M.Y.H., “User profiling approaches for demographic
recommender systems”, Knowledge-Based Systems, 100, 2016, 175-
187.
[4] Xu, J., Y. Zhang, and D. Miao, “Three-way confusion matrix for
classification: A measure driven view”, Information Sciences, 505,
2020, 772-794.
[5] Pazzani, M.J. and D. Billsus, Content-based recommendation
systems, in The adaptive web, Springer, 2007, 325-341.
[6] Patra, B.G., et al., “A content-based literature recommendation
system for datasets to improve data reusability A case study on
Gene Expression Omnibus (GEO) datasets”, Journal of Biomedical
Informatics, 104, 2020, 1-14.
[7] Afoudi, Y., M. Lazaar, and M. Al Achhab, “Impact of Feature
selection on content-based recommendation system”, International
Conference on Wireless Technologies, Embedded and Intelligent
Systems (WITS), 2019, 1-6.
[8] Aljunid, M.F. and M. Dh, “An Efficient Deep Learning Approach for
Collaborative Filtering Recommender System”, Procedia Computer
Science, 171, 2020, 829-836.
[9] Ghasemi, N. and S. Momtazi, “Neural text similarity of user reviews
for improving collaborative filtering recommender systems”,
Electronic Commerce Research and Applications, 45, 2021, 101019.
[10] Zhang, F., et al., “Graph embedding-based approach for detecting
group shilling attacks in collaborative recommender systems”,
Knowledge-Based Systems, 199(7), 2020, 105984.
[11] Yussupova, N., et al., “Models and Methods for Quality Management
Based on Artificial Intelligence Applications”, Acta Polytechnica
Hungarica, 13(3), 2016, 45-60.
[12] Nguyễn Đặng Lập Bằng, Nguyễn Văn Hồ, & Hồ Trung Thành, “Mô
hình khai phá ý kiến phân tích cảm xúc khách hàng trực tuyến
trong ngành thực phẩm”, Tạp chí Khoa học Đại học Mở Thành phố
Hồ Chí Minh, 16(1), 2020, 64-78.
[13] Duyen, N.T., N.X. Bach, and T.M. Phuong, “An empirical study on
sentiment analysis for Vietnamese”, in 2014 International
Conference on Advanced Technologies for Communications (ATC
2014), 2014, IEEE.
[14] Thái Kim Phụng, Nguyễn An Tế, & Trần Thị Thu Hà, “Tiếp cận
phương pháp học máy trong khai thác ý kiến khách hàng trực tuyến”,
Tạp chí Nghiên cứu Kinh tế Kinh doanh Châu Á, 30(10), 2019,
27-41.
[15] Bang, T.S., C. Haruechaiyasak, and V. Sornlertlamvanich,
“Vietnamese sentiment analysis based on term feature selection
approach”, in Proc. 10th International Conference on Knowledge
Information and Creativity Support Systems (KICSS 2015), 2015.
[16] Darley, W., Blankson, C., & Luethge, D., “Toward an Integrated
Framework for Online Consumer Behavior and Decision Making
Process: A Review”, Psychology and Marketing, 27(2), 2010, 94-
116.
[17] Shugan, S.M., “The Cost Of Thinking”, Journal of Consumer
Research, 7(2), 1980, 99-111.
[18] Payne, J.W.J.P.b., “Contingent decision behavior”, Psychological
Bulletin, 92(2), 1982, 382-402.
[19] Häubl, G. and V.J.M.s. Trifts, “Consumer decision making in online
shopping environments: The effects of interactive decision aids”,
Marketing Science, 19(1), 2000, 4-21.
[20] Bhargave, R., A. Chakravarti, and A. Guha, “Two-Stage Decisions
Increase Preference for Hedonic Options”, Organizational Behavior
and Human Decision Processes, 130, 2015, 123-135.
[21] Yang, L., M. Xu, and L. Xing, “Exploring the core factors of online
purchase decisions by building an E-Commerce network evolution
model”, Journal of Retailing and Consumer Services, 64, 2022,
102784.
[22] Kart, Ö., A. Kut, and V. Radevski, “Decision Support System For A
Customer Relationship Management Case Study”, International
Journal of Informatics and Communication Technology (IJ-ICT), 3,
2014, 88-96.
[23] Bharati, P. and A.J.D.s.s. Chaudhury, An empirical investigation of
decision-making satisfaction in web-based decision support
systems”, Decision Support System, 37(2), 2004, 187-197.
[24] Manivannan, S., “Application of Decision Support System in
Ecommerce”, Communications of the IBIMA, 15, 2008, 156-169.
[25] Kasper, G.M., “A Theory of Decision Support System Design for
User Calibration”, Information Systems Research, 7(2), 1996,
215232.
[26] Chandra, Y., S. Karya, and M. Hendrawaty, “Decision Support
Systems for Customer to Buy Products with an Integration of
Reviews and Comments from Marketplace E-Commerce Sites in
Indonesia: A Proposed Model”, International Journal on Advanced
Science, Engineering and Information Technology, 9(4), 2019, 1171-
1176.
[27] Jain, S., A. de Buitléir, and E. Fallon, “A Review of Unstructured
Data Analysis and Parsing Methods”, IEEE International
Conference on Emerging Smart Computing and Informatics (IEEE –
ESCI 2020), Web of Science Journal Publication, 2020.
[28] He, P., et al., “An Evaluation Study on Log Parsing and Its Use in
Log Mining”, in 2016 46th Annual IEEE/IFIP International
Conference on Dependable Systems and Networks (DSN), 2016.
[29] Inmon, W.H. and D. Linstedt, 2.4 - Unstructured Data, in Data
Architecture: a Primer for the Data Scientist, W.H. Inmon and D.
Linstedt, Editors, Morgan Kaufmann: Boston, 2015, 63-70.
[30] Alzate, M., M. Arce-Urriza, and J., “Cebollada, Mining the text of
online consumer reviews to analyze brand image and brand
positioning”, Journal of Retailing and Consumer Services, 67(1),
2022, 102989.
[31] Dahiya, A., N. Gautam, and P. Gautam, “Data Mining Methods and
Techniques for Online Customer Review Analysis: A Literature
Review”, Journal of System and Management Sciences, 11(3), 2021,
1-26.
[32] Chen, J., et al., “Big data challenge: A data management
perspective”, Frontiers of Computer Science, 7, 2013, 157-164.
[33] Liu, B., Web data mining: exploring hyperlinks, contents, and usage
data, Springer, 1, 2011.
[34] Archak, N., A. Ghose, and P. Ipeirotis, Deriving the Pricing Power
of Product Features by Mining Consumer Reviews, NET Institute,
Working Papers, 57, 2007.
[35] Decker, R. and M.J.I.J.o.R.i.M. Trusov, “Estimating aggregate
consumer preferences from online product reviews”, International
Journal of Research in Marketing, 27(4), 2010, 293-307.
[36] Cai, Y., et al., “A deep recommendation model of cross-grained
sentiments of user reviews and ratings”, Information Processing &
Management, 59(2), 2022, 102842.
[37] Li, M., et al., “Helpfulness of Online Product Reviews as Seen by
Consumers: Source and Content Features”, International Journal of
Electronic Commerce, 17, 2013, 101-136.
[38] Tirunillai, S. and G. Tellis, “Does Online Chatter Really Matter?
Dynamics of User-Generated Content and Stock Performance”,
Marketing Science, 31(2), 2011, 198-215.
[39] Floyd, K., et al., “How Online Product Reviews Affect Retail Sales:
A Meta-analysis”, Journal of Retailing, 90(2), 2014, 217-232.
[40] East, R., K. Hammond, and W. Lomax, “Measuring the impact of
positive and negative word of mouth on brand purchase probability”,
International Journal of Research in Marketing, 25(3), 2008, 215-
224.
[41] Lutfullaeva, M., et al., “Optimization of Sentiment Analysis
Methods for classifying text comments of bank customers”,
IFACPapersOnLine, 51(32), 2018, 55-60.
[42] Morinaga, S., et al., Mining product reputations on the Web”,
Proceedings of the eighth ACM SIGKDD international conference
on Knowledge discovery and data mining, 2002, 341-349.
[43] Cruz, F.L., et al., “Building layered, multilingual sentiment lexicons
at synset and lemma levels”, Expert Systems with Applications,
41(13), 2014, 5984-5994.
[44] Bakshi, R.K., et al., “Opinion mining and sentiment analysis”, 2016
3rd international conference on computing for sustainable global
development (INDIACom), IEEE, 2016.
[45] Gensler, S., et al., “Listen to Your Customers: Insights into Brand
Image Using Online Consumer-Generated Product Reviews”,
International Journal of Electronic Commerce, 20, 2016, 112-141.
[46] Heilig, L., R. Stahlbock, and S. Voss, From Digitalization to
DataDriven Decision Making in Container Terminals, Handbook of
Terminal Planning, Springer, 2019, 125-154.
[47] Arroyo-Fernández, I., Méndez-Cruz, C.-F., Sierra, G.,
TorresMoreno, J.-M., & Sidorov, G., “Unsupervised sentence
representations as word information series: Revisiting TF–IDF”,
Computer Speech & Language, 56, 2019, 107-129. [48] Triệu
Tuấn & Đàm Thị Phương Thảo, “Phương pháp phân loại dữ liệu bình
luận của khách hàng trực tuyến Việt Nam dựa vào học máy có giám
sát”, Khoa học & Công nghệ, 58(1), 2022, 49-52.
[49] Anh, V., “Underthesea document”, Under the sea, 2018, [Online]
Available: https://underthesea.readthedocs.io, 02/10/2022.
[50] Arroyo-Fernández, I., Méndez-Cruz, C.-F., Sierra, G.,
TorresMoreno, J.-M., & Sidorov, G., “Unsupervised sentence
representations as word information series: Revisiting TF–IDF”,
Computer Speech & Language, 56, 2019, 107-129.
[51] Kulkarni, A., D. Chong, and F.A. Batarseh, 5 - Foundations of data
imbalance and solutions for a data democracy, in Data Democracy,
F.A. Batarseh and R. Yang, Editors, Academic Press, 2020, 83-106.
[52] Sharma, D. K., Lohana, S., Arora, S., Dixit, A., Tiwari, M., & Tiwari,
T., E-Commerce product comparison portal for classification of
customer data based on data mining”, Materials Today: Proceedings,
51, 2022, 166-171.

Preview text:

MÔ HÌNH HỆ THỐNG KHAI THÁC DỮ LIỆU PHI CẤU TRÚC HỖ TRỢ
KHÁCH HÀNG RA QUYẾT ĐỊNH MUA HÀNG TRỰC TUYẾN
AN UNSTRUCTURED DATA MINING SYSTEM MODEL TO SUPPORT CUSTOMERS IN
MAKING ONLINE PURCHASING DECISIONS
Lê Triệu Tuấn1*, Phạm Minh Hoàn1
1Trường Đại học Công nghệ Thông tin và Truyền thông – Đại học Thái Nguyên
2Trường Đại học Kinh tế Quốc dân
*Tác giả liên hệ: lttuan@ictu.edu.vn
(Nhận bài: 19/9/2022; Chấp nhận đăng: 20/11/2022)
Tóm tắt - Những dạng dữ liệu phi cấu trúc được khách hàng để
Abstract - The types of unstructured data left behind by
lại trên không gian mạng hiện nay ngày càng trở nên quan trọng
customers in cyberspace are becoming more important for online
đối với các doanh nghiệp kinh doanh trực tuyến. Dữ liệu đó là
businesses. That type of unstructured data is textual comments,
những bình luận dưới dạng văn bản, ẩn chứa trong đó là cảm xúc
containing feelings of customers related to the quality of the items
của khách hàng liên quan tới chất lượng của các sản phẩm mà họ
which they are interested in. This study aims to propose a system
quan tâm. Nghiên cứu này đề xuất một mô hình kiến trúc hệ thống
architecture model to support customers in making online
hỗ trợ khách hàng ra quyết định mua hàng trực tuyến dựa trên
purchasing decisions based on the unstructured data mining.
phương pháp khai thác dữ liệu phi cấu trúc. Dữ liệu nghiên cứu
Research data are customers’ comments collected on major
được thu thập trên các trang thương mại điện tử lớn của Việt Nam,
Vietnamese e-commerce websites, and then classified into
sau đó được phân loại thành tích cực hoặc tiêu cực bởi các mô
positive or negative by models of Supervised Machine Learning
hình của phương pháp học máy có giám sát. Sau khi thử nghiệm
methods. After testing and evaluated, we selected the Support
và đánh giá, chúng tôi đã lựa chọn mô hình Support Vector
Vector Machine (SVM) model with the highest accuracy to make
Machine (SVM) có độ chính xác cao nhất để làm mô hình thực
the experimental model. The study is of reference value for nghiệm.
Nghiên cứu có giá trị tham khảo cho các nhà nghiên cứu trong lĩnh researchers in the field of e-commerce and other fields of business
vực thương mại điện tử và các lĩnh vực khác của kinh doanh và and management. quản lý.
Key words - Unstructured data mining; supervised machine
Từ khóa - Khai thác dữ liệu phi cấu trúc; học máy có giám sát; hệ learning; purchase decision support system; sentiment
hỗ trợ ra quyết định mua hàng; mô hình phân loại cảm xúc classification model
1 National Economics University (Pham Minh Hoan) 1. Giới thiệu
Mua sắm thông qua nền tảng thương mại điện tử đã trở
thành xu hướng tất yếu trong thời đại hiện nay. Đặc biệt
những bình luận này bởi chương trình máy tính tự động và
trong bối cảnh bị ảnh hưởng bởi dịch bệnh Covid-19 thì số
thực hiện phân loại bởi phương pháp học máy nhằm hỗ trợ
lượng người tham gia mua sắm trên các nền tảng thương
khách hàng ra quyết định lựa chọn sản phẩm trong mua
mại điện tử đã ra tăng một cách nhanh chóng. Khi một sắm trực tuyến.
khách hàng sau khi trải nhiệm dịch vụ mua sắm trên một
trang thương mại điện tử, hoặc đã từng sử dụng sản phẩm
2. Các nghiên cứu liên quan
được bán trên trang đó thì thường sẽ để lại những đánh giá,
Nghiên cứu về hỗ trợ khách hàng mua hàng trực tuyến
bình luận thông qua chức năng tự động của hệ thống [1].
đã được nhiều tác giả quan tâm. Đặc biệt, trong vài năm trở
Những bình luận dạng văn bản như vậy còn gọi là dữ liệu
lại đây, từ khi internet tăng tốc và thương mại điện tử phát
phi cấu trúc. Ở khía cạnh người mua hàng tiếp theo, sau khi
triển mạnh mẽ, đã có nhiều các mô hình hỗ trợ khách hàng
họ quan tâm tới một mặt hàng nào đó, thường có xu hướng
mua hàng trực tuyến được đề xuất như: Mô hình hệ thống
truy cập vào các trang thương mại điện tử để xem và trải
hỗ trợ mua hàng dựa vào thông tin nhân khẩu học, hệ thống
nghiệm trước mặt hàng, hoặc tham khảo các bình luận của
này thực hiện điều chuyển người dùng tới website bán hàng
những khách hàng trước, sau đó mới đưa ra quyết định có
phù hợp dựa vào các thông tin được thu thập từ khách hàng,
mua hay không [2]. Dữ liệu bình luận được tạo ra bởi khách
như thông tin địa lý hay độ tuổi [3, 4]; Mô hình hỗ trợ dựa
hàng đang gia tăng không ngừng trên các hệ thống website
trên lý thuyết giá trị đa thuộc tính (MAVT), hỗ trợ dựa trên
theo thời gian thực. Đây là một nguồn tài nguyên dữ liệu
thông tin mô tả mặt hàng cùng với sở thích của khách hàng
rất quan trọng cho các doanh nghiệp để có thể nhận biết
[5]. Mô hình dựa vào sự tương tác của khách hàng với sản
tâm lý, xu hướng của khách hàng, từ đó cải thiện chất lượng
phẩm trong quá khứ để hỗ trợ lựa chọn mặt hàng tương tự
dịch vụ khách hàng, hỗ trợ mua hàng để tăng doanh thu.
[6]. Hoặc mô hình dựa vào cùng sở thích với khách hàng
Tuy nhiên, làm thế nào để khai thác được dữ liệu này một
khác để hỗ trợ lựa chọn mặt hàng [7]; Mô hình dựa vào độ
cách hiệu quả mà không mất nhiều thời gian, chi phí nguồn
tương đồng giữa các mặt hàng trong cùng hệ thống [8-9].
lực? Và áp dụng như thế nào để hỗ trợ khách hàng lựa chọn
Nhìn chung, các mô hình thu thập được chỉ dựa vào
sản phẩm, giúp nâng cao hiệu quả bán hàng? Xuất phát từ
thông tin nhân khẩu học của khách hàng, dựa vào mối quan
những vấn đề trên, nhóm tác giả hình thành ý tưởng khai
hệ cơ học giữa khách hàng với mặt hàng, và sự liên quan thác
của các sản phẩm trong cùng hệ thống để hỗ trợ khách hàng 1
lựa chọn sản phẩm. Việc phân tích dữ liệu bị giới hạn trong Maximum Entropy để phân loại các bình luận về khách sạn
một miền nhất định, phụ thuộc vào các mối quan hệ của các tại Việt Nam; Nghiên cứu so sánh các phương pháp phân
đối tượng khách hàng, sản phẩm trong quá khứ và không loại bình luận bằng Tiếng Việt [14].
đưa ra được cái nhìn sâu sắc về xu hướng và sự vận động
Hiện nay, với sự bùng nổ của dữ liệu lớn (Big Data),
của sự hài lòng đến từ khách hàng. Điều này có thể gây ra cách thức tương tác của khách hàng với các nền tảng bán
sự lưỡng lự trong việc đưa ra quyết định lựa chọn sản phẩm hàng cũng đã dần thay đổi. Kéo theo đó là sự cần thiết phải
của khách hàng. Bên cạnh đó, những phương pháp này thay đổi cách thức tiếp cận trong việc hỗ trợ khách hàng
không thể giám sát sự hài lòng của khách hàng một cách mua hàng của doanh nghiệp hay các nhà quan tâm. Và các
liên tục, và không có khả năng theo dõi xu hướng hài lòng mô hình hệ thống cũng cần thay đổi theo hướng sử dụng dữ
của khách hàng trong dài hạn [10].
liệu lớn [15]. Nghiên cứu này khác so với những nghiên
Trong nước, cũng bắt đầu có những nghiên cứu sử dụng cứu trên ở chỗ, nhóm tác giả khai thác dữ liệu phi cấu trúc;
phương pháp liên quan tới phân tích dữ liệu phi cấu trúc để Cụ thể là những bình luận dạng văn bản của khách hàng để
hỗ trợ khách hàng trực tuyến. Điển hình là nghiên cứu [11] nhận biết những cảm nhận tích cực hay tiêu cực trên từng
đã tiến hành thực nghiệm việc phân loại các bình luận trên sản phẩm, qua đó cung cấp thông tin hỗ trợ khách hàng ra
bộ dữ liệu trong lĩnh vực thực phẩm bởi các mô hình thuật quyết định lựa chọn sản phẩm.
toán của phương pháp học máy như: Decision Tree, Naïve
Bayes, hồi quy Logistic. Ngoài ra, còn có các nghiên cứu
trong lĩnh vực du lịch [12]; nghiên cứu [13] sử dụng các mô
hình Naive Bayes, Support Vector Machines và
3. Cơ sở lý thuyết
khai thác dữ liệu có thể giúp khám phá kiến thức ẩn trong
các nội dung văn bản của khách hàng và giúp doanh nghiệp
3.1. Ra quyết định và hỗ trợ ra quyết định trong mua
hiểu khách hàng theo cách tốt hơn [32]. Học máy kết hợp
hàng trực tuyến
với xử lý ngôn ngữ tự nhiên là kỹ thuật khai thác phổ biến
Quyết định mua hàng là mô hình hành vi của người tiêu và khả thi nhất hiện nay. Nó có thể giúp phân loại dữ liệu
dùng tuân theo một quy trình ra quyết định bao gồm các văn bản thành các danh mục khác nhau, để hiểu xu hướng
giai đoạn khác nhau để đạt được sự lựa chọn [16]. Mỗi hoặc chuyển động của dữ liệu, phát hiện sự giống nhau
người có những cách mua khác nhau đối với bất kỳ một sản trong các tập dữ liệu và dự đoán tương lai dựa trên quá khứ
phẩm nhất định nào, nghiên cứu [17] cho rằng, khách hàng [33].
đã quen với việc thay đổi cách tiếp cận ra quyết định theo
Thông tin có sẵn ở dạng văn bản được chia thành hai
các môi trường và tính huống khác nhau, và luôn cố gắng phần, khách quan (objective) và chủ quan (subjective). Các
giảm thiểu nỗ lực liên quan tới nhận thức. Và trong trường sự kiện có thể được thể hiện bằng các nội dung khách quan,
hợp này, họ thường tìm kiếm sự hỗ trợ khi họ gặp phải quá trong khi nhận thức, quan điểm tình cảm được thể hiện ở
nhiều thông tin để ít tốn công sức và thời gian hơn trong các khía cạnh chủ quan. Trong xử lý ngôn ngữ tự nhiên,
việc đưa ra quyết định tốt hơn [18]. Ngày nay, do sự phổ trọng tâm là khai thác thông tin thực tế từ văn bản, tức thông
biến của thương mại điện tử, khi tìm hiểu thông tin mặt tin dưới dạng khách quan. Tuy nhiên, với sự phát triển của
hàng khách hàng thường tìm đọc những nhận xét, đánh giá công nghệ web, công nghệ khai thác Big Data giúp khai
của những khách hàng trước về sản phẩm đó [19]. Số lượng thác kiến thức nội dung do người dùng tạo ra, đây được gọi
mặt hàng trên các website thường là rất lớn và đa dạng, là phân tích chủ quan, hay phân tích tình cảm [34]. 3.2.2.
người tiêu dùng thường không thể đánh giá sâu được hết Phân tích tình cảm
các sản phẩn lựa chọn có sẵn trên đó [20] và ở giai đoạn
đầu tiên họ thường lọc ra một tập hợp các sản phẩm, sau đó
Bình luận của khách hàng chứa những tình cảm và trải
xác định các sản phẩm hứa hẹn nhất [21]. Những sản phẩm nghiệm của họ liên quan tới sản phẩm, dịch vụ [35-37]. Dữ
được lựa chọn có xu hướng ảnh hưởng bởi các đánh giá tích liệu đánh giá, bình luận sản phẩm là một giải pháp để thu
cực hay tiêu cực của những người dùng trước [22]. Khai thập dữ liệu, nó cung cấp thông tin hữu ích cho nhà quản
thác lượng dữ liệu phi cấu trúc khổng lồ được tạo ra trong lý, ảnh hưởng đến hành vi mua hàng của khách hàng [38,
quá trình giao dịch để hiểu sâu sắc hơn về hành vi khách 39] và cả hoạt động của công ty [40]. Vì vậy, các nhà quản
hàng là rất cần thiết để hỗ trợ người mua hàng [23].
lý có thể trích xuất những thông tin chi tiết có giá trị như
vậy từ dữ liệu đánh giá, bình luận và hành động theo đó.
Hệ hỗ trợ ra quyết định (Decision Support System – Nội dung đánh giá, bình luận trực tuyến của các khách hàng
DSS) là hệ thống thông tin dựa trên máy tính có thể hỗ trợ về các mặt hàng là một nguồn thông tin phong phú, được
việc ra quyết định bằng cách phân tích dữ liệu và cung cấp coi là một gợi ý thân thiện giữa các khách hàng [41].
thông tin cho người dùng [23]. Các DSS áp dụng các công
cụ giúp người tiêu dùng lựa chọn sản phẩm có thể ảnh
Tình cảm của khách hàng trong các bình luận gồm có
hưởng phần lớn đến việc ra quyết định của họ [24] và có
trạng thái tích cực và tiêu cực [42], phân tích tình cảm tức
tác động lớn tới tất cả các loại quyết định trong kinh doanh
là phân loại văn bản theo hướng tích cực hoặc tiêu cực
[25]. Có hai cách tiếp cận để phát triển DSS hỗ trợ người
[43, 44]. Theo các nghiên cứu [45, 46] phân tích tình cảm
tiêu dùng trực tuyến đó là tiếp cận theo hướng dữ liệu [26]
cực kỳ hữu ích trong việc hỗ trợ khách hàng ra quyết
và tiếp cận theo hướng tri thức [27].
định, giúp các nhà quản lý hiểu được sở thích của khách
3.2. Khai thác dữ liệu phi cấu trúc
hàng, theo dõi và giám sát sự vận động xu hướng mong
muốn về sản phẩm hoặc dịch vụ của họ.
3.2.1. Khai thác văn bản Dữ liệu phi cấu trúc thường đề cập
đến những thông tin không được định nghĩa trước về mô 3.2.3. Kỹ thuật xác định độ quan trọng của từ Trong nghiên
hình dữ liệu quan hệ [28]. Hiện nay, trên các hệ thống kinh cứu này, độ quan trọng của từ được xác định bởi phương
doanh trực tuyến, hơn 80% dữ liệu tồn tại ở dạng này [29], pháp TF-IDF (Term Frequency – Inverse Document
trong đó phổ biến và hữu ích nhất là dạng văn bản [30] được Frequency) [47]. Là một kỹ thuật được sử dụng trong khai
tạo ra từ những đánh giá sản phẩm của khách hàng. Những phá dữ liệu văn bản. Trọng số này được sử dụng để đánh
dòng văn bản đánh giá có thể được đọc hiểu, phân tích để giá tầm quan trọng của một từ trong một văn bản. Giá trị
thu được những thông tin kinh doanh một cách thủ công. cao thể hiện độ quan trọng cao và nó phụ thuộc vào số lần
Tuy nhiên với một lượng lớn dữ liệu thì cách xử lý này sẽ từ xuất hiện trong văn bản. Giá trị TF-IDF của từ khóa wi
không hiệu quả. Công nghệ Big Data và kỹ thuật xử lý ngôn trong bình luận d được tính bằng công thức sau:
ngữ tự nhiên phát triển cho phép khai thác những dạng dữ
Tf_idf = tf(wi, dj) x log 𝑁 (1)
liệu này theo những quy trình tự động. 𝑛𝑖
Khai thác văn bản là quá trình trích xuất thông tin hữu
ích và ý nghĩa từ văn bản [31]. Các phương pháp, công cụ
Trong đó: tf(wi, dj): Tần suất xuất hiện của từ khóa wi trong Chúng tôi không xét những bình luận trung tính (neutral) văn bản dj.
do chúng không có ý nghĩa để khuyến nghị. Những dòng
bình luận không được đánh giá điểm số, chúng tôi sẽ thực
Fid = 𝑠ố 𝑙ầ𝑛 𝑤𝑖 𝑥𝑢ấ𝑡 ℎ𝑖ệ𝑛 𝑡𝑟𝑜𝑛𝑔 𝑣ă𝑛 𝑏ả𝑛 𝑑𝑗
(2) hiện gán nhãn thủ công.
5.1.3. Phân tích và tổng hợp Quá trình phân loại và tổng
𝑡ổ𝑛𝑔 𝑠ố 𝑡ừ 𝑡𝑟𝑜𝑛𝑔 𝑣ă𝑛 𝑏ả𝑛 𝑑𝑗
hợp kết quả phân loại dữ liệu được mô tả như Hình 2.
N: Tổng số văn bản trong tập mẫu; ni:
Số văn bản có từ khóa wi.
4. Phương pháp nghiên cứu
Nghiên cứu này, nhóm tác giả sử dụng phương pháp
nghiên cứu định lượng, các dữ liệu được thu thập trực tiếp
từ trang thương mại điện tử. Sau đó, phương pháp học máy
có giám sát (Suppervised Machine Leanring) được sử dụng
để phân tích và tổng hợp dữ liệu. Quá trình ra quyết định
thực hiện theo chuẩn công nghiệp CRIP-DM (Cross
Industry Standard Process for Data Mining) bao gồm các
Hình 2. Mô hình hệ thống phân loại dữ liệu
bước [48]: Nhận định vấn đề; Tìm hiểu dữ liệu; Chuẩn bị
dữ liệu; Thiết kế mô hình; Lựa chọn phương án; Ra quyết
định. Môi trường thực nghiệm nghiên cứu được cài đặt
bằng ngôn ngữ lập trình Python với sự hỗ trợ của công cụ
tách từ Underthesea dành cho ngôn ngữ Tiếng Việt và các thư viện có sẵn.
5. Mô hình nghiên cứu đề xuất
Xuất phát từ cơ sở lý thuyết và các công trình nghiên
cứu liên quan, mô hình nghiên cứu tổng quát được đề xuất như Hình 1.
5.1. Khai thác dữ liệu phi cấu trúc
5.1.1. Thu thập dữ liệu
Dữ liệu bình luận bằng Tiếng Việt
được thu thập từ một số trang thương mại điện tử hàng đầu
tại Việt Nam bởi chương trình máy tính tự động Selenium
Python. Đây là phương pháp thu thập nội dung dựa vào cấu
trúc Hypertext Markup Language (HTML) của các trang web [49].
5.1.2. Lưu trữ và xử lý
Dữ liệu thu thập được lưu trữ ở định dạng CSV. Tiếp
đến, nghiên cứu đã tiến hành tiền xử lý dữ liệu bằng cách
loại bỏ những bình luận bị khuyết, những câu không ý
nghĩa, câu không phải Tiếng Việt, dấu chấm, dấu phẩy dư
thừa, những phản hồi không chứa đựng thông tin cần thiết...
Tách câu thành các từ hoặc từ ghép có nghĩa bằng thư viện
Underthesea [50] và chuyển đổi dữ liệu văn bản thành
vector bằng phương pháp TF-IDF. Bộ dữ liệu dùng để thử
nghiệm sẽ được chia theo tỷ lệ 80% dành cho huấn luyện
(training) và 20% dành cho thử nghiệm (testing). Thực hiện
gán nhãn (phân loại) dữ liệu theo phương pháp của [51] dựa
vào điểm số đánh giá (rating) của khách hàng. Sau khi xem
xét ngẫu nhiên tập dữ liệu thu thập, chúng tôi nhận
thấy những bình luận có điểm số rating >= 3 là tích cực
(positive) và ngược lại rating < 3 là tiêu cực (negative).
Giai đoạn này nhằm, các mô hình của hoc máy có giám tích cực (Rpos) được tính và hiện thị cung cấp thông tin cho
sát sẽ được huấn luyện, bao gồm: mô hình Support Vector khách hàng ra quyết định lựa chọn.
Machine (SVM), Naive Bayes (NB), Random Forrest
th ử nghi ệ m , đánh giá và l ự a ch ọ n ra mô hình có đ ộ chính
Thực tế: positive Thực tế: negative
Dự đoán: positive True Positive (TP) False Negative (FN)
Dự đoán: negative False Positive (FP) True Negative (TN)
Nghiên cứu dùng phương pháp đánh giá mô hình phổ
biến là dựa trên các chỉ số tính toán trong ma trận nhầm lẫn (C
onfusion Matrix). Hiệu quả của mô hình được đánh giá
Hình 1. Mô hình nghiên cứu tổng quá t Accuracy) ; Độ hội tụ
(RF), Neural Network (NN) và Decision Tree (DT). Sau đó
xác cao nhất để thực nghiệm.
Bảng 1. Ma trận nhầm lẫn Nguồn: [52]
(Precision); Độ bao phủ (Recall) và Giá trị trung bình điều Rpos = 𝑃𝑜𝑠 (7)
hòa (F1-score) cho biết hiệu quả tổng thể, F1-score có giá ∑ Ni
trị càng cao thì mô hình phân loại càng chính xác.
Trong đó: Pos là số lượng bình luận tích cực, Ni là bình Trong đó:
luận thứ i trên mặt hàng R. TN+TP Accuracy = (3) TN+TP+FP+FN TP Precesion = (4) TP+FP TP Recall = (5) TP+FN 2 ×Precision ×Recall F1 − score = (6) Precision +Recall
True Positive (TP): Tổng số lượng bình luận tích cực dự
đoán Đúng so với thực tế.
Hình 3. Mô hình hệ hỗ trợ khách hàng ra quyết định
lựa chọn mặt hàng
False Positive (FP): Tổng số lượng bình luận tích cực
dự đoán Sai so với thực tế.
Hình 3 là mô hình hỗ trợ ra quyết định cho khách hàng
lựa chọn mặt hàng. Đầu tiên, khách hàng tìm kiếm mặt hàng
True Negative (TN): Tổng số lượng bình luận tiêu cực cần mua, nếu mặt hàng đó đã được những khách hàng khác
dự đoán Đúng so với thực tế.
đánh giá (mặt hàng cũ) thì thực hiện hiện áp dụng mô hình
False Negative (FN): Tổng số lượng bình luận tiêu cực khai thác dữ liệu phi cấu trúc để thu thập và phân loại các
dự đoán Sai so với thực tế.
bình luận, sau đó tính tỷ lệ bình luận tích cực, lưu vào cơ
sở dữ liệu mặt hàng và tổ chức hiển thị kết quả tới người
5.2. Hỗ trợ ra quyết định
dùng. Trong trường hợp mặt hàng đó chưa có người dùng
Để hỗ trợ cho khách hàng ra quyết định khi mua hàng, nào đánh giá (mặt hàng mới) thì trích những đặc trưng liên
dữ liệu bình luận về mặt hàng R mà khách hàng quang tâm
được đưa vào mô hình để phân loại. Kết quả tỷ lệ bình luận
quan tới mặt hàng đó từ cơ sở dữ liệu và tổ chức hiển thị tới người dùng. 6. Kết quả
6.1. Kết quả thu thập và tiền xử lý dữ liệu Nghiên cứu đã
tiến hành thu thập tự động được 33.417 bình luận từ
năm 2017 đến 2022 trên 29 website thương mại điện
tử hàng đầu tại Việt Nam. Sau khi xử lý, loại bỏ
những bình luận không liên quan, bị lỗi phông chữ,
những câu không ý nghĩa, dữ liệu còn lại để thực
nghiệm là 32.187 bình luận được phân bố như trong
Hình 6. Kết quả huấn luyện các mô hình
Hình 4. Tập dữ liệu này được chia thành tập dữ liệu
Kết quả huấn luyện cho thấy mô hình SVM có độ chính
dùng cho huấn luyện, thực hiện gán nhãn và tập dữ
xác cao nhất (88%), do đó mô hình này sẽ được lựa chọn
để áp dụng cho dữ liệu thực nghiệm.
liệu dành cho thử nghiệm.
6.3. Trực quan hóa hỗ trợ ra quyết định mua hàng
Việc áp dụng mô hình sẽ giúp khách hàng biết được
mặt hàng có ý định mua trên một website thương mại điện
tử cụ thể có được nhiều khách hàng trước đó đánh giá tích
cực hay không. Kết hợp với dữ liệu phân loại bình luận
của các khách hàng trước sẽ giúp khách hàng dễ dàng đưa ra quyết định mua hàng.
Bảng 2. Kết quả hỗ trợ ra quyết định mua của một số mặt hàng Trên hệ
Tỷ lệ bình luận tích cực Mặt hàng quan thống tâm website Tích Tiêu Tổng cực cực Tỷ lệ
Hình 4. Phân bố số lượng các bình luận trên các website (w) Tivi Samsung W26 52 32 4 61%
6.2. Kết quả huấn luyện mô hình Tủ lạnh Panasonic W4 27 24 2 90%
Kết quả huấn luyện các mô hình được thể hiện trong Hình 6. Điều hòa Casper W14 13 12 0 94% Quần Jean W1 45 45 0 100% Áo thun W10 156 137 10 88% Quần bơi nam W5 34 31 1 90% Điện thoại Iphone 12 W3 29 25 2 86% Điện thoại Iphone 11 pro max W8 20 19 1 94% Áo chống nắng W6 75 75 0 100% Gà quay chiên ròn W21 61 34 22 56% Sản phẩm giúp giảm cân W11 33 27 4 81% Sườn dim xì dầu W21 18 7 10 38%
6.4. Thảo luận kết quả nghiên cứu
Từ kết quả nghiên cứu, bài báo đưa ra một số thảo luận
Hình 5. Ma trận nhầm lẫn của mô hình SVM
dựa trên một số khía cạnh để có thể triển khai hệ thống vào
thực tiễn lĩnh vực thương mại điện tử như sau:
Phạm vi triển khai hệ thống: Với đặc tính của hệ thống
sử dụng nguồn dữ liệu thứ cấp sẵn có nên đề xuất cho
doanh nghiệp có thể xây dựng và triển khai một hệ thống
[1] Mudambi, S. and D. Schuff, “What Makes a Helpful Online
độc lập, thực hiện khai thác nguồn dữ liệu trên mạng để
Review? A Study of Customer Reviews on Amazon.com”, MIS
đánh giá chất lượng dịch vụ khách hàng của các hệ thống
Quarterly, 34, 2010, 185-200.
website thương mại điện tử phục vụ công tác quản lý và
[2] Sharma, D.K., et al., “E-Commerce product comparison portal for
classification of customer data based on data mining”, Materials
thực hiện hỗ trợ khách hàng mua hàng.
Today: Proceedings, 51, 2022, 166-171.
Công nghệ lưu trữ và xử lý dữ liệu: Hiệu xuất xử lý của
[3] Al-Shamri, M.Y.H., “User profiling approaches for demographic
hệ thống và khả năng hỗ trợ nhà quản lý, khách hàng ra
recommender systems”, Knowledge-Based Systems, 100, 2016, 175-
quyết định phụ thuộc lớn vào độ lớn của tập dữ liệu và 187.
[4] Xu, J., Y. Zhang, and D. Miao, “Three-way confusion matrix for
năng lực xử lý của hệ thống máy tính. Do đó, khi triển khai
classification: A measure driven view”, Information Sciences, 505,
thực tế, doanh nghiệp cũng cần tính toán đến công nghệ 2020, 772-794. lưu trữ dữ liệu lớn.
[5] Pazzani, M.J. and D. Billsus, Content-based recommendation
systems, in The adaptive web, Springer, 2007, 325-341.
Hệ thống có dữ liệu đầu vào lớn và đòi hỏi xử lý phức
[6] Patra, B.G., et al., “A content-based literature recommendation
tạp, mất nhiều thời gian. Do đó, chức năng thu thập, tiền
system for datasets to improve data reusability – A case study on
xử lý dữ liệu, huấn luyện lại các mô hình nên được thực
Gene Expression Omnibus (GEO) datasets”, Journal of Biomedical
hiện theo định kỳ. Bên cạnh đó, cũng tùy thuộc vào tốc độ
Informatics, 104, 2020, 1-14.
tăng trưởng và biến động của nguồn dữ liệu bình luận của
[7] Afoudi, Y., M. Lazaar, and M. Al Achhab, “Impact of Feature
selection on content-based recommendation system”, International
khách hàng trên các website thương mại điện tử.
Conference on Wireless Technologies, Embedded and Intelligent
Bên cạnh đối tượng sử dụng chính của hệ thống là nhà
Systems (WITS), 2019, 1-6.
quản lý, quản trị doanh nghiệp và khách hàng thì các chức
[8] Aljunid, M.F. and M. Dh, “An Efficient Deep Learning Approach for
Collaborative Filtering Recommender System”, Procedia Computer
năng thu thập, tiền xử lý dữ liệu, huấn luyện, đánh giá và
Science, 171, 2020, 829-836.
lựa chọn các mô hình nên được thực hiện bởi các chuyên
[9] Ghasemi, N. and S. Momtazi, “Neural text similarity of user reviews
gia tri thức, đặc biệt là các chuyên gia về khoa học dữ liệu.
for improving collaborative filtering recommender systems”,
Electronic Commerce Research and Applications, 45, 2021, 101019.
7. Kết luận Nghiên cứu đã đề xuất một mô hình hỗ trợ
[10] Zhang, F., et al., “Graph embedding-based approach for detecting
người mua hàng ra quyết định mua dựa trên phân tích dữ
group shilling attacks in collaborative recommender systems”,
liệu phi cấu trúc là các bình luận của khách hàng trên các
Knowledge-Based Systems, 199(7), 2020, 105984.
website thương mại điện tử. Các mô hình phân loại của
[11] Yussupova, N., et al., “Models and Methods for Quality Management
phương pháp học máy được huấn luyện, thử nghiệm, đánh
Based on Artificial Intelligence Applications”, Acta Polytechnica
Hungarica
, 13(3), 2016, 45-60.
giá và đã lựa chọn ra mô hình SVM có độ chính xác cao
[12] Nguyễn Đặng Lập Bằng, Nguyễn Văn Hồ, & Hồ Trung Thành, “Mô
nhất làm mô hình thực nghiệm. Khách hàng quan tâm tới
hình khai phá ý kiến và phân tích cảm xúc khách hàng trực tuyến
bất kỳ sản phẩm nào trên website được triển khai hệ thống
trong ngành thực phẩm”, Tạp chí Khoa học Đại học Mở Thành phố
sẽ không phải đọc hiểu các bình luận thủ công, hệ thống sẽ
Hồ Chí Minh, 16(1), 2020, 64-78.
phân loại các bình luận một cách nhanh chóng và hiển thị
[13] Duyen, N.T., N.X. Bach, and T.M. Phuong, “An empirical study on
sentiment analysis for Vietnamese”, in 2014 International
cho khách hàng. Tuy nhiên, nghiên cứu vẫn còn một số hạn
Conference on Advanced Technologies for Communications (ATC
chế có thể cải thiện tốt hơn ở các nghiên cứu tiếp theo. Hạn 2014), 2014, IEEE.
chế về đối tượng và phạm vi nghiên cứu: Nghiên cứu chỉ
[14] Thái Kim Phụng, Nguyễn An Tế, & Trần Thị Thu Hà, “Tiếp cận
thực hiện thu thập dữ liệu ở dạng tĩnh, mà thực tế quyết
phương pháp học máy trong khai thác ý kiến khách hàng trực tuyến”,
định mua hàng của khách hàng còn phụ thuộc vào những
Tạp chí Nghiên cứu Kinh tế và Kinh doanh Châu Á, 30(10), 2019, 27-41.
yếu tố khách quan khác, như vị trí địa lý của công ty, sở
[15] Bang, T.S., C. Haruechaiyasak, and V. Sornlertlamvanich,
thích, đặc trưng văn hóa vùng miền. Bên cạnh đó, hệ thống
“Vietnamese sentiment analysis based on term feature selection
chưa thực hiện thu thập dữ liệu trên toàn bộ hệ thống
approach”, in Proc. 10th International Conference on Knowledge
website thương mại điện tử tại Việt Nam, đồng thời chỉ thực
Information and Creativity Support Systems (KICSS 2015), 2015.
hiện xử lý trên ngôn ngữ Tiếng Việt, hệ thống có thể mở
[16] Darley, W., Blankson, C., & Luethge, D., “Toward an Integrated
Framework for Online Consumer Behavior and Decision Making
rộng sang các dạng ngôn ngữ khác; Hạn chế về phương
Process: A Review”, Psychology and Marketing, 27(2), 2010, 94-
pháp nghiên cứu: Nghiên cứu chỉ phân loại nội dung bình 116.
luận theo thang đo hai mức tích cực và tiêu cực. Hướng [17] Shugan, S.M., “The Cost Of Thinking”, Journal of Consumer
nghiên cứu tiếp theo có thể sử dụng thang đo nhiều mức
Research, 7(2), 1980, 99-111.
hơn (ví dụ thang đo Likert 5 mức). Bên cạnh đó, nghiên cứu
[18] Payne, J.W.J.P.b., “Contingent decision behavior”, Psychological
Bulletin, 92(2), 1982, 382-402.
chỉ sử dụng phương pháp phân loại học máy có giá sát, nếu
[19] Häubl, G. and V.J.M.s. Trifts, “Consumer decision making in online
kết hợp thêm phương pháp lọc nội dung và phương pháp từ
shopping environments: The effects of interactive decision aids”,
vựng dựa trên ngữ nghĩa thì có thể sẽ cho kết quả tốt hơn.
Marketing Science, 19(1), 2000, 4-21.
[20] Bhargave, R., A. Chakravarti, and A. Guha, “Two-Stage Decisions
TÀI LIỆU THAM KHẢO
Increase Preference for Hedonic Options”, Organizational Behavior
and Human Decision Processes
, 130, 2015, 123-135.
[21] Yang, L., M. Xu, and L. Xing, “Exploring the core factors of online
[41] Lutfullaeva, M., et al., “Optimization of Sentiment Analysis
purchase decisions by building an E-Commerce network evolution
Methods for classifying text comments of bank customers”,
model”, Journal of Retailing and Consumer Services, 64, 2022,
IFACPapersOnLine, 51(32), 2018, 55-60. 102784.
[42] Morinaga, S., et al., “Mining product reputations on the Web”,
[22] Kart, Ö., A. Kut, and V. Radevski, “Decision Support System For A
Proceedings of the eighth ACM SIGKDD international conference
Customer Relationship Management Case Study”, International
on Knowledge discovery and data mining, 2002, 341-349.
Journal of Informatics and Communication Technology (IJ-ICT), 3,
[43] Cruz, F.L., et al., “Building layered, multilingual sentiment lexicons 2014, 88-96.
at synset and lemma levels”, Expert Systems with Applications,
[23] Bharati, P. and A.J.D.s.s. Chaudhury, “An empirical investigation of 41(13), 2014, 5984-5994.
decision-making satisfaction in web-based decision support
[44] Bakshi, R.K., et al., “Opinion mining and sentiment analysis”, 2016
systems”, Decision Support System, 37(2), 2004, 187-197.
3rd international conference on computing for sustainable global
[24] Manivannan, S., “Application of Decision Support System in
development (INDIACom), IEEE, 2016.
Ecommerce”, Communications of the IBIMA, 15, 2008, 156-169.
[45] Gensler, S., et al., “Listen to Your Customers: Insights into Brand
[25] Kasper, G.M., “A Theory of Decision Support System Design for
Image Using Online Consumer-Generated Product Reviews”,
User Calibration”, Information Systems Research, 7(2), 1996,
International Journal of Electronic Commerce, 20, 2016, 112-141. 215232.
[46] Heilig, L., R. Stahlbock, and S. Voss, From Digitalization to
[26] Chandra, Y., S. Karya, and M. Hendrawaty, “Decision Support
DataDriven Decision Making in Container Terminals, Handbook of
Systems for Customer to Buy Products with an Integration of
Terminal Planning, Springer, 2019, 125-154.
Reviews and Comments from Marketplace E-Commerce Sites in [47] Arroyo-Fernández, I., Méndez-Cruz, C.-F., Sierra, G.,
Indonesia: A Proposed Model”, International Journal on Advanced
TorresMoreno, J.-M., & Sidorov, G., “Unsupervised sentence
Science, Engineering and Information Technology, 9(4), 2019, 1171-
representations as word information series: Revisiting TF–IDF”, 1176.
Computer Speech & Language, 56, 2019, 107-129. [48] Lê Triệu
[27] Jain, S., A. de Buitléir, and E. Fallon, “A Review of Unstructured
Tuấn & Đàm Thị Phương Thảo, “Phương pháp phân loại dữ liệu bình
Data Analysis and Parsing Methods”, IEEE International
luận của khách hàng trực tuyến Việt Nam dựa vào học máy có giám
Conference on Emerging Smart Computing and Informatics (IEEE –
sát”, Khoa học & Công nghệ, 58(1), 2022, 49-52.
ESCI 2020), Web of Science Journal Publication, 2020.
[49] Anh, V., “Underthesea document”, Under the sea, 2018, [Online]
[28] He, P., et al., “An Evaluation Study on Log Parsing and Its Use in
Available: https://underthesea.readthedocs.io, 02/10/2022.
Log Mining”, in 2016 46th Annual IEEE/IFIP International [50] Arroyo-Fernández, I., Méndez-Cruz, C.-F., Sierra, G.,
Conference on Dependable Systems and Networks (DSN), 2016.
TorresMoreno, J.-M., & Sidorov, G., “Unsupervised sentence
[29] Inmon, W.H. and D. Linstedt, 2.4 - Unstructured Data, in Data
representations as word information series: Revisiting TF–IDF”,
Architecture: a Primer for the Data Scientist, W.H. Inmon and D.
Computer Speech & Language, 56, 2019, 107-129.
Linstedt, Editors, Morgan Kaufmann: Boston, 2015, 63-70.
[51] Kulkarni, A., D. Chong, and F.A. Batarseh, 5 - Foundations of data
[30] Alzate, M., M. Arce-Urriza, and J., “Cebollada, Mining the text of
imbalance and solutions for a data democracy, in Data Democracy,
online consumer reviews to analyze brand image and brand
F.A. Batarseh and R. Yang, Editors, Academic Press, 2020, 83-106.
positioning”, Journal of Retailing and Consumer Services, 67(1),
[52] Sharma, D. K., Lohana, S., Arora, S., Dixit, A., Tiwari, M., & Tiwari, 2022, 102989.
T., “E-Commerce product comparison portal for classification of
customer data based on data mining”, Materials Today: Proceedings,
[31] Dahiya, A., N. Gautam, and P. Gautam, “Data Mining Methods and 51, 2022, 166-171.
Techniques for Online Customer Review Analysis: A Literature
Review”, Journal of System and Management Sciences, 11(3), 2021, 1-26.
[32] Chen, J., et al., “Big data challenge: A data management
perspective”, Frontiers of Computer Science, 7, 2013, 157-164.
[33] Liu, B., Web data mining: exploring hyperlinks, contents, and usage
data, Springer, 1, 2011.
[34] Archak, N., A. Ghose, and P. Ipeirotis, Deriving the Pricing Power
of Product Features by Mining Consumer Reviews, NET Institute, Working Papers, 57, 2007.
[35] Decker, R. and M.J.I.J.o.R.i.M. Trusov, “Estimating aggregate
consumer preferences from online product reviews”, International
Journal of Research in Marketing
, 27(4), 2010, 293-307.
[36] Cai, Y., et al., “A deep recommendation model of cross-grained
sentiments of user reviews and ratings”, Information Processing &
Management
, 59(2), 2022, 102842.
[37] Li, M., et al., “Helpfulness of Online Product Reviews as Seen by
Consumers: Source and Content Features”, International Journal of
Electronic Commerce
, 17, 2013, 101-136.
[38] Tirunillai, S. and G. Tellis, “Does Online Chatter Really Matter?
Dynamics of User-Generated Content and Stock Performance”,
Marketing Science, 31(2), 2011, 198-215.
[39] Floyd, K., et al., “How Online Product Reviews Affect Retail Sales:
A Meta-analysis”, Journal of Retailing, 90(2), 2014, 217-232.
[40] East, R., K. Hammond, and W. Lomax, “Measuring the impact of
positive and negative word of mouth on brand purchase probability”,
International Journal of Research in Marketing, 25(3), 2008, 215- 224.