Bài kiểm tra tham khảo từ mạng | Đại học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

Bài kiểm tra tham khảo từ mạng | Đại học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn sinh viên cùng tham khảo, ôn tập đầy đủ kiến thức, chuẩn bị cho các buổi học thật tốt. Mời bạn đọc đón xem

Nguy n M ng, Nguy n Vi ạnh Dũng, Vũ Hoài Nam, Phạ ức Cườm Đ ệt Hưng
MÔ HÌNH PHÁT HI N HÀNH VI B C O L
ĐA TẦ ẠNG NƠRON TÍCH NG S DNG M
CH NH NGP VÀ M NG B DÀI- N H N
Nguy n M
ạnh Dũng Vũ Hoài Nam, Phạm Đức Cườ, ng, Nguyn Việt Hưng
H c Vi n Công Ngh Bưu Chính Viễn Thông
Tóm Tắt: Nhận diện hành vi là chủ đề nghiên cứu đầy
thách thức của lĩnh vực thị giác máy tính với rất nhiều các
ứng dụng hữu ích trong thực tế trong đó bao gồm phát hiện
hành vi bạo lực. Phát hiện sớm hành vi bạo lực giúp chúng
ta kịp thời những hành động, thể ngăn chặn hay chí
ít cũng có thể giảm thiểu thiệt hại do tình trạng bạo lực gây
ra. Trong bài báo này, chúng tôi trình bày phương pháp
phát hiện hành vi bạo lực đa tầng, ở giai đoạn đầu, những
nhóm đối tượng nguy cơ xảy ra bạo lực cao được phát
hiện bằng phương pháp sử dụng YOLO và thuật toán theo
dõi đối tượng Deep SORT. Tiếp theo các đặc trưng 2D của
nhóm đối tượng được trích xuất bằng mạng -ron tích
chập (CNN) giai đoạn thứ hai. Cuối cùng những đặc
trưng này được sử dụng làm đầu vào cho mạng bộ nhớ dài
ngắn (LSTM) ở giai đoạn cuối để xác định xem nhóm đối
tượng có hành vi bạo lực hay chỉ nhóm đối tượng hành
vi bình thường. Các kết quả thực nghiệm cho thấy, so với
các nghiên cứu trước đó, phương pháp được đề xuất không
chỉ hiệu quả để phát hiện hành vi bạo lực mà còn giảm số
lượng phát hiện sai, hiệu suất tốt phù hợp để ứng dụng
trong . thực tế
Từ khóa: Mạng nơ ron tích chập, phát hiện hành vi bạo
lực, YOLO, mạng bộ nhớ dài ngắn hạn. -
I. MỞ ĐẦU
B o l c luôn m t v c quan tâm hàng ấn đề đượ đầu
trong h i nào không ch riêng Vi t Nam trên toàn
thế gii. Hành vi b o l c gây ra r t nhi u h l y cho xã h i,
gây t n h i c v s c kh e, tinh th n, tài s n đôi khi
c tính m ng c i u bi a con ngườ . Đã nhiề ện pháp được
đưa ra nhưng ẫn thườtình trng bo lc v ng xuyên xy ra,
không có d u hi u thuyên gi m.
Nếu có một cơ chế giám sát hi u qu , k p th i phát hi n
c nh báo hành vi b o l c, chúng ta hoàn toàn th ngăn
chn hay chí ít là gi m thi t ng thi t h i do b u ối đa nh o
l c gây ra.
Trong nh ng camera giám sát ững năm gần đây hệ th
theo dõi CCTV phát tri n r ất nhanh và được cài đặt khp
mi nơi, từ bnh vin, trường h ng ph nọc, đườ cho đế
những nơi ức năng công cng khác. Mt trong nhng ch
quan trng, đang thu t được s quan tâm c a gi i nghiên
cu là kh ng giám sát, theo dõi hành vi b năng tăng cườ o
l c. Các h n t n ch ch thng hi i đa phầ ức năng thu
nhận lưu trữ hình nh n công vic giám sát ch yếu
vn d a vào s i, ức ngườ do đó hiu qu giám sát v n còn r t
thp vi chi phí v n hành cao .
Tích h p trí tu nhân t o AI vào h ng camera, giúp th
nâng cao hi u qu u hành giám sát là m t trong nh điề ng
xu hướng nghiên cu mi nht hin nay.
Phương pháp hc máy (Machine Learning) các
phương pháp t ng xây d độ ng m t mô hình toán h c b ng
cách s d ng d u m c g i là d o, li ẫu, còn đượ liệu đào tạ
có kh h i d a trên d năng tự c h liệu đưa vào mà không
cn ph c lải đượ p trình c th. Học máy đã được phát trin
t t qu c s những năm 1940, tuy nhiên kế th không được
ấn tượ ếu là khó khăn trong việng. Nguyên nhân ch y c thu
th lip d u và h n ch c a tài nguyên máy tín ế h. Cho đến
cui th p niên, khi mà ph n c ứng máy tính đã trở nên m nh
hơn cùng vớ ủa internet đã giúp cho quá i s phát trin c
trình thu th p d u tr nên d y s phát li dàng và thúc đẩ
tri n c a h c máy.
Gần đây, một nhánh ca hc máy hc sâu (Deep
Learning) đã nổ phương phápi lên thành mt hc máy tt
nht. Hc sâu bao gm t p các k thu t h c máy m nh s
dng mạng nơ-ron nhiu lp, nh đó đã đạt được nhi u k ết
qu tt trong nh ng bài toán th giác máy tính. Thay đổi
quan tr i quy t nh ng bài toán khó ọng này cũng giúp giả ế
còn t n t n hành vi b o l ại như phát hiệ c.
Qua bài báo này, chúng tôi t m đề xu ột phương pháp
ng d ng h c sâu phát hi n hành vi b o l c đa tầng s d ng
YOLO và CNN-LSTM. Ph n còn l i c ủa bài báo được b
cc n II như sau. Phầ gii thi u các nghiên c u liên quan.
Phn III mô t phương pháp được đề xut. Ph n IV báo cáo
kết qu thc nghi ng nghiên cệm. Hướ ứu trong tương lai
tho lu trình bày trong Ph n V.ận được
II. NGHIÊN CỨU LIÊN QUAN
Trong tài li u, nhi t cho ều phương pháp đã được đề xu
bài toán phát hi n hành vi b o l c , 2, Các [1 3]. phương
pháp này t p trung vào s d ng h c máy và phân tích hình
nh.
Phương pháp sử d ng h c máy t k t qu t t có th k đạ ế
đến Fast fight detection [1]. ng, trong Phương pháp cho rằ
một đoạn video bo lc, vùng điểm nh chuy ng ển độ
hình d ng v c bi u tiên, s khác bi t gi trí đặ ệt. Đầ a
nhng khung hình liên ti c tính toán l giá ếp đượ y tr
tuy i p theo, nh k t qu c nh phân hoá, t o ra t đố . Tiế ế đượ
nhng vùng chuy ng. K vùng chuy ng l n nhển độ ển độ t
được la ch x tiọn để ế p. Cu phân loối cùng, để i K
vùng chuy ng này, các thông s : tâm, chu vi, di n tích ển độ
Tác giả liên hệ: Nguyễn Mạnh Dũng,
Email: dungnm@ptit.edu.vn
Đến tòa soạn: 10/2021 11/2021, chỉnh sửa: , chấp nhận đăng:
12/2021.
SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 109
MÔ HÌNH PHÁT HI N HÀNH VI B O L NG S D NG M ỰC ĐA TẦ ẠNG NƠRON TÍCH CHẬP …..
kho ng cách gi c tính toán. K t qu ữa chúng đượ ế th
nghim trên các t p d u Movie, Hockey Fight và UCF- li
101 cho th u qu t t và thấy phương pháp hiệ ng
dng trong thế gii th này ực. Tuy nhiên, phương pháp
không hiu qu khi phân lo i nh ng video có chuy ển động
liên t c.
Hc sâu là m t t p h p con c a h c máy, t p trung ch
yếu vào s d ng m -ron nhi u l p. H ạng ọc sâu đã đạt
được độ chính xác và hiu qu cao trong rt nhiu bài toán
th giác máy tính so vi hc máy truy n thng, trong đó
ph nhi k n phân lo i hình đế .
Mạng nơ-ron tích chp CNN (Convolutional Neural
Network) [4] m t trong nh c s d ng kiến trúc đượ ng
rng rãi nh phân lo nh. CNN i dất được dùng để i ra đờ a
vào vi mô ph m t ph cách th c ho ng c a não c ng n ạt độ
b con ngườ ững đặc trưng từi - s dng nh không gian để
phân lo i m t b CNN s d ng r t nhi u b l c nh. c
kh ng năng h ỏi đểc h t độ trích xu t hình ất đặc trưng
nh, vì v y CNN có th “nhìn được” những đặc trưng quan
trng mà trích xuất đặc trưng thủ công khó có th phát hi n.
Trong quá trình hu n luy n nh ng s ững đặc trưng quan trọ
đư đưc gi li trong khi nh t sững đặc trưng không tố c
lo thi b i h kh ng.
HINH 1. HÌNH ẢNH TỪ TẬP DỮ LIỆU HOCKEY
Mặc đã gặt hái được nhng thành công nhất định
trong nhi m v phân lo nh, tuy nhiên CNN l i không i
hiu qu v i bài toán phân lo i hành vi. Nguyên nhân chính
do hành động là mt chui hình nh liên tiếp, nên nếu ch
s d ng m t hình nh đơn lẻ đưa ra đượ thì khó có th c d
đoán chính xác. Ví d vi hình nh t tp d liu Hockey
Hình 1 chúng ta không th, phân bit được đây hành
vi b o l c hay là m t ho ng th thao thông ch ạt độ thường.
Khác v i CNN, m ng b dài ng n LSTM (Long nh
short term memory network) [5 c t o ra v ng ] đư ới ý tưở
bắt chước suy nghĩ của con người m m ột nhược điể
mạng ống chưa th-ron truyn th làm được. Con người
không bắt đầu suy nghĩ của h t đầu t i t t c các th i
đi m, ví d như để phân lo i mt hình nh trong b phim,
con ngườ ụng đế ảnh trưới s s d n nhng hình c na ch
không s d ng duy nh t hình nh hin tại như CNN. LSTM
có d ng m t chu i các mô- p l i c a m - đun lặp đi lặ ạng nơ
ron để ph ng l ại cách suy nghĩ ca não người. đó mi
mô- -đun bao gồ ạng nơm 4 tng m ron khác nhautương
tác v i nhau m c bi t. v y, LSTM có th ghi ột cách đặ Nh
nh thông tin trong th i gian dài, phù h h ợp đ c t p v i
chu i hình nh trong bài toán phân lo . ại hành động
HÌNH 2. HÌNH ẢNH TỪ TẬP DỮ LIỆU PTIT
Nhiu nghiên c u cho th y, h c sâu có th áp dng khá
t t cho bài toán phát hi n hành vi b o l c [6, 7, 8, 9] Trong .
đó, phương pháp đem lại chính xác hiu qu nht
phương pháp sử d ng k t h p CNN và LSTM [9]. ế Đầu tiên,
các khung hình liên ti trích ếp được đưa vào một CNN để
xuất đặc trưng. Sau đó những đặc trưng này được đưa vào
Bidirectional LSTM [ ] phân lo i nh ng khung hình 10 để
liên ti o l c hay không. c thếp đó b Phương pháp đượ
nghim trên t p d u Hockey, Peliculas Collected li
Surveillance Camera d c nhóm tác gi thu (b liu đượ
thp) cho k t qu r t tế t th s d phân lo ụng để i
nhng video có chuyển động liên t c. v ậy, phương pháp
đạt đ chính xác không cao khi phân loi nhng video
cnh bo l c ch chiếm phn nh so v i khung hình. Ví d
hình nh s 2 t t p d liu PTIT, c nh bo lc trong
video chi m kho n di n tích trong ch ế ng mt ph nh
khung hình, t toán s ng không t khi đó thuậ hoạt độ t.
Nguyên nhân khi s d ng toàn trích n ảnh đ ch
đặc trưng thì phần đặc trưng tả hành vi bo lc không
thc s n i b t so v khác. c ph ới các đối tượng Để kh c
nhược điể , chúng tôi đềm này xut phương pháp nhn din
hành vi b o l c đa tầng s d ng CNN-LSTM. Mô hình này
cho phép chúng tôi t vào v trí x y ra hành vi ập trung hơn
bo l c, t t qu đó cho kế có độ chính xác cao hơn.
III. PHƯƠNG PHÁP ĐỀ XUẤT
Phương pháp phát hiệ ực chúng tôi đền hành vi bo l
xuất đượ ận này được minh ho trong Hình 3. Cách tiếp c c
chia thành ba giai đoạ giai đoạn đần chính. u, nhng
nhóm người có kh o l năng bạ c cao s được phát hi n và
khoanh vùng b ng YOLO [11], k t h p thu t toán theo dõi ế
đối tượng Deep SORT [12]. Trong giai đoạn ti p theo, hình ế
ảnh nhóm người có nguy cơ bạo lc cao t các khung hình
s được đưa vào CNN để trích xuất đặc trưng. Và giai đoạn
cui cùng, những đặc trưng này sẽ được đưa vào LSTM để
phân lo i quy i hành vi b ết định xem nhóm ngườ o
l c th c s hay ch ng. là hành động bình thườ
A. PHÁT HIỆN NHÓM NGƯỜI NGUY BẠO LỰC
CAO
Bước đầu tiên, chúng tôi khoanh vùng những nhóm đối
tượng nguy cơ b ực cao. Chúng tôi đưa ra mộo l t lut
đơn giản để chn những nhóm này đó là nhóm những người
đứng cnh nhau.
Chúng tôi s d ng YOLOv4 [13] là m t trong nh ng
phương pháp phát hiện đối tượng được s d ng r ng rãi và
t t nh t hi c ki m ch ng trên t p d u MS ện nay đã đượ li
COCO.
SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 110
Nguy n M ng, Nguy n Vi ạnh Dũng, Vũ Hoài Nam, Phạ ức Cườm Đ ệt Hưng
Các đối tượng sau khi được phát hin bi thut toán
YOLO s c theo dõi liên k t qua m t chu i các đượ ế
khung hình bi thu t toán Deep SORT [ ], t 12 đó thể
tìm ra được nhóm các đối tượ ần nhau. Đây chính ng g
nhóm đối tượng nguy cơ xảy ra hành vi b o l c. K t qu ế
quá trình được minh ho Hình 4.
B. CNN-LSTM
Không ph i t t c ng c nh nhau các nhóm đối tượng đứ
đều có th x y ra hành vi b o l ực, để đi đế ết đị n quy nh cui
cùng chúng ta c n ti n hành thêm m c x nh ế ột bướ m
phân bi o l c th ng nhóm ệt đâu hành vi bạ ật đâu nhữ
không có hành vi b o l c.
Hành vi b o l c là m t chu ng, vì v chúng ta ỗi hành độ y
cn quan sát chu i các khung hình liên ti ếp có thđể đưa
ra i cùngđược d đoán cu .
HÌNH 3. KIẾN TRÚC TỔNG QUAN MÔ HÌNH PHÁT HIỆN BẠO LỰC ĐA TẦNG KẾT HỢP CNN-LSTM
a
b
c
SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 111
MÔ HÌNH PHÁT HI N HÀNH VI B O L NG S D NG M ỰC ĐA TẦ ẠNG NƠRON TÍCH CHẬP …..
Như đã đề cập trước đó, mô hình thích hp nhất để phân
lo lii d u d ng chu i các khung hình liên ti là ki ếp đó ến
trúc k t h p CNN-LSTM. ế
Kiến trúc CNN-LSTM s d trích xu ụng CNN để ất đặc
trưng 2D ca ảnh đầu vào, sau đó kế ợp cùng LSTM đểt h
phân tích liên k t v t th i gian c a d c khi ế m liệu trướ
đưa đoán ra d cui cùng.
Để la chn hình CNN, chúng tôi tiến hành th
nghi ngm mt s hình đang đưc d u hing nhi n
nay trên t p d u ImageNet. K t qu B ng 1 cho th li ế y
Resnet18 [ ], s cân b ng t t nh t gi chính 14 đem lại ữa độ
xác và độ đã đượ phc tp ca mô hình, vì vy Resnet18 c
l a n s d ng cho vi c trích xu ch ất đặc trưng 2D của nh.
Chúng tôi thay đổ ối cùng để thu được vector đi layer cu c
trưng 256 chiều thay vì 1000 như ở phiên bn gc.
Vector đặc trung 256 chi u này s c s d ng làm d đư
liệu đầu vào ca mng LSTM phân loi hành vi bo lc.
Các đặc trưng của nhng vùng nguy bo lc cao t các
khung hình liên ti trích xuếp được đưa vào LSTM để t
những đặc trưng về ời gian trước khi đưa không gian và th
vào b phân lo nh cu i cùng. ại Softmax đưa ra quyết đ
Chúng tôi cũng sử dng Bidirectional LSTM thay cho
LSTM thông thường để tăng tính liên kế ữa các đầt gi u vào.
Kiến trúc c a m t Bi- c minh ho Hình 5. Bi- LSTM đượ
LSTM không ch thông tin t quá kh lưu trữ còn lưu
tr c n t thông tin đế tương lai,
BẢNG 1. K ẾT QUẢ THỬ NGHIỆM MỘT SỐ
MÔ HÌNH TRÊN TẬP DỮ LIỆU IMAGENET
Model
Parameters
Accuracy(%)
MobileNet
4.2 M
70.6
Resnet18
11.4 M
8 0.7
Resnet34
21.5 M
8 2.4
Resnet50
23.9 M
8 5.8
InceptionNet
23.2 M
83.2
VGG16
138.4 M
8 0.5
VGG19
143.7 M
8 4.2
kiến trúc như vậ đưa ra dự đoán hơn khi y giúp mô hình d
mà chu i hành vi b o l c Bi-LSTM ti p nh n thông ực đượ ế
tin t c hai chi u th i gian.
Chúng tôi cũng chọn kiến trúc LSTM hai tng bi vì
qua th c nghi m, so v i m t t ng LSTM thì ki n trúc ế
LSTM hai t ng cho k t qu t u s d ng ế ốt hơn, trong khi nế
nhiều hơn hai tầng LSTM thì độ chính xác tăng không đáng
k nhưng thờ ại tăng lên ni gian x lý l hi u.
IV. KẾT QUẢ THỰC NGHIỆM
A. TẬP DỮ LIỆU
Để u quđánh giá độ chính xác cũng như hiệ hoạt động
ca thut toán, chúng tôi ti n hành các th c nghi m trên ba ế
t p d liệu Hockey Fight, Peliculas và PTIT được thng
trên B ng 2.
BẢNG 2. T HỐNG KÊ CÁC TẬP DỮ LIỆU
Tp d liu
# violence
# non-violence
Hockey Fight
500
500
Peliculas
100
100
PTIT
120
90
1) T p d u Hockey Fight : T p d u ch a c nh b li li o
l c không t t ng trò chơi khúc côn cầu trên băng.
cộng 1000 video, trong đó 500 mẫu là bo lc và 500 mu
là không b o l c. T t c video có độ dài 2 giây, kích thướ c
khung hình gia các video gi ng nhau c nh b o l c
chi m ph n l n khung hình. Các video có chung n n và có ế
chuy ng n ển đ n.
HÌNH 6. MỘT SỐ VÍ DỤ MINH HỌA TRONG TẬP DỮ LIỆU ĐÁNH
GIÁ
2) T p d u Peliculas : T p d u bao g m các phân li li
cnh b o l c không t nhng b phim Hollywood, trò
chơi
bóng đá các sự kin khác. tng cng 200 video tt
cả. 100 trong đó là video bo lc 100 còn li video
không bo l c khung ực. Độ dài video 2 giây, kích thướ
hình gi a các video không gi ng nhau toàn b và c nh b o
l c chi m ph n l ế ớn khung hình. Môi trường và con người
trong video cũng khác nhau. Những video này cũng
chuy ng n ển đ n.
3) T p d p d u do chúng tôi thu liệu PTIT: Đây tậ li
thập để phc v cho nghin cu ti Hc vin Công ngh
Bưu chính Viễn thông. T p d liu có t ng c ng 210 video,
trong đó 110 video là bạo lc và 90 video là không b o l c.
Nhng video này chung kích thước khung hình nhưng
độ dài khác nhau, được quay vi các bi c nh khác nhau
và kho ng cách t i camera khác nhau t g n xa. Hình ần đế
s 6 minh h a m t s hình nh mô t hành vi b o l ực được
trích xu t t các t p d liu.
HÌNH 5. KIẾN TRÚC CỦA MỘT BI-LSTM
SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 112
Nguy n M ng, Nguy n Vi ạnh Dũng, Vũ Hoài Nam, Phạ ức Cườm Đ ệt Hưng
B. KẾT QUẢ
Chúng tôi ti n hành th nghi m bế ng ngôn ng Python
thư việ ấu hình máy tính như n hc sâu PyTorch vi c
sau:
OS : Windows 10
CPU : I9-10900K
RAM : 32GB
GPU: GEFORCE RTX 2070 SUPER
Thc nghi c ti n hành trên c 3 t p dệm đượ ế liu
Hockey Fight, Peliculas PTIT v i hai mô hình CNN
Resnet18 VGG16 [ ], hai hình LSTM LSTM 15
truy n th ng Bi- xem xét s ng c LSTM. Để ảnh hưở a
s ng timesteps (s ng khung hình LSTM s d ng lượ lượ
để d đoán) đến độ chính xác, chúng tôi th nghim v i 10
15 timesteps. T p d c chia ra 80% cho hu liệu đượ n
luy n và 20% cho ki m tra. K t qu c nghi c tính ế th ệm đượ
toán b ng 3. Th i gian chằng độ chính xác như trong Bả y
ca Resnet18 v i 10 timesteps và 15 timesteps l t ần lượ
80ms 95ms, hoàn toàn phù h p v i nh ng ng d ng
trong th i gian th c.
Kết qu thc nghi m cho th ấy phương pháp chúng tôi
phát tri n (Fight Region Candidate + Resnet18 + 2 Bi-
LSTM) cho k t qu t t nhế ất. Phương pháp này đạt độ chính
xác cao hơn so với các thu t toán ch s d ng CNN-LSTM
đơn thuần mà không có bướ lý để xác địc tin x nh vùng
kh nghi. Trong khi n u thay Resnet18 bế ằng VGG16 thì độ
chính xác g c tần như không thay đổi trong khi độ ph p
ca m t nhiạng CNN tăng lên rấ u.
Thc nghi y m ng LSTM 15 timesteps ệm cũng cho thấ
Bi-LSTM, cho k t qu t i 10 timesteps mà vế ốt hơn so vớ n
đả m bo yêu c u thi gian th c.
V. HƯỚNG NGHIÊN CỨU TƯƠNG LAI THẢO
LUẬN
T động phát hi n hành vi b o l c là r t quan tr ọng để
kp th i can thi n c nh báo. T ệp, ngăn ch đó thể
gim thi c thi t h i c v s c khểu đượ e, v t ch t, l n tinh
th i.ần cho con ngườ
Bài báo đã đưa ra phương pháp phát hiện hành vi bo
l c có hi u qu cao, b ng vi c k t h p ti n x lý phát hi ế n
Numbe
r of
time
step
Hockey Fight
Peliculas
PTIT
Preci
sion
Recal
l
F1
Score
Precis
ion
Recal
l
F1
Score
Precis
ion
Recal
l
F1
Score
Resnet18 + 2
LSTM
10
0.94
0.95
0.94
0.86
0.89
0.87
0.82
0.84
0.83
15
0.96
0.96
0.96
0.88
0.92
0.9
0.83
0.87
0.85
Resnet18 + 2
Bi-LSTM
10
0.96
0.97
0.96
0.89
0.91
0.9
0.84
0.86
0.85
15
0.97
0.98
0.97
0.9
0.95
0.92
0.87
0.88
0.87
Fight Region
Candidate +
Resnet18 + 2
LSTM
10
0.95
0.96
0.95
0.9
0.9
0.9
0.92
0.92
0.92
15
0.97
0.97
0.97
0.93
0.97
0.95
0.93
0.95
0.94
Fight Region
Candidate +
Resnet18 + 2
Bi-LSTM
10
1
1
1
0.92
0.93
0.92
0.92
0.92
0.92
15
1
1
1
0.96
0.99
0.97
0.97
0.99
0.98
VGG16 + 2
LSTM
10
0.94
0.94
0.94
0.84
0.86
0.85
0.81
0.82
0.81
15
0.96
0.96
0.96
0.85
0.89
0.87
0.85
0.86
0.85
VGG16 + 2
Bi-LSTM
10
0.96
0.97
0.96
0.88
0.92
0.9
0.83
0.84
0.83
15
0.97
0.97
0.97
0.92
0.93
0.92
0.87
0.88
0.87
Fight Region
Candidate +
VGG16 + 2
LSTM
10
0.95
0.96
0.95
0.88
0.92
0.9
0.89
0.9
0.9
15
0.97
0.98
0.97
0.94
0.96
0.95
0.92
0.96
0.94
Fight Region
Candidate +
VGG16 + 2
Bi-LSTM
10
1
1
1
0.92
0.93
0.92
0.92
0.92
0.92
15
1
1
1
0.96
0.99
0.97
0.95
0.97
0.96
Bng 3. Kết qu thc nghi m
SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 113
MÔ HÌNH PHÁT HI N HÀNH VI B O L NG S D NG M ỰC ĐA TẦ ẠNG NƠRON TÍCH CHẬP …..
vùng kh nghi và s d ng mô hình k t h p CNN- ế LSTM để
phân tích hành vi b o l c trong c không gian và th i gian.
Các k c nghiết qu th ệm cũng cho thấy phương pháp
của chúng tôi đủ nhanh, độ chính xác cao và hoàn toàn phù
hp cho nh ng h thng yêu c u x lý th i gian th c.
Tuy nhiên phương pháp vẫ ều điển còn nhi m hn chế,
như tập d u v li ẫn chưa đủ lớn để có th bao quát được tt
c các trườ ế. Chưa đượng hp th xy ra trên thc t c
kim th trong nhi u b i c ng khác nhau. ảnh môi trườ
Công vic d n trong th i gian t i c a nhóm d án kiế
là ti p t c xây d ng b d m nâng cao ế liệu đầy đủ hơn nh
độ chính xác ca thut toán.
Ngoài ra chúng tôi cũng dự định xây d ng m t mô hình
dng end-to-end v a có kh nh vùng kh nghi năng xác đ
đồng thi phân loi hành vi bo lc không cn thêm
bước tin x lý.
TÀI THAM LIỆU KHẢO
[1] I. S. Gracia, O. D. Suarez, G. B. Garcia, and T.-K.
Kim, “Fast fight detection,” PLoS ONE, vol. 10, no.
4, Apr. 2015, Art. no. e0120448.
[2] P. C. Ribeiro, R. Audigier, and Q. C. Pham, “RIMOC,
a feature to discriminate unstructured motions:
Application to violence detection for video-
surveillance,” Comput. Vis. Image Understand., vol.
144, pp. 121143, Mar. 2016.
[3] E. Y. Fu, H. Va Leong, G. Ngai, and S. Chan,
“Automatic fight detection in surveillance videos,” in
Proc. 14th Int. Conf. Adv. Mobile Comput. Multi
Media, Nov. 2016, pp. 225 234.
[4] [S. Albawi, T. A. Mohammed and S. Al-Zawi,
"Understanding of a convolutional neural network," in
2017 International Confe-rence on Engineering and
Technology (ICET), 2017, pp. 1-6, doi:
10.1109/ICEng-Technol.2017.8308186.
[5] Ralf C. Staudemeyer and Eric Rothstein Morris,
“Understanding LSTM - a tutorial into Long Short-
Term Memory Recurrent Neural Networks”. arXiv,
2019.
[6] C. Ding, S. Fan, M. Zhu, W. Feng, and B. Jia,
‘‘Violence detection in video by using 3D
convolutional neural networks,’’ in Proc. Int. Symp.
Visual Comput., 2014, pp. 551 558.
[7] S. Sudhakaran and O. Lanz, ‘‘Learning to detect
violent videos using convolutional long short-term
memory,’’ in Proc. 14th IEEE Int. Conf. Adv. Video
Signal Based Surveill. (AVSS), Aug./Sep. 2017, pp.
16.
[8] F. U. M. Ullah, A. Ullah, K. Muhammad, I. U. Haq,
and S. W. Baik, ‘‘Violence detection using
spatiotemporal features with 3D convolutional neural
network,’’ Sensors, vol. 19, no. 11, p. 2472, May
2019.
[9] Seymanur Akti, Gozde Ayse Tataroglu and Hazim
Kemal Ekenel, “Vision-based Fight Detection from
Surveillance Cameras”. IEEE, 2019.
[10] M. Schuster and K. K. Paliwal, "Bidirectional
recurrent neural networks," in IEEE Transactions on
Signal Processing, vol. 45, no. 11, pp. 2673-2681,
Nov. 1997, doi: 10.1109/78.650093.
[11] Joseph Redmon, Santosh Divvala, Ross Girshick and
Ali Farhadi, “You Only Look Once: Unified, Real-
Time Object Detection”. arXiv, 2016.
[12] Nicolai Wojke, Alex Bewley and Dietrich Paulus,
“Simple Online and Realtime Tracking with a Deep
Association Metric”. arXiv, 2017.
[13] Alexey Bochkovskiy, Chien-Yao Wang and Hong-
Yuan Mark Liao, “YOLOv4: Optimal Speed and
Accuracy of Object Detection”. arXiv, 2020.
[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren and Jian
Sun, “Deep Residual Learning for Image
Recognition”. arXiv, 2015.
[15] Karen Simonyan and Andrew Zisser-man, “Very
Deep Convolutional Networks for Large-Scale Image
Recognition”. arXiv, 2015.
MULTISTAGE REAL-TIME VIOLENCE
DETECTION USING CONVOLUTIONAL NEURAL
NETWORK AND LONG SHORT-TERM MEMORY
Abstract: Action detection is a challenging Computer
Vision research topics. It has many practical applications
in our lives and violence detection is one of the case that
helps quickly prevent and reduce the human injury in a
public places equipped with surveillance cameras such as
on the streets, at the hospitals, schools or parks. In this
study, we propose a detection method which taking the
advantages of the convolutional neural network (CNN) and
the long short-term memory network (LSTM). At the first
stage, the high-risk group of violence is detected by using
YOLO (You Only Look Once). CNN is then used to extract
the features in stage 2, which will be directly used as input
for LSTM at the last stage to predict the final class. The
datasets we used in our experiments are Hockey Fight,
Peliculas and a self-collected one, PTIT dataset.
Experiment results of the proposed method has been
compared to some prior works, showing that it is not only
effective in detecting the violence but also reduces the
number of false positive cases. Our method achieved high
performance in detection and has high potential for real-
time applications.
Keywords: Violence Detection; Convolutional Neural
Network; Long Short-term Memory; YOLO; Hockey
Fight; Peliculas.
Nguy n M ạnh Dũng, t i ht đạ c
chuyên ngành điên tử vin thông,
Đại hc Back Khoa Nội năm
2005. Tt nghi p Th c s chuyên
ngành công ngh thông tin, Đại
hc Quốc gia Kongju năm 2009.
T t nghi p ti n s chuyên ế
ngành công ngh thông tin Đại hc
Quốc gia Kongju năm 2019. Hiện
nay đang công tác và giảng dy ti
khoa k thu n t 1, H c Vi n Công Ngh ật điệ Bưu Chính
Viễn Thông. Lĩnh vc yêu thích bao gm x nh, th
giác máy tính, thu t toán và trí tu nhân t o.
SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 114
Nguy n M ng, Nguy n Vi ạnh Dũng, Vũ Hoài Nam, Phạ ức Cườm Đ ệt Hưng
Hoài Nam, t t nghi p i h đạ c
chuyên ngành điện t vin thông,
Đại hc Bách Khoa Nội năm
2013. T t nghi p Th c s chuyên
ngành K i h Máy Tính, Đạ c
Quốc gia Wangju năm 2015. Hiện
nay đang là nghiên cứu sinh chuyên
ngành Khoa H c y Tính, H c
Vin Công Ngh Bưu Chính Viễn
Thông. Lĩnh vc yêu thích bao gm x nh, th giác
máy tính, thu t toán và trí tu nhân t o.
Phạm Đức Cường, t t nghi i h p đạ c
chuyên ngành H ng Thông Tin, Th
Hc Vi n Công Ngh Bưu Chính Viễn
Thông, Hà N i. Hi ện nay đang công tác
t i IVS, v i v trí k nghiên c u và
phát trin các thu t toán x lý, nhn d ng
hình ảnh. Lĩnh vc yêu thích bao g m x
nh, th giác máy tính, h c máy và trí
tu nhân t o.
Nguy n Vi t Hưng. T t nghi p th c
năm 2009 tại ĐH Bách Khoa
Grenoblem và b o v n án Ti n s lu ế
năm 2013 tại đại hc Rennes 1, CH
Pháp. Hi n công tác t i H c vi n Công
ngh Bưu chính Viễn thông. Lĩnh vc
nghiên c u: H ng thông tin th h th ế
mi, trí tu nhân t o, h c máy.
SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 115
| 1/7

Preview text:

Nguyn Mạnh Dũng, Vũ Hoài Nam, Phạm ứ
Đ c Cường, Nguyn Việt Hưng
MÔ HÌNH PHÁT HI N HÀNH VI B O L C
ĐA TẦNG S D NG M NG NƠRON TÍCH
CHP VÀ MNG B NH N DÀI- GN H N
Nguyn Mạnh Dũng, Vũ Hoài Nam, Phạm Đức Cường, Nguyn Việt Hưng
Học Viện Công Nghệ Bưu Chính Viễn Thông
Tóm Tắt: Nhận diện hành vi là chủ đề nghiên cứu đầy
lực. Các hệ thống hiện tại đa phần chỉ có chức năng thu
thách thức của lĩnh vực thị giác máy tính với rất nhiều các
nhận và lưu trữ hình ảnh còn công việc giám sát chủ yếu
ứng dụng hữu ích trong thực tế trong đó bao gồm phát hiện
vẫn dựa vào sức người, do đó hiệu quả giám sát vẫn còn rất
hành vi bạo lực. Phát hiện sớm hành vi bạo lực giúp chúng
thấp với chi phí vận hành cao.
ta kịp thời có những hành động, có thể ngăn chặn hay chí
ít cũng có thể giảm thiểu thiệt hại do tình trạng bạo lực gây
Tích hợp trí tuệ nhân tạo AI vào hệ thống camera, giúp
ra. Trong bài báo này, chúng tôi trình bày phương pháp
nâng cao hiệu quả điều hành giám sát là một trong những
phát hiện hành vi bạo lực đa tầng, ở giai đoạn đầu, những
xu hướng nghiên cứu mới nhất hiện nay.
nhóm đối tượng có nguy cơ xảy ra bạo lực cao được phát
Phương pháp học máy (Machine Learning) là các
hiện bằng phương pháp sử dụng YOLO và thuật toán theo
phương pháp tự động xây dựng một mô hình toán học bằng
dõi đối tượng Deep SORT. Tiếp theo các đặc trưng 2D của
cách sử dụng dữ liệu mẫu, còn được gọi là dữ liệu đào tạo,
nhóm đối tượng được trích xuất bằng mạng nơ-ron tích có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không
chập (CNN) ở giai đoạn thứ hai. Cuối cùng những đặc
cần phải được lập trình cụ thể. Học máy đã được phát triển
trưng này được sử dụng làm đầu vào cho mạng bộ nhớ dài
từ những năm 1940, tuy nhiên kết quả thực sự không được
ngắn (LSTM) ở giai đoạn cuối để xác định xem nhóm đối
ấn tượng. Nguyên nhân chủ yếu là khó khăn trong việc thu
tượng có hành vi bạo lực hay chỉ là nhóm đối tượng có hành
thập dữ liệu và hạn chế của tài nguyên máy tính. Cho đến
vi bình thường. Các kết quả thực nghiệm cho thấy, so với
cuối thập niên, khi mà phần cứng máy tính đã trở nên mạnh
các nghiên cứu trước đó, phương pháp được đề xuất không
hơn cùng với sự phát triển của internet đã giúp cho quá
chỉ hiệu quả để phát hiện hành vi bạo lực mà còn giảm số
trình thu thập dữ liệu trở nên dễ dàng và thúc đẩy sự phát
lượng phát hiện sai, hiệu suất tốt phù hợp để ứng dụng triển của học máy. trong thực tế.
Gần đây, một nhánh của học máy là học sâu (Deep
Từ khóa: Mạng nơ ron tích chập, phát hiện hành vi bạo
Learning) đã nổi lên thành một phương pháp học máy tốt
lực, YOLO, mạng bộ nhớ dài-ngắn hạn.
nhất. Học sâu bao gồm tập các kỹ thuật học máy mạnh sử
dụng mạng nơ-ron nhiều lớp, nhờ đó đã đạt được nhiều kết I. MỞ ĐẦU
quả tốt trong những bài toán thị giác máy tính. Thay đổi
Bạo lực luôn là một vấn đề được quan tâm hàng đầu quan trọng này cũng giúp giải quyết những bài toán khó
trong xã hội nào không chỉ riêng Việt Nam mà trên toàn
còn tồn tại như phát hiện hành vi bạo lực.
thế giới. Hành vi bạo lực gây ra rất nhiều hệ lụy cho xã hội,
gây tổn hại cả về sức khỏe, tinh thần, tài sản và đôi khi là Qua bài báo này, chúng tôi đề xuất một phương pháp
cả tính mạng của con người. Đã có nhiều biện pháp được ứng dụng học sâu phát hiện hành vi bạo lực đa tầng sử dụng
đưa ra nhưng tình trạng bạo lực vẫn thường xuyên xảy ra, YOLO và CNN-LSTM. Phần còn lại của bài báo được bố
không có dấu hiệu thuyên giảm.
cục như sau. Phần II giới thiệu các nghiên cứu liên quan.
Phần III mô tả phương pháp được đề xuất. Phần IV báo cáo
Nếu có một cơ chế giám sát hiệu quả, kịp thời phát hiện kết quả thực nghiệm. Hướng nghiên cứu trong tương lai và
và cảnh báo hành vi bạo lực, chúng ta hoàn toàn có thể ngătn
h ảo luận được trình bày trong Phần V.
chặn hay chí ít là giảm thiểu tối đa những thiệt hại do bạo lực gây ra.
II. NGHIÊN CỨU LIÊN QUAN
Trong những năm gần đây hệ thống camera giám sát
Trong tài liệu, nhiều phương pháp đã được đề xuất cho
theo dõi CCTV phát triển rất nhanh và được cài đặt ở khắp bài toán phát hiện hành vi bạo lực [1, 2, 3]. Các phương
mọi nơi, từ bệnh viện, trường học, đường phố cho đến pháp này tập trung vào sử dụng học máy và phân tích hình
những nơi công cộng khác. Một trong những chức năng ảnh.
quan trọng, đang thu hút được sự quan tâm của giới nghiên Phương pháp sử dụng học máy đạt kết quả tốt có thể kể
cứu là khả năng tăng cường giám sát, theo dõi hành vi bạo đến Fast fight detection [1]. Phương pháp cho rằng, trong
một đoạn video bạo lực, vùng điểm ảnh chuyển động có
hình dạng và vị trí đặc biệt. Đầu tiên, sự khác biệt giữa
những khung hình liên tiếp được tính toán và lấy giá trị
Tác giả liên hệ: Nguyễn Mạnh Dũng,
tuyệt đối. Tiếp theo, ảnh kết quả được nhị phân hoá, tạo ra Email: dungnm@ptit.edu.vn
những vùng chuyển động. K vùng chuyển động lớn nhất
Đến tòa soạn: 10/2021, chỉnh sửa: 11/2021, chấp nhận đăng:
được lựa chọn để xử lý tiếp. Cuối cùng, để phân loại K 12/2021.
vùng chuyển động này, các thông số: tâm, chu vi, diện tích SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 109
MÔ HÌNH PHÁT HIỆN HÀNH VI BẠO LỰC ĐA TẦNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP …..
và khoảng cách giữa chúng được tính toán. Kết quả thử
nghiệm trên các tập dữ liệu Movie, Hockey Fight và UCF-
101 cho thấy phương pháp có hiệu quả tốt và có thể ứng
dụng trong thế giới thực. Tuy nhiên, phương pháp này
không hiệu quả khi phân loại những video có chuyển động liên tục.
Học sâu là một tập hợp con của học máy, tập trung chủ
yếu vào sử dụng mạng nơ-ron nhiều lớp. Học sâu đã đạt
được độ chính xác và hiệu quả cao trong rất nhiều bài toán
thị giác máy tính so với học máy truyền thống, trong đó
phải kể đến phân loại hình ảnh.
Mạng nơ-ron tích chập CNN (Convolutional Neural
HÌNH 2. HÌNH ẢNH TỪ TẬP DỮ LIỆU PTIT
Network) [4] là một trong những kiến trúc được sử dụng
Nhiều nghiên cứu cho thấy, học sâu có thể áp dụng khá
rộng rãi nhất được dùng để phân loại ảnh. CNN ra đời dựa tốt cho bài toán phát hiện hành vi bạo lực [6, 7, 8, 9]. Trong
vào việc mô phỏng một phần cách thức hoạt động của não
đ ó, phương pháp đem lại chính xác và hiệu quả nhất là
bộ con người - sử dụng những đặc trưng từ không gian để phương pháp sử dụng kết hợp CNN và LSTM [9]. Đầu tiên,
phân loại một bức ảnh. CNN sử dụng rất nhiều bộ lọc có các khung hình liên tiếp được đưa vào một CNN để trích
khả năng học hỏi để tự động trích xuất đặc trưng từ hình xuất đặc trưng. Sau đó những đặc trưng này được đưa vào
ảnh, vì vậy CNN có thể “nhìn được” những đặc trưng quan Bidirectional LSTM [10] để phân loại những khung hình
trọng mà trích xuất đặc trưng thủ công khó có thể phát hiện. liên tiếp đó là bạo lực hay không. Phương pháp được thử
Trong quá trình huấn luyện những đặc trưng quan trọng sẽ nghiệm trên tập dữ liệu Hockey, Peliculas và Col ected
được giữ lại trong khi những đặc trưng không tốt sẽ được Surveil ance Camera (bộ dữ liệu được nhóm tác giả thu
loại bỏ khỏi hệ thống.
thập) cho kết quả rất tốt và có thể sử dụng để phân loại
những video có chuyển động liên tục. Dù vậy, phương pháp
đạt độ chính xác không cao khi phân loại những video có
cảnh bạo lực chỉ chiếm phần nhỏ so với khung hình. Ví dụ
ở hình ảnh số 2 từ tập dữ liệu PTIT, cảnh bạo lực trong
video chỉ chiếm khoảng một phần diện tích nhỏ trong
khung hình, khi đó thuật toán sẽ hoạt động không tốt . Nguyên nhân l
à vì khi sử dụng toàn ảnh để trích chọn
đặc trưng thì phần đặc trưng mô tả hành vi bạo lực không
thực sự nổi bật so với các đối tượng khác. Để khắc phục
nhược điểm này, chúng tôi đề xuất phương pháp nhận diện
hành vi bạo lực đa tầng sử dụng CNN-LSTM. Mô hình này
cho phép chúng tôi tập trung hơn vào vị trí xảy ra hành vi
bạo lực, từ đó cho kết quả có độ chính xác cao hơn.
III. PHƯƠNG PHÁP ĐỀ XUẤT
Phương pháp phát hiện hành vi bạo lực chúng tôi đề
HINH 1. HÌNH ẢNH TỪ TẬP DỮ LIỆU HOCKEY
xuất được minh hoạ trong Hình 3. Cách tiếp cận này được
chia thành ba giai đoạn chính. Ở giai đoạn đầu, những
Mặc dù đã gặt hái được những thành công nhất định nhóm người có khả năng bạo lực cao sẽ được phát hiện và
trong nhiệm vụ phân loại ảnh, tuy nhiên CNN lại không khoanh vùng b ằng YOLO [11], kết hợp thuật toán theo dõi
hiệu quả với bài toán phân loại hành vi. Nguyên nhân chính
đối tượng Deep SORT [12]. Trong giai đoạn tiếp theo, hình
do hành động là một chuỗi hình ảnh liên tiếp, nên nếu chỉ ảnh nhóm người có nguy cơ bạo lực cao từ các khung hình
sử dụng một hình ảnh đơn lẻ thì khó có thể đưa ra được dự sẽ được đưa vào CNN để trích xuất đặc trưng. Và giai đoạn
đoán chính xác. Ví dụ với hình ảnh từ tập dữ liệu Hockey cuối cùng, những đặc trưng này sẽ được đưa vào LSTM để
ở Hình 1, chúng ta không thể phân biệt được đây là hành phân loại và quyết định xem nhóm người có hành vi bạo
vi bạo lực hay chỉ là một hoạt động thể thao thông thường. lực thực sự hay chỉ là hành động bình thường.
Khác với CNN, mạng bộ nhớ dài ngắn LSTM (Long A. PHÁT HIỆN NHÓM NGƯỜI NGUY BẠO LỰC
short term memory network) [5] được tạo ra với ý tưởng CAO
bắt chước suy nghĩ của con người – một nhược điểm mà
mạng nơ-ron truyền thống chưa thể làm được. Con người
Bước đầu tiên, chúng tôi khoanh vùng những nhóm đối
không bắt đầu suy nghĩ của họ từ đầu tại tất cả các thời tượng có nguy cơ bạo lực cao. Chúng tôi đưa ra một luật
điểm, ví dụ như để phân loại một hình ảnh trong bộ phim, đơn giản để chọn những nhóm này đó là nhóm những người
con người sẽ sử dụng đến những hình ảnh trước nữa chứ đứng cạnh nhau.
không sử dụng duy nhất hình ảnh hiện tại như CNN. LSTM
Chúng tôi sử dụng YOLOv4 [13] – là một trong những
có dạng một chuỗi các mô-đun lặp đi lặp lại của mạng nơ- phương pháp phát hiện đối tượng được sử dụng rộng rãi và
ron để mô phỏng lại cách suy nghĩ của não người. Ở đó mỗi tốt nhất hiện nay đã được kiểm chứng trên tập dữ liệu MS
mô-đun bao gồm 4 tầng mạng nơ-ron khác nhau và tương COCO.
tác với nhau một cách đặc biệt. Nhờ vậy, LSTM có thể ghi
nhớ thông tin trong thời gian dài, phù hợp để học tập với
chuỗi hình ảnh trong bài toán phân loại hành động. SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 110
Nguyn Mạnh Dũng, Vũ Hoài Nam, Phạm ứ
Đ c Cường, Nguyn Việt Hưng
HÌNH 3. KIẾN TRÚC TỔNG QUAN MÔ HÌNH PHÁT HIỆN BẠO LỰC ĐA TẦNG KẾT HỢP CNN-LSTM
Các đối tượng sau khi được phát hiện bởi thuật toán cùng chúng ta cần tiến hành thêm một bước xử lý nhằm
YOLO sẽ được theo dõi và liên kết qua một chuỗi các phân biệt đâu là hành vi bạo lực thật đâu là những nhóm
khung hình bởi thuật toán Deep SORT [12], từ đó có thể không có hành vi bạo lực.
tìm ra được nhóm các đối tượng gần nhau. Đây chính là Hành vi bo lc là mt chuỗi hành động, vì vy chúng ta
nhóm đối tượng có nguy cơ xảy ra hành vi bạo lực. Kết quả
quá trình được minh hoạ ở Hình 4.
cn quan sát chui các khung hình liên tiếp để có th đưa
ra được d đoán cui cùng. B. CNN-LSTM
Không phải tất cả các nhóm đối tượng đứng cạnh nhau
đều có thể xảy ra hành vi bạo lực, để đi đến quyết định cuối c a b
HÌNH 4. VÍ DỤ PHÁT HIỆN NHÓM ĐỐI TƯỢNG NGUY CƠ BẠO LỰC CAO SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 111
MÔ HÌNH PHÁT HIỆN HÀNH VI BẠO LỰC ĐA TẦNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP …..
Như đã đề cập trước đó, mô hình thích hợp nhất để phân nhiều hơn hai tầng LSTM thì độ chính xác tăng không đáng
loại dữ liệu dạng chuỗi các khung hình liên tiếp đó là kiến kể nhưng thời gian xử lý lại tăng lên nhiều. trúc kết hợp CNN-LSTM.
IV. KẾT QUẢ THỰC NGHIỆM
Kiến trúc CNN-LSTM sử dụng CNN để trích xuất đặc
trưng 2D của ảnh đầu vào, sau đó kết hợp cùng LSTM để A. TẬP DỮ LIỆU
phân tích liên kết về mặt thời gian của dữ liệu trước khi
Để đánh giá độ chính xác cũng như hiệu quả hoạt động
đưa ra dự đoán cuối cùng.
của thuật toán, chúng tôi tiến hành các thực nghiệm trên ba
Để lựa chọn mô hình CNN, chúng tôi tiến hành t ử
h tập dữ liệu Hockey Fight, Peliculas và PTIT được thống kê
nghiệm một số mô hình đang được ứng dụng nhiều hiện trên Bảng 2.
nay trên tập dữ liệu ImageNet. Kết quả ở Bảng 1 cho thấy
BẢNG 2. THỐNG KÊ CÁC TẬP DỮ LIỆU
Resnet18 [14], đem lại sự cân bằng tốt nhất giữa độ chính
xác và độ phức tạp của mô hình, vì vậy Resnet18 đã được
lựa chọn sử dụng cho việc trích xuất đặc trưng 2D của ảnh. Tập dữ liệu # violence # non-violence
Chúng tôi thay đổi layer cuối cùng để thu được vector đặc
trưng 256 chiều thay vì 1000 như ở phiên bản gốc. Hockey Fight 500 500
Vector đặc trung 256 chiều này sẽ được sử dụng làm dữ
liệu đầu vào của mạng LSTM phân loại hành vi bạo lực. Peliculas 100 100
Các đặc trưng của những vùng nguy bạo lực cao từ các
khung hình liên tiếp được đưa vào LSTM để trích xuất
những đặc trưng về không gian và thời gian trước khi đưa PTIT 120 90
vào bộ phân loại Softmax đưa ra quyết định cuối cùng.
Chúng tôi cũng sử dụng Bidirectional LSTM thay cho
LSTM thông thường để tăng tính liên kết giữa các đầu vào. 1) Tập dữ liệu Hockey Fight : Tập dữ liệu chứa cảnh bạo
Kiến trúc của một Bi-LSTM được minh hoạ ở Hình 5. Bi- lực và không từ trò chơi khúc côn cầu trên băng. Có tổng
LSTM không chỉ lưu trữ thông tin từ quá khứ mà còn lưu cộng 1000 video, trong đó 500 mẫu là bạo lực và 500 mẫu
trữ cả thông tin đến từ tương lai,
là không bạo lực. Tất cả video có độ dài 2 giây, kích thước
khung hình giữa các video là giống nhau và cảnh bạo lực
BẢNG 1. KẾT QUẢ THỬ NGHIỆM MỘT SỐ
chiếm phần lớn khung hình. Các video có chung nền và có
MÔ HÌNH TRÊN TẬP DỮ LIỆU IMAGENET chuyển động nền. Model Parameters Accuracy(%) MobileNet 4.2 M 70.6 Resnet18 11.4 M 80. 7 Resnet34 21.5 M 82. 4 Resnet50 23.9 M 85. 8 InceptionNet 23.2 M 83.2 VGG16 138.4 M 80. 5
HÌNH 6. MỘT SỐ VÍ DỤ MINH HỌA TRONG TẬP DỮ LIỆU ĐÁNH GIÁ VGG19 143.7 M 84. 2
2) Tập dữ liệu Peliculas : Tập dữ liệu bao gồm các phân
cảnh bạo lực và không từ những bộ phim Hol ywood, trò
kiến trúc như vậy giúp mô hình dễ đưa ra dự đoán hơn khi chơi
mà chuỗi hành vi bạo lực được Bi-LSTM tiếp nhận thông bóng đá và các sự kiện khác. Có tổng cộng 200 video tất
tin từ cả hai chiều thời gian.
cả. 100 trong đó là video bạo lực và 100 còn lại là video
Chúng tôi cũng chọn kiến trúc LSTM hai tầng bởi vì không bạo lực. Độ dài video là 2 giây, kích thước khung
qua thực nghiệm, so với một tầng LSTM thì kiến trúc hình giữa các video không giống nhau toàn bộ và cảnh bạo
LSTM hai tầng cho kết quả tốt hơn, trong khi nếu sử dụng lực chiếm phần lớn khung hình. Môi trường và con người
trong video cũng khác nhau. Những video này cũng có chuyển động nền.
3) Tập dữ liệu PTIT: Đây là tập dữ liệu do chúng tôi thu
thập để phục vụ cho nghiện cứu tại Học viện Công nghệ
Bưu chính Viễn thông. Tập dữ liệu có tổng cộng 210 video,
trong đó 110 video là bạo lực và 90 video là không bạo lực.
Những video này có chung kích thước khung hình nhưng
độ dài khác nhau, được quay với các bối cảnh khác nhau
và khoảng cách tới camera khác nhau từ gần đến xa. Hình
số 6 minh họa một số hình ảnh mô tả hành vi bạo lực được
trích xuất từ các tập dữ liệu.
HÌNH 5. KIẾN TRÚC CỦA MỘT BI-LSTM SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 112
Nguyn Mạnh Dũng, Vũ Hoài Nam, Phạm ứ
Đ c Cường, Nguyn Việt Hưng
B. KẾT QUẢ
Kết quả thực nghiệm cho thấy phương pháp chúng tôi
phát triển (Fight Region Candidate + Resnet18 + 2 Bi-
Chúng tôi tiến hành thử nghiệm bằng ngôn ngữ Python
LSTM) cho kết quả tốt nhất. Phương pháp này đạt độ chính
và thư viện học sâu PyTorch với cấu hình máy tính như sau:
xác cao hơn so với các thuật toán chỉ sử dụng CNN-LSTM
đơn thuần mà không có bước tiền xử lý để xác định vùng • OS : Windows 10
khả nghi. Trong khi nếu thay Resnet18 bằng VGG16 thì độ • CPU : I9-10900K
chính xác gần như không thay đổi trong khi độ phức tạp • RAM : 32GB
của mạng CNN tăng lên rất nhiều.
• GPU: GEFORCE RTX 2070 SUPER
Thực nghiệm cũng cho thấy mạng LSTM 15 timesteps
Thực nghiệm được tiến hành trên cả 3 tập dữ liệu Bi-LSTM, cho kết quả tốt hơn so với 10 timesteps mà vẫn
Hockey Fight, Peliculas và PTIT với hai mô hình CNN là đảm bảo yêu cầu thời gian thực.
Resnet18 và VGG16 [15], hai mô hình LSTM là LSTM V. HƯỚNG NGHIÊN CỨU TƯƠNG LAI VÀ THẢO
truyền thống và Bi-LSTM. Để xem xét sự ảnh hưởng của LUẬN
số lượng timesteps (số lượng khung hình LSTM sử dụng
để dự đoán) đến độ chính xác, chúng tôi thử nghiệm với 10
Tự động phát hiện hành vi bạo lực là rất quan trọng để
và 15 timesteps. Tập dữ liệu được chia ra 80% cho huấn
kịp thời can thiệp, ngăn chặn và cảnh báo. Từ đó có thể
luyện và 20% cho kiểm tra. Kết quả thực nghiệm được tính giảm thiểu được thiệt hại cả về sức khỏe, vật chất, lẫn tinh
toán bằng độ chính xác như trong Bảng 3. Thời gian chạy thần cho con người.
của Resnet18 với 10 timesteps và 15 timesteps lần lượt là Bài báo đã đưa ra phương pháp phát hiện hành vi bạo
80ms và 95ms, hoàn toàn phù hợp với những ứng dụng
lực có hiệu quả cao, bằng việc kết hợp tiền xử lý phát hiện trong thời gian thực.
Bng 3. Kết qu thc nghim Numbe Hockey Fight Peliculas PTIT r of time Preci Recal F1 Precis Recal F1 Precis Recal F1 step sion l Score ion l Score ion l Score 10 0.94 0.95 0.94 0.86 0.89 0.87 0.82 0.84 0.83 Resnet18 + 2 LSTM 15 0.96 0.96 0.96 0.88 0.92 0.9 0.83 0.87 0.85 Resnet18 + 2 10 0.96 0.97 0.96 0.89 0.91 0.9 0.84 0.86 0.85 Bi-LSTM 15 0.97 0.98 0.97 0.9 0.95 0.92 0.87 0.88 0.87 Fight Region 10 0.95 0.96 0.95 0.9 0.9 0.9 0.92 0.92 0.92 Candidate + 15 0.97 0.97 0.97 0.93 0.97 0.95 0.93 0.95 0.94 Resnet18 + 2 LSTM Fight Region 10 1 1 1 0.92 0.93 0.92 0.92 0.92 0.92 Candidate + 15 1 1 1 0.96 0.99 0.97 0.97 0.99 0.98 Resnet18 + 2 Bi-LSTM 10 0.94 0.94 0.94 0.84 0.86 0.85 0.81 0.82 0.81 VGG16 + 2 LSTM 0.96 0.96 0.96 0.85 0.89 0.87 0.85 0.86 0.85 15 VGG16 + 2 10 0.96 0.97 0.96 0.88 0.92 0.9 0.83 0.84 0.83 Bi-LSTM 15 0.97 0.97 0.97 0.92 0.93 0.92 0.87 0.88 0.87 Fight Region 10 0.95 0.96 0.95 0.88 0.92 0.9 0.89 0.9 0.9 Candidate + 15 0.97 0.98 0.97 0.94 0.96 0.95 0.92 0.96 0.94 VGG16 + 2 LSTM Fight Region 10 1 1 1 0.92 0.93 0.92 0.92 0.92 0.92 Candidate + 15 1 1 1 0.96 0.99 0.97 0.95 0.97 0.96 VGG16 + 2 Bi-LSTM SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 113
MÔ HÌNH PHÁT HIỆN HÀNH VI BẠO LỰC ĐA TẦNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP …..
vùng khả nghi và sử dụng mô hình kết hợp CNN-LSTM để
Signal Processing, vol. 45, no. 11, pp. 2673-2681,
phân tích hành vi bạo lực trong cả không gian và thời gian. Nov. 1997, doi: 10.1109/78.650093.
Các kết quả thực nghiệm cũng cho thấy phương pháp [11] Joseph Redmon, Santosh Divvala, Ross Girshick and
của chúng tôi đủ nhanh, độ chính xác cao và hoàn toàn phù
Ali Farhadi, “You Only Look Once: Unified, Real-
hợp cho những hệ thống yêu cầu xử lý thời gian thực.
Time Object Detection”. arXiv, 2016.
Tuy nhiên phương pháp vẫn còn nhiều điểm hạn chế, [12] Nicolai Wojke, Alex Bewley and Dietrich Paulus,
như tập dữ liệu vẫn chưa đủ lớn để có thể bao quát được tất
“Simple Online and Realtime Tracking with a Deep
cả các trường hợp có thể xảy ra trên thực tế. Chưa được
Association Metric”. arXiv, 2017.
kiểm thử trong nhiều bối cảnh môi trường khác nhau.
[13] Alexey Bochkovskiy, Chien-Yao Wang and Hong-
Công việc dự kiến trong thời gian tới của nhóm dự án
Yuan Mark Liao, “YOLOv4: Optimal Speed and
là tiếp tục xây dựng bộ dữ liệu đầy đủ hơn nhằm nâng cao
Accuracy of Object Detection”. arXiv, 2020.
độ chính xác của thuật toán.
[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren and Jian
Ngoài ra chúng tôi cũng dự định xây dựng một mô hình
Sun, “Deep Residual Learning for Image
dạng end-to-end vừa có khả năng xác định vùng khả nghi Recognition”. arXiv, 2015.
đồng thời phân loại hành vi bạo lực mà không cần thêm bước tiền xử lý.
[15] Karen Simonyan and Andrew Zisser-man, “Very
Deep Convolutional Networks for Large-Scale Image
TÀI LIỆU THAM KHẢO Recognition”. arXiv, 2015.
[1] I. S. Gracia, O. D. Suarez, G. B. Garcia, and T.-K.
Kim, “Fast fight detection,” PLoS ONE, vol. 10, no.
4, Apr. 2015, Art. no. e0120448. MULTISTAGE REAL-TIME VIOLENCE
DETECTION USING CONVOLUTIONAL NEURAL
[2] P. C. Ribeiro, R. Audigier, and Q. C. Pham, “RIMOC,
NETWORK AND LONG SHORT-TERM MEMORY
a feature to discriminate unstructured motions:
Application to violence detection for video-
Abstract: Action detection is a chal enging Computer
surveillance,” Comput. Vis. Image Understand., vol.
Vision research topics. It has many practical applications
144, pp. 121–143, Mar. 2016.
in our lives and violence detection is one of the case that
[3] E. Y. Fu, H. Va Leong, G. Ngai, and S. Chan, helps quickly prevent and reduce the human injury in a
“Automatic fight detection in surveillance videos,” in
public places equipped with surveil ance cameras such as
Proc. 14th Int. Conf. Adv. Mobile Comput. Multi on the streets, at the hospitals, schools or parks. In this
Media, Nov. 2016, pp. 225–234.
study, we propose a detection method which taking the
advantages of the convolutional neural network (CNN) and
[4] [S. Albawi, T. A. Mohammed and S. Al-Zawi, the long short-term memory network (LSTM). At the first
"Understanding of a convolutional neural network," in stage, the high-risk group of violence is detected by using
2017 International Confe-rence on Engineering and
YOLO (You Only Look Once). CNN is then used to extract Technology (ICET), 2017, pp. 1-6,
doi: the features in stage 2, which wil be directly used as input
10.1109/ICEng-Technol.2017.8308186.
for LSTM at the last stage to predict the final class. The
[5] Ralf C. Staudemeyer and Eric Rothstein Morris,
datasets we used in our experiments are Hockey Fight,
“Understanding LSTM - a tutorial into Long Short- Peliculas and a self-col ected one, PTIT dataset.
Term Memory Recurrent Neural Networks”. arXiv,
Experiment results of the proposed method has been 2019.
compared to some prior works, showing that it is not only
effective in detecting the violence but also reduces the
[6] C. Ding, S. Fan, M. Zhu, W. Feng, and B. Jia, number of false positive cases. Our method achieved high
‘‘Violence detection in video by using 3D performance in detection and has high potential for real-
convolutional neural networks,’’ in Proc. Int. Symp. time applications.
Visual Comput., 2014, pp. 551–558.
Keywords: Violence Detection; Convolutional Neural
[7] S. Sudhakaran and O. Lanz, ‘‘Learning to detect
Network; Long Short-term Memory; YOLO; Hockey
violent videos using convolutional long short-term Fight; Peliculas.
memory,’’ in Proc. 14th IEEE Int. Conf. Adv. Video
Signal Based Surveil . (AVSS), Aug./Sep. 2017, pp.
Nguyễn Mạnh Dũng, tốt đại học 1–6.
chuyên ngành điên tử viễn thông,
Đại học Back Khoa Hà Nội năm
[8] F. U. M. Ul ah, A. Ul ah, K. Muhammad, I. U. Haq,
2005. Tốt nghiệp Thạc sỹ chuyên
and S. W. Baik, ‘‘Violence detection using
ngành công nghệ thông tin, Đại
spatiotemporal features with 3D convolutional neural
học Quốc gia Kongju năm 2009.
network,’’ Sensors, vol. 19, no. 11, p. 2472, May
Và Tốt nghiệp tiến sỹ chuyên 2019.
ngành công nghệ thông tin Đại học
[9] Seymanur Akti, Gozde Ayse Tataroglu and Hazim
Quốc gia Kongju năm 2019. Hiện
nay đang công tác và giảng dạy tại
Kemal Ekenel, “Vision-based Fight Detection from khoa kỹ thuật điện tử 1, Học Viện Công Nghệ Bưu Chính
Surveillance Cameras”. IEEE, 2019.
Viễn Thông. Lĩnh vực yêu thích bao gồm xử lý ảnh, thị
[10] M. Schuster and K. K. Paliwal, "Bidirectional giác máy tính, thuật toán và trí tuệ nhân tạo.
recurrent neural networks," in IEEE Transactions on SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 114
Nguyn Mạnh Dũng, Vũ Hoài Nam, Phạm ứ
Đ c Cường, Nguyn Việt Hưng
Vũ Hoài Nam, tốt nghiệp đại học
chuyên ngành điện tử viễn thông,
Đại học Bách Khoa Hà Nội năm
2013. T ốt nghiệp Thạc sỹ chuyên
ngành Kỹ Sư Máy Tính, Đại học
Quốc gia Wangju năm 2015. Hiện
nay đang là nghiên cứu sinh chuyên
ngành Khoa Học Máy Tính, Học
Viện Công Nghệ Bưu Chính Viễn
Thông. Lĩnh vực yêu thích bao gồm xử lý ảnh, thị giác
máy tính, thuật toán và trí tuệ nhân tạo .
Phạm Đức Cường, tốt nghiệp đại học
chuyên ngành Hệ Thống Thông Tin,
Học Viện Công Nghệ Bưu Chính Viễn
Thông, Hà Nội. Hiện nay đang công tác
tại IVS, với vị trí kỹ sư nghiên cứu và
phát triển các thuật toán xử lý, nhận dạng
hình ảnh. Lĩnh vực yêu thích bao gồm xử
lý ảnh, thị giác máy tính, học máy và trí tuệ nhân tạo.
Nguyễn Việt Hưng. Tốt nghiệp thạc
sĩ năm 2009 tại ĐH Bách Khoa
Grenoblem và bảo vệ luận án Tiến sỹ
năm 2013 tại đại học Rennes 1, CH
Pháp. Hiện công tác tại Học viện Công
nghệ Bưu chính Viễn thông. Lĩnh vực
nghiên cứu: Hệ thống thông tin thế hệ
mới, trí tuệ nhân tạo, học máy. SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 115