7 trang 37 lượt tải

Bài kiểm tra tham khảo từ mạng | Đại học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

Bài kiểm tra tham khảo từ mạng | Đại học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh được sưu tầm và soạn thảo dưới dạng file PDF để gửi tới các bạn sinh viên cùng tham khảo, ôn tập đầy đủ kiến thức, chuẩn bị cho các buổi học thật tốt. Mời bạn đọc đón xem

Môn: Phương pháp nghiên cứu (123456) 44 tài liệu

Trường: Đại học Ngoại ngữ - Tin học Thành phố Hồ Chí Minh 726 tài liệu

Tác giả:

Nguyễn Trinh

8 tháng trước

Danh sách Quiz

Nguy n M ng, Nguy n Vi ễ ạnh Dũng, Vũ Hoài Nam, Phạ ức Cườm Đ ễ ệt Hưng

MÔ HÌNH PHÁT HI N HÀNH VI B C Ệ ẠO LỰ

ĐA TẦ ẠNG NƠRON TÍCH NG SỬ DỤNG M

CH NH NGẬP VÀ M NG B Ạ Ộ Ớ DÀI- ẮN H N Ạ

Nguy n M

ễ ạnh Dũng Vũ Hoài Nam, Phạm Đức Cườ, ng, Nguyễn Việt Hưng

H c Vi n Công Nghọ ệ ệ Bưu Chính Viễn Thông

Tóm Tắt: Nhận diện hành vi là chủ đề nghiên cứu đầy

thách thức của lĩnh vực thị giác máy tính với rất nhiều các

ứng dụng hữu ích trong thực tế trong đó bao gồm phát hiện

hành vi bạo lực. Phát hiện sớm hành vi bạo lực giúp chúng

ta kịp thời có những hành động, có thể ngăn chặn hay chí

ít cũng có thể giảm thiểu thiệt hại do tình trạng bạo lực gây

ra. Trong bài báo này, chúng tôi trình bày phương pháp

phát hiện hành vi bạo lực đa tầng, ở giai đoạn đầu, những

nhóm đối tượng có nguy cơ xảy ra bạo lực cao được phát

hiện bằng phương pháp sử dụng YOLO và thuật toán theo

dõi đối tượng Deep SORT. Tiếp theo các đặc trưng 2D của

nhóm đối tượng được trích xuất bằng mạng nơ-ron tích

chập (CNN) ở giai đoạn thứ hai. Cuối cùng những đặc

trưng này được sử dụng làm đầu vào cho mạng bộ nhớ dài

ngắn (LSTM) ở giai đoạn cuối để xác định xem nhóm đối

tượng có hành vi bạo lực hay chỉ là nhóm đối tượng có hành

vi bình thường. Các kết quả thực nghiệm cho thấy, so với

các nghiên cứu trước đó, phương pháp được đề xuất không

chỉ hiệu quả để phát hiện hành vi bạo lực mà còn giảm số

lượng phát hiện sai, hiệu suất tốt phù hợp để ứng dụng

trong . thực tế

Từ khóa: Mạng nơ ron tích chập, phát hiện hành vi bạo

lực, YOLO, mạng bộ nhớ dài ngắn hạn. -

I. MỞ ĐẦU

B o l c luôn là m t v c quan tâm hàng ạ ự ộ ấn đề đượ đầu

trong xã h i nào không ch riêng Vi t Nam mà trên toàn ộ ỉ ệ

thế giới. Hành vi b o l c gây ra r t nhi u h l y cho xã h i, ạ ự ấ ề ệ ụ ộ

gây t n h i c v s c kh e, tinh th n, tài s n ổ ạ ả ề ứ ỏ ầ ả và đôi khi là

cả tính m ng c i u biạ ủa con ngườ . Đã có nhiề ện pháp được

đưa ra nhưng ẫn thườtình trạng bạo lực v ng xuyên xảy ra,

không có d u hi u thuyên gi ấ ệ ảm.

Nếu có một cơ chế giám sát hi u qu , kệ ả ịp th i phát hiờ ện

và c nh báo hành vi b o l c, chúng ta hoàn toàn có th ả ạ ự ể ngăn

chặn hay chí ít là gi m thi t ng thi t h i do bả ểu ối đa nhữ ệ ạ ạo

l c gây ra. ự

Trong nh ng camera giám sát ững năm gần đây hệ thố

theo dõi CCTV phát tri n rể ất nhanh và được cài đặt ở khắp

mọi nơi, từ bệnh viện, trường h ng ph nọc, đườ ố cho đế

những nơi ức năng công cộng khác. Một trong những ch

quan trọng, đang thu hút được s quan tâm c a gi i nghiên ự ủ ớ

cứu là kh ng giám sát, theo dõi hành vi bả năng tăng cườ ạo

l c. Các h n t n ch có chự ệ thống hiệ ại đa phầ ỉ ức năng thu

nhận và lưu trữ hình ảnh còn công việc giám sát chủ yếu

vẫn d a vào s i, ự ức ngườ do đó hiệu qu giám sát v n còn rả ẫ ất

thấp với chi phí v n hành cao ậ .

Tích h p trí tu nhân t o AI vào h ng camera, giúp ợ ệ ạ ệ thố

nâng cao hi u qu u hành giám sát là m t trong nh ệ ả điề ộ ững

xu hướng nghiên cứu mới nhất hiện nay.

Phương pháp học máy (Machine Learning) là các

phương pháp t ng xây dự độ ựng m t mô hình toán h c b ng ộ ọ ằ

cách s d ng d u m c g i là d o, ử ụ ữ liệ ẫu, còn đượ ọ ữ liệu đào tạ

có kh h i d a trên dả năng tự ọc hỏ ự ữ liệu đưa vào mà không

cần ph c lải đượ ập trình c ụ thể. Học máy đã được phát triển

t t qu c s ừ những năm 1940, tuy nhiên kế ả thự ự không được

ấn tượ ếu là khó khăn trong việng. Nguyên nhân chủ y c thu

th liập dữ ệu và h n ch c a tài nguyên máy tínạ ế ủ h. Cho đến

cuối th p niên, khi mà ph n cậ ầ ứng máy tính đã trở nên m nh ạ

hơn cùng vớ ủa internet đã giúp cho quá i sự phát triển c

trình thu th p d u tr nên d y s phát ậ ữ liệ ở ễ dàng và thúc đẩ ự

tri n c a h c máy. ể ủ ọ

Gần đây, một nhánh của học máy là học sâu (Deep

Learning) đã nổ phương phápi lên thành một học máy tốt

nhất. Học sâu bao gồm t p các k thu t hậ ỹ ậ ọc máy m nh s ạ ử

dụng mạng nơ-ron nhiều lớp, nh ờ đó đã đạt được nhi u kề ết

quả tốt trong nh ng bài toán th giác máy ữ ị tính. Thay đổi

quan tr i quy t nh ng bài toán khó ọng này cũng giúp giả ế ữ

còn t n t n hành vi b o l ồ ại như phát hiệ ạ ực.

Qua bài báo này, chúng tôi t m đề xuấ ột phương pháp

ứng d ng h c sâu phát hi n hành vi b o l c ụ ọ ệ ạ ự đa tầng s dử ụng

YOLO và CNN-LSTM. Ph n còn l i c ầ ạ ủa bài báo được bố

cục n II như sau. Phầ giới thi u các nghiên c u liên quan. ệ ứ

Phần III mô t ả phương pháp được đề xuất. Ph n IV báo cáo ầ

kết qu ả thực nghi ng nghiên cệm. Hướ ứu trong tương lai và

thảo lu trình bày trong Ph n V.ận được ầ

II. NGHIÊN CỨU LIÊN QUAN

Trong tài li u, nhi t cho ệ ều phương pháp đã được đề xuấ

bài toán phát hi n hành vi b o l c , 2, Các ệ ạ ự [1 3]. phương

pháp này t p trung vào s d ng h c máy và phân tích hình ậ ử ụ ọ

ảnh.

Phương pháp sử d ng h c máy t k t qu t t có th k ụ ọ đạ ế ả ố ể ể

đến Fast fight detection [1]. ng, trong Phương pháp cho rằ

một đoạn video bạo lực, vùng điểm ảnh chuy ng có ển độ

hình d ng và v c bi u tiên, s khác bi t giạ ị trí đặ ệt. Đầ ự ệ ữa

những khung hình liên ti c tính toán và l giá ếp đượ ấy trị

tuy i p theo, nh k t qu c nh phân hoá, t o ra ệt đố . Tiế ả ế ả đượ ị ạ

những vùng chuy ng. K vùng chuy ng l n nhển độ ển độ ớ ất

được lựa ch x lý tiọn để ử ế ạp. Cu phân loối cùng, để i K

vùng chuy ng này, các thông s : tâm, chu vi, di n tích ển độ ố ệ

Tác giả liên hệ: Nguyễn Mạnh Dũng,

Email: dungnm@ptit.edu.vn

Đến tòa soạn: 10/2021 11/2021, chỉnh sửa: , chấp nhận đăng:

12/2021.

SỐ 04 (CS.01) 2021

TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 109

MÔ HÌNH PHÁT HI N HÀNH VI B O L NG S D NG M Ệ Ạ ỰC ĐA TẦ Ử Ụ ẠNG NƠRON TÍCH CHẬP …..

và kho ng cách gi c tính toán. K t qu ả ữa chúng đượ ế ả thử

nghiệm trên các t p d u Movie, Hockey Fight và UCF-ậ ữ liệ

101 cho th u qu t t và có thấy phương pháp có hiệ ả ố ể ứng

dụng trong thế giới th này ực. Tuy nhiên, phương pháp

không hiệu qu khi phân lo i nh ng video có chuyả ạ ữ ển động

liên t ục.

Học sâu là m t t p h p con c a h c máy, t p trung ch ộ ậ ợ ủ ọ ậ ủ

yếu vào s d ng m -ron nhi u l p. Hử ụ ạng nơ ề ớ ọc sâu đã đạt

được độ chính xác và hiệu quả cao trong rất nhiều bài toán

thị ề giác máy tính so với học máy truy n thống, trong đó

ph nhải k n phân lo i hình ể đế ạ ả .

Mạng nơ-ron tích chập CNN (Convolutional Neural

Network) [4] là m t trong nh c s dộ ững kiến trúc đượ ử ụng

rộng rãi nh phân lo nh. CNN i dất được dùng để ại ả ra đờ ựa

vào vi mô ph m t ph cách th c ho ng c a não ệc ỏng ộ ần ứ ạt độ ủ

bộ con ngườ ững đặc trưng từi - sử dụng nh không gian để

phân lo i m t b CNN s d ng r t nhi u b l có ạ ộ ức ảnh. ử ụ ấ ề ộ ọc

kh ngả năng họ ỏi đểc h tự độ trích xu t hình ất đặc trưng ừ

ảnh, vì v y CNN có th ậ ể “nhìn được” những đặc trưng quan

trọng mà trích xuất đặc trưng thủ công khó có th phát hi n.ể ệ

Trong quá trình hu n luy n nh ng s ấ ệ ững đặc trưng quan trọ ẽ

đư được giữ lại trong khi nh t sững đặc trưng không tố ẽ ợc

lo thại b i hỏ khỏ ệ ống.

HINH 1. HÌNH ẢNH TỪ TẬP DỮ LIỆU HOCKEY

Mặc dù đã gặt hái được những thành công nhất định

trong nhi m v phân lo nh, tuy nhiên CNN l i không ệ ụ ại ả ạ

hiệu qu v i bài toán phân loả ớ ại hành vi. Nguyên nhân chính

do hành động là một chuỗi hình ảnh liên tiếp, nên nếu chỉ

s d ng m t hình ử ụ ộ ảnh đơn lẻ đưa ra đượ thì khó có thể c dự

đoán chính xác. Ví dụ với hình ảnh từ tập dữ liệu Hockey

ở Hình 1 chúng ta không th, ể phân biệt được đây là hành

vi b o l c hay là m t ho ng th thao thông ạ ự chỉ ộ ạt độ ể thường.

Khác v i CNN, m ng b dài ng n LSTM (Long ớ ạ ộ nhớ ắ

short term memory network) [5 c t o ra v ng ] đượ ạ ới ý tưở

bắt chước suy nghĩ của con người – m m mà ột nhược điể

mạng nơ ống chưa thể-ron truyền th làm được. Con người

không bắt đầu suy nghĩ của họ từ đầu t i t t c các thạ ấ ả ời

đi ộể ạm, ví dụ như để phân lo i một hình nh trong bả phim,

con ngườ ụng đế ảnh trưới sẽ sử d n những hình c nữa chứ

không sử d ng duy nh t hình ụ ấ ảnh hiện tại như CNN. LSTM

có d ng m t chu i các mô- p l i c a m -ạ ộ ỗ đun lặp đi lặ ạ ủ ạng nơ

ron để mô ph ng lỏ ại cách suy nghĩ của não người. Ở đó mỗi

mô- -đun bao gồ ạng nơm 4 tầng m ron khác nhau và tương

tác v i nhau m c bi t. v y, LSTM có th ghi ớ ột cách đặ ệ Nhờ ậ ể

nhớ thông tin trong th i gian dài, phù h hờ ợp để ọc t p vậ ới

chu i hình nh trong bài toán phân lo . ỗ ả ại hành động

HÌNH 2. HÌNH ẢNH TỪ TẬP DỮ LIỆU PTIT

Nhiều nghiên c u cho th y, hứ ấ ọc sâu có thể áp dụng khá

t t cho bài toán phát hi n hành vi b o l c [6, 7, 8, 9] Trong ố ệ ạ ự .

đó, phương pháp đem lại chính xác và hiệu quả nhất là

phương pháp sử d ng k t h p CNN và LSTM [9]. ụ ế ợ Đầu tiên,

các khung hình liên ti trích ếp được đưa vào một CNN để

xuất đặc trưng. Sau đó những đặc trưng này được đưa vào

Bidirectional LSTM [ ] phân lo i nh ng khung hình 10 để ạ ữ

liên ti o l c hay không. c thếp đó là bạ ự Phương pháp đượ ử

nghiệm trên t p d u Hockey, Peliculas và Collected ậ ữ liệ

Surveillance Camera d c nhóm tác gi thu (bộ ữ liệu đượ ả

thập) cho k t qu r t tế ả ấ ốt và có th s d phân loể ử ụng để ại

những video có chuyển động liên t c. Dù vụ ậy, phương pháp

đạt độ chính xác không cao khi phân loại những video có

cảnh bạo l c ự chỉ chiếm phần nh so v i khung hình. Ví d ỏ ớ ụ

ở hình ả ậ ảnh số 2 từ t p dữ liệu PTIT, c nh bạo lực trong

video chi m kho n di n tích trong chỉ ế ảng một phầ ệ nhỏ

khung hình, t toán s ng không t khi đó thuậ ẽ hoạt độ ốt.

Nguyên nhân vì khi s d ng toàn trích n là ử ụ ảnh để chọ

đặc trưng thì phần đặc trưng mô tả hành vi bạo lực không

thực s n i b t so v khác. c phự ổ ậ ới các đối tượng Để khắ ục

nhược điể , chúng tôi đềm này xuất phương pháp nhận diện

hành vi b o lạ ực đa tầng s d ng CNN-LSTM. Mô hình này ử ụ

cho phép chúng tôi t vào v trí x y ra hành vi ập trung hơn ị ả

bạo l c, t t qu ự ừ đó cho kế ả có độ chính xác cao hơn.

III. PHƯƠNG PHÁP ĐỀ XUẤT

Phương pháp phát hiệ ực chúng tôi đền hành vi bạo l

xuất đượ ận này được minh hoạ trong Hình 3. Cách tiếp c c

chia thành ba giai đoạ giai đoạn đần chính. Ở u, những

nhóm người có kh o lả năng bạ ực cao sẽ được phát hi n và ệ

khoanh vùng b ằng YOLO [11], k t h p thu t toán theo dõi ế ợ ậ

đối tượng Deep SORT [12]. Trong giai đoạn ti p theo, hình ế

ảnh nhóm người có nguy cơ bạo lực cao từ các khung hình

s ẽ được đưa vào CNN để trích xuất đặc trưng. Và giai đoạn

cuối cùng, những đặc trưng này sẽ được đưa vào LSTM để

phân lo i và quy i có hành vi bạ ết định xem nhóm ngườ ạo

l c th c s hay ch ng. ự ự ự ỉ là hành động bình thườ

A. PHÁT HIỆN NHÓM NGƯỜI NGUY CƠ BẠO LỰC

CAO

Bước đầu tiên, chúng tôi khoanh vùng những nhóm đối

tượng có nguy cơ bạ ực cao. Chúng tôi đưa ra mộo l t luật

đơn giản để chọn những nhóm này đó là nhóm những người

đứng cạnh nhau.

Chúng tôi s d ng YOLOv4 [13] là m t trong nh ng ử ụ – ộ ữ

phương pháp phát hiện đối tượng được sử d ng r ng rãi và ụ ộ

t t nh t hi c ki m ch ng trên t p d u MS ố ấ ện nay đã đượ ể ứ ậ ữ liệ

COCO.

SỐ 04 (CS.01) 2021

TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 110

Nguy n M ng, Nguy n Vi ễ ạnh Dũng, Vũ Hoài Nam, Phạ ức Cườm Đ ễ ệt Hưng

Các đối tượng sau khi được phát hiện bởi thuật toán

YOLO s c theo dõi và liên k t qua m t chu i các ẽ đượ ế ộ ỗ

khung hình bởi thu t toán Deep SORT [ ], t ậ 12 ừ đó có thể

tìm ra được nhóm các đối tượ ần nhau. Đây chính là ng g

nhóm đối tượng có nguy cơ xảy ra hành vi b o l c. K t qu ạ ự ế ả

quá trình được minh hoạ ở Hình 4.

B. CNN-LSTM

Không ph i t t c ng c nh nhau ả ấ ả các nhóm đối tượng đứ ạ

đều có th x y ra hành vi b o lể ả ạ ực, để đi đế ết đị n quy nh cuối

cùng chúng ta c n ti n hành thêm m c x lý nhầ ế ột bướ ử ằm

phân bi o l c th ng nhóm ệt đâu là hành vi bạ ự ật đâu là nhữ

không có hành vi b o l ạ ực.

Hành vi b o l c là m t chu ng, vì v chúng ta ạ ự ộ ỗi hành độ ậy

cần quan sát chu i các khung hình liên tiỗ ếp có thđể ể đưa

ra i cùngđược dự đoán cuố .

HÌNH 3. KIẾN TRÚC TỔNG QUAN MÔ HÌNH PHÁT HIỆN BẠO LỰC ĐA TẦNG KẾT HỢP CNN-LSTM

H NH Ì 4. VÍ DỤ PHÁT HIỆN NHÓM ĐỐI TƯỢNG NGUY CƠ BẠO LỰC CAO

SỐ 04 (CS.01) 2021

TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 111

MÔ HÌNH PHÁT HI N HÀNH VI B O L NG S D NG M Ệ Ạ ỰC ĐA TẦ Ử Ụ ẠNG NƠRON TÍCH CHẬP …..

Như đã đề cập trước đó, mô hình thích hợp nhất để phân

lo liại dữ ệu d ng chu i các khung hình liên ti là kiạ ỗ ếp đó ến

trúc k t h p CNN-LSTM. ế ợ

Kiến trúc CNN-LSTM s d trích xuử ụng CNN để ất đặc

trưng 2D của ảnh đầu vào, sau đó kế ợp cùng LSTM đểt h

phân tích liên k t v t th i gian c a d c khi ế ề mặ ờ ủ ữ liệu trướ

đưa đoán ra dự cuối cùng.

Để ử lựa chọn mô hình CNN, chúng tôi tiến hành th

nghi ngệm một số mô hình đang được ứ d u hiụng nhiề ện

nay trên t p d u ImageNet. K t qu B ng 1 cho thậ ữ liệ ế ả ở ả ấy

Resnet18 [ ], s cân b ng t t nh t gi chính 14 đem lại ự ằ ố ấ ữa độ

xác và độ đã đượ phức tạp của mô hình, vì vậy Resnet18 c

l a n s d ng cho vi c trích xuự chọ ử ụ ệ ất đặc trưng 2D của ảnh.

Chúng tôi thay đổ ối cùng để thu được vector đặi layer cu c

trưng 256 chiều thay vì 1000 như ở phiên bản gốc.

Vector đặc trung 256 chi u này s c s d ng làm d ề ẽ đượ ử ụ ữ

liệu đầu vào của mạng LSTM phân loại hành vi bạo lực.

Các đặc trưng của những vùng nguy bạo lực cao từ các

khung hình liên ti trích xuếp được đưa vào LSTM để ất

những đặc trưng về ời gian trước khi đưa không gian và th

vào b phân lo nh cu i cùng. ộ ại Softmax đưa ra quyết đị ố

Chúng tôi cũng sử dụng Bidirectional LSTM thay cho

LSTM thông thường để tăng tính liên kế ữa các đầt gi u vào.

Kiến trúc c a m t Bi- c minh ho Hình 5. Bi-ủ ộ LSTM đượ ạ ở

LSTM không ch thông tin t quá khỉ lưu trữ ừ ứ mà còn lưu

trữ c n t ả thông tin đế ừ tương lai,

BẢNG 1. K ẾT QUẢ THỬ NGHIỆM MỘT SỐ

MÔ HÌNH TRÊN TẬP DỮ LIỆU IMAGENET

Model

Parameters

Accuracy(%)

MobileNet

4.2 M

70.6

Resnet18

11.4 M

8 0.7

Resnet34

21.5 M

8 2.4

Resnet50

23.9 M

8 5.8

InceptionNet

23.2 M

83.2

VGG16

138.4 M

8 0.5

VGG19

143.7 M

8 4.2

kiến trúc như vậ đưa ra dự đoán hơn khi y giúp mô hình dễ

mà chu i hành vi b o l c Bi-LSTM ti p nh n thông ỗ ạ ực đượ ế ậ

tin t c hai chi u th i gian. ừ ả ề ờ

Chúng tôi cũng chọn kiến trúc LSTM hai tầng bởi vì

qua th c nghi m, so v i m t t ng LSTM thì ki n trúc ự ệ ớ ộ ầ ế

LSTM hai t ng cho k t qu t u s d ng ầ ế ả ốt hơn, trong khi nế ử ụ

nhiều hơn hai tầng LSTM thì độ chính xác tăng không đáng

kể nhưng thờ ại tăng lên ni gian xử lý l hi u.ề

IV. KẾT QUẢ THỰC NGHIỆM

A. TẬP DỮ LIỆU

Để u quđánh giá độ chính xác cũng như hiệ ả hoạt động

của thuật toán, chúng tôi ti n hành các th c nghi m trên ba ế ự ệ

t p d ậ ữ liệu Hockey Fight, Peliculas và PTIT được thống kê

trên B ng 2. ả

BẢNG 2. T HỐNG KÊ CÁC TẬP DỮ LIỆU

Tập dữ liệu

# violence

# non-violence

Hockey Fight

500

Peliculas

100

PTIT

120

1) T p d u Hockey Fight : T p d u ch a c nh bậ ữ liệ ậ ữ liệ ứ ả ạo

l c và không t t ng ự ừ trò chơi khúc côn cầu trên băng. Có ổ

cộng 1000 video, trong đó 500 mẫu là bạo lực và 500 mẫu

là không b o l c. T t c ạ ự ấ ả video có độ dài 2 giây, kích thướ c

khung hình giữa các video là gi ng nhau và c nh b o lố ả ạ ực

chi m ph n l n khung hình. Các video có chung n n và có ế ầ ớ ề

chuy ng n ển độ ền.

HÌNH 6. MỘT SỐ VÍ DỤ MINH HỌA TRONG TẬP DỮ LIỆU ĐÁNH

GIÁ

2) T p d u Peliculas : T p d u bao g m các phân ậ ữ liệ ậ ữ liệ ồ

cảnh b o l c và không tạ ự ừ những b phim Hollywood, trò ộ

chơi

bóng đá và các sự kiện khác. Có tổng cộng 200 video tất

cả. 100 trong đó là video bạo lực và 100 còn lại là video

không bạo l c khung ực. Độ dài video là 2 giây, kích thướ

hình gi a các video không gi ng nhau toàn b và c nh bữ ố ộ ả ạo

l c chi m ph n lự ế ầ ớn khung hình. Môi trường và con người

trong video cũng khác nhau. Những video này cũng có

chuy ng n ển độ ền.

3) T p d p d u do chúng tôi thu ậ ữ liệu PTIT: Đây là tậ ữ liệ

thập để phục vụ cho nghiện cứu tại Học viện Công nghệ

Bưu chính Viễn thông. T p d ậ ữ liệu có t ng c ng 210 video, ổ ộ

trong đó 110 video là bạo lực và 90 video là không b o l c. ạ ự

Những video này có chung kích thước khung hình nhưng

độ ả dài khác nhau, được quay với các bối c nh khác nhau

và kho ng cách t i camera khác nhau t g n xa. Hình ả ớ ừ ần đế

s 6 minh h a m t s hình nh mô t hành vi b o lố ọ ộ ố ả ả ạ ực được

trích xu t t các t p d ấ ừ ậ ữ liệu.

HÌNH 5. KIẾN TRÚC CỦA MỘT BI-LSTM

SỐ 04 (CS.01) 2021

TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 112

Nguy n M ng, Nguy n Vi ễ ạnh Dũng, Vũ Hoài Nam, Phạ ức Cườm Đ ễ ệt Hưng

B. KẾT QUẢ

Chúng tôi ti n hành th nghi m bế ử ệ ằng ngôn ngữ Python

và thư việ ấu hình máy tính như n học sâu PyTorch với c

• OS : Windows 10

• CPU : I9-10900K

• RAM : 32GB

• GPU: GEFORCE RTX 2070 SUPER

Thực nghi c ti n hành trên c 3 t p dệm đượ ế ả ậ ữ liệu

Hockey Fight, Peliculas và PTIT v i hai mô hình CNN là ớ

Resnet18 và VGG16 [ ], hai mô hình LSTM là LSTM 15

truy n th ng và Bi- xem xét s ng cề ố LSTM. Để ự ảnh hưở ủa

s ng timesteps (s ng khung hình LSTM s d ng ố lượ ố lượ ử ụ

để dự đoán) đến độ chính xác, chúng tôi th ử nghiệm v i 10 ớ

và 15 timesteps. T p d c chia ra 80% cho huậ ữ liệu đượ ấn

luy n và 20% cho ki m tra. K t qu c nghi c tính ệ ể ế ả thự ệm đượ

toán b ng 3. Th i gian chằng độ chính xác như trong Bả ờ ạy

của Resnet18 v i 10 timesteps và 15 timesteps l t là ớ ần lượ

80ms và 95ms, hoàn toàn phù h p v i nh ng ng d ng ợ ớ ữ ứ ụ

trong th i gian th ờ ực.

Kết quả thực nghi m cho thệ ấy phương pháp chúng tôi

phát tri n (Fight Region Candidate + Resnet18 + 2 Bi-ể

LSTM) cho k t qu t t nhế ả ố ất. Phương pháp này đạt độ chính

xác cao hơn so với các thu t toán ch s d ng CNN-LSTM ậ ỉ ử ụ

đơn thuần mà không có bướ lý để xác địc tiền xử nh vùng

khả nghi. Trong khi n u thay Resnet18 bế ằng VGG16 thì độ

chính xác g c tần như không thay đổi trong khi độ phứ ạp

của m t nhiạng CNN tăng lên rấ ều.

Thực nghi y m ng LSTM 15 timesteps ệm cũng cho thấ ạ

Bi-LSTM, cho k t qu t i 10 timesteps mà vế ả ốt hơn so vớ ẫn

đả ầ ựm bảo yêu c u thời gian th c.

V. VÀ HƯỚNG NGHIÊN CỨU TƯƠNG LAI THẢO

LUẬN

Tự động phát hi n hành vi b o l c là r t quan tr ệ ạ ự ấ ọng để

kịp th i can thi n và c nh báo. T ờ ệp, ngăn chặ ả ừ đó có thể

giảm thi c thi t h i c v s c khểu đượ ệ ạ ả ề ứ ỏe, v t ch t, l n tinh ậ ấ ẫ

th i.ần cho con ngườ

Bài báo đã đưa ra phương pháp phát hiện hành vi bạo

l c có hi u qu cao, b ng vi c k t h p ti n x lý phát hiự ệ ả ằ ệ ế ợ ề ử ện

Numbe

r of

time

step

Hockey Fight

Peliculas

PTIT

Preci

sion

Recal

Score

Precis

ion

Recal

Score

Precis

ion

Recal

Score

Resnet18 + 2

LSTM

0.94

0.95

0.94

0.86

0.89

0.87

0.82

0.84

0.83

0.96

0.88

0.92

0.9

0.83

0.87

0.85

Resnet18 + 2

Bi-LSTM

0.96

0.97

0.96

0.89

0.91

0.9

0.84

0.86

0.85

0.97

0.98

0.97

0.9

0.95

0.92

0.87

0.88

0.87

Fight Region

Candidate +

Resnet18 + 2

LSTM

0.95

0.96

0.95

0.9

0.92

0.97

0.93

0.97

0.95

0.93

0.95

0.94

Fight Region

Candidate +

Resnet18 + 2

Bi-LSTM

0.92

0.93

0.92

0.96

0.99

0.97

0.99

0.98

VGG16 + 2

LSTM

0.94

0.84

0.86

0.85

0.81

0.82

0.81

0.96

0.85

0.89

0.87

0.85

0.86

0.85

VGG16 + 2

Bi-LSTM

0.96

0.97

0.96

0.88

0.92

0.9

0.83

0.84

0.83

0.97

0.92

0.93

0.92

0.87

0.88

0.87

Fight Region

Candidate +

VGG16 + 2

LSTM

0.95

0.96

0.95

0.88

0.92

0.9

0.89

0.9

0.97

0.98

0.97

0.94

0.96

0.95

0.92

0.96

0.94

Fight Region

Candidate +

VGG16 + 2

Bi-LSTM

0.92

0.93

0.92

0.96

0.99

0.97

0.95

0.97

0.96

Bảng 3. Kết quả thực nghi mệ

SỐ 04 (CS.01) 2021

TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 113

MÔ HÌNH PHÁT HI N HÀNH VI B O L NG S D NG M Ệ Ạ ỰC ĐA TẦ Ử Ụ ẠNG NƠRON TÍCH CHẬP …..

vùng kh nghi và s d ng mô hình k t h p CNN- ả ử ụ ế ợ LSTM để

phân tích hành vi b o l c trong c không gian và th i gian. ạ ự ả ờ

Các k c nghiết quả thự ệm cũng cho thấy phương pháp

của chúng tôi đủ nhanh, độ chính xác cao và hoàn toàn phù

hợp cho nh ng hữ ệ thống yêu c u x lý th i gian th c. ầ ử ờ ự

Tuy nhiên phương pháp vẫ ều điển còn nhi m hạn chế,

như tập d u vữ liệ ẫn chưa đủ lớn để có th ể bao quát được tất

cả các trườ ế. Chưa đượng hợp có thể xảy ra trên thực t c

kiểm th trong nhi u bử ề ối c ng khác nhau. ảnh môi trườ

Công việc d n trong th i gian t i c a nhóm d án ự kiế ờ ớ ủ ự

là ti p t c xây d ng b d m nâng cao ế ụ ự ộ ữ liệu đầy đủ hơn nhằ

độ chính xác của thuật toán.

Ngoài ra chúng tôi cũng dự định xây d ng mự ột mô hình

dạng end-to-end v a có kh nh vùng kh nghi ừ ả năng xác đị ả

đồng thời phân loại hành vi bạo lực mà không cần thêm

bước tiền xử lý.

TÀI THAM LIỆU KHẢO

[1] I. S. Gracia, O. D. Suarez, G. B. Garcia, and T.-K.

Kim, “Fast fight detection,” PLoS ONE, vol. 10, no.

4, Apr. 2015, Art. no. e0120448.

[2] P. C. Ribeiro, R. Audigier, and Q. C. Pham, “RIMOC,

a feature to discriminate unstructured motions:

Application to violence detection for video-

surveillance,” Comput. Vis. Image Understand., vol.

144, pp. 121–143, Mar. 2016.

[3] E. Y. Fu, H. Va Leong, G. Ngai, and S. Chan,

“Automatic fight detection in surveillance videos,” in

Proc. 14th Int. Conf. Adv. Mobile Comput. Multi

Media, Nov. 2016, pp. 225 234. –

[4] [S. Albawi, T. A. Mohammed and S. Al-Zawi,

"Understanding of a convolutional neural network," in

2017 International Confe-rence on Engineering and

Technology (ICET), 2017, pp. 1-6, doi:

10.1109/ICEng-Technol.2017.8308186.

[5] Ralf C. Staudemeyer and Eric Rothstein Morris,

“Understanding LSTM - a tutorial into Long Short-

Term Memory Recurrent Neural Networks”. arXiv,

2019.

[6] C. Ding, S. Fan, M. Zhu, W. Feng, and B. Jia,

‘‘Violence detection in video by using 3D

convolutional neural networks,’’ in Proc. Int. Symp.

Visual Comput., 2014, pp. 551 558. –

[7] S. Sudhakaran and O. Lanz, ‘‘Learning to detect

violent videos using convolutional long short-term

memory,’’ in Proc. 14th IEEE Int. Conf. Adv. Video

Signal Based Surveill. (AVSS), Aug./Sep. 2017, pp.

1–6.

[8] F. U. M. Ullah, A. Ullah, K. Muhammad, I. U. Haq,

and S. W. Baik, ‘‘Violence detection using

spatiotemporal features with 3D convolutional neural

network,’’ Sensors, vol. 19, no. 11, p. 2472, May

2019.

[9] Seymanur Akti, Gozde Ayse Tataroglu and Hazim

Kemal Ekenel, “Vision-based Fight Detection from

Surveillance Cameras”. IEEE, 2019.

[10] M. Schuster and K. K. Paliwal, "Bidirectional

recurrent neural networks," in IEEE Transactions on

Signal Processing, vol. 45, no. 11, pp. 2673-2681,

Nov. 1997, doi: 10.1109/78.650093.

[11] Joseph Redmon, Santosh Divvala, Ross Girshick and

Ali Farhadi, “You Only Look Once: Unified, Real-

Time Object Detection”. arXiv, 2016.

[12] Nicolai Wojke, Alex Bewley and Dietrich Paulus,

“Simple Online and Realtime Tracking with a Deep

Association Metric”. arXiv, 2017.

[13] Alexey Bochkovskiy, Chien-Yao Wang and Hong-

Yuan Mark Liao, “YOLOv4: Optimal Speed and

Accuracy of Object Detection”. arXiv, 2020.

[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren and Jian

Sun, “Deep Residual Learning for Image

Recognition”. arXiv, 2015.

[15] Karen Simonyan and Andrew Zisser-man, “Very

Deep Convolutional Networks for Large-Scale Image

Recognition”. arXiv, 2015.

MULTISTAGE REAL-TIME VIOLENCE

DETECTION USING CONVOLUTIONAL NEURAL

NETWORK AND LONG SHORT-TERM MEMORY

Abstract: Action detection is a challenging Computer

Vision research topics. It has many practical applications

in our lives and violence detection is one of the case that

helps quickly prevent and reduce the human injury in a

public places equipped with surveillance cameras such as

on the streets, at the hospitals, schools or parks. In this

study, we propose a detection method which taking the

advantages of the convolutional neural network (CNN) and

the long short-term memory network (LSTM). At the first

stage, the high-risk group of violence is detected by using

YOLO (You Only Look Once). CNN is then used to extract

the features in stage 2, which will be directly used as input

for LSTM at the last stage to predict the final class. The

datasets we used in our experiments are Hockey Fight,

Peliculas and a self-collected one, PTIT dataset.

Experiment results of the proposed method has been

compared to some prior works, showing that it is not only

effective in detecting the violence but also reduces the

number of false positive cases. Our method achieved high

performance in detection and has high potential for real-

time applications.

Keywords: Violence Detection; Convolutional Neural

Network; Long Short-term Memory; YOLO; Hockey

Fight; Peliculas.

Nguy n Mễ ạnh Dũng, t i hốt đạ ọc

chuyên ngành điên tử viễn thông,

Đại học Back Khoa Hà Nội năm

2005. Tốt nghi p Th c s chuyên ệ ạ ỹ

ngành công nghệ thông tin, Đại

học Quốc gia Kongju năm 2009.

Và T t nghi p ti n s chuyên ố ệ ế ỹ

ngành công nghệ thông tin Đại học

Quốc gia Kongju năm 2019. Hiện

nay đang công tác và giảng dạy tại

khoa k thu n t 1, H c Vi n Công Nghỹ ật điệ ử ọ ệ ệ Bưu Chính

Viễn Thông. Lĩnh vực yêu thích bao gồm xử lý ảnh, thị

giác máy tính, thu t toán và trí tu nhân tậ ệ ạo.

SỐ 04 (CS.01) 2021

TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 114

Nguy n M ng, Nguy n Vi ễ ạnh Dũng, Vũ Hoài Nam, Phạ ức Cườm Đ ễ ệt Hưng

Vũ Hoài Nam, t t nghi p i hố ệ đạ ọc

chuyên ngành điện tử viễn thông,

Đại học Bách Khoa Hà Nội năm

2013. T ốt nghi p Th c s chuyên ệ ạ ỹ

ngành K i hỹ Sư Máy Tính, Đạ ọc

Quốc gia Wangju năm 2015. Hiện

nay đang là nghiên cứu sinh chuyên

ngành Khoa H c Máy Tính, Họ ọc

Viện Công Nghệ Bưu Chính Viễn

Thông. Lĩnh vực yêu thích bao gồm xử lý ảnh, thị giác

máy tính, thu t toán và trí tu nhân t ậ ệ ạo.

Phạm Đức Cường, t t nghi i hố ệp đạ ọc

chuyên ngành H ng Thông Tin, ệ Thố

Học Vi n Công Nghệ ệ Bưu Chính Viễn

Thông, Hà N i. Hiộ ện nay đang công tác

t i IVS, v i v trí k nghiên c u và ạ ớ ị ỹ sư ứ

phát triển các thu t toán x ậ ử lý, nhận d ng ạ

hình ảnh. Lĩnh vực yêu thích bao g m x ồ ử

lý nh, th giác máy tính, h c máy và trí ả ị ọ

tuệ nhân t ạo.

Nguy n Viễ ệt Hưng. T t nghi p thố ệ ạc

sĩ năm 2009 tại ĐH Bách Khoa

Grenoblem và b o v n án Ti n s ả ệ luậ ế ỹ

năm 2013 tại đại học Rennes 1, CH

Pháp. Hi n công tác t i H c vi n Công ệ ạ ọ ệ

nghệ Bưu chính Viễn thông. Lĩnh vực

nghiên c u: H ng thông tin th h ứ ệ thố ế ệ

mới, trí tu nhân t o, h c máy. ệ ạ ọ

SỐ 04 (CS.01) 2021

TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 115

Bấm Tải xuống để xem toàn bộ.

Preview text:

Nguyễn Mạnh Dũng, Vũ Hoài Nam, Phạm ứ
Đ c Cường, Nguyễn Việt Hưng
MÔ HÌNH PHÁT HI N HÀNH VI B Ệ ẠO L C Ự
ĐA TẦNG SỬ DỤ Ạ NG M NG NƠRON TÍCH
CHẬP VÀ MẠNG B Ộ NHỚ N DÀI- GẮN H N Ạ
Nguyễn Mạnh Dũng, Vũ Hoài Nam, Phạm Đức Cường, Nguyễn Việt Hưng
Học Viện Công Nghệ Bưu Chính Viễn Thông
Tóm Tắt: Nhận diện hành vi là chủ đề nghiên cứu đầy
lực. Các hệ thống hiện tại đa phần chỉ có chức năng thu
thách thức của lĩnh vực thị giác máy tính với rất nhiều các
nhận và lưu trữ hình ảnh còn công việc giám sát chủ yếu
ứng dụng hữu ích trong thực tế trong đó bao gồm phát hiện
vẫn dựa vào sức người, do đó hiệu quả giám sát vẫn còn rất
hành vi bạo lực. Phát hiện sớm hành vi bạo lực giúp chúng
thấp với chi phí vận hành cao.
ta kịp thời có những hành động, có thể ngăn chặn hay chí
ít cũng có thể giảm thiểu thiệt hại do tình trạng bạo lực gây
Tích hợp trí tuệ nhân tạo AI vào hệ thống camera, giúp
ra. Trong bài báo này, chúng tôi trình bày phương pháp
nâng cao hiệu quả điều hành giám sát là một trong những
phát hiện hành vi bạo lực đa tầng, ở giai đoạn đầu, những
xu hướng nghiên cứu mới nhất hiện nay.
nhóm đối tượng có nguy cơ xảy ra bạo lực cao được phát
Phương pháp học máy (Machine Learning) là các
hiện bằng phương pháp sử dụng YOLO và thuật toán theo
phương pháp tự động xây dựng một mô hình toán học bằng
dõi đối tượng Deep SORT. Tiếp theo các đặc trưng 2D của
cách sử dụng dữ liệu mẫu, còn được gọi là dữ liệu đào tạo,
nhóm đối tượng được trích xuất bằng mạng nơ-ron tích có khả năng tự học hỏi dựa trên dữ liệu đưa vào mà không
chập (CNN) ở giai đoạn thứ hai. Cuối cùng những đặc
cần phải được lập trình cụ thể. Học máy đã được phát triển
trưng này được sử dụng làm đầu vào cho mạng bộ nhớ dài
từ những năm 1940, tuy nhiên kết quả thực sự không được
ngắn (LSTM) ở giai đoạn cuối để xác định xem nhóm đối
ấn tượng. Nguyên nhân chủ yếu là khó khăn trong việc thu
tượng có hành vi bạo lực hay chỉ là nhóm đối tượng có hành
thập dữ liệu và hạn chế của tài nguyên máy tính. Cho đến
vi bình thường. Các kết quả thực nghiệm cho thấy, so với
cuối thập niên, khi mà phần cứng máy tính đã trở nên mạnh
các nghiên cứu trước đó, phương pháp được đề xuất không
hơn cùng với sự phát triển của internet đã giúp cho quá
chỉ hiệu quả để phát hiện hành vi bạo lực mà còn giảm số
trình thu thập dữ liệu trở nên dễ dàng và thúc đẩy sự phát
lượng phát hiện sai, hiệu suất tốt phù hợp để ứng dụng triển của học máy. trong thực tế.
Gần đây, một nhánh của học máy là học sâu (Deep
Từ khóa: Mạng nơ ron tích chập, phát hiện hành vi bạo
Learning) đã nổi lên thành một phương pháp học máy tốt
lực, YOLO, mạng bộ nhớ dài-ngắn hạn.
nhất. Học sâu bao gồm tập các kỹ thuật học máy mạnh sử
dụng mạng nơ-ron nhiều lớp, nhờ đó đã đạt được nhiều kết I. MỞ ĐẦU
quả tốt trong những bài toán thị giác máy tính. Thay đổi
Bạo lực luôn là một vấn đề được quan tâm hàng đầu quan trọng này cũng giúp giải quyết những bài toán khó
trong xã hội nào không chỉ riêng Việt Nam mà trên toàn
còn tồn tại như phát hiện hành vi bạo lực.
thế giới. Hành vi bạo lực gây ra rất nhiều hệ lụy cho xã hội,
gây tổn hại cả về sức khỏe, tinh thần, tài sản và đôi khi là Qua bài báo này, chúng tôi đề xuất một phương pháp
cả tính mạng của con người. Đã có nhiều biện pháp được ứng dụng học sâu phát hiện hành vi bạo lực đa tầng sử dụng
đưa ra nhưng tình trạng bạo lực vẫn thường xuyên xảy ra, YOLO và CNN-LSTM. Phần còn lại của bài báo được bố
không có dấu hiệu thuyên giảm.
cục như sau. Phần II giới thiệu các nghiên cứu liên quan.
Phần III mô tả phương pháp được đề xuất. Phần IV báo cáo
Nếu có một cơ chế giám sát hiệu quả, kịp thời phát hiện kết quả thực nghiệm. Hướng nghiên cứu trong tương lai và
và cảnh báo hành vi bạo lực, chúng ta hoàn toàn có thể ngătn
h ảo luận được trình bày trong Phần V.
chặn hay chí ít là giảm thiểu tối đa những thiệt hại do bạo lực gây ra.
II. NGHIÊN CỨU LIÊN QUAN
Trong những năm gần đây hệ thống camera giám sát
Trong tài liệu, nhiều phương pháp đã được đề xuất cho
theo dõi CCTV phát triển rất nhanh và được cài đặt ở khắp bài toán phát hiện hành vi bạo lực [1, 2, 3]. Các phương
mọi nơi, từ bệnh viện, trường học, đường phố cho đến pháp này tập trung vào sử dụng học máy và phân tích hình
những nơi công cộng khác. Một trong những chức năng ảnh.
quan trọng, đang thu hút được sự quan tâm của giới nghiên Phương pháp sử dụng học máy đạt kết quả tốt có thể kể
cứu là khả năng tăng cường giám sát, theo dõi hành vi bạo đến Fast fight detection [1]. Phương pháp cho rằng, trong
một đoạn video bạo lực, vùng điểm ảnh chuyển động có
hình dạng và vị trí đặc biệt. Đầu tiên, sự khác biệt giữa
những khung hình liên tiếp được tính toán và lấy giá trị
Tác giả liên hệ: Nguyễn Mạnh Dũng,
tuyệt đối. Tiếp theo, ảnh kết quả được nhị phân hoá, tạo ra Email: dungnm@ptit.edu.vn
những vùng chuyển động. K vùng chuyển động lớn nhất
Đến tòa soạn: 10/2021, chỉnh sửa: 11/2021, chấp nhận đăng:
được lựa chọn để xử lý tiếp. Cuối cùng, để phân loại K 12/2021.
vùng chuyển động này, các thông số: tâm, chu vi, diện tích SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 109
MÔ HÌNH PHÁT HIỆN HÀNH VI BẠO LỰC ĐA TẦNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP …..
và khoảng cách giữa chúng được tính toán. Kết quả thử
nghiệm trên các tập dữ liệu Movie, Hockey Fight và UCF-
101 cho thấy phương pháp có hiệu quả tốt và có thể ứng
dụng trong thế giới thực. Tuy nhiên, phương pháp này
không hiệu quả khi phân loại những video có chuyển động liên tục.
Học sâu là một tập hợp con của học máy, tập trung chủ
yếu vào sử dụng mạng nơ-ron nhiều lớp. Học sâu đã đạt
được độ chính xác và hiệu quả cao trong rất nhiều bài toán
thị giác máy tính so với học máy truyền thống, trong đó
phải kể đến phân loại hình ảnh.
Mạng nơ-ron tích chập CNN (Convolutional Neural
HÌNH 2. HÌNH ẢNH TỪ TẬP DỮ LIỆU PTIT
Network) [4] là một trong những kiến trúc được sử dụng
Nhiều nghiên cứu cho thấy, học sâu có thể áp dụng khá
rộng rãi nhất được dùng để phân loại ảnh. CNN ra đời dựa tốt cho bài toán phát hiện hành vi bạo lực [6, 7, 8, 9]. Trong
vào việc mô phỏng một phần cách thức hoạt động của não
đ ó, phương pháp đem lại chính xác và hiệu quả nhất là
bộ con người - sử dụng những đặc trưng từ không gian để phương pháp sử dụng kết hợp CNN và LSTM [9]. Đầu tiên,
phân loại một bức ảnh. CNN sử dụng rất nhiều bộ lọc có các khung hình liên tiếp được đưa vào một CNN để trích
khả năng học hỏi để tự động trích xuất đặc trưng từ hình xuất đặc trưng. Sau đó những đặc trưng này được đưa vào
ảnh, vì vậy CNN có thể “nhìn được” những đặc trưng quan Bidirectional LSTM [10] để phân loại những khung hình
trọng mà trích xuất đặc trưng thủ công khó có thể phát hiện. liên tiếp đó là bạo lực hay không. Phương pháp được thử
Trong quá trình huấn luyện những đặc trưng quan trọng sẽ nghiệm trên tập dữ liệu Hockey, Peliculas và Col ected
được giữ lại trong khi những đặc trưng không tốt sẽ được Surveil ance Camera (bộ dữ liệu được nhóm tác giả thu
loại bỏ khỏi hệ thống.
thập) cho kết quả rất tốt và có thể sử dụng để phân loại
những video có chuyển động liên tục. Dù vậy, phương pháp
đạt độ chính xác không cao khi phân loại những video có
cảnh bạo lực chỉ chiếm phần nhỏ so với khung hình. Ví dụ
ở hình ảnh số 2 từ tập dữ liệu PTIT, cảnh bạo lực trong
video chỉ chiếm khoảng một phần diện tích nhỏ trong
khung hình, khi đó thuật toán sẽ hoạt động không tốt . Nguyên nhân l
à vì khi sử dụng toàn ảnh để trích chọn
đặc trưng thì phần đặc trưng mô tả hành vi bạo lực không
thực sự nổi bật so với các đối tượng khác. Để khắc phục
nhược điểm này, chúng tôi đề xuất phương pháp nhận diện
hành vi bạo lực đa tầng sử dụng CNN-LSTM. Mô hình này
cho phép chúng tôi tập trung hơn vào vị trí xảy ra hành vi
bạo lực, từ đó cho kết quả có độ chính xác cao hơn.
III. PHƯƠNG PHÁP ĐỀ XUẤT
Phương pháp phát hiện hành vi bạo lực chúng tôi đề
HINH 1. HÌNH ẢNH TỪ TẬP DỮ LIỆU HOCKEY
xuất được minh hoạ trong Hình 3. Cách tiếp cận này được
chia thành ba giai đoạn chính. Ở giai đoạn đầu, những
Mặc dù đã gặt hái được những thành công nhất định nhóm người có khả năng bạo lực cao sẽ được phát hiện và
trong nhiệm vụ phân loại ảnh, tuy nhiên CNN lại không khoanh vùng b ằng YOLO [11], kết hợp thuật toán theo dõi
hiệu quả với bài toán phân loại hành vi. Nguyên nhân chính
đối tượng Deep SORT [12]. Trong giai đoạn tiếp theo, hình
do hành động là một chuỗi hình ảnh liên tiếp, nên nếu chỉ ảnh nhóm người có nguy cơ bạo lực cao từ các khung hình
sử dụng một hình ảnh đơn lẻ thì khó có thể đưa ra được dự sẽ được đưa vào CNN để trích xuất đặc trưng. Và giai đoạn
đoán chính xác. Ví dụ với hình ảnh từ tập dữ liệu Hockey cuối cùng, những đặc trưng này sẽ được đưa vào LSTM để
ở Hình 1, chúng ta không thể phân biệt được đây là hành phân loại và quyết định xem nhóm người có hành vi bạo
vi bạo lực hay chỉ là một hoạt động thể thao thông thường. lực thực sự hay chỉ là hành động bình thường.
Khác với CNN, mạng bộ nhớ dài ngắn LSTM (Long A. PHÁT HIỆN NHÓM NGƯỜI NGUY CƠ BẠO LỰC
short term memory network) [5] được tạo ra với ý tưởng CAO
bắt chước suy nghĩ của con người – một nhược điểm mà
mạng nơ-ron truyền thống chưa thể làm được. Con người
Bước đầu tiên, chúng tôi khoanh vùng những nhóm đối
không bắt đầu suy nghĩ của họ từ đầu tại tất cả các thời tượng có nguy cơ bạo lực cao. Chúng tôi đưa ra một luật
điểm, ví dụ như để phân loại một hình ảnh trong bộ phim, đơn giản để chọn những nhóm này đó là nhóm những người
con người sẽ sử dụng đến những hình ảnh trước nữa chứ đứng cạnh nhau.
không sử dụng duy nhất hình ảnh hiện tại như CNN. LSTM
Chúng tôi sử dụng YOLOv4 [13] – là một trong những
có dạng một chuỗi các mô-đun lặp đi lặp lại của mạng nơ- phương pháp phát hiện đối tượng được sử dụng rộng rãi và
ron để mô phỏng lại cách suy nghĩ của não người. Ở đó mỗi tốt nhất hiện nay đã được kiểm chứng trên tập dữ liệu MS
mô-đun bao gồm 4 tầng mạng nơ-ron khác nhau và tương COCO.
tác với nhau một cách đặc biệt. Nhờ vậy, LSTM có thể ghi
nhớ thông tin trong thời gian dài, phù hợp để học tập với
chuỗi hình ảnh trong bài toán phân loại hành động. SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 110
Nguyễn Mạnh Dũng, Vũ Hoài Nam, Phạm ứ
Đ c Cường, Nguyễn Việt Hưng
HÌNH 3. KIẾN TRÚC TỔNG QUAN MÔ HÌNH PHÁT HIỆN BẠO LỰC ĐA TẦNG KẾT HỢP CNN-LSTM
Các đối tượng sau khi được phát hiện bởi thuật toán cùng chúng ta cần tiến hành thêm một bước xử lý nhằm
YOLO sẽ được theo dõi và liên kết qua một chuỗi các phân biệt đâu là hành vi bạo lực thật đâu là những nhóm
khung hình bởi thuật toán Deep SORT [12], từ đó có thể không có hành vi bạo lực.
tìm ra được nhóm các đối tượng gần nhau. Đây chính là Hành vi bạo lực là một chuỗi hành động, vì vậy chúng ta
nhóm đối tượng có nguy cơ xảy ra hành vi bạo lực. Kết quả
quá trình được minh hoạ ở Hình 4.
cần quan sát chuỗi các khung hình liên tiếp để có thể đưa
ra được dự đoán cuối cùng. B. CNN-LSTM
Không phải tất cả các nhóm đối tượng đứng cạnh nhau
đều có thể xảy ra hành vi bạo lực, để đi đến quyết định cuối c a b
HÌNH 4. VÍ DỤ PHÁT HIỆN NHÓM ĐỐI TƯỢNG NGUY CƠ BẠO LỰC CAO SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 111
MÔ HÌNH PHÁT HIỆN HÀNH VI BẠO LỰC ĐA TẦNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP …..
Như đã đề cập trước đó, mô hình thích hợp nhất để phân nhiều hơn hai tầng LSTM thì độ chính xác tăng không đáng
loại dữ liệu dạng chuỗi các khung hình liên tiếp đó là kiến kể nhưng thời gian xử lý lại tăng lên nhiều. trúc kết hợp CNN-LSTM.
IV. KẾT QUẢ THỰC NGHIỆM
Kiến trúc CNN-LSTM sử dụng CNN để trích xuất đặc
trưng 2D của ảnh đầu vào, sau đó kết hợp cùng LSTM để A. TẬP DỮ LIỆU
phân tích liên kết về mặt thời gian của dữ liệu trước khi
Để đánh giá độ chính xác cũng như hiệu quả hoạt động
đưa ra dự đoán cuối cùng.
của thuật toán, chúng tôi tiến hành các thực nghiệm trên ba
Để lựa chọn mô hình CNN, chúng tôi tiến hành t ử
h tập dữ liệu Hockey Fight, Peliculas và PTIT được thống kê
nghiệm một số mô hình đang được ứng dụng nhiều hiện trên Bảng 2.
nay trên tập dữ liệu ImageNet. Kết quả ở Bảng 1 cho thấy
BẢNG 2. THỐNG KÊ CÁC TẬP DỮ LIỆU
Resnet18 [14], đem lại sự cân bằng tốt nhất giữa độ chính
xác và độ phức tạp của mô hình, vì vậy Resnet18 đã được
lựa chọn sử dụng cho việc trích xuất đặc trưng 2D của ảnh. Tập dữ liệu # violence # non-violence
Chúng tôi thay đổi layer cuối cùng để thu được vector đặc
trưng 256 chiều thay vì 1000 như ở phiên bản gốc. Hockey Fight 500 500
Vector đặc trung 256 chiều này sẽ được sử dụng làm dữ
liệu đầu vào của mạng LSTM phân loại hành vi bạo lực. Peliculas 100 100
Các đặc trưng của những vùng nguy bạo lực cao từ các
khung hình liên tiếp được đưa vào LSTM để trích xuất
những đặc trưng về không gian và thời gian trước khi đưa PTIT 120 90
vào bộ phân loại Softmax đưa ra quyết định cuối cùng.
Chúng tôi cũng sử dụng Bidirectional LSTM thay cho
LSTM thông thường để tăng tính liên kết giữa các đầu vào. 1) Tập dữ liệu Hockey Fight : Tập dữ liệu chứa cảnh bạo
Kiến trúc của một Bi-LSTM được minh hoạ ở Hình 5. Bi- lực và không từ trò chơi khúc côn cầu trên băng. Có tổng
LSTM không chỉ lưu trữ thông tin từ quá khứ mà còn lưu cộng 1000 video, trong đó 500 mẫu là bạo lực và 500 mẫu
trữ cả thông tin đến từ tương lai,
là không bạo lực. Tất cả video có độ dài 2 giây, kích thước
khung hình giữa các video là giống nhau và cảnh bạo lực
BẢNG 1. KẾT QUẢ THỬ NGHIỆM MỘT SỐ
chiếm phần lớn khung hình. Các video có chung nền và có
MÔ HÌNH TRÊN TẬP DỮ LIỆU IMAGENET chuyển động nền. Model Parameters Accuracy(%) MobileNet 4.2 M 70.6 Resnet18 11.4 M 80. 7 Resnet34 21.5 M 82. 4 Resnet50 23.9 M 85. 8 InceptionNet 23.2 M 83.2 VGG16 138.4 M 80. 5
HÌNH 6. MỘT SỐ VÍ DỤ MINH HỌA TRONG TẬP DỮ LIỆU ĐÁNH GIÁ VGG19 143.7 M 84. 2
2) Tập dữ liệu Peliculas : Tập dữ liệu bao gồm các phân
cảnh bạo lực và không từ những bộ phim Hol ywood, trò
kiến trúc như vậy giúp mô hình dễ đưa ra dự đoán hơn khi chơi
mà chuỗi hành vi bạo lực được Bi-LSTM tiếp nhận thông bóng đá và các sự kiện khác. Có tổng cộng 200 video tất
tin từ cả hai chiều thời gian.
cả. 100 trong đó là video bạo lực và 100 còn lại là video
Chúng tôi cũng chọn kiến trúc LSTM hai tầng bởi vì không bạo lực. Độ dài video là 2 giây, kích thước khung
qua thực nghiệm, so với một tầng LSTM thì kiến trúc hình giữa các video không giống nhau toàn bộ và cảnh bạo
LSTM hai tầng cho kết quả tốt hơn, trong khi nếu sử dụng lực chiếm phần lớn khung hình. Môi trường và con người
trong video cũng khác nhau. Những video này cũng có chuyển động nền.
3) Tập dữ liệu PTIT: Đây là tập dữ liệu do chúng tôi thu
thập để phục vụ cho nghiện cứu tại Học viện Công nghệ
Bưu chính Viễn thông. Tập dữ liệu có tổng cộng 210 video,
trong đó 110 video là bạo lực và 90 video là không bạo lực.
Những video này có chung kích thước khung hình nhưng
độ dài khác nhau, được quay với các bối cảnh khác nhau
và khoảng cách tới camera khác nhau từ gần đến xa. Hình
số 6 minh họa một số hình ảnh mô tả hành vi bạo lực được
trích xuất từ các tập dữ liệu.
HÌNH 5. KIẾN TRÚC CỦA MỘT BI-LSTM SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 112
Nguyễn Mạnh Dũng, Vũ Hoài Nam, Phạm ứ
Đ c Cường, Nguyễn Việt Hưng
B. KẾT QUẢ
Kết quả thực nghiệm cho thấy phương pháp chúng tôi
phát triển (Fight Region Candidate + Resnet18 + 2 Bi-
Chúng tôi tiến hành thử nghiệm bằng ngôn ngữ Python
LSTM) cho kết quả tốt nhất. Phương pháp này đạt độ chính
và thư viện học sâu PyTorch với cấu hình máy tính như sau:
xác cao hơn so với các thuật toán chỉ sử dụng CNN-LSTM
đơn thuần mà không có bước tiền xử lý để xác định vùng • OS : Windows 10
khả nghi. Trong khi nếu thay Resnet18 bằng VGG16 thì độ • CPU : I9-10900K
chính xác gần như không thay đổi trong khi độ phức tạp • RAM : 32GB
của mạng CNN tăng lên rất nhiều.
• GPU: GEFORCE RTX 2070 SUPER
Thực nghiệm cũng cho thấy mạng LSTM 15 timesteps
Thực nghiệm được tiến hành trên cả 3 tập dữ liệu Bi-LSTM, cho kết quả tốt hơn so với 10 timesteps mà vẫn
Hockey Fight, Peliculas và PTIT với hai mô hình CNN là đảm bảo yêu cầu thời gian thực.
Resnet18 và VGG16 [15], hai mô hình LSTM là LSTM V. HƯỚNG NGHIÊN CỨU TƯƠNG LAI VÀ THẢO
truyền thống và Bi-LSTM. Để xem xét sự ảnh hưởng của LUẬN
số lượng timesteps (số lượng khung hình LSTM sử dụng
để dự đoán) đến độ chính xác, chúng tôi thử nghiệm với 10
Tự động phát hiện hành vi bạo lực là rất quan trọng để
và 15 timesteps. Tập dữ liệu được chia ra 80% cho huấn
kịp thời can thiệp, ngăn chặn và cảnh báo. Từ đó có thể
luyện và 20% cho kiểm tra. Kết quả thực nghiệm được tính giảm thiểu được thiệt hại cả về sức khỏe, vật chất, lẫn tinh
toán bằng độ chính xác như trong Bảng 3. Thời gian chạy thần cho con người.
của Resnet18 với 10 timesteps và 15 timesteps lần lượt là Bài báo đã đưa ra phương pháp phát hiện hành vi bạo
80ms và 95ms, hoàn toàn phù hợp với những ứng dụng
lực có hiệu quả cao, bằng việc kết hợp tiền xử lý phát hiện trong thời gian thực.
Bảng 3. Kết quả thực nghiệm Numbe Hockey Fight Peliculas PTIT r of time Preci Recal F1 Precis Recal F1 Precis Recal F1 step sion l Score ion l Score ion l Score 10 0.94 0.95 0.94 0.86 0.89 0.87 0.82 0.84 0.83 Resnet18 + 2 LSTM 15 0.96 0.96 0.96 0.88 0.92 0.9 0.83 0.87 0.85 Resnet18 + 2 10 0.96 0.97 0.96 0.89 0.91 0.9 0.84 0.86 0.85 Bi-LSTM 15 0.97 0.98 0.97 0.9 0.95 0.92 0.87 0.88 0.87 Fight Region 10 0.95 0.96 0.95 0.9 0.9 0.9 0.92 0.92 0.92 Candidate + 15 0.97 0.97 0.97 0.93 0.97 0.95 0.93 0.95 0.94 Resnet18 + 2 LSTM Fight Region 10 1 1 1 0.92 0.93 0.92 0.92 0.92 0.92 Candidate + 15 1 1 1 0.96 0.99 0.97 0.97 0.99 0.98 Resnet18 + 2 Bi-LSTM 10 0.94 0.94 0.94 0.84 0.86 0.85 0.81 0.82 0.81 VGG16 + 2 LSTM 0.96 0.96 0.96 0.85 0.89 0.87 0.85 0.86 0.85 15 VGG16 + 2 10 0.96 0.97 0.96 0.88 0.92 0.9 0.83 0.84 0.83 Bi-LSTM 15 0.97 0.97 0.97 0.92 0.93 0.92 0.87 0.88 0.87 Fight Region 10 0.95 0.96 0.95 0.88 0.92 0.9 0.89 0.9 0.9 Candidate + 15 0.97 0.98 0.97 0.94 0.96 0.95 0.92 0.96 0.94 VGG16 + 2 LSTM Fight Region 10 1 1 1 0.92 0.93 0.92 0.92 0.92 0.92 Candidate + 15 1 1 1 0.96 0.99 0.97 0.95 0.97 0.96 VGG16 + 2 Bi-LSTM SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 113
MÔ HÌNH PHÁT HIỆN HÀNH VI BẠO LỰC ĐA TẦNG SỬ DỤNG MẠNG NƠRON TÍCH CHẬP …..
vùng khả nghi và sử dụng mô hình kết hợp CNN-LSTM để
Signal Processing, vol. 45, no. 11, pp. 2673-2681,
phân tích hành vi bạo lực trong cả không gian và thời gian. Nov. 1997, doi: 10.1109/78.650093.
Các kết quả thực nghiệm cũng cho thấy phương pháp [11] Joseph Redmon, Santosh Divvala, Ross Girshick and
của chúng tôi đủ nhanh, độ chính xác cao và hoàn toàn phù
Ali Farhadi, “You Only Look Once: Unified, Real-
hợp cho những hệ thống yêu cầu xử lý thời gian thực.
Time Object Detection”. arXiv, 2016.
Tuy nhiên phương pháp vẫn còn nhiều điểm hạn chế, [12] Nicolai Wojke, Alex Bewley and Dietrich Paulus,
như tập dữ liệu vẫn chưa đủ lớn để có thể bao quát được tất
“Simple Online and Realtime Tracking with a Deep
cả các trường hợp có thể xảy ra trên thực tế. Chưa được
Association Metric”. arXiv, 2017.
kiểm thử trong nhiều bối cảnh môi trường khác nhau.
[13] Alexey Bochkovskiy, Chien-Yao Wang and Hong-
Công việc dự kiến trong thời gian tới của nhóm dự án
Yuan Mark Liao, “YOLOv4: Optimal Speed and
là tiếp tục xây dựng bộ dữ liệu đầy đủ hơn nhằm nâng cao
Accuracy of Object Detection”. arXiv, 2020.
độ chính xác của thuật toán.
[14] Kaiming He, Xiangyu Zhang, Shaoqing Ren and Jian
Ngoài ra chúng tôi cũng dự định xây dựng một mô hình
Sun, “Deep Residual Learning for Image
dạng end-to-end vừa có khả năng xác định vùng khả nghi Recognition”. arXiv, 2015.
đồng thời phân loại hành vi bạo lực mà không cần thêm bước tiền xử lý.
[15] Karen Simonyan and Andrew Zisser-man, “Very
Deep Convolutional Networks for Large-Scale Image
TÀI LIỆU THAM KHẢO Recognition”. arXiv, 2015.
[1] I. S. Gracia, O. D. Suarez, G. B. Garcia, and T.-K.
Kim, “Fast fight detection,” PLoS ONE, vol. 10, no.
4, Apr. 2015, Art. no. e0120448. MULTISTAGE REAL-TIME VIOLENCE
DETECTION USING CONVOLUTIONAL NEURAL
[2] P. C. Ribeiro, R. Audigier, and Q. C. Pham, “RIMOC,
NETWORK AND LONG SHORT-TERM MEMORY
a feature to discriminate unstructured motions:
Application to violence detection for video-
Abstract: Action detection is a chal enging Computer
surveillance,” Comput. Vis. Image Understand., vol.
Vision research topics. It has many practical applications
144, pp. 121–143, Mar. 2016.
in our lives and violence detection is one of the case that
[3] E. Y. Fu, H. Va Leong, G. Ngai, and S. Chan, helps quickly prevent and reduce the human injury in a
“Automatic fight detection in surveillance videos,” in
public places equipped with surveil ance cameras such as
Proc. 14th Int. Conf. Adv. Mobile Comput. Multi on the streets, at the hospitals, schools or parks. In this
Media, Nov. 2016, pp. 225–234.
study, we propose a detection method which taking the
advantages of the convolutional neural network (CNN) and
[4] [S. Albawi, T. A. Mohammed and S. Al-Zawi, the long short-term memory network (LSTM). At the first
"Understanding of a convolutional neural network," in stage, the high-risk group of violence is detected by using
2017 International Confe-rence on Engineering and
YOLO (You Only Look Once). CNN is then used to extract Technology (ICET), 2017, pp. 1-6,
doi: the features in stage 2, which wil be directly used as input
10.1109/ICEng-Technol.2017.8308186.
for LSTM at the last stage to predict the final class. The
[5] Ralf C. Staudemeyer and Eric Rothstein Morris,
datasets we used in our experiments are Hockey Fight,
“Understanding LSTM - a tutorial into Long Short- Peliculas and a self-col ected one, PTIT dataset.
Term Memory Recurrent Neural Networks”. arXiv,
Experiment results of the proposed method has been 2019.
compared to some prior works, showing that it is not only
effective in detecting the violence but also reduces the
[6] C. Ding, S. Fan, M. Zhu, W. Feng, and B. Jia, number of false positive cases. Our method achieved high
‘‘Violence detection in video by using 3D performance in detection and has high potential for real-
convolutional neural networks,’’ in Proc. Int. Symp. time applications.
Visual Comput., 2014, pp. 551–558.
Keywords: Violence Detection; Convolutional Neural
[7] S. Sudhakaran and O. Lanz, ‘‘Learning to detect
Network; Long Short-term Memory; YOLO; Hockey
violent videos using convolutional long short-term Fight; Peliculas.
memory,’’ in Proc. 14th IEEE Int. Conf. Adv. Video
Signal Based Surveil . (AVSS), Aug./Sep. 2017, pp.
Nguyễn Mạnh Dũng, tốt đại học 1–6.
chuyên ngành điên tử viễn thông,
Đại học Back Khoa Hà Nội năm
[8] F. U. M. Ul ah, A. Ul ah, K. Muhammad, I. U. Haq,
2005. Tốt nghiệp Thạc sỹ chuyên
and S. W. Baik, ‘‘Violence detection using
ngành công nghệ thông tin, Đại
spatiotemporal features with 3D convolutional neural
học Quốc gia Kongju năm 2009.
network,’’ Sensors, vol. 19, no. 11, p. 2472, May
Và Tốt nghiệp tiến sỹ chuyên 2019.
ngành công nghệ thông tin Đại học
[9] Seymanur Akti, Gozde Ayse Tataroglu and Hazim
Quốc gia Kongju năm 2019. Hiện
nay đang công tác và giảng dạy tại
Kemal Ekenel, “Vision-based Fight Detection from khoa kỹ thuật điện tử 1, Học Viện Công Nghệ Bưu Chính
Surveillance Cameras”. IEEE, 2019.
Viễn Thông. Lĩnh vực yêu thích bao gồm xử lý ảnh, thị
[10] M. Schuster and K. K. Paliwal, "Bidirectional giác máy tính, thuật toán và trí tuệ nhân tạo.
recurrent neural networks," in IEEE Transactions on SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 114
Nguyễn Mạnh Dũng, Vũ Hoài Nam, Phạm ứ
Đ c Cường, Nguyễn Việt Hưng
Vũ Hoài Nam, tốt nghiệp đại học
chuyên ngành điện tử viễn thông,
Đại học Bách Khoa Hà Nội năm
2013. T ốt nghiệp Thạc sỹ chuyên
ngành Kỹ Sư Máy Tính, Đại học
Quốc gia Wangju năm 2015. Hiện
nay đang là nghiên cứu sinh chuyên
ngành Khoa Học Máy Tính, Học
Viện Công Nghệ Bưu Chính Viễn
Thông. Lĩnh vực yêu thích bao gồm xử lý ảnh, thị giác
máy tính, thuật toán và trí tuệ nhân tạo .
Phạm Đức Cường, tốt nghiệp đại học
chuyên ngành Hệ Thống Thông Tin,
Học Viện Công Nghệ Bưu Chính Viễn
Thông, Hà Nội. Hiện nay đang công tác
tại IVS, với vị trí kỹ sư nghiên cứu và
phát triển các thuật toán xử lý, nhận dạng
hình ảnh. Lĩnh vực yêu thích bao gồm xử
lý ảnh, thị giác máy tính, học máy và trí tuệ nhân tạo.
Nguyễn Việt Hưng. Tốt nghiệp thạc
sĩ năm 2009 tại ĐH Bách Khoa
Grenoblem và bảo vệ luận án Tiến sỹ
năm 2013 tại đại học Rennes 1, CH
Pháp. Hiện công tác tại Học viện Công
nghệ Bưu chính Viễn thông. Lĩnh vực
nghiên cứu: Hệ thống thông tin thế hệ
mới, trí tuệ nhân tạo, học máy. SỐ 04 (CS.01) 2021
TẠP CHÍ KHOA HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG 115

Bài kiểm tra tham khảo từ mạng | Đại học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

Tài liệu liên quan:

NGHIÊN CỨU CÁC YẾU TỐ ẢNH HƯỞNG ĐẾN SỰ HÀI LÒNG CỦA KHÁCH DU LỊCH NỘI ĐỊA TẠI TỈNH HÀ GIANG | Đại học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

CHỌN MẪU TRONG NGHIÊN CỨU | Đại học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

Journal of Travel & Tourism Marketing | Đại học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

phương pháp nghiên cứu khoa học - tiểu luận cuối kì | Đại học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh

VĂN HÓA DOANH NGHIỆP VÀ ĐẠO ĐỨC KINH DOANH | Đại học Ngoại Ngữ - Tin Học Thành Phố Hồ Chí Minh