You are on page 1of 2

ĐỀ XUẤT CHỌN LỰA MÔ HÌNH NCKH

Nghiên cứu Data Sheet


UCF Crime Dataset bao gồm tập dữ liệu hình ảnh 64x64 được lấy ra từ đoạn
film từ camera giám sát có dung lượng 12GB chia làm 14 frame tương ứng với
14 hành động của tội phạm
 Bài toán chọn lựa là Classify (nhận biết xem hành động đó là hành động
gì chứ k chia bõ để nhận biết từng đối tượng).
 Số lượng data trong các frame không đồng đều nhau, normal là lớn nhất
nên đề xuất chọn loss function là focal loss.
 Tập dữ liệu có dung lượng lớn thích hợp với VIT.

Các mô hình đã được đề xuất và có hiệu quả cao:


-MGFN: 86,96
GitHub - carolchenyx/MGFN: This the official repo of paper accepted in
AAAI 2023.
-S3R: 85,99
GitHub - louisYen/S3R: video anomaly detection
-WSAL: 85,38
GitHub - ktr-hubrt/WSAL: Official codes for paper: Localizing Anomalies
from Weakly-Labeled Videos

Đề xuất chọn lựa mô hình:


- Để đạt được kết quả cao với tập dữ liệu là các hình ảnh 64x64 từ camera thì
ta cần phải có mạng nơ ron trích đặc trưng vô cùng tốt, mô hình em đề xuất
ở đây là Efficientnet B5. Đây là mạng nơ ron tricchs đặc trưng vô cùng tốt
cho hình ảnh kém và số lượng lớn.
- ViT xử lý vô cùng tốt cho tập dữ liệu lớn như dữ liệu này bởi quy chế nạp 1
lúc nhiều image của nó cũng như tạo liên kết những ảnh liên quan nhau
trong video
 Mô hình của chúng ta là sẽ Kết hợp giữa ViT và Efficientnet B5:
Em đã tìm thấy 1 cách xử lý tương tự ở đây:
https://github.com/davide-coccomini/Combining-EfficientNet-and-Vision-
Transformers-for-Video-Deepfake-Detection
https://arxiv.org/abs/2107.02612
Phương pháp đề xuất nâng cao hiệu xuất:
- Activation: Leaky ReLu / Swish
- Loss Function: focal loss (dữ liệu không đồng đều)
- Adam
- Batch size: 64
- DropOut (chia ra thử thông số để kiểm chứng)

Lan truyền ngược thì để sau 😊))) xong mô hình đã r tính

You might also like