You are on page 1of 3

Nguyên nhân gây ra nhiều tai nạn giao thông thường do vi phạm nghĩa vụ an toàn

của người lái. Theo báo cáo của Trung tâm Phân tích Tổng hợp về Tai nạn Giao thông
năm 2001, hầu hết những người gây tai nạn nhận thức được sai lầm của mình và phần
lớn sai lầm xảy ra trong giai đoạn nhận thức (1). Có nhiều dữ liệu được công bố sau đó,
ví dụ như trong tai nạn va chạm khi ô tô rẽ phải và ô tô đi thẳng, tỷ lệ sai lầm trong thao
tác (21,1%) cao hơn tỷ lệ không chú ý, không kiểm tra hoặc đánh giá sai (78,3%).

Việc lái xe ô tô và xe máy tự động tương đương với việc học kỹ năng thể thao, bao gồm
nhận thức môi trường, đưa ra quyết định chính xác dựa trên nhận thức và thực hiện
hành động thực tế (điều khiển ô tô hoặc xe máy tự động). Kết quả hành động lại được
nhận thức và lặp lại trong quá trình lái xe.

Trong quá trình này, chúng tôi thực hiện nghiên cứu sử dụng giả lập lái xe bằng công
nghệ thực tế ảo (VR) thay vì thực tế. Chúng tôi sử dụng một thiết bị giả lập lái xe (DS)
tương tự như trong tài liệu, nhưng chúng tôi có thể thay đổi khung cảnh và sự kiện tùy
thuộc vào kịch bản lái xe. Trong tài liệu, chúng tôi đã áp dụng phương pháp này để tạo
ra trải nghiệm giả lập tai nạn một cách cố ý, nhằm tăng cường nhận thức về nguy cơ tai
nạn. Trong nghiên cứu này, hình ảnh về tai nạn và tình huống lái xe trước tai nạn đóng
vai trò quan trọng như một đầu vào thị giác của con người.

Trong nghiên cứu này, chúng tôi tập trung vào việc phân tích và hỗ trợ học tập dựa trên
điểm nhìn khi lái xe. Tuy nhiên, để đơn giản hóa, chúng tôi chỉ sử dụng thông tin về góc
nhìn liên quan đến nhận thức môi trường, mà không kèm theo hoạt động lái xe trực tiếp
như điều khiển ga, phanh và tay lái. Ví dụ, chúng tôi có thể nhận biết sự khác biệt giữa
góc nhìn của người lái có kinh nghiệm và khi có sự thay đổi hành vi, hoặc nhìn nhận
cách góc nhìn thay đổi khi có sự thay đổi.
2. Phân tích thông qua việc phân chia vùng màn hình 2.1 Phân tích quỹ đạo dựa
trên tọa độ vị trí điểm nhìn Khi nhìn vào vị trí nào trên màn hình trong quá trình
lái xe, trong nhiều công cụ, thông qua tọa độ (x, y), dữ liệu theo chuỗi thời gian
được xử lý. Ví dụ, tài liệu (5) là một phương pháp như vậy, sử dụng phương pháp
đánh giá độ tương tự dựa trên DTW (Dynamic Time Warping, phương pháp biến
đổi thời gian động). Trong trường hợp này, dù đối tượng trong hình nền là gì, ta
chỉ cần quan tâm đến dữ liệu chuỗi, điều này có lợi nhưng cũng có thể không
đảm bảo xem xét đầy đủ góc nhìn tổng quát (ví dụ như góc nhìn trái-phải cộng
lại khoảng 40 độ) và xem xét xung quanh.

Trong thực tế, cần thảo luận cả về sai số quan sát và các yếu tố xử lý trên máy tính, cũng
như xem xét xử lý thị giác của con người. Cụ thể, con người không thực hiện việc nhận
biết tại các tọa độ (x, y) với đơn vị tối thiểu phù hợp với độ phân giải màn hình. Thay
vào đó, việc nhìn nhận vùng hoặc đối tượng liên quan như một phần của một bề mặt có
thể tự nhiên hơn. Do đó, trong nghiên cứu này, chúng tôi đề xuất một phương pháp
phân chia vùng trên màn hình.

2.2 Phân tích vùng chứa trong tọa độ vị trí điểm nhìn Trong nghiên cứu này, chúng tôi
nhằm mục tiêu phát triển hỗ trợ học tập để cải thiện khả năng nhận thức về vùng nguy
hiểm thông qua hướng dẫn định hướng của điểm nhìn, so sánh với mô hình điểm nhìn
được thu thập từ những người lái chuyên nghiệp. Việc phát triển hệ thống để đề phòng
rủi ro cũng là một yêu cầu quan trọng.

Ở đây, bằng cách chia màn hình thành các vùng phụ dựa trên tính đồng nhất của
chúng, ta có thể xác định được vùng mà điểm nhìn nằm trong đó nếu có được tọa độ vị
trí điểm nhìn. Tuy nhiên, cần chú ý đến mức độ chính xác của diện tích và vị trí của vùng
đó để xem xét xem liệu nó có phù hợp với điểm nhìn hay không. Hệ thống DS (Driving
Simulator) được sử dụng trong nghiên cứu này sử dụng công nghệ VR, do đó có thể
tính toán được tọa độ hai chiều của đối tượng được vẽ trên đó dựa trên mối quan hệ
giữa vị trí của đối tượng và máy ảnh vẽ. Tuy nhiên, trong nghiên cứu này, hệ thống sẽ
được thiết kế độc lập để có thể áp dụng trong tương lai cho hình ảnh và lái thử thực tế.
3. 3.1 U-Net U-Net là một kiến trúc CNN được phát triển bởi Ronneberger và đồng
nghiệp để thực hiện phân đoạn hình ảnh. Mạng này bao gồm một đường dẫn co
và một đường dẫn mở rộng, và có kiến trúc hình chữ U, do đó được gọi là U-Net.
Trong đường dẫn co, đặc trưng được trích xuất thông qua việc tích chập. Trong
đường dẫn mở rộng, đặc trưng được khôi phục lại thành hình ảnh ban đầu. U-
Net có tính năng đặc biệt là các tầng tương tự trong đường dẫn co và đường dẫn
mở rộng được kết nối thông qua kết nối bỏ qua, giúp giữ lại mối quan hệ vị trí
của mỗi pixel trong ảnh đầu vào.

Trong quá trình học của U-Net trong nghiên cứu này, sử dụng bộ dữ liệu GTA5 được
tạo bởi Stephan R. Dữ liệu ảnh này được tạo ra bằng cách sử dụng trò chơi video Grand
Theft Auto 5 thế giới mở để render.

Trong nghiên cứu này, sử dụng U-Net để phân đoạn vùng trong mỗi khung hình của
video trên DS, so sánh dữ liệu điểm nhìn của người lái điêu luyện và người học, và đánh
giá khả năng nhận biết nguy hiểm dựa trên mức độ phù hợp của các vùng đã phân
đoạn. Tuy nhiên, có trường hợp dù vùng điểm nhìn của người lái điêu luyện và người
học có thể giống nhau trên tọa độ, nhưng thực tế thì chúng có thể nhìn vào các vị trí
cách xa nhau. Khi áp dụng phân đoạn vùng bằng U-Net cho toàn bộ màn hình, ta sẽ có
kết quả như hình 1 sau khi loại bỏ các đường lưới.
Trong trường hợp này, ví dụ, đường đua trải dài trên một vùng rộng từ mép trái đến
mép phải, và việc phân đoạn vùng chỉ bằng U-Net có thể gây ra vấn đề là định danh
nhầm các điểm nhìn cực trái hoặc cực phả
Vì vậy, ngoài việc sử dụng U-Net để phân đoạn vùng, trong nghiên cứu này còn chia
ảnh thành các lưới có hình dạng NXN (trong thực nghiệm này là 3x3) và thực hiện sự
phân nhỏ hơn về hướng nhìn. Quá trình này giúp giảm thiểu các mẫu gây ra vấn đề và
tạo điều kiện cho việc đánh giá chính xác hơn.
.3 Đánh giá vị trí nhìn Kết hợp giữa U-Net và chia lưới, nhìn từ góc nhìn của
một chiếc xe trên đường trong thành phố ảo. Khi thực hiện đánh giá, ta tập
trung vào khoảng cách di chuyển của các ô theo chiều dọc, chiều ngang và
đường chéo từ vị trí nhìn của người học hoặc người lái có sẵn làm điểm tham
chiếu, và kết hợp với các điểm đánh giá như trong Bảng 1. Ở đây, N là số ô
trong lưới, L là chi phí di chuyển từ điểm tham chiếu. Ví dụ, nếu ô ở góc trên
bên trái trong hình 1 làm điểm tham chiếu, và ô ở góc dưới bên phải là cùng
một vùng trong U-Net, thì điểm đánh giá sẽ là 0, nhưng nếu là ô kề cạnh thì
điểm đánh giá sẽ là 0.5.

4. Phản hồi cho người học Trong nghiên cứu này, sau khi thu thập thông
tin về vị trí nhìn của người học, ta vẽ cùng lúc cả vị trí nhìn của người
học và vị trí nhìn của người lái đã được thu thập trước đó. Sử dụng hai
vùng hình tròn, ta hỗ trợ quá trình học tập. Theo điểm đánh giá đã thêm
vào ở phần trước, ta sử dụng sự chuyển đổi màu sắc để làm rõ ràng cho
người học biết điểm khác biệt nằm ở đâu.
5. Kết luận Trong nghiên cứu này, ta đã thiết kế chức năng môi trường hỗ
trợ việc học thông qua việc sử dụng trình giả lập lái xe để thu thập và
phân tích vị trí nhìn khi lái xe, và tiến hành việc học vị trí nhìn. Những
thách thức trong tương lai bao gồm việc xây dựng hàm đánh giá điểm
thêm khi lưới không khớp và lưới không khớp của U-Net dựa trên tỷ lệ
diện tích và việc đưa vào các giác quan khác ngoài tầm nhìn, chẳng hạn
như âm thanh.
Regenerate response

You might also like