Bài báo:
Generalizable Sign Language Recognition via Local Temporal Convolutions and Region-Aware Pose Encoding
Link bài báo:https://openaccess.thecvf.com/.../Tran_Generalizable_Sign...
Học viên thực hiện:
• Trần Siêu – KHMT2021 – Tác giả chính
• Nguyễn Minh Đức – KHMT2021 – Đồng tác giả
• Nguyễn Thanh Trường – KHMT2022 – Đồng tác giả
Giảng viên hướng dẫn:
• ThS. Đỗ Văn Tiến
Tóm tắt:
Bài báo đề xuất một mô hình nhận dạng ngôn ngữ ký hiệu liên tục (Continuous Sign Language Recognition – CSLR) chỉ sử dụng dữ liệu pose, hướng tới cải thiện khả năng tổng quát hoá trong thiết lập câu chưa từng thấy (unseen sentence), nơi cấu trúc câu ở giai đoạn kiểm thử khác biệt hoàn toàn so với dữ liệu huấn luyện. Phương pháp giảm sự phụ thuộc vào thông tin RGB bằng cách khai thác hoàn toàn keypoint 2D, qua đó hạn chế nhiễu từ bối cảnh và sự thay đổi thị giác giữa các phiên ghi hình. Bên cạnh đó, công trình giới thiệu cơ chế giải mã theo điều kiện cục bộ dựa trên tích chập theo thời gian (local temporal convolution), giúp mô hình tập trung vào các quan hệ thời gian ngắn hạn và hạn chế hiện tượng overfitting thường gặp ở các mô hình tuần tự toàn cục. Thông qua thực nghiệm trên các bộ dữ liệu quy mô lớn trong điều kiện signer-independent, phương pháp đạt hiệu quả cạnh tranh với nhiều mô hình sử dụng RGB đã được công bố, dù chỉ dựa trên 2D pose, qua đó cho thấy tiềm năng của việc kết hợp biểu diễn khung xương, mô hình hoá thời gian cục bộ và giám sát đa tầng trong bài toán CSLR với các câu chưa từng thấy.
ICCVW 2025 (International Conference on Computer Vision Workshop 2025) là chuỗi workshop quốc tế chính thức trong khuôn khổ hội nghị ICCV 2025 – hội nghị khoa học quốc tế hàng đầu (xếp hạng A*) trong lĩnh vực Thị giác máy tính và Trí tuệ nhân tạo. Bài báo được công bố tại The 1st Multimodal Sign Language Recognition Workshop, workshop quốc tế chuyên sâu về nhận dạng ngôn ngữ ký hiệu đa phương thức.
Thông tin chi tiết: https://www.facebook.com/share/p/17eMRYXtXm/


