Skip to content
  • Tiếng Việt
  • English

Chúc mừng nhóm sinh viên UIT có bài báo khoa học được công bố tại Hội nghị quốc tế KSE 2025

Bài báo:

Data Generation Based on Multimodal Language Models for Vietnamese Visual Question Answering

Nhóm tác giả:

• Lê Trọng Đại Trường – KHTN 2022 – Tác giả chính

• Hoàng Ngọc Quân – KHTN 2022 – Tác giả chính

Giảng viên hướng dẫn:

• TS. Nguyễn Văn Kiệt

• CN Nguyễn Hiếu Nghĩa

Tóm tắt:

Visual Question Answering (VQA) has shown promising potential in education, particularly in supporting children through interactive learning. However, the lack of high-quality, large-scale Vietnamese VQA datasets, especially in primary education contexts, remains a major bottleneck for training accurate models. To address this critical gap, we propose an automated data labeling pipeline that leverages Multimodal Large Language Models (MLLMs) to generate high-quality question–answer pairs from Vietnam textbook images.

Our method combines strong prompting techniques, such as Few-shot or Chain-of-Thought, with the reasoning power of models like Gemini 1.5 Pro, Gemini 2.0 Flash, and Vintern-1B to ensure both the accuracy and naturalness of the generated data. Based on this pipeline, we introduce ViEduVQA, a new dataset comprising over 18,000 Vietnamese question-answer (QA) pairs derived from elementary school textbooks in Vietnam. Moreover, we also built a human-refined benchmark (ViEduVQA-benchmark) to evaluate data quality and model performance.

Experimental results show that models trained on ViEduVQA achieve strong performance, validating the effectiveness of our pipeline and dataset. This work lays the foundation for generating scalable and cost-effective VQA datasets across various application domains.

"Để hoàn thành bài báo nghiên cứu khoa học này, chúng em đã nhận được rất nhiều sự hỗ trợ và đồng hành quý báu từ các cá nhân và tổ chức. Chúng em xin gửi lời tri ân sâu sắc nhất đến tất cả những ai đã luôn động viên, giúp đỡ và tạo điều kiện cho chúng em trong suốt quá trình thực hiện nghiên cứu.

Trước hết, chúng em xin trân trọng cảm ơn quý thầy, cô Trường Đại học Công nghệ Thông tin – Đại học Quốc gia TP.HCM, đặc biệt là các thầy, cô thuộc Khoa Khoa học Máy tính. Những kiến thức nền tảng vững chắc cùng sự tận tâm giảng dạy và hỗ trợ của quý thầy, cô là hành trang quan trọng giúp chúng em có thể hoàn thành nghiên cứu này.

Chúng em xin gửi lời cảm ơn đặc biệt đến TS. Nguyễn Văn Kiệt, người đã trực tiếp hướng dẫn, định hướng và đồng hành cùng chúng em trong suốt quá trình thực hiện bài báo. Những góp ý chuyên môn sâu sắc và sự tận tình của thầy đã giúp chúng em hoàn thiện nghiên cứu một cách tốt nhất. Đây là những kinh nghiệm quý báu mà chúng em sẽ luôn ghi nhớ và vận dụng trong những chặng đường tiếp theo.

Bên cạnh đó, chúng em cũng xin chân thành cảm ơn anh Nguyễn Hiếu Nghĩa vì những hỗ trợ thiết thực, những trao đổi chuyên môn bổ ích và sự động viên kịp thời trong quá trình chúng em triển khai và hoàn thiện bài báo.

Cuối cùng, chúng em xin bày tỏ lòng biết ơn đến gia đình, người thân và bạn bè – những người luôn là điểm tựa tinh thần vững chắc, động viên và ủng hộ chúng em trong mọi chặng đường học tập và nghiên cứu"

https://kse2025.kse-conferences.org/kse-2025-proceedings

The 17th International Conference on Knowledge and Systems Engineering (KSE 2025) is a premier international forum dedicated to presenting, discussing, and exchanging state-of-the-art research, development, and applications in knowledge and systems engineering. The conference brings together researchers, practitioners, and students to share innovative research findings and practical applications while fostering collaboration and networking within this dynamic field.

Thông tin chi tiết: https://www.facebook.com/share/p/1CPrBqp9SW/