Cargando…

The multi-modal fusion in visual question answering: a review of attention mechanisms

Visual Question Answering (VQA) is a significant cross-disciplinary issue in the fields of computer vision and natural language processing that requires a computer to output a natural language answer based on pictures and questions posed based on the pictures. This requires simultaneous processing o...

Descripción completa

Detalles Bibliográficos
Autores principales:	Lu, Siyu, Liu, Mingzhe, Yin, Lirong, Yin, Zhengtong, Liu, Xuan, Zheng, Wenfeng
Formato:	Online Artículo Texto
Lenguaje:	English
Publicado:	PeerJ Inc. 2023
Materias:	Artificial Intelligence
Acceso en línea:	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10280591/ https://www.ncbi.nlm.nih.gov/pubmed/37346665 http://dx.doi.org/10.7717/peerj-cs.1400

Internet

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10280591/
https://www.ncbi.nlm.nih.gov/pubmed/37346665
http://dx.doi.org/10.7717/peerj-cs.1400

The multi-modal fusion in visual question answering: a review of attention mechanisms

Internet

Ejemplares similares