Cargando…

Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering

Visual question answering (VQA) is a multi-modal task involving natural language processing (NLP) and computer vision (CV), which requires models to understand of both visual information and textual information simultaneously to predict the correct answer for the input visual image and textual quest...

Descripción completa

Detalles Bibliográficos
Autores principales:	Guo, Zihan, Han, Dezhi
Formato:	Online Artículo Texto
Lenguaje:	English
Publicado:	MDPI 2020
Materias:	Article
Acceso en línea:	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7730290/ https://www.ncbi.nlm.nih.gov/pubmed/33255994 http://dx.doi.org/10.3390/s20236758

Internet

https://www.ncbi.nlm.nih.gov/pmc/articles/PMC7730290/
https://www.ncbi.nlm.nih.gov/pubmed/33255994
http://dx.doi.org/10.3390/s20236758

Multi-Modal Explicit Sparse Attention Networks for Visual Question Answering

Internet

Ejemplares similares