Cargando…

Fusion of Multi-Modal Features to Enhance Dense Video Caption

Dense video caption is a task that aims to help computers analyze the content of a video by generating abstract captions for a sequence of video frames. However, most of the existing methods only use visual features in the video and ignore the audio features that are also essential for understanding...

Descripción completa

Detalles Bibliográficos
Autores principales:	Huang, Xuefei, Chan, Ka-Hou, Wu, Weifan, Sheng, Hao, Ke, Wei
Formato:	Online Artículo Texto
Lenguaje:	English
Publicado:	MDPI 2023
Materias:	Article
Acceso en línea:	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC10304565/ https://www.ncbi.nlm.nih.gov/pubmed/37420732 http://dx.doi.org/10.3390/s23125565

Ejemplares similares

Lightweight dense video captioning with cross-modal attention and knowledge-enhanced unbiased scene graph
por: Han, Shixing, et al.
Publicado: (2023)

Research on Video Captioning Based on Multifeature Fusion
por: Zhao, Hong, et al.
Publicado: (2022)

Modality attention fusion model with hybrid multi-head self-attention for video understanding
por: Zhuang, Xuqiang, et al.
Publicado: (2022)

Class-dependent and cross-modal memory network considering sentimental features for video-based captioning
por: Xiong, Haitao, et al.
Publicado: (2023)

Combining Sparse and Dense Features to Improve Multi-Modal Registration for Brain DTI Images
por: Moldovanu, Simona, et al.
Publicado: (2020)

BPDGAN: A GAN-Based Unsupervised Back Project Dense Network for Multi-Modal Medical Image Fusion
por: Liu, Shangwang, et al.
Publicado: (2022)

A Short Video Classification Framework Based on Cross-Modal Fusion
por: Pang, Nuo, et al.
Publicado: (2023)

Multi-Modal Feature Selection with Feature Correlation and Feature Structure Fusion for MCI and AD Classification
por: Jiao, Zhuqing, et al.
Publicado: (2022)

Citrus Huanglongbing Detection Based on Multi-Modal Feature Fusion Learning
por: Yang, Dongzi, et al.
Publicado: (2021)

Deep fusion of multi-modal features for brain tumor image segmentation
por: Zhang, Guying, et al.
Publicado: (2023)

3DMGNet: 3D Model Generation Network Based on Multi-Modal Data Constraints and Multi-Level Feature Fusion
por: Wang, Ende, et al.
Publicado: (2020)

A multi-modal fusion scheme for the enhancement of PET/MR viewing
por: Aiello, Marco, et al.
Publicado: (2015)

Cohesive Multi-Modality Feature Learning and Fusion for COVID-19 Patient Severity Prediction
Publicado: (2021)

Dense captioning and multidimensional evaluations for indoor robotic scenes
por: Wang, Hua, et al.
Publicado: (2023)

Multi-Dimensional Feature Fusion Network for No-Reference Quality Assessment of In-the-Wild Videos
por: Jiang, Jiu, et al.
Publicado: (2021)

Dense deconvolution net: Multi path fusion and dense deconvolution for high resolution skin lesion segmentation
por: He, Xinzi, et al.
Publicado: (2018)

Multi-Modal Adaptive Fusion Transformer Network for the Estimation of Depression Level
por: Sun, Hao, et al.
Publicado: (2021)

Multi-modal data fusion based on embeddings
por: Thoma, S
Publicado: (2019)

Multi-Modality Adaptive Feature Fusion Graph Convolutional Network for Skeleton-Based Action Recognition
por: Zhang, Haiping, et al.
Publicado: (2023)

Multi-Modal Representation via Contrastive Learning with Attention Bottleneck Fusion and Attentive Statistics Features
por: Guo, Qinglang, et al.
Publicado: (2023)

Contrast-Enhanced Liver Magnetic Resonance Image Synthesis Using Gradient Regularized Multi-Modal Multi-Discrimination Sparse Attention Fusion GAN
por: Jiao, Changzhe, et al.
Publicado: (2023)

Laparoscopic Video Analysis Using Temporal, Attention, and Multi-Feature Fusion Based-Approaches
por: Jalal, Nour Aldeen, et al.
Publicado: (2023)

Single Image Super-Resolution Based on Global Dense Feature Fusion Convolutional Network
por: Xu, Wang, et al.
Publicado: (2019)

Contrast‐enhanced spectral mammography: A potential exclusion diagnosis modality in dense breast patients
por: Qin, Yun, et al.
Publicado: (2020)

Real-time dense small object detection algorithm based on multi-modal tea shoots
por: Shuai, Luyu, et al.
Publicado: (2023)

Noncontact Sleep Study by Multi-Modal Sensor Fusion
por: Chung, Ku-young, et al.
Publicado: (2017)

Recognition of multi-modal fusion images with irregular interference
por: Wang, Yawei, et al.
Publicado: (2022)

Deep Learning Post-Filtering Using Multi-Head Attention and Multiresolution Feature Fusion for Image and Intra-Video Quality Enhancement
por: Schiopu, Ionut, et al.
Publicado: (2022)

Aircraft Detection for Remote Sensing Image Based on Bidirectional and Dense Feature Fusion
por: Zhou, Liming, et al.
Publicado: (2021)

Semantic guidance network for video captioning
por: Guo, Lan, et al.
Publicado: (2023)

Deep multi-modal intermediate fusion of clinical record and time series data in mortality prediction
por: Niu, Ke, et al.
Publicado: (2023)

Multi-modal feature selection with anchor graph for Alzheimer's disease
por: Li, Jiaye, et al.
Publicado: (2022)

CNN-Based Multi-Modal Camera Model Identification on Video Sequences
por: Dal Cortivo, Davide, et al.
Publicado: (2021)

Multi-Modal Residual Perceptron Network for Audio–Video Emotion Recognition
por: Chang, Xin, et al.
Publicado: (2021)

Pilot Behavior Recognition Based on Multi-Modality Fusion Technology Using Physiological Characteristics
por: Li, Yuhan, et al.
Publicado: (2022)

Multi Modality Imaging Features of Cardiac Myxoma
por: McAllister, Brylie J.
Publicado: (2020)

Dense Trajectories and DHOG for Classification of Viewpoints from Echocardiogram Videos
por: Huang, Liqin, et al.
Publicado: (2016)

Multi-Modal Medical Image Fusion Based on FusionNet in YIQ Color Space
por: Guo, Kai, et al.
Publicado: (2020)

A Semantics-Assisted Video Captioning Model Trained With Scheduled Sampling
por: Chen, Haoran, et al.
Publicado: (2020)

Dynamic Video Image Segmentation Based on Dual Channel Convolutional Kernel and Multi-Frame Feature Fusion
por: Chen, Zuguo, et al.
Publicado: (2022)

Cannot write session to /tmp/vufind_sessions/sess_89sra9ahb4r0h4a2ok9as4t3fq