Cargando…

Multimodal Sensor-Input Architecture with Deep Learning for Audio-Visual Speech Recognition in Wild

This paper investigates multimodal sensor architectures with deep learning for audio-visual speech recognition, focusing on in-the-wild scenarios. The term “in the wild” is used to describe AVSR for unconstrained natural-language audio streams and video-stream modalities. Audio-visual speech recogni...

Descripción completa

Detalles Bibliográficos
Autores principales:	He, Yibo, Seng, Kah Phooi, Ang, Li Minn
Formato:	Online Artículo Texto
Lenguaje:	English
Publicado:	MDPI 2023
Materias:	Article
Acceso en línea:	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9959127/ https://www.ncbi.nlm.nih.gov/pubmed/36850432 http://dx.doi.org/10.3390/s23041834

Ejemplares similares

Binary Neural Networks in FPGAs: Architectures, Tool Flows and Hardware Comparisons
por: Su, Yuanxin, et al.
Publicado: (2023)

Multimodal analytics for next-generation big data technologies and applications
por: Seng, Kah Phooi, et al.
Publicado: (2019)

Natural Inspired Intelligent Visual Computing and Its Application to Viticulture
por: Ang, Li Minn, et al.
Publicado: (2017)

Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices
por: Ryumin, Dmitry, et al.
Publicado: (2023)

Noise-Robust Multimodal Audio-Visual Speech Recognition System for Speech-Based Interaction Applications
por: Jeon, Sanghun, et al.
Publicado: (2022)

Systematic literature review on audio-visual multimodal input in listening comprehension
por: Shaojie, Tan, et al.
Publicado: (2022)

Swarm Intelligence Internet of Vehicles Approaches for Opportunistic Data Collection and Traffic Engineering in Smart City Waste Management
por: Ijemaru, Gerald K., et al.
Publicado: (2023)

Reliability-Based Large-Vocabulary Audio-Visual Speech Recognition
por: Yu, Wentao, et al.
Publicado: (2022)

Audio-Visual Speech Cue Combination
por: Arnold, Derek H., et al.
Publicado: (2010)

Speech and audio processing for coding, enhancement and recognition
por: Ogunfunmi, Tokunbo, et al.
Publicado: (2015)

Integrating audio and visual modalities for multimodal personality trait recognition via hybrid deep learning
por: Zhao, Xiaoming, et al.
Publicado: (2023)

Talker variability in audio-visual speech perception
por: Heald, Shannon L. M., et al.
Publicado: (2014)

Drone-Based Environmental Monitoring and Image Processing Approaches for Resource Estimates of Private Native Forest
por: Srivastava, Sanjeev Kumar, et al.
Publicado: (2022)

Speech and Non-Speech Audio-Visual Illusions: A Developmental Study
por: Tremblay, Corinne, et al.
Publicado: (2007)

Do gender differences in audio-visual benefit and visual influence in audio-visual speech perception emerge with age?
por: Alm, Magnus, et al.
Publicado: (2015)

Eardrum-inspired soft viscoelastic diaphragms for CNN-based speech recognition with audio visualization images
por: Park, Seok-Jin, et al.
Publicado: (2023)

Adaptation to Social-Linguistic Associations in Audio-Visual Speech
por: Babel, Molly
Publicado: (2022)

Integrative interaction of emotional speech in audio-visual modality
por: Dong, Haibin, et al.
Publicado: (2022)

Contributions of local speech encoding and functional connectivity to audio-visual speech perception
por: Giordano, Bruno L, et al.
Publicado: (2017)

Audio-Visual Speech Timing Sensitivity Is Enhanced in Cluttered Conditions
por: Roseboom, Warrick, et al.
Publicado: (2011)

Audio-visual speech perception: a developmental ERP investigation
por: Knowland, Victoria CP, et al.
Publicado: (2014)

Face masks and speaking style affect audio-visual word recognition and memory of native and non-native speech
por: Smiljanic, Rajka, et al.
Publicado: (2021)

Neural Entrainment to Rhythmically Presented Auditory, Visual, and Audio-Visual Speech in Children
por: Power, Alan James, et al.
Publicado: (2012)

Speech Discrimination in Real-World Group Communication Using Audio-Motion Multimodal Sensing
por: Nozawa, Takayuki, et al.
Publicado: (2020)

A CNN-Assisted Enhanced Audio Signal Processing for Speech Emotion Recognition
por: Mustaqeem,, et al.
Publicado: (2019)

Audio Augmentation for Non-Native Children’s Speech Recognition through Discriminative Learning
por: Radha, Kodali, et al.
Publicado: (2022)

Erratum: Neural entrainment to rhythmically-presented auditory, visual and audio-visual speech in children
por: Power, Alan J., et al.
Publicado: (2013)

No, There Is No 150 ms Lead of Visual Speech on Auditory Speech, but a Range of Audiovisual Asynchronies Varying from Small Audio Lead to Large Audio Lag
por: Schwartz, Jean-Luc, et al.
Publicado: (2014)

Multimodal Hallucination (Audio-visual, Kinaesthetic and Scenic) Associated with the Use of Zolpidem
por: Ram, Dushad, et al.
Publicado: (2015)

Cue Integration in Categorical Tasks: Insights from Audio-Visual Speech Perception
por: Bejjanki, Vikranth Rao, et al.
Publicado: (2011)

Cross-Modal Matching of Audio-Visual German and French Fluent Speech in Infancy
por: Kubicek, Claudia, et al.
Publicado: (2014)

Audio-Visual Perception of Gender by Infants Emerges Earlier for Adult-Directed Speech
por: Richoz, Anne-Raphaëlle, et al.
Publicado: (2017)

Animated virtual characters to explore audio-visual speech in controlled and naturalistic environments
por: Thézé, Raphaël, et al.
Publicado: (2020)

Audio source separation and speech enhancement
por: Vincent, Emmanuel, et al.
Publicado: (2018)

The Ryerson Audio-Visual Database of Emotional Speech and Song (RAVDESS): A dynamic, multimodal set of facial and vocal expressions in North American English
por: Livingstone, Steven R., et al.
Publicado: (2018)

Automatic Assessment of Aphasic Speech Sensed by Audio Sensors for Classification into Aphasia Severity Levels to Recommend Speech Therapies
por: Herath, Herath Mudiyanselage Dhammike Piyumal Madhurajith, et al.
Publicado: (2022)

Speech and audio signal processing: processing and perception of speech and music
por: Gold, Bernard, et al.
Publicado: (2011)

Multimodal transformer augmented fusion for speech emotion recognition
por: Wang, Yuanyuan, et al.
Publicado: (2023)

Detecting Audio Adversarial Examples in Automatic Speech Recognition Systems Using Decision Boundary Patterns
por: Zong, Wei, et al.
Publicado: (2022)

The Effect of Combined Sensory and Semantic Components on Audio–Visual Speech Perception in Older Adults
por: Maguinness, Corrina, et al.
Publicado: (2011)

Cannot write session to /tmp/vufind_sessions/sess_01i9s593qn661je1rj7c74i2j1