Cargando…

Reliability-Based Large-Vocabulary Audio-Visual Speech Recognition

Audio-visual speech recognition (AVSR) can significantly improve performance over audio-only recognition for small or medium vocabularies. However, current AVSR, whether hybrid or end-to-end (E2E), still does not appear to make optimal use of this secondary information stream as the performance is s...

Descripción completa

Detalles Bibliográficos
Autores principales:	Yu, Wentao, Zeiler, Steffen, Kolossa, Dorothea
Formato:	Online Artículo Texto
Lenguaje:	English
Publicado:	MDPI 2022
Materias:	Article
Acceso en línea:	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC9370936/ https://www.ncbi.nlm.nih.gov/pubmed/35898005 http://dx.doi.org/10.3390/s22155501

Ejemplares similares

Audio-Visual Speech and Gesture Recognition by Sensors of Mobile Devices
por: Ryumin, Dmitry, et al.
Publicado: (2023)

Noise-Robust Multimodal Audio-Visual Speech Recognition System for Speech-Based Interaction Applications
por: Jeon, Sanghun, et al.
Publicado: (2022)

Deep Spiking Neural Networks for Large Vocabulary Automatic Speech Recognition
por: Wu, Jibin, et al.
Publicado: (2020)

Using Morphological Data in Language Modeling for Serbian Large Vocabulary Speech Recognition
por: Pakoci, Edvin, et al.
Publicado: (2019)

Audio-Visual Speech Cue Combination
por: Arnold, Derek H., et al.
Publicado: (2010)

Eardrum-inspired soft viscoelastic diaphragms for CNN-based speech recognition with audio visualization images
por: Park, Seok-Jin, et al.
Publicado: (2023)

Speech and audio processing for coding, enhancement and recognition
por: Ogunfunmi, Tokunbo, et al.
Publicado: (2015)

Multimodal Sensor-Input Architecture with Deep Learning for Audio-Visual Speech Recognition in Wild
por: He, Yibo, et al.
Publicado: (2023)

Talker variability in audio-visual speech perception
por: Heald, Shannon L. M., et al.
Publicado: (2014)

No, There Is No 150 ms Lead of Visual Speech on Auditory Speech, but a Range of Audiovisual Asynchronies Varying from Small Audio Lead to Large Audio Lag
por: Schwartz, Jean-Luc, et al.
Publicado: (2014)

Speech and Non-Speech Audio-Visual Illusions: A Developmental Study
por: Tremblay, Corinne, et al.
Publicado: (2007)

Audio-Visual Causality and Stimulus Reliability Affect Audio-Visual Synchrony Perception
por: Li, Shao, et al.
Publicado: (2021)

Do gender differences in audio-visual benefit and visual influence in audio-visual speech perception emerge with age?
por: Alm, Magnus, et al.
Publicado: (2015)

Adaptation to Social-Linguistic Associations in Audio-Visual Speech
por: Babel, Molly
Publicado: (2022)

Longitudinal Speech Recognition in Noise in Children: Effects of Hearing Status and Vocabulary
por: Walker, Elizabeth A., et al.
Publicado: (2019)

Integrative interaction of emotional speech in audio-visual modality
por: Dong, Haibin, et al.
Publicado: (2022)

Contributions of local speech encoding and functional connectivity to audio-visual speech perception
por: Giordano, Bruno L, et al.
Publicado: (2017)

Audio-Visual Speech Timing Sensitivity Is Enhanced in Cluttered Conditions
por: Roseboom, Warrick, et al.
Publicado: (2011)

Audio-visual speech perception: a developmental ERP investigation
por: Knowland, Victoria CP, et al.
Publicado: (2014)

Face masks and speaking style affect audio-visual word recognition and memory of native and non-native speech
por: Smiljanic, Rajka, et al.
Publicado: (2021)

Neural Entrainment to Rhythmically Presented Auditory, Visual, and Audio-Visual Speech in Children
por: Power, Alan James, et al.
Publicado: (2012)

Audio Augmentation for Non-Native Children’s Speech Recognition through Discriminative Learning
por: Radha, Kodali, et al.
Publicado: (2022)

A CNN-Assisted Enhanced Audio Signal Processing for Speech Emotion Recognition
por: Mustaqeem,, et al.
Publicado: (2019)

Erratum: Neural entrainment to rhythmically-presented auditory, visual and audio-visual speech in children
por: Power, Alan J., et al.
Publicado: (2013)

Animated virtual characters to explore audio-visual speech in controlled and naturalistic environments
por: Thézé, Raphaël, et al.
Publicado: (2020)

Cue Integration in Categorical Tasks: Insights from Audio-Visual Speech Perception
por: Bejjanki, Vikranth Rao, et al.
Publicado: (2011)

Cross-Modal Matching of Audio-Visual German and French Fluent Speech in Infancy
por: Kubicek, Claudia, et al.
Publicado: (2014)

Audio-Visual Perception of Gender by Infants Emerges Earlier for Adult-Directed Speech
por: Richoz, Anne-Raphaëlle, et al.
Publicado: (2017)

Large Scale Functional Brain Networks Underlying Temporal Integration of Audio-Visual Speech Perception: An EEG Study
por: Kumar, G. Vinodh, et al.
Publicado: (2016)

Audio source separation and speech enhancement
por: Vincent, Emmanuel, et al.
Publicado: (2018)

Detecting Audio Adversarial Examples in Automatic Speech Recognition Systems Using Decision Boundary Patterns
por: Zong, Wei, et al.
Publicado: (2022)

Speech and audio signal processing: processing and perception of speech and music
por: Gold, Bernard, et al.
Publicado: (2011)

A Facial Feature and Lip Movement Enhanced Audio-Visual Speech Separation Model
por: Li, Guizhu, et al.
Publicado: (2023)

Involvement of Right STS in Audio-Visual Integration for Affective Speech Demonstrated Using MEG
por: Hagan, Cindy C., et al.
Publicado: (2013)

Effects of word familiarity and receptive vocabulary size on speech-in-noise recognition among young adults with normal hearing
por: Braza, Meredith D., et al.
Publicado: (2022)

Semantic Cues Modulate Children’s and Adults’ Processing of Audio-Visual Face Mask Speech
por: Schwarz, Julia, et al.
Publicado: (2022)

The Effect of Combined Sensory and Semantic Components on Audio–Visual Speech Perception in Older Adults
por: Maguinness, Corrina, et al.
Publicado: (2011)

Top-Down Predictions of Familiarity and Congruency in Audio-Visual Speech Perception at Neural Level
por: Kolozsvári, Orsolya B., et al.
Publicado: (2019)

Integrating Automatic Speech Recognition Technology Into Vocabulary Learning in a Flipped English Class for Chinese College Students
por: Jiang, Michael Yi-Chao, et al.
Publicado: (2022)

Neural oscillations in the temporal pole for a temporally congruent audio-visual speech detection task
por: Ohki, Takefumi, et al.
Publicado: (2016)

Cannot write session to /tmp/vufind_sessions/sess_hl6nfd529ilnl9nmb4p1jp3pus