Cargando…

Multimodal Speaker Diarization Using a Pre-Trained Audio-Visual Synchronization Model

Speaker diarization systems aim to find ‘who spoke when?’ in multi-speaker recordings. The dataset usually consists of meetings, TV/talk shows, telephone and multi-party interaction recordings. In this paper, we propose a novel multimodal speaker diarization technique, which finds the active speaker...

Descripción completa

Detalles Bibliográficos
Autores principales:	Ahmad, Rehan, Zubair, Syed, Alquhayz, Hani, Ditta, Allah
Formato:	Online Artículo Texto
Lenguaje:	English
Publicado:	MDPI 2019
Materias:	Article
Acceso en línea:	https://www.ncbi.nlm.nih.gov/pmc/articles/PMC6929047/ https://www.ncbi.nlm.nih.gov/pubmed/31775385 http://dx.doi.org/10.3390/s19235163

Ejemplares similares

Development of Supervised Speaker Diarization System Based on the PyAnnote Audio Processing Library
por: Khoma, Volodymyr, et al.
Publicado: (2023)

Automatic speaker diarization for natural conversation analysis in autism clinical trials
por: O’Sullivan, James, et al.
Publicado: (2023)

Supervised Speaker Diarization Using Random Forests: A Tool for Psychotherapy Process Research
por: Fürer, Lukas, et al.
Publicado: (2020)

Off-Screen Sound Separation Based on Audio-visual Pre-training Using Binaural Audio
por: Yoshida, Masaki, et al.
Publicado: (2023)

Rhythmic synchronization tapping to an audio–visual metronome in budgerigars
por: Hasegawa, Ai, et al.
Publicado: (2011)

Towards Parallel Selective Attention Using Psychophysiological States as the Basis for Functional Cognition
por: Kanwal, Asma, et al.
Publicado: (2022)

Effects of Virtual Speaker Density and Room Reverberation on Spatiotemporal Thresholds of Audio-Visual Motion Coherence
por: Sankaran, Narayan, et al.
Publicado: (2014)

Synchronization and title sequences: audio-visual semiosis in motion graphics
por: Betancourt, Michael
Publicado: (2017)

Classifier Level Fusion of Accelerometer and sEMG Signals for Automatic Fitness Activity Diarization
por: Biagetti, Giorgio, et al.
Publicado: (2018)

Synchronized Audio-Visual Transients Drive Efficient Visual Search for Motion-in-Depth
por: Zannoli, Marina, et al.
Publicado: (2012)

Multimodal Hallucination (Audio-visual, Kinaesthetic and Scenic) Associated with the Use of Zolpidem
por: Ram, Dushad, et al.
Publicado: (2015)

Systematic literature review on audio-visual multimodal input in listening comprehension
por: Shaojie, Tan, et al.
Publicado: (2022)

A comparison of text versus audio for information comprehension with future uses for smart speakers
por: Leroy, Gondy, et al.
Publicado: (2019)

Multimodal Sensor-Input Architecture with Deep Learning for Audio-Visual Speech Recognition in Wild
por: He, Yibo, et al.
Publicado: (2023)

Audio-Visual Causality and Stimulus Reliability Affect Audio-Visual Synchrony Perception
por: Li, Shao, et al.
Publicado: (2021)

Cardio-audio synchronization drives neural surprise response
por: Pfeiffer, Christian, et al.
Publicado: (2017)

Noise-Robust Multimodal Audio-Visual Speech Recognition System for Speech-Based Interaction Applications
por: Jeon, Sanghun, et al.
Publicado: (2022)

Natural-Language-Driven Multimodal Representation Learning for Audio-Visual Scene-Aware Dialog System
por: Heo, Yoonseok, et al.
Publicado: (2023)

Integrating audio and visual modalities for multimodal personality trait recognition via hybrid deep learning
por: Zhao, Xiaoming, et al.
Publicado: (2023)

Speakers exhibit a multimodal Lombard effect in noise
por: Trujillo, James, et al.
Publicado: (2021)

Incorporating Interpersonal Synchronization Features for Automatic Emotion Recognition from Visual and Audio Data during Communication
por: Quan, Jingyu, et al.
Publicado: (2021)

Do gender differences in audio-visual benefit and visual influence in audio-visual speech perception emerge with age?
por: Alm, Magnus, et al.
Publicado: (2015)

The audio-visual : the availability and exploitation of nonprint material with special reference to libraries
por: Dove, Jack
Publicado: (1975)

Audio motor training improves mobility and spatial cognition in visually impaired children
por: Cappagli, Giulia, et al.
Publicado: (2019)

Material audio visual : su naturaleza y utilización/
por: Wittich, Walter Arno
Publicado: (1965)

Audio-visual onset differences are used to determine syllable identity for ambiguous audio-visual stimulus pairs
por: ten Oever, Sanne, et al.
Publicado: (2013)

Audio-Visual Speech Cue Combination
por: Arnold, Derek H., et al.
Publicado: (2010)

Audio-Visual Detection Benefits in the Rat
por: Gleiss, Stephanie, et al.
Publicado: (2012)

A diarized journey: an interpretative phenomenological analysis of the older person’s lived experience of a hip or knee replacement within a fast-track programme
por: Burger, Marisa, et al.
Publicado: (2023)

Head Tracking of Auditory, Visual, and Audio-Visual Targets
por: Leung, Johahn, et al.
Publicado: (2016)

Gold nanoparticles capped with L-glycine, L-cystine, and L-tyrosine: toxicity profiling and antioxidant potential
por: Ditta, Sarwar Allah, et al.
Publicado: (2023)

Synchronization of ear-EEG and audio streams in a portable research hearing device
por: Dasenbrock, Steffen, et al.
Publicado: (2022)

On the Challenges of Acoustic Energy Mapping Using a WASN: Synchronization and Audio Capture
por: García-Unzueta, Emiliano Ehecatl, et al.
Publicado: (2023)

Cortical Plasticity of Audio–Visual Object Representations
por: Naumer, Marcus J., et al.
Publicado: (2009)

Talker variability in audio-visual speech perception
por: Heald, Shannon L. M., et al.
Publicado: (2014)

The Development of Audio-Visual Integration for Temporal Judgements
por: Adams, Wendy J.
Publicado: (2016)

Feedback Modulates Audio-Visual Spatial Recalibration
por: Kramer, Alexander, et al.
Publicado: (2020)

A cortical circuit for audio-visual predictions
por: Garner, Aleena R., et al.
Publicado: (2021)

Audio-Visual Spatiotemporal Perceptual Training Enhances the P300 Component in Healthy Older Adults
por: Yang, Weiping, et al.
Publicado: (2018)

Audio-Visual Training in Older Adults: 2-Interval-Forced Choice Task Improves Performance
por: O’Brien, Jessica M., et al.
Publicado: (2020)

Cannot write session to /tmp/vufind_sessions/sess_ujq67fnmubravhviuaqspi6trk