HMM-based Automatic Visual Speech Segmentation Using Facial Data

Utpala Musti; Asterios Toutios; Slim Ouni; Vincent Colotte; Brigitte Wrobel-Dautcourt; Marie-Odile Berger

Communication Dans Un Congrès Année : 2010

HMM-based Automatic Visual Speech Segmentation Using Facial Data

(1) , (1) , (1) , (1) , (2) , (2)

1
2

Utpala Musti

Fonction : Auteur
PersonId : 880717

Analysis, perception and recognition of speech

Asterios Toutios

Fonction : Auteur
PersonId : 855198

Analysis, perception and recognition of speech

Slim Ouni

Fonction : Auteur
PersonId : 1158
IdHAL : slim-ouni
ORCID : 0000-0001-5286-7368

Analysis, perception and recognition of speech

Vincent Colotte

Fonction : Auteur
PersonId : 16268
IdHAL : vincent-colotte
IdRef : 070401683

Analysis, perception and recognition of speech

Brigitte Wrobel-Dautcourt

Fonction : Auteur
PersonId : 830676

Visual Augmentation of Complex Environments

Marie-Odile Berger

Fonction : Auteur
PersonId : 830601

Visual Augmentation of Complex Environments

Résumé

We describe automatic visual speech segmentation using facial data captured by a stereo-vision technique. The segmentation is performed using an HMM-based forced alignment mechanism widely used in automatic speech recognition. The idea is based on the assumption that using visual speech data alone for the training might capture the uniqueness in the facial compo- nent of speech articulation, asynchrony (time lags) in visual and acoustic speech segments and significant coarticulation effects. This should provide valuable information that helps to show the extent to which a phoneme may affect surrounding phonemes visually. This should provide information valuable in labeling the visual speech segments based on dominant coarticulatory contexts.

Mots clés

facial speech speech segmentation forced alignment coarticulation

Domaines

Autre [q-bio.OT] Multimédia [cs.MM] Synthèse d'image et réalité virtuelle [cs.GR] Traitement du signal et de l'image [eess.SP] Traitement du signal et de l'image [eess.SP]

Fichier principal

IS10-UM.pdf (217.75 Ko)

Origine : Fichiers produits par l'(les) auteur(s)

Slim Ouni : Connectez-vous pour contacter le contributeur

https://inria.hal.science/inria-00526776

Soumis le : vendredi 15 octobre 2010-16:55:46

Dernière modification le : jeudi 15 février 2024-03:32:07

Archivage à long terme le : lundi 17 janvier 2011-10:53:11

Dates et versions

inria-00526776 , version 1 (15-10-2010)

Identifiants

HAL Id : inria-00526776 , version 1

Citer

Utpala Musti, Asterios Toutios, Slim Ouni, Vincent Colotte, Brigitte Wrobel-Dautcourt, et al.. HMM-based Automatic Visual Speech Segmentation Using Facial Data. Interspeech 2010, ISCA, Sep 2010, Makuhari, Chiba, Japan. pp.1401-1404. ⟨inria-00526776⟩

Exporter

BibTeX XML-TEI Dublin Core DC Terms EndNote DataCite

Collections

UNIV-RENNES1 CNRS INRIA IRISA UNIV-LORRAINE INRIA2 LORIA UR1-MATH-STIC UR1-UFR-ISTIC UNIV-RENNES ANR UR1-MATH-NUM

362 Consultations

253 Téléchargements

HMM-based Automatic Visual Speech Segmentation Using Facial Data

Résumé

Mots clés

Domaines

Dates et versions

Identifiants

Citer

Exporter

Collections

Partager