Ircam-Centre Pompidou

Recherche

  • Recherche simple
  • Recherche avancée

    Panier électronique

    Votre panier ne contient aucune notice

    Connexion à la base

  • Identification
    (Identifiez-vous pour accéder aux fonctions de mise à jour. Utilisez votre login-password de courrier électronique)

    Entrepôt OAI-PMH

  • Soumettre une requête

    Consulter la notice détailléeConsulter la notice détaillée
    Version complète en ligneVersion complète en ligne
    Version complète en ligne accessible uniquement depuis l'IrcamVersion complète en ligne accessible uniquement depuis l'Ircam
    Ajouter la notice au panierAjouter la notice au panier
    Retirer la notice du panierRetirer la notice du panier

  • English version
    (full translation not yet available)
  • Liste complète des articles

  • Consultation des notices


    Vue détaillée Vue Refer Vue Labintel Vue BibTeX  

    Catégorie de document Article paru dans une revue
    Titre Similarity Search of Acted Voices for Automatic Voice Casting
    Auteur principal Nicolas Obin
    Co-auteur Axel Roebel
    Paru dans IEEE/ACM Transactions on Audio, Speech and Language Processing, Septembre 2016, Vol. 24, n° 9
    Comité de lecture Oui
    Année 2016
    Statut éditorial Accepté - publication en cours
    Résumé

    This paper presents a large-scale similarity search of professionally acted voices for computer-aided voice casting. The proposed voice casting system explores GMM-based acoustic models and multi-label recognition of perceived para-linguistic content (speaker states and speaker traits, e.g., age/gender, voice quality, emotion) for the voice casting of professionally acted voices. First, acoustic models (universal background model, super-vector, i-vector) are constructed to model the acoustic space of voices, from which the similarity between voices can be measured directly in the acoustic space. Second, multiple binary classification of speaker traits and states is added to the acoustic models in order to represent the vocal signature of a voice, which is then used to measure the similarity between voices in the para-linguistic space. Finally, a similarity search is processed in order to determine the set of target actors that are the most similar to the voice of a source actor. In a subjective experiment conducted in the real-context of cross-language voice casting, the multi-label scoring system significantly outperforms the acoustic scoring system. This constitutes a proof of concept for the role of perceived para-linguistic categories in the perception of voice similarity.

    Mots-clés voice casting / voice similarity / speaker recog-nition / speaker traits and states / para-linguistics / multi-label classification
    Equipe Analyse et synthèse sonores
    Cote Obin16a
    Adresse de la version en ligne http://architexte.ircam.fr/textes/Obin16a/index.pdf

    © Ircam - Centre Pompidou 2005.