Ircam-Centre Pompidou

Recherche

  • Recherche simple
  • Recherche avancée

    Panier électronique

    Votre panier ne contient aucune notice

    Connexion à la base

  • Identification
    (Identifiez-vous pour accéder aux fonctions de mise à jour. Utilisez votre login-password de courrier électronique)

    Entrepôt OAI-PMH

  • Soumettre une requête

    Consulter la notice détailléeConsulter la notice détaillée
    Version complète en ligneVersion complète en ligne
    Version complète en ligne accessible uniquement depuis l'IrcamVersion complète en ligne accessible uniquement depuis l'Ircam
    Ajouter la notice au panierAjouter la notice au panier
    Retirer la notice du panierRetirer la notice du panier

  • English version
    (full translation not yet available)
  • Liste complète des articles

  • Consultation des notices


    Vue détaillée Vue Refer Vue Labintel Vue BibTeX  

    Catégorie de document Mémoire ou rapport de stage
    Titre Segmentation non-supervisée d'un flux de parole en syllabes
    Auteur principal François Lamare
    Cadre du mémoire ou du rapport Master M2 ATIAM
    Université ou établissement UPMC
    Directeur Nicolas Obin
    Année 2012
    Statut éditorial Non publié
    Résumé

    L’objectif du stage a été de réaliser une nouvelle méthode de segmentation d’un flux de parole en syllabes. La finalité d’un tel travail serait de pouvoir identifier distinctement les syllabes qui composent ce flux de parole. En effet, la syllabe est l’unité de base de la prosodie. Les identifier permettrait donc de modifier certaines caractéristiques prosodiques de la voix (la fréquence fondamentale par exemple) à une échelle appropriée, ou bien d’intégrer ces caractéristiques dans des systèmes de synthèse de la parole. Le travail accompli a abouti à deux méthodes de segmentation syllabique non-supervisées. La pierre angulaire de ces méthodes est l’application de critères de voisement, fondés sur l’entropie de Rényi ou une mesure de VUV, à une représentation temps-fréquence multi- bandes d’un signal de parole. L’entropie de Rényi, généralisation de l’entropie de Shannon, permet de quantifier le degré d’organisation du signal. Nous partons alors de l’hypothèse que ce degré d’organisation diffère selon que l’on considère un segment de parole ou un segment sans parole. Le VUV est une autre mesure du degré de voisement dans un signal. L’intérêt d’une telle approche réside dans le fait que l’on peut écarter les trames ou les bandes fréquentielles non pertinentes pour la segmentation en syllabes. Les performances de segmentation des deux méthodes proposées ont été évaluées et com- parées à celles de méthodes déjà existantes de l’état de l’art. L’évaluation s’est faite sur des critères de bonne segmentation, de taux d’insertions/omissions de syllabes et de F-measure, en comparant la segmentation obtenue par l’une des méthodes à une segmentation manuelle de référence. Les premiers résultats semblent montrer que l’approche retenue, fondée essentiellement sur une analyse multi-bandes à laquelle on applique un critère de voisement, est vraiment pertinente pour la segmentation syllabique, et qu’elle devrait être approfondie.

    Mots-clés segmentation / traitement de la parole / syllabe / prosodie
    Equipe Analyse et synthèse sonores
    Cote Lamare12a
    Adresse de la version en ligne http://articles.ircam.fr/textes/Lamare12a/index.pdf

    © Ircam - Centre Pompidou 2005.