Résumé |
L’objectif du stage a été de réaliser une nouvelle méthode de segmentation d’un flux de parole en syllabes. La finalité d’un tel travail serait de pouvoir identifier distinctement les syllabes qui composent ce flux de parole. En effet, la syllabe est l’unité de base de la prosodie. Les identifier permettrait donc de modifier certaines caractéristiques prosodiques de la voix (la fréquence fondamentale par exemple) à une échelle appropriée, ou bien d’intégrer ces caractéristiques dans des systèmes de synthèse de la parole. Le travail accompli a abouti à deux méthodes de segmentation syllabique non-supervisées. La pierre angulaire de ces méthodes est l’application de critères de voisement, fondés sur l’entropie de Rényi ou une mesure de VUV, à une représentation temps-fréquence multi- bandes d’un signal de parole. L’entropie de Rényi, généralisation de l’entropie de Shannon, permet de quantifier le degré d’organisation du signal. Nous partons alors de l’hypothèse que ce degré d’organisation diffère selon que l’on considère un segment de parole ou un segment sans parole. Le VUV est une autre mesure du degré de voisement dans un signal. L’intérêt d’une telle approche réside dans le fait que l’on peut écarter les trames ou les bandes fréquentielles non pertinentes pour la segmentation en syllabes. Les performances de segmentation des deux méthodes proposées ont été évaluées et com- parées à celles de méthodes déjà existantes de l’état de l’art. L’évaluation s’est faite sur des critères de bonne segmentation, de taux d’insertions/omissions de syllabes et de F-measure, en comparant la segmentation obtenue par l’une des méthodes à une segmentation manuelle de référence. Les premiers résultats semblent montrer que l’approche retenue, fondée essentiellement sur une analyse multi-bandes à laquelle on applique un critère de voisement, est vraiment pertinente pour la segmentation syllabique, et qu’elle devrait être approfondie. |