IRCAM - Centre PompidouServeur © IRCAM - CENTRE POMPIDOU 1996-2005.
Tous droits réservés pour tous pays. All rights reserved.

Comparaison de profils sémantiques et de l'espace perceptif de timbres musicaux

Anne Faure et Stephen McAdams

CFA: Congrès Français d'Acoustique, Marseille, France, Avril 1997
Copyright © S.F.A., TEKNEA 1997


SUMMARY

The purpuse of this study is to compare semantical profiles and perceptual dimensions of musical timbre. In a previous experiment, we extracted 23 most often used verbal attributes from spontaneous verbalizations describing similarities and differences between pairs of timbres and we tried to compare their use with the relative positions of timbres along each perceptual dimension. In this experiment, we used a VAME paradigm to test more quantitatively these verbal attributes. 12 synthetic sounds were presented and rated on each of the 23 unipolar semantic scales. Several distances (ether euclidien or from Tversky's model of similarity) between timbres were then calculated and the MDS semantical models obtained were compared to perceptual one. The structure of semantical and perceptual models differed a lot and the correlations with the semantical scales leads us to prefer a model in two dimensions without specificities derived from a distance directly obtained from Tversky's model.

1. INTRODUCTION

Cette étude s'insère dans une recherche globale de compréhension de ce qu'est le timbre musical. En effet nous avons différents types de représentations (acoustique, perceptive, sémantique, verbale...) de ce phénomène qui nous permet de différencier deux sons ayant même hauteur, même longueur et même sonie.

Des recherches depuis Helmholtz (1863/1954) ont permi de préciser certaines de ces représentations. La présente étude se fixe pour but de dévoiler les liens existant entre les représentations perceptives et sémantiques du timbre et ce à travers des verbalisations. En effet, depuis Grey (1977), différentes études de la représentation perceptive du timbres à partir d'analyses multidimensionnelles de jugements de dissemblance entre deux sons d'une paire ont aboutit à une modélisation de cette représentation sous forme d'espace en trois dimensions partagées par l'ensemble des sons et des spécificités pour certains d'entre eux (McAdams et al. (1995)). Des corrélats acoustiques de ces dimen,sions perceptives ont été recherchés et ont permi de lier la première dimensions perceptive à un temps d'attaque (LTM ou logarythme du temps de montée de l'enveloppe temporelle), la deuxième à l'importance relative des partiels aigus et graves (CGS ou centre de gravité spectral) et la troisième à la notion de structure fine du spectre, s'écartant plus ou moins de son enveloppe (Krimphoff et al. (1994)).

Nous avons commencé à rechercher de la même manière des corrélats verbaux de ces dimensions perceptives (Faure (1996)). Tout d'abord en analysant des verbalisations libres concourrantes à une tâche classique de dissemblance. Ceci nous a permi d'une part d'obtenir un espace perceptif en situation de verbalisation, espace en 4 dimensions sans spécificités dont les deux premières dimensions sont fortement corrélées à celles obtenues sans verbalisations dans les études précédentes (Krumhansl (1989) et McAdams et al. (1995)). Cette étude nous a permi d'autre part de dégager un vocabulaire pertinent pour parler du timbre et de trouver quatre corrélats verbaux principaux pour chacunes des dimensions perceptives parmi les 23 attributs verbaux les plus fréquemment utilisés pour comparer les timbres.

La présente expérience reprend ces 23 attributs verbaux pour construire autant d'échelle sémantiques unipolaires suivant l'amélioration proposée par Kendall & Carterette (1992a) à la technique classique de sémantique différentielle (Osgood et al. (1957)). Dans un premier temps, nous nous sommes attachés à retrouver des corrélats verbaux des dimensions perceptives dans un cadre plus quantitatif qu'à partir de verbalisations libres (Faure et al. (1996)). Il s'agit maintenat d'utiliser les profils sémantiques obtenus pour chaque timbre à partir des 23 mots proposés pour calculer plusieurs types de distances entre les timbres et chercher à modéliser la représentation sémantique obtenue grâce à un espace multidimensionnel.

2. METHODE

2.1. Sujets

Trente deux sujets ont participés à cette expérience. Seize d'entre eux avaient participé à l'expérience précédente. Les sujets de cette autre expérience comprennaient 9 musiciens (professionnels ou amateurs ayant au moins 10 ans d'expérience) et 7 non musiciens. La plupart des nouveaux sujets étaient amateurs avec quelques années d'expérience : seuls trois d'entre eux étaient de vrais non musiciens. Les sujets avaient entre 20 et 35 ans et comprennaient un nombre égal d'hommes et de femmes.

2.2 Stimuli

Les 12 sons utilisés ont été synthéthisés avec un Yamaha TX802 Tone Generator. Ils ont été extraits d'un ensemble developpé par Wessel et al. (1987). Les sons devaient soit imiter certains instruments traditionnels occidentaux (comme par exemple la trompette(T2), le trombonne (T3), le vibraphonne (T7), la harpe (T10) le cor Anglais (T11), la clarinette (T14), la corde frottée (T19) le piano (T20) et le piano échantillonné (T9)) oureprésenter un hybride chimérique d'instruments connus (par exemple le "striano" (T8) est un hybride de corde frottée et de piano, le "vibrone" est un hybride de vibraphon, et de trombonne et le "obochord" (T16) est un hybride de hautbois et de harpe). Tous les sons étaient produits à la même hauteur (fréquence fondammentale de 331Hz ou Mib4) et étaient égalisés perceptivement en durée (environs 600 ms) et en sonie (mezzo forte : environ 50 sur l'échelle de vélocités MIDI qui controle l'intensité dans les synthétiseurs digitaux commerciaux).

2.3 Procédure

Nous avons utilisé la procédure de "Verbal Attributes Magnitude Estimation" (VAME) de Kendall & Carterette (1992a) . L'expérience était contrôlée par PsyExp, logiciel développé à l'IRCAM par Smith (1995). Les 23 attributs verbaux sélectionnés sont tirés au sort et, pour chacun d'eux, une échelle sémantique est proposée (entre "peu métallique" et "très métallique" par exemple). Les 12 sons tirés au sort devaient etre positionnés sur cette échelle deux fois de suite : la première fois servait d'entrainement et la deuxième fois, lors du recueil des données, on demandait en outre aux sujets de dire si ce mot lui paraissait adapé pour décrire le son jugé. Avant de tester l'attribut verbal suivant, le sujets devait dire si ce mot lui paraissait globalement approprié pour décrire cet ensemble de sons.

3. RESULTATS

Chaque timbre T possède donc un profil sémantique constitué des valeurs xiT comprises entre "peu XXX" et "très XXX" pour chaque sujet et chacun des 23 mots (i) ainsi que l'avis de chaque sujet sur son adéquation pour décrire le timbre considéré. A partir de ceci, nous avons calculé 5 distances différentes. Pour chacune d'elles, nous effectuons une analyse MDS avec le programme Exscal développé par Winsberg, 1989a.

3.1. Analyses multidimensionnelles

Nous avons choisi de calculer deux distances de type euclidien (DE)et trois distances dérivées de la notion de similarité proposée par Tversky,(1977) DT. Ainsi est une distance euclidienne simple (éq. 1). est aussi une distance euclidienne mais calculée avec xiT = 0 pour tous les mots i consédérés comme non pertinent pour décrire le timbre T pour un sujet donné.

Pour les distances calculées à partir du model de Tversky (éq. 2), est calculée en considérant ques les mots communs aux deux sons ont autant d'importance que les mots différant ( = = 1). La fonction f est le cardinal de l'ensemble considéré et un mot est considéré comme définissant le timbre T si la valeur de xiT considérée dépasse un seuil arbitrairement fixé ici à 0.75. Pour la distance , un mot est considéré comme définissant le timbre T si il est considéré comme pertinent pour décrire ce timbre. Enfin (éq. 3) ne diffère de que par les valeurs de et ( étant d'autant plus grand que xiT1 et xiT2 sont proches, étant proportionnel à xiT, avec xiT=0 pour tous les mots non pertinents pour le timbre T)

La procédure utilisée pour déterminer le modèle le plus approprié aux données, c'est à dire le nombre de dimensions pour lesquelles les distances représenteront le mieux la structure des relations de dissemblances, consiste en la comparaison du critère d'information BIC (Winsberg et Carrol, 1989). On cherche donc le modèle donnant la valeur minimale de ces indices. Les modèles obtenus à partir des deux distances de type euclidien ne font apparaitre aucune structure d'espace. Les modèles les plus appropriés pour les autres types de distances sont : 2 dimensions sans spécificités pour la distance et une dimension avec specificités pour les distances et .

3.2. Corrélations avec les dimensions perceptives, acoustiques et sémantiques.

Nous avons tout d'abord calculé les corrélations entre les positions des timbres sur les dimensions des trois modèles sémantiques obtenus ci-dessus et les positions de ces timbres sur les dimensions de l'espace perceptif dégagé dans l'étude précédente (Faure et al., 1996). La seule corrélation significative obtenue est entre la quatrième dimension de l'espace perceptif précédent et la deuxième dimension sémantique dérivée de la distance (r=-.61; p<.05; dl=10). Les deux espaces perceptif et sémantique ne sont donc pas isomorphes. Les corrélations calculées entre les positions des timbres sur les dimensions "sémantiques" et les différents paramètres acoustiques proposés par Krimphoff et al. (1994) sont significatives seulement entre les dimensions 1 dérivée des distances et et une mesure de flux spectral (respectivement : r=-.58; p<.05; et r=.76; p<.01; dl=10). Les corrélations effectuées avec les positions moyennes sur chacune des 23 échelles sémantiques aboutissent elles aussi à peu de corrélations significatives : Pour l'espace dérivé de la distance , la première dimension sémantique est fortement corrélée (p<.01; dl=10) à net, pas sourd et pas diffus et assez bien corrélée (p<.05; dl=10) à clair, aigu, brillant, pas bas et haut. La dimension dérivée de la distance ne présente qu'une corrélation significative avec long (r=.75; p<.01; dl=10), aucune corrélations significatives n'apparaissant avec la dimension dérivée de la distance .

4. DISCUSSION

Les 5 modèles multidimensionnels de la représentation sémantique du timbre proposés ici en calculant des distances à partir de profils sémantiques présentent donc une structure très différente des espaces perceptifs obtenus dans la littérature. Ils sont de plus difficilement reliable à des paramètres acoustiques permettant de décrire les sons. Nos représentations perceptives et sémantiques du timbres semblent donc assez éloignées l'une de l'autre.

De façon plus étonnante, nous n'avons trouvé de liens significatifs entre les dimensions perceptive calculées et les échelles sémantiques proposées que pour le modèle obtenu à partir de la distance faisant pourtant appel à un seuil arbitraire pour déterminer les mots appartenants aux profil sémantique de chacun des timbres. Il conviendrait dans un futur proche de faire varier ce seuil afin d'observer les modifications engendrées sur l'espace sémantique calculé.

5. REFERENCES

Faure, A. (1996). Analyse de protocoles verbaux obtenus en comparant des timbres musicaux. Deuxième Colloque Jeunes Chercheurs en Sciences Cognitives, Presqu'île de Giens (Vars).

Faure, A., McAdams, S. & Nosulenko, V. (1996). Verbal correlates of perceptual dimensions of timbre. 4Th International Conference on Music Perception and Cognition, Montréal.

Grey, J. M. (1977). "Multidimensional perceptual scaling of musical timbres." The Journal of the Acoustical Society of America 61(5): 1270-1277.

Helmholtz, H. L. F. v. (1863/1954). On the sensation of tone. New York: Dover.

Kendall, R. A. & Carterette, E. C. (1992a). "Verbal attributes of simultaneous wind instrument timbres. I- von Bismarck's adjectives." Music Perception 10: 445-468.

Krimphoff, J., McAdams, S. & Winsberg, S. (1994). "Caractérisation du timbre des sons complexes. II. Analyses acoustiques et quantification psychophysiques." Journal de Physique 4(C5): 625-628.

Krumhansl, C. L. (1989). Why is musical timbre so hard to understand ? Structure and perception of electroacoustic sound and music. S. NielzenO. Olsson. Amsterdam, Elsevier: 43-53.

McAdams, S., Winsberg, S., Donnadieu, S., De Soete, G. & Krimphoff, J. (1995). "Perceptual scaling of synthesized musical timbres : common dimensions, specificities, and latent subject classes." Psychological Research 58: 177-192.

Osgood, Suci & Tannenbaum (1957). The measurement of meaning. Urbana, University of Illinois Press.

Smith, B. (1995). PsiExp: an Environment for Psychoacoustic Experimentation Using the IRCAM Musical Workstation. Society for Music Perception and Cognition Conference '95, University of California, Berkeley.

Wessel, D. L., Bristow, D. & Settel, Z. (1987). Control of phrasing and articulation in synthesis. International Computer Music Conference, San Francisco.

Winsberg S. & Carroll, D. (1989). A quasi non-metric method for multidimal scaling via an extended Euclidian model. Psychometrika, 54, 217-229.

____________________________
Server © IRCAM-CGP, 1996-2008 - file updated on .

____________________________
Serveur © IRCAM-CGP, 1996-2008 - document mis à jour le .