Serveur © IRCAM - CENTRE POMPIDOU 1996-2005. Tous droits réservés pour tous pays. All rights reserved. |
Rapport Ircam 11/78, 1978
Copyright © Ircam - Centre Georges-Pompidou 1978
Dans cette présentation, je voudrais surtout insister sur le fait qu'au niveau même des attributs de hauteur et de timbre, et en dehors de contextes simplifiés, les choses sont moins simples qu'on ne le croit. Hauteur et timbre ne sont pas des paramètres physiques : ce sont des attributs de la perception. En donnant surtout des exemples dans le domaine musical, je parlerai de la relation de ces attributs à la structure physique objective des sons. Des techniques récentes d'analyse et de synthèse sonore, particulièrement à l'aide de l'ordinateur, ont permis de mieux cerner cette relation psychoacoustique, et je voudrais montrer qu'elle est plus complexe qu'on ne le pense généralement.
On définit généralement la hauteur comme la qualité qui fait distinguer un son grave d'un son aigu. On considère que la hauteur dépend de façon primordiale de la fréquence physique du signal sonore, et qu'on peut repérer la hauteur d'un son par la fréquence d'un son simple (sinusoïdal) donnant lieu à la même sensation de hauteur.
Il existe plusieurs définitions du timbre : on le définit parfois comme l'attribut qui permet de différencier deux sons de même hauteur et de même durée ; ou encore comme l'attribut qui permet de reconnaître l'origine du son - et en particulier de distinguer des sons émis par des instruments de musique différents. (Le mot timbre sert aussi à dénoter les différences de qualité sonore pour un instrument déterminé). On attribue généralement le timbre perçu à la complexité de la forme du son, soit encore au spectre en fréquence, c'est- à- dire au dosage d'harmoniques constituant la vibration sonore périodique.
On trouvera ces notions dans la plupart des ouvrages de physique(1) sous la rubrique "Acoustique : qualités physiologiques(2) des sons". Or, comme nous le verrons, ces notions sont tout-à-fait insuffisantes, de même que l'assimilation des sons musicaux aux sons périodiques.
Par exemple, un son comportant des composantes sinusoïdales de fréquences 1800 Hz, 2000 Hz et 2200 Hz, est perçu comme ayant la même hauteur qu'un son sinusoïdal de fréquence 200 Hz. Cela n'est pas dû a la création physique, par non- linéarité de l'oreille, d'une vibration sinusoïdale de 200 Hz en effet, on ne peut obtenir des battements avec des sons de fréquence voisine de 200 Hz ; d'autre part, un bruit capable de masquer un son sinusoïdal de fréquence 200 Hz ne masque pas le résidu, qui continue d'être entendu avec la même hauteur sonore. De plus, si l'on déplace de 40 Hz toutes les composantes le long de l'axe des fréquences (les composantes de fréquences 1840 Hz, 2040 Hz et 2240 Hz, ne sont alors plus harmoniques), Le complexe est perçu comme ayant la même hauteur qu'un son sinusoïdal de fréquence 204 Hz. Il ne s'agit donc pas d'un son "différentiel" : la hauteur sonore perçue ne correspond pas à l'espacement des raies spectrales, comme certains auteurs l'avaient supposé.
Une explication cohérente du phénomène du résidu suppose un mécanisme assez complexe pour la perception des hauteurs(7) (8) . La membrane basilaire de l'oreille interne fonctionne comme un analyseur à large bande, dont La résolution correspond à la "bande critique", soit environ un tiers d'octave(9)cette analyse détermine le pouvoir de résolution de composantes sinusoïdales simultanées et la fusion ou la possibilité de discrimination de ces composantes - mais non la discrimination des hauteurs.
En aval de cette analyse, s'effectue dans chaque bande une détection de périodicité, et un mécanisme de décision prend en compte ces détections pour inférer une hauteur.
Le phénomène du résidu peut apparaître lorsque les composantes du son ne sont pas résolues par l'analyse cochléaire. Dans ce cas, l'information sur des hauteurs graves peut être transportée par des canaux nerveux qui correspondraient pour des sons purs à des fréquences élevées.
Les expériences sur le résidu ont permis de préciser les mécanismes de perception des hauteurs. Mais il faut noter que ces expériences ont été effectuées en faisant appel à quelques sujets entraînés : or, lorsqu'on présente des signaux formés (par exemple) de sinusoïdes de fréquences 1800, 2000 et 2200 Hz, à des auditeurs non avertis, nombreux seront ceux qui perçoivent une hauteur aiguë, et non un son de timbre aiguë et de hauteur grave. Même les sujets qui perçoivent la hauteur du résidu peuvent entendre dans le même son une hauteur aiguë - qui sera renforcé si l'on interrompt périodiquement le signal. On voit que la perception de la hauteur résulte d'un mécanisme de décision extrayant l'attribut de hauteur - suivant des modes pouvant varier - à partir des indices sensoriels. Ces indices sont liés de façon indirecte au signal sonore : la configuration spatio-temporelle de la membrane basilaire détermine des influx nerveux suivant des modalités complexes; ces influx peuvent être interprétés en termes de hauteur de façon variable. On voit apparaître dans cet exemple la notion de deux "hauteurs" correspondant à un même son périodique(12), notion que nous allons développer maintenant.
[Cf. ex. 1 à 9] Grâce à la synthèse des sons par ordinateur, nous pouvons séparer les variations de hauteur "tonale" et hauteur "spectrale" : pour des sons formés d'octaves, la hauteur tonale varie quand on fait varier la fréquence fondamentale, et la hauteur spectrale varie lorsqu'on déplace l'enveloppe spectrale. Cette dissociation peut conduire à des variations de hauteur paradoxales : sons donnant l'illusion de monter ou descendre sans fin - paradoxe similaire à l'escalier de Penrose (fig. 1) - (hauteur tonale fixe), et sons qui descendent la gamme tout en devenant plus aigus (hauteurs spectrale et tonale variant en sens inverse).(10) (11) La hauteur spectrale le long d'un axe linéaire (cf. figure 2) - la pertinence de cette représentation est confirmée par l'analyse factorielle de tests subjectifs effectués par Charbonneau.(13) (14)
On peut sur cette figure interpréter les paradoxes précédents. Nous avons étudié la manière dont des auditeurs - ayant des degrés divers d'éducation musicale percevaient hauteur tonale et hauteur spectrale. Nos observations indiquent que le concept de hauteur sonore n'est pas le même pour tout le monde. Un exemple est particulièrement frappant à cet égard.(11) Nous avons fait comparer la hauteur de deux sons b et B. b comporte des composantes de même amplitude et de fréquences 49, 102, 211, 435, 896, 1843, 3788; B est déduit de b en doublant toutes les fréquences composantes (B comporte donc 7 composantes de 98 à 7576 Hz). [Cf. ex. 11]On s'attendrait à ce que B soit entendu plus haut que b. Or certains auditeurs entendent B plus haut que b, mais une majorité entend B plus bas que b - alors que B est déduit de b en doublant ses fréquences!
Certains auditeurs déclarent que lorsqu'on passe de B à b, un son monte et un autre descend. En réalité, toutes les composantes montent, mais la hauteur spectrale monte et la hauteur tonale descend (d'environ un demi-ton)[Cf. ex. 12].
En étudiant les réponses à de tels stimuli, qui dissocient les variations de hauteur spectrale et de hauteur tonale, on parvient à obtenir de différents sujets des réponses contraires - quoique très affirmatives - sur le sens d'une variation de hauteur. Cela suggère que le concept de hauteur sonore varie d'un individu à un autre suivant le poids respectivement attaché à la hauteur brute et à la hauteur tonale. Parmi les auditeurs, certains étaient pratiquement sourds aux hauteurs tonales, et incapables de dire, en l'absence d'indices de timbre, si une gamme montait ou descendait : mais ils pouvaient déceler finement des variations spectrales semblant insignifiantes à d'autres auditeurs. Deux de ces auditeurs étaient passionnés de haute fidélité, ce qui à première vue peut sembler paradoxal, mais ce qui se comprend bien en seconde analyse, puisqu'ils ne pouvaient se satisfaire des hauteurs tonales, qu'on peut extraire même dans un signal distordu, et qu'ils étaient sensibilisés a l'aspect spectral et donc exigeants pour sa restitution fidèle. A l'autre extrême, certains sujets, excellents musiciens, appréciaient de façon dominante la hauteur tonale pour évaluer la hauteur dans des cas ambigus. La majorité des sujets formulaient des jugements intermédiaires entre ces deux cas extrêmes. Le concept de hauteur tonale était fermement constitué chez tous les musiciens; lorsqu'il était mal constitué, c'était chez des sujets sans pratique musicale. A l'appui de ces observations, des études(15) (16) montrent que la similarité entre octaves, fondement de la hauteur tonale, existe pour tous les sujets mais est renforcée par l'éducation musicale. Les musiciens apprécient de façon cohérente des relations de hauteur tonale, mais l'appréciation des hauteurs "spectrales" reste plus vague, même pour des sujets très éduqués : ainsi les erreurs d'octave sont fréquentes lorsqu'on compare les hauteurs de sons de spectres très différents. Il y a des sons périodiques dont la hauteur est ambiguë - et cette ambiguïté, qui empêche d'assigner à la note une octave définie, peut n'apparaître que dans une tâche de comparaison avec un son de spectre différent. Lorsqu'une même note est chantée par un ténor et une contralto, de nombreux auditeurs sont convaincus que ]e ténor chante une octave plus haut. En collaboration avec Charbonneau, nous avons fait une expérience établissant (avec des sons composés d'octaves) que les mélodies "tonales" sont mieux perçues par l'oreille droite et que les mélodies "spectrales" sont mieux perçues par l'oreille gauche(17). Ces résultats sont en accord avec des conclusions antérieures sur la dissymétrie des hémisphères cérébraux, les mélodies tonales paraissant se prêter davantage à une reconnaissance analytique que les mélodies spectrales(18). Il faut rapprocher cette donnée de l'important résultat de Bever et Chiarello(18), qui ont établi que les sujets sans éducation musicale perçoivent mieux les mélodies avec l'oreille gauche, mais qu'au cours de l'éducation musicale, l'oreille droite devient la meilleure.(19)
Avant que la "haute fidélité" ne soit la règle, on pouvait identifier les instruments de musique dans les enregistrements, malgré d'importantes distorsions linéaires bouleversant les spectres. Le spectre d'un son est d'ailleurs facilement modifié, même lors d'une transmission aérienne. Ainsi les instruments de musique ont un rayonnement sonore anisotrope(22) : lorsqu'on tourne autour de l'instrument, le spectre entendu varie considérablement, mais cela n'affecte guère la reconnaissance auditive de l'instrument. Et la réponse en fréquence d'une salle réverbérante quelconque est très tourmentée et varie beaucoup lorsqu'on se déplace, même de quelques centimètres(23)les spectres sont donc extrêmement perturbés, sans que l'identification des sources sonores soit affectée.
[Cf. ex. 15] Il suffit de passer à l'envers une bande magnétique portant un enregistrement de piano pour modifier le timbre à tel point que l'instrument ne soit plus reconnaissable: or les spectres successifs sont restés les mêmes. Cette expérience simple indique l'importance des facteurs temporels pour le timbre - nous en donnerons d'autres exemples. Or ces facteurs temporels ont longtemps été méconnus. En effet, jusqu'à une époque récente, les appareils d'analyse sonore disponibles étaient très lents et ne pouvaient fournir pour un son qu'un spectre moyen, ou le spectre d'une période particulière (qu'on supposait se répéter identiquement à elle-même - la visualisation de quelques périodes successives faisant rarement apparaître de modification substantielle de la forme d'onde). Helmholtz(24) s'est rendu compte que "certaines particularités caractéristiques des sons de divers instruments dépendent de la façon dont ces sons débutent et se terminent; pourtant il a limité ses investigations aux particularités des sons musicaux indépendantes du temps, considérant qu'elles déterminaient la qualité musicale du son. La plupart des études ultérieures sur le timbre ont négligé l'aspect temporel du son. Toutefois les études de Stumpf(25)ont indiqué (voici plus de cinquante ans) l'importance des transitoires d'attaque pour la reconnaissance du son, mais les tentatives d'analyser les transitoires d'attaque de sons instrumentaux n'ont pas donné de résultats très significatifs. Les transitoires varient d'un son à un autre, même pour des sons auditivement semblables, et ce qui est significatif, c'est souvent toute l'évolution temporelle, pas seulement un transitoire initial précédant une phase stationnaire. On a tendu à généraliser hâtivement des conclusions particulières, ce qui a conduit à des contradictions qui ont jeté un certain discrédit sur les données acoustiques relatives au timbre: il a manqué à ces études une possibilité de synthèse pour vérifier et décanter les résultats des analyses.
Récemment sont apparus des moyens d'analyse plus adéquats, en particulier le sonagraphe, développé vers 1940 aux Bell Laboratories pour l'étude de la parole, et qui donne "un spectre évolutif", c'est-a-dire une analyse qui permet de suivre l'évolution temporelle du spectre. Le sonagraphe, qui donne du son une "photographie" capturant la plupart des détails significatifs, a permis de rendre compte de la raison d'être de certaines pratiques musicales qui paraissaient gratuites(26). Diverses modalités d'analyse ont pu être mises en oeuvre grâce à l'ordinateur. L'analyse du son démontre que les sons musicaux, loin d'être rigoureusement périodiques, sont souvent très complexes, elle met en évidence les variations au cours du son de certains paramètres, variations qui ne sont pas perçues comme telles, mais plutôt comme qualités distinctives, et elle permet d'énumérer nombre de particularités du son dont peut dépendre le timbre. Mais sans une vérification par synthèse cette énumération reste spéculative et elle ne donne pas la clé de ce qui caractérise certains timbres spécifiques.
L'ordinateur permet ainsi de mettre en oeuvre une méthode significative d'étude du timbre d'un instrument de musique. On analyse d'abord des sons de l'instrument - en faisant éventuellement appel à l'ordinateur. De cette analyse on extrait une description physique des sons: à partir de cette description on synthétise des sons, qui doivent être auditivement très proches des sons initiaux dans la mesure où l'analyse a retenu les paramètres importants du timbre. Ensuite on peut faire varier individuellement chaque paramètre du son synthétisé pour évaluer sa pertinence auditive, ce qui permet, en laissant tomber les paramètres non pertinents, de simplifier la synthèse - car les résultats des analyses sont très complexes - et de définir des modèles ou en tout cas une caractérisation du timbre de l'instrument.
[Cf. ex. 16 à 18] Ainsi les sons synthétisés à partir de descriptions "classique" de sons de trompette ne rappellent en rien les cuivres, mais une étude suivant cette méthode(28) a permis d'isoler certaines particularités importantes, et en particulier une propriété qu'on peut considérer comme un modèle des sons cuivrés: le fait que la proportion d'harmoniques aigus du spectre s'enrichit avec l'intensité. Chowning(29) a pu utiliser sa technique de modulation de fréquence pour réaliser ce modèle de variation des spectres avec l'intensité et obtenir simplement des sons cuivrés. Morrill(30)a pu ajouter au réalisme des synthèses en y ajoutant des "accidents", des déviations de la fréquence par rapport aux valeurs "justes" - déviations qui sont souvent perçues en termes de timbre.
[Cf. ex. 19 à 23] L'étude de la trompette montre que le timbre cuivré peut se caractériser non par la valeur de tel ou tel paramètre, mais par une relation entre divers paramètres. Il semble que ce soit souvent le cas. Nous donnerons d'autres exemples, mais nous parlerons surtout ici de l'étude du timbre du violon réalisée par Mathews(31) et qui lui a permis de dégager un modèle du timbre des cordes frottées : ce timbre est lié à une courbe de réponse tourmentée de l'instrument, avec un rapport dynamique entre pics et vallées ni trop fort (ce qui donnerait des sons creux et inégaux) ni trop faible (ce qui donnerait des sons ternes). Une telle courbe de réponse provoque, en liaison avec le vibrato (modulation périodique lente de la fréquence) une modulation spectrale très complexe(32) qui est typique de la qualité du vibrato de violon - par opposition au vibrato "électronique" résultant de la seule modulation de fréquence d'un spectre invariable. Mathews a pu réaliser un violon électronique qu'on joue comme un violon, mais dont la caisse est remplacée par des circuits réglables - et qui peuvent être réglés de façon que l'instrument se rapproche de très près d'un violon classique, ou au contraire de façon à ce qu'il s'éloigne. C'est ainsi qu'en remplaçant le circuit qui met en oeuvre le modèle décrit ci-dessus par un autre réalisant la propriété caractéristique des sons cuivrés, on peut obtenir - avec un archet - des sons évoquant la trompette!
[Cf. ex. 24 à 26] On peut encore par synthèse attribuer certaines qualités subjectives du son à certaines structures physiques. Ainsi une légère inharmonicité peut donner un sentiment de chaleur. On peut suggérer une extension de la source sonore en introduisant un décalage de quelques dizaines de millisecondes entre deux signaux identiques émis par deux haut-parleurs espacés.
La fonction auditive paraît constamment effectuer de véritables tests d'hypothèse sur le monde extérieur : ces tests, modelés par l'évolution phylogénétique et ontogénétique, sont bien sûr sans cesse confrontés aux données des autres canaux sensoriels avant que n'émerge une intégration(34) (35), une décision, une perception, une réponse. (Cf. également (36), (38) ).
Depuis Schoenberg et Varèse, les compositeurs se préoccupent toujours davantage d'intervenir d'une manière compositionnelle - et non seulement décorative - dans l'élaboration de la structure même du son(42). Ligeti crée instrumentalement des polyphonies serrées, des tissages sonores qui composent des timbres.
[Cf. ex. 28 à 32]
Dans une importante étude du timbre instrumental, Grey(39) a
accompli à l'aide de l'ordinateur des interpolations entre sons de
timbres différents - non pas fondus enchaînés, mais métamorphoses progressives
d'un timbre à un autre. On voit s'ouvrir la possibilité de
parcours continus dans l'espace des timbres, et la perspective de compositions
élaborés de la micro-structure sonore - non content de composer avec des sons, on pourra composer
le son lui-même. L'ordinateur permet un contrôle fin sur l'espace physique des sons. Mais
il est utile d'explorer l'espace perceptif du timbre, pour dégager
certaines dimensions suivant lesquelles s'articulent chez l'auditeur
ressemblances ou relations de timbres. Les techniques d'analyse
multidimensionnelle ont déjà été appliquées par Grey, Wessel(37) (et en France par Rodet)
à l'exploration de l'espace perceptif des timbres. Sans doute subsistera-t-il
toujours pour de telles études le problème du contexte musical :
il reste que ces études permettront peut-être de dégager dans le timbre des dimensions des attributs
- autres que la hauteur - pouvant se prêter à des mises en échelle, à des manipulations musicales
plus élaborées et cohérentes, que
le "timbre" au sens classique et global(40). On pourrait alors concevoir une
musique fondée sur les opérations perceptives : elle pourrait
mettre en scène des êtres sonores qui aient une véritable
identité pour la perception, en ce sens qu'ils feraient jouer au plus
profond nos facultés de reconnaissance et de découverte dans
l'ordre du son. L'exploration de l'espace perceptif des timbres, et les
études sur la caractérisation d'un timbre (qui relient un timbre
à des structures de relation entre paramètres) nous font
entrevoir comment on pourrait agencer ces êtres sonores qui pourraient
être extrêmement prégnants : même s'ils ne
correspondent à aucun "corps sonore", ils seraient profondément
ancrés dans la perception. La commande de ces êtres sonores et de
leurs transformations pourrait allier la préparation d'une
écriture élaborée (démultipliée par des programmes) et la spontanéité du geste(41).
Utopie sans doute, mais les moyens qui peuvent nous mener dans cette
direction sont dès maintenant disponibles : les recherches dans ce sens
devraient nous donner de l'univers sonore une nouvelle perspective -
certainement en tout cas des conceptions de la hauteur et du timbre plus
complexes que celles présentées au début de cet exposé.
____________________________ ____________________________RÉFÉRENCES
Server © IRCAM-CGP, 1996-2008 - file updated on .
Serveur © IRCAM-CGP, 1996-2008 - document mis à jour le .