IRCAM - Centre PompidouServeur © IRCAM - CENTRE POMPIDOU 1996-2005.
Tous droits réservés pour tous pays. All rights reserved.

L'organisation perceptive de l'environnement sonore

Stephen McAdams

Rencontres IPSEN en ORL, 1997
Copyright © Ed Irvinn 1997


RÉSUMÉ

L'environnement est composé d'une multitude d'objets qui vibrent. Ces vibrations sont transmises au milieu aérien dans lequel elles se propagent. Les ondes sonores se combinent de façon linéaire avant d'arriver aux oreilles d'un auditeur. Au niveau du système auditif périphérique la mixture sonore est "décomposée" dans les fibres auditives, mais chaque fibre peut véhiculer les informations provenant de plusieurs sources. Il est important de comprendre comment le système auditif central analyse cette activité distribuée pour retrouver les constituants d'origine, c'est-à-dire pour former des représentations mentales appropriées des sources sonores. Nous faisons l'hypothèse qu'un ensemble de processus effectue un groupement perceptif liant les composantes de la représentation sensorielle provenant de la même source sonore et séparant celles qui proviennent de sources distinctes. Ces processus de groupement s'appliquent aux composantes qui se chevauchent temporellement et à celles qui se succèdent au cours du temps. Le calcul des attributs perceptifs ne s'effectuerait qu'à partir du résultat de ce regroupement d'éléments. La détection et la reconnaissance des sources sonores, dont la survie d'un organisme dépend, n'aboutiraient donc qu'à condition que leur représentation perceptive soit correctement reconstituée. Pour ce faire, le système auditif périphérique doit pouvoir fournir une représentation sensorielle précise des informations acoustiques, représentation qui peut être dégradée dans le cas de déficits auditifs d'origine neurosensorielle.

INTRODUCTION

A quoi sert-elle la perception ? Elle implique le traitement des informations sensorielles qui résultent d'une stimulation des organes sensoriels par l'énergie provenant de l'environnement qui nous entoure. Ce traitement sert dans la formation d'une représentation mentale de cet environnement. Une représentation mentale de la disposition, du comportement et de l'identité des objets animés ou inanimés dans l'environnement aide un organisme à organiser son activité par rapport à eux (31). Les représentations mentales impliquent un double système : une partie qui forme les représentations à partir des informations sensorielles et, en concertation avec les connaissances déjà acquises par son activité dans le monde, une partie qui les utilise pour agir par rapport à ce monde. La perception doit arriver donc à une représentation utile à partir de son traitement de l'information sensorielle. Cette problématique n'est pas facile à conceptualiser, mais des progrès modestes dans le domaine de l'organisation auditive ont été réalisés depuis une vingtaine d'années (voir 5, 6, pour des excellentes synthèses).

La biologie de la sélection naturelle est pertinente ici. Elle concerne l'évolution des contraintes sur 1) la transduction de l'énergie de l'environnement en une forme qui peut être traitée par le système nerveux, et 2) les processus de traitement de l'information sensorielle. Les deux opèrent ensemble pour représenter le plus véridiquement possible les aspects du monde que nous avons besoin de percevoir et sur lesquels nous avons également besoin d'acquérir des connaissances afin de survivre. Dans ce sens, J. Gibson (21) a mis l'emphase sur l'importance de la structure déjà présente dans l'environnement ainsi que de ses aspects qui sont importants et signifiants pour un organisme donné. Ceci est pertinent à la vie de l'animal puisqu'il doit pouvoir "déchiffrer" cette structure en explorant son environnement. R. Shepard (37) a étendu certaines de ces notions vers la relation importante entre les types d'informations que nous pouvons traduire, traiter et utiliser et la structure physique du monde. Selon lui, l'évolution aurait effectué un "ajustement" de nos systèmes perceptifs à la structure du monde physique, et en particulier, aux objets et événements qui nous sont biologiquement significatifs (bien que ce n'est pas exclusivement le cas pour les arts, par exemple). Donc, une partie importante de la construction d'une représentation consiste en la décision de quelles parties d'une stimulation sensorielle nous informent sur le même objet ou événement de l'environnement. Ainsi dans ce chapitre, il s'agira d'étudier des processus perceptifs d'intégration et de ségrégation de l'information acoustique.

Le système auditif traite l'information acoustique pour déterminer la présence, la position et la nature des sources sonores de l'environnement, afin de pouvoir comprendre leur comportement ou les messages qu'elles émettent. Tout cela implique l'organisation perceptive d'un environnement composé de sources multiples, processus que Bregman (5) appelle "l'analyse des scènes auditives" (auditory scene analysis).

Cette analyse perceptive pourrait être conçue comme un processus de modélisation qui établit une description de l'état courant du monde en termes d'objets producteurs de son, afin de prêter attention aux patterns significatifs de leurs émissions. Il semble qu'il existe des mécanismes qui analysent le flux sonore continu en représentations mentales des sources et qui en dérivent leurs qualités respectives. Celles-ci constituent une sorte de "modèle" du monde à un moment donné. Pour effectuer un tel traitement, il doit exister une phase d'analyse périphérique des données sensorielles suivie d'une série de processus de groupements simultané et séquentiel qui tentent d'affecter les "primitifs" de l'analyse neurophysiologique aux descriptions des sources sur la base du comportement cohérent des sous-groupes. Une réévaluation des décisions de groupement pourrait être enclenchée par la détection d'incompatibilités entre le modèle courant et les données sensorielles qui arrivent, indiquant ainsi une autre organisation, ou encore, l'arrivée d'un nouvel événement et, potentiellement, l'apparition d'une nouvelle source sur la scène.

La création de sources illusoires, "virtuelles", par des moyens électroacoustiques démontre pourtant que cette analyse en objets distincts et séparément compréhensibles n'est pas nécessairement impossible face à une seule source physique. A titre d'exemple, dans l'émission d'un seul haut-parleur, nous entendons et comprenons plusieurs objets lorsque l'onde émise est le résultat de la combinaison de plusieurs sources sonores, dans le cas où l'on écoute un enregistrement monophonique d'un orchestre symphonique, par exemple. Les compositeurs, surtout aux XIXe et XXe siècles, ont souvent créé des situations où l'on entend un seul "objet musical" qui est créé par la combinaison (par la fusion perceptive) de plusieurs sources physiques (les instruments de musique). Enfin, les techniques modernes de synthèse électronique ont permis la création d'objets "virtuels" qui parfois possèdent une cohérence perceptive tout à fait remarquable. Ces phénomènes nous poussent à reconsidérer la nature des processus impliqués dans la perception et la compréhension de l'environnement acoustique, qu'il soit "naturel" ou "artificiel".

La notion d' "objet auditif" est important pour la compréhension des processus d'organisation perceptive dans la modalité auditive. Ce terme se réfère à une représentation mentale d'un groupe d'éléments qui possèdent une cohérence interne dans leur comportement et qui sont ainsi interprétés comme provenant de (ou, dans le vocabulaire des psychologues gestaltistes, "appartenant à") la même source sonore. Ce processus de représentation doit nécessairement permettre non seulement le groupement d'éléments acoustiques en images sonores simples, tel un groupe de fréquences rassemblées en une note de clarinette, mais également le groupement de plusieurs sources sonores physiques en images complexes telles que les textures ou timbres composés que l'on trouve dans la musique pour orchestre, ou le groupement d'événements émis à travers le temps par une source sonore, telle une phrase parlée ou une mélodie. Cette tendance à rassembler les éléments ayant une cohérence structurale en une unité psychologique permet à l'auditeur d'organiser l'environnement sonore en sources qui sont très complexes acoustiquement. Par exemple, des chocs entre morceaux de métal, entre caoutchouc et pierre, et une série périodique d'explosions peuvent être unis en l'image d'une voiture roulant sur les pavés. Le même genre de raisonnement peut être appliqué aux structures musicales.

Physiquement, une cavité ou un corps vibrant possède un ensemble limité de comportements possibles. Or certaines des dimensions de description utilisées par des méthodes acoustiques classiques (Fourier, source/filtre) covarient d'une façon complexe au cours des émissions possibles d'un tel objet. Une question se pose en conséquence : quelle est la part de la reconnaissance d'une causalité physique probable associée à l'expérience de sons produit par de tels modèles ? Si l'auditeur avait une compréhension (tacite ou non consciente) du fonctionnement d'une source physique, comme une clarinette par exemple, sa perception prendrait en compte des contraintes concernant ce que l'instrument peut émettre en fonction de la situation sonore qu'il vient de produire. On pourrait poser l'hypothèse que les relations de cohérence d'événements ainsi produits seraient liées aux contraintes du fonctionnement physique de la source modélisée. La capacité de suivre le comportement d'un tel objet parmi d'autres serait donc basée sur la perception de cette cohérence (ou même de sa causalité physique) et sur une séparation de la source du fond qui l'entoure.

La psychologie expérimentale doit aborder le problème posé par la représentation mentale de ces sources sonores, naturelles ou artificielles. Par quels processus un organisme qui explore activement son environnement, et qui doit réagir par rapport au comportement des sources qui y sont présentes, organise-t-il son environnement auditif ?

LES PROCESSUS D'ORGANISATION AUDITIVE

L'analyse auditive d'un environnement sonore peut être modélisée comme un processus de traitement d'informations ayant pour but de construire un modèle ou schéma du monde acoustique. Ce processus de construction est basé sur des indices de l'assemblage d'éléments acoustiques simultanés en événements, des indices de connexion des éléments acoustiques séquentiels en flux d'événements, la dérivation de qualités perceptives à partir des propriétés des groupes assemblés, et peut-être même des schémas stockés reflétant le comportement cohérent du monde physique et la structure de configurations d'événements (ou formes) familières (3, 29, 32) (voir la Figure 1).


Figure1
Pour la plupart des sources sonores rencontrées dans la vie quotidienne, tous les indices convergent vers une même solution : les objets sont séparés de façon appropriée et les "chimères" auditives (ou mauvais groupements d'éléments provenant de sources distinctes) sont évitées. Pourtant, des recherches ont démontré que pour certaines configurations de stimuli, les indices peuvent entrer en conflit les uns avec les autres créant ainsi soit des situations où plusieurs interprétations perceptives sont possibles, soit parfois des illusions auditives. Les qualités perceptives résultantes des sources dépendent de la façon dont le conflit est résolu (8). Ceci suggère que chaque ensemble d'indices de groupement propose indépendamment une façon d'analyser les informations en sources. Si ceci s'avère vrai, il doit donc exister des processus de résolution des propositions conflictuelles dans lesquels les processus attentionnels pourraient jouer un grand rôle.

Deux des hypothèses les plus importantes de la théorie de l'organisation auditive sont : 1) qu'un élément acoustique ne peut appartenir à deux groupements simultanément et 2) que les qualités perceptives d'un événement ou d'une configuration d'événements ne sont calculées qu'après que les éléments aient été groupés en sources. Autrement dit, le groupement amène à une représentation mentale d'une source qui possède des qualités perceptives dues aux propriétés de l'ensemble de ces éléments. Ainsi la qualité d'un certain phonème, hauteur, timbre, ou intensité est dérivée à partir de l'ensemble d'éléments groupés. Pourtant des situations d'ambiguïté d'organisation aboutissent souvent à des ambiguïtés de qualité. Par exemple, la perception "duplex" (un élément acoustique paraît contribuer simultanément à deux objets auditifs, normalement un son de parole et un son non verbal, voir (11) a été interprétée par certains chercheurs comme la preuve de l'indépendance des mécanismes d'organisation auditive et d'extraction de l'identité phonémique (28). Mais des recherches récentes révèlent que cet effet peut être considéré comme le résultat d'une ambiguïté d'organisation auditive provenant d'un conflit entre les indices qui signalent la fusion et ceux qui signalent la séparation (10). Il semble plutôt difficile, face à ces résultats et à ceux qui montre que l'effet n'est pas limité à l'audition, de continuer à maintenir la première hypothèse de l'organisation auditive : celle de l' "allocation disjointe" des éléments. Selon Bregman (4) ceci est dû au fait que les objets acoustiques ne sont pas "opaques" comme les objets visuels : ils sont plutôt "transparents" et le système auditif doit permettre des correspondances fortuites d'éléments ou de composantes de deux sources sonores.

On a fait appel traditionnellement dans ce domaine aux principes de groupement perceptif tels qu'ils sont décrits par les lois de la Gestalttheorie pour expliquer les résultats. Les recherches actuelles s'orientent davantage vers des explications prenant en compte les mécanismes qui sous-tendent ces principes, ces derniers restant, quant à eux, plutôt d'ordre descriptif. Quels sont les processus de traitement des informations acoustiques arrivant aux oreilles qui permettent au système auditif d'organiser le monde sonore ? Deux types de processus de groupement seront abordés : les processus de groupement simultané et de groupement séquentiel.

Les processus de groupement simultané

Le groupement simultané sert à rassembler les informations concourantes analysées par le système auditif périphérique qui proviennent de la même source sonore, et à séparer les informations provenant de sources distinctes. Ce groupement semble s'effectuer sur la base d'un petit ensemble d'indices de la cohérence de comportement d'un événement.

Le synchronisme des attaques et des chutes. Helmholtz (27) a remarqué qu'en général les composantes spectrales d'un événement émanant d'une source tendent à commencer en même temps, à varier ensemble et à chuter simultanément. Un décalage d'attaque de l'ordre de 30 ms entre deux sons simultanés est accompagné d'une baisse de la fusion perceptive des deux sons et d'une augmentation de l'identification de chacun (8, 13, 35). Un décalage de 40 à 80 ms suffit pour produire une impression de dédoublement de la source et pour briser une perception catégorielle résultant du groupement des deux éléments décalés (11). Les asynchronismes d'attaque et de chute d'un seul harmonique, critique pour l'évaluation du premier formant, affectent la frontière catégorielle entre deux voyelles lorsque ces asynchronismes dépassent 30 ms (14, 16). L'existence de cellules détecteurs d'attaques et de chutes au niveau du noyau cochléaire pourrait contribuer à un tel processus si les informations sont bien préservées au niveau du codage cochléaire.

La cohérence de la modulation d'amplitude. Une série d'expériences récentes ont illustré l'importance de la cohérence de modulation des amplitudes pour l'extraction d'un signal noyé dans un fond de bruit (22, 23). On a mesuré le seuil de masquage du signal lorsqu'une bande de bruit centrée spectralement sur le signal est modulée en amplitude. Puis on a comparé ce seuil à celui obtenu dans la situation où d'autres bandes de bruit, situées dans des régions plus ou moins éloignées, sont modulées soit de façon cohérente avec le bruit masquant, soit de façon incohérente. Lorsque les modulations sont cohérentes, le seuil de masquage est inférieur d'environ 6 dB. Il est vraisemblable que les informations sur l'enveloppe d'amplitude dans les différents canaux fréquentiels sont utilisées pour extraire l'effet du bruit autour du signal par un mécanisme d'annulation (23). Encore une fois, ce sont les informations temporelles qui véhiculent l'indice de groupement.

L'harmonicité commune et la séparation des fréquences fondamentales. Une harmonicité des relations spectrales ou une périodicité dans la forme d'onde donne une perception de hauteur unique dans la plupart des contextes. La présence d'une série inharmonique ou de plusieurs séries harmoniques donnent souvent une perception ambigüe de la hauteur ou une perception de hauteurs multiples, produisant ainsi une impression de plusieurs sources (19). Dans un complexe sonore contenant deux séries harmoniques, une certaine séparation des fréquences fondamentales (F0) d'au moins 3 à 8% est nécessaire avant que l'on puisse utiliser cette information pour séparer les sources et les identifier (36). Cette limite a été confirmée par diverses méthodes. Mais lorsque le nombre de séries présente simultanément est augmentée, cet indice n'est plus très utile et d'autres facteurs, comme la modulation de fréquence, sont nécessaires pour percevoir individuellement les sources (30).

Dans certaines études on a établi le degré de décalage fréquentiel nécessaire pour qu'une composante soit entendue séparément (25), pour qu'elle contribue à la hauteur virtuelle d'un son complexe (34), ou pour qu'elle contribue à la qualité d'une voyelle (15). Ces études suggèrent l'existence d'une sorte de crible harmonique ayant une tolérance de l'ordre de 2-8%. Lorsque les fréquences tombent en dehors de ce crible, elles ne peuvent plus contribuer à la même représentation de source que celles qui passent au travers (36). Plus récemment, les résultats obtenus par de Cheveigné et coll. (18) suggèrent que le processus de séparation sur la base de l'harmonicité est fondé sur l'annulation d'un fond harmonique plutôt que sur la sélection d'une cible harmonique. De Cheveigné (17) modélise ce processus par un traitement temporel (auto-coïncidence des potentiels d'action). De toute évidence, il semble que les limites de résolution fréquentielles (tonotopiques) et temporelles (intervalles entre potentiels d'action) conditionnent la ségrégation des événements simultanés sur la base de cet indice.

La position commune dans l'espace. Les éléments acoustiques de même provenance spatiale tendent à être groupés ensemble. La direction d'une source sonore est indiquée au système auditif par le décalage temporel entre les signaux parvenant aux deux oreilles (asynchronisme d'attaques, différence de phase courante), leur différence d'intensité et les variations spectro-temporelles dues aux pavillons. La plupart des recherches sur l'espace sonore utilisent une présentation où deux signaux différents sont envoyés séparément aux deux oreilles. Elles ont étudié le suivi d'un message et la fusion perceptive par les méthodes de reproduction vocale, identification, jugements du nombre de sources et reconnaissance de cibles. L'étude de Cherry (9), par exemple, a mesuré la capacité de reproduire au cours de son audition un message parlé lorsque ce message est accompagné d'un autre message émis par le même locuteur. En présentation diotique (mêmes signaux présentés simultanément aux deux oreilles) cette tâche est très difficile. En présentation dichotique (signaux différents dans les deux oreilles), la reproduction est beaucoup plus facile et le nombre d'erreurs est moins élevé. La séparation spatiale des informations aide à leur séparation perceptive.

L'ensemble de ces résultats montre qu'à la fois les informations tonotopiques (limitées par la sélectivité fréquentielle du système auditif périphérique) et les informations temporelles (limitées par la résolution temporelle du codage dans les fibres du nerf auditif) sont importantes pour la ségrégation des sources sonores simultanées. Une dégradation dans le codage de l'un ou l'autre type d'information sera certainement accompagné de déficits de la capacité de l'auditeur de focaliser sur une source sonore cible dans un environnement sonore bruyant.

Les processus de groupement séquentiel

Le groupement séquentiel sert à affecter les événements successifs qui présentent une certaine cohérence entre eux à des représentations mentales du comportement temporel des sources sonores. Ce groupement semble s'effectuer sur la base de la continuité spectrale et intensive des événements au sein d'un flux, ce qui représente la cohérence de comportement d'une source sonore en termes d'une certaine inertie dans le changement de ses propriétés acoustiques au cours du temps. Cet organisation séquentielle présente plusieurs propriétés globales qui méritent d'être soulignées.

Une des propriétés principales de l'organisation des flux est que l'on ne peut que très difficilement faire des jugements d'ordre temporel à travers des flux séparés, ce qui a conduit van Noorden (38) à appeler cette propriété d'un flux la "cohérence temporelle" qu'il oppose à la "fission". Un flux possède par définition une cohérence temporelle. Cette propriété a été confirmée par plusieurs études utilisant des jugements d'ordre temporel (1, 7). Par exemple, sur la figure 2 l'ordre des événements A, B, C, D, E et F est bien perçu pour la séquence (a) où un seul flux est entendu. Mais pour la séquence (b), entendu comme deux flux, il est difficile pour un auditeur de juger si l'ordre globale est ABCDEF ou BADCFE, bien qu'il puisse facilement déterminer l'ordre des événements au sein de chaque flux individuellement. Ce résultat indique clairement que l'organisation mentale des relations temporelles s'effectue en fonction du regroupement des événements en flux.


Figure2
La propriété de cohérence temporelle permet également d'étudier l'organisation séquentielle par des expériences de reconnaissance de patterns cibles d'événements. Si les événements recherchés font partie d'un même flux, ils sont plus facilement repérables que lorsqu'ils sont distribués parmi plusieurs flux (7, 20, 38). Ceci implique en outre que les flux sont mutuellement exclusifs en ce qui concerne l'appartenance des événements. Ici le principe de l'allocation disjointe semble être maintenu : un seul événement ne peut faire partie de deux flux séparés en même temps (1, 3).

Lorsqu'une séquence d'événements vient d'un seul endroit (écouteur ou haut-parleur, par exemple), le système auditif semble partir de l'hypothèse qu'il existe un seul flux. Il maintient cette hypothèse jusqu'à ce qu'il accumule suffisamment d'informations lui indiquant le contraire. Après qu'une organisation ait été mise en place, le système fait preuve d'une certaine inertie perceptive à effectuer un changement. Celle-ci peut même durer pendant un silence d'au plus 4 sec mais se détériore au-delà de cette durée (2).

Plusieurs indices de groupement séquentiel ont été étudiés.

Le contenu fréquentiel. L'hypothèse sur cet indice est que les événements successifs provenant d'une même source tendent à posséder un contenu fréquentiel similaire. De brusques changements de cet indice indiqueraient la présence d'autres sources. Le système auditif établit des liens perceptifs entre les événements ayant une certaine continuité de leur contenu fréquentiel. Des discontinuités dans le contenu fréquentiel des sons successifs provoquent une fission de la séquence en plusieurs flux (26, 32, 29, 38). Le degré de séparation dépend de la différence entre les fréquences (f) et de la cadence des événements, les cadences plus lentes exigeant un plus grand f avant de se scinder en deux flux. Réciproquement, un plus petit f exige une cadence plus rapide pour la fission perceptive (38).

L'enveloppe spectrale. L'hypothèse concernant cet indice est que des changements brusques d'enveloppe spectrale sont interprétés comme l'intervention d'une nouvelle source. Le système essaie de lier des événements successifs lorsqu'ils présentent une continuité dans l'enveloppe spectrale, ceci étant assez caractéristique de la nature d'une source sonore. Cet indice (la distribution des amplitudes relatives des composantes) est fortement confondu avec le contenu fréquentiel (la distribution des valeurs de fréquences), mais il est considéré séparément ici puisqu'il est plus en rapport avec la qualité de timbre tandis que le contenu est plus lié à la hauteur.

Van Noorden (38) a testé l'hypothèse selon laquelle la formation de flux se base sur la hauteur plutôt que sur les fréquences. Il faisait alterner deux sons qui évoquaient la même hauteur tonale (ou "fondamentale absente") mais qui possédaient des harmoniques complètement différents de la même série harmonique. Cette séquence se scindait très fortement et van Noorden en a conclu que les différences de distribution spectrale en était la cause. Dannenbring et Bregman (12) ont trouvé qu'un son sinusoïdal qui alternait avec une bande étroite de bruit centrée sur la même fréquence formait son propre flux. Cet effet augmentait lorsque la fréquence de la sinusoïde et la fréquence centrale du bruit étaient éloignées. Un pattern répétitif de quatre sons, qui n'est pas normalement entendu comme deux flux quand tous les sons sont sinusoïdaux (l'enveloppe spectrale la plus simple) peut être scindé en deux flux de timbres différents lorsqu'on enrichissait les sons d'une paire avec uniquement leur troisième harmonique (32). Cet indice interagit fortement avec la cadence des événements de la même manière que l'indice de contenu fréquentiel, en ce sens qu'une augmentation de la cadence requiert un plus petit changement d'enveloppe spectrale pour être perçue toujours comme un seul flux.

L'intensité. L'hypothèse concernant cet indice est que l'intensité émise par une source change relativement lentement par rapport au taux d'événements. Les changements brusques et fréquents d'intensité pourraient alors être l'indication de la présence de nouvelles sources. Le système auditif essaierait de lier les événements pour obtenir un maximum de continuité des intensités dans la représentation mentale de chaque source. Van Noorden (38, 39) a trouvé que pour des cadences de moins de 2.5 sons par seconde, une différence de plus de 5 dB entre deux sons de fréquences identiques alternantes suffisait pour produire une fission. Une baisse de la cadence est accompagnée d'une augmentation de la différence de niveau nécessaire pour la fission comme pour les indices spectraux.

D'autres indices. Hartmann et Johnson (24) ont appliqué une méthode de reconnaissance de mélodies entrelacées développée par Dowling (20) pour étudier la ségrégation de flux auditifs sur la base de plusieurs indices. Ils ont trouvé que lorsque les mélodies sont composées d'événements ayant des contenus fréquentiels et des enveloppes spectrales semblables, les sujets arrivent beaucoup mieux à identifier les mélodies en écoute dichotique (une mélodie par oreille) qu'en écoute diotique (les deux mélodies présentées en mélange aux deux oreilles). Le degré de séparation dépendait également du degré de latéralisation des mélodies lorsque cette latéralisation était produite par un décalage temporel entre les deux oreilles. Toutefois, ce dernier paramètre ne s'avérait pas aussi efficace qu'une séparation complète avec une mélodie par oreille.

Hartmann et Johnson (24) ont également testé le pouvoir séparateur d'indices temporels comme la modulation d'amplitude (battements, rugosité) et le temps de montée de l'enveloppe d'amplitude (l'attaque) dans le paradigme de reconnaissance de mélodies entrelacées. Les résultats suggèrent qu'une différence de ces facteurs entre les sons des deux mélodies entrelacées n'aide que faiblement la séparation des mélodies. Il semble alors que les indices temporels ont une contribution beaucoup moins importante au groupement séquentiel que les indices spectraux et d'intensité.

CONCLUSION

L'ensemble de ces résultats nous conduit vers une vision globale de l'organisation auditive. Plusieurs mécanismes opèrent sur les traits extraits aux niveaux précoces du traitement auditif sur le plan de l'organisation simultanée. Le résultat de ce traitement en l'absence de situations particulières est la ségrégation des traits ne se comportant pas de manière cohérente et la fusion perceptive de ceux qui sont cohérents. Il semble exister une hiérarchie d'indices : certains, tel l'asynchronisme des attaques et l'harmonicité, étant proéminents par rapport aux autres. Ces indices sont véhiculés par des informations tonotopiques et temporelles au niveau du nerf auditif. Ensuite, les qualités d'ensemble de ces traits groupés donnent lieu aux traits à un niveau supérieur où les événements séquentiels sont groupés en flux selon des contraintes liées principalement à la continuité spectrale. Les démonstrations d'interactions entre le traitement simultané et le traitement séquentiel (8) laissent croire soit qu'il y a traitement en parallèle, soit qu'il peut y avoir rétroaction de l'un sur l'autre. Des recherches restent à faire pour approfondir cette problématique. Toutes ces étapes de traitement sont limitées par la qualité du codage spectral et temporel au niveau du nerf auditif et peuvent donc être compromises par la perte ou par la dégradation de telles informations sensorielles.

BIBLIOGRAPHIE

1. Bregman AS (1978a) Auditory streaming : Competition among alternative organizations. Perc. & Psychophys. 23, 391-398.

2. Bregman AS (1978b) Auditory streaming is cumulative. J. Exp. Psych. : Human Perc. & Perf. 4, 380-387.

3. Bregman AS (1978c) The formation of auditory streams. In : Attention and Performance VII (Requin J), L. Erlbaum, Hillsdale, N.J., 63-76.

4. Bregman AS (1987) The meaning of duplex perception : Sounds as transparent objects. In : The psychophysics of speech perception (Schouten MEH), Martinus Nijhoff NATO-ASI Series, Dordrecht, 95-111.

5. Bregman AS (1990) Auditory scene analysis : The perceptual organization of sound, MIT Press/Bradford Books, Cambridge, Mass.

6. Bregman AS (1994) L'analyse des scènes auditives : l'audition dans des environnements complexes. In : Penser les sons : Psychologie cognitive de l'audition (McAdams S, Bigand E), PUF, Paris, 11-40.

7. Bregman AS, Campbell J (1971) Primary auditory stream segregation and perception of order in rapid sequences of tones. J. Exp. Psych. 89, 244-249.

8. Bregman AS, Pinker S (1978) Auditory streaming and the building of timbre. Canad. J. Psych. 32, 19-31.

9. Cherry EC (1953) Some experiments on the recognition of speech, with one and with two ears. J. Acous. Soc. Am. 25, 975-979.

10. Ciocca V, Bregman AS (1989) The effects of auditory streaming on duplex perception. Perc. & Psychophys. 46, 39-48.

11. Cutting JE (1976) Auditory and linguistic processes in speech perception : Inferences from six fusions in dichotic listening. Psych. Rev. 83, 114-140.

12. Dannenbring GL, Bregman AS (1976) Stream segregation and the illusion of overlap. J. Exp. Psych. :Human Perc. & Perf. 2, 544-555.

13. Dannenbring GL, Bregman AS (1978) Streaming vs. fusion of sinusoidal components of complex tones. Perc. & Psychophys. 24, 369-376.

14. Darwin CJ (1984) Perceiving vowels in the presence of another sound: Constraints on formant perception. J. Acous. Soc. Am. 76, 1636-1647.

15. Darwin CJ, Gardner RB (1986) Mistuning a harmonic of a vowel : Grouping and phase effects on vowel quality. J. Acous. Soc. Am. 79, 838-845.

16. Darwin CJ, Sutherland NS (1984) Grouping frequency components of vowels : When is a harmonic not a harmonic. Quart. J. Exp. Psych. 36A, 193-208.

17. de Cheveigné A (1993) Separation of concurrent harmonic sounds : fundamental frequency estimation and a time-domain cancellation model of auditory processing. J. Acoust. Soc. Am. 93, 3271-3290.

18. de Cheveigné A, McAdams S, Laroche J, Rosenberg M (1995) Identification of concurrent harmonic and inharmonic vowels : a test of the theory of harmonic cancellation and enhancement. J. Acous. Soc. Am. 97, 3736-3748.

19. Demany L (1989) Perception de la hauteur tonale. In : Psychoacoustique et perception auditive (Botte MC, Canévet G, Demany L, Sorin C), Editions INSERM/Editions Médicales Internationales, Paris, 43-82.

20. Dowling WJ (1973) The perception of interleaved melodies. Cog. Psych. 5, 322-337.

21. Gibson JJ (1966) The senses considered as perceptual systems, Houghton-Mifflin, New York.

22. Hall JW, Fernandes MA (1983) The effect of random intensity fluctuation on monaural and binaural detection. J. Acous. Soc. Am. 74, 1200-1203.

23. Hall JW, Grose JH, Haggard MP (1988) Comodulation masking release for multicomponent signals. J. Acous. Soc. Am. 83, 677-686.

24. Hartmann WM, Johnson D (1991) Stream segregation and peripheral channeling. Music Perception 9, 155-184.

25. Hartmann WM, McAdams S, Smith BK (1990) Hearing a mistuned harmonic in an otherwise periodic complex tone. J. Acoust. Soc. Am. 88, 1712-1724.

26. Heise GA, Miller GA (1951) An experimental study of auditory patterns. Am. J. Psych. 64, 68-77.

27. Helmholtz H von (1868) Théorie physiologique de la musique, trad. fran. de M.G. Guéroult, à partir de la 1ère éd. allemande (1863), réédité (1990) Paris: Jacques Gabay.

28. Mattingly IG, Liberman AM (1991) Specialized perceiving systems for speech and other biologically significant sounds. Functions of the auditory system (Edelman GM, Gall WE, Cowan WM), Wiley, New York, 775-793.

29. McAdams S (1984) The auditory image : A metaphor for musical and psychological research on auditory organization. In : Cognitive Processes in the Perception of Art (Crozier WR, Chapman AJ), North-Holland, Amsterdam, 289-323.

30. McAdams, S (1989) Segregation of concurrent sounds. I: Effects of frequency modulation coherence. J. Acous. Soc. Am., 86, 2148-2159.

31. McAdams S, Bigand E (1994) Introduction à la cognition auditive. In : Penser les sons : Psychologie cognitive de l'audition (McAdams S, Bigand E), PUF, Paris, 1-9.

32. McAdams S, Bregman AS (1979) Hearing musical streams. Comp. Mus. J. 3(4), 26-43 ; réédité (1985) In The Foundations of Computer Music (Roads C, Strawn J), MIT Press, Cambridge, Mass., 658-698.

33. Miller GA, Heise GA (1950) The trill threshold. J. Acous. Soc. Am. 22, 637-638.

34. Moore BCJ, Glasberg BR, Peters RW (1985) Relative dominance of individual partials in determining the pitch of complex tones. J. Acous. Soc. Am. 77, 1853-1860.

35. Rasch RA (1978) The perception of simultaneous tones such as in polyphonic music. Acustica 40, 21-33.

36. Scheffers MTM (1983) Simulation of the auditory analysis of pitch : An elaboration on the DWS pitch meter. J. Acous. Soc. Am. 74, 1716-1725.

37. Shepard RN (1981) Psychophysical complementarity. In : Perceptual organization (Kubovy M, Pomerantz JR), L. Erlbaum, Hillsdale, NJ.

38. van Noorden LPAS (1975) Temporal coherence in the perception of tone sequences, thèse de doctorat, Université Technique d'Eindhoven, Pays-Bas.

39. van Noorden LPAS (1977) Minimum differences of level and frequency for perceptual fission of tone sequences ABAB. J. Acous. Soc. Am. 61, 1041-1045.

LÉGENDE DES FIGURES

Figure 1. Diagramme schématique des étapes de traitement de l'information acoustique dans la constitution d'une représentation mentale de l'environnement sonore.

Figure 2. Une séquence répétée de six sons purs donne : a) une perception d'un seul flux si les fréquences des deux sous-groupes (ACE et BDF) sont proches, mais b) une perception de deux flux si ces sous-groupes s'éloignent en fréquence.

____________________________
Server © IRCAM-CGP, 1996-2008 - file updated on .

____________________________
Serveur © IRCAM-CGP, 1996-2008 - document mis à jour le .