Serveur © IRCAM - CENTRE POMPIDOU 1996-2005. Tous droits réservés pour tous pays. All rights reserved. |
Rencontres IPSEN en ORL, Editions Irvinn, 1997
Copyright © Fondation IPSEN 1997
Afin d'aborder ce lien entre sélectivité fréquentielle et séparation des sources, nous adoptons une approche double : développement d'une mesure de sélectivité fréquentielle qui pourrait être utile au niveau du diagnostique clinique, et application de tests de séparation de sources sonores sur la base de paramètres fréquentiels et temporels qui ont été étudiés de façon détaillée dans le passé.
La sélectivité fréquentielle résulte du filtrage du signal acoustique opéré au niveau de la membrane basilaire dans la cochlée, une petite bande de fréquences stimulant une fibre auditive donnée à des niveaux peu élevés de stimulation. La finesse de ce filtrage est due essentiellement aux propriétés actives des cellules ciliées externes et dépend donc de leur intégrité. Or dans beaucoup de pathologies auditives, c'est justement ces cellules qui sont atteintes. Le résultat est une élévation des seuils absolus et une perte de sélectivité fréquentielle (le filtrage n'étant plus que le résultat d'un filtrage passif de la membrane basilaire). Faulkner, Rosen et Moore (11) suggèrent que dans le cas de surdités profondes, une sélectivité fréquentielle résiduelle pourrait être importante pour la discrimination de patterns de parole avec un appareillage approprié. De plus, Leek et Summers (15) ont montré qu'une sélectivité fréquentielle réduite peut entraîner une baisse du rapport signal/bruit dans la représentation sensorielle et donc être la cause d'une dégradation de la compréhension de la parole dans le bruit.
La mesure de cette sélectivité est traditionnellement faite avec des paradigmes de masquage, mais ces techniques s'avèrent longues et ardues et ne se prètent pas facilement à la situation clinique. Nous avons donc tenté de mettre en place un paradigme simple et rapide pour le contexte médical qui est fondé sur le phénomène de la continuité auditive (19). Cette technique a été appliquée à la mesure de la sélectivité fréquentielle par Houtgast (12). Elle est décrite dans l'expérience 1.
Comme souligné dans le chapitre de McAdams (dans ce volume), plusieurs indices acoustiques sont utilisés par le système auditif pour séparer les événements sonores simultanés. Deux des plus efficaces sont l'asynchronisme des attaques (3, 6) et la polypériodicité (9, 16). Nous avons adapté une tâche développée par de Cheveigné et al. (8) à l'étude de cette séparation dans le cadre de l'identification de voyelles doubles, testée dans diverses conditions par plusieurs chercheurs (1, 2, 5, 7-10). Cette technique est décrite dans l'expérience 2.
Pour la présente recherche nous posons donc l'hypothèse que cette illusion de continuité résulte du fait que lorsqu'un stimulus continu est complètement masqué par un bruit intermittent au niveau de la périphérie, le traitement auditif ultérieur ne peut pas distinguer un cas où le son a vraiment cessé et le cas où il a continué "derrière" le son masquant. Dans les 2 cas, le système auditif fournit une représentation sensorielle aux traitements ultérieurs qui est cohérente avec une interprétation que le son a effectivement continué durant la présence du son masquant.
Sujets.
Figure 1
Stimuli.
Le stimulus consistait en une séquence
répétée de sons purs alternant entre un niveau fort et un
niveau faible (Fig. 1). Un son faible sur 4 a été remplacé
par un silence afin de donner un indice de rythme aux auditeurs (13). Les
occurrences avaient une durée de 95 ms avec des rampes linéaires
d'attaque et d'extinction de 20 ms. Les rampes des sons forts et faibles se
croisaient en leur milieu. Dans tous les cas de figure, la séquence de
sons forts donne une intermittence périodique (bip bip bip bip bip bip
bip bip . . .). Lorsqu'une perception de continuité est
procurée, la séquence de sons faibles donne des sons longs
interrompus par le silence (biiiiiiiiiiiiiiip -- biiiiiiiiiiiiiiip -- . . .) ;
mais si la continuité n'est pas perçue, cette séquence
donne un rythme de 3 événements et un silence (bip bip bip -- bip
bip bip -- . . .). Cette différence de rythme est nécessaire
pour focaliser l'attention de l'auditeur sur le son faible, afin qu'il puisse
juger si la continuité est présente ou non.
Les stimuli ont été présentés à une seule oreille. Les fréquences et amplitudes variaient au cours de l'expérience. Pour un stimulus donné, la fréquence du son fort (Ft) a été fixée à une des fréquences audiométriques : 250, 500, 1000, 2000, 4000 Hz. Pour les mesures effectuées à l'Hôpital Avicenne, les contraintes de temps nous ont amené à tester un sous-ensemble de ces fréquences. Le niveau du son fort était fixé à 10 ou 20 dB au-dessus de celui du son faible (sauf pour certains sujets OC, voir ci-après). Le niveau du son faible était fixé à 25 dB SL (au-dessus du seuil absolu) pour les sujets N, OM1 et OM3, et à 35 dB SL pour le sujet OM2. Il était nécessaire de fixer ce niveau plus près du seuil pour les sujets OC à certaines fréquences. La fréquence du son faible (Fm) était contrôlée par un glisseur affiché sur l'écran d'ordinateur. Il pouvait être déplacé par un mouvement de la souris de l'ordinateur. Pour une combinaison donnée de fréquence et de niveau du son fort, 2 gammes de la fréquence du son faible ont été employées : 1) pour Fm > Ft, le glisseur représentait un continuum logarithmique de fréquence entre Ft à l'extrême gauche et 2 fois Ft à l'extrême droite ; 2) lorsque Fm < Ft, la gamme allait de Ft à l'extrême gauche à la moitié de Ft à l'extrême droite. Donc un déplacement du glisseur vers la gauche rapprochait les 2 fréquences (favorisant ainsi la perception de continuité) et un déplacement vers la droite les éloignait (favorisant une perception d'intermittence).
Procédure.
Au début de l'expérience un audiogramme
tonal a été enregistré pour chaque sujet, puisque les
niveaux de présentation était fixés en fonction des seuils
absolus de chaque individu. Ensuite les notions de continuité et
d'intermittence ont été expliquées aux sujets à
l'aide d'exemples visuels et auditifs. La compréhension de cette
explication semblait être plus difficile pour certains des malentendants.
Pour les sujets N, des exemples auditifs consistaient en une différence
de niveau de 10 dB entre sons forts et faibles, et puis une différence
minime de fréquence pour une perception de continuité et une
différence d'une octave pour une perception d'intermittence. Les sujets
ont eu la possibilité de jouer avec le glisseur pour explorer la gamme
de perceptions possible (clairement intermittent, clairement continu, ambigu).
Les cas d'ambiguïté peuvent être influencés par la
focalisation du sujet et c'est pour cette raison que la tâche a
été orientée vers une focalisation sur le rythme de la
séquence des sons faibles.
Chaque point sur la courbe de sélectivité fréquentielle (Fig. 2) a été mesuré en 2 étapes. Lors de la première, le sujet pouvait déplacer le glisseur librement et il devait indiquer 2 positions : une à l'endroit où la séquence de sons faibles était "clairement continue" et l'autre où cette séquence était clairement intermittente, tout en essayant de ne pas trop s'éloigner de la zone d'ambiguïté. Ces positions ont été indiquées en appuyant sur un bouton étiquetté respectivement "...Biiiiiiip...Biiiiiiip..." et "...Bip-Bip-Bip...Bip-Bip-Bip...", une fois le glisseur positionné pour obtenir la perception ciblée. Lorsque les 2 points ont été enregistrés la seconde étape a été lancée, dans laquelle la relation entre la position du glisseur et la fréquence du son faible a été changée : l'extrême droite correspondait à la position indiquée pour "clairement intermittent" et l'extrême gauche à celle pour "clairement continu". Le glisseur commençait à l'extrême droite et le sujet ne pouvait le déplacer que vers la gauche. Il a été demandé de le déplacer lentement vers la gauche tout en guettant la première apparition d'une perception de continuité. Dès lors que ce phénomène se produisait, il devait arrêter et appuyer sur un bouton qui enregistrait la fréquence du son faible pour la courbe de sélectivité fréquentielle. Pour chaque fréquence fixe du son fort, cette procédure a été répétée pour des fréquences inférieures et supérieures à celle-ci et pour les 2 différences de niveaux. Les sujets N et OM1 n'ont eu aucun problème à effectuer cette tâche, mais nous avons été obligés de modifier un peu cette procédure pour les autres sujets malentendants. Pour les sujets N et OM1, le niveau du son faible a été fixé à 25 dB SL et le son fort à 35 et 45 dB SL. Le sujet OM2 avait du mal à effectuer la tâche à ces derniers niveaux, et par conséquent, ils ont été augmentés de 10 dB. Le sujet OM3 n'a pas pu faire la tâche à 1000 et à 2000 Hz : la séquence entière donnait une perception de continuité et il n'entendait même pas l'intermittence périodique des sons forts. Pour les sujets OC1 et OC2 à certaines fréquences du son fort, où leur perte atteignait plus de 60 dB, les niveaux SL équivalents à ceux présentés aux normo-entendants étaient douloureux et ils avaient du mal à distinguer quoi que ce soit dans la séquence--elle sonnait comme un tintamarre. Pour cette raison, un nouveau bouton a été rajouté sur l'écran pour eux : "c'est trop fort". Lorsque le sujet ou l'expérimentateur appuyait sur ce bouton, l'essai en cours a été abandonné et soit une plus petite différence de niveau entre sons fort et faible a été testée, soit le niveau du son faible a été baissé un peu (parfois en-dessous de 10 dB SL). En outre, pour certaines conditions les sujets OC n'arrivaient pas à entendre une perception d'intermittence même pour une différence de fréquence d'une octave. Donc un autre bouton a été rajouté pour étendre la gamme de fréquences couverte par le glisseur. Or un autre problème s'est présenté lorsque l'on mesurait des fréquences sur la pente raide de la courbe du seuil absolu. Dans ce cas, une augmentation de la fréquence du son fort la faisait passer en-dessous du seuil absolu et le sujet a eu la consigne d'appuyer sur un bouton pour abandonner l'essai. Il est devenu apparent que la mesure de la sélectivité fréquentielle est très délicate pour ces sujets et de nombreux ajustements empiriques ont été effectués afin de tirer un maximum d'informations sur la sélectivité fréqentielle sans pour autant gêner le sujet. Par exemple, afin de pouvoir comparer les résultats avec les sujets N et OM, nous étions obligés de fixer le son fort à 10 et, si possible, 20 dB au-dessus du son faible. Néanmoins, lorsque les niveaux étaient trop élevés, nous avons baissé le niveau du son faible afin de trouver un niveau auquel il était audible et les 2 percepts (intermittence et continuité) étaient possibles. Toutefois, nous n'avons pas pu effectuer toutes les mesures souhaitées pour les sujets OC.
Equipement.
La station de travail en informatique musicale de l'Ircam a
été utilisée, comportant un ordinateur NeXT,
équipée d'une carte de traitement de signal ISPW et le logiciel
MAX-FTS pour la génération des stimuli sonores, et du logiciel
Psiexp (17) pour la gestion de l'expérience. Pour les sujets
testés à l'Ircam, l'expérience a été
effectuée dans une cabine audiométrique Soluna S1 avec un casque
Beyer Dynamics. Pour les sujets testés à l'Hôpital
Avicenne, l'expérience a été effectué avec un
casque Sony MDR-V600 soit dans une salle, soit dans une cabine
audiométrique.
Il en est tout autrement pour les sujets OC. Premièrement, il y a beaucoup moins de données soit parce qu'une perception d'intermittence ne pouvait être procurée (rendant impossible l'estimation du seuil entre l'intermittence et la continuité), soit parce que les niveaux seraient trop forts pour l'obtenir dans certaines zones. Deuxièmement, les données que nous avons pu recueillir suggèrent que les courbes de sélectivité fréquentielle sont en général plus large que celles des 2 autres groupes, indiquant clairement la dégradation de cet aspect du codage périphérique du signal acoustique.
Figure 3
D'un côté, la similarité des courbes obtenues chez des auditeurs normo-entendants et chez ceux ayant des troubles de l'oreille moyenne confortent l'idée que la sélectivité fréquentielle est déterminée au niveau de la cochlée et qu'une fois que l'énergie atteignant la cochlée est ajustée par simple amplification, le traitement cochléaire est strictement identique en ce qui concerne l'analyse fréquentielle du signal. Néanmoins, il semble qu'un problème temporel existe pour sujet OM3 qui n'arrivait pas à entendre même l'intermittence des sons forts avec sa mauvaise oreille qui présente une pathologie depuis un très jeune âge. D'un autre côté, cette technique montre clairement que les auditeurs avec une atteinte cochléaire n'ont pas du tout le même degré de sélectivité dans la région fréquentielle où la perte atteint au moins 60 dB, car il leur est souvent impossible de trouver une combinaison de paramètres de la séquence qui procure une perception d'intermittence des sons faibles. En outre, une simple amplification du signal acoustique pose problème pour ces personnes dans la mesure où la gamme de niveaux utilisables est très réduite et à des niveaux élevés il devient difficile de distinguer quelque structure que ce soit dans un signal sonore complexe.
Stimuli.
Cinq voyelles françaises (a, é, i, o, ou) ont
été synthétisées à 2 F0 (125 et
132,5 Hz, soit une différence de 6%) avec la technique de Klatt (14)
implémentée par Culling (4) et étendue par de
Cheveigné (8). Chaque voyelle durait 1 s et avait des rampes
linéaires d'attaque et d'extinction de 100 ms. Les amplitudes effectives
(rms) des voyelles ont été égalisées. Dans une
étude précédente, nous avons montré que, pour les
auditeurs normo-entendants, le taux d'identification de ces voyelles
synthétiques dépasse généralement 98%. Elles ont
été mélangées par paires de voyelles
différentes, une voyelle ayant un niveau 10 dB au-dessus de l'autre,
pour un total de 20 paires avec les 2 combinaisons de niveaux pour une paire
donnée. De Cheveigné et al. (8) ont trouvé que ce genre de
différence de niveau rend plus sensible le test des paramètres de
ségrégation pour les voyelles de plus faible niveau. Un premier
ensemble de voyelles doubles comportait les 20 paires de voyelles
différentes ayant la même F0 (F0=0)
et des attaques synchrones (t=0), à des F0 de 125 et
de 132,5 Hz (soit 40 voyelles doubles). Un deuxième ensemble de 40
voyelles doubles avait un t de zéro et un F0 de
6% : 20 paires dans les 2 ordres de F0. Un troisième ensemble
de 40 voyelles doubles avait un F0 de zéro et un
t de 50 ms : 20 paires avec la voyelle forte en avance de 50 ms (-50 sur
la fig. 7) et 20 paires avec la voyelle faible en avance (+50 sur la fig. 7).
Procédure.
L'expérience s'est effectuée en 3
étapes :
Dans le cas de voyelles doubles, la tâche du sujet était d'identifier les 2 voyelles parmi les 5 possibles sachant que chaque paire contenait 2 voyelles différentes. Pour les voyelles doubles avec F0, les premier et deuxième ensembles de voyelles (80 en tout) ont été présentés dans un bloc en ordre aléatoire. Deux blocs de ce type ont été présentés. Pour les voyelles doubles avec t, 2 blocs correspondant au troisième ensemble en ordre aléatoire ont été présentés.
Normo-entendants.
Figure 6
Pathologies de l'oreille moyenne.
Les taux d'identification des voyelles
fortes pour les sujets OM sont équivalents à ceux des sujets
normo-entendant. Néanmoins ils diffèrent beaucoup entre eux en ce
qui concerne l'identification des voyelles faibles. Les performances de OM1 ne
peuvent pas être distinguées de celles des normo-entendants, si ce
n'est qu'il est meilleur que la moyenne. Sa pathologie, vraisemblablement
d'origine tympanique, ne semble pas affecter les processus d'organisation
simultanée. Il faut tout de même remarquer que ce sujet est un
psychoacousticien avec de nombreuses heures d'expériences dans ce genre
de tâche. Le sujet OM2 n'est pas différent des normo-entendants
lorsque F0 et t sont nuls, mais ses performances sont
inférieures de 10% pour F0=6% et de 25% pour
t=+/-50 ms. Bien que sa sélectivité fréquentielle
soit bonne, il ne semble pas pouvoir se servir de ces indices pour la
séparation des voyelles doubles. Le sujet OM3 a des performances
largement inférieures à celles des autres, et qui ne montrent
aucune amélioration avec les indices de ségrégation. Il se
peut que la nécessité de présenter ces voyelles doubles
à un niveau près du seuil d'identification ait
entraîné ce mauvais résultat.
Pathologies cochléaires.
Les sujets OC1 et OC2 ont des
résultats très différents. Le sujet OC1 identifie bien
globalement les voyelles fortes, tandis que le sujet OC2 a des taux
d'identification qui varient de 52% à 75% pour ces voyelles. Pour les 2
sujets, les identifications de voyelle faibles ne sont pas loin du hasard pour
F0 et t zéro. Les 2 montrent une petite
amélioration de l'ordre de 10% à 15% avec une
F0 de 6%, mais cette amélioration est
accompagnée d'une détérioration des performances pour la
voyelle forte chez le sujet OC2. Une petite amélioration est
également obtenue par le sujet OC1 avec un t de 50 ms, mais cet
indice n'affecte pas les performances du sujet OC2.
Nous avons également mis au point un ensemble de tests de ségrégation perceptive de voyelles mélangées qui met clairement en évidence la capacité d'un auditeur à organiser un environnement sonore complexe à des fins de compréhension. Ce test est très facile à faire comprendre et il suffirait pour le développer davantage de pouvoir essayer différentes valeurs de F0 et de t pour les auditeurs malentendants. Ce test implique des traitements qui nécessitent une représentation sensorielle précise des aspects spectraux et temporels des signaux. Des recherches futures devront explorer l'impact de leur dégradation sur l'organisation perceptive afin d'indiquer des améliorations possibles pour les appareils auditifs existants.
2. Assmann, PF et Summerfield, Q (1994) The contribution of waveform
interactions to the perception of concurrent vowels. J. Acoust. Soc.
Am. 95, 471-484.
3. Bregman, AS et Pinker, S (1978) Auditory streaming and the building of
timbre. Can. J. Psychol. 32, 19-31.
4. Culling, J (1996) Signal processing software for teaching and research in
psycholinguistics. Beh. Res.Meth., Inst., Comp. (in press).
5. Culling, JF et Darwin, CJ (1994) Perceptual and computational separation of
simultaneous vowels: cues arising from low frequency beating. J.
Acoust. Soc. Am. 95, 1559-1569.
6. Dannenbring, GL et Bregman, AS (1978) Streaming vs. fusion of sinusoidal
components of complex waves. Percept. Psychophys. 24, 369-376.
7. de Cheveigné, A (1997) Concurrent vowel identification. III: A neural
model of harmonic interference cancellation. J. Acoust. Soc. Am.
101, 2857-2865.
8. de Cheveigné, A, Kawahara, H, Tsuzaki, M, et Aikawa, K (1997)
Concurrent vowel identification. I: Effects of relative level and F0
difference.J. Acoust. Soc. Am. 101, 2839-2847.
9. de Cheveigné, A, McAdams, S, Laroche, J, et Rosenberg, M (1995)
Identification of concurrent harmonic and inharmonic vowels: A test of the
theory of harmonic cancellation and enhancement. J. Acoust. Soc.
Am. 97, 3736-3748.
10. de Cheveigné, A, McAdams, S, et Marin, CMH (1997) Concurrent vowel
identification. II: Effects of phase, harmonicity, and task. J.
Acoust. Soc. Am. 101, 2848-2856.
11. Faulkner, A, Rosen, S, et Moore, BCJ (1990) Residual frequency selectivity
in the profoundly hearing-impaired listener. Brit. J. Audiol. 24,
381-392.
12. Houtgast, T (1972) Psychophysical evidence of lateral inhibition in
hearing. J. Acoust. Soc. Am. 51, 1885-1894.
13. Houtgast, T (1974) Lateral supression in hearing: A psychophysical study
on the ear's capability to preserve and enhance spectral contrasts.
Institute for Perception TNO, Soesterberg, The Netherlands.
14. Klatt, DH (1980) Software for a cascade/parallel formant
synthesizer. J. Acoust. Soc. Am. 67, 838-844.
15. Leek, MR et Summers, V (1996) Reduced frequency selectivity and the
preservation of spectral contrast in noise. J. Acoust. Soc. Am.
100, 1796-1806.
16. Marin, CMH (1991) Processus de séparation perceptive des sources
sonores simultanées. Université de Paris III, France.
17. Smith, BK (1995) Psiexp: An environment for psychoacoustic experimentation
using the Ircam Musical Wordstation. SMPC95: Society for Music Perception
and Cognition. Berkeley, CA, University of California, Berkeley.
18. Warren, RM (1982) Auditory Perception: A New Synthesis. New York,
Pergamon.
19. Warren, RM, Obusek, CJ, et Ackroff, JM (1972) Auditory induction:
Perceptual synthesis of absent sounds. Science 176, 1149-1151.
Figure 2. La forme théorique des courbes de
sélectivité fréquentielle obtenues par la technique du
seuil de pulsation pour une oreille saine et une oreille présentant une
pathologie de l'oreille interne qui atteint les cellules ciliées
externes. La fréquence de son fort (Ft) est fixée et
celle du son faible (Fm) est ajustée partant d'une
fréquence éloignée de Ft et s'approchant
progressivement jusqu'à ce que la perception passe de celle
d'intermittence à celle de continuité des sons faibles. Cette
mesure est effectuée de part et d'autre de Ft et pour 2
différences de niveau entre les sons forts et faibles.
Figure 3. Les courbes de sélectivité fréquentielle
obtenues pour 12 auditeurs normo-entendants à 5 fréquences
Ft (250, 500, 1000, 2000 et 4000 Hz). Les seuils absolus moyens sont
indiqués. Un de ces auditeurs avait une légère
prébyacousie précoce qui est visible pour des Ft de
2000 et 4000 Hz, puisque ses courbes se détachent des autres et
s'élargissent plus pour une différence de niveau de 20 dB.
Figure 4. Les courbes de sélectivité fréquentielle
et seuils d'audition obtenus pour 3 auditeurs ayant des pathologies de
l'oreille moyenne (OM1 bleu, OM2 rose, OM3 violet). Seules les Ft de
500, 1000 et 2000 Hz ont été testées pour OM2 et OM3. Pour
OM3 les stimuli à 1000 et 2000 Hz ne donnaient pas une perception
d'intermittence des sons forts. Une ligne horizontale partant de Ft
indique que le seuil de pulsation n'a pas pu être mesuré de ce
côté de Ft.
Figure 5. Les courbes de sélectivité fréquentielle
et seuils d'audition obtenus pour 2 auditeurs ayant des pathologies
cochléaires (OC1 oreille gauche rouge plein, OC1 oreille droit rouge
vide, OC2 orange). Seules les Ft de 500, 1000, 2000 et 4000 Hz ont
été testées pour OC2. Une ligne horizontale partant de
Ft indique que le seuil de pulsation n'a pas pu être
mesuré de ce côté de Ft.
Figure 6. Taux d'identification de voyelles mélangées
(t=0), dont une de faible niveau et une de niveau plus fort, pour 12
sujets normo-entendants (N), 3 sujets avec pathologies de l'oreille moyenne
(OM) et 2 sujets avec pathologies cochléaires (OC). Les 2 voyelles
avaient soit la même fréquence fondamentale, soit une
différence de F0 de 6%.
Figure 7. Taux d'identification de voyelles mélangées
ayant la même F0 (125 Hz), dont une de faible niveau et une de
niveau plus fort, pour 12 sujets normo-entendants (N), 3 sujets avec
pathologies de l'oreille moyenne (OM) et 2 sujets avec pathologies
cochléaires (OC). Les 2 voyelles commençaient soit au même
moment (t=0), soit avec un décalage de 50 ms. Le signe du
décalage indique la position de la voyelle faible par rapport à
la voyelle forte.
____________________________ ____________________________LÉGENDES DES FIGURES
Figure 1. Schéma illustrant le stimulus de base
présentant une alternation entre un son fort de fréquence
Ft et un son faible de fréquence Fm, ainsi que les
2 percepts possibles de la séquence des sons de faible niveau en
fonction de l'écart entre Ft et Fm : a)
intermittence, b) continuité.
Server © IRCAM-CGP, 1996-2008 - file updated on .
Serveur © IRCAM-CGP, 1996-2008 - document mis à jour le .