IRCAM - Centre PompidouServeur © IRCAM - CENTRE POMPIDOU 1996-2005.
Tous droits réservés pour tous pays. All rights reserved.

Musique, temps réel

Peter Szendy

Résonance n° 14, octobre 1998
Copyright © Ircam - Centre Georges- Pompidou 1998


Qu'est-ce que le « temps réel » ? Cette expression -- aujourd'hui si largement (et confusément) répandue -- méritait d'être interrogée, dans son acception musicale, au moment où l'Ircam présente jMax : un environnement de programmation en temps réel qui, délié des contraintes matérielles, pourra fonctionner sur n'importe quelle machine commerciale...

Test (fictif) : vous n'êtes pas musicien ; vous ne connaissez pas particulièrement les développements récents de l'informatique musicale ; si l'on vous dit « temps réel », à quoi pensez-vous ?

Réponses (probables) : à la Bourse, au journal télévisé, à la chaîne américaine CNN pendant la guerre du Golfe. Peut-être aux écrits de Paul Virilio sur cette même guerre, sur le rôle qu'y a joué la couverture médiatique des événements (live coverage, comme on dit en anglais). Ainsi Virilio parle-t-il, dans L'Écran du désert, d'une « guerre du temps réel » dont la finalité, au-delà même des conflits géopolitiques, aurait été « la fin des délais, [...] avec pour objectif avoué de réduire à rien le laps de temps entre les intentions et l'action ».

« Fin des délais », « réduire à rien le laps de temps »... : ce sont là d'autres mots pour décrire ce qui nous arrive aujourd'hui, de toutes parts, avec ledit « temps réel ».

Les faits

Que font les musiciens, quant à eux, lorsqu'ils font du « temps réel » ?

À l'évidence, les enjeux sont différents. Face au petit écran qui transmet les événements en live coverage, le téléspectateur doit essentiellement croire que ce qu'il voit lui arrive non seulement sans délai, mais aussi sans intervention technique : que ce sont les faits, tels quels ; et que ces faits ne sont justement pas faits, c'est-à-dire fabriqués. Cette illusion est essentielle pour voir l'image comme image, même si l'on sait par ailleurs qu'il y a eu -- dans un laps de temps réduit à presque rien -- montage, coupure, tri, sélection...

Il en va autrement dans la culture musicale du concert. Si tout concert (par définition) est toujours en « temps réel » -- on assiste à un événement unique pris sur le vif --, ce qu'on apprécie, c'est précisément la construction la plus savante et la plus calculée qui soit de l'événement. C'est l'essence du concert que d'être vécu comme un moment de virtuosité technique, instrumentale et musicale tout à la fois : tout concert donne à voir et à entendre non pas des faits, mais leur fabrique en temps réel. C'est-à-dire une « interprétation ».

L'enjeu, pour les musiciens, sera donc d'ouvrir, dans la mécanique horlogère des ordinateurs, un espace accueillant les variations infimes d'un jeu instrumental.

De la « 4X » à la « Station d'informatique musicale » : la puissance de calcul

La 4X, qui a été utilisée à l'Ircam jusqu'en 1992, était un synthétiseur entièrement numérique placé sous le contrôle d'un ordinateur.

À l'époque où la 4X fut mise au point (vers 1980, par Giuseppe Di Giugno), les ordinateurs disponibles dans le commerce n'avaient pas une puissance de calcul suffisante pour traiter le son en temps réel. C'est-à- dire, techniquement, en s'assurant que le temps de calcul nécessaire au traitement du son reste inférieur à la vitesse à laquelle arrivent les échantillons de ce son (la norme adoptée dans les disques compacts -- un échantillon tous les 1/44 100 de seconde -- peut varier dans d'autres contextes musicaux). D'où la nécessité de construire des architectures matérielles (le hardware des informaticiens) sur mesure. Avec deux conséquences : un coût de fabrication élevé, une obsolescence rapide des machines.

Avec la Station d'informatique musicale (Sim) de l'Ircam (dont le projet prit forme dès 1989, sous la responsabilité d'Eric Lindemann), un meilleur compromis économique était trouvé : la construction de matériels spécifiques était réduite à trois cartes électroniques spécialisées, intégrées à l'architecture d'un ordinateur NeXT. Chacune de ces cartes comprend deux microprocesseurs (Intel i860), capables d'exécuter ensemble jusqu'à 200 millions d'opérations par seconde*. Malgré le progrès qu'aura représenté la Sim (notamment en termes d'intégration des composants discrets de la 4X), malgré sa diffusion mondiale, l'annonce, par les constructeurs, de l'arrêt de la fabrication des processeurs Intel, puis des ordinateurs NeXT (vers 1992), a accéléré une mutation à laquelle l'Ircam se préparait : à l'avenir, les développements -- assurés par l'équipe « Systèmes temps réel » sous la direction de François Déchelle -- seront déliés de l'aspect matériel, pour explorer des solutions entièrement logicielles (voir l'encadré sur jMax). Aujourd'hui, les machines commerciales intègrent en effet les possibilités du temps réel, qui est devenu un véritable enjeu bien au-delà de la musique.

* Voir l'article de Claude Fatus, « La Station d'informatique musicale », dans Résonance n° 4, juin 1993.

Max et FTS

L'environnement de programmation que Miller Puckette a développé à l'Ircam pour le temps réel est baptisé Max, en hommage à Max Mathews, l'un des pionniers de l'informatique musicale. Sa version commerciale (Macintosh) est distribuée par la société Opcode.

Max permet la programmation graphique de la synthèse, du traitement et du contrôle du son, exécutés en temps réel. Des fonctions sont définies à l'écran par des « patches » : des objets en forme de boîtes (un oscillateur, un potentiomètre...), reliés entre eux par des lignes figurant des connexions. Avec ces conventions graphiques simples et aisément maniables (on entend immédiatement les résultats sonores), Max permet, selon les termes de Claude Fatus, de décrire « un câblage virtuel entre les différents opérateurs spécialisés dans le traitement du signal sonore ».

Max transpose en fait à l'écran le fonctionnement des synthétiseurs modulaires, dont les modules étaient reliés manuellement par des câbles (patchcords). Mais ce fonctionnement règle une large palette d'applications : les « bibliothèques » disponibles dans Max permettent d'appeler des configurations fondées sur les principales techniques de synthèse, l'échantillonnage, le filtrage, les retards, le suivi de partition, la spatialisation, le séquencement, ainsi que sur divers « effets » (chorus, translation de fréquence, modulation en anneau...) ou sur le contrôle de dispositifs « externes » (connexions Midi, éclairages...).

Si Max est l'interface graphique de programmation, FTS, son « exécutif », effectue en temps réel les traitements sonores. C'est le sigle pour Faster Than Sound : plus vite que le son (que l'arrivée des échantillons).

Max au Disklavier

Selon leur auteur, Jean-Claude Risset, les Huit esquisses en duo pour un pianiste (1989) sont « sans doute le premier duo pour un seul pianiste » ! Sur ce « piano spécial » qu'est le Yamaha Disklavier, équipé d'entrées et de sorties Midi, chaque note jouée sur le clavier peut envoyer un signal à un ordinateur, qui, à son tour, peut déclencher une touche grâce à des moteurs électriques.

Dans Max, Risset a écrit un programme qui « détermine de quelle façon la partie de l'ordinateur dépend de ce que joue le pianiste ». Ainsi, dans la section intitulée Up-down, « des arpèges d'octaves altérées sont déclenchés par le pianiste, qui voit ses notes proliférer » ; le tempo de ces arpèges dépend du tempo du pianiste, de la note qu'il joue et, enfin, de l'intensité de son jeu.

Lors des journées portes ouvertes de l'Ircam en juin 1998, à l'initiative de Marie-Hélène Serra (Ircam) et de Luc Martinez (Cirm), l'interaction en temps réel a été mise à l'épreuve de l'éclatement dans l'espace, grâce à des connexions à haut débit. Avec trois liaisons Numéris et une liaison téléphonique transmettant des codes Midi, les données du jeu de l'interprète (à Nice, sur un clavier) étaient envoyées à un Disklavier situé à l'Ircam, à Paris. Connecté à un Macintosh, celui-ci jouait les « réponses » calculées par l'ordinateur et les renvoyait à Nice.

À l'avenir, les réseaux élargiront-ils la pratique du concert ? Feront-ils éclater son cadre au profit d'une poétique musicale du temps réel sans unité de lieu ? Questions ouvertes, que l'on peut commencer à poser aujourd'hui.

jMax : le dernier-né

j (comme Java) + Max = jMax.jMax (disponible sur des stations Silicon Graphics et PC Linux, puis sur d'autres plates-formes) conserve le principe de la séparation entre une interface graphique (Max) et un exécutif (FTS).

Face à l'incompatibilité des systèmes graphiques (Macintosh, PC ou Unix), c'est l'apparition récente du langage Java qui a permis de lever les problèmes de portabilité ; Java (développé par la firme américaine Sun et très utilisé sur l'Internet) a en effet pour slogan : « Écrire un programme une seule fois et l'utiliser partout* » ! Mais, du fait même de leur généralité, les programmes Java sont relativement lents, donc mal adaptés pour effectuer les calculs de traitement du son en temps réel. C'est pourquoi FTS, l'exécutif de Max, est écrit en C, un langage rapide dit « de bas niveau ».

Les efforts de l'équipe Systèmes temps réel de l'Ircam, dirigée par François Déchelle, ont aussi consisté à isoler en modules ce qui, dans FTS, reste spécifique à chaque type de machine (notamment les codes concernant les entrées et sorties audio ou Midi). Le temps consacré au portage proprement dit s'en trouve réduit d'autant.

(Voir, sur l'Internet, le site http://www.ircam.fr/jmax)
* Le Monde, 19-20avril 1998, p.17.

La culture du concert

Hae Sun Kang interprétant Anthèmes 2
Hae Sun Kang interprétant Anthèmes 2 de Pierre Boulez © Myr Muratet
L'Ircam, à la différence d'autres institutions musicales, a d'emblée inscrit ses activités au sein d'une culture du concert. Dans le répertoire de l'institut, rares sont en effet les oeuvres pour bande magnétique ou électronique seule. Au niveau des choix technologiques et scientifiques, c'est l'interaction entre les interprètes et les « machines » qui a toujours été privilégiée.

Répons, de Pierre Boulez (1981-1988), aura sans doute été l'emblème de ce type de formation « mixte » : un ensemble instrumental, des solistes et un ordinateur -- la célèbre « 4X » -- qui, en « suivant » les musiciens, pilote et déclenche des transformations du son en temps réel. « Dans Répons, explique Andrew Gerzso, l'assistant musical de Pierre Boulez, nous avions effectué cette coordination manuellement, en suivant la partition et le chef d'orchestre pour lancer le programme approprié au bon moment. » Dans des oeuvres plus récentes, comme ...explosante-fixe... (1991-1995), la coordination « a pu être complètement automatisée grâce à l'utilisation d'un "suiveur de partition" : l'ordinateur écoute le soliste, compare ce que joue celui-ci à la partition stockée dans sa mémoire et définit le moment précis du déclenchement des modifications sonores ».

De Répons à ...explosante-fixe..., les oeuvres de Boulez ont donc été les jalons les plus visibles des évolutions technologiques du temps réel à l'Ircam ; mais c'est aussi tout un répertoire, riche et diversifié dans ses orientations stylistiques, qui s'est peu à peu constitué.

L'ancien et le nouveau

Roland Auzet Jouant du Zarb
Roland Auzet jouant du zarb dans OROC.PAT (1997.
Ainsi, dans OROC.PAT (1997), Roland Auzet, percussionniste et compositeur, a cherché, avec l'aide de Marie-Hélène Serra, à marier les possibilités du temps réel aux sonorités d'un très vieil instrument : pour faire naître « une confrontation, un dialogue, une dispute, une étreinte entre le programme FTS, outil de temps réel développé à l'Ircam [voir encadré], et le zarb, instrument de percussion digital créé il y a plusieurs siècles selon la tradition iranienne ».

Dans un tout autre registre, mais en ayant lui aussi recours à un passé lointain, Brice Pauset a revisité la technique du canon dans Perspectivae Sintagma I (1997, pour piano Midi et dispositif électroacoustique) : « Le jeu du pianiste est constamment comparé à la partition idéale, géométrique, stockée dans l'ordinateur. Les décalages infimes entre l'interprète et la partition sont insérés dans un algorithme de composition en temps réel reproduisant par synthèse les mêmes processus que ceux de la partition écrite. » D'où un effet permanent de conflit de points de vue (celui du musicien, celui de la machine), donnant une version musicale particulièrement vivante de cette « géométrisation », que le compositeur retrouve par ailleurs dans d'anciens traités de perspective.

On peut donc dire que toutes ces oeuvres, dans des styles très différents, emploient le « temps téel ». Mais il faut toutefois préciser que cette expression masque des situations hétérogènes. Philippe Manoury est sans doute le premier à avoir exploré de manière systématique les possibilités du temps réel, notamment dans la cycle intitulé Sonus ex machina. Et, parallèlement, il a développé une véritable pensée du temps réel. À la suivre1, on verra se dessiner des situations et des usages différenciés.

Des partitions virtuelles

Philippe Manoury a commencé à utiliser le logiciel Max dès 1988 (dans Pluton, pour piano Midi et électronique). C'est-à-dire à un moment où ce logiciel était encore en gestation : « Pendant que je développais Max, Philippe commençait à l'utiliser dans sa pièce », se souvient Miller Puckette. Cette collaboration étroite entre un musicien et un informaticien peut sans doute expliquer le succès de Max, mais aussi la réflexion suivie du compositeur sur l'outil qu'il a contribué à façonner.

Manoury a en effet tenté une sorte de « déduction » de la notion de temps réel à partir d'une analyse de la notation musicale, dans ses rapports avec l'interprétation. L'une des « facultés » de la notation musicale, écrit- il, est « sa virtualité ». L'exemple de la notation baroque le montre bien : l'écriture comporte certains éléments que Manoury qualifie d'« absolus » (la hauteur de la note dans la majeure partie du répertoire occidental) et d'autres qui sont « relatifs », c'est-à-dire laissés à la discrétion de l'interprète à l'intérieur de certaines limites (le tempo ou les dynamiques dans la musique baroque, par exemple). C'est en ce sens que toute partition destinée à un interprète est dite « virtuelle » : elle ouvre des champs de possibles, sans les déterminer complètement.

Or, comme l'affirme fortement le compositeur, « on ne peut rigoureusement parler d'interprétation que lorsqu'il y a une incertitude sur la valeur réelle qui va intervenir ». Affirmation qu'il faut entendre résonner selon une double opposition, qui la démarque de deux tendances majeures de l'électroacoustique : d'une part, la musique dite « concrète », cette musique pour bande magnétique qui, selon l'expression de Michel Chion, relève d'un « art des sons fixés » ; et, d'autre part, ce qu'on a pu appeler la synthèse « intégrale » (ou « directe »), c'est-à-dire un mode de composition électronique où « l'onde sonore doit être calculée dans ses plus infimes détails », afin d'être « déterminée entièrement, sans laisser de place aux déviations que pourrait apporter un interprète2 ». Face à ces deux options qui relèvent du temps différé, il s'agit pour Manoury de « faire entrer l'interprétation dans le contexte de la musique électronique ». On pourrait même dire : la faire entrer dans le texte. En effet, parmi les diverses techniques du temps réel, Manoury distingue nettement la reconnaissance de partitions et le suivi de partitions. Si, dans le premier cas, l'ordinateur peut déclencher des séquences sonores prédéfinies à des moments précis (en « reconnaissant » les notes que joue l'interprète), s'il y a bien là une manière d'« en finir avec la rigidité temporelle des anciens systèmes » (où l'interprète était astreint à suivre le déroulement continu d'une bande magnétique, par exemple), c'est toutefois, pour Manoury, au suivi de partitions qu'il convient de réserver le qualificatif de temps réel, dans son acception compositionnelle la plus pure.

Cette acception, Manoury l'illustre par un exemple tiré de sa pièce pour soprano et électronique, En écho (1993-1994). Ici, en effet, l'ordinateur analyse le timbre (les « formants ») que produit la chanteuse lorsqu'elle chante des voyelles ; puis il envoie les valeurs détectées à un dispositif de synthèse sonore (dans Max), qui les utilise pour produire des accords imitant aussitôt la couleur desdites voyelles.

Il ne s'agit donc plus d'une simple synchronisation des déclenchements par « reconnaissance » ; il s'agit de tenir compte, dans la fabrique même des événements sonores, des valeurs « relatives » (variables, vivantes) saisies sur le vif de l'interprétation. Et l'interprète peut dès lors contrôler les réactions de la machine : il peut en jouer.

Icare, une installation de réalité virtuelle
Icare, une installation de réalité virtuelle par Ivan Chabanaud, Bruno Herbelin et Roland Cahen © Myr Muratet

Une querelle du réel et du différé ?

Ainsi, au terme de sa « déduction », Manoury dégage, pour la composition, un concept musical du temps réel pur. Mais, dans la pratique, il ne s'agit pas, pour autant, d'opposer ce concept à celui de temps différé.

Jean-Claude Risset, l'un des pionniers, avec Max Mathews, d'une synthèse sonore exigente en temps différé, écrivait récemment : « Dans les années 70, certains ont déclaré qu'il n'était de salut que dans l'exécution des oeuvres numériques en "temps réel"3 . » Et il ajoutait : « C'est le travail sur des systèmes hors temps réel qui a abouti à la plupart des innovations concernant le son musical. »

Or, d'une part, comme le rappelle Manoury, « les systèmes en temps réel offrent désormais une puissance de calcul qui permet d'avoir un contrôle d'une très grande finesse. » Bref, au niveau de la qualité des résultats, ce que Manoury appelle « la querelle du "tout-temps-réel" ou du "tout-temps-différé" » n'a plus vraiment lieu d'être. D'autre part, le réel et le différé ne s'excluent pas mutuellement : la plupart des oeuvres produites aujourd'hui à l'Ircam en font un usage conscient et simultané. Enfin, les plus ardents défenseurs du différé et de son raffinement se mettent à explorer des situations inédites d'interaction en temps réel : c'est le cas de Jean-Claude Risset, dans ses pièces solistes pour Disklavier (voir encadré).

Le véritable problème est celui de l'évolution très rapide des machines commerciales assez puissantes pour traiter le son en temps réel. En effet, comme le remarque Risset, « l'obsolescence technologique » risque ici tout particulièrement de « rendre l'oeuvre périssable », puisque celle-ci se refuse à être fixée sur un support (comme dans le cas des musique sur bande) et ne fait que coder des protocoles d'interaction avec un ordinateur... soumis aux lois du marché.

C'est à ce problème, précisément, que tente de répondre le choix fait à l'Ircam d'une architecture purement logicielle, donc portable (indépendante des plates-formes physiques existantes). Ce nouvel environnement, qui vient de voir le jour, se nomme : jMax (voir encadré).

Au-delà du concert

De plus en plus, Max est utilisé en dehors du concert traditionnel. Comme l'écrivait récemment Richard Dudas4 : « Les groupes de rock tels que U2 et Michael Jackson ont recours à Max, non seulement pour le son, mais également pour les effets d'éclairage, grâce à des mélangeurs de lumière commandés par des instructions Midi. Les artistes du multimédia se servent souvent de Max comme outil de prototypage... » Outre certaines installations interactives (tel Alex, le messager virtuel, présenté par Catherine Ikam en 1995), ce sont aussi divers spectacles qui exploitent les possibilités de Max : les deux Clowns cosmiques de Richard Zachary5 font ainsi jaillir des sons d'orchestre ou de western à partir des capteurs que dissimulent leurs costumes !

Les problèmes de portabilité une fois résolus, jMax devrait permettre de tenir cette double exigence : poursuivre l'exploration d'un au-delà du concert, tout en assurant la pérennité d'un répertoire musical contemporain qui s'enrichit au fil des années.

Quelques patches de l'environnement jMax
Quelques patches de l'environnement jMax pour la gestion d'événements en temps réel dans Neptune de Philippe Manoury, ainsi qu'un extrait de la partition, indiquant les numéros des événements déclenchés et leur notation symbolique.

Notes

  1. Telle qu'elle se formule dans un texte intitulé Les Partitions virtuelles (à paraître prochainement dans les Écrits de Philippe Manoury, chez l'Harmattan).
  2. Jean-Claude Risset, « Calculer le son musical : un nouveau champ de contraintes ? », dans La Musique depuis 1945, sous la direction Hugues Dufourt et Jean-Marie Fauquet, Mardaga, 1996.
  3. Ibid., p.281.
  4. Les Outils du temps réel, dans le programme de l'Académie d'été de l'Ircam, juin, 1998, p.15.
  5. Musique : Philippe Montémont  ce programme, produit par le Théâtre fantastique, a été présenté à la Cité des Sciences en décembre 1997, puis lors des journées portes ouvertes de l'Ircam en juin 1998.