Serveur © IRCAM - CENTRE POMPIDOU 1996-2005.
Tous droits réservés pour tous pays. All rights reserved.

Le compositeur et ses AMIs[*]
Remarques sur la CAO

John Rahn

Les Cahiers de l'Ircam: La composition assistée par ordinateur 1(3), juin 1993
Copyright © Ircam - Centre Georges-Pompidou 1993
Traduit de l'américain par Jacqueline Henry

Nous autres, compositeurs, apprécions tous les types d'aides possibles. La présente étude porte plus particulièrement sur l'assistance de l'ordinateur, par laquelle le processus de composition devient indissociable de son environnement informatique et constitue, à l'extrême, une collaboration étroite entre l'homme et la machine, comme des "états unis" de la composition. Cet article portera tout d'abord sur les situations dans lesquelles le programme d'ordinateur est dotéd'une intelligence musicale importante et relativement autonome, puis celles, plus ambiguës, où l'environnement de programmation ou l'application sont peut-être plus des outils que des partenaires. Aucune distinction systématique n'est établie entre les programmes qui tournent en "temps réel" et produisent des improvisations/ exécutions en mode interactif et ceux qui fonctionnent sur le "temps du compositeur" afin d'obtenir un résultat qui sera utiliséultérieurement dans l'exécution.

Comment peut-on mesurer la créativitéet l'utilitéd'un programme d'intelligence musicale artificielle (IMA) ? Pour commencer, distinguons la structure formelle sous-jacente des programmes d'Ima de leur implémentation.

Les moteurs d'IMA : grammaires

La formalisation d'une théorie musicale connue (qui équivaut àl'écrire sous forme de programme d'ordinateur, d'après la thèse de Church [1] ) peut gommer certains défauts de cette théorie ou altérer sa compréhension et améliorer sa cohérence. Dans ce domaine, les travaux existant incluent la formalisation, par Michael Kassler, de la théorie sérielle sous forme de système logistique, celle de la théorie de Schenker comme un ensemble de fonctions récursives, le programme de James Snell, qui est un modèle génératif de la théorie de Schenker, et la formalisation de systèmes sériels par Marc Chemillier [2] . John Roeder est passéàl'étape suivante avec l'évaluation sémiotique de ses modèles en Prolog de l'analyse de segmentation de Forte pour la musique atonale, d'une théorie tonale formalisée de John Rahn et du contrepoint [3] . Ce type de travail, qui se situe cependant en marge de la composition assistée par ordinateur, ne sera donc pas analysédans ces pages.

Ces dernières années, les chercheurs en informatique ont utiliséla musique comme domaine d'essai de divers "moteurs" d'acquisition et d'application de connaissances spécialisées ou d'apprentissage généralisé de comportements complexes. Leur objectif n'est donc pas avant tout musical, ce qui fait que les programmes obtenus n'ont pas étéutiles à un grand nombre de compositeurs, mais ces recherches aboutissent à de bonnes améliorations de la conception des moteurs d'intelligence artificielle (IA) destinés à des applications musicales.

Avant d'examiner divers moteurs d'IA, il est bon de se demander à quoi serviraient les programmes créés. Un expert en logiciels pourrait dire qu'il s'agit de "produire un programme qui génère de la bonne musique : 1. dans un style désiré, 2. dans n'importe quel style, 3. dans un style spécifiable et modifiable par l'utilisateur."Bref, le Mozart automatique [4] . J'ai même entendu des chercheurs suggérer (en privé, de façon informelle, mais néanmoins sérieuse) que de tels programmes pourraient avoir une certaine utilitécar ils pourraient produire des flots ininterrompus de nouvelles compositions de "Mozart" à diffuser dans les ascenseurs. Les choix 2 et 3 introduisent progressivement une interaction de plus en plus grande entre le programme et une personne. Quand, dans le cas du troisième choix, le "style" devient "composition" - c'est-à -dire quand l'utilisateur indique le résultat désiréd'un événement musical donné(la "composition") ou lorsqu'un nouvel ensemble de ces événements spécifiés par l'utilisateur (le "style") est considérécomme une composition musicale (comme dans certaines oeuvres "partiellement déterminées", du genre de celles de Larry Polansky) -, c'est là qu'apparaissent les états unis de la composition assistée par ordinateur : l'homme et le programme travaillent ensemble, aucun des deux n'étant (dans ce contexte limité) musicalement complet et en mesure de se passer de l'autre.

Les caractéristiques du "moteur" formel d'un programme d'IMA sont susceptibles d'influer sur les résultats que ce programme peut donner. Le monde de l'IA se divise désormais entre ceux qui travaillent sur des réseaux (réseaux neuronaux, traitement parallèle distribué) et ceux qui travaillent sur d'autres paradigmes plus anciens (machines à états finis, machines stochastiques, grammaires, programmation logique et systèmes à base de règles ou "ingénierie de la connaissance"). Une bonne partie des travaux musicaux d'avant-garde, comme ceux de Hiller et de Xenakis, reposaient sur des machines à états finis et des moteurs stochastiques comme les processus de Markov, et cette tradition a remarquablement perduré. Ainsi, M et Jam Factory [5] , deux programmes commerciaux de composition assistée par ordinateur sur Macintoch avec instruments Midi, sont structurés autour de moteurs de Markov, de même que d'innombrables programmes de compositeurs du monde entier, notamment ceux d'improvisation interactive utilisant des interfaces Midi. Bien souvent, lorsqu'on entend la sortie musicale de ces programmes, on peut identifier leur nature markovienne.

Si la musique n'est pas une langue naturelle comme le français ou l'anglais, elle peut néanmoins partager avec eux un genre et un type similaires de complexité. Structures syntaxiques, la monographie de Noam Chomsky parue en 1971, est fort instructive à cet égard. Le linguiste établit une hiérarchie de moteurs, du moins puissant au plus puissant : il part des processus de Markov à états finis et passe à des grammaires à structure phrastique pour finir avec les grammaires transformationnelles. En fait, il démontre que les machines à états finis ne sont pas adaptées pour décrire tous les ensembles d'énoncés potentiellement infinis. Chomsky affirme que, même si l'on considère le français ou la musique à syntaxe tonale, comme un très vaste ensemble d'énoncés (non infini), une grammaire à états finis "sera si complexe qu'elle ne présentera ni une grande utiliténi un grand intérêt"; en outre, "il y a des procédés de formation de phrases que les grammaires à états finis sont par nature incapables d'appréhender [6] ". Que ces affirmations de principe soient ou non applicables à la musique, ce que nous verrons plus loin, il est néanmoins certain qu'une intelligence musicale artificielle uniquement fondée sur un processus de Markov de premier ordre (ou de n-ième ordre, pour un petit n) ne peut produire qu'une musique appauvrie; elle serait tout bonnement incapable d'engendrer la richesse relationnelle que chacun de nous souhaiterait. Et pourquoi collaborer avec un "Idiot musical artificiel" ? Bien entendu, il est possible d'employer les processus de Markov comme outils, comme l'a fait Xenakis, mais, dans ce cas, c'est la personne qui fournit toute l'intelligence.

La théorie de la musique tonale de Schenker a été formalisée à la fois comme une grammaire générative et comme une grammaire transformationnelle (solution nécessaire, selon moi), ce qui est nettement supérieur aux théories tonales antérieures de type markovien de par la possibilitéde lier étroitement des événements qui sont temporellement éloignés mais musicalement proches, et qui sont séparés par de nombreux événements, comme les relations tonique-dominante au début et à la fin d'une phrase ou d'une section. Une partie de cette stratification peut être introduite de force dans un modèle de Markov en composant une machine à plusieurs couches de machines stochastiques dans laquelle chacune des couches de la série s'emboîte dans la suivante. Cela améliore un peu les résultats, mais pas suffisamment [7] . La signature de ces grammaires, c'est leur nature récursive, qui semble convenir si bien à la musique. "Semper idem, sed non eodem modo", comme dit Schenker. L'esprit de celui qui écoute de la musique appréhende les relations musicales comme les conséquences de quelques principes plus ou moins uniformément appliqués qui décomposent récursivement la surface en niveaux : autrement dit, comme une grammaire générative. La composante transformationnelle (si elle existe) ajoute une remise en ordre d'éléments parfois distants dans la chaîne d'un niveau donné, bien souvent à partir de la structure arborescente produite par la composante syntagmatique de la grammaire transformationnelle.

Cela n'est peut-être cependant qu'une façon agréable, parmi tant d'autres, d'entendre la musique. Mais les grammaires récursives conviennent bien à la musique tonale et, dans une très grande partie de la tradition musicale artistique du monde occidental, les structures ou métastructures "souterraines" dérivent de ce modèle récursif. Ainsi, c'est la structure récursive des formes fractales qui explique l'intérêt qu'elles suscitent parmi les musiciens, qui ne voient aucun inconvénient à ce qu'un même principe soit appliquéà l'infini. En général, les grammaires récursives utilisées en musique comportent quelques règles de production principales (disons entre deux et dix), ce qui élargit considérablement l'éventail des possibilités dans une situation de composition donnée et favorise la richesse du résultat, mais reste assez limitépour ne pas nuire à la cohérence d'audition de l'ensemble [8] .

Les moteurs d'IMA : réseaux

Enfin, il convient d'aborder la technologie relativement nouvelle des "réseaux neuronaux", ou traitement distribué parallèle (PDP) [9] . Cette catégorie de machines semble exceller dans les tâches de perception/cognition de bas niveau qui avaient résistéaux techniques d'IA antérieures, comme celle, classique, qui consiste à "reconnaître un a dans des textes manuscripts". Certaines des premières recherches, en matière d'application des réseaux neuronaux, se situaient dans le domaine de la sécurité, avec la reconnaisance d'un visage, même mal rasé, ou d'une voix, même enrouée. Le problème, avec ces réseaux, est leur opacité. On peut en construire un et lui enseigner (ou le laisser apprendre seul) comment exécuter une tâche donnée. Mais une fois qu'il fonctionne, il devient malaiséde savoir exactement comme il l'exécute, et si l'on obtient cette description, elle n'apporte pas toujours une "explication" satisfaisante de la logique de la solution adoptée. Il est difficile de traiter le fonctionnement d'un réseau évoluécomme une expertise qui peut être transmise à des gens sous une forme qu'ils pourront eux-mêmes utiliser. Pourtant, certains chercheurs considèrent les réseaux neuronaux de simulation comme des modèles du système nerveux humain ou construisent (comme Grossberg) des réseaux neuronaux de simulation à partir d'un hypothétique modèle de neurologie humaine [10] . Même certaines descriptions des excitations de nos neurones lors de la résolution d'un problème ne nous apportent peut-être pas d'"explication" utile, c'est-à -dire nous permettant de résoudre ce problème. Ces réseaux peuvent donc servir pour leurs résultats, comme des boîtes noires.

Tous les réseaux ne sont pas égaux : des types de réseaux différents servent à des types de tâches différents. Le modèle primitif à deux couches, le "perceptron", qui ne comportait pas d'"unités cachées", est apparu inadaptéà la modélisation de la logique [11] , bien qu'on le trouve encore dans quelques applications d'IMA comme le système d'improvisation/exécution interactive "Cypher", de Robert Rowe, dans lequel la caractéristique essentielle est la vitesse [12] . Cypher est intéressant en tant qu'illustration clairement programmée de la théorie de la "sociétéde l'esprit" de Minsky. Il comporte trois agents principaux : l'auditeur (de flux d'événements Midi), l'exécutant (qui produit des notes) et le critique, chacun des trois étant composéde réseaux d'acteurs mineurs, sortes de "seconds rôles". La présence du critique améliore nettement les performances. Les agents connaissent un certain contexte musical, plus étendu que dans les systèmes habituels d'improvisation/exécution interactive. Dans son intégralité, le système est un réseau d'acteurs très modularisé, mais pas un "réseau neuronal", même si certains des plus gros "seconds rôles" sont des perceptrons. Rowe l'utilise en expert comme outil pour obtenir ce qu'il désire en matière de composition. Avec quelques modifications afin d'améliorer la représentation musicale sous-jacente (théorie de la musique) et d'augmenter l'intelligence de ses agents, il pourrait être un des premiers systèmes d'improvisation/exécution interactive à approcher la véritable "intelligence" musicale.

D'une façon générale, il semble que les systèmes utilisant un seul réseau neuronal se prêtent moins bien à l'IMA que ceux qui ont une structure moins homogène, faite d'acteurs relativement discrets et disparates travaillant par grappes et par couches. La distinction entre un réseau unique et un réseau de réseaux peut être arbitraire. S'il existe au moins un chemin non orienté entre chaque noeud et tous les autres, il n'y a qu'un réseau. Etant donnéqu'il est difficile d'imaginer un système efficace dont les éléments ne communiquent pas, d'une certaine façon, tout système est un réseau. Dans le cas des réseaux capables d'apprendre, il doit aussi y avoir une règle d'apprentissage (comme la rétropropagation des erreurs), parfois une procédure de formation (avec ou sans "maître"), et un éventail d'environnements résistants au sein desquels il peut apprendre.

Bon nombre des modèles antérieurs tendent à ignorer les effets de la macrostructure interne ou environnementale. Il est intéressant de noter que plus les systèmes croissent en hétérogénéité, plus ils doivent intégrer une représentation du domaine modéliséqui dépende d'une théorie propre à ce domaine. Un système hybride de composition assistée par ordinateur, composéen partie d'un réseau neuronal et en partie d'unités de traitement symbolique, devra reposer sur une théorie musicale sous-jacente et l'inclure dans sa structure. Si cette théorie ne convient pas, le système ne marche pas. Ainsi, si le concepteur du système décide que l'univers harmonique consiste en ensembles de classes de hauteur de type [037], que les rythmes sont tous des divisions temporelles récursives, comme dans la notation musicale classique, et qu'il introduit des acteurs harmoniques et rythmiques sur cette base, le système sera pour le moins limité. C'est là que la théorie traditionnelle de la musique rejoint la conception de systèmes à IMA. Un tel système peut être très sophistiquésur le plan informatique tout en étant totalement naïf sur le plan de la théorie musicale. C'est pour cette raison, entre autres, qu'il est important de séparer le modèle formel sous-jacent de l'implémentation et les moteurs d'IA qui constituent les acteurs d'un système de la théorie musicale intégrée dans celui-ci.

Les environnements de travail

Il n'est pas nécessaire que tous les systèmes de CAO utilisent l'intelligence musicale artificielle. Un grand nombre de systèmes aident à composer en fournissant un environnement ou un ensemble d'outils. La plupart des compositeurs de musique par ordinateur travaillent désormais avec ce genre de dispositif plutôt qu'avec des IMA, peut-être parce que les systèmes à intelligence artificielle sont encore insuffisamment au point, mais peut-être aussi parce qu'un compositeur peut ne pas souhaiter avoir un véritable partenaire dans son travail de création.

Il est bon de se rappeler que, même dans le cas de systèmes non intelligents, tous les types de moteurs formels peuvent être utilisés dans toute une gamme de langages, de techniques et de styles de programmation. Ainsi, la théorie tonale de Rahn est une grammaire générative qui, à l'origine, a été formalisée selon le calcul des prédicats, puis mise en oeuvre en Prolog par Roeder [13] . L'EMI de David Cope (Experiments in Musical Intelligence) est fondésur une grammaire, utilisécomme collaborateur à IMA et partiellement implémentésous forme de réseau de transition augmentéprogramméde façon procédurale en Lisp [14] . L'environnement de composition Kyma, de Carla Scaletti, tire parti de l'orientation objets de son langage, SmallTalk, pour favoriser un style de programmation/composition hiérarchique et modulaire proche d'une grammaire générative [15] . L'environnement de composition Lisp Kernel de John Rahn favorise lui aussi un style de programmation/composition voisin d'une grammaire générative en Lisp procédural, les environnements étant des paramètres du style fonctionnel [16] . Le système de représentation et de composition musicale de Stephen Pope implémente divers types de puissantes machines à états finis (comme des réseaux de Petri) comme réseaux dans le contexte du langage orientéobjets SmallTalk [17] . Quant à Cypher, de Rowe, qui est écrit en C, il a déjà étémentionnéplus haut.

Parmi les productions de l'Ircam, nous avons eu le formidable Formes, environnement orientéobjets implémentéen Lisp; Max et Animal, langages de programmation graphique tout à fait novateurs; et, plus récemment, Esquisse, environnement de composition écrit en Lisp [18] . Mais le tout dernier fruit des travaux faits à l'Ircam est PatchWork, environnement de programmation visuelle et d'édition graphique de la musique écrit en Common Lisp. Il sert essentiellement de langage évoluépour décrire des processus de composition abstraits et les traduire en notation musical [19] . Canon, de Dannenberg, est un environnement de composition en Lisp procédural qui frôle l'"application" (en ce sens qu'il tend à fournir des structures musicales toutes faites au compositeur), de même que le récent Common Music de Rick Taube, environnement de composition complet écrit en Common Lisp Object System [20] . Il y a au moins deux environnements de composition en temps réel écrits en Forth : l'HMSL orientéobjets de Larry Polansky et l'élégant Formula, orientétraitements, d'Anderson et Kuivila. Parmi les systèmes plus anciens, dont certains sont encore employés, on trouve Pla, de Bill Schottsteadt, Flavors Band, de Fry, Minc (Minc Is Not C), de Princeton, Scot, du MIT (avec le Csound de Barry Vercoe) et le compilateur Front, de Jeff Tinker, écrit à l'universitéde Washington, en Fortran.

L'équipe de Iannis Xenakis, au CEMAMu, a récemment mis au point une version PC de son système de composition graphique Upic [21] . Ces derniers temps, d'autres ont eux aussi mis en oeuvre des systèmes de composition graphique. Un des éléments de la station de travail musical intelligente de Camurri et Haus est Temper (TEsselating Music PERformer), qui se compose d'un module d'édition grâce auquel le compositeur peut créer, sauvegarder et modifier des séquences de remplissages périodiques du style de ceux d'Escher, et d'un module d'exécution qui traduit cette séquence en musique par l'intermédiaire d'une interface Midi [22] . Pour ma part, avec mon Lisp Kernel, j'ai récemment implémentéun logiciel qui traduit des informations graphiques en notes, ce qui reproduit plus ou moins le système Upic, mais, en outre, ce système exécute des transformations affinées généralisées de formes graphiques (ce qui fait qu'une courbe/un thème peut subir des transformations qui la/le déforment tout en conservant sa topologie ainsi que les transformations habituelles de rotation et de réflection, qui conservent les intervalles) et peut utiliser des algorithmes complexes de compression/expansion de données vidéo afin de produire des figures musicales/graphiques de façon algorithmique; la figure est peinte d'autant plus clairement que le nombre de points générés est grand. Cela m'a permis de gérer l'énorme quantité d'informations nécessaires à la synthèse additive brute tout en intégrant la composition des plus grandes structures musicales et la microstructure des sons. Beaucoup de compositeurs se sont également intéressés à la production de structures musicales à partir des théories des formes fractales et du chaos, ce qui suppose généralement l'utilisation d'un élément graphique [23] .

A l'heure actuelle, l'un des environnements de composition les plus perfectionnés et les plus complexes, qui utilise en musique quelques-unes des techniques d'IA les plus avancées, est l'"Intelligent Musical Workstation" (IMW : station de travail musical intelligente) de Camurri et Haus. Cet ambitieux projet veut intégrer de nombreux niveaux et types de traitement musical différents dans un seul environnement ouvert. Il est implémentésur Macintosh et offre une interface hypertexte à l'utilisateur. Ses principaux éléments sont un sous-système d'aide à la composition appelé WinProcne/Harp (WIndows PROlog tool Combining logic and semantic NEts/Hybrid Action Representation and Planning) et un environnement de traitement du son intégrant des instruments Midi et DSP [24] . Il n'est pas possible, ici, de citer tous les modules et sous-systèmes. Le modèle Soul (Self-Organizing Universal Listener) met en oeuvre un modèle d'écoute qui essaie de séparer l'information musicale du signal physique, comme une voix instrumentale d'un ensemble. Il est fondésur des réseaux neuronaux conçus selon le modèle de Kohonen. Le module ScoreSynth utilise des réseaux de Petri pour permettre la composition de transitions musicales dans un modèle multi-niveau reliéà une représentation symbolique ou notationnelle plus classique. Le module MusSer fournit quelques ressources pour composer de la musique sérielle. Le module Functional Performer permet de commander l'exécution musicale en temps réel (de la même façon que dans l'HMSL). Temper a déjà été mentionné. ScoreSegmenter essaie de reconnaître la segmentation musicale d'une partition. Ena (Experimental Neural Accompanist) utilise des réseaux neuronaux à rétropropagation pour implémenter une basse continue chiffrée dans le style du XVIIe siècle. Le "DIST.Music.Tool" produit et corrige des échantillons de son et inclut le langage Cmusic de l'UCSD (Univ. de Californie à San Diego) et la boîte à outils Midi de CMU (Univ. Carnegie Mellon). Les modules Key-Music, WinProcne/Harp et JAM offrent des ressources d'IMA avancées pour la composition. Leur modèle sous-jacent est en cours d'implémentation sous Common Lisp Object System (CLOS) et Unix/X-Windows. Key-Music, système de saisie de connaissances spécialisées fondées sur des réseaux de Petri et des réseaux sémantiques à héritage multiple, utilise des réseaux d'action, super-classe plus abstraite des réseaux de Petri dérivant du "formalisme d'acteur" de Hewitt [25] . WinProcne/Harp sépare systématiquement un niveau symbolique d'un niveau analogique, qui sont tous deux pilotés par un moteur en Prolog et interfacés à un ensemble d'"acteurs experts" de "niveau analogique" reposant sur une base de connaissances analogique. A noter le séquencement à l'aide de "rôles temporels" et de "cartes temporelles" d'après la logique temporelle de Shoham [26] .

D'une façon générale, l'IMW est intéressante par sa sophistication informatique, par sa multiplicité, par la séparation de différents types et niveaux de traitement de l'information musicale, et, plus particulièrement, par l'hybridation de traitement symbolique et non symbolique dans un même système hétérogène. Il n'en reste pas moins évident que les véritables systèmes musicaux intelligents n'en sont qu'au premier stade de leur développement.

Conclusion

Il faut parfois mieux avoir moins que plus, ce qui signifie qu'un compositeur peut avoir envie ou besoin d'un environnement informatique qui n'interpose pas sa complexitéet dont les outils et la "tournure d'esprit" ne le poussent pas à composer d'une façon donnée. En effet, s'il y a un système à IMA dans l'espace de travail, il aura ses propres idées, si ce n'est sa propre volonté, ce qui peut nuire à la gestation ou à l'évolution d'une composition nouvelle. Même si ce système assimile rapidement les désirs du compositeur pour chaque morceau, sa structure créera un conditionnement, rendra les choses plus faciles à apprendre et à faire et, bien entendu, les limitations formelles du moteur d'IMA limiteront aussi ses capacités. Mais un plus peut aussi être un plus, comme lorsqu'un environnement de composition - qu'il s'agisse d'un ensemble d'outils ou de modules à IMA, d'une aide à la composition ou d'un système d'improvisation et d'exécution interactif en temps réel - permet de jouer et de créer des genres de musique qui, autrement, seraient exclus de l'univers des possibilités musicales [27] .