En une dizaine d’années, les plateformes de streaming audio ont appris beaucoup de nos goûts musicaux. Les listes d’écoutes aléatoires en sont la preuve, plus on laisse défiler, plus on aime. Mais une poignée d’acteurs s’attache très sérieusement à passer à l’étape supérieure : créer de la musique générée par intelligence artificielle. Les artistes, pillés de leur créativité et de leurs droits d’auteur, pourraient en être les victimes collatérales. Le rachat par Apple en février 2022 de la start-up AI Music, créatrice de musique « au kilomètre » en est la preuve : les déclarations d’intention bien intentionnées mais naïves risquent d’avoir du mal à résister à la convoitise que suscitent ces progrès.
C’est dans un discret mais spacieux laboratoire du Ve arrondissement de Paris que Michael Turbot, Technology promotion manager chez Sony Computer Science Laboratory (CSL), accueille ses visiteurs. Cet espace de création et de recherche affiche pour objectif de comprendre les nouvelles technologies et de s’assurer de leur bon usage dans la société. « Cette structure est bien à part de la partie business de Sony, insiste Michael Turbot. Nous, on n’a pas le droit de faire de bénéfices. » Mais c’est Gaëtan Hadjeres que nous étions venu rencontrer, et le voilà qui pénètre les lieux. Cet ingénieur en informatique et en mathématiques de 31 ans est un des noms qui comptent dans l’IA. Un profil de surdoué. Non pas parce qu’il codait des jeux vidéo dès la fin du collège, mais parce que ses recherches sont parmi les plus en pointe dans le domaine.
En 2016, il a cocréé, avec deux associés, DeepBach, un modèle d’IA capable de créer des chorals de Bach crédibles de manière ouverte, flexible et interactive. « Tout ça grâce à la beauté du machine learning (technique d’apprentissage automatique informatique – NDLR) qui a ingéré les 389 chorals composées par Bach », s’enthousiasme l’ingénieur. La machine détecte elle-même des règles et des schémas récurrents à partir de ces datas, qu’elle résume et regroupe. Les chorals du compositeur allemand fascinent depuis longtemps les chercheurs, car il s’agit « d’un ensemble très homogène, avec les mêmes techniques de composition, assez facile à modéliser sans approximation », pointe Gaëtan Hadjeres qui ne jure pas que par la musique du compositeur baroque, mais cite avec gourmandise Bob Marley, Radiohead, Beethoven ou Modeselektor. Sa fierté : l’utilisation de son modèle pour un concert lors de l’ouverture du World Congress on Information Technology de 2019, à Yerevan (Arménie).
Un parterre de 10 000 personnes, en présence du Premier ministre arménien, a alors pu écouter les musiciens de l’orchestre jouer une partition composée par DeepBach, cette fois-ci entraîné sur des sharakans, des chants traditionnels arméniens. Toutes les technologies fondées sur l’IA séduisent de nombreux artistes, des plus connus comme Jean-Michel Jarre aux plus confidentiels, dont la cheffe d’orchestre Uèle Lamore. La Parisienne a composé le EP Heqet’s Shadow : Return of Glycon avec les outils du laboratoire de Sony CSL dont Notono, interface conçue par Théis Bazin, doctorant en IA chez Sony, afin de trouver de nouveaux timbres pour le sound design de ses créations.
Dans l’écurie Sony CSL, on trouve aussi le talentueux producteur Twenty9, qui a collaboré avec bon nombre d’artistes de la nouvelle génération, SCH, Dinos, Lacrim, Angèle ou Yseult. Lui a utilisé le logiciel DrumGan, capable de créer une infinité de sons de batterie et de percussion. Les timbres de ces samples sont uniques, tout simplement parce que le fichier audio a été pondu par l’IA et sélectionné par le producteur. Autre exemple de la réussite de Sony CSL, le prix du public décerné au AI Song Contest en 2021 à Whim Therapy, dont le morceau « Let it go » a été produit à l’aide des outils du laboratoire, des lignes de basse jusqu’à l’écriture des paroles. Gaëtan Hadjeres tient à en faire la démonstration à travers un autre outil, The Piano Inpainting, qui peut composer ou restaurer des parties manquantes dans une composition de piano.
Certaines des propositions faites sont absolument bluffantes. Un clic et les notes midi s’écrivent, de gauche à droite, comme si un compositeur était caché dans la pièce, de l’autre côté de l’écran. Pour l’utilisateur, bras croisés, oreilles ouvertes, il ne reste qu’à choisir, éditer, agencer ce qui le convainc le plus. Le résultat est très vite très satisfaisant, avec très peu d’erreurs. Les opportunités offertes par l’IA musicale semblent infinies.
De la musique « juste en pressant un bouton »
Le musicien Benoît Carré, alias Skygge, est un précurseur dans le domaine. Lorsqu’en 2016 il sort « Daddy’s Car », chanson aux forts accents des Beatles, la presse spécialisée s’affole. « Une intelligence artificielle a créé un nouveau morceau des Beatles. » La réalité est en fait bien plus complexe : l’IA n’avait en fait que composé la mélodie, après avoir été entraînée sur 45 morceaux et 1 300 partitions du groupe mythique de Liverpool, l’arrangement et l’harmonisation étant l’œuvre de Benoît Carré. Mais une étape avait été franchie. Il réitère en 2018 sur Hello World, album cocomposé avec une IA et de nombreux artistes invités, dont Stromae, The Pirouettes ou Catastrophe, et enfonce le clou en 2019 avec l’EP American Folk Songs, recueil de chansons folk traditionnelles rénovées grâce à ces technologies. Son dernier disque, Melancholia, sorti en mars 2022, va encore plus loin et se dévoile comme une œuvre personnelle à l’esthétique mouillée, mi-dystopique, mi-hantée. Une jolie réussite réalisée à l’aide d’une flopée d’outils IA, dont ceux du Paris CTRL (Creator Technology Research Lab) crée par Spotify, signe que c’est toute une industrie qui se met au diapason.
Dans son studio, situé au fond d’une vieille impasse pavée grignotée par les mauvaises herbes, dans le XXe arrondissement de Paris, Skygge défend une approche modérée : « Je refuse de me servir à tout prix de ces outils juste pour m’en servir. Sur certains titres de l’album, j’ai tout jeté parce que je trouvais que ça n’avait rien apporté par rapport à ce que je voulais. Il ne faut pas que ce soit une espèce d’automatisme. » Il n’utilise pas l’IA pour se faciliter le travail ou accélérer des tâches, jure-t-il, mais seulement dans un but créatif, pour faire des propositions qu’il n’aurait jamais pu faire. D’autres artistes à l’international s’emparent de ces technologies et développent des projets passionnants : Holly Herndon (experimental), Yacht (art pop), Ash Koosha, Arca, Actress, Mouse On Mars… « Pour la création, je suis optimiste. Ce qui m’inquiète, c’est l’économie de tout ça, relève Skygge. Aujourd’hui, I’IA ne sait pas raconter une histoire sur plus de quatre, huit mesures peut-être. Mais est-ce qu’elle va un jour pouvoir écrire une bonne chanson ? Si les capacités de l’IA continuent d’augmenter, ça ne peut qu’arriver. »
Car tout n’est finalement pas si beau. Skygge laisse entrevoir des territoires plus désolés. Au-delà du coût environnemental de cette exploration – « C’est 3 heures de rendu pour 10 secondes de musique… Il faut énormément d’énergie » –, on voit se dessiner un monde où l’humain commence, si ce n’est à s’effacer, au moins à se précariser. Le visage du grisonnant Skygge s’assombrit quand on lance le nom d’Endel dans la conversation. À ses débuts, la start-up a été soutenue par le fonds Alexa d’Amazon en 2018, qui a remis la main à la poche lors de la levée de fonds de 2020. Un soutien de poids pour cette jeune pousse qui a aussi été la première entreprise d’intelligence artificielle à signer un contrat de distribution avec un label. Et pas n’importe lequel, Warner.
Pour 20 disques sur la seule année de 2019, soit un total de 600 morceaux courts, dont les revenus sont partagés à parts égales entre la major et la startup. Un joli volume de musique produit « juste en pressant un bouton », avait fanfaronné Dmitry Evgrafov, chef du sound design et cofondateur d’Endel, auprès de Rolling Stone en 2019. Il s’agit là que de musique d’ambiance à vocation visée utilitaire, classée selon des thématiques rassurantes : « Sleep », « Focus », « Relax » et « On-the-Go ». Amazon et Endel jurent que l’humain ne disparaîtra pas, mais Skygge tilte. « Endel, oui, c’est inquiétant, ça veut dire que des gens sont allés en studio et ont enregistré cette musique, avant qu’elle soit réarrangée par leur IA. Au fond, c’est un peu le principe du Mechanical Turk, un canular du XVIIIe basé sur un automate qui savait prétendument jouer aux échecs… En réalité, il y avait un vrai joueur dedans… Ces musiciens ont donné leur talent et n’ont été payés que pour ça. Mais de toutes les façons, qu’est-ce qu’ils vont faire ? De la musique d’ambiance ? »
Endel excelle en effet dans ce registre, qui n’est ni une niche artistique ni une niche commerciale, il suffit de regarder les audiences des « mood playlists », ces fameuses listes de morceaux adaptés à notre humeur, souvent censées nous aider à nous relaxer qui pullulent sur les plateformes de streaming ou sur YouTube, dont l’exemple le plus célèbre est « Lofi hip-hop radio – beats to relax/study to ». « Si Spotify était capable de générer de la musique au kilomètre, comme ça, pour faire de la musique d’ambiance, la plateforme essaierait de le faire libre de droits, parce qu’il a un intérêt économique évident à cela », balance un chercheur. Est-ce à ces fins que Spotify financerait un laboratoire de recherche dans l’IA ?
En 2017, une enquête de Music Business Worldwide identifiait 50 « faux artistes » que le géant suédois aurait créés de toutes pièces. Leur écoute aurait généré trois millions de dollars de revenus pour la plateforme, détentrice de l’intégralité des droits d’auteur. L’entreprise a nié ces accusations, mais si elles s’avéraient véridiques, elles éclaireraient plus encore l’appétit de la plateforme, déjà sujette aux critiques quant à sa politique de rémunération. Avec un chiffre régulièrement évoqué de 0,0039 euro par lecture, un artiste ne touche un SMIC qu’à partir de 394 723 streams par mois.
« Quand tu as des datas de mauvaise qualité, tu es nécessairement limité dans ce que tu vas pouvoir créer. »
Tout à fait compétente pour générer de la musique ambiante, l’IA est également capable de composer pour l’image. « Des créations pour les contenus et les vidéos. Ils ne peuvent pas faire beaucoup plus. Un peu comme ce que faisait Jukedeck. Alors c’est vrai que ça remplace certains musiciens, mais est-ce que c’est vraiment une tâche créative ? » interroge Skygge. Cette entreprise, créée en 2012, avait en effet compris assez tôt quels usages pouvaient être faits de l’IA dans ce domaine. L’entreprise était capable de créer des morceaux adaptés aux exigences des usagers grâce à un algorithme créé par d’anciens étudiants de l’université de Cambridge.
Son site est hors ligne depuis son rachat par TikTok en 2019, une plate-forme régulièrement critiquée par les distributeurs et les artistes pour son usage peu rémunérateur de leurs œuvres, qui aurait elle aussi un intérêt manifeste à savoir créer de la musique au kilomètre. En termes de musique à l’image, Lucas Cantor compte parmi les « top players ». Ce compositeur et producteur a travaillé pour la chaîne NBC sur les Jeux olympiques de Salt Lake City, Athènes, Turin, Pékin, Vancouver, Londres, Sochi, Rio, et Pyeongchang, également coproduit la reprise de « Everybody Wants To Rule The World » par Lorde pour Hunger Games : Catching Fire, et a coécrit le thème de la Major League Soccer, pour la Fox. Mais son nom est surtout connu dans le petit monde de l’IA pour avoir « fini » la symphonie n° 8 de Schubert, aussi appelée la symphonie inachevée à l’aide d’une IA créée par Huawei.
Affable malgré l’horaire – il n’est que 8 heures à Pasadena, Californie, quand il apparaît dans l’écran, les cheveux encore ébouriffés, mais les idées bien en place –, il regarde sans alarmisme ni complaisance le monde qui se dessine sous le crayon de l’IA. « Je pense qu’un des débouchés sera, par exemple, pour habiller des shows de téléréalité. Si je prends l’exemple de ce qui se fait déjà pour Keeping Up With the Kardashians : le compositeur ne compose pas pour une scène en particulier, il envoie tout un tas de musiques que la production pourra utiliser ensuite. Ce n’est pas exactement du cousu main… et ce n’est pas un problème, puisqu’au fond, l’audience de ce genre de shows s’en fiche. Pour ce genre de création, l’IA est dès aujourd’hui capable de créer. Et à mes oreilles, ce que fait Aiva est même déjà mieux que ce qu’on peut entendre dans ce show… »
Cette start-up luxembourgeoise Aiva (Artificial Intelligence Virtual Artist), conçue comme une « aide à la composition pour les créateurs de contenus » compose aujourd’hui de la musique symphonique, notamment pour l’audiovisuel et les jeux vidéo. Elle est la première entreprise d’IA inscrite à la Sacem. Aiva reste pour l’instant le pseudonyme de Pierre Barreau, CEO de l’entreprise. « Je suis le tuteur de cette intelligence artificielle jusqu’à ce qu’elle fasse preuve de suffisamment d’indépendance et, à terme, possède davantage de droits aux yeux de la loi », avait déclaré ce dernier. En janvier 2017, la start-up Aiva avait annoncé sa première levée de fonds, auprès de Kima Ventures, un des fonds d’investissement les plus actifs au monde, cofondé par Xavier Niel.
En plus de TikTok, ce marché a ouvert l’appétit de nombreuses sociétés : parmi lesquelles Matchtune (au sein de laquelle on retrouve un certain André Manoukian), Mubert et Amper. Drew Silverstein, ancien CEO de cette dernière, fut lui-même un temps compositeur pour l’image, à la télévision ou le jeu vidéo. Passé par l’école de commerce de la Columbia University, à New York, il se targue d’avoir créé l’un des systèmes les plus efficaces, hybrides et fondés sur un mélange d’IA, d’algorithme d’apprentissage machine, de réseaux de neurones artificiels, et d’opérations préconçues pour accélérer la génération de musique, sa « sauce secrète ». « Pourquoi est-ce que la plupart des entreprises qui bossent dans l’IA musicale, si ce n’est toutes, ne sonnent pas très bien ? C’est simple, quand tu lui donnes du “garbage in”, l’IA sort du “garbage out”, schématise-t-il. Quand tu as des datas de mauvaise qualité, tu es nécessairement limité dans ce que tu vas pouvoir créer. » C’est là l’un des enjeux inhérent au développement du machine learning : les données avec lesquelles on entraîne les modèles. La qualité de ceux-là est corrélée à celle des données entrantes.
Plagiat ? Appropriation ?
Aujourd’hui, c’est la directive européenne 2019/790 sur le droit d’auteur dans le marché unique numérique, qui pose le cadre d’utilisation des œuvres (de la musique, des textes, des photos…) pour entraîner un modèle d’intelligence artificielle. « Ce texte européen concerne ce qu’on appelle la fouille de textes et de données,explique Alexandra Bensamoun,professeure de droit privé à l’université Paris-Saclay et personnalité qualifiée au Conseil supérieur de la propriété littéraire et artistique (CSPLA). Il permet cette pratique, qui consiste à utiliser la machine pour analyser les traits caractéristiques des données, créer un modèle d’inférence et ensuite pouvoir générer une production en aval. »
La directive crée deux exceptions parfaitement légales au monopole du droit d’auteur et des droits voisins : la fouille de données à des fins scientifiques et académiques, et la fouille à des fins commerciales, si les ayants-droits ne s’y opposent pas explicitement et si l’accès à ces données est… licite. Comment savoir si un accès est licite ? « C’est bien le problème, c’est impossible », reconnaît l’experte, qui a codirigé la rédaction du rapport Mission intelligence artificielle et culture, commandé par le CSPLA.
« C’est toujours flou, réagit Gaëtan Hadjeres, parce que pour l’instant, aucun vrai souci ne s’est posé. » Le cas d’OpenAI est plus complexe. « Leurs démos sont nommées dans le style de Frank Sinatra, ou dans le style de Bruno Mars… ce qui veut quand même dire que le modèle a dû être entraîné sur ça, sans pour autant le dire ! » s’agace une voix de l’industrie. Plagiat ? Pastiche ? Elle reprend : « Les gens qui ont développé ça, ce ne sont pas des musiciens. Techniquement, c’est impressionnant, mais tu ne sais pas ce qu’ils veulent en faire… »
Tom Lebrun, juriste chargé de cours en droit et intelligence artificielle à l’université de Laval, résume ces enjeux d’un trait dans le titre de son article : « L’apprentissage machine est une appropriation », paru en 2018 dans Les Cahiers de propriété intellectuelle. Si l’IA ne remplace pas les artistes, elle peut favoriser des usages qui sapent le droit d’auteur, entraînent le plagiat et appauvrissent la filière. « Il est probable que des entreprises soient en violation du droit d’auteur de certaines juridictions, abonde Drew Silverstein. Certains doivent être au courant, d’autres non. Ce à quoi nous avons toujours été très vigilants chez Amper music. Mais une partie de la malheureuse réalité, c’est que le droit d’auteur, tel qu’il existe, n’a jamais été pensé pour un contexte de musique algorithmique. On applique une législation complètement dépassée, un cadre et des procédés légaux qui ne sont pas appropriés à cette réalité, car jamais prévus pour ça. »
Michael Jacob, cloud customer engineer chez Google, est vigilant sur l’origine des données avec lesquelles il entraîne son IA, lui qui officie aussi en tant que rappeur producteur sous le nom de MJx Music. En mai 2021, ce New Yorkais de 28 ans a fait paraître le EP Natural Causes, réalisé en collaboration avec Magenta de Google. « J’ai bossé avec l’IA comme si c’était un coproducteur pour m’aider à créer des mélodies et des beats, résume-t-il. Ça m’a pris près de deux ans et demi pour l’entraîner. Au début, une proposition sur dix était bonne, aujourd’hui, c’est presque huit sur dix ! » Lui met un point d’honneur à n’utiliser que des données qu’il a été autorisé à utiliser ou simplement les siennes. « Je ne veux jamais entraîner mon modèle sur des données d’autres personnes sans leur permission. Ce qui fait que j’ai utilisé ma propre musique et celle des producteurs de mon écosystème qui voulaient bien partager leurs données, raconte-t-il. Je voulais faire ça bien, propre. »
Car aujourd’hui, n’importe qui ou presque peut mettre la main sur ces données sans en demander le droit, sans respecter la propriété intellectuelle. « Est-ce que cette pratique existe déjà ? Oui, sans l’ombre d’un doute. Certains le font pour le hobby et des pratiques amateurs. Pour le business ? Mon intuition, c’est que des pros le font aussi. Est-ce que je les connais ? Non », botte-t-il en touche. Et de reprendre : « Les données sont partout. Donc imagine : tu as les compétences pour le faire, il te manque les bonnes datas et tu sais que ça va amener ton IA au next level… »
Pour l’instant, regrette-t-il, personne n’a l’argent, le talent ou les compétences nécessaires pour opérer ce qu’il appelle du « reverse engineering ». Une opération qui consisterait à regarder sous le capot desdites IA pour remonter jusqu’aux données d’origine.« Oui, c’est une idée géniale, ça pourrait être utile d’avoir cette technologie. » Pour lui, la nouvelle vague de l’IA et de tout ce qui touche au domaine de l’art génératif a quelque chose de très attirant, mais il déplore qu’on soit comme hypnotisés par « ces sirènes ». « Derrière l’engouement, il y a une question que personne ne pose : comment c’est fait ? C’est pour ça qu’il est important que les gens comme moi, des musiciens et des tech guys, nous nous fassions entendre. Si ce n’est pas le cas, malheureusement, des gens vont se faire piller leurs données sans même s’en rendre compte et ne jamais être crédités… »
McDonaldisation de la musique
Michael n’est pas le seul à émettre des réserves et à ramener de l’éthique dans ce débat, trop important pour être simplement laissé aux scientifiques et au business. En 2017, Roland Wiltgen, compositeur, ancien président et actuellement secrétaire général de la Fédération luxembourgeoise des auteurs et compositeurs, avait écrit une lettre cinglante à l’adresse du ministère de la Culture. La cause ? La start-up Aiva, encore elle, lauréate du concours Pitch Your Start-Up 2017, avait reçu la commande d’une pièce de musique écrite par son IA pour la fête nationale. « Nous considérons cela comme un affront vis-à-vis des compositeurs et compositrices luxembourgeois, une claque en plein visage de tous les créateurs et créatrices dans tous les domaines artistiques », écrivait-il dans sa lettre.
Du temps a passé, les affronts sont en partie lavés, mais aujourd’hui encore, il tacle. « À notre avis, le sigle « IA » était, et reste sans doute encore, un argument de vente dans l’air du temps. On est plus sur du trial and error sur base de statistiques que sur de l’intelligence et encore moins sur de l’art, réfute-t-il. Mais comme avec toute nouvelle technologie, il y aura des gagnants et des perdants. Plus généralement, je redoute les effets d’une macdonaldisation de la musique qui, je l’espère, ne contaminera pas la musique non commerciale, savante… »
La musique fast-food, au kilomètre, permet à Jean-Louis Giavitto, directeur de recherche au CNRS et en poste au laboratoire sciences et technologies de la musique et du son de l’Ircam, d’illustrer un piège qui menace les développements de l’IA : « Le “ turing trap” consiste à ne déléguer à la machine que des choses que nous faisons déjà. Si c’est pour du repassage, personne ne s’en plaindra. Mais on peut aussi déléguer à l’ordinateur la production de musique de remplissage, comme celle utilisée pour accompagner les documentaires. La musique produite n’aura aucune originalité. Par ailleurs, un compositeur aime composer, moi j’aime programmer… Alors comment ne pas s’enfermer dans l’imitation et préserver notre inventivité ? » questionne-t-il. « Ce “ turing trap”, en cantonnant la machine à ce que nous faisons déjà, permet une augmentation quantitative de nos capacités, mais n’apporte pas de renouvellement ou d’extension du domaine musical… Non, pour éviter cette impasse, il faut s’appliquer à imaginer des outils autres. »
La start-up Aiva et son CEO, Pierre Barreau, se sont notamment fait connaître à la faveur d’un Ted Talk diffusé en septembre 2018. Blue jean, pull bleu, mèche de cheveux qui lui barre le front. Le regard clair balaie l’audience, comme le requiert l’exercice. Quelques hésitations, un anglais impeccable. Le parfait Ted Talk : lisse, prévisible, optimiste. « Je me suis fait la réflexion que la musique personnalisée serait la prochaine révolution dans notre façon de consommer et créer de la musique, dégaine-t-il. Aujourd’hui, il y a des contenus interactifs, comme les jeux vidéo, avec des possibilités de jouer pendant des centaines d’heures, mais juste deux heures de musique, en moyenne. Ce qui veut dire que la musique se répète en boucle. Ce n’est pas très immersif. Donc, on travaille sur un moyen de s’assurer que l’IA peut composer des centaines d’heures de musique personnalisée pour ces cas d’usage où la créativité humaine ne peut pas être répliquée. Et on ne veut pas le faire que pour les jeux. (…) » Autrement dit, qu’est-ce qui empêche d’appliquer cette logique au cinéma, à la télévision ? Rien. D’ailleurs Aiva a déjà composé pour le cinéma. Lui veut créer de la musique adaptée à l’image.
Lucas Cantor ne partage pas les ambitions de Pierre Barreau. « Les compositeurs à l’image participent à l’écosystème musical d’une manière positive. Et si cette personne est soudainement sans emploi, parce que Pierre, d’Aiva, collecte tout l’argent au travers de son entreprise, c’est un vrai problème… Je ne suis pas un futurologue, mais si un producteur voit qu’il peut avoir de la musique, aussi mauvaise soit-elle, pour seulement 10 % du prix… Je ne vois pas pourquoi ça n’arriverait pas. »
Actuellement, l’IA a toujours besoin de l’humain pour apprendre, et ses propositions ont indéniablement besoin d’être éditées, enrichies, agencées par notre main. Mais si l’on se fonde sur ce qu’on observe ailleurs – la suprématie de l’IA dans les jeux d’échecs après avoir battu tous les maîtres vivants –, l’expérience doit inviter à s’intéresser avec autant d’enthousiasme que de distance critique à ces technologies. « Pour le moment, essaie-t-il de se rassurer, ça reste quand même difficile d’imaginer une IA vraiment scorer une scène aussi bien qu’un humain le ferait. Ça n’est pas qu’un artisanat et de la technique. C’est aussi un art. »