文章が「音楽」に。AI作曲は音楽家にとって脅威か、よきツール...の画像はこちら >>



Text by 山元翔一
Text by imdkm



2023年6月、The Recording Academyは『グラミー賞』における楽曲内でのAIの活用に関するルール、ガイドラインを発表。同アカデミーCEOのハーヴィー・メイソンJr.は、「AIの歌っている声やAIの楽器があれば検討する」とつけ加えながらも、ソングライティングに関するカテゴリーにおいては「そのほとんどが人間によって書かれたものでなければならない」とし、パフォーマンス部門においても「対象となるのは、人間のパフォーマーだけです」と「GRAMMY.com」のインタビューで回答した(※1)。



現時点では、音声変換によるAIの声真似(ディープフェイク・オーディオ)によって故人の声をも再現可能となり(※2)、AIによって生成されたドレイクとThe Weekndの歌声を用いた楽曲、ディープフェイクによるフランク・オーシャンの偽のリーク音源が出回るといったケースまで出てきている。その一方で、すでに実際の音楽制作の現場でも我々が思っている以上にAIは活用されているようでもある。制作のアシスタント的にAIを用いた実例は、「Pitchfork」の記事で詳細に紹介されている(※3)。



AI作曲がもたらす革新をヒップホップ黎明期のサンプリングと重ねて論じる向きもあるが(同上)、この急速に発達する技術にどう向き合えばいいのだろう。Googleが発表した音楽生成AI「MusicLM」を入り口に、ZINE『音楽とテクノロジーをいかに語るか』を上梓したばかりのライターimdkmが、「AI作曲」が我々に問いかけることを考える。



2023年1月、Googleは文章から音楽を生成するAIモデル「MusicLM」を発表した。



Googleが公開した「MusicLM」によるサンプルは、「Stable Diffusion」や「Midjourney」などを通じて世間を驚かせていた画像生成AIに匹敵するインパクトをもたらすものだった。ただし、著作権上の問題を考慮して、「MusicLM」そのもののリリースは見送られた(※)。



生成されたクリップや楽曲について論評しようとすればいくらでも足りない部分は指摘できる。しかし、「たしかに音楽らしい」と感じられる程度の構造を持っている。



たとえば、「Long Generation」のデモにある「melodic techno」を聴いてみると、5分と長尺ながら、4つ打ちで、8小節もしくは16小節単位で展開するテクノらしさをきちんと持っていることがわかる。惜しむらくは、「はじまりがあり、じわじわと盛り上がり、カタルシスを迎えて終わる」といった全体の構成を欠くところくらいだろうか。



こうした構成を維持することの難しさは、AIが抱える大きな問題でもある。その点で、「MusicLM」においては「Story Mode」がよい解決策になるだろう。指示を連続的に与えることで、前の部分から雰囲気を保ちながら新しい展開をつくることができるようにもなっている。



ジャンルや楽器の指定、音楽用語、形容詞を的確に反映する実力はなかなかのもので、ひとつの鼻歌や口笛からさまざまなバリエーションのアレンジをつくりだす「Text and Melody Conditioning」のデモは聴き比べるだけでもおもしろい。



テキストから音声ファイルをそのまま生成する『MusicLM』のようなAIモデルはText-To-Musicと呼ばれ、2020年に発表された『OpenAI Jukebox』を嚆矢として、近年開発が進んでいる分野だ。



それまではMIDIファイル(※)のように譜面を生成することが中心で、サウンドを扱う場合も、譜面の生成とそれを実際のサウンドに落とし込むプロセスがわかれていたりしていた。しかし、いまやText-To-Musicの分野では「Mubert」「Riffusion」「Soundraw」など、実際にユーザーが使うことができるサービスも登場している。



テキストでうまく指示(プロンプトと呼ばれる)を与えさえすれば、それらしい音楽をつくりだしてもらえる。まさに夢のような話だけれど、だからといって既存の音楽(音楽家)がAIに置き換わる未来が来そうかというと、少し難しいところがある。それは、「AIが生成する音楽の質が低い」という問題ではなく、AIによる作曲が前提とする「制作」のモデルそのものが抱えている問題だ。



Text-To-Musicでは、テキストによる指示(プロンプト)が入力されると、それに応じた音声ファイルがまるごと出力される。それはあたかも、万能の作曲家が指示にしたがって完成品を納品してくれるかのようだ。

しかし、ポップミュージックを中心とした現代の音楽は、必ずしもそのようにばかりつくられているわけではない。



いま、録音物としてひろく流通している音楽の制作工程は、たいていの場合分業化されている。作詞、作曲、編曲、演奏、録音、ミックス、マスタリング……等々、一つひとつの工程に専門家がいるのだ。もっと細かく言えば、メンバーが一人ひとり各楽器を担当するバンドやオーケストラもそうした分業のあり方だろう。



昨今は制作環境の発展もあり、ひとりで制作を完結するコンポーザーやシンガーソングライター、あるいはいわゆる「トラックメーカー」型のアーティストも珍しくはなくなった。しかし、そうしたスキルを持つソングライターたちが集まって一緒に曲を練り上げていく「コライティング・セッション」のような、新しい分業=コラボレーションもすっかり定着している。



コライティングについて少し補足しておくと、北米を中心として、2010年代の後半には1曲のヒットソングを生み出すのに5人も6人もソングライターを必要とする状況が当たり前となり、いまでもその状況は大局的には変わっていない。たとえば、2021年にリリースされ、2022年にかけてロングヒットとなったThe Kid LAROIとジャスティン・ビーバーの“Stay”には、9名のソングライターが名を連ねている。



このように、具体的な制作の現場を見渡せば、「ひとつの楽曲がたったひとりのつくり手と結びつく」というのはある特殊な領域の話か、もしくはなんらかの単純化を施した結果にすぎない。しかし、AIによる「作曲」は、こうした分業のあり方をすっ飛ばしてしまう(そもそもAIを作者と呼べるのかどうかには議論の余地があるが)。少なくとも音声ファイルを出力するText-To-Musicに関しては、着想から完成までがAIのブラックボックスのなかで完了してしまうのだから。



いまのところ、Text-To-MusicのAIが生成するのは、単一の音声ファイルだけ。

あとから編集しやすいように、各パートをばらばらに(いわゆるステムのようなかたちで)出力してくれるわけではない。「ここのギターソロ、もうちょっと違うフィーリングのものがほしいな」と思っても、そこだけ差し替えることはできないだろう。



あるいは、AIが生成したボーカル入りの楽曲に、放送できない言葉(そのように聞こえる音)が入っていたらどうだろう。たいていの場合、放送に適さない言葉を歌詞に含む楽曲は、放送用に「クリーン・バージョン」がつくられる。ボーカルのパートに編集を加えて、該当箇所を聞こえなくするのだ。しかし、手元に完成した音声ファイルしかないなら、そうした編集をすることは基本的にできない。



ワンストップで音楽を生成するブラックボックスとしてのAIは、拙いながらも「創作」と呼んで差し支えない能力を持っているかもしれないが、だからといって現代的な「コンテンツの生産」のあり方にフィットしているとは限らない。短期的に見れば、Text-To-Musicのさらなる高度化を望むよりも、AIがもたらす恩恵を現場にどう活かすかのほうが重要になってくるだろう(GPT-4を活用しようとするさまざまな試みのように)。



実際、音楽制作を助けてくれるアシスタントとしてのAIは徐々に実用化されはじめている。以前書いたこともある音源分離もそのひとつだろうし(※)、作曲や録音のあとで行なわれる、ミックスやマスタリングといった専門的な工程にもAIが活用されるようになって久しい。



また、ソニーコンピュータサイエンス研究所の「Flow Machines」は、メロディやコードの伴奏、ベースラインなどを含む作曲をアシストするツールとしてのコンセプトを打ち出して開発が進められている。



また、対話型のインターフェースを備えたブラウザベースのDAW(※)「WavTool」は、シークエンスの生成、DAWの使い方や専門用語の説明などを代行してくれる機能をも持つ。



Text-To-Musicにせよ、もし実用化が進んでいくならば、これまでの人間中心の音楽制作にフィットするようなかたちで操作可能なパラメータが整備され、より細かなチューニングができるようになっていくだろう。



しかし、そうした妥当な洗練の道を追求するあいだに、AIによる作曲はコンテンツの生産のあり方自体を変えてしまうかもしれない。いまもすでに、部分的には(たとえば簡易的なBGMの制作など)変えてしまっていると言える。



単に特定の役割をAIが代替するという発想を超えたところに、AIのインパクトはある。それまで自明の前提とされていた環境、エコシステムそのものが変化してしまう可能性があるのだ(たとえばChatGPTの登場によって検索エンジンの存在意義が問われているように)。



もっとも、音楽制作においてそんな大々的な変化が実際に起こる見込みはそれほど高いとも思えないが、それでも考える価値はある。



たとえば、DAWをはじめとした音楽制作ソフトのインターフェースはAI作曲以後どのように変化するだろうか。



現状のDAWを、機械と人間とのあいだを仲立ちするインターフェースだとするならば、そこにAIという機械とも人間とも知れない第三項が加わるかもしれない。つまり、人間が機械に指示を与え、機械は人間にその結果を返すというインタラクションだけではなく、人間とAIが同等に機械に指示を与えて協働する。そんな未来のために必要なデザインがあるとしたら、どんなものだろうか。



スペキュラティヴ・デザイン(※)に片足を突っ込んだ、大風呂敷になってしまった。ここで少し、具体的な音楽制作の現場を想像する足場になりそうなコンテンツを紹介して終わろう。



DJ/プロデューサーのtofubeatsが主宰する動画企画「THREE THE HARDWARE」。ハードオフで購入した機材だけで1曲を仕上げる、音楽ドキュメントバラエティとでも言うべきコンセプトでコアなファンの多いシリーズだが、現在進行中の第5シーズンでは内容を一新。人から人へ制作経過のデータをリレーして、徐々に「曲」の姿が変わっていく過程を収めるコンテンツになっている。



各自に与えられた30分という時間制限のなかで試行錯誤をしていくうちに、それぞれの個性や強み、ワークフローのあり方が浮かび上がってくる(「トラックメーカー」然としていないスカートの澤部渡が登場するエピソード3はとりわけ印象的だ)。



ここに、プレイヤーのひとりとしてAIが登場する未来はありうるだろうか。与えられたファイルから意図を汲み、おもしろがり、受け継ぎ、裏切ってみせるようなAIはありうるだろうか。もしくはAI以後、このような企画は成立するだろうか?

編集部おすすめ