Aby společnost Meta nebyla pozadu, vydala svůj vlastní hudební generátor poháněný umělou inteligencí – a na rozdíl od Googlu jej vytvořila jako open source.
MusicGen, nástroj Meta pro generování hudby, jehož demo najdete zde, dokáže proměnit textový popis (např. „Popová píseň z 80. let s těžkými bicími a syntezátorovými pady na pozadí“) na asi 12 sekund zvuku, dát nebo vzít. MusicGen lze volitelně „řídit“ referenčním zvukem, jako je tomu u existující skladby, v takovém případě se pokusí sledovat popis i melodii.
Představujeme MusicGen: Jednoduchý a ovladatelný model hudební generace. MusicGen může být vyzván jak textem, tak melodií. Vydáváme kód (MIT) a modely (CC-BY NC) pro otevřený výzkum, reprodukovatelnost a pro hudební komunitu: https://t.co/OkYjL4xDN7 pic.twitter.com/h1l4LGzYgf
— Felix Kreuk (@FelixKreuk) 9. června 2023
Meta říká, že MusicGen byl vyškolen na 20 000 hodinách hudby, včetně 10 000 „vysokokvalitních“ licencovaných hudebních skladeb a 390 000 skladeb pouze pro nástroje z ShutterStock a Pond5, velké knihovny médií. Společnost neposkytla kód, který použila k trénování modelu, ale ano má zpřístupnil předtrénované modely, které může spustit kdokoli se správným hardwarem – zejména GPU s přibližně 16 GB paměti.
Jak si tedy MusicGen vede? No, řekl bych – i když rozhodně ne dost dobře na to, aby to lidské hudebníky připravilo o práci. Jeho písně jsou přiměřeně melodické, alespoň pro základní výzvy, jako je „ambientní chiptunes music“, a – podle mých uší – na stejné úrovni (ne-li o něco lépe) s výsledky hudebního generátoru AI společnosti Google, MusicLM. Ale nezískají žádné ocenění.
Zde je výstup z MusicGen pro „jazzovou hudbu ve výtahu“:
A tady je názor MusicLM:
Dále jsem dal složitější výzvu, abych se pokusil nahodit MusicGen do smyčky: „Lo-fi slow BPM electro chill s organickými samply.“ MusicGen překvapivě překonal MusicLM, pokud jde o hudební soudržnost, a vytvořil něco, co by snadno našlo domov na Lofi Girl.
Zde je ukázka MusicGen:
https://techcrunch.com/wp-content/uploads/2023/06/tmps2j8o4zf.mp4
A tady jsou MusicLM:
Abych to trochu přehodil, zkusil jsem pomocí obou nástrojů vygenerovat piano ditty ve stylu George Gershwina. Říkám „vyzkoušeno“, protože ve snaze předejít problémům s autorskými právy kolem generativních hudebních nástrojů Google implementoval do veřejné verze MusicLM filtr, který blokuje výzvy zmiňující konkrétní umělce.
MusicGen žádný takový filtr nemá. Ale musím říct, že výsledky pro „Hudbu na pozadí ve stylu Gershwina“ zanechaly něco, co bylo žádoucí:
https://techcrunch.com/wp-content/uploads/2023/06/tmpc76_v288.mp4
Generativní hudba se jasně zlepšuje (viz Riffusion, Dance Diffusion a Jukebox OpenAI). Zásadní etické a právní problémy však ještě nebyly vyřešeny. Umělá inteligence jako MusicGen se „učí“ z existující hudby, aby produkovala podobné efekty, což je skutečnost, která ne všem umělcům – nebo generativním uživatelům AI – vyhovuje.
Podomácku vyrobené skladby, které využívají generativní umělou inteligenci k vykouzlení známých zvuků, které lze vydávat za autentické, nebo alespoň dostatečně blízké, se stávají virálními. Hudební vydavatelství je rychle nahlásila streamovacím partnerům s odkazem na obavy z duševního vlastnictví – a obecně zvítězily. Stále však není jasné, zda „deepfake“ hudba porušuje autorská práva umělců, vydavatelství a dalších držitelů práv.
Možná nebude trvat dlouho a budou k dispozici pokyny k této záležitosti. Několik soudních sporů procházejících soudy bude mít pravděpodobně vliv na umělou inteligenci generující hudbu, včetně té, která se týká práv umělců, jejichž práce je používána k výcviku systémů umělé inteligence bez jejich vědomí nebo souhlasu.
Meta, která nestanoví žádná omezení na to, jak lze MusicGen používat, říká, že veškerá hudba, na kterou byl MusicGen trénován, byla „kryta právními dohodami s držiteli práv“, včetně dohody se Shutterstockem.