Resemble AI, platforma, která využívá generativní AI ke klonování realisticky znějících hlasů, dnes oznámila, že získala 8 milionů dolarů v kole série A vedeném Javelin Venture Partners za účasti Craft Ventures a Ubiquity Ventures.
Částka, díky které se celkový zisk startupu vyšplhá na 12 milionů dolarů, bude věnována na další rozvoj podnikových produktů Resemble a zdvojnásobení velikosti jejího týmu na více než 40 lidí do konce roku, říká spoluzakladatel a generální ředitel Zohaib Ahmed.
“Technologii Resemble používají některé z největších mediálních společností na světě k vytváření obsahu, který byl dříve nemožný,” řekl Ahmed TechCrunch v e-mailovém rozhovoru.
Společnost Resemble byla založena v roce 2019 Ahmedem a Saqibem Muhammadem poté, co si oba všimli, že hlasy ve videohrách nemohou držet krok s častými aktualizacemi verzí samotných her. Ahmed dříve pracoval v Magic Leap jako vedoucí softwarový inženýr, čerstvě prošel stážemi ve společnostech BlackBerry a Hipmunk.
Resemble začínal v malém a soustředil se převážně na herní případy použití. Platforma se však rozrostla a nabízí technologii AI, která dokáže „přenést“ hlasy do jiných jazyků, generovat personalizované zprávy od hlasových herců a vytvářet konverzační agenty v reálném čase.
Resemble je pouze jedním hráčem na rychle rostoucím trhu s generativní hlasovou AI. Papercup, Deepdub, ElevenLabs, Respeecher, Acapela a Voice.ai patří mezi významnější začínající dodavatele poskytující nástroje umělé inteligence pro klonování a generování hlasů, nemluvě o zavedených společnostech Big Tech, jako jsou AWS, Azure a Google Cloud.
Je to však kontroverzní technologie – a ne bez dobrého důvodu.
Motherboard píše o tom, jak jsou hlasoví herci stále častěji žádáni, aby podepsali práva na své hlasy, aby klienti mohli využít umělou inteligenci k vytváření syntetických verzí, které by je mohly případně nahradit – někdy bez náhrady.
Poděkování za obrázky: Připomínat AI
Deepfakes jsou další problém.
Zlomyslní herci používají umělou inteligenci ke klonování hlasů lidí a klamou oběti, aby si myslely, že mluví s příbuzným nebo zákazníkem. A není to jen kriminální potenciál, který spouští poplašné zvony. V roce 2021 se dokumentarista dostal pod palbu za to, že najal společnost, aby posmrtně naklonovala hlas Anthonyho Bourdaina – se souhlasem Bourdainovy pozůstalosti. V uplynulých letech jsme byli svědky toho, že hluboká faleš hlasu ovládla sociální média, většinou s neškodným účinkem – ale někdy ne.
Ahmed však tvrdí, že Resemble vyniká v oblasti etiky.
„Kromě požadavku na výslovný souhlas uživatele s klonováním hlasů jsou vynucovány přísné pokyny pro používání, aby se zabránilo škodlivému použití,“ řekl.
Za tímto účelem Resemble vyžaduje, aby uživatelé poskytli nahrávku „souhlasného klipu“ v hlase, který se pokoušejí naklonovat. Pokud se hlas v klipu neshoduje s ostatními klipy, Resemble zablokuje uživateli vytvoření hlasu AI.
Kromě toho, aby se zabránilo zneužití při nahrávání, Resemble nutí uživatele říkat řadu konkrétních vět vlastním hlasem. Pokud se odchylují od scénáře, Resemble označí nahrávku jako potenciální zneužití.
“Jakmile je hlas vytvořen, uživatel k němu vlastní všechna práva,” řekl Ahmed. „Nepoužíváme tato hlasová data k trénování jiných modelů, ani je neprodáváme společnostem třetích stran… U přizpůsobených řešení spolupracujeme se společnostmi prostřednictvím přísného procesu, abychom zajistili, že hlas, který klonují, je použitelný. jimi a mít patřičné souhlasy s hlasovými herci.“
Společnost Resemble také vyvinula produkt Resemble Detect, který je navržen tak, aby ověřoval autenticitu zvukových dat pomocí modelu umělé inteligence trénovaného k rozlišení padělků od skutečného zvuku. Model v podstatě „vidí“ různé frekvence, kde by mohly být obsaženy artefakty vyplývající ze střihu nebo manipulace se zvukem, takže předpovídá „skutečnost klipu“ od 0 % do 100 %.
Detect má doplňovat technologii zvukového vodoznaku společnosti Resemble, PerTh Watermarker, která využívá model AI k vytváření a vkládání pro lidské ucho nepostřehnutelných zvukových tónů, které nesou identifikační informace. (Stojí za zmínku, že PerTh Watermarker je tak trochu platforma lock-in hra – dokáže označit a detekovat pouze vlastní generovanou řeč Resemble a není kompatibilní s jinými komerčními nebo open source nástroji AI generujícími hlas.)
Ahmed vidí tyto nástroje jako hlavní přispěvatele k úspěchu Resemble. Platforma má podle něj více než milion uživatelů, kteří za posledních 12 měsíců vytvořili zvuk za 35 let.
„S regulací umělé inteligence pro vládní úředníky poskytuje Resemble informace a doporučení o zodpovědném používání generativního zvuku,“ řekl Ahmed. „S Resemble je nyní vytváření poutavého a vysoce kvalitního hlasového obsahu snazší než kdy dříve, což umožňuje tvůrcům obsahu přidat do své práce zcela novou úroveň autenticity a přinese divákům novou úroveň pohlcení.“