ElevenLabs, virální platforma pro vytváření syntetických hlasů poháněná umělou inteligencí, získala nové kolo peněz.
Dnes startup oznámil uzavření kola série A v hodnotě 19 milionů dolarů, které společně vedli podnikatelé Nat Friedman a Daniel Gross spolu s Andreessenem Horowitzem. Mezi další účastníky patřili Creator Ventures v těžké váze, SV Angel, spoluzakladatel Instagramu Mike Krieger, spoluzakladatel Oculus Brendan Iribe, spoluzakladatel Deepmind a Inflection AI Mustafa Suleyman a zakladatel O’Reilly Media Tim O’Reilly.
Zdroj obeznámený s touto záležitostí říká TechCrunch, že tranše oceňuje ElevenLabs na 99 milionů dolarů po vyplacení peněz – úctyhodné číslo, zvláště vezmeme-li v úvahu, že startup byl spuštěn před více než rokem.
„Tato investice bude použita k pokračování budování špičkového výzkumného centra ElevenLab pro hlasovou AI a k uvedení řady dalších produktů na podporu specifických tržních vertikál, jako jsou publikování, hry, zábava a konverzační aplikace,“ spoluzakladatel a generální ředitel Mati Staniszewski řekl TechCrunch prostřednictvím e-mailu.
Společnost ElevenLabs, která se během několika posledních měsíců dostala na titulky z dobrých i ohavných důvodů, byla založena Staniszewskim, který dříve pracoval ve společnosti Palantir, a jeho přítelem z dětství Piotrem Dabkowskim, bývalým zaměstnancem společnosti Google. Inspirováni průměrným dabingem amerických filmů, které sledovali, když vyrůstali v Polsku, jejich rodné zemi, se dvojice pustila do návrhu platformy, která by mohla být lepší – samozřejmě využívající AI.
ElevenLabs umí převést text na řeč pomocí syntetických hlasů, klonovaných hlasů nebo zcela nových „umělých“ hlasů, které napodobují zvuky lidí různého pohlaví, věku a etnik. Modely převodu textu na řeč s umělou inteligencí společnosti jsou jazykově agnostické, což umožňuje firemním zákazníkům je doladit a vytvořit si na nich své vlastní, proprietární modely řeči.
Současně s navýšením řady A společnost ElevenLabs (která v současné době zaměstnává 15 lidí) spouští Projects, pracovní postup pro úpravy a vytváření dlouhého mluveného obsahu. Pomocí Projects mohou uživatelé vytvářet segmenty dialogů a dokonce i audioknihy, aniž by museli opustit platformu.
„Pro obchodní partnery může být naše technologie použita v oblastech, jako je tvorba škálovatelných a vícejazyčných audioknih, vyjadřování postav ve videohrách, vyjadřování digitálních článků, podpora přístupu zrakově postižených k online psanému obsahu a napájení AI rádia,“ Staniszewski řekl.
ElevenLabs, které byly spuštěny v beta verzi koncem ledna, nabraly tempo poměrně rychle – díky extrémně vysoké kvalitě generovaných hlasů, rychlým generacím a velkorysé bezplatné úrovni. Ale jak již bylo zmíněno dříve, publicita nebyla vždy pozitivní – zvláště když špatní herci začali využívat platformu pro své vlastní účely.
ElevenLabs nabízí nástroje pro klonování – nebo generování od nuly – realisticky znějících hlasů s využitím umělé inteligence. Poděkování za obrázky: ElevenLabs
Nechvalně známá nástěnka 4chan, známá svým konspirativním obsahem, použila nástroj ElevenLabs ke sdílení nenávistných zpráv napodobujících celebrity, jako je herečka Emma Watson. Jinde byl James Vincent z The Verge schopen pomocí ElevenLabs naklonovat hlasy cílů během několika sekund – generovat zvukové ukázky obsahující vše od hrozeb násilí po projevy rasismu a transfobie.
V reakci na to ElevenLabs uvedl, že zavede sadu nových ochranných opatření, jako je omezení hlasového klonování na placené účty, zákaz uživatelů, kteří opakovaně porušují její podmínky služby, a poskytnutí nového nástroje pro detekci AI.
Detekční nástroj je spuštěn dnes. Nazývá se AI Speech Classifier a je k dispozici jako API pro „vybrané“ partnery a je navržen tak, aby zjišťoval, zda nahraný zvukový vzorek obsahuje obsah generovaný umělou inteligencí z ElevenLabs.
„Zajištění bezpečného používání generativních platforem AI je klíčovou výzvou pro celý sektor generovaný AI, včetně textových, obrazových a hlasových platforem,“ řekl Staniszewski. „Musíme zajistit, aby lidé byli poučeni o povaze generativního mediálního prostředí a věděli, že takový obsah existuje – v zájmu transparentnosti jsme odhodláni vytvářet nástroje, které lidem pomohou odhalit obsah generovaný umělou inteligencí.“
Dobrovolný detekční nástroj – za předpokladu, že dokonce funguje tak, jak je inzerováno – nemusí nutně odradit od špatného chování. Ale v místnosti je ještě jeden slon, kterého se ElevenLabs nezabývali: existenční hrozba, kterou její technologie představuje pro hlasové herce.
Motherboard píše o tom, jak jsou hlasoví herci stále častěji žádáni, aby podepsali práva na své hlasy, aby klienti mohli pomocí umělé inteligence vytvářet syntetické verze, které by je nakonec mohly nahradit – někdy bez další kompenzace. Mezitím interní e-maily, které viděl The New York Times, naznačují, že Activision Blizzard, jeden z největších herních vydavatelů na světě, pracuje na nástrojích pro „klonování hlasu za pomoci umělé inteligence“.
Zdá se, že ElevenLabs to vidí jako přirozený vývoj věcí a propaguje svou práci s vydavateli jako Storytel a mediálními platformami jako TheSoul Publishing a MNTN pro audioknihy, videohry a rozhlasový obsah. (Storytel a TheSoul Publishing jsou strategičtí investoři.) Společnost tvrdí, že má více než milion registrovaných uživatelů napříč kreativními, zábavními a publikačními prostory, kteří vytvořili zvukový obsah za deset let.
ElevenLabs plánuje nakonec rozšířit své modely umělé inteligence na dabing hlasu, ve stopách startupů jako Papercup a Deepdub a vybudovat to, co nazývá „základem pro přenos emocí a intonace z jednoho jazyka do druhého“.
„To umožní zkopírovat jakékoli video do jakéhokoli jazyka poutavým, efektivním a škálovatelným způsobem, to vše při zachování původního hlasu mluvčího,“ píše ElevenLabs v tiskové zprávě. “[We are] již provádí řadu testů s průmyslovými partnery, aby umožnil AI dabing ve velkém měřítku.
S 21 miliony dolarů v bance (z toho 2 miliony pocházely z předběžného kola v lednu) se ElevenLabs – důsledky budiž zatraceně – laserově soustředí na poražení svých soupeřů v rozvíjejícím se generativním hlasovém prostoru. Patří mezi ně zavedené společnosti jako Amazon, Google a Microsoft a také startupy jako Murf, Tavus, Resemble AI, Respeecher, PlayHT a Lovo.