Služby jako Midjourney a ChatGPT posunuly hranice toho, jak umělá inteligence může vytvářet obrázky a text ze základních textových výzev. Nyní se zdá, že audio je nevyhnutelnou další hranicí. Vytváření hudby založené na slovních výzvách, učitelé umělé inteligence pro výuku jazyků a hlasové simulátory, to vše zaznamenalo v posledních měsících vývoj. Voice.ai doufá, že bude součástí této konverzace (heh) s technologií, která uživatelům umožňuje měnit (a maskovat) jejich hlasy v reálném čase, a nyní získala své první vnější financování na patách raného růstu.
S více než 480 000 uživateli a knihovnou s více než 50 000 hlasovými filtry získala Voice.ai 6 milionů dolarů, finanční prostředky, které plánuje použít k tomu, aby svou technologii změny hlasu přenesla na nová místa.
Mucker Capital a M13 vedou kolo. Doposud se Voice.ai rozrostla ústním podáním – startup má kanál Discord s více než 120 000 lidmi – díky samofinancování ve výši 3 milionů dolarů.
V současné době si nástroje společnosti – dostupné jako aplikace pro Mac, PC, Android a iOS – osvojují hráči, tvůrci obsahu, Vtubers a další na TikTok, Zoom, Discord, Minecraft, GTA5, Fortnite, Valorant, League of Legends, Among Us. , Skype, WhatsApp a další platformy. Rozhraní Voice.ai jim umožňuje vytvořit nový hlas nebo si vybrat z přibližně 50 000 různých předem vytvořených hlasů (vytvořených a sdílených uživateli, jako jsou oni), které lze použít tak, jak jsou nebo upravit, pro použití naživo na podporovaných platformách nebo pro nahrávky.
Plánem je využít finanční prostředky k najmutí více technických talentů a k vybudování nových SDK a API pro spolupráci s dalšími platformami jako Meta, Unreal a Unity; zavést vícejazyčnou podporu; a přidat nové aplikace, jako je zpěv, kde je hlas ústředním bodem.
Startup to nevyčleňuje, ale bude zajímavé sledovat, jestli část financí nepoužije také na navýšení kapacity serveru.
To není malá zátěž. Neoficiálně jsme slyšeli, že bolest GPU je jedním z největších hradlových faktorů toho, jak je v současnosti mnoho aplikací AI schopno škálovat. (Částečně proto vidíte, jak se uzavírají velké obchody, které zahrnují strategie zajišťující zpracování a kapacitu serveru.)
Konkrétně pro Voice.ai je váš hlas zpracováván lokálně a směrován do libovolného místa, kde bude použit, prostřednictvím toho, co mi zakladatel a generální ředitel Heath Ahrens popsal jako „virtuální audio kabel“. Ale když se podíváte na recenze jeho aplikací, je častým nářkem, že když se zaregistrujete, jste zařazeni na čekací listinu, protože „převážná poptávka má naše servery na maximální kapacitě“ s příslibem, že budete informováni, když se služba zvýší. kapacita.
Na současném trhu jsou desítky hlasových a hlasových služeb a mezi nimi je již mnoho aktivit: Minulý rok společnost Spotify získala Sonantic a Snap koupil hlasového asistenta AI ještě dříve; další startup, Sanas, pracuje na změně vašeho přízvuku a mezi mnoha dalšími jsou hlasové simulátory Murf a Acapela. Voice.ai se počítá do stejné obecné kategorie jako Respeecher a ElevenLabs, dva startupy s hlasovou umělou inteligencí, které uživatelům umožňují používat masky pro vyladění nebo úplnou transformaci jejich hlasů – v některých případech vytvářejí zcela syntetické hlasy namísto skutečných hlasů.
Respeecher, založený a sídlící na Ukrajině, se proslavil tím, že pomohl vybudovat nový hlas Dartha Vadera pro nové díly Star Wars, založený na tom, jak zněl James Earl Jones před 45 lety, kdy tuto roli vytvořil. (V souladu s postavou pekelně zaměřenou na ničení světů byl Darthův hlas doručen klientovi Hollywoodu z jeho kanceláří na Ukrajině, když Rusko vpochodovalo do země.)
ElevenLabs – slavně (nebo neslavně, jak to může být) – vybudovalo platformu, která je děsivě dobrá v klonování hlasů, a počátkem tohoto měsíce vybralo své poslední kolo financování ve výši 19 milionů dolarů od skupiny velkých investorů.
Voice.ai se v tomto mixu snaží postavit se jako aplikace pro úpravu hlasu AI pro Everyman.
“Existuje spousta společností, které se snaží poskytovat podnikům jinou variantu hlasové technologie,” řekl Ahrens TechCrunch v e-mailu (ironicky nebylo možné s ním domluvit živý rozhovor). Ahrens má určité zkušenosti s budováním technologie B2B AI: jeho dvě předchozí společnosti – iSpeech pro převod textu na řeč a Haystack pro rozpoznávání obličejů – jsou postaveny na nabídkách API.
„Voice.ai se odlišuje tím, že se zaměřujeme na to, abychom technologie, které byly dříve vyhrazeny podnikovým společnostem, přímo do rukou spotřebitelů cenově dostupným způsobem.“ Mnoho uživatelů, jak poznamenal, „k nám přichází z klasických DSP měničů hlasu a hlasových modulátorů, které používali v minulosti a které jsou stále populární mezi mnoha hráči a streamery.
„Dostupná“ přichází ve dvou úrovních, přičemž většina uživatelů nyní využívá bezplatnou službu, která vyžaduje, aby se přihlásili k poskytování výpočetního výkonu pro trénování modelů Voice.ai, přičemž její služba je postavena na vlastní sadě soukromých dat skládající se z „milionů jedinečných uživatelů“. .“ Na webu nejsou uvedeny žádné ceny: na tyto podrobnosti se ptáme.
„Věříme ve zpřístupnění technologie a plánujeme spolupráci s open source komunitou na demokratizaci technologie Voice AI,“ dodal Ahrens.
Voice.ai také tvrdí, že vyžaduje zásadně odlišný přístup k výzvě změny hlasu a využívá některé z étosů, které se vytvořily kolem používání avatarů Vtubery, hráči a dalšími online.
„Většina společností využívajících hlasovou umělou inteligenci, které přicházejí do vesmíru, se snaží vybudovat škálovatelná podniková řešení pro převod textu na řeč nebo drahé hlasové služby pro produkční studia,“ řekl Ahrens. „Začínáme z opačného spektra a snažíme se poskytovat hodnotu jednotlivcům, kteří chtějí rozšířit způsob, jakým zní online. Základní hodnotou naší umělé inteligence pro převod řeči na řeč není to, že dokáže dokonale replikovat jakoukoli danou osobu. Jde o to, že zachovává základní prvky řeči uživatele: jeho emoce, tempo a důraz, přičemž nahrazuje zvuk hlasu, aby v reálném čase vytvořil zcela jedinečný nový konečný výsledek.“
Může to být způsobeno tím, jak se demografie na interaktivních platformách, jako je hraní her, zkresluje, ale publikum Voice.ai je prozatím 70 % mužů oproti 30 % žen, přičemž se otevírají nové kategorie nejen podle toho, kdo používá technologii, ale proč.
To zahrnuje nejen ty, kteří používají avatary a vytvářejí hlasy, aby se s nimi shodovali, nebo ty, kteří hledají větší ochranu soukromí, ale také, řekl, „transgender uživatele, kteří se mohou prezentovat hlasy, které odpovídají jejich identitě, a také uživatele, kteří zkoumají zcela nové online persony pro sebe.”
Již existuje základna uživatelů, kteří využívají nabídky Voice.ai přímo pro spotřebitele, ale jedním z důvodů, proč Mucker do startupu investuje, je to, že věří, že existuje příležitost vybudovat síť vývojářů využívajících a integrujících jeho tech.
„Voice.ai je připravena způsobit revoluci v komunitě vývojářů AI způsobem podobným dopadu AdMob na komunitu vývojářů mobilních aplikací,“ řekl Omar Hamoui, partner hlavního investora Mucker Capital. (Hamoui dříve založil mobilní reklamní startup AdMob, který nakonec získal Google, takže má nějaké přímé zkušenosti s vývojem mobilních vývojářských nástrojů.) „Nabízením uživatelsky přívětivých řešení, která byla kdysi exkluzivní pro velké podniky, se Voice.ai snaží demokratizovat přístup pro vývojáři po celém světě.”
Karl Alomar, bývalý COO společnosti Digital Ocean, který vedl investici do M13, uvedl, že investoři budou hrát aktivní roli v další fázi vývoje. „I v Digital Ocean jsme viděli hodnotu budování komunity stavitelů staviteli,“ řekl. „Jsme nadšeni, že tvůrci a vývojáři staví na platformě Voice.ai.“