Seznamte se s Gladií, francouzským startupem s umělou inteligencí, který chce změnit způsob, jakým společnosti interagují se zvukovými daty. Společnost vyvíjí aplikační programovací rozhraní pro přepis zvuku (API), které můžete integrovat s jinými produkty a mělo by fungovat mnohem lépe než to, co je k dispozici. A tato technická základna odemyká nové případy použití v oblasti zvuku.

Pokud znáte rozhraní API pro přepis zvuku, víte, že velcí poskytovatelé cloudu již mají svá vlastní rozhraní API. Je tu rozhraní Google pro převod řeči na text, Amazon Transcribe, Microsoft Speech to Text atd. Fungují dobře, ale jsou drahé, pomalé a nemají spoustu funkcí.

Spoluzakladatel a CEO Gladie Jean-Louis Quéguiner, který byl bývalým šéfem AI pro OVHcloud a spoluzakládal společnost s Jonathanem Sotem, mi řekl o některých omezeních existujících API. Podle něj existují tři bolestivá místa u stávajících produktů. Za prvé, pokud jde o ceny, hodinový přepis zvuku obecně stojí 1,50 až 2 dolary za hodinu.

Za druhé, výstup není vždy velmi spolehlivý, protože některé jazyky fungují dobře, zatímco jiné jsou sotva podporovány. Pokud jde o pokročilé funkce, pokud lidé mluví více jazyky, je pravděpodobné, že API prostě nebude schopno zaznamenat změnu jazyka a přepsat zvuk do více než jednoho jazyka.

Za třetí, transkripční API jsou pomalá. Přepis hodiny zvuku může trvat déle než 15 minut. To je v pořádku, pokud nepotřebujete přepisy hned, ale znamená to, že tato rozhraní API v některých odvětvích nebudete moci používat.

Našeptávač

Gladia je založena na Whisper, open source transkripčním modelu OpenAI. “Začali jsme od Whispera.” Nevynalezli jsme znovu kolo, ale naslouchali jsme našim zákazníkům a oni nám řekli: ‚Chci něco, co funguje stejně dobře jako Whisper,‘“ řekl mi Jean-Louis Quéguiner.

Ale Whisper není dokonalý. Vanilková verze je stále poměrně pomalá, takže Gladia strávila spoustu času přeměnou Whisper na rychlý a citlivý přepisový model. To není jediný problém.

“Half of Whisper je GPT-2.” Viděli jste LLM a ChatGPT, má sklon k halucinacím. Udělali jsme hodně práce, abychom se také vyhnuli problémům s halucinacemi,“ řekl Quéguiner.

Konkrétně mi řekl, že Whisper byl trénován na skryté titulky, které můžete najít na internetu, například na YouTube. Model OpenAI má tendenci slyšet běžné fráze, které můžete slyšet v online videích, jako například „pokud se vám toto video líbilo, dejte like a odběr“. Některé věty, jako je tato, jsou matematicky přehnaně zastoupeny a Gladia se snaží tyto nedostatky napravit.

Kromě těchto úprav Whisperu a jeho implementace má Gladia také některé algoritmy předběžného a následného zpracování, které zlepšují konečné výsledky.

Gladia slibuje, že dokáže přepsat hodinu zvuku za 0,61 $. A proces přepisu trvá zhruba 60 sekund. Jeho API dokáže rozpoznat, kdy je více mluvčích, přidat časová razítka, detekovat jazyky a v případě potřeby přepínat z jednoho jazyka do druhého. Gladia také automaticky přidává interpunkci a velká a malá písmena.

Jako většina API je konečný výsledek ve formátu JSON. Gladia ale také podporuje soubory SRT a VTT pro společnosti, které chtějí generovat titulky.

Vytvořil jsem si účet a nahrál audio záznam rozhovoru, abych viděl, jak Gladia funguje. Trvalo to o něco déle, než se očekávalo, ale rozhodně to bylo mnohem rychlejší než rozhraní API pro převod řeči na text od Googlu nebo Azure.

Výsledek nebyl bezchybný, ale byl mimořádně dobrý — rozuměl zkratkám a odborným termínům. Otevřel jsem stejný zvukový soubor v Aiko, aplikaci pro Mac vyvinutou Sindre Sorhusem, která vám umožňuje přepisovat zvukový soubor lokálně pomocí Whisper. Jak se očekávalo, výstup se blížil výstupu Gladie – ale Gladia byla mnohem rychlejší než spuštění Aiko na mém MacBooku Pro.

Celkově byla Gladia nejlepší transkripční API, jaké jsem kdy použil.

Stát se API pro audio inteligenci

Společnost v současné době spolupracuje se společnostmi v oblasti call centra, virtuálními schůzkami a vydavateli videa, včetně Claap, Livestorm a Selectra.

Gladia získala počáteční kolo ve výši 4 milionů $ v kole financování vedeném New Wave. Mezi další investory patří Sequoia, Cocoa a business angels, jako Solomon Hykes, Pierre Betouin, Miroslaw Klaba a Alexandre Berriche.

Mít jako skálu pevné transkripční API je pro Gladii jen prvním krokem. Společnost doufá, že pak bude moci na tomto silném technickém základu stavět funkce.

Například po přepsání zvukového souboru může Gladia přeložit text do jiného jazyka. V kombinaci s časovými razítky na úrovni slov to znamená, že společnost může nahrát zvukový soubor a získat titulky v desítkách jazyků během několika minut.

V budoucnu společnost doufá, že dokáže shrnout obsah zvukového souboru, kategorizovat obsah do více tematických kategorií, automaticky vytvářet kapitoly, provádět analýzu sentimentu a další.

„Naší dlouhodobější vizí je přejít od 2D k 3D datům. Zvuk je docela plochý a myšlenkou je rozšířit jej o inteligenci,“ řekl Quéguiner. „Myslíme si, že přepis se stane komoditou. Ale myslíme si, že na čem bude záležet víc, jsou možnosti, které přidáme.“

Read More

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *