Udržet krok s tak rychle se rozvíjejícím odvětvím, jako je umělá inteligence, je náročný úkol. Takže dokud to za vás neudělá umělá inteligence, zde je praktický souhrn příběhů z minulého týdne ze světa strojového učení spolu s pozoruhodnými výzkumy a experimenty, které jsme sami o sobě nepokryli.

Pokud to již nebylo zřejmé, konkurenční prostředí v AI – zejména podpole známé jako generativní AI – je rozžhavené. A je čím dál tepleji. Tento týden Dropbox spustil svůj první podnikový rizikový fond Dropbox Ventures, o kterém společnost uvedla, že se zaměří na začínající podniky vytvářející produkty založené na umělé inteligenci, které „utvářejí budoucnost práce“. Abychom nezůstali pozadu, AWS představila program v hodnotě 100 milionů dolarů na financování generativních iniciativ AI v čele s jejími partnery a zákazníky.

Určitě se v prostoru umělé inteligence vyhazuje spousta peněz. Salesforce Ventures, divize VC společnosti Salesforce, plánuje nalít 500 milionů dolarů do startupů vyvíjejících generativní technologie umělé inteligence. Společnost Workday nedávno přidala 250 milionů dolarů do svého stávajícího fondu rizikového kapitálu, konkrétně na podporu startupů s umělou inteligencí a strojovým učením. A Accenture a PwC oznámily, že plánují investovat 3 miliardy dolarů, respektive 1 miliardu dolarů, do AI.

Člověk si ale klade otázku, zda jsou peníze řešením mimořádných výzev na poli umělé inteligence.

V poučném panelu během konference Bloomberg v San Francisku tento týden Meredith Whittaker, prezident aplikace pro bezpečné zasílání zpráv Signal, uvedl, že technologie, na kterých jsou založeny některé z dnešních nejrušnějších aplikací umělé inteligence, se stávají nebezpečně neprůhlednými. Uvedla příklad někoho, kdo vejde do banky a požádá o půjčku.

Této osobě může být půjčka odepřena a „nemá ponětí, že existuje nějaký systém [the] zpět pravděpodobně poháněno nějakým Microsoft API, které na základě seškrábaných sociálních médií určilo, že nejsem bonitní,“ řekl Whittaker. “To se nikdy nedozvím.” [because] neexistuje žádný mechanismus, abych to věděl.”

Nejde o kapitál. Spíše je to současná mocenská hierarchie, říká Whittaker.

“Jsem u stolu asi 15 let, 20 let.” já jsem byl u stolu. Být u stolu bez moci není nic,“ pokračovala.

Dosažení strukturálních změn je samozřejmě mnohem těžší než shánění peněz – zvláště když strukturální změny nebudou nutně upřednostňovat stávající mocnosti. A Whittaker varuje, co by se mohlo stát, kdyby nebyl dostatečný odraz.

Jak se pokrok v AI zrychluje, zrychlují se i společenské dopady a my budeme i nadále směřovat po „směru k AI“, kde je tato síla zakořeněna a naturalizována pod rouškou inteligence a my jsme sledováni. bod [of having] velmi, velmi málo ovlivňování našich individuálních a kolektivních životů.”

Že by měl dát průmyslu pauzu. Ať už ve skutečnosti vůle je jiná věc. To je pravděpodobně něco, o čem budeme diskutovat, až v září nastoupí na pódium Disrupt.

Zde jsou další pozoruhodné příběhy AI z posledních několika dní:

    Umělá inteligence DeepMind ovládá roboty: DeepMind říká, že vyvinul model umělé inteligence, nazvaný RoboCat, který dokáže provádět řadu úkolů napříč různými modely robotických paží. To samo o sobě není nijak zvlášť nové. DeepMind ale tvrdí, že model je první, který je schopen řešit a přizpůsobovat se více úkolům, a to pomocí různých robotů v reálném světě.
    Roboti se učí z YouTube: Když už jsme u robotů, odborný asistent CMU Robotics Institute Deepak Pathak tento týden předvedl VRB (Vision-Robotics Bridge), systém umělé inteligence určený k trénování robotických systémů sledováním záznamu člověka. Robot sleduje několik klíčových informací, včetně kontaktních bodů a trajektorie, a poté se pokusí provést úkol.
    Vydra se dostává do hry chatbota: Služba automatického přepisu Otter tento týden oznámila nového chatbota s umělou inteligencí, který účastníkům umožní klást otázky během schůzky i po ní a pomůže jim spolupracovat se spoluhráči.
    EU požaduje regulaci AI: Evropské regulační orgány jsou na křižovatce ohledně toho, jak bude umělá inteligence regulována – a nakonec využívána komerčně i nekomerčně – v regionu. Tento týden se největší spotřebitelská skupina v EU, Evropská spotřebitelská organizace (BEUC), postavila se svým vlastním postojem: Přestaňte se natahovat a „zahajte naléhavé vyšetřování rizik generativní umělé inteligence“.
    Vimeo spouští funkce založené na umělé inteligenci: Tento týden společnost Vimeo oznámila sadu nástrojů poháněných umělou inteligencí, které mají uživatelům pomoci vytvářet skripty, nahrávat záběry pomocí vestavěného teleprompteru a odstraňovat dlouhé pauzy a nechtěné rušivé vlivy jako „ahs“ a „ums“ z nahrávek.
    Kapitál pro syntetické hlasy: ElevenLabs, virální platforma pro vytváření syntetických hlasů poháněná umělou inteligencí, získala v novém kole financování 19 milionů dolarů. ElevenLabs se po svém spuštění na konci ledna poměrně rychle zvedly. Ale publicita nebyla vždy pozitivní – zvláště když špatní herci začali využívat platformu pro své vlastní účely.
    Přeměna zvuku na text: Gladia, francouzský startup s umělou inteligencí, spustil platformu, která využívá transkripční model OpenAI Whisper k přeměně jakéhokoli zvuku na text téměř v reálném čase prostřednictvím rozhraní API. Gladia slibuje, že dokáže přepsat hodinu zvuku za 0,61 $, přičemž proces přepisu trvá zhruba 60 sekund.
    Harness zahrnuje generativní AI: Harness, startup vytvářející sadu nástrojů, která má vývojářům pomoci pracovat efektivněji, tento týden vložil do své platformy trochu umělé inteligence. Nyní může Harness automaticky řešit selhání sestavení a nasazení, najít a opravit slabá místa zabezpečení a navrhnout, jak dostat náklady na cloud pod kontrolu.

Další strojové učení

Tento týden se konala CVPR (Konference o počítačovém vidění a rozpoznávání vzorů) ve Vancouveru v Kanadě a přál bych si, abych tam mohl jet, protože přednášky a referáty vypadají velmi zajímavě. Pokud můžete sledovat pouze jeden, podívejte se na hlavní poznámku Yejin Choi o možnostech, nemožnostech a paradoxech umělé inteligence.

Poděkování za obrázky: CVPR/YouTube

Profesor UW a příjemce grantu MacArthur Genius nejprve řešil několik nečekaných omezení dnešních nejschopnějších modelů. Zejména GPT-4 je opravdu špatný v násobení. Nedaří se mu překvapivě rychle najít součin dvou trojciferných čísel správně, i když s trochou přemlouvání se mu to v 95 % případů podaří. Ptáte se, proč záleží na tom, že jazykový model neumí matematiku? Protože celý trh s umělou inteligencí je právě teď založen na myšlence, že jazykové modely se dobře zobecňují na spoustu zajímavých úkolů, včetně věcí, jako je vedení daní nebo účetnictví. Cílem Choi bylo, že bychom měli hledat omezení AI a pracovat dovnitř, ne naopak, protože nám to říká více o jejich schopnostech.

Ostatní části jejího projevu byly stejně zajímavé a podnětné. Celé to můžete sledovat zde.

Rod Brooks, představený jako „přemožitel humbuku“, poskytl zajímavou historii některých základních konceptů strojového učení – konceptů, které se zdají být nové pouze proto, že většina lidí je nepoužívala, když byly vynalezeny! Vracející se do desetiletí, dotýká se McCullocha, Minského, dokonce i Hebba – a ukazuje, jak tyto myšlenky zůstaly relevantní i po dlouhou dobu. Je to užitečná připomínka toho, že strojové učení je oborem stojícím na ramenou gigantů, kteří sahají až do poválečné éry.

CVPR bylo předloženo a prezentováno mnoho a mnoho dokumentů a je redukující dívat se pouze na vítěze cen, ale toto je souhrn zpráv, nikoli komplexní přehled literatury. Zde je tedy to, co porotci na konferenci považovali za nejzajímavější:

Poděkování za obrázky: AI2

VISPROG, od výzkumníků z AI2, je druh meta-modelu, který provádí složité úkoly vizuální manipulace pomocí víceúčelové sady kódových nástrojů. Řekněme, že máte obrázek medvěda grizzlyho na nějaké trávě (jak je na obrázku) – můžete mu říct, že stačí „nahradit medvěda ledním medvědem na sněhu“ a začne fungovat. Identifikuje části obrazu, vizuálně je oddělí, vyhledá a najde nebo vygeneruje vhodnou náhradu a celou věc inteligentně sešije zpět, aniž by uživatel potřeboval další výzvy. Rozhraní „vylepšení“ Blade Runner začíná vypadat vyloženě jako chodec. A to je jen jedna z mnoha jeho schopností.

„Autonomní řízení zaměřené na plánování“ od multiinstitucionální čínské výzkumné skupiny se pokouší sjednotit různé části poněkud kusého přístupu, který jsme zvolili k samořídícím vozům. Obvykle existuje jakýsi postupný proces „vnímání, predikce a plánování“, z nichž každý může mít řadu dílčích úkolů (jako je segmentace lidí, identifikace překážek atd.). Jejich model se pokouší dát toto vše do jednoho modelu, podobně jako multimodální modely, které vidíme a které mohou používat text, zvuk nebo obrázky jako vstup a výstup. Podobně tento model v některých ohledech zjednodušuje složité vzájemné závislosti moderního systému autonomního řízení.

Poděkování za obrázky: Shanghai AI Laboratory a kol.

DynIBaR ukazuje vysoce kvalitní a robustní metodu interakce s videem pomocí „dynamických polí Neural Radiance Fields“ neboli NeRF. Hluboké porozumění objektům ve videu umožňuje věci, jako je stabilizace, pohyby panenky a další věci, u kterých obecně neočekáváte, že by byly možné, jakmile již bylo video nahráno. Znovu… „vylepšit“. Tohle je určitě věc, na kterou si vás Apple najme a na příští WWDC si to vezme za své.

DreamBooth si možná pamatujete z o něco dříve tohoto roku, kdy byla spuštěna stránka projektu. Je to zatím nejlepší systém pro, neexistuje způsob, jak to říct, dělat deepfakes. Samozřejmě je cenné a výkonné provádět tyto druhy operací s obrázky, nemluvě o zábavě, a výzkumníci, jako jsou ti z Google, pracují na tom, aby to bylo bezproblémovější a realističtější. Následky… možná později.

Cenu za nejlepší studentský papír získává metoda pro porovnávání a párování sítí neboli 3D mračna bodů – upřímně řečeno, je to příliš technické na to, abych se to pokusil vysvětlit, ale je to důležitá schopnost pro vnímání reálného světa a vylepšení jsou vítána. Podívejte se na papír zde pro příklady a další informace.

Jen další dva pecky: Intel předvedl tento zajímavý model, LDM3D, pro generování 3D, 360° snímků jako virtuálních prostředí. Takže když jste v metaverzu a řeknete: „Umísti nás do zarostlé ruiny v džungli“, vytvoří se na požádání nová.

A Meta vydala nástroj pro syntézu hlasu s názvem Voicebox, který je super dobrý při extrahování funkcí hlasů a jejich replikaci, i když vstup není čistý. Pro replikaci hlasu obvykle potřebujete velké množství a rozmanitost čistých hlasových nahrávek, ale Voicebox to dělá lépe než mnoho jiných, s menším množstvím dat (předpokládejme 2 sekundy). Naštěstí tohohle džina zatím drží v láhvi. Pro ty, kteří si myslí, že by mohli potřebovat naklonovat svůj hlas, podívejte se na Acapela.

Read More

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *