Generativní prostředí umělé inteligence se každým dnem zvětšuje.

Společnost Meta dnes oznámila novou rodinu modelů umělé inteligence, Llama 2, navrženou tak, aby podporovala aplikace jako ChatGPT OpenAI, Bing Chat a další moderní chatboty. Meta, trénovaná na mixu veřejně dostupných dat, tvrdí, že výkon Llamy 2 se oproti předchozí generaci modelů Llama výrazně zlepšuje.

Llama 2 je pokračováním Llamy – kolekce modelů, které by mohly generovat text a kód v reakci na výzvy, srovnatelné s jinými systémy podobnými chatbotům. Ale Llama byla k dispozici pouze na požádání; Meta se rozhodla uzavřít přístup k modelům ze strachu ze zneužití. (Navzdory tomuto preventivnímu opatření Llama později unikla online a rozšířila se do různých komunit AI.)

Naproti tomu Llama 2 – která je zdarma pro výzkum a komerční použití – bude k dispozici pro jemné doladění na platformě hostování modelu AI AWS, Azure a Hugging Face v předtrénované podobě. A bude snazší, říká Meta – optimalizovaný pro Windows díky rozšířenému partnerství s Microsoftem a také chytrým telefonům a počítačům se systémem Snapdragon od Qualcommu na čipu. (Qualcomm říká, že pracuje na uvedení Llama 2 na zařízení Snapdragon v roce 2024.)

Jak se tedy Llama 2 liší od Llamy? V mnoha ohledech, z nichž všechny Meta zdůrazňuje v dlouhém dokumentu.

Llama 2 přichází ve dvou variantách, Llama 2 a Llama 2-Chat, z nichž druhá byla vyladěna pro obousměrné konverzace. Llama 2 a Llama 2-Chat jsou dále rozděleny do verzí s různou propracovaností: 7 miliard parametrů, 13 miliard parametrů a 70 miliard parametrů. („Parametry“ jsou části modelu získané z trénovacích dat a v podstatě definují dovednosti modelu v problému, v tomto případě generování textu.)

Llama 2 byla trénována na dvou bilionech tokenů, kde „tokeny“ představují nezpracovaný text – např. „fan“, „tas“ a „tic“ pro slovo „fantastický“. To je téměř dvojnásobek toho, na čem byla Llama vycvičena (1,4 bilionu), a – obecně řečeno – čím více tokenů, tím lepší, pokud jde o generativní AI. Současný vlajkový model velkého jazyka (LLM) společnosti Google, PaLM 2, byl údajně trénován na 3,6 milionu tokenů a spekuluje se, že GPT-4 byl také trénován na bilionech tokenů.

Meta ve whitepaperu neuvádí konkrétní zdroje školicích dat, kromě toho, že jsou z webu, většinou v angličtině, nikoli z vlastních produktů nebo služeb společnosti, a zdůrazňuje text „věcného“ charakteru.

Troufám si odhadnout, že neochota odhalit podrobnosti o tréninku má kořeny nejen v konkurenčních důvodech, ale také v právních sporech kolem generativní umělé inteligence. Právě dnes tisíce autorů podepsaly dopis, v němž naléhaly na technologické společnosti, aby přestaly používat jejich psaní pro školení modelů umělé inteligence bez povolení nebo kompenzace.

Ale to jsem odbočil. Meta říká, že v řadě benchmarků si modely Llama 2 vedou o něco hůře než nejprofilovanější rivalové s uzavřeným zdrojem, GPT-4 a PaLM 2, přičemž Llama 2 výrazně zaostává za GPT-4 v počítačovém programování. Ale lidští hodnotitelé považují Llamu 2 zhruba za „užitečnou“ jako ChatGPT, tvrdí Meta; Lama 2 odpověděla na stejné úrovni v rámci souboru zhruba 4 000 výzev navržených tak, aby zkoumala „užitečnost“ a „bezpečnost“.

Modely Llama 2 od společnosti Meta mohou odpovídat na otázky – v emoji. Poděkování za obrázky: Meta

Výsledky však berte s rezervou. Meta uznává, že její testy nemohou zachytit každý scénář ze skutečného světa a že její benchmarky mohou postrádat rozmanitost – jinými slovy, nepokrývají dostatečně oblasti jako kódování a lidské uvažování.

Meta také připouští, že Llama 2, stejně jako všechny generativní modely umělé inteligence, má zaujatosti podél určitých os. Například je náchylný ke generování zájmen „on“ ve vyšší míře než zájmen „ona“ díky nerovnováze v trénovacích datech. V důsledku toxického textu v trénovacích datech nepřevyšuje ostatní modely v testech toxicity. A Llama 2 má západní zkreslení, opět díky nevyváženosti dat, včetně množství slov „křesťan“, „katolík“ a „židovský“.

Modely Llama 2-Chat si vedou lépe než modely Llama 2 v interních benchmarkech „vstřícnosti“ a toxicity Meta. Ale také mají tendenci být přehnaně opatrné, přičemž modely chybují v tom, že některé požadavky odmítají nebo reagují příliš mnoha bezpečnostními detaily.

Abychom byli spravedliví, benchmarky neberou v úvahu další bezpečnostní vrstvy, které by mohly být aplikovány na hostované modely Llama 2. V rámci své spolupráce s Microsoftem například Meta používá Azure AI Content Safety, službu navrženou k detekci „nevhodného“ obsahu napříč obrázky a textem generovaným AI, aby snížila toxické výstupy Llama 2 v Azure.

V tomto případě se Meta stále snaží distancovat od potenciálně škodlivých výsledků týkajících se Llamy 2, přičemž v dokumentu zdůrazňuje, že uživatelé Llamy 2 musí kromě pokynů týkajících se „bezpečného vývoje a nasazení“ dodržovat podmínky licence Meta a zásady přijatelného použití.

„Věříme, že otevřené sdílení dnešních velkých jazykových modelů také podpoří vývoj užitečné a bezpečnější generativní umělé inteligence,“ píše Meta v příspěvku na blogu. “Těšíme se, až uvidíme, co svět vybuduje s Llamou 2.”

Vzhledem k povaze modelů s otevřeným zdrojovým kódem však nelze říci, jak – nebo kde – by mohly být modely přesně použity. S rychlostí blesku, jakou se internet pohybuje, nebude trvat dlouho, než to zjistíme.

Read More

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *