Během posledních dvou let se generátory obrázků poháněné umělou inteligencí víceméně zkomodifikovaly díky široké dostupnosti – a zmenšování technických překážek kolem – technologie. Byly nasazeny prakticky všemi významnými technologickými hráči, včetně Google a Microsoftu, stejně jako nesčetnými startupy, které chtějí ukořistit kousek stále lukrativnějšího generativního koláče AI.
To neznamená, že jsou stále konzistentní, pokud jde o výkon – zdaleka ne. I když se kvalita generátorů obrázků zlepšila, byl to postupný, někdy mučivý pokrok.
Meta ale tvrdí, že měla průlom.
Dnes společnost Meta oznámila CM3Leon („chameleon“ v neohrabaném leetspeaku), model umělé inteligence, o kterém společnost tvrdí, že dosahuje špičkového výkonu pro generování textu na obrázek. CM3Leon se také vyznačuje tím, že je jedním z prvních generátorů obrázků schopných generovat popisky pro obrázky, což pokládá základy pro schopnější modely porozumění obrázkům, říká Meta.
„S možnostmi CM3Leon mohou nástroje pro generování obrázků vytvářet koherentnější snímky, které lépe odpovídají vstupním výzvám,“ napsala Meta v příspěvku na blogu sdíleném s TechCrunch začátkem tohoto týdne. “Věříme, že silný výkon CM3Leon v různých úkolech je krokem k generování obrazu s vyšší věrností a porozumění.”
Většina moderních generátorů obrázků, včetně OpenAI DALL-E 2, Google Imagen a Stable Diffusion, se při vytváření umění spoléhá na proces zvaný difúze. V difúzi se model učí, jak postupně odečítat šum od počátečního obrazu, který je celý tvořený šumem – krok za krokem jej přibližovat k cílové výzvě.
Výsledky jsou působivé. Šíření je však výpočetně náročné, takže provoz je nákladný a dostatečně pomalý, takže většina aplikací v reálném čase je nepraktická.
CM3Leon je naproti tomu model transformátoru, který využívá mechanismus zvaný „pozornost“ ke zvážení relevance vstupních dat, jako je text nebo obrázky. Pozornost a další architektonické zvláštnosti transformátorů mohou zvýšit rychlost trénování modelů a učinit modely snadněji paralelizovatelnými. Větší a větší transformátory lze trénovat s významnými, ale nikoli nedosažitelnými nárůsty výpočetní kapacity, jinými slovy.
A CM3Leon je sudý více Účinnější než většina transformátorů, tvrdí Meta, vyžaduje pětkrát méně výpočtů a menší trénovací datový soubor než předchozí metody založené na transformátorech.
Je zajímavé, že OpenAI před několika lety prozkoumala transformátory jako prostředek pro generování obrazu pomocí modelu nazvaného Image GPT. Nakonec však opustil myšlenku ve prospěch šíření – a mohl by brzy přejít k „konzistenci“.
K trénování CM3Leon Meta použila datovou sadu milionů licencovaných obrázků ze Shutterstocku. Nejschopnější z několika verzí CM3Leon, kterou Meta vytvořila, má 7 miliard parametrů, více než dvojnásobek oproti DALL-E 2. (Parametry jsou části modelu získané z trénovacích dat a v podstatě definují dovednost modelu při řešení problému, jako je generování textu – nebo v tomto případě obrázků.)
Jedním z klíčů k silnějšímu výkonu CM3Leon je technika zvaná supervised fine-tuning, neboli zkráceně SFT. SFT byl použit k trénování modelů generování textu, jako je ChatGPT OpenAI, s velkým efektem, ale Meta se domnívala, že by to mohlo být užitečné i při aplikaci na doménu obrázků. Ladění instrukcí skutečně zlepšilo výkon CM3Leon nejen při generování obrázků, ale také při psaní popisků obrázků, což mu umožnilo odpovídat na otázky týkající se obrázků a upravovat obrázky podle textových pokynů (např. „změnit barvu oblohy na jasně modrou“).
Většina generátorů obrázků se potýká se „složitými“ objekty a textovými výzvami, které obsahují příliš mnoho omezení. Ale CM3Leon ne – nebo alespoň ne tak často. V několika vybraných příkladech Meta nechala CM3Leon generovat obrázky pomocí výzev jako „Malý kaktus se slaměným kloboukem a neonovými slunečními brýlemi v saharské poušti“, „Fotografie lidské ruky, model ruky“, „Hlavní postava mývala v anime připravující se na epickou bitvu se samurajským mečem“ a „Stop ve stylu Fantasy19“.
Pro srovnání jsem provedl stejné výzvy prostřednictvím DALL-E 2. Některé výsledky byly blízké. Ale obrázky CM3Leon byly obecně blíže výzvě a mým očím podrobnější, přičemž nejviditelnějším příkladem je značení. (Donedávna difúzní modely zvládaly jak text, tak lidskou anatomii relativně špatně.)
Meta generátor obrázků. Poděkování za obrázky: Meta
Výsledky DALL-E 2. Poděkování za obrázky: DALL-E 2
CM3Leon také rozumí pokynům pro úpravu existujících obrázků. Například na základě výzvy „Vygenerujte vysoce kvalitní obraz ‚místnosti, která má umyvadlo a zrcadlo‘ s lahví na místě (199, 130),“ model může vytvořit něco vizuálně koherentního a, jak to říká Meta, „kontextově vhodného“ – pokoj, umyvadlo, zrcadlo, láhev a vše. DALL-E 2 absolutně nedokáže zachytit nuance výzev, jako jsou tyto, občas úplně vynechá objekty specifikované ve výzvě.
A samozřejmě, na rozdíl od DALL-E 2, může CM3Leon sledovat řadu výzev ke generování krátkých nebo dlouhých titulků a odpovídat na otázky týkající se konkrétního obrázku. V těchto oblastech si model vedl lépe než dokonce i specializované modely titulků obrázků (např. Flamingo, OpenFlamingo), přestože ve svých tréninkových datech viděl méně textu, tvrdí Meta.
Ale co zaujatost? Bylo zjištěno, že generativní modely umělé inteligence, jako je DALL-E 2, posilují společenské předsudky, koneckonců generují obrazy pozic autorit – jako „CEO“ nebo „ředitel“ – které zobrazují převážně bílé muže. Meta nechává tuto otázku bez odpovědi a říká pouze, že CM3Leon „může odrážet jakékoli zkreslení přítomné v trénovacích datech“.
„Jak se průmysl AI neustále vyvíjí, generativní modely jako CM3Leon jsou stále sofistikovanější,“ píše společnost. “I když je průmysl stále v raných fázích pochopení a řešení těchto výzev, věříme, že transparentnost bude klíčem k urychlení pokroku.”
Meta neřekla, zda – nebo kdy – plánuje vydat CM3Leon. Vzhledem k tomu, jaké kontroverze se točí kolem open source uměleckých generátorů, nezadržoval bych dech.