V únoru zakladatel Sogou Wang Xiaochuan na Weibo řekl, že „Čína potřebuje vlastní OpenAI“. Čínský podnikatel je nyní o krok blíže svému snu, když jeho rodící se startup Baichuan Intelligence dnes představil svůj velký jazykový model nové generace Baichuan-13B.
Baichuan je propagován jako jeden z nejslibnějších čínských vývojářů LLM, a to díky legendární minulosti jeho zakladatele jako zázračného počítačového vědce z univerzity Tsinghua a založení poskytovatele vyhledávačů Sogou, který později získal Tencent.
Wang odstoupil ze Sogou na konci roku 2021. Když ChatGPT vzal svět útokem, podnikatel v dubnu spustil Baichuan a rychle získal 50 milionů dolarů na financování od skupiny andělských investorů.
Stejně jako ostatní domácí LLM v Číně je i Baichuan, model s 13 miliardami parametrů založený na architektuře Transformer (která také podporuje GPT), trénován na čínských a anglických datech. (Parametry odkazují na proměnné, které model používá ke generování a analýze textu.) Model je open source a je optimalizován pro komerční aplikace, jak uvádí jeho stránka GitHub.
Baichuan-13 je trénován na 1,4 bilionu tokenů. Pro srovnání, Meta’s LLaMa používá 1 bilion tokenů ve svém modelu s 13 miliardami parametrů. Wang dříve v rozhovoru řekl, že jeho startup je na dobré cestě k vydání rozsáhlého modelu srovnatelného s OpenAI GPT-3.5 do konce tohoto roku.
Baichuan, který začal teprve před třemi měsíci, již dosáhl pozoruhodné rychlosti vývoje. Do konce dubna se tým rozrostl na 50 lidí a v červnu spustil svůj první LLM, předtréninkový model Baichuan-7B, který se může pochlubit 7 miliardami parametrů.
Nyní je základní model Baichuan-13B k dispozici zdarma akademikům a vývojářům, kteří obdrželi oficiální souhlas s jeho používáním pro komerční účely. Důležité je, že ve věku amerických sankcí vůči Číně na čipy AI tento model nabízí varianty, které lze provozovat na spotřebitelském hardwaru, včetně grafických karet Nvidia 3090.
Mezi další čínské firmy, které masivně investovaly do velkých jazykových modelů, patří gigant vyhledávačů Baidu; Zhipu.ai, spinoff Tsinghua University vedené profesorem Tang Jie; stejně jako výzkumný ústav IDEA vedený Harrym Shumem, který spoluzaložil Microsoft Research Asia.
Velké čínské jazykové modely se rychle objevují, protože země se připravuje na zavedení některých z nejpřísnějších světových předpisů o umělé inteligenci. Jak uvedl Financial Times, očekává se, že Čína vypracuje předpisy pro generativní umělou inteligenci se zvláštním zaměřením na obsah, což naznačuje posílenou kontrolu než pravidla zavedená v dubnu. Společnosti mohou také potřebovat získat licenci před spuštěním velkých jazykových modelů, což by mohlo zpomalit snahy Číny konkurovat USA v rodícím se průmyslu.