Vzhledem k tomu, že pandemie působí jako akcelerátor, zdravotnický průmysl nadšeně přijímá umělou inteligenci. Podle průzkumu společnosti Optum z roku 2020 má 80 % zdravotnických organizací zavedenou strategii umělé inteligence, zatímco dalších 15 % ji plánuje spustit.

Prodejci – včetně společností Big Tech – rostou, aby uspokojili poptávku. Google nedávno představil Med-PaLM 2, model umělé inteligence navržený tak, aby odpovídal na lékařské otázky a nacházel postřehy v lékařských textech. Jinde startupy jako Hippocratic a OpenEvidence vyvíjejí modely, které nabízejí praktické rady lékařům v oboru.

Ale jak přichází na trh více modelů vyladěných pro případy lékařského použití, je stále náročnější zjistit, které modely – pokud vůbec nějaké – fungují tak, jak jsou inzerovány. Vzhledem k tomu, že lékařské modely jsou často trénovány s daty z omezených, úzkých klinických prostředí (např. nemocnice podél východního pobřeží), některé vykazují zaujatost vůči určitým populacím pacientů, obvykle menšinám, což vede ke škodlivým dopadům v reálném světě.

Ve snaze vytvořit spolehlivý a důvěryhodný způsob srovnávání a hodnocení lékařských modelů navrhlo MLCommons, inženýrské konsorcium zaměřené na vytváření nástrojů pro metriky průmyslu AI, novou testovací platformu nazvanou MedPerf. Společnost MedPerf, říká MLCommons, dokáže vyhodnotit modely umělé inteligence na „různých lékařských datech v reálném světě“ a zároveň chránit soukromí pacientů.

„Naším cílem je využít benchmarking jako nástroj ke zlepšení lékařské umělé inteligence,“ uvedl v tiskové zprávě Alex Karargyris, spolupředseda MLCommons Medical Working Group, která stála v čele MedPerf. „Neutrální a vědecké testování modelů na velkých a různorodých souborech dat může zlepšit efektivitu, snížit zaujatost, vybudovat důvěru veřejnosti a podpořit dodržování předpisů.“

MedPerf, výsledek dvouleté spolupráce pod vedením Medical Working Group, byl vybudován za přispění jak z průmyslu, tak z akademické sféry – více než 20 společností a více než 20 akademických institucí poskytlo zpětnou vazbu, podle MLCommons. (Členové Medical Working Group zahrnují velké korporace jako Google, Amazon, IBM a Intel a také univerzity jako Brigham and Women’s Hospital, Stanford a MIT.)

Na rozdíl od univerzálních srovnávacích sad AI společnosti MLCommons, jako je MLPerf, je MedPerf navržen tak, aby jej používali provozovatelé a zákazníci lékařských modelů – zdravotnické organizace – spíše než prodejci. Nemocnice a kliniky na platformě MedPerf mohou na požádání hodnotit modely umělé inteligence pomocí „federovaného hodnocení“ pro vzdálené nasazení modelů a jejich vyhodnocování na místě.

MedPerf podporuje kromě soukromých modelů a modelů dostupných pouze prostřednictvím rozhraní API oblíbené knihovny strojového učení, jako jsou ty z Epic a Azure OpenAI Services společnosti Microsoft.

Ukázka fungování platformy MedPerf v praxi. Poděkování za obrázky: MLCommons

V testu systému na začátku tohoto roku MedPerf hostil NIH financovanou Federated Tumor Segmentation (FeTS) Challenge, velké srovnání modelů pro hodnocení pooperační léčby glioblastomu (agresivního mozkového nádoru). Společnost MedPerf letos podpořila testování 41 různých modelů, které běží jak on-premise, tak v cloudu, na 32 zdravotnických zařízeních na šesti kontinentech.

Podle MLCommons všechny modely vykazovaly snížený výkon na místech s jinou demografickou charakteristikou pacientů, než na kterých byli trénováni, což odhaluje zaujatosti obsažené v nich.

„Je vzrušující vidět výsledky pilotních studií lékařské umělé inteligence MedPerf, kde všechny modely běžely na nemocničních systémech s využitím předem dohodnutých datových standardů bez sdílení jakýchkoli dat,“ Renato Umeton, ředitel operací umělé inteligence v Dana-Farber Cancer Institute and další spolupředseda MLCommons Medical Working Group, uvedl v prohlášení. “Výsledky potvrzují, že benchmarky prostřednictvím federovaného hodnocení jsou krokem správným směrem k inkluzivnější medicíně s umělou inteligencí.”

MLCommons vidí MedPerf, který se v současnosti většinou omezuje na vyhodnocování modelů analýzy radiologického skenování, jako „základní krok“ směrem k jeho poslání urychlit lékařskou AI prostřednictvím „otevřených, neutrálních a vědeckých přístupů“. Vyzývá výzkumníky AI, aby použili platformu k ověření svých vlastních modelů napříč zdravotnickými institucemi a vlastníky dat k registraci svých údajů o pacientech, aby se zvýšila robustnost testování MedPerf.

Tento autor si však klade otázku, zda – za předpokladu, že MedPerf funguje tak, jak je inzerováno, což není jistá věc – zda ​​platforma skutečně řeší neřešitelné problémy AI pro zdravotnictví.

Nedávná odhalující zpráva sestavená výzkumníky z Duke University odhaluje obrovskou propast mezi marketingem umělé inteligence a měsíci – někdy i roky – dřiny, která je zapotřebí k tomu, aby technologie fungovala správným způsobem. Zpráva zjistila, že obtíž často spočívá v tom, jak začlenit technologii do každodenní rutiny lékařů a sester a do komplikovaných systémů poskytování péče a technických systémů, které je obklopují.

Není to nový problém. V roce 2020 Google vydal překvapivě upřímnou bílou knihu, která podrobně popsala důvody, proč jeho screeningový nástroj AI pro diabetickou retinopatii zaostává při testování v reálném životě. Zátarasy nespočívaly nutně v modelech, ale spíše ve způsobech, jak nemocnice nasadily své vybavení, síle připojení k internetu a dokonce i v tom, jak pacienti reagovali na hodnocení s pomocí AI.

Není překvapením, že zdravotníci – nikoli organizace – mají ohledně umělé inteligence ve zdravotnictví smíšené pocity. Průzkum společnosti Yahoo Finance zjistil, že 55 % věří, že tato technologie není připravena k použití a pouze 26 % věří, že jí lze věřit.

To neznamená, že zkreslení lékařského modelu není skutečným problémem – je a má důsledky. Bylo zjištěno, že například systémy jako Epic’s pro identifikaci případů sepse přehlédly mnoho případů onemocnění a často vydávaly falešné poplachy. Je také pravda, že získat přístup k různorodým, aktuálním lékařským datům mimo bezplatná úložiště pro testování modelů nebylo snadné pro organizace, které nemají velikost, řekněme, Google nebo Microsoft.

Není však moudré vkládat příliš mnoho zásob do platformy, jako je MedPerf, kde se to týká zdraví lidí. Benchmarky koneckonců vyprávějí jen část příběhu. Bezpečné nasazení lékařských modelů vyžaduje průběžný a důkladný audit ze strany prodejců a jejich zákazníků – nemluvě o výzkumných pracovníkech. Absence takového testování je nezodpovědná.

Read More

By admin

Leave a Reply

Your email address will not be published. Required fields are marked *